当前位置：首页 > news >正文

不错的建设工程人员查询家庭优化大师免费下载

news 2025/7/23 5:20:23

不错的建设工程人员查询,家庭优化大师免费下载,专门做优惠劵的网站,微信小程序开发快速入门摘要科学知识主要存储在书籍和科学期刊中，通常以PDF的形式。然而PDF格式会导致语义信息的损失，特别是对于数学表达式。我们提出了Nougat，这是一种视觉transformer模型，它执行OCR任务，用于将科学文档处理成标记语言&a…

摘要

科学知识主要存储在书籍和科学期刊中，通常以PDF的形式。然而PDF格式会导致语义信息的损失，特别是对于数学表达式。我们提出了Nougat，这是一种视觉transformer模型，它执行OCR任务，用于将科学文档处理成标记语言，并证明了我们的模型在新的科学文档数据集上的有效性。

引言

存储在pdf中的知识，信息提取有难度，其中数学表达式的语义信息会丢失。现有的OCR方法没有办法识别公式。为此，我们引入了Nougat,这是一种基于transformer的模型，能将文档页面的图像转换为格式化的标记文本。这篇论文的主要贡献如下：

1) 发布能够将PDF转换为轻量级标记语言的预训练模型；

2) 我们引入了一个将pdf转为标记语言的pipeline；

3) 我们的方法仅依赖于页面的图像，支持扫描的论文和书籍；

模型

以前的VDU(视觉文档理解)方法要么依赖于第三方OCR工具，要么专注于文档类型，例如：收据、发票或类似表单的文档。最近的研究表明，不需要外部OCR，在VDU中也能实现有竞争力的结果。

如图1所示，我们的模型基于donut构建，是一个encoder-decoder模型，允许端到端的训练。

编码器

视觉encoder首先接受一张文档图像，裁剪边距并调整图像大小成固定的尺寸(H,W)；如果图像小于矩形，那么增加额外的填充以确保每个图像具有相同的维度。我们使用了Swin Transformer，将图像分为不重叠的固定大小的窗口，然后应用一系列的自注意力层来聚集跨窗口的信息。该模型输出一个embedding patch $Z \in R^{d \times N}$ ，其中d是隐层维度，N是patch的数目。

解码器

使用带有cross-attention的mBART解码器解码 $Z \in R^{d \times N}$ ，然后生成一系列tokens，最后tokens被投影到vocabulary的大小，产生logits。我们使用作为decoder；

SetUP

我们用96 DPI的分辨率渲染文档图像。由于swin transformer的限制性，我们将input size设置为(896,672)；文档图像先resize,然后pad到所需的大小，这种输入大小允许我们使用Swin基础模型架构。我们用预训练的权重初始化了模型，Transformer解码器的最大序列长度是4096。这种相对较大的规模是因为学术研究论文的文本可能是密集的，尤其表格的语法是token密集的。BART解码器是一个10层的decoder-only transformer。整个架构共有350M参数；在推理的时候，文本使用greedy decoding生成的。

训练：使用AdamW优化器训练3个epoch，batch_size是192；初始化学习率是 $5 \times 10 ^{-5}$ ;

数据增强

在图像识别任务中，使用数据增强来提高泛化性是有效的。由于我们的训练集只有学术论文，所以我们需要应用一系列的transformation来模拟扫描文档的缺陷和可变性。这些变换包括：腐蚀，膨胀，高斯噪声，高斯模糊，位图转换，图像压缩，网格失真和弹性变换。每个都有一个固定的概率来应用给给定图像。每个转换的效果如图所示：

在训练过程中，我们会用随机替换token的方式给groud truth增加扰动。

数据

目前没有pdf页面和其对应的source code的成对数据集。因为我们根据arxiv上的开源文章，建立了自己的数据集。对于layout多样性，我们引入了PMC开源非商业数据集的子集。在预训练过程中，也引入了一部分行业文档库数据。

ARXIV

我们从arxiv上收集了174w+的pape，收集其源代码并编译pdf。为了保证格式的一致性，我们首先用latex2html处理源文件，并将他们转为html文件。这一步很重要，因为他们是标准化的并且去掉了歧义，尤其是在数学表达式中。转换过程包括：替换用户定义的宏，添加可选括号，规范化表以及用正确的数字替换引用。然后我们解析html文件，并将他们转换为轻量级标记语言，支持标题，粗体和斜体文本、公式，表等各种元素。这样，我们能保证源代码格式是正确的，方便后续处理。整个过程如图所示：

PMC

我们还处理了来自PMC的文章，其中除了PDF文件之外，还可以获得具有语义信息的XML文件。我们将这些文件解析为与arxiv文章相同的标记语言格式，我们选择使用PMC少得多的文章，因为XML文件并不总是具有丰富的语义信息。通常，方程和表格存储为图像，这些情况检测起来并非易事，这导致我们决定将PMC文字的使用限制在预训练阶段。

IDL

IDL是行业产生的文档集合。这个仅用在预训练阶段，用于教模型基本的OCR；

分页

我们根据pdf的页中断来分割markdown标记，然后将每个pdf页面转为图像，来获得图像-标记pair。在编译过程中，Latex会自动确定pdf的页面中断。由于我们没有重新编译每篇论文的Latex源，我们必须启发式地将源文件拆分为对应不同页面的部分。为了实现这一点，我们使用PDF页面上的嵌入文本和源文本进行匹配。

然而，PDF中的图像和表格可能不对应他们在源代码中的位置。为了解决这个问题，我们在预处理阶段去掉了这些元素。然后将识别的标题和XML文件中的标题进行比较，并根据他们的Levenshtein距离进行匹配。一旦源文档被分成单个页面，删除的图形和表格就会在每个页面的末尾重新插入。

查看全文

http://www.khdw.cn/news/57516.html