简介

熟识广度自学的开发人员对Papers with Code的确不孤单，做为亚洲地区领跑的开放源码机器自学天然资源网络平台，软件系统学术论文、标识符、统计数据集等多方位统计数据资料。

每月Papers with Code单厢和Medium（如前所述主轴的高效率新闻媒体网络平台）协力评选活动出五大本年度态势学术论文和库房。在2021年，PaddleOCR透过PP-OCRv2、PP-Structure、多词汇数学模型、《亲自动手学OCR·十讲》等一连串备受瞩目预览，榜上有名Top Trending Libraries of 2021！

详尽镜像查阅：

https://medium.com/paperswithcode/papers-with-code-2021-a-year-in-review-de75d5a77b8b

上周，PaddleOCR项目组剖析了近几年AAAI、CVPR、ACM等顶会的OCR路径关键学术论文，将数年的试验试著通通释放出，纸制追加8种OCR最前沿演算法（检验1种，辨识3种，关键性信息提取1种，听觉概要3种）。在Papers with Code 中Browse State-of-the-Art的Optical Character Recognition（文本辨识）各项任务下，PaddleOCR也正式成为全面覆盖学术论文演算法最多，Star名列第三（早已吻合20000）的Github库房

！

详尽镜像查阅：

https://paperswithcode.com/task/optical-character-recognition

本次预览全面覆盖了检验、辨识、关键性信息抽取、听觉概要4个路径，满足OCR在各个场景中的应用，是一次对数学模型库的全面升级！具体演算法包括：

检验：PSENet[1]

识别：NRTR[2]、SEED[3]、SAR[4]

关键性信息提取数学模型：SDMG-R[5]

文档听觉概要数学模型(DocVQA)：LayoutLM[6]、LayoutLMv2[7]、LayoutXLM[8]

接近20000，Star排名第一的Github仓库！

PaddleOCR数学模型全景图，白线虚线框为本次追加

下面我们就一起来看看这些数学模型的特色与使用场景吧！

演算法介绍

丰富的检验辨识数学模型库

本次检验辨识数学模型的预览十分丰富，辨识数学模型包括引入2D-Attention对不规则文本进行定位的SAR、可插拔的语义模块的SEED、如前所述Transformer的NRTR，以及如前所述渐进式扩展演算法的检验数学模型PSENet，其中：

文本辨识数学模型：SAR

学术论文题目：

Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition

作者：Hui Li, Peng Wang等·发表会议：AAAI 2019

特色：针对不规则文本场景提出了 2D attention 模块对文本中的字符进行定位，不需要字符级别的标注，没有采用如前所述修正的策略，简化训练流程。有效提升了不规则文本的辨识精度。

适用场景：在垂类场景中有部分弯曲文本的统计数据

接近20000，Star排名第一的Github仓库！

SAR效果图

文本辨识数学模型：SEED

学术论文题目：

SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

作者：Zhi Qiao, Yu Zhou等·发表会议：CVPR 2020

特色：核心的亮点是可插拔的语义模块。在数学模型训练过程中结合了语义信息去引导解码过程。并且该模块可在预测阶段去除掉，完全不影响预测速度和效率。在低质量的图片场景下有不错的提升效果。

适用场景：遮挡、模糊图片较多的垂类场景，利用语义信息进行词汇矫正

接近20000，Star排名第一的Github仓库！

SEED效果图

文本辨识数学模型：NRTR

学术论文题目：

NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition

作者：Fenfen Sheng, Zhineng Chen等·发表会议：ICDAR 2019

特色：透过完整的Transformer结构对输入图片进行编码和解码，只使用了简单的几个卷积层做高层特征提取，在文本辨识上验证了Transformer结构的有效性。

适用场景：需要利用Transformer结构的OCR场景

接近20000，Star排名第一的Github仓库！

NRTR结构图

文本检验数学模型：PSENet

学术论文题目：

Shape Robust Text Detection with Progressive Scale Expansion Network

作者：Wenhai Wang, Enze Xie等·发表会议：CVPR 2019

特色：其提出的渐进式扩展演算法透过从最小kernel逐步扩张到最大kernel，解决了分割演算法对弯曲粘连文本的检验问题。

适用场景：各类规则和弯曲文本的检验场景

接近20000，Star排名第一的Github仓库！

PSENet效果图

PP-Structure增加听觉文档概要能力

通用OCR能力提取了图片中的文本位置和文本内容，但有时除文本信息以外，我们还想了解文本框的类别、文本框之间的关系，这就转化为关键性信息提取以及听觉文档概要各项任务。

关键性信息提取即判断辨识到的文本属于哪个类，例如对于一张身份证图片，数学模型不仅可以输出“张朋朋”的文本，也能将其分类为 ”姓名”。

听觉文档概要（DocVQA）主要针对文档图像的文本内容提出问题，例如一张身份证图片，问“公民身份号码是什么？”答案即为图片上的身份证号码。

DocVQA的具体实现方法透过SER(Semantic Entity Recognition，语义实体辨识)与RE (Relation Extraction，关系抽取)两个子各项任务实现。透过SER将每个检验到的文本框分类为姓名、身份证号等，透过RE对每一个检验到的文本框分类为问题或答案。

接近20000，Star排名第一的Github仓库！

SER与RE各项任务示例图

本次预览全面覆盖一个关键性信息提取数学模型SDMG-R，以及三个听觉文档概要数学模型LayoutLM、LayoutLMv2、LayoutXLM，分别来看：

关键性信息提取数学模型：SDMG-R

学术论文题目：

Spatial Dual-Modality GraphReasoning for Key Information Extraction

作者：Hongbin Sun, Zhanghui Kuang等

特色：提出了一种多模态图推理网络，同时使用文本特征、文本框特征以及文本框间的空间位置关系解决关键性信息提取问题。SDMG-R相比较以往演算法具有强大的鲁棒性和泛化性，适合实际生产使用。

适用场景：关键性信息提取和分类

接近20000，Star排名第一的Github仓库！

SDMG-R效果图

DocVQA：LayoutLM系列

学术论文题目：

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

作者： Yiheng Xu, Minghao Li等·发表会议：ACM 2020

特色：LayoutLM利用文本分布的板式信息和辨识到的文本信息，如前所述bert进行大规模预训练，然后在SER和RE各项任务进行微调；LayoutLMv2在LayoutLM的基础上，将图像听觉信息引入预训练阶段，对多模态信息进行更好的融合；LayoutXLM将LayoutLMv2扩展到多词汇。

适用场景：针对卡证、票据等场景的信息提取、关系抽取、文档听觉概要各项任务

接近20000，Star排名第一的Github仓库！

LayoutLMv2结构图

如何使用

对于上述数学模型的使用方法可以在Github首页文档中PP-Structure信息提取（DocVQA、关键性信息抽取）与OCR学术圈（检验演算法、辨识演算法）找到，数学模型训练微调同步支持。

接近20000，Star排名第一的Github仓库！

而且对于这些数学模型的垂类统计数据训练、推理各项任务早已出现在社区常规赛。大家如果想对这些数学模型进一步加深理解与实践，参与社区常规赛的“学术最前沿数学模型训练与推理”，不仅可以获得比赛的积分与奖励，优秀项目还可以获得开发人员说直播、宣传推广的机会。

接近20000，Star排名第一的Github仓库！

不忘初心

感谢广大开发人员的支持

我们深知学术研究不易，PaddleOCR本次开放源码出的前沿学术数学模型，希望能够为OCR研究者提供方便的Baseline，同时还能结合飞桨面向产业落地的特质，快速将优秀的学术数学模型应用在生产生活中。我们也非常高兴的看到PP-OCR系列数学模型能够在各行各业的众多垂类场景中发光发热，帮助更多的企业开发人员实现业务落地。也特别感谢广大开发人员积极参与到PaddleOCR的项目建设中来，感谢大家！

接近20000，Star排名第一的Github仓库！

PaddleOCR Contributor

🔅飞桨官网：

https://www.paddlepaddle.org.cn

🎉项目地址：

https://github.com/PaddlePaddle/PaddleOCR

🎈社区常规赛地址：

https://github.com/PaddlePaddle/PaddleOCR/issues/4982

参考文献：

[1] Wang, Wenhai, et al. “Shape robust text detection with progressivescale expansion network.” Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. 2019.

[2] Sheng,F., Chen, Z., & Xu, B. (2019, September). NRTR: A no-recurrencesequence-to-sequence model for scene text recognition. In 2019 InternationalConference on Document Analysis and Recognition (ICDAR) (pp. 781-786). IEEE.

[3] QiaoZ, Zhou Y, Yang D, et al. Seed: Semantics enhanced encoder-decoder frameworkfor scene text recognition[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. 2020: 13528-13537.

[4] Li H, Wang P, Shen C, et al. Show, attend and read: A simple and strongbaseline for irregular text recognition[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence. 2019, 33(01): 8610-8617.

[5] Sun H, Kuang Z, Yue X, et al. Spatial Dual-Modality Graph Reasoning forKey Information Extraction[J]. arXiv preprint arXiv:2103.14470, 2021.

[6] Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout fordocument image understanding[C]//Proceedings of the 26th ACM SIGKDDInternational Conference on Knowledge Discovery & Data Mining. 2020:1192-1200.

[7] Xu Y, Xu Y, Lv T, et al. Layoutlmv2: Multi-modal pre-training forvisually-rich document understanding[J]. arXiv preprint arXiv:2012.14740, 2020.

[8] Xu Y, Lv T, Cui L, et al. LayoutXLM: Multimodal Pre-training forMultilingual Visually-rich Document Understanding[J]. arXiv preprintarXiv:2104.08836, 2021.

往期精彩内容