计算机系统应用教程网站

网站首页 > 技术文章 正文

海康威视OCR/表格识别开源

btikc 2025-01-13 11:13:20 技术文章 16 ℃ 0 评论



论文地址

LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment (ICDAR 2021).

https://arxiv.org/pdf/2105.06224.pdf


表格本身是按照人设定的规则来展示数据,具有很强的对齐特性,如果能够得到对齐很好的表格单元格的边框,那么还原表格的结构就非常容易了,因此重点就是如何获得更好的对齐的单元格边框。


LGPMA采用HRNet-W48 Cascade Mask RCNN作为backbone,图像经过CNN提取特征后分成两路,一路类似于Mask RCNN的形式用来检测非空单元格叫LPMA(因为是单元格粒度,所以是局部的),LPMA中又分为3个头,一个头是将单元格中的文本区域分割出来,另外两个头用来学习单元格的水平对齐和垂直对齐的soft mask;另一路叫GPMA(因为是整张图的粒度,所以是全局的),也分为3个头,一个头用来学习整图的二分类mask(单元格区域和非单元格区域),另两个头在全局学习整张图上的非空单元格的水平和垂直对齐的soft mask。在得到两路soft mask后,用一个mask re-scoring的方式将LPMA和GPMA的对齐mask融合,之后对每个单元格边框进行进一步精修。

接下来是对单元格的后处理得到表格结构的过程。分为cell matching,empty cell searching和empty cell merging三个步骤得到最终的表格结构。




提供了一个在PubTabNet数据集上训练的模型。



表格识别效果



原文地址

https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650352503&idx=1&sn=5fd0b10a1b2248846c8d0e537e07fedc&chksm=87813d84b0f6b49258ea0fc211d5f676de57cb17f37667a9ba05a629a454c29fecb0f03a5924&token=2075784644&lang=zh_CN#rd

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表