网站首页 > 技术文章 正文
论文地址
LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment (ICDAR 2021).
https://arxiv.org/pdf/2105.06224.pdf
表格本身是按照人设定的规则来展示数据,具有很强的对齐特性,如果能够得到对齐很好的表格单元格的边框,那么还原表格的结构就非常容易了,因此重点就是如何获得更好的对齐的单元格边框。
LGPMA采用HRNet-W48 Cascade Mask RCNN作为backbone,图像经过CNN提取特征后分成两路,一路类似于Mask RCNN的形式用来检测非空单元格叫LPMA(因为是单元格粒度,所以是局部的),LPMA中又分为3个头,一个头是将单元格中的文本区域分割出来,另外两个头用来学习单元格的水平对齐和垂直对齐的soft mask;另一路叫GPMA(因为是整张图的粒度,所以是全局的),也分为3个头,一个头用来学习整图的二分类mask(单元格区域和非单元格区域),另两个头在全局学习整张图上的非空单元格的水平和垂直对齐的soft mask。在得到两路soft mask后,用一个mask re-scoring的方式将LPMA和GPMA的对齐mask融合,之后对每个单元格边框进行进一步精修。
接下来是对单元格的后处理得到表格结构的过程。分为cell matching,empty cell searching和empty cell merging三个步骤得到最终的表格结构。
提供了一个在PubTabNet数据集上训练的模型。
表格识别效果
原文地址
https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650352503&idx=1&sn=5fd0b10a1b2248846c8d0e537e07fedc&chksm=87813d84b0f6b49258ea0fc211d5f676de57cb17f37667a9ba05a629a454c29fecb0f03a5924&token=2075784644&lang=zh_CN#rd
- 上一篇: 实战:使用Mask-RCNN的停车位检测
- 下一篇: 春节停车难?用Python找空车位
猜你喜欢
- 2025-01-13 EfficientMod:微软出品,高效调制主干网络 | ICLR 2024
- 2025-01-13 外媒点赞百度飞桨:产业智能化进程的推动者
- 2025-01-13 [OpenCV实战]13 OpenCV中使用Mask R-CNN进行对象检测和实例分割
- 2025-01-13 春节停车难?用 Python 找空车位!
- 2025-01-13 春节停车难?用Python找空车位
- 2025-01-13 实战:使用Mask-RCNN的停车位检测
- 2025-01-13 英伟达A100性能实测:训练速度可达V100的3.5倍
- 2025-01-13 无人机图像处理常见问题及解决方案
- 2025-01-13 NVIDIA Jetson Nano 2GB 系列文章(56):启动器CLI指令集与配置文件
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)