陆伟教授课题组在信息管理领域国际权威期刊IPM发文探讨学术文本图表检测方法
发布时间:2024-07-10       发布者:       浏览次数:

档案智能开发与服务重点实验室陆伟教授课题组在SSCI一区期刊Information Processing and Management(IPM)发表题为“An effective method for figures and tables detection in academic literature”的学术文本图表检测方法最新研究成果。IPM是信息管理领域的TOP期刊。于丰畅博士后为第一作者和通讯作者,指导教师为陆伟教授。

图1:期刊论文截图

学术文献中的图和表是各种学术文本数据挖掘任务的重要数据源,要求其在数据输入时的完整性。然而,现有研究使用相同的IoU(并集上的交集)或者是用于自然情况的基于IoU的指标,来衡量算法的性能。在学术文本图形和表格检测任务中,高IoU和检测整体之间是存在差距的。该研究证明了这种差距的存在,并认为主要原因是在边界区域的检测误差,并提出了一种将语义分割和轮廓检测级联的有效检测方法。该方法获得了0.983的页面级F1,超过了最先进的学术文本图形和表格检测方法。该研究成果可以显著提高学术文本数据质量,降低下游应用的数据清洗成本。

12F6D

2:学术文献图表检测方法工作流程

论文原链接:https://doi.org/10.1016/j.ipm.2023.103286