近日,人为智能/天然说话处置领域的顶级国际学术会议EMNLP 2023论文接管了局颁布。来自亿万先生MR推算机学院天然说话处置与多模态人机交互尝试室的2篇论文被接管录用。EMNLP全称天然说话处置经验步骤会议(Conference on Empirical Methods in Natural Language Processing),作为国际说话学会(ACL)下属的SIGDAT幼组主办的天然说话处置领域的顶级国际会议,是人为智能/天然说话处置领域沉要国际学术盛会(CCF-B类),以上两篇工作为亿万先生MR初次在该会议接管的论文,展示了近年来推算机学院学科建设、钻研生人才造就工作不休获得新的突破。
被录用论文的简要介绍如下:
1. Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning
类型:Main-conferenc
作者:王昊(讲师)、陈夏华(2021级硕士钻研生)等
简介:从视觉丰硕的类表单文档 (VFD) 中提取属于预约义类此外实体是一项拥有挑战性的工作K伎嫉揭谎嘈偷挠镆迨堤逋ǔS涤欣嗨频氖泳鹾筒季质粜,如一样或类似的字体、布景、色彩以及天堑框的地位和大幼,这为鉴别实体及其类型提供了沉要的批示。然而,现有模型仅在预训练阶段参与粗粒度的跨模态约束(例如文本图像、字补丁和布局文本对齐)来加强视觉通路的特点提取,但这并不能捕获足够的细粒度视觉特点并且视觉先验知识的利用不及。其次,之前的步骤视觉编码器的暗示能力比最新的光学字符鉴别(OCR)引擎中的视觉编码器弱,由于它们没有思考文本段检测和天堑框回归等中央工作,而这些工作对于正确定位和提取细粒度视觉特点极度沉要。因而,团队提出了一种新鲜的视觉不合称一致性进建(VANCL),通过结合色彩先验来加强模型捕获细粒度视觉和布局特点的能力。
图1 VANCL双流一致性进建框架
VANCL选取一种双流一致性进建的框架将加强的视觉信息迁徙至原始模型,拥有无参数引入、可拔插式的优势,后续尝试证了然分歧色彩模式与人类行为拥有肯定有关性,色彩搭配模式对了局的影响是切合认知生理学的。

图2 分歧数据集、分歧骨干模型的机能比力
2. DocTrack: A Visually-Rich Document Dataset Really Aligned with Human Eye Movement for Machine Reading
类型:Findings
作者:王昊(讲师)、王庆旋(2022级硕士钻研生)、李越(2019级本科生)等
简介: 各领域对视觉富文档的使用,催生了对可能像人类一样阅读和理解文档的文档人为智能模型的需要,这必要克服技术、说话和认知阻碍。遗憾的是,不足相宜的数据集严沉故障了这一领域的发展。为相识决这个问题,该团队构建了一个全新的数据集 DocTrack,这是一个蕴含了多种类型视觉富文档的多模态数据集,并利用眼动跟踪技术捉拿人类眼动信息,援手钻研者更好的理解人类阅读认知过程。
此表,团队还探求了分歧阅读挨次对文德讽解工作的影响,由于默认的OCR引擎解析后的文档内容挨次往往是无法规的,不利于机械理解视觉富文档;现有的模型不足从给定文档中产生适合Transformer架构序列化输入的能力。因而,该钻研索求若是机械依照与人类一样的挨次阅读会产生什么,在 OCR原始挨次、Z-Order和人类阅读挨次三类分歧的挨次的基础上,探索了阅读挨次对机械视觉富文德讽解的影响。同时,提出了基于多模态特点融合的排序模型来仿照人类的阅读挨次,每个模型都思考到了影响人类若何选择优先阅读对象元素的分歧成分,蕴含元素的地位、元素中的文本以及与之有关的视觉区域。利用这些模型,我们能够更正确地评估阅读挨次对人类理解此类文档的影响。

图3 仿照人类阅读挨次的排序模型
该钻研进一步基于四种分歧的模态组合去仿照人类阅读挨次,并基于所预测出的挨次,构建了相应的机械文德讽解模型。尝试了局批注,所提出的模型能够仿照的人类阅读挨次,且与真实人类阅读的挨次拥有很高的有关性。

图4 DocTrack数据集上人类的阅读挨次对机械理解视觉富文档的影响
当然,固然文档人为智能模型已经获得了沉猛进展,但要像人类一样正确、陆续、矫捷地阅读视觉内容更丰硕的文档,还有很长的路要走。
近年来,推算机学院学科建设、人才造就、科学钻研等工作不休深入推动,逐步深刻专业领域前沿,产出更多高质量科研成就,为学院造就高质量创新人才起到沉要支持作用。