近日,腾讯优图在国际权威的ICDAR 2019“Scanned Receipts OCR and Information Extraction”关键信息抽取任务中,通过自研智能结构化方案,以97.67%的Hmean排名刷新榜单纪录。从识别到内容理解,优图OCR正在不断突破技术边界,进行着核心技术的创新。
ICDAR SROIE比赛榜单
ICDAR SROIE榜单结果
ICDAR(International Conference on Document Analysis and Recognition)是全球OCR领域公认最权威的比赛之一, 有OCR领域的奥斯卡盛会之称。ICDAR 在2019年新增了SROIE(Scanned Receipts OCR and Information Extraction)关键信息抽取任务,标志着OCR从识别到理解的进化。
作为首个针对结构化文档提出的信息抽取任务,SROIE因其技术的挑战性和广泛的应用性,一直是全球各大名校、科技公司竞逐的焦点。此次,腾讯优图刷新OCR信息提取纪录,也标志着业界对腾讯OCR科研成果的认可。
优图OCR技术能力
作为快速数据采集的手段,OCR技术已在越来越多贴近消费端需求的真实场景中落地,例如金融、政务、医疗、财务报销等领域,OCR技术在优化业务流程、解放生产力和降低企业成本方面,实效凸显,得到了行业和客户的广泛认可。
据腾讯优图研究人员表示,在此次SROIE任务中主要存在两方面难点,首先是票据中的地址和公司名称字段长短不一,位置近邻,内容相似且干扰较多。其次是,在应付款项字段提取中,同一张票据中可能存在多个相同或相近的金额,例如单价、小计、含税金额、优惠金额等,而不同票据之间对于该项的前缀描述也不尽相同,这些难题对于OCR算法的适应能力更具挑战性。
方案结果对比
为了攻克这两大难题,腾讯优图提出了一种智能结构化模型,基于相对位置Attention的结构避免语义可读性对模型性能的影响。融入图像整体表征,使得模型能够在了解版式分布的同时,关注局部细微差异。此外,腾讯优图还细化了标签层级,内聚关键字段内部特征,强化字段交界处的语义变化表征,提升模型在地址、公司字段难例上的表现效果。因此相较于TOP榜单模型,腾讯优图的智能结构化方案结合自然语言处理能力,不仅在速度上更快,字段提取准确率也更高。
目前,腾讯优图OCR通用文字识别涵盖了印刷体、英文、手写、表格、印章、速算等诸多能力,结构化识别实现了从多个垂直场景结构化到自定义模板结构化方案及智能结构化方案的全覆盖,帮助各产品和业务提升效率、创造价值。
腾讯优图始终积极推动研究成果在业务领域的落地。在OCR领域,腾讯优图基于多角度文本检测、语义增强的文字识别、公式识别、NLP后处理等基础技术,输出了通用文字识别、证照识别、智能票据、单据识别、车辆信息识别、教育试题识别、金融保险单据识别等多个产品及解决方案, 并在政务、金融、教育、医疗等多个应用场景落地。
未来,优图将以更加开放的心态,深耕于技术领域,不断扩展技术成果的落地场景和应用空间,带给大众更多切实便利和惊喜体验。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。