OCR文本识别,场景虽下,大有乾坤

AI赋能千行百业的口号如今正在逐步落地实践,普罗大众在日常生活的衣食住行之中也越来越多的感受到AI带来的智能和快捷。

比如社区场景中出入口的人脸识别通道、社区智能垃圾分类、电瓶车禁入电梯系统;办公场景中人脸识别门禁考勤、票证识别;包裹收寄场景中图片转文本的一系列应用等等。

如此来看,不知不觉中,除了人脸识别的应用外,文本识别也已经深入渗透到大众生活当中,并为我们带来了诸多便利。

关于文本识别技术,其是计算机视觉和目标识别的基础研究之一,可以将图片、扫描件中的文字识别成可以编辑的文本,代替人工手动录入,近年在深度卷积神经网络的推波助澜下飞速进展。

文本识别技术 秒识万千字符


从目前市场上文本识别技术的应用情况来看,文本识别技术适用于多种应用场景,其实用性完全不亚于名声在外的人脸识别。
文本识别技术的研究价值巨大,对人工智能在地图导航、智能交通、信息检索、机器视觉等领域的发展有较强推动作用,具有广阔的应用空间和重要的研究意义。

随着各行各业信息化程度的提升,很多需要文字信息录入的场合如今也在实现业务流程的数智升级。传统的票据录入、单据录入、各种证件执照等文件信息的录入以往基本只能人工手动输入,不仅效率低下,还容易出错。如今在AI技术赋能之下,卡证票据文档识别技术的投入使用,可迅速提升文本信息的录入效率,并且识别准确率基本可达99%以上。

为了让这项技术能够更方便的为人所用,目前不少企业已经开发了相当成熟的票证识别应用程序,嵌在各种业务办理平台的辅助功能当中,广泛应用于移动开户、移动投保、银行票据录入、医疗单据录入等场景,可准确识别身份证、行驶证、驾驶证、营业执照、医疗发票等证件票据。

复杂且个性化的文字和各类字符丰富着我们的日常生活,不过,这也给文本识别带来挑战。

比如在城市治理场景中,城市街道沿街商铺各类个性化的招牌,招牌颜色各异、招牌大小不一、随意变更招牌以及小广告粘贴等问题,这不仅影响市容市貌也存在安全隐患。

针对文本识别技术的应用案例中,我们还看到了文本识别在在钢铁、能源、交通等行业的应用。比如在钢铁、能源领域,通过编号识别算法自动获取车辆、集装箱、钢卷等目标上的编号信息,助力高效管理;在交通运输安全管理领域,运用自然场景文字识别算法自动读取车身文字信息,智能筛选出重点管理车辆,以便针对不同车型采取不同管理方案。

又或者在医疗领域,帮助公司识别药品说明书,帮助公司快速构建药品说明书的信息库;在物流领域,通过文本识别技术快速完成各类单据自动识别,提效降本效果显著……文本识别技术可适用场景相当广泛,有了文本识别算法,也藉由机器之“眼”,让我们从此告别繁琐的手动输入低效率方式。
 

文本识别技术的难点和挑战


文本识别应用的普及,得益于OCR(Optical Character Recognition)文字识别算法的日趋成熟,不过,从目前市场的文本识别应用情况来看,由于应用场景的多样性,文本识别也还面临着一些挑战:
扫描的单据往往存在虚线干扰、版面缺失、倾斜、暗光、扭曲、噪声等情况,定位难度大。

文字千变万化,例如字体、字号、颜色、笔画宽度等不固定,方向任意;小数点、近似英文数字、特殊符号、连接词、艺术字等,容易被漏检或误识别。

语言种类繁多,经常是中英文混合,多种语言混合等场景,识别难度加大。

表格单据经常存在盖章(印章覆盖文字)、错行(文字溢出表格单元,与表格线交叉)的情况,也造成文字识别干扰,极大影响识别准确率。

拍照上传的图片存在噪声、模糊、光线变化、形变、复杂背景干扰等问题,对文字定位和识别的准确度是巨大的挑战。

机器不同于人眼,尤其在现实场景中,字体设计、文本背板、语种以及外部的光线环境等各类因素都可能对机器识别造成干扰,而这也正是当前AI视觉企业在文本识别算法上需要攻破的技术方向。

当然,我们也看到了相关企业在算法研究上取得的进展。比如针对低质量图像、生僻字、艺术字的识别。

 

2021年8月10日 09:13