自有OCR平台研发与应用

(整期优先)网络出版时间:2023-06-14
/ 2

自有OCR平台研发与应用

袁东营

中国石化共享服务有限公司东营分公司  山东东营  257000

摘 要:在信息技术飞速发展的背景下,OCR平台研发有利于实现企业的现代化智能管理。文章概述了OCR平台研发的背景和目标,探讨了项目技术路线和创新点并进行了效益分析,以供同类项目参考。

关键词:OCR识别技术;平台研发

一、项目背景及意义

(一)项目背景

1.信创背景下,国家倡导采用国产算法框架,自主进行技术开发

近年来,国家大力发展信息技术应用创新,倡导将技术饭碗端在自己手里,而OCR作为现代企业实现智能化的重要工具,采用国产算法框架,自主进行技术研发,形成国产化的独立技术产品,对于有效避免西方国家的技术壁垒,保障企业稳定运行具有重要作用。

2.图像识别范围与需求扩大,传统OCR识别技术难以满足业务发展要求

目前业务处理规模和数据量急剧增加,存在大量企业自制单据及不规范单据,图像识别的范围与需求逐步扩大,传统的OCR识别技术已不能满足目前共享业务发展的要求,为此,基于深度学习,研发新一代OCR识别技术,对于快速满足用户多样化的票据识别需求具有重要作用。

3.公司急需打造自有OCR服务产品,满足内部智能化与外拓市场需要

目前的OCR工具没有建设团队的支持,运维支持不足,新模型的训练响应比较缓慢,模型识别率的提升也停滞不前,迫切需要自研一套自有OCR工具产品。

)建设目标

1.先进性原则。从技术上,利用机器学习最新成果建设平台,确保平台技术先进,具有持续迭代提升的能力。

2.国产化原则。采用国产的组件和技术建设平台,满足信创要求。

3.自主建设原则。以自主建设为主,在部分难点攻克上,请外协开展培训、知识传递等协作。

4.持续提升原则。OCR关键在模型,模型不是一次训练就能达到最优效果,需要针对出现的问题,持续训练,持续优化。

二、项目技术路线和创新点

(一)技术路线

1.技术架构

OCR服务平台总体分为数据层、识别层、处理层三层组成。其中,数据层提供最基础的数据保障,为上层结构提供样本数据支撑,同时满足对用户数据的管理。识别层是OCR识别的核心层,负责对样本进行集中整理并通过深度学习对其进行图像特征提取和学习,实现图像识别。处理层负责提供票据真伪鉴别、向外提供OCR服务等,并对识别层及数据层实施基础管理。架构图如下:

自有OCR平台技术架构

2.识别流程

依据图像获取--图像校对--图像分类---信息提取--票据验真--信息录入系统的OCR识别的整体思想,并结合财务业务票据的流转过程,我们设计并搭建了一套OCR识别流程。首先通过共享自助系统将ERS与FSO系统中的单据号爬取下来,存到数据库中的临时表中;其次根据单据号抓取单据号下的图片,通过接口存储到文件服务器,同时抓取图片地址将其存储到图片表中;然后调用OCR识别模型,将未识别的图片进行图像识别,其中OCR识别过程为将图片进行矫正等处理,处理后进行图像分类放到对应的模型中进行图像识别,并将识别结果存储到图片表中;最后对图片的识别信息进行逻辑处理,将业务需要的信息结构化,供业务系统调用。

3.日常监控

本项目共采用了四个消息队列用于对整个OCR识别流程进行监控,分别为ocr_bx、ocr_fq、ocr_pic_url、ocr_fq_wait_api,实现对单据号爬取、图片爬取、图像识别、发票真伪鉴别等OCR识别全流程的严密监控,跟踪OCR识别全流程的运行情况,防止某个环节报错导致整个流程停滞,确保整个OCR流程的稳定运行。

(二)创新点

1.建立了OCR识别全链路

综合RPA、图像处理技术、深度学习、消息队列以及系统开发等多技术应用,我们自主研发了共享OCR服务平台,建立了从票据的智能化采集、OCR票据识别与验真、OCR日常监控、到OCR服务应用的全链路,具备OCR全流程的服务能力。脱离石化盈科等现有外部OCR识别工具,打造了自己的OCR服务平台,逐步满足共享票据识别需求。

(1)RPA票据智能采集。采用票据采集、发票验真等RPA自动在相关业务系统中执行影像件采集与校验。

(2)OCR票据识别与验真。通过发票标注、发票处理、模型训练、模型测试、模型上线、票据真伪鉴别等过程实现OCR模型开发;通过国税接口,对发票的真伪进行验真。

(3)OCR日常监控。运用消息队列对各类RPA及OCR的运行情况进行监控。

(4)OCR服务平台搭建。开发OCR识别服务平台实现OCR服务应用。

2.提升了OCR识别范围与准确率

通过票据智能分类技术、各种票据识别模型开发、各种票据关键信息提取等技术研究,实现了多种票据识别服务,突破了原有OCR仅识别增值税发票的局限,另外通过图像处理技术对图像模糊、倾斜、扭曲等现象不断优化,不断提升了票据识别的准确率。

(1)票据智能分类。支持发票、个性化业务票据等多种票据智能自动分类。

(2)多种票据识别模型开发。支持发票、个性化业务票据等多种票据模型开发。

(3)票据关键信息提取。基于各类票据全票面的信息精准识别,提取业务需要的关键信息的系统调用。

(4)全票面信息精准识别。针对解决图像模糊、倾斜、扭曲等问题,不断提升票据识别准确率。

三、项目实施情况及取得的主要成果

(一)第一阶段

基于百度飞桨技术,搭建了OCR识别技术框架,建立了OCR的识别流程及日常OCR监控途径,并完成了票据分类、票据验真、图像增强等基本票据识别技术的突破;

成效:能够满足正常票据的识别需求;

(二)第二阶段

完成图像矫正、压缩包识别、PDF票据识别、多票据识别、二维码识别等技术的突破;

成效:能够实现票据倾斜、票据压缩、PDF票据等非正规票据的准确识别,并不断提升票据的识别准确率;

(三)第三阶段

完成表格模型、智能问答等技术突破,尤其是表格模型,作为一种通用型的模型,可以用于各类表格的识别;

成效:能够极大减轻票据模型训练的工作量。

(四)第四阶段

目前正在组织开发自主产权的OCR识别服务平台,着力实现从图像切割、图像标注、数据处理、模型训练、模型评估测试到模型上线的全流程一体化服务以及错误票据回传重新训练的功能,健全OCR识别服务的机制。

四、项目成果应用情况及效益测算

(一)项目成果应用

1.上线了31种票据模型,综合票据识别准确率达到了98%。目前已经实现了16种业务场景票据的识别,完成了发票、销售发料单、交款单、发票借据等31种票据模型的上线工作,其中发票的识别准确率达98%,每条票面信息的置信度基本都达到了0.9以上,识别效果显著,综合票据识别准确率达到90%。

2.开发OCR识别服务平台,为财务公司的票据识别业务提供了良好服务。针对财务公司的业务需求开发功能,结合业务实际用户仅需打包上传需识别票据,平台即能将票据信息结构化转换并存储至excel表格中。

(二)项目效益测算

1.经济效益

从当前已上线模型的票据识别情况来看,每月票据识别数量达64万余份,一年可识别768万余份,假设每张票据处理时间0.5分钟,一年可节省工时约6.4万工时,节省约400余万元。

2.管理效益

(1)通过OCR识别服务平台,可以减少原来大量需要人工输入的操作,可以将财务共享工作人员从重复性的工作中解放出来,并可有效降低因人工输入引起的失误。

(2)通过接口集成国家税务总局全国增值税发票查验平台对单据真伪进行鉴别,能够有效防范业务风险。

1