达观OCR文字识别赋能公积金中心实现业务办理再提速
以某一线城市公积金中心业务为例 ,在申办和审批业务中的贷款、归集和处罚业务流程中需要识别身份证、结婚证、银行卡、公积金提取申请表、贷款合同、规划许可证等多类文档的多种关键信息。前端业务人员接收到的申请资料五花八门,且不同类型文档的样本质量参差不齐,对识别模型的准确率影响很大。
达观智能OCR 平台 可从同类文档不同样本中分析共性、提取特征,从而获得高精度的识别模型。独创的多模态信息识别可从文本布局、文字语义、字体形式、周边特征词等因素去识别提取样本中的关键信息,实现了OCR+CV+NLP的完美结合。
1、 通过版面分析,将一张图片自动切分为两页,预处理使得识别效果大幅上升;
2、 通过文字语义分析,将切分好的内容归入“不动产登记证明”类型的文档,自动选择相应的识别模型进行识别抽取,抽取;
3、 通过字体形式、表格识别,“理解”文本、分辨出标题、落款、盖章、编号以及表格内的重要信息。
图:印章识别技术示例