多模态大模型「卷」向智能文档，只为解放打工人的双手

雷锋网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

文档是重要的信息存储载体之一，人们每天接触和使用文档的频率也越来越高。相对应地，用户对文档处理和图像内容的安全要求逐渐提升，智能文档技术面临的挑战也更大。

随着 AI 行业迈入大模型时代，这个问题出现了新的解法：大模型与 OCR 结合，加上 SSL OCR 技术（使用 SSL 加密协议的 OCR 技术），在智能文档识别性能、可解释性和安全性等方面均有大幅提升，为文档处理带来了新机遇。

今年3月，上海静安区警方接到了一则关于虚拟投资理财的报案：一男子出资 300 余万委托某二级股票市场项目的投资者帮其代操作投资。在此期间，该投资者时常会分享“个股走势”“账户收益”的图片或视频给刘先生，但到了双方契约期满时，刘先生却讨要投资收益及本金无果、还被要求续签协议。

经查，该投资者实则是一名失信人员，此前所提供大量“账户收益”图片，均是通过 P 图伪造的。

AI技术的兴起在许多领域极大地解放了人们的双手，也带来了新的安全隐患。图像信息的造假是最常见的风险之一，AI图像内容安全也成为了图像图形领域关注的重点。

近日，中国图象图形大会（CCIG 2023）在苏州举办，大会以“图象图形向未来”为主题，谭铁牛、赵沁平、吴一戎、徐宗本等院士出席现场并作主旨报告。

其中，谭铁牛院士就《视觉内容生成与安全》进行主题报告分享，从人工智能内容生成的研究背景及现状出发，介绍了近年来在内容生成和取证方面取得的研究结果，就视觉鉴伪技术要点进行专门分享，并展望了未来的发展趋势。

谭铁牛提到，以大模型为代表的人工智能核心技术取得了新的突破，人工智能的广泛应用也给人类社会带来法律法规、道德伦理、社会治理等方面的挑战。AIGC能够让“眼见能不为实，眼见不再为实”，内容生成与内容安全要统筹兼顾。

或许有人存在“幸存者偏差”的心态，认为自己并不属于AIGC“换脸”魔法的辐射对象，图像安全与自己无关。事实上，除了人像，人们在工作中常见常用的各类文档所产生的图片，也是造假重灾区，如被篡改的资质证书、文案、聊天截图等，常常被用于散播谣言、经济诈骗，开头提到的理财诈骗使用的便是图片篡改手段。

CCIG 2023举办期间，《文档图像智能分析与处理》高峰论坛引发了众多业内人士的关注。该论坛由中国图象图形学学会文档图像分析与识别专业委员会与合合信息联合组织，由中国图象图形学学会常务理事、华南理工大学的金连文教授担任主持人。

多模态大模型「卷」向智能文档，只为解放打工人的双手

金连文主持《文档图像智能分析与处理》论坛

论坛邀请到了相关领域最顶尖的研究者们，包括中科院自动化所、北大、中科大的学术专家，以及华为等知名企业的技术代表，就文档图像处理技术的发展现状及应用，AI图像内容安全面临的挑战、多模态大模型时代的行业机遇等议题展开了深入讨论。

文档处理智能化之路：

缘起百年之前，AI引发剧变

文档就是各种合同吗？其实不然，文档涵盖的载体远比常人想象的宽泛，如纸张、物理表面、图像、文件等含有文字符号的媒体都属于文档。近年来，随着数字化转型提速，AI 在文档智能处理领域的落地，令许多原本手工化的文档处理环节登上了效率“直升梯”。

有关文档识别处理的研究始于百年之前。1929 年，德国学者 Tausheck 通过纯光学技术研究，提出了首个 OCR 专利“光学字符识别”，此后OCR相关技术不断发展，并被广泛应用于文档处理中。2013年前后，随着深度学习技术的引入，文档识别与理解技术也就此迈向以深度学习为主导的研究时期，Attention 机制等深度学习技术在文档图像处理领域的应用，使得文档识别性能也得到了快速提升。

多模态大模型「卷」向智能文档，只为解放打工人的双手

引用自刘成林《大模型时代的文档识别与理解》报告主题分享

什么样的文档处理称得上是“智能文档处理”呢？从使用者的角度看，“智能”至少需要满足自动从不同文档中提取有效信息这个基础，甚至达到“理解”文档信息，辅助人们办公、生活的层级。

在《文档图像智能分析与处理》论坛上，专家们从框架上划定了“智能文档处理”的技术范畴，包括文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI安全、知识化等。可以发现，关于文档图像的工作处于整个流程的第一环节，对文档处理后续工作地质量与效率有着决定性的影响。

多模态大模型「卷」向智能文档，只为解放打工人的双手

图像预处理：

文档智能化处理的重要开端

进入实际应用后，文档图像处理还面临着诸多挑战。文档类型多样化、产生了繁杂的版式与结构；受拍摄器材、背景环境等外部因素的影响，图像时常存在噪声和质量问题；图文信息中的形变、阴影、摩尔纹等情况，也加大了技术识别和理解工作的难度。

多模态大模型「卷」向智能文档，只为解放打工人的双手

刘成林就《人工智能大模型时代的文档识别与理解》报告主题进行分享

论坛中，中国科学院自动化研究所副所长刘成林认为，总体上，当前文档识别与理解研究向深度、广度扩展，处理方法全面转向深度神经网络模型和深度学习方法，识别性能大幅提升且应用场景不断扩展。但当前技术在识别精度和可靠性、可解释性、自适应性等方面存在明显不足，还有形变解决、跨场景能力薄弱等很多技术问题有待解决。

多模态大模型「卷」向智能文档，只为解放打工人的双手

刘成林专门提到，文档图像预处理等领域目前有很大的进展，挑战也很多。这一观点也引起了产业界专家的共鸣。合合信息智能技术平台事业部副总经理、高级工程师丁凯博士就合合信息在文档图像预处理方面的工作进行了分享。

丁凯指出，文档图像预处理的整体架构由 ROI 提取、干扰去除、形变矫正、图像恢复、图像增强这五个重要技术步骤组成。其中，形变矫正包括了对倾斜透视、弯曲的矫正，图像恢复可用于解决阴影、摩尔纹干扰信息对图像识别影响的问题。

多模态大模型「卷」向智能文档，只为解放打工人的双手

举个例子，当人们用手机拍摄下一本书的某个页面时，受拍摄角度、文档放置位置、抖动等因素的影响，可能会造成所拍摄的图像有折叠弯曲的现象，需要进行矫正处理。合合信息采用基于位移场网络学习方法的系统构架，可对形变文档进行智能矫正，包括弯曲矫正与透视矫正，同时智能定位文档边缘，切除多余背景，自动“拉平”图像，提升文档内容识别效率与质量。

多模态大模型「卷」向智能文档，只为解放打工人的双手

另外，涉及有些不便导出的文件、图片时，人们需要对着电脑屏幕拍照，可能产生严重的“摩尔纹”（屏幕纹），从而加大了识别和理解工作的难度，导致模型在处理文档图像时，出现识别精度差、分析结果不正确等情况。

多模态大模型「卷」向智能文档，只为解放打工人的双手

因此，如果要对摩尔纹进行去除，首先需要从文档背景中提取一个模块，将图像中的摩尔纹等干扰项进行提取，借助干扰去除模块对摩尔纹进行消除后，再把原图和去除干扰项的图进行融合，从而就能获得一张效果比较好的摩尔纹去除图。

合合信息通过对文档进行智能图像处理，可大幅提升文档扫描质量、文档识别分析能力。目前，弯曲矫正、去摩尔纹、反光消除等多项技术已被应用于合合信息旗下“扫描全能王”等产品中。

多模态大模型「卷」向智能文档，只为解放打工人的双手

如果说图像的预处理能力影响的是文档处理的效率，那么对于图片中虚假信息的辨别，则关乎到使用者的安全和利益。面对文档篡改、虚拟图像识别等新的问题，AI 仍然是重要的突破口。

保障文档图像安全

研究者做了这些工作

一般情况下，篡改文本图像的生成与检测问题往往被认为是对立的。但在中国科技大学的谢洪涛教授看来，二者其实一个矛与盾的问题，密不可分、相辅相成。

谢洪涛认为，篡改文本图像的生成方法能够反映篡改文本图像检测方法的检测性能；同时，篡改文本图像检测方法也能反映篡改文本图像生成的效果，因此两者只有共同进步才能实现矛与盾的良性发展。

多模态大模型「卷」向智能文档，只为解放打工人的双手

引用自谢洪涛《篡改文本图像的生成与检测》报告主题分享

在过往的一些训练方法中，针对不同的伪造方法所得到的检测模型可能并不具备泛化性，为了构建一个通用的篡改文本检测器，如何做到既保留场景文本检测器的优越性、并降低对数据量的依赖程度就十分重要。

谢洪涛提到，篡改文本检测定义为多分类目标检测任务，任务的检测不应只拟合篡改文本区域，因此他们提出，通用检测器的构建应该从一般场景文本向篡改文本检测器的网络修改策略，并基于频域的特征提取器来降低网络对数据量的依赖性。

而通过引入频域或者其他域中对模型检测的生成内容进行特征感知，包括伪造区域的纹理区分、设计合理的伪造检测算法、时间复杂度等等，可最终建立起一个攻防博弈的过程。

多模态大模型「卷」向智能文档，只为解放打工人的双手

谢洪涛就《篡改文本图像的生成与检测》报告主题进行分享

产业应用中，面对文档图像内容的安全问题，合合信息也进行了相应的部署，在其智能文字识别服务平台推出了篡改检测服务。

据合合信息丁凯博士介绍，过去技术人员通常会参考Exif信息来判断图片是否存在篡改主要问题，但这种方法容易出现误判：图片经过PS，GMIP等图像编辑软件，但未篡改具体内容，可能会误判；图片被篡改后，用第三方软件或工具抹除Exif信息，也可能造成误判。

基于此，合合信息研发了基于深度学习的图像篡改检测技术及相关系统，融合SRM、BayarConv、ELA等方法提升 CNN Tamper Detector 性能，检测 RGB 域和噪声域存在痕迹的篡改。

多模态大模型「卷」向智能文档，只为解放打工人的双手

丁凯就《智能文档处理技术在工业界的应用与挑战》报告主题进行分享

通过学习图像被篡改后统计特征的变化，该系统智能捕捉图像在篡改过程中留下的细微痕迹，可检测出擦除重打印文本、重打印文本、复制、移动、拼接等多种篡改形式，让人工智能准确识别出图片篡改的不同类型，并进行针对性的处理，提升识别精度和场景通用性。目前，合合信息图像篡改检测技术已被银行、保险、制造业等多个行业引入。

多模态大模型时代

智能文档处理的挑战与机遇

近半年来，大模型成为智能时代全新的基础设施。对于大模型的讨论，关注者们不应当只停留在用了多少张卡、庞大的参数量和增加了哪些新模态，而是 AI 的能力如何应用到具体的产业中，比如借助大模型，让文档图像智能分析与处理可以更好地处理跨模态信息，将文本、视频、图片等不同形式的信息进行融合，从而实现更加全面、深入的信息分析。

作为图像图形技术的重要应用场景之一，文档图像智能处理也应当积极拥抱大模型时代。北京大学教授邹月娴在论坛现场中提到，“在与文档图像处理技术密切相关的OCR领域中，专业化大规模的预训练模型是可行的。大模型是一个大的趋势，对于小团队来说，做工具是一个非常好的方法。”

多模态大模型「卷」向智能文档，只为解放打工人的双手

邹月娴就《视觉-语言预训练模型及迁移学习方法》报告主题进行分享

深入产业 AI，不可避免地会遇到更低频、长尾的复杂场景和大规模协同的需求。这些具体场景的数据样本少、数据分布不均，这也意味着企业在研发上也需要更高的成本，服务定制化程度也更高，通用性大模型的优势由此显现。

在文档图像处理领域中，处于应用层的企业用户往往要面临复杂多样的场景，这意味着企业需要调用多个 API，维护成本大、难度也较高。因此，企业更需要的是一个能覆盖多元使用场景、具备专业行业 Know-How 的垂直领域 OCR 大模型。

一个理想的设想是，企业既可以调用 OCR 大模型全部能力，也可以结合自身企业需求和特定场景，基于小型知识图谱训练自己的模型算法。对此，华为云 AI算法研究员廖明辉提出，垂直领域OCR大模型在数据层面，最关键的不是数据的数量，而是数据的多样性。

多模态大模型「卷」向智能文档，只为解放打工人的双手

廖明辉就《华为云OCR技术进展及实践》报告主题进行分享

以银行中常见的基金对账单托管业务为例，市面上基金公司众多，往往每家公司的账单样式都不相同，加上复杂的表格呈现形式，因此十分考验 OCR 大模型对结构化信息的提取能力。基于OCR大模型之上，银行就可以针对托管对账单这一特定场景的结构化信息特性，训练专用的提取算法。

这种基于垂直领域的大模型对专业知识数据的需求更高，丁凯也表示，很多算法可能在某一个数据集中表现很好，但换一个效果就大打折扣。因此，如何通过零样本、小样本等进行技术创新也是一个值得探索的点，“思考 OCR 领域的智能涌现是什么很重要。”丁凯说。

刘成林也对OCR大模型做了一下系统性的总结，指出：大模型的特征表示、语言能力对于文档处理的智能化发展非常关键。大模型技术与光学字符识别（OCR）技术的结合，能够对海量数据进行理解、处理；不同任务的专用模型和学习算法，接下来仍然大有可为。

“大模型的可解释性、安全度十分重要，还需要研究者们进行更为深入的探讨。具体到实践层面，大模型技术还有可观的提升空间。”刘成林提到，从识别性能来看，大模型技术在场景文本、逻辑版面、文档问答等方面还有很多工作可以做。

今天，大模型的准入门槛正在不断降低，技术变革正在席卷更多的行业，为文档图像智能处理带来了新的机遇，一场关于耐力和实力的马拉松较量已拉开序幕。

参考链接：

https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf

参考资料（以下均为大会报告）：

《人工智能大模型时代的文档识别与理解》.刘成林

《视觉-语言预训练模型及迁移学习方法》.邹月娴

《篡改文本图像的生成与检测》.谢洪涛

《华为云OCR技术进展及实践》.廖明辉

《智能文档处理技术在工业界的应用与挑战》.丁凯

（雷峰网 (公众号：雷峰网) 雷峰网）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。