合合信息IPO进行时:破解中文语料难题,加速大模型性能飞跃
近日,在 2024 年世界人工智能大会 (WAIC) 上,合合信息推出 TextIn 智能文档处理平台,这一创新举措不仅旨在解决当前大模型训练面临的数据局限与质量问题,特别是针对中文语料稀缺和复杂文档解析的难题,更为合合信息的 IPO 之路增添了浓墨重彩的一笔,为其在 AI 行业发展提供了强有力的「加速器」。
随着人工智能技术的飞速发展,大模型展现出前所未有的强大能力,其性能的提升离不开海量高质量数据的支持。然而,在中文领域,高质量数据资源的匮乏成为了制约大数据性能进一步提升的瓶颈。合合信息此次推出的 Textin 智能文档处理平台,针对这一痛点为行业带来了前所未有的解决方案,同时也为公司未来的 IPO 市场表现奠定了坚实的基础。
该平台集成了 TextIn 文档解析、TextIn Embedding(文本向量数据模型) 以及 OpenKIE 三大核心工具,旨在从源头提升语料质量,加速大模型的训练与迭代。使用后的大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。其中,TextIn 文档解析引擎以其卓越的性能和广泛的适用性,在复杂文档解析方面展现出了强大实力,为大模型提供了更加纯净、结构化的训练数据。
除了文档解析,TextIn Embedding 模型也是该平台的重要组成部分。该模型通过深入学习大量中文语料,能够迅速定位目标信息,提取有效文本特征,提高大模型在信息搜索和问答方面的质量、效率和准确性。相比其他开源模型,TextIn Embedding 模型具有体积小、占用资源少、支持可变输出维度等优势,能够更好地适应不同场景的需求。
此外,OpenKIE 信息抽取工具也为 TextIn 智能文档处理平台增色不少。该工具能够自动抽取文档中的关键信息,并直接应用于其他系统,极大地提高了工作效率。在大模型文档处理场景中,合合信息与百川智能等头部企业合作,共同破解了多文档元素识别、版面分析等难题,将百页文档的整体处理速率提升超过 10 倍。
合合信息智能创新事业部总经理唐琪表示,TextIn 智能文档处理平台目前已覆盖 金融 、医学、财经、 媒体 等 47 个场景,共支持 3200 余类文档的处理。该平台已被多家头部大模型厂商纳入预训练流程,并积累了小批量开发者用户。。
未来,合合信息将继续深耕文档处理领域,为大模型的训练与应用提供更多优质「燃料」,推动人工智能技术的持续进步。同时,随着公司 IPO 进程的推进,合合信息将进一步加速其在 AI 领域的布局和发展,为社会创造更大的价值。