中科凡语周玉：用我们这一代人的努力扛起国产NLP发展大旗

砍柴网 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

过去10余年间，人工智能（AI）经历了一次复兴，其中最重要的技术进步之一发生在自然语言处理（NLP）领域。

2006年谷歌发布了万亿词语料库——Trillion Word Corpus，并从大量的公共网页中获得了n-gram频率；2010年ImageNet制作了一个包含2万张内容标签的图片的公开语料库；2014年微软推出人机对话交互平台“小冰”，对话数据累计超过300亿轮……

NLP技术的进步使得机器翻译质量大幅提高，也催生了更多数字化场景应用，随之国内NLP产业也迎来快速发展。据艾瑞咨询等统计研究，2021年中国NLP核心产品及相关产业规模超1000亿元；2022年预计NLP核心产品及相关产业规模将达到1500亿元；到2025年，这一规模将达2400亿元。

浪潮之下，NLP产品路径通用性与专用性的要素之争，人工智能下半程的技术趋势如何，中国NLP发展又将走向何方？

恰逢国内领先的跨领域多模态自然语言处理方案商、服务商、运营商——中科凡语成立4周年之际，笔者邀请到了中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士，就以上问题作探讨解读，共同探讨关于NLP的技术前沿与产业趋势。

中科凡语周玉：用我们这一代人的努力扛起国产NLP发展大旗

中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士 从通用到定制形成动态闭环，搭建 NLP 底层技术平台

此次采访时已经是晚上9点，刚刚忙完工作的周玉通过电话接受了笔者的采访，期间周玉条分缕析的讲了一个多小时，言谈间难掩创业的兴奋与激情，语气铿锵有力，思维逻辑清晰，论据详实充分。见微知著，或许正是这样严谨端正的态度，才使其脱颖而出成为NLP学界为数不多的顶尖女性学者、创业者。

深耕NLP领域多年，周玉对NLP领域发展前景自是十分看好，但在谈到目前主流NLP产品的应用落地时深感任重道远。

周玉坦言，虽然未来十年在产业界被公认为NLP技术发展黄金期，但产品落地方面，尚有许多问题亟待解决。“较为典型的问题有两个，一是高定制化场景带来的高沟通门槛，使得技术人员和需求方往往需要多次磨合，沟通效率较低；二是要开发通用性较强的产品，对不同领域、不同场景的应用会需要不同的业务数据支撑，适配过程较为漫长。”

面对NLP产品的定制化和通用性难题，中科凡语的产品开发路径或许对行业有一定启示。周玉表示，NLP的产品落地的特殊性在于其必须要有一个定制化的过程，但是先通用还是先定制，这其实有点类似“先有鸡还是先有蛋”的哲学思考，具体实践时其实是更偏向于一种动态化的闭环。

“早期，可以面对不同行业领域客户先提炼出共性需求，搭建一个通用的技术框架，满足基础的模块功能；然后再构建通用场景的通用产品；之后再迁移到特定场景进行定制化开发；最后在定制化过程中再衍生出面向特定场景的产品。总的来看，其实是在动态演化过程中不断完善迭代。”

以OCR翻译（图像识别翻译）为例，目前市面上常见的方法是先做OCR的识别，然后再机器翻译，但此类方式普遍面临效率低、场景识别弱、复杂场景效果差等问题。中科凡语基于这些痛点，会先提供通用性较强的OCR模块产品部署到客户端，满足当下迫切需求，然后再通过实际应用中的反馈、长尾效应等搜集问题和需求，再通过技术人员进行二次深度开发，最大化的平衡客户需求与产品性能之间的锚点。

周玉直言，“NLP产品开发的底层逻辑是技术储备，技术储备越丰富，通用技术模块越成熟，迁移成本就会越低，在特定行业的产品化效率也就越高，行业壁垒也就随之建立起来。”

这一开发逻辑，从中科凡语过往的产品中清晰可循。比如“信译”是基于为用户提供优质、专业、准确、高效的机器翻译服务；“信推”是针对长文本完成多模态自动摘要生成和关键词提取及内容推送；“信取”则提供跨场景、多语言、多粒度的数据爬取、融合、分类及管理，等等。

“目前中科凡语所推出的‘五信’，‘飞译’或是‘洞知’产品，都是基于客户普遍的共性需求所建立的。未来的产品开发，我们还是将继续朝着系统化、模块化、工具化的方向出发， 为客户提供更易组装、更加灵活、适用性更强的智能服务产品，构建多模块、广适用、高精度的底层NLP技术平台 。”周玉说到。

专业领域亿级语料数据 为行业发展提供动力

如果说产品路径与架构搭建了NLP技术的经脉，那么数据，或者更确切说是来自专业领域内的高质量标注数据，则是当前AI深度学习时代下NLP技术的血液，为NLP技术推动产业发展提供关键动力。

在刘慈欣的科幻小说《诗云》中，曾畅想过这样一幅“技术与艺术对抗”的终极浪漫场景：一个高等外星文明为了写出超越李白的诗歌，穷尽了太阳系的大部分能量，列举出了所有可能的字词组合，最终，他们“借助伟大的技术，写出了诗词的巅峰之作”，却还是选择了认输，因为他们“不可能把它们从诗云中检索出来”。

标注数据之于NLP，颇有异曲同工之妙。NLP技术本质上是基于深度学习的,相比于视觉或音频信息，自然语言更加抽象,蕴含了更加丰富的人类定义的知识,导致相比其他AI技术领域，NLP对标注数据的要求也更严苛、难度更大。可以说，NLP的技术效果很大程度上取决于标注数据的质量和规模。

如何获得高质量、大规模的标注数据？

周玉表示，“数据标注并非只是简单的数据层面的问题，相较图像、视频等类型，NLP采标方式更为复杂，难度大很多，因此更需要 标注人员、标注数据和和算法三方面的协同作战 。”

为此，中科凡语作了大量的基础准备工作。“在标注人员方面，比如以翻译样本标注为例，考虑到翻译人员对语言语种的专业性涉猎，中科凡语同全国100多所高校外国语学院达成了合作，并建立了与之相对应的人物画像，丰富语种人才库的同时，进一步降低了适配时间，提升适配效率；在标注数据方面，分层分级，重点筛选种子样本，因为相较普通样本，种子样本往往能起到1比20的效果；再通过不断优化迭代算法方面的优势，来最大化的降低标注成本，筛选出有价值的数据。”周玉解释到。

同时，通过前台数据与后台算法的深度绑定，中科凡语进一步提升了数据储备的质量和规模。“前台数据一旦有更新的标注，后台算法也会相应进行优化，确保标注数据的高质量高精度；再通过工程化开发来减轻数据标注中的重复劳动，提升业务效率，进而形成一个良性的闭环。”

基于中国科学院自动化研究所相关团队20余年的积累以及同广大国内语言类高校的深入合作，中科凡语目前已经建立了涵盖特定行业、教育、医疗、航空等多个领域的亿级双语平行语料及大规模涵盖多语言、多领域、多场景、多任务、多层次的高精准标注语料，NLP语料数据方面行业领先。同时，通过创新迭代的智能化标注算法，中科凡语也在不断充实NLP语料池，着力挖掘大规模、高质量的标注数据，致力为NLP行业的场景定制、技术突破、产业发展等提供源源不断的动力。

高质量的标注数据不仅带来效率提升、技术升级，更是NLP发展的必然趋势。现今，数据标注正处于早期阶段，但可以预见的是， 随着人工智能的浪潮进入下半 场 ，数据标注将迎来井喷期，促进感知智能向认知智能的转变。

深耕行业夯实优势， NLP 下一个十年中文论剑

毋论产品路径与技术趋势如何领先，NLP发展最终还是要归到产业应用的“肌肉”上来看。

纵观国内外NLP产业发展现状，国外NLP技术由于起步早、技术领先，而国内目前则处于奋起直追阶段。据伦敦帝国理工学院对NLP相关会议论文统计显示，自2012年至2020年期间，美国以近4000篇论文的数量遥遥领先，中国位居第二。随着中国企业逐渐从“辅助角色”进化为中坚力量，“学术界＋工业界”的双轮驱动推动中国AI力量悄然变化。

以中科凡语为例，作为孵化于中国科学院自动化研究所的国产NLP领域先行者，承接了研究所相关团队过去20多年在NLP领域技术积累，在技术、数据乃至人才方面都有着天然优势。成立四年来，中科凡语已成功落地了100多家G端客户、50余家B端客户，同时还承担了多项国家和政府重大需求项目，例如为“一带一路”沿线国家提供翻译、信息整合及分析服务等，未来还将持续深耕认知智能、通用智能、因果推断等技术领域，进一步推动NLP成果产业化。

值得一提的是，中科凡语还于2020年11月成立了凡语AI研究院，共吸引高级发展顾问、教授级专家委员、博士青年委员等60多人加入，涵盖NLP领域技术大牛、业务精英以及语言专家等， 旨在吸引 行业 顶尖人才共同进行前沿研究， 夯实中科凡语在 NLP 领域的领先竞争优势，并不断 探索新的基础模型与技术路线，建立竞合协同的行业生态 。

此外，其他业界知名公司如百度、阿里、腾讯、华为、今日头条等，也在结合自身固有业务优势，在NLP领域持续投入研发，加速业务变革与升级。

除了学术界与工业界，国家相关政策也持续出台，重点扶持人工智能相关产业发展。

2019年，由科学技术部发布的《国家新一代人工智能开放创新平台建设工作指引》中指出，要鼓励人工智能细分领域领军企业搭建开源、开放平台，面向公众开放人工智能技术研发资源，向社会输出人工智能技术服务能力。

2020年7月，由中央网信办等五部门发布的《国家新一代人工智能标准体系建设指南》中也强调，到2023年要初步建立人工智能标准体系，重点研制数据、算法、系统、服务等重点急需标准。

《中国制造2025》《“十四五”规划纲要》等重要政府文件中，都明确了人工智能在我国未来科学研究和产业发展中的重要作用。

……

尽管目前出现了一些挑战与瓶颈，但总的来看，在政策红利和蓝海市场的双重利好下，NLP 已步入发展快车道，并涌现了许多商业化应用，如机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等。

随着AI技术不断走向“深水区”，作为AI最高层次的NLP也将伴随着数智化的产业趋势快速迭代更新。就像《技术的本质》中所说的，“技术是高度可重构的，它们是流动的东西，永远不会静止，永远不会完结，永远不会完美。”

周玉对此深以为然：“NLP技术的发展永远没有终点。中科凡语希望能通过本身在NLP领域积累的人才、算法、数据等优势，联合业界的专家学者、行业精英，一同做NLP最前沿技术和应用的探讨，无限逼近甚至超越人类的理解能力，用我们这一代人的努力扛起国产NLP发展的大旗。”

正是无数这样的科学家、创业者、奋斗者的星聚，才推动着中国NLP技术在这十余年来的快速进步，并不断建设世界范围的中文信息处理影响力。

相信下一个十年，NLP将迎来中文论剑的时代。