百度发布 NLP 预训练模型 ERNIE，多项中文 NLP 任务超越谷歌 BERT

雷锋网 • 6年前扫码分享

雷锋网 (公众号：雷锋网) AI 科技评论按，NLP（自然语言处理）被誉为人工智能「皇冠上的明珠」，其发展备受学术和产业界关注，而今 NLP 领域再次迎来重大突破。2019 年 3 月，百度提出知识增强的语义表示模型 ERNIE（Enhanced Representation from kNowledge IntEgration），并发布了基于 PaddlePaddle 的开源代码与模型。ERNIE 模型在中文 NLP 任务上表现非凡，百度在多个公开的中文数据集上进行了效果验证，在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上，超越了谷歌的语义表示模型 BERT 的效果。

近年来，基于海量无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 基准任务的效果。早期的工作聚焦于上下文无关的词向量建模，而之后提出的 Cove，ELMo，GPT 等模型，构建了语句级的语义表示迁移模型。谷歌在去年 10 月提出 BERT 模型，当时媒体盛赞「最强 NLP 模型」、「NLP 历史突破！谷歌 BERT 模型狂破 11 项纪录，全面超越人类！」。

不难发现，无论是稍早提出的 Cove、Elmo、GPT, 还是能力更强的 BERT 模型，其建模对象主要聚焦在原始语言信号上，较少利用语义知识单元建模。这个问题在中文方面尤为明显，例如，BERT 在处理中文语言时，通过预测汉字进行建模，模型很难学出更大语义单元的完整语义表示。

设想如果能够让模型学习到海量文本中蕴含的潜在知识，势必会进一步提升各个 NLP 任务效果。因此百度提出了基于知识增强的 ERNIE 模型。ERNIE 模型通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，百度 ERNIE 模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号，ERNIE 直接对先验语义知识单元进行建模，增强了模型语义表示能力。

举个例子：

Learned by BERT：哈 [mask] 滨是 [mask] 龙江的省会，[mask] 际冰 [mask] 文化名城。
Learned by ERNIE：[mask] [mask] [mask] 是黑龙江的省会，国际 [mask] [mask] 文化名城。

百度发布 NLP 预训练模型 ERNIE，多项中文 NLP 任务超越谷歌 BERT

在 BERT 模型中，通过『哈』与『滨』的局部共现，即可判断出『尔』字，模型没有学习『哈尔滨』本身的任何知识。而 ERNIE 通过学习词与实体的表达，使模型能够建模出『哈尔滨』与『黑龙江』的关系，学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。
为验证 ERNIE 的知识学习能力，百度利用几道有趣的填空题对模型进行了考察。实验将段落中的实体知识去掉，让模型推理其答案。

百度发布 NLP 预训练模型 ERNIE，多项中文 NLP 任务超越谷歌 BERT

可以看到 ERNIE 在基于上下文知识推理能力上表现的更加出色。

ERNIE 模型在多个公开中文数据集上进行了效果验证，与 BERT 模型相比，在自然语言推断 XNLI 任务测试集准确率提升 1.2PP，语义相似度 LCQMC 任务测试集准确率提升 0.4PP，命名实体识别 MSRA-NER 任务测试集 F1 提升 1.2PP，情感分析 ChnSentiCorp 任务测试集准确率提升 1.1PP，问答匹配 NLPCC-DBQA 任务测试集 MRR 提升 0.5PP。 详细实验数据见 ERNIE 开源项目（点击 https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE 即可查看）。

随着大数据和基于神经网络的深度学习的发展，NLP 发展进入到新阶段，成为巨头们抢滩的重要战场。百度在自然语言处理领域有着深厚积累，将以「理解语言，拥有智能，改变世界」为使命，研发自然语言处理核心技术，未来必将在技术上取得更大的突破。

雷锋网版权文章，未经授权禁止转载。详情见。