他耗时一年半对比了473种文本分类模型，选题差点被导师LeCun否定

雷锋网 • 7年前扫码分享

雷锋网 AI 科技评论按：在文本编码中，能否找到一种能够适用于所有语言，并在机器学习的模型中有优良表现的编码级别和编码方式呢？针对此问题，Yann LeCun和他的学生张翔在不久前发表了一篇研究工作《 Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean? 》。

在这篇论文中，他们通过473种模型的对比，最终得出了一系列极有价值的结论。雷锋网 AI 科技评论对这篇论文也有较为深度的解读。详情可阅读： Yann LeCun新作：473种模型大对比，中日韩文本分类到底要用哪种编码？

随后雷锋网AI科技评论联系到了论文第一作者，纽约大学博士生张翔，并就此项工作对他进行了采访。据了解，目前张翔的主要研究方向是基于卷积网络的文本表征学习，包括文本的表达和生成。

背景介绍

当机器学习对自然语言进行学习和训练时，如何表示文本（文本编码）将是首先遇到的最基本的问题。

这需要考虑两点，首先从哪个级别进行编码，是byte级别，还是character级别，或者word级别等，不同的级别编码对模型的依赖是不一样的；其次是采用哪种机制进行编码，是通过字符的字形进行编码，还是采用独热编码，或者嵌入编码，编码机制也将影响深度学习模型的效果。

他耗时一年半对比了473种文本分类模型，选题差点被导师LeCun否定

更关键的是，CJK语言（汉语、韩语、日语等语言）与英语这样的字母语言有很大的不同。对英语进行字符级编码可能比较有效，但将这种编码方式用到CJK语言中可能会导致模型的体量很大。Yann LeCun和张翔的研究工作正是基于这种考虑进行的。

选题差点被LeCun否掉

张翔告诉雷锋网AI科技评论，这项工作大约开始于一年半以前。当时，张翔向他的导师Yann LeCun教授提出希望做这样的一个课题，即通过抓取数据，对不同的文本表示方式进行一个相对公平的评测，评测方式为自然语言处理任务中较为简单、有明确输出评测的文本分类。

刚开始，LeCun教授并不十分看好这项研究，因为这似乎是一个 工程多于学术思维 的课题。张翔向雷锋网AI科技评论回忆道，“但当我跟导师说到中日韩语言和西方语言的不同特点，以及当前自然语言处理的模型并不能够以一种统一的方式来处理所有不同的语言时，我们意识到，其实真正有意思的是， 不同语言的文本是否能够用一种统一的方式输入到神经网络里面，使得像分词这样的自然语言处理的预先处理最小化。”

在这篇论文里，这些不同的文本输入方式被称作不同的编码方式（Encoding Mechanism）。之前学界对于到底哪种编码方式更好并没有一个统一的意见，也缺乏较为全面的横向比较，不同的学者只选择其中一种或多种方式来验证自己的模型。于是，鉴于统一多语言模型并非一个显而易见的事情，张翔与LeCun开始了这项研究。

在课题的意义明确之后，接下来的工作就是写代码来进行数据抓取和模型训练了。据雷锋网AI科技评论了解，最初这个项目大概花了4个月的时间进行数据抓取，共获得横跨4种语言（英、汉、日、韩语）和8个网站（大众点评、京东、Rakuten、11st、Amazon、凤凰网、中国日报、NYnews）的数亿条的文本数据。这些数据经过一定的去重和长度控制之后，构成了这篇论文中提到的大规模文本分类数据集（共14个，具体可参考解读文章）。这些数据源每个都要比最终数据集大几个数量级。这种对于数据大规模的抓取和处理其实是非常锻炼一个人的工程能力的。

张翔向雷锋网AI科技评论表示：“在这个课题的整个研究过程中，LeCun教授一直定期与我进行交流和指导，还特别介绍了fastText发明人Joulin一起探讨不同模型所具有的优势和劣势。我认为，每一次这样的交流都能够学到很多有用的知识。”

在大约一年多的时间里面，张翔和Yann LeCun大概使用了几十块GPU对不同的模型进行训练，最终得到了473个模型的结果。通过对比发现， 字节级独热编码（byte-level one-hot encoding）是卷积网络最好的编码方式。 这样的结果离不开字节独热（one-hot）编码的易用性，从而使得卷积网络能够在性能和计算量之间取得较好的平衡。同时，基于字节的输入方式彻底不再需要对文本进行预处理，能够很方便地应用到不同的语言中去。

目前这篇文章的工作已经结束，但由于数据和代码体量较大，张翔目前还在对数据进行进一步的整理，随后会连同大部分数据集一起发布。为了保证实验的可重复性，他们还将对于论文中出现的每一个数据点提供能够重复其结果的命令行脚本。

不过张翔对雷锋网AI科技评论表示，这项工作虽然实验量大，但远远没有覆盖到所有可能的模型和编码方式。在未来，对于 循环（Recurrent）神经网络和卷积网络不同设计方法的探索， 也都是可能的研究方向。

“现在的科研新想法层出不穷，但到头来还是需要公平的比较和清晰的结果才能说明问题。”这是张翔在论文发表在arXiv后，在朋友圈中所说的一段话，也许从某种层面上正表达了他的治学想法。

张翔其人

他耗时一年半对比了473种文本分类模型，选题差点被导师LeCun否定

据对张翔博士的采访，我们了解到张翔曾在2007-2011年就读于天津大学，师从刘世光教授。本科毕业后，他到纽约大学就读硕士研究生，起初他并没有读博的打算。“后来，我在第一个学期选了LeCun教授的机器学习和Rob Fergus教授的计算摄影学（Computational Photography）课程，觉得深度学习是非常有意思的课题（当时深度学习还不是机器学习的主流）。”

张翔告诉AI科技评论，纽约大学CILVR实验室研究课题领域非常广泛，包括生成模型、计算机视觉、自然语言理解和推理、自动驾驶、表征学习理论、优化等。张翔说：“可以说在CILVR实验室，任何深度学习方向都可以找到专家来进行探讨。”

由于他在这两门课取得了非常优异的成绩，两位教授都主动发邮件询问他读博的意向。甚至，LeCun教授还特地为他写了一封推荐信，让他参加UCLA应用数学研究院于2012年举办的深度学习和表征学习夏令营。两位大牛如此主动“示好”，张翔最终成功申请到纽约大学的博士学位，成为Yann LeCun的弟子。不过对此，他谦虚地将这一切归因于运气，“我可能运气较好，碰巧赶上了好的机遇和环境。”

当问到他以后的打算时，张翔表示：“我大概离毕业还有一年左右的时间。目前的想法是寻找一个工业实验室或者学术界的博士后职位，进一步推进目前的研究课题。在继续科研数年之后，我希望能够有机会将所学到的人工智能和深度学习的技术应用到制造、能源和医疗等领域。”

张翔个人主页： http://xzh.me

更多精彩资讯敬请关注雷锋网 (公众号：雷锋网) AI科技评论。

Yann LeCun新作：473种模型大对比，中日韩文本分类到底要用哪种编码？

。

随意打赏

yann lecun lecun 文本分类