深度学习 VS 深度克隆，谁才是解决聊天机器人的最佳方法？-36大数据

36大数据 • 7年前扫码分享

作者：Riza C. Berkan

编者按：聊天机器人已经不新鲜了，Facebook、微软等很多大平台都有了自己聊天机器人，但是聊天机器人的发展好像遇到了瓶颈，本文作者 Riza C. Berkan 博士从深层的技术角度探讨如何解决聊天机器人领域面临的问题。

对话式 AI （聊天机器人）涉及到三个维度的问题：（1）语言技能（2）知识获取（3）对话行为。这三者虽然强相关，但人类大脑通过单独的实验，在不同的时间段内，可能使用不同的神经区域来获得这些优点。因此，开发整个过程的计算机模型也需要一些单独的处理和分布式方法。

深度学习提供了一个看上去可行的模型。但是，它会在一个单一的模式下将所有数据都集成到大量的数据需求中。这也与我们如何通过阅读学习相矛盾。和深度学习不同，我们每次阅读新文章时，显然不会重新学习语言技能。语言和知识能否分开处理，使后者的成长不需要与前者混合？如果可行，我们如何模拟这种半独立性？

我将介绍一种新的方法，称为深度克隆方法（DCM）。虽然这些技术细节是专有的（正在申请专利），但是这种方法可能还有许多其他变体值得试验。

深度克隆

DCM是专门为对话式AI 设计的新的机器学习方法。术语“深度”来自其多层架构。术语“克隆”是指将知识从其原始域传送到会话系统（将文档转换为聊天记录）。 DCM将（1）语言技能与（2）知识获取分离，但不涉及（3）单独对待的对话行为。 DCM的灵感来源于人脑的阅读过程，通过阅读（无监督）直接完成学习，而不是涉及语言实验（受监督）。 DCM通过句子处理给定的内容句子，将每个句子分解为概念，并通过大量网络学习这些概念如何相互关联。已经使用这种方法开发了一些示例聊天机器人，只有通过编辑才能输入DCM要读取的内容。以下是深度克隆与深度学习的对比：

神经元结构

DCM的核心创新是人造语言神经元的概念。这个想法是从生物学的灵感来的，大脑的某些区域已知含有对语言输入敏感的神经元，正如其他区域对图像或其他感官敏感一样。此外，语言敏感的神经元也可能具有语言角色兼容的不同结构。

另一方面，深度学习无论对哪种应用都使用同的神经元，典型的神经元如下图所示。在不同网络中有神经元模型的变化，然而没有涉及归因于自然语言处理的任何特定角色。这些神经元需要一个数字输入，用于从输入层传播。因此自然语言必须转换为数值，以使此操作正常工作，而且根据这种方法，这个转换可能是无意义的。

在DCM中，通过分解过程确定了六种不同的神经元类型。黑色神经元代表内容（句子），红色神经元代表事件概念，蓝色神经元代表对象（对话主题）。绿色神经元代表每个句子的类型（维度），最终帮助黑色神经元回答问题。

网络结构

通过阅读每个句子并使连接遵循一组特定规则，DCM网络得到成长。第一条规则是重复相似神经元的连接。这个规则的唯一例外是遵循内容跟踪的黑色神经元。第二条规则是事件与对象的连接（红色到蓝色）。网络的增长与系统读取的内容成正比。

阅读整个内容后，最终网络成为多个层级，多个网络（称为高速公路）。基本上有四条主要公路（黑色、红色、蓝色和橙色）。进一步处理最终网络以将重复神经元压缩成单独的神经元。这个最终过程产生一个基于事件的本体，其中每个事件概念都连接到大量的仪器上。召回过程需要横穿4条高速公路，才能找到给定问题（或句子）的最佳匹配概念。通过推理找到最终的黑色神经元作为问题的答案。