日本 AI 大败局的启示
作为世界重要 经济 体之一的日本,在目前这轮各国竞相参与的 AI 革命当中几乎是悄无声息。我们基本看不到来自日本的 AI 模型——不仅是基础大模型,就连应用层的模型也很少。Open-Calm、Rinna 等模型都是在日本 AI 业内名列前茅的模型,但它们在评测中的表现甚至要远逊于 OpenAI(开放人工智能公司)已经过时的模型 GPT-3.5。与之对应地,日本似乎也没有什么著名的 AI 企业,既无巨头,也无特别出色的初创企业。这充分说明,日本确实在这一轮的 AI 革命中被其他的经济体远远抛在了身后。
事实上,日本在 AI 的发展史上很长时间内都是一股举足轻重的力量。早在二十世纪六七十年代,日本就已经开始了对人工智能的探索,并取得了一系列令人瞩目的成绩。到二十世纪八九十年代,日本不仅在 AI 的应用上实现了很多的突破,还提出了雄心勃勃的 " 第五代计算机 " 计划。更重要的是,当时几乎整个 AI 学界都将深度学习视为异端,而日本保留着大量这个领域的人才,几乎成了深度学习的最后堡垒。很多人都认为日本将会引领之后的深度学习革命。
然而,在进入新世纪之后,日本在 AI 领域的地位却日渐下降。在深度学习革命在全球范围内风起云涌之时,这个曾经的深度学习堡垒却异常安静。直到今天,日本在新一轮的 AI 革命中,似乎还没找到自己的位置。
那么,曾经在 AI 领域领先的日本为何会失去过去的三十年?在这背后究竟有哪些值得我们借鉴的教训?在未来,日本的 AI 行业还有翻身的希望吗?
寻路:二十世纪六七十年代
日本的 AI 发展史至少可以追溯到二十世纪六十年代。当时,人工智能作为一个独立的学科登上历史舞台还没多久,关于这个学科应该做什么、按照怎样的方式发展,人们也还没有任何的共识。尽管如此,单凭 " 创造类似人类智能 " 这个愿景,这个崭新的学科就已足够激动人心。刚刚从战争中恢复过来的日本很快就看到了该学科的巨大前景,并积极加入了对其进行探索的行列。
二十世纪六七十年代日本在 AI 领域取得的重要成就主要表现在两个方面:
一方面是机器人的研发和制造。日本之所以关注这一领域,主要是出于十分现实的考虑。作为 " 二战 " 的发动者和战败国,日本在战争中损失了大量的人口,并造成了人口结构的扭曲。这导致当时的日本人口相对不足。随着经济的恢复,日本对劳动力的需求暴增,这就使得就业市场出现了严重的供不应求。
恰好,美国的万能机公司(Unima-tion)在 1960 年研发出了世界上第一台工业机器人,这让日本认识到用机器人来缓解劳动力不足的可能。起初,日本主要是从美国进口机器人。1968 年,日本的川崎重工业集团(下称 " 川崎 ")从万能机公司获得了生产许可证,开始了自行生产。一开始,由于缺乏相关的经验,川崎生产的机器人毛病很多,但日本的工程师的学习和改进能力非常强,不久后,川崎生产的机器人性能就已经超过了万能机公司自己的产品。在川崎之后,很多日本企业也陆续投入到了机器人的研发和制造中来。到二十世纪七十年代初,日立、东芝、松下等企业都有了自己的机器人业务,相关的配套网络也逐步成长起来。
在工业机器人领域站稳脚跟之后,日本人又将眼光瞄向了更为复杂的人形机器人。1973 年,日本早稻田大学成功制造出人形机器人 WABOT-1。不同于那些只能完成固定任务的工业机器人,WABOT-1 由肢体控制系统、视觉系统和对话系统组成,它不仅可以模仿人类行动,根据周围环境做出反应,甚至还能与人进行简单的语言交流。可以想象,在那个时代,这款产品是具有相当震撼效应的。
另一方面是对早期神经网络理论的探索。1958 年,康奈尔大学教授弗兰克 · 罗森布拉特(FrankRosenblatt)发明了一个名叫 " 感知机 "(Perceptron)的早期神经网络模型,并用它成功完成了识别手写字母的任务。虽然 " 感知机 " 的成功在相当程度上向人们展示了神经网络的应用前景,但围绕着它的争论也随之而来。在关于它的众多质疑中,参数调整是十分重要的一个质疑。我们知道,神经网络性能的优劣几乎完全取决于其模型的参数,但由于模型的运作本身是一个黑箱,所以人们想通过调整参数来优化模型性能将变得十分困难。尤其是当模型参数越来越多、模型层数越来越大时,其困难将呈几何级数上升。事实上,也正是因为在很长一段时期内人们都没能找到处理这个问题的方法,所以当时的大部分 AI 学者都放弃了这个技术路径,转投了当时更为热门的符号主义。
不过,就在大部分学者将神经网络弃之如敝屣时,一些日本学者则矢志不渝地对此进行持续研究。其中,贡献最大的两位学者有两位:一位是甘利俊一(Shun-ichiAmari)。1967 年,他提出了 " 随机梯度下降法 "(StochasticGradientDescent,简称 SGD)。这个方法每次在训练数据集上选择一个样本或者一小批样本进行模型训练,通过对损失函数计算梯度,按照负梯度方向对模型参数进行更新。这一方法的提出,为破解神经网络的调参问题提供了有力的思路。多年以后,辛顿(GeoffreyHinton)提出了 " 反向传播算法 "(Backpropagation)来训练模型,而其最初的灵感就是来自 SGD。另一位学者则是福岛邦彦(Ku-nihikoFukushima)。他的主要贡献在于对神经网络架构的探索。他于 1979 年提出,并在 1980 年实现的 " 神经认知机 "(Neocognitron)模型就是后来 " 卷积神经网络 "(ConvolutionalNeuralNet-works,CNN)的雏形。
豪赌:二十世纪八九十年代
到了二十世纪八十年代,符号主义的观点成了 AI 领域公认的主流。符号主义认为人类认知和思维的基本单元是符号,而认知过程就是在符号表示上的一种运算。因此,要实现人工智能,就必须模拟这种符号运算。最初,符号主义者们主要致力于探索用符号进行知识表示,并通过演绎来进行推理。而到了二十世纪八十年代,爱德华 · 费吉鲍姆(EdwardA.Feigenbaum)开始将领域知识和符号推理联系了起来,从而形成了一套被称为 " 专家系统 " 的技术路径。
什么叫 " 专家系统 " 呢?通俗地说,它是一种模拟人类专家解决领域问题的计算机程序系统。这种系统有大量领域专家水平的知识与经验,并能够根据系统中的知识与经验进行推理和判断,模拟人类专家的决策过程,从而解决那些复杂的问题。当一个专家系统包含的知识库越大时,它可以解决的问题就越多,能力也就越强大。而为专家系统准备知识的过程就被称为 " 知识工程 "。
与 " 深度学习 "(DeepLearning)相比," 专家系统 " 在知识获取上有很大的不同。" 专家系统 " 的知识需要人来输入,因而 " 知识工程 " 的主体是人,而 " 深度学习 " 则是由计算机通过神经网络来自行学习,因而它更多是机器自己在学习。虽然从直观上看,让人来输入知识显然不如让机器自己学习来得方便,但在当时的技术条件下,人们还没有找到调节神经网络参数的良方,算力上也不充足,因而 " 深度学习 " 几乎无人问津,而 " 专家系统 " 则独领风骚。
很快," 专家系统 " 对 AI 领域的全面统治也蔓延到了日本。但与美国不同的是,这个过程在日本是以一种政府主导的方式完成的。
从二十世纪七十年代开始,经济实力迅速膨胀的日本就尝试运用国家主导的方式对一些关键的技术领域进行攻关,从而一举抢占全球技术的制高点。起初,日本用这种方式取得了一系列的成功,其中最经典的案例就是在动态随机存取存储器(DRAM)的研发过程中实现了巨大突破,从而让日本成了当时世界上最为领先的芯片大国。在实现了这些胜利后,日本政府立即将目光瞄向了当时炙手可热的计算机行业,试图抢在美国和欧洲之前开发出 " 第五代计算机 "。
所谓第五代计算机,来自当时流行的对计算机发展阶段的一种划分方法。最初,这种方法的阶段划分依据主要是计算机采用的电路工艺。按此标准,第一代计算机使用的主要是电子管,第二代计算机使用的是晶体管,第三代计算机使用的是集成电路,第四代计算机使用的则是超大规模集成电路。
日本通产省于 1978 年委托时任东京大学计算机中心主任的元冈达(TohruMoto-Oka)对第五代计算机进行探索。1981 年,元冈达向通产省提交了一份长达 89 页的报告。报告认为:第五代计算机可能并不是被硬件工艺的突破定义,而是被体系架构和软件的创新定义。通过软硬件的结合,第五代计算机应该能像人一样与用户进行交互。在当时的技术条件下,这种未来的新型计算机应该是一个搭载着巨大的知识库的硬件化专家系统。
如今看来,元冈达的观点实在是过于超前了——事实上,他对于第五代计算机的展望就是现在各大巨头们正在竞相尝试的 AIPC(人工智能电脑)。但在那个日本自信心爆棚的年代,它立即得到了通产省的认可。通产省很快就决定牵头启动第五代计算机的开发工作。
不过,在这一切开始前,还需要解决一个棘手的问题,即第五代计算机应该采用什么架构。在元冈达的报告中,他提出了六种先进的架构:逻辑程序机、函数机、关系代数机、抽象数据类型机、数据流机,以及基于冯诺依曼机的创新机。对于这六种架构,学界和业界都已经有了一些探索。其中,函数机的探索是相对来说最成熟的。比如,初创公司 Symbolics 已经在函数机上取得了不小的成就,它的软件性能已经可以比一般机器高出两三倍。因此,当时日本的不少专家也倾向于基于函数式编程语言 LISP 的函数机入手进行突破。然而,以渊一博(KazuhiroFuchi)为代表的一些专家则力主攻关基于逻辑程序语言 Prolog 的逻辑程序机。关于渊一博为什么会坚持这一观点,有一些解读认为,渊一博这么做其实是出于一个不足为外人道的原因:LISP 是美国人提出的,而 Prolog 不是。因此,日本人为了实现 " 日本第一 " 的梦想,就不能沿着美国人的老路走。虽然这种观点听起来非常不理性,但联想到时代背景,这又似乎是最合理的一种解释。
最终,在渊一博等人的力主之下,基于 Prolog 的逻辑语言机被确立为了日本认定的第五代计算机的方向。随后,日本通产省联合几大公司,一起成立了第五代计算机研究所(InstituteofNew GenerationComputerTechnolo-gy),并任命渊一博为该所的所长,统一协调研发事宜。渊一博从当时的各大公司和研究机构抽调了 40 位精干技术人员,号称 " 四十浪人 " 来进行具体研发。为了对项目提供有力支持,通产省计划在十年内投入四亿五千万美元的资金,同时由参与项目的公司也提供对应资金进行配套。
为了开发第五代计算机,日本几乎是动用了举国之力。在这一政策的影响之下,这个时代的日本 AI 界也自觉地团结到了为这一目标服务的队伍中来。很自然地,专家系统成了日本 AI 界当仁不让的技术路径。那么,日本的这场豪赌成功了吗?答案是否定的。
尽管在日本政府的热捧之下,第五代计算机的概念看似很热,相关的研讨会不断,论文层出不穷,但真正的技术研发却举步维艰。这一点很大程度上是由专家系统的特性决定的。如前所述,专家系统要足够强大,就必须进行庞大的知识工程。而为了保证输入了这些知识的计算机可以和人实现自然交互,还需要对交互的规则进行明确的设定。至少在那个时代,这是非常困难的。在现实中,一个词、一句话可能有各种不同的意思,机器应该采取哪种意思,要视情境而定。对于逻辑语言来说,每一个情景的规定,就是一个逻辑前提。因此,要用这种语言来实现自然语言,其需要加入的逻辑规则将是海量的,而再要机器根据相关的知识输出用户需要的内容,则更是难上加难,技术上根本无法实现。与此同时,日本经济高歌猛进的势头也急转直下,日本政府也不再有充足的实力来支持项目。最终,在提出了一些并不成功的样机之后,日本的第五代计算机项目以失败告终。
第五代计算机项目的失败对于日本 AI 界来说是巨大的打击。它不仅让巨额的研发经费付诸东流,更是把整个 AI 界都带偏了方向。本来,日本在神经网络和深度学习方面有很强的底蕴,但在全面为第五代计算机服务的背景下,全社会的资源都在向专家系统这一路径倾斜,甚至连福岛邦彦这样的大佬都很难申请到需要的经费。日本在神经网络上的优势开始逐渐消退。
掉队:二十一世纪
深度学习的渊源几乎可以追溯到 AI 学科创立之初," 感知机 " 等模型就是其先驱。然而,因为技术条件的限制,这一支技术路径一直处于边缘状态。甚至连辛顿这样的顶尖学者很长时间都只能坐冷板凳。
2006 年,命运的齿轮发生了转动。那一年,辛顿和其学生西蒙 · 奥辛德罗(SimonOsindero)发表了一篇重要的论文《一种深度置信网络的快速学习算法》(A FastLearningAlgorithm forDeepBeliefNets),建议利用 GPU(图形处理器)来提升训练神经网络的速度。这篇论文的发表,让很多人认识到用 GPU 来突破算力瓶颈的可能性,因而神经网络研究在沉寂多年后,终于重新迎来了生机。为了让人们摆脱对这个学科的成见,辛顿还专门为这类研究重新起了一个名字," 深度学习 " 的大名就由此而来。
到 2012 年,深度学习终于向全世界展示了自己的力量。那年,一个名叫 AlexNet 的神经网络模型以 15.3% 的低错误率赢得了 ImageNet 大规模视觉识别挑战赛。这个成绩,足足比之前的错误率纪录降低了一半。这让整个 AI 界认识到,随着算力瓶颈的突破,或许深度学习才是未来 AI 的发展方向。于是,大批的资本、人才都开始涌入这个领域,而这个领域也迎来了爆发性的增长。2016 年,基于深度学习的 AlphaGo 模型就击败了人类顶尖的围棋选手。2017 年,Transformer 架构又横空出世,基于这一架构,人们开始了生成式 AI 模型的研发。而几年之后,ChatGPT(OpenAI 聊天机器人)又进一步引领了生成式 AI 革命。毫不夸张地说,在过去的十几年中,深度学习简直是在带领整个 AI 界一路狂奔。
在这段时间内,日本发生了什么呢?正如我们之前看到的,其实日本在很早就有深厚的神经网络研究底蕴,像甘利俊一、福岛邦彦等学者都是这个领域当之无愧的先驱。事实上,在二十世纪八十年代,当几乎全世界都抛弃了神经网络之时,还有不少日本学者坚持做这方面的研究。据 " 深度学习革命三杰 " 之一的杨立昆(YannLeCun)回忆,1988 年他构思 " 卷积神经网络 "(Con-volutionalNeuralNetworks,CNN)时,能够查到的文献几乎都是日本人写的。然而,正是这样一个神经网络底蕴深厚的国家,在深度学习革命到来之时,却出现了相关人才青黄不接的现象。全国押注第五代计算机带来的导向作用很可能是一个关键原因。毕竟,在研究专家系统的收益肉眼可见地高于神经网络时,谁又会选择这样一个冷门专业呢?而当第五代计算机的梦想在二十世纪九十年代最终破裂后,日本干脆削减了对整个 AI 学科的资金扶持,这就导致了最优秀的人才根本不愿意进入这个领域。
日本的背运还不止于此。本来,在日本的经济实力如日中天之时,很多日本企业曾到美国开办实验室,它们曾在当地招揽和储备过大批的 AI 人才。其中,最有代表性的就是 NECLab,它由著名的日本电气株式会社(NipponElectricCompany,NEC)于 1988 年在硅谷成立。曾经,包括杨立昆、瓦普尼克(VladimirVapnik)、伯托(LeonBot-tou)、龚怡宏等在深度学习领域举足轻重的人物都曾经供职于 NECLab。然而,这些人才一个也未能被日本所用,而是先后出走,为美国和中国的深度学习事业作出了巨大的贡献。之所以会有这样的结果,一是由于 NECLab 本身的导向有误,只重理论,不重现实,这让本应高度与实践结合的 AI 人才毫无用武之地。二是它的管理十分僵化。比如杨立昆就因去普林斯顿大学讲学未经报备而遭到了实验室领导的批评。在这种情况下,NECLab 当然就很难留住人才。
国内人才断层,国外人才又留不住,这些原因加在一起,就导致了日本在深度学习高歌猛进之时,完美地错失了这次革命。尽管这几年,日本政府已经发现了问题,开始尝试用政策鼓励 AI 的发展。" 冰冻三尺非一日之寒 ",至少到目前为止,这个曾经的未来 科技 大国仍然在最近的生成式 AI 大潮中处于一个可有可无的位置。
迷思:日本的 AI 发展还有戏吗?
日本究竟还有没有机会成功实现逆袭,重新成为 AI 大国呢?在我看来,机会依然是存在的。实际上,尽管日本现在在基础 AI 模型和应用上都暂时处于全面落后状态,但它的历史积累决定了它在应用层面是具有相当潜力的。
日本 AI 发展的一个可能方向是具身 AI。通俗地说,就是将 AI 智能体(AIAgent)与机器人结合起来,让机器人能够和人交流,并按照人的指示完成复杂的任务。从历史看,日本在机器人领域的积累非常深厚。正如我们前面看到的,从二十世纪七十年代起它就开始了人形机器人的探索。直到最近,它在这个赛道依然保持着相对领先的地位。比如,本田的阿西莫(ASIMO)机器人就广受市场赞誉,但从性能上看,它的表现甚至好于比它晚出很多年的类似产品(不过,它也有其弱点,就是实在太贵了)。可以想象,如果将一个类似 GPT 的模型植入到这样的机器人中,它的表现将会非常惊艳,其市场空间也十分可期。当然,除了制作这样高端的机器人之外,日本还可以利用其先进的机器人技术开发一些玩具级别的机器人,并让它们搭载 AI。这样的产品,或许可以有很好的销路。
另一个可能方向是行业大模型。现在,主要的 AI 企业大多是在开发通用大模型方面竞争,但其实市场上真正的需求却是行业专用的大模型。不过,到目前为止,行业大模型的发展并不算好,究其原因,就是现在的 AI 企业在行业层面的积累都太少,相关的数据积累十分缺乏。日本由于过去在专家系统领域的押注巨大,有很多行业知识库的积累。如果可以将专家系统与现在的生成式 AI 模型进行有机的结合,那么其开发出的行业大模型的性能可能会相当好。
一旦有日本的 AI 企业率先从类似的领域发起突围,并真正实现了盈利,那么日本全社会对 AI 兴趣的低迷就会被扭转,人才也会陆续重新回到这个领域。加之相关政策的支持,以及之前积累的技术根底,日本未必不能在一个相对较短的时期内重新成为一个 AI 大国。
结语
日本在神经网络研究上起步很早,积累很深,但倒在了 " 深度学习革命 " 的黎明前。纵向产业政策的扭曲作用不容忽视。在 AI 这样一个技术路径多元,各条技术路径之间竞争激烈的行业,要预测哪一条路径会最终胜出是极为困难的。尤其是在 " 范式转换 " 作用的影响下,不同技术路径的优劣更是随时可能发生逆转。面对这样的情况,用纵向产业政策去选定一个技术方向扶持就几乎是一场豪赌。一旦失败,其成本将是巨大的。日本的教训是惨痛的。
如果当年日本采用了横向产业政策,一方面,对所有的技术路径都给予一些支持,让甘利俊一和福岛邦彦们都有相对充足的经费深入自己的研究。另一方面,通过政府的协调,将一些热门领域的研究和机器人等日本传统的优势结合起来。那么,今天日本的 AI 发展很可能是另外一番景象。
来源:经济观察报