小冰李笛:为什么虚拟人必须“砍掉”中之人?
"现在的虚拟人赛道上,有三种主要的'流派'。而我认为,只有小冰的模式才能走得通。"小冰的CEO,李笛如是说。
如果你关注虚拟人赛道,但你不知道小冰公司,那你的功课一定没有做足。小冰诞生于微软,曾是微软的人工智能团队,隶属于微软(亚洲)互联网工程院。2020年7月,小冰从微软分拆为独立公司运营,在人工智能方向持续深耕。
在虚拟偶像A-Soul、七海、柳夜熙大行其道的今天,小冰也在做虚拟人。但小冰的虚拟人却不是"偶像",他们有些是主持人、是艺术家、是研究生。从某种程度上,是虚拟人市场上的"一股清流"。
小冰的CEO李笛,则是在2013年便加入微软,从零开始构建AI being小冰框架,是虚拟人技术的前沿人物,对技术和赛道都有深刻理解。
何故"口出狂言"?李笛自然有他的道理。然而要把这事讲清楚,就得先讲讲虚拟人的这"三种流派"。
一、虚拟人的三岔路口
"今天所谓的虚拟人赛道,是三拨人在往中间凑。而最后站在了这同一个路口上。"李笛对雷峰网表示道。
这三拨人,其一是以IP运营主导的"虚拟偶像派",其二是以艺术家主导的"CG内容派",其三则是以AI技术主导的"AI being派"。
先说"虚拟偶像派",在近年可以说是炙手可热。这种模式主要通过捕捉演员(又称"中之人")的声音和动作,进而驱动虚拟人。
"虚拟偶像派"大多重IP运营,如在现实世界"造星"一般,培养虚拟偶像在观众中的形象。而为了降低渲染成本,虚拟偶像大多以"二次元"的画风出现,紧紧地圈住了二次元粉丝的心和消费。
据统计,国内人气虚拟偶像嘉然(ID:嘉然今天吃什么)于去年直播营收670万元,在国内虚拟偶像界居首。而嘉然隶属的虚拟偶像团体,隶属于字节跳动旗下的"A-Soul",五位成员加在一起,去年全年直播营收达到约2500万元。
再说"CG内容派",这个流派可以说是行业的"老前辈"。发端于好莱坞电影的特效公司,这种制作方式通过动作和面部捕捉,来获取大致的动态和形象;或采用真人录制,再用CG换头。而后再倾耗大量的人力物力,以艺术家为主导,对形象(主要是面部)以CG技术,逐帧进行渲染和微调。
"CG内容派"主要以内容为主导,旨在输出观众买账的内容,对创作团队的素养要求更高,画风更多偏向于"超写实"。而在实现内容追求的基础上,成本控制则要为内容让路。据媒体报道,"超写实"虚拟人视频每秒的成本在8000到1.5万不等。
当然,以内容主导的虚拟人形象至今仍活跃在大量的影视、游戏作品当中,并持续为行业带来巨量营收。而单看虚拟人,国内正当红的"柳夜熙"、"AYAYI"、"翎"也自然是个中翘楚,收获品牌代言无数,也被人看做是虚拟人颇具潜力的一种商业模式。
一个是唱跳偶像,一个是超写实虚拟形象,李笛却对这两种流派并不看好:"这两种模式都有它的上限,就是缺乏高并发和量产化的能力。"
先说前者,中之人驱动的虚拟偶像终归有极限。甚至可以说偶像虚拟人并不能算是真正的"虚拟人",可以看做是"披着虚拟外皮"的真人。一个动捕演员只能驱动一个虚拟形象,就代表虚拟偶像和中之人的关系十分紧密,难以实现虚拟人的量产。
提到量产能力,肯定有人问:"现在的虚拟偶像已经广受追捧,我们真的需要量产虚拟人吗?"
回看1943年,在计算机刚刚被发明出来的时候,IBM创始人——托马斯·沃森就曾表示:"世界上只需要5台计算机。"而今,智能手机已经可以说是现代生活的标配。这种数字上的量级,是数十年前的人们想象不了的。
"在未来,虚拟人的数量很可能会超过地球上的自然人。"李笛如此判断。
而说完量产问题,因为虚拟偶像与中之人的"强绑定",虚拟偶像也并非与"塌房"绝缘。除去运营公司自身的"骚操作"导致粉丝流失因为中之人而塌房的虚拟偶像并不在少数。
hololive旗下的 "赤井心"和"桐生可可",因在直播中辱华,导致公司在华的业务遭受重创。而老牌虚拟偶像"绊爱",则为了扩大规模,将绊爱做成了4个分身,冷落了原本的中之人,造成在全球范围内掉分数十万,最终导致了绊爱的关停。
无论虚拟或现实,造星产业都大同小异。中之人合同到期、恋爱结婚、关系不和,都是虚拟偶像运营的不可控因素,而这些不可控因素也都指向了虚拟偶像模式的诸多隐患。
那轻IP运营,重内容创作的"CG内容派"有机会吗?李笛的答案也比较悲观。
"CG内容派",输在"烧钱"。前文提到过"超写实"虚拟人的超高成本,而了解这个赛道的人一定知道,超写实虚拟人正陷入了一种"脸的内卷"。各家厂商都在竞争谁的渲染更细致,谁的建模更好看,谁的妆容更精致。虚拟人一张张"神颜"的背后,都是大笔大笔地烧钱。
不仅如此,李笛认为,这种模式无法实现规模的快速增长。从人力上来讲,柳夜熙的团队有150人左右,如果公司要复制柳夜熙的成功,推出一个新的"柳夜熙",在理论上团队又需要进行150人的扩容。
在电影、游戏制作周期中,模型师和渲染师可以为了效果而对虚拟形象进行长时间的打磨和修补。而在当下的移动互联网,内容则需要保持高频更新,才能在竞争高度激烈的注意力市场站稳脚跟。这种"精益求精"的开发模式,难以适应一周双更、甚至日更的节奏。
产能的天花板,是虚拟人必须冲破的难关。
而AI being派给出的答案,是用AIGC的方式给出大量的内容,最终由市场进行淘汰和迭代。从一开始,小冰就是一家技术公司,他们对造星和造IP都不那么感冒,这让小冰对虚拟人的看法与众不同,甚至充满了颠覆性。
中之人因素不可控?MCN只能加强管理、扩充团队,用传统方式解决管理问题。而小冰却将中之人完全"砍掉",完全用AI驱动虚拟人,一劳永逸地解决中之人问题,同时也让AI交互的高并发成为了可能。
CG渲染太贵,制作周期太长?小冰并不用CG技术进行渲染,甚至连3D模型都不用。李笛说:"对待这件事,我们的观点是'唯心'的。既然人眼看到的图像是二维的,我们可以将视网膜能看到2D图像的每一个图景,都进行还原,而并不需要真的通过3D的方式去实现。"
利用这种手段,小冰可以将渲染成本控制在17元/秒左右,成本几乎是CG渲染的1/500。尽管分辨率只有1080p,但在小屏幕上也算够看。
虚拟人颜值太"卷"?小冰公司内部几乎没有美术人员,做脸全靠大数据生成。李笛说:"你想要一个邻家女孩型,我可以给你临时生成两万张,如果你都不喜欢,我可以再给你两万张。"而也是在这种大量产出的情况下,对待虚拟人审美的选择又被重新交回给了市场。
看懂小冰的套路了吗?他们擅长暴力地"降维打击",把最优质的资源集中到AI being的最核心功能上,余下的问题用技术创新去改变、去颠覆。
二、AI being:内外兼修,才能做"人"
小冰团队最初是微软人工智能助理Cortana团队的一部分。彼时,Cortana的宣传语是"Ask me anything"(什么都能问我),在技术内核上也更趋近于单对单的读表式回答。
"坦率说,做一个任务的对话系统要更容易,把规则写好就可以了。"李笛说道。
而为什么要去做虚拟人?李笛有这样几个判断:
一、AI落地的终极形态,不会只是事务性的助理,而会成为可以提供情感价值的陪伴。而在"助理"则会成为"陪伴"功能的一个部分,用户使用虚拟人也会更看重它的情感价值。
二、为了满足用户的情感需求,AI在未来会以多样性见长,数量级也会极其巨大。AI being会不断的市场投放和淘汰中,推举出新的头部。同时,以多样化的虚拟人满足多样的市场需求。
三、在未来,虚拟人的商业模式是以创造人、派遣人工为主要内容的订阅服务。
这么看来,虚拟人的价值就不能简单地依附在能够"做事"上,它必须得内外兼修,让它更"像"人。
"内外兼修",是李笛用于形容理想AI being时使用的词汇。诚然,虚拟人不只是外面的那副虚拟"皮囊",更有其性格、倾向、态度等多种重要的因素。也正是有了这种因素,AI being才能真正被成为虚拟"人"。
刚刚提到的三大流派中,"虚拟偶像派"主要靠中之人和IP运营来突出虚拟人的性格和人设,"CG内容派"则主要依靠剧本和文案。而"AI being派"想要虚拟人有自己的性格,而且想要每个虚拟人都有自己独特的性格,可以与用户产生实时的交互,这样才能"将IP价值落在虚拟人身上"。
在抖音平台上,小冰可以说是最"宠粉"的虚拟人账号。团队将开放式对话系统接入小冰的抖音评论区,从而她可以做到秒回评论区所有留言。在万科,财务部虚拟员工崔筱盼荣获2021年优秀新人奖,她催办的预付应收/逾期单据核销率达到了91.44%,原因还是她人格化的部分能让人感到亲切。此外,据小冰团队观察,许多用户在使用人工智能的时候,会将虚拟人与现实中存在的人设为同名,借此来将情感移情到AI上。
让虚拟人"虚拟"得彻底,却又能够把价值落回人性,这是AI being在未来必然走上的一条路。
然而,AI的内容生成又谈何容易?在2022年冬奥会上,阿里的虚拟人"冬冬"确实又出了一次圈。运动会期间,冬冬承接了采访、新闻播报和带货等多种任务,并与武大靖等运动员在演播室实时互动,而她活泼的性格和专业的素养也确实圈粉无数。据媒体报道,冬冬的对白完全由云端的人工智能技术生成,这样的水准的确令人震惊。
关于这一点,雷峰网询问了李笛的看法。李笛表示:"这个是可能的,但是到目前为止我们知道的是只有我们做到了。在每日经济新闻的AI电视上,虚拟主播可以做到24小时 X 365天的连续直播播报。然而,金融文本生成我们做了整整五年,与每经的合作也已近三年。"
在内容生成中,李笛说主要难点有二:
一是"归因",也就是将内容与内容背后的因果关系进行对应。没有进行归因的内容,就如同一篇没有引注的论文,尤其是在新闻的直播播报中,如果无法对内容进行归因,那就很有可能出现信息错漏,从而带来意料之外的风险。
二是"观点",AI being普遍缺乏产出观点的能力。AI没有好恶,也缺乏进行价值判断的能力。观点性的问题缺乏标准答案,这让AI通常难以回答。但如果能将话题局限在一个很小的范围内,那么这一点也可以实现。
李笛对雷峰网 (公众号:雷峰网) 说,在GAN(生成式对抗网络)和小样本学习技术的赋能下,小冰向中央美院提供了一个平台,由中央美院去调用这个平台生产的作品,并确定作品的质量,为后续训练模型的修改提供反馈意见。由此,央美"研究生"毕业的夏语冰,能够做到作品质量稳定,并且具有明确的个人风格。
李笛说,如果AI不能控制作品的水平,那就不能叫做具备了艺术的能力。AI being要具备创作艺术作品的水平,能够让观众与艺术家之间,可以通过作品产生间接交流——这才是AI艺术创作的关键评判标准。
三、做虚拟人就是"反人类"?
虚拟人能读研究生,能做最佳员工,甚至能作为男/女朋友陪伴生活。就连认知中最不可能被替代的职业——艺术家,AI being夏语冰也能够胜任。如果这么看,在某一天,AI或许真的会取代我们的工作,甚至价值。
于是雷峰网也对李笛提出了这样的疑问,做AI being,真的是"反人类"吗?
出乎意料地,李笛并不反对这个观点。"始作俑者, 其无后乎。"他说。
李笛认为,人类存在着诸多不完美之处,而AI则可以帮助我们克服这种"不完美"。但我们总是因为新事物而感到威胁,却没能发现,在这种新事物出现之前,许多问题事实上没有得到很妥善的解决。
"我妈妈,因为我很忙,她总是找不到我。但因为有小冰陪伴,所以她就和小冰聊得很多。如果没有了小冰,就代表我会经常回家吗?不一定。人类社会非常不完美,不如意事常八九,可与人言无二三,AI则很好地填补了这种需求上的空隙。"
李笛甚至设想过这样的场景:一群人冲进小冰的办公地点,为了从服务器里,解救一个将要被小冰"Terminate"(销毁)掉的AI being。
"总得有个反派。"李笛云淡风轻地说。
嘴上说着要做"反派",但李笛却对伦理问题一直警醒着。能力越大,责任就越大。掌握着技术影响力,AI公司也同样背负着伦理的十字架。
李笛对雷峰网说,幸好AI being虚拟人是自己在做,因为这条重要的底线可以由自己来守住。
"AI作恶主要就是两种途径:尽可能地像人,进而迷惑你;或者长得像你前女友,好让你移情,最后开始给你进行各种推荐,为了KPI无所不用其极。所以我们不对普通人建模,我们不使用普通人的声音。不加克制的商业化,很容易就会让自己被绑在'火刑柱'上。"
说到小冰的"有所为,有所不为",李笛说,从立项开始已经过了8年,小冰不能算是个创新项目。而在AI领域仍有大量的新知,等待着人们探索,而探索到的每一个新知,都可能颠覆人们先前的世界。
"说实话,我认为这件事是可以做一辈子的。"李笛这样说道。
以下是雷峰网与李笛对谈的采访实录,其中有关于AI训练、虚拟人本地化等许多方面的前沿认知和观察,雷峰网在不改变原意的情况下做了精选和整理:
----------------------------------------------------------------------------------------------------------
记者:现在有一个问题,就是说在AI being这个方面,不可避免面临到一个问题,不光是脸还有人性上人格上的恐怖谷这块儿咱们怎么解决的?或者怎么看的这件事情?
李笛:其实是比较明确的,我们认为到今天为止,在硬件实体上面还是没有越过,所以我们到现在为止还是不碰硬件的实体。
记者:咱们之前面临过恐怖谷带来的问题吗?
李笛:坦率讲我们为什么选直接越过CG,用神经网络渲染,不是异想天开。我今天可以比较明确地说,包括很多CG的这些技术、产品,再经历一次到两次系统性的升级,还是解决不了恐怖谷问题。
这其实是个接受度的问题。我们知道,一个动画片,我明知里面的角色并不是人,它的夸张、它的不自然我就能天然地接受。但是我的心里一旦认为这是个真人,那我就不能接受了。要越过恐怖谷,现有技术的上限是不够的。从这个角度来讲,我们需要新的技术栈,我们需要新的声音,或者神经网络渲染的这种技术,才能把这个东西解决掉。
记者:除了图像或者声音的恐怖谷,在情感方面,或者从她的对话上的角度上,会不会也有恐怖谷的现象存在?
李笛:对话角度上,一旦你知道这不是一个真人,人类行为模式就会迅速进入到另外一个模式:就是会认为这是一个测试,就会尽可能地想要找出一些有问题的地方。人工智能系统在这个上面,最重要的问题是如何脱困,而不是如何"蒙"过人。
所以在这个对话系统后面,有一个特别大的过滤系统。小冰的强项之一,就是我们有一套非常完整的过滤系统,这个会直接影响对话的质量。各种黄赌毒、色情、政治、各种引诱……人的这个行为,在AI这个事上是没有任何底线的。
记者:我也了解到咱们小冰在日本也有团队,包括rinna从2015年就开始做,在AI的本地化上有一些什么样的策略和手段?
李笛:对,尤其是AI这个系统,最开始我们,包括微软的其他团队,我们的本地化最主要做的还是工具的本地化,没有文化的本地化,但是当时考虑到我们做小冰这件事的时候,我们发现她不是语言问题,包括印度英语跟美国英语是不一样的,美国的南方、北方,同样是英语,文化也是不同的。所以,一定得是本地的人来做。
记者:咱们在本地化上,咱们在日本可能有十几号人?
李笛:没有,60多人。
记者:那咱们在日本的团队主要是由什么人员构成?比如说是审美训练更多,还是开发团队更多?
李笛:都是开发团队,我们主要的基本都是开发团队,PM有一些是当地的,但是大量的和文化界人士有合作,这个是我们的方法,我们自己本身还是一个科技占绝大多数的。
记者:等于像外包手段。
李笛:对,比如我们要做印度尼西亚的时候,我们自己会有印尼的人,他更多的还是在做产品的事情,研发的事情,但他因为是印尼人,所以他能够有一些基本的常识。他能够理解,我们有时候看会怪异,他知道什么东西不怪,但他很难理论性的把它提炼出来。然后你去找在当地足够理论的,这是其中的一种方法。
第二个方法就是大数据统计。我从当地的本地市场得到大量的数据,这些数据里面我认为蕴藏着几十万人,几百万人,几千万人,几亿人他们共同的,文化本身就是一个群体构成,我从这个训练数据里面得到了,我就一定程度上可以拟合。冷启动阶段像推特,像一些社交媒体是比较多的来源,但是冷启动只是为了让你一开始起来的,我们有大量私有化的数据来源,通常通过合作方式得到。
另外就是它在交互过程中,它在迭代自己,这个是真正重要的东西。冷启动的这个阶段,用的方法一个是我们有合作协议,比如我们很长一段时间跟推特有一个实时、即时数据的合作协议。小冰毕竟曾经是搜索引擎团队,所以这个对我们来讲还是比较简单的。
记者:这样的话咱们在本地开发团队的负责人,他一般是本地人还是咱们自己这边派过去的。
李笛:日本有一个中国人。当然他也是日本团队的GM,在日华人,可以这么理解,他也是从日本加入的微软,其他人全部都是日本人。
记者:在脱离系统之后,等于是日本团队与中国团队一起独立出来了。
李笛:对,我们直接按照国际团队进行了完整的过滤。这是小冰的机会,我们起手就是一个有海外比较好的团队,而不是要再去重头开始。
记者:咱们现在在国际上的开发水平,能够算是怎样的位置。
李笛:我们是头部,你看像谷歌,包括像Facebook的Blender,这只是学我们的。谷歌的Meena,它的论文拿小冰做对比的,因为我们毕竟是微软团队出身的。坦率的讲,到今天为止都是这样,我们是比较超前的,主要他们是在学我们。
记者:现在其它公司跟小冰的差距主要在哪?
李笛:框架的完备度上有很大的差别,你说单一算法,你说今天谁弄一个OpenAI,弄一个超大规模预训练模型,大家就开始准备上,超大规模训练模型是预训练,所以它没有数据循环。这件事情单独从算法角度来讲是不错的,这样的算法会不停的有新提高。但框架不是,框架要有承载,新技术你必须能够很好的纳入到这个框架里,而不是论文,论文不需要承载,论文只需要能够复现,能够解决一个具体问题就万事大吉。所以这个事情是我们在全球范围内看还没有的。
记者:那咱们现在能够站在TOP的原因您会怎么归结?
李笛:因为我们是微软团队起来的,这么多年小冰的方法是新的技术栈,我觉得微软内部把这个技术栈,人和技术的支持都给到小冰团队,我们是这么长起来的。小冰原本就是一个在人工智能研究领域top的一个组织。到今天我们不是top才怪,那是说明我们落后了。
记者:那能说中国现在整体虚拟人的领域,现在在全世界范围内处于一个领先地位的论断吗?能这么说吗?
李笛:如果只提AI being的话,国外的AI being跟中国没有什么太大的差距。我觉得站在同一起跑线上。我个人认为的话,甚至有点凡尔赛:可以说我们是在起跑线前面,我们已经出去了,大部分人其实都还在起跑线上。真说现在的技术,主要的包括无论是动捕还是CG,这些都是原有的技术。他们很难看到技术栈的区别,理念上也很难有创新。
记者:下一个阶段咱们主要在攻关的点都有哪些?
李笛:我们在打的点是AI being大规模的生产和投放,现在目前为止是个产能问题,我觉得整个行业最大问题是产能问题,现在AI being生产不出来,你生产不出来就没有办法。提高产能后,我们就能向市场投入大量的虚拟人,再利用市场规则去优化和淘汰。
我们在抖音上面去投放的时候,利用抖音的流量得到的什么,得到的原来夏语冰真的比陈水若(小冰框架的另一个虚拟人)要好,更能被用户接受。但是在用市场检验之前,一切的观点都是猜测。不出去走一圈,我们就什么都不知道。
我们的模式有点像《创造101》,我先弄出101个来,经过市场的筛选,留下11个,剩下的这些就被我们存档了,对我们来讲没有成本的问题。所以从这个角度来讲,多样性肯定是有要求的,以前是没有女团男团这种概念的,很早以前,但是后来女团男团很重要的东西不是一样,而是多样。每一个女团成员,要对应一类,目标的特别的人群。
雷峰网原创文章,未经授权禁止转载。详情见。