AI换脸ZAO一晚,成本烧掉几百万
(原标题:AI换脸ZAO一晚,成本烧掉几百万)
来源:量子位
作者:问耕
唯一能阻止ZAO刷屏的,可能是服务器。
今天上午10点半左右,正在使用ZAO的用户发现,想要生成一段新的AI换脸视频,已经不是等待几秒、排队第几位的问题,而是――
“服务器繁忙”
提示页卡上写着:当前制造任务已满,无法制造,预计10:XX恢复能力。这里的XX大概是一段10分钟左右的延时,不过只要5、6分钟就能继续处理。
10点45分左右,这个提示变为更简单粗暴的一句话:
“当服务器制作量过大,请稍后再试”
仔细看这句话,你以为是漏了一个字?不不不,只需要动用初中阅读理解方法,就能推断出这是运营方的一个暗示:
缺“前”。
要知道,每个ZAO用户换脸的背后,是熊熊燃烧的服务器成本。据ZAO官方透露的消息,一个晚上ZAO的服务器就能烧掉200多万。(烧一天怎么也得500万以上了吧)
这也足见ZAO的火爆。
为什么ZAO火了
AI换脸,不是新鲜事。
2017年底,国外一位ID为“deepfakes”的网友,利用业余时间创造了一个AI换脸算法。后来这个算法也被广泛称为deepfakes。
这个机器学习算法,首先在小圈子炸开。在国外的Reddit论坛上,有一个deepfakes社区,一个月内聚集了1.5订阅者,并产生了大量的AI换脸视频。
随后,这个社区逐渐变成了生产假冒爱情动作片的“黑窝点”――不少人用AI技术将色情作品中的主角换成明星的脸。有文化,真可怕。小电影,可造假。
也正是因为这样,这个社区引发了大量的争议,最后被彻底关掉。
但这个AI换脸这个技术,却一直进化至今。比如今年初,B站UP主“换脸哥”,使用者个技术将94版《射雕》里朱茵扮演的黄蓉,换成杨幂的脸。
效果是真的好。(详见:朱茵变杨幂,流量一个亿)
还有徐锦江对战灭霸、洪世贤换脸艾莉等等。(详见:B站名场面全被AI换脸调戏了一遍)
但,为什么ZAO大火特火了?
原因很简单。因为ZAO最简单。
最初的deepfakes只是一套算法,是基于Keras等多个开源库完成的。后来有位高手添加了一些工具,封装成引用FakeApp。这是一个桌面应用,可以运行deepfakes算法,无需安装Python、TensorFlow等,仅需要“支持CUDA的高性能GPU”。
这听起来简单,但对于普通用户来说,下载、安装、训练都是费时费力的大工程。所以通常都是一些爱好者制作发布,大家欣赏换脸后的成片。
而这次ZAO把门槛一下拉低到近乎没有。
用户想要体验AI换脸,不再需要电脑、高性能GPU、数据集、编程和AI知识,只需要一部手机,一张自拍,就可以把多种影视场景中主角的脸,换成自己的脸。
这是一种前所未有的体验,而且效果虽然不能说特别好,但通常情况下,都是相当不错的,至少可以让用户有动力发到朋友圈去显摆一下。
烧自己的钱,让用户爽,从这一点来说,ZAO当然有火的理由。当然ZAO应该也不缺钱,毕竟背后是著名的公司:陌陌。
被质疑的隐私问题
当然越火,质疑声就越大。
AI换脸如此,ZAO也是如此。现在ZAO面对的一些质疑,就是当初deepfakes出现的时候,曾经面对的质疑。
质疑一是“版权”之争;二是伦理道德之争。
显而易见,deepfakes是双刃剑。这个简单的应用可能会被居心叵测的用户利用,从而制作各种色情、暴力甚至关乎政治的虚假视频,一旦发生,后果可能非常严重。
这并非耸人听闻。而且不只是视频,AI还能“造假”声音。斯坦福和普林斯顿大学等最新研究:给定任意文本,就能随意改变一段视频里人物说的话。并且,改动关键词后人物口型还能对得奇准无比,丝毫看不出篡改的痕迹,就像下面这样:
苹果今日收盘价191块4,改成182块2你也看不出来。
让新垣结衣向你表白,让石原里美大声喊出你的名字,甚至随便根据某个人的视频伪造个人陈述……现在都不在话下。
手握这项技术,在视频中让你怎么说你就怎么说,让你说什么你就得说什么,谁也看不出来这是假的。对,脸和声音都是你的,而且有视频,但一切都是假的。
另外,ZAO也让很多用户有强烈的隐私担心。
毕竟这是一个需要上传人脸数据的应用,而人脸作为生物识别信息,很多时候已经成为我们的重要资产的密码。
比方韭菜教育专家李笑来就在微博上说:“ZAO可能很危险的… 别看你今天玩得开心,过段时间就有可能你的支付宝被盗刷脸了?不过这事儿很难怪ZAO,谁让你认知浅薄了呢?”
还有ZAO用户、隐私协议里的一些话,也被很多人拿出来质疑。
比如上面这句,就被集火抨击。
当然还有人替ZAO着急,毕竟之前大火过的各种换脸应用。基本上都难逃一阵风的宿命,亲爱的用户们新鲜劲很快就过去了,保质期可能都不到一个礼拜。
换脸背后的技术
ZAO没有公布背后的技术细节,但AI换脸本质上都是大同小异。
前几天,有个国外的团队制作出毫无破绽的换脸视频,同时也披露了背后的技术细节。那就是开源项目:DeepFaceLab。
DeepFaceLab是Deepfakes换脸术的一个软件工具包,安装简单,使用方便,更新及时。在GitHub上已有5000多星。
代码公开是一方面。另一方面,从项目描述看,不需要太多算力就能跑 (详见下文) 。总体说来门槛很低。
软件包里有多种模型,各有特点:
H64 (2GB+显存)?,64像素模式。这是经典模型,DeepFakes最初扬名就是靠它。DeepFaceLab对它做了些改进,让这个模型在低显存情况下也能用低配置参数运行。
H128 (3GB+显存)?,128像素模型,比H64像素更高,细节更丰富。能应对大部分远景和中景镜头,适合亚洲脸型。
DF (5GB+显存)?,H128的全脸模型。它换出来的脸通常比H128更像,但兼容性更差,边缘问题突出。
LIAEF128 (5GB+显存)?,结合了DF,IAE的改进型128全脸模型。这个模型存在闭眼识别问题。
SAE (最低配置2GB+,推荐配置11GB+)?,风格化的编码器,基于风格损失的新型超级模型。可以有效重建被遮挡的脸。可玩性高,参数可调,调优空间大。
DeepFaceLab唯一的安装要求就是对应版本的显卡驱动,甚至不需要CUDA和CuDNN。
软件的中文官网提供了下载通道?(有无需魔法的百度网盘版本)?,以及详细的安装教程。
同时还自带许多人脸图片数据。
官网说,DeepFaceLab虽然没有可视化界面,但步骤非常清晰,操作并不复杂。
换脸主要分为五个阶段:
视频转图片、提取脸部、训练模型、人脸替换、合成视频。
每个步骤只需点击BAT文件即可执行。
想要入门AI换脸的小伙伴,也可以在DeepFaceLab中文官网找到丰富的教程:
https://www.deepfakescn.com/
虽然,DeepFaceLab描述的硬件要求不高,但ctrl shift face能做到今天的效果,背后很可能有贵贵的GPU在燃烧 (尽管没披露技术细节,不知道有没有改进算法) 。
自学换脸配置指南
最后,贴一个量子位之前就发过的指南。如何才能自己动手搞AI换脸。
目前网上已经有fakeapp、faceswap、deepfacelab等一大批现成换脸软件,只要有够强的硬件,你也能自制一段换脸视频。
这些软件都一个基本要求,就是必须支持英伟达的CUDA。
通俗地说,如果你最近几年为了玩吃鸡这类游戏配置了一台PC,而且安装的是英伟达的独立显卡,那么运行Deepfakes应该是没问题的。
根据国外网友的实测效果,要运行fakeapp且电脑不崩溃,至少需要以下配置:
-
至少有2GB显存的英伟达GPU
-
英特尔i3或者AMD 9处理器
-
8GB内存
-
20GB剩余硬盘空间
以上只是最低的配置,制作一个换脸视频可能需要几天才行,是不是感到电费在燃烧?如果为了省事中途截断,效果会惨不忍睹。
去年科技媒体The Verge的记者还真试了一把,她的电脑给人换脸大概需要一天的时间,如果只训练几个小时,结果根本没法看:
从电脑屏幕上来看,训练过程是这样的:
如果你不想每天早晨打开电脑都看到上面的画面,那么我们推荐以下配置,它能讲训练时间缩短到只有几个小时:
-
至少4GB显存的英伟达GPU(GTX 9系或者更高,多数网友推荐GTX 1060 6GB显存,售价1699元)
-
英特尔i5或AMD Ryzen处理器(以i5-8400为例,售价1599元)
12GB内存(购买2条8GB内存,总价700元)
-
100GB剩余硬盘空间(考虑到其他占用空间,购买250GB固态硬盘,价格大约300元)
以上只是主要部件的价格,再加上主板、电源、机箱,总的主机(不包括显示器)价格区间在5000~6000元之间。
需要注意的是,在这里,硬盘空间比硬盘读写速度更重要。
因为训练Deepfake过程中大约每分钟会产生1GB的图像文件,通常SSD的空间较小,如果被训练数据占满,将会导致SSD性能下降。而机械硬盘的性能几乎不受剩余空间影响,非常适合用在训练Deepfake中。
当然,除了软硬件条件,你还得准备相应的视频素材。
最后友情提示,你自己准备好软硬件,也需要面临最开始提到的,钱的问题。根据Deepfake软件要求的硬件配置和训练时间,换一次脸就需要烧掉至少一度电以上。