AIGC 重塑数字人,B 端占有 79% 的市场
据 IDC 预测,中国数字人市场规模预计到 2026 年达 102.4 亿元。这其中不仅包括正在快速发展中的 B 端市场,还有被视为潜力股的 C 端市场。尤其是在 AIGC 大模型高速发展的当下节点,数字人的渗透率将会增强。
目前,诸多厂商已经入局。今年 8 月,华为宣布推出盘古数字人大模型,可帮助用户 12 小时完成数字人生成。此前腾讯推出了一些基于特定场景的虚拟数字人,如平安普惠数字员工、新华社主播 " 新小微 "、航天员 " 小诤 "、3D 手语翻译官 " 聆语 "、故宫博物馆导游 " 福大人 " 等。阿里巴巴的虚拟数字人为自身业务需求服务,仍是以直播带货为主 ......
那么,在 AIGC 大模型浪潮下的数字人发展情况究竟如何?数字人将会应用到哪些场景?面临哪些技术挑战?成本多少?本篇内容对话了心识宇宙产品 VP 陈阳、世优 科技 创始人 &CEO 纪智辉、行业从业者李元(化名)等,试图解答上述问题。
01 AIGC 加持下,数字人开始狂飙?
腾讯发布《数字人产业报告》中,将数字人界定为 " 以数字形式存在于数字空间中,具有拟人或真人的外貌、行为和特点的虚拟人物。"
2023 年,随着 AIGC 的强势崛起和类 ChatGPT 语言大模型的问世,数字人赛道变得越发热闹起来。开始频繁出现在各大应用场景,以及文旅、电商、 金融 等多个行业,形形色色的虚拟数字人正代替真人,充当着代言人、主播、播报员、客服和智能助理的角色。
市场的参与者也肉眼可见变多。 互联网 大厂、 创业 公司、老牌 AI 公司和一些此前做智能客服 营销 的数字服务商和资方都躬身入局。
锐观网数据显示,截至 2022 年 12 月,中国数字人行业投融资事件超过 140 件。据 IDC 发布的《中国 AI 数字人市场现状与机会分析 2022》报告中, 预计到 2026 年中国 AI 数字人市场规模将达到 102.4 亿元。
对于数字人产业越来越热的现象,多位受访人总结出三个原因。
一是从技术上来看,AIGC 的出现解决了数字人 " 只会念稿、不能交互 " 等诸多痛点。 生成算法提高了内容创作的效率和便捷性,降低了成本和门槛,同时还丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好。 自然语言处理大模型有助于提升数字人交互体验,让数字人从过去的 " 没有大脑没有灵魂 " 找到了一个比较好的出口。
与此同时,建模渲染、 AI 生成动作捕捉等技术也在不断的进步,让整个数字人的表现比普通的 AI 机器人更加像自然人,对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯。
二是 90 后、00 后为代表的 " 网络原住民 ",对虚拟角色的接受程度逐渐深入,很容易对虚拟角色投入情感。
三是国内数字 经济 的进一步发展趋势下,让企业降本增效的经营需求起到了助推作用。
行业从业者李元(化名)同意该观点,并以直播场景为例解释,真人直播需要花费一定成本来搭建直播场景,而且随着抖音、美团等平台开启本地生活直播,人才缺口也是一个问题,数字人恰好能填补这个缺口,而且能够做到 7 × 24 小时无休。
" 公司通过 AI 技术在数字人‘造人、养人、用人’三个不同阶段均实现成本控制、规模化生产能力。在 AI 产品方面,今年世优科技推出了世优 BOTA、世优 AI 数字人直播系统 AI 数字人产品体系。通过 AI 与数字人的结合应用,实现批量化打造虚拟人,为行业降本增效。" 世优科技创始人 &CEO 纪智辉说道。
当前,数字人的应用越来越广泛,无论是 B 端还是 C 端都出现了数字人的身影。清华大学发布的《虚拟数字人研究报告 2.0 版》显示,数字人已经渗透到各行各业,成为新一代的生产力和创造力。 从头部企业的布局来看,数字人产品服务在 B 端占有 79% 的市场,而在 C 端占比 36%。
在数字人的 B 端应用场景方面,心识宇宙产品 VP 陈阳坦言:" 主要是做客服、营销、文旅导游以及 AI 直播等, 因为 AI 直播本质上也是在与观看直播的用户互动、回答用户提出的问题。难点在于数字人客服如何快速的为交流对象提供正确的答案?基于 ChatGPT 大语言模型,数字人可以得到很多信息,但同时也会出现无法准确回答交流对象、甚至是编造答案的现象。这对客服场景会带来致命的伤害。"
在数字人的行业应用落地方面,IDC 的相关报告介绍,金融行业是当下数字人应用相对更成熟的领域,到 2025 年,超过 80% 的银行都将部署数字人,承担 90% 的客服和理财咨询服务。 例如浦发银行是国内最早 " 聘用 " 数字员工的银行,目前 3D 数字人 " 小浦 " 已经在 20 多个岗位任职,包括财富规划师、文档审核员、大堂经理、电话客服等。
此外,企业的数字人可以与内部系统绑定,员工可以跟它交流了解公司的规章制度,查询各种信息等。
未来,数字人将在医疗、教育、制造等多个领域发挥作用,例如在医疗领域,数字人可以作为认知智能大模型,辅助医生进行诊断和治疗;在教育领域,数字人可以作为个性化教学助手,帮助学生提高学习效果。
接受采访的几位业内人士都表示,未来 C 端也是一个比较有潜力的市场,未来可能人人都会有一个属于自己的数字人,但从成本、技术、设备来看,还需要经历一段时间的发展。
02 难以逾越的成本高墙,3D 数字人成本达 100 万
想要躬身入局的企业,需要懂得计算投入产出比。
目前,数字人分为两类,一类是由人驱动的 " 中之人 ", 是指依靠人力驱动虚拟主播进行直播,这种驱动方式需要进行大量的拍摄及后期工作,成本较高, 众多 3D 虚拟人采用的便是中之人驱动。
另一类是 AI 驱动数字人, 指通过使用机器学习,喂养数据等方式训练数字人完成特定的任务。这类数字人通常应用于工作重复量高的服务型场景, 目前在直播间带货的 2D 真人数字人大都属于该类。
3D 数字人往往以动画人物形象出现,适用于虚拟 IP 的打造。对于该类型数字人来说,从面部轮廓到服饰场景都需要自定义打造,成本通常会更高,制作周期也会更长,报价超过 20 万元。
例如英伟达曾在官方博客中称,黄仁勋虚拟人在发布会上出镜的 14 秒视频,共有 34 位 3D 美术师和 15 位软件工程师协同参与,总计近千工时。
这样高昂的成本得到了李元的证实," 在传统的 3D 建模技术下,一个能看得过去的定制数字人,需要几十万的成本,这还只是冰山一角。 "
据世优科技 CEO 纪智辉介绍称,市场一般将数字人成本分为 3 部分,即造人、养人、用人。 第一部分是造人 ,通过角色创意、原画、建模、绑定、表情、实时渲染等环节,可按照风格生产出卡通 Q 版,迪士尼人形、二次元、次世代、美型写实、超写实等不同风格。 价格从几万到上百万不等。
第二部分是养人 ,当数字人被造出之后,还需要低成本、高频不断的输出内容,用数字人生成内容,养出 IP 认知度。例如数字人需要出一条短视频或者一条 TVC 广告片,其成本则是根据内容的精度、效果以及脚本内容不同等因素来决定, 一分钟成本从几千、几万到几十万不等 ,主要取决于脚本的难易程度。
第三部分是用人 ,主要是指数字人生产内容后所应用的场景。" 目前,世优科技在用人方面涉及十大应用场景,包括广电 媒体 、品牌营销、电商直播、短视频、政府文旅、教育娱乐、影视剧、 AR/ VR /AI 、NFT、元宇宙等各类线上线下场景。比如数字人做虚拟主播、媒体记者、活动主持人、线下展厅接待员等等。根据客户的项目需求,涉及相关执行的成本。" 纪智辉说道。
不同类型的数字人所产生的成本差异较大,应用 AI 生成技术研发的 2D 数字人相比之下,成本便宜很多。" 整体来说,2D 数字人的成本只有 3D 的 1/10 或者 1/20 ,这是目前相对接地气、市场上容易接受的水平。" 纪智辉说道。
世优科技拥有 2D 数字人相关产品线。 2D 不需要建模,生产过程也相对简单,主要是通过拍摄一段真人视频后通过 AI 技术训练而成,造人成本只需要几千块钱。在养人生成内容方面也只需要输入脚本,数字人就能讲话做到对外输出,养人成本只需要几块钱 / 分钟,之后会接近于 0 。
当然,2D 数字人并不能适用于所有场景,在 游戏 场景和虚拟偶像这样的赛道中,企业只能使用高价的 3D 数字人,成本负担可想而知。 而且无论 2D 数字人还是 3D 数字人,都面临着内容劣势。
今年 5 月抖音发布 AI 标识令,开始监管数字人这一新物种。在内容上没有竞争力,只会重复口播的大量 2D 数字人被封禁。纪智辉提到,因为抖音、快手、 微信 是内容与电商平台,所以主播必须提供高质量的内容。而 AI 生成的部分内容质量不高,平台就不给流量,最终导致了东西卖不出去。所以数字人实现高销量的带货,是需要配备运营团队、好的货盘等好几个因素叠加才能把带货 ROI 做好。
至于大众对于 AI 所引发的 " 换脸 "、" 永生 " 等风险的担忧,李元表示:" 任何新技术的出现和应用都需要一些相应的规范,监管也在做出反应。今年 1 月份,有关部门就出台了 AI 生成内容的一些监管政策。市场内的正规厂商对此也很重视,这些厂商都有自我规范和要求。"
03 三个技术难题,数字人无法像人 " 生动灵活 "
值得注意的是,当下大模型驱动的数字人产品仍处于应用落地的早期阶段。除了上述提到的成本制约因素以外外,业界普遍认为现阶段,技术成熟度和效率也仍然是数字人的难题之一。
有研究报告将数字人的特征总结为 3 点,但技术在这些特征上的呈现均有许多不足之处。
一是数字人拥有人的外观,具有特定的相貌、性别和性格等人物特征。
" 如果客户不选择超写实数字人,即完全复刻一个真人的状态,那么数字人的外观技术已经较为成熟了,只是数字人的表情、动作仍有卡点。 但是在没有真人动捕而是完全通过自我驱动的情况下,数字人很难呈现出自然的表情和动作。 " 陈阳说道。
二是数字人拥有人的行为,具有用语言、面部表情和肢体动作表达的能力。但不少数字人产品在语音、表情、互动表现上目前还比较生硬。
李元认为,由于数字人缺乏情绪、情感的表达能力,例如在感到生气或委屈时,无法用更丰富面部表情和更大的肢体动作来呈现,导致数字人虽然拥有了人的外貌、声音,却无法像人一样生动灵活的原因。
三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
" 虽然 ChatGPT 的出现赋予了数字人大脑, 但如果市场希望刻画一个有特定个性,甚至有自己成长经历、世界观的一个角色,单纯使用 ChatGPT 很难实现,目前整个技术还不能很好的支持这个事情。 " 李元说道。
据悉,目前 AI 还不够智能,这导致智能驱动型(TTSA 人物模型)的交互型数字人只能作为补充型的角色存在(游戏场景除外),市面上仍以真人驱动的为主,比如在视频直播和展台上的充当主播的数字人。
陈阳观察称,展台会用全息技术投诉一个角色与访客互动。AI 驱动的数字人则主要是充当文旅导游,同时在一些淘宝直播间也会出现,在真人主播无法覆盖的时间段,会使用这样的数字人,应用场景比较有限。
不过纪智辉认为,随着 AI 技术发展,未来 AI 驱动型的交互型数字人市场可能会比较广阔。真人驱动型数字人会更适合进 3D 空间实时互动,比如 3D 数字人实时互动直播、元宇宙这样的应用场景。
从年初热闹至今,从业者与客户们也观察到,市场已经在呈现理性回归状态。一些喧嚣和割韭菜类的厂商与代理商等角色在加速出清,希望未来数字人真正为企业实现降本增效。
来源:第一新声