B 站的野望,百度的危机
" 未来的搜索形式会不断地发生变化,但是它的市场规模之大,恐怕远超很多人的想象。"
近期(七月底)B 站 投资 者日上,管理层披露业务最新进展:"B 站在搜索这块,有非常大的流量增长空间, 今年 Q2 起,我们会增加搜索广告的尝试。 "
而更早之前, 3 月初 B 站开始陆续出现搜索广告。比如搜索 " 游戏 ",搜索结果中的第三个位置展示了游戏广告。
也就是说:B 站给出 商业 化可能的答案,正是视频搜索。
实际上,这不是无源之水,也不是无本之末。行业趋势便是如此,目前视频平台的搜索趋势都愈加明显。抖快均在去年上线搜索广告,Tiktok 也在今年 3 月放开搜索广告。
对于后面的发展,普遍信心十足。如快手 2023Q1 电话会议也说道:搜索流量快速增长,搜索广告转化效率更高。
巧合的是,这都是最新一个季度发生的转变。这显然离不开过去半年 AIGC 的大热—— 行业由 TensorFlow 时代,发展至 Transformer 时代
当下,技术进步的催化,或许打开了视频搜索可能性。过去受制于视频搜索技术、时间效率、成本(人工、硬件)等难题,正在不同程度的一一发生变化。
这自然会打破过去视频行业的商业化天花板。
相比长视频(缺乏有用性)、短视频(纯粹奶头乐)的特征,B 站独特的中视频、泛知识、通俗有趣等特征,匹配搜索行为的特定需求,会产生更好的化合效应。
在 AIGC 时代,视频搜索或将成就 B 站的 " 野望 ",同时,引发百度的 " 危机 "。
AI 实现 " 看视频说话 ",视频平台就能坐上金矿
很长的 互联网 发展周期里,视频搜索都被证明是一条很困难的赛道。
难就难在,视频搜索的整个搜索流程里(输入关键词→解析关键词→召回→结果呈现),召回和结果呈现环节,都存在很大挑战。
以召回环节来说,要实现这点——根据输入的关键词,与数据库内容进行匹配,检索出最符合的视频——不仅要求平台拥有丰富的视频内容池,还要有搜索的精准度。
内容丰富度方面,视频内容因为创作门槛高、时间短等原因,在深度与厚度沉淀上有限。
搜索精准度上,则存在更大的挑战。举个例子,在谷歌上搜索 " 边牧智商 ",呈现的第一个搜索文章,内容里明确有边牧如何高智商的解释字眼。
但如果在 YouTube 上有一个视频,从能听懂人话、完成指令等各个动态维度,更直观展示了边牧智商很高,可标题、字幕等却没有提及边牧智商等文字标签,这个视频就很难被搜到。
之所以会这样, 是因为视频融合了文字、图片等多模态信息,相比纯文章,内容理解要难得多 ——很难将视频里的狗子,识别成为边牧,更难把边牧的动作,和高智商挂钩。
事实上,2017 年 Transformer 架构被提出之后,多模态模型已不断进化。
比如,先是谷歌由此架构提出了实现图像分类的 ViT 模型,将 Transformer 带到了视觉领域,但该模型仍然只是单图像模态。
在其之后,OpenAI 提出了 CLIP 模型,可以基于文本对图片进行分类, 包括图像处理和文本处理两方面的内容,打破了过去二者泾渭分明的界限,实现多模态 。
而且,CLIP 在 GPT-3 的启发下,可以直接全网数据爬虫,一图一文匹配,稍微做筛选即可,几乎不需要人工标注,实现了更高的成本和时间效率。
要知道,过去的视觉模型都是基于人工标注的数据集训练,而一秒视频至少有 24 帧,短短一分钟的视频就能够提取出 1440 张图像,把其应用到视频识别上,成本极高。
但尽管 CLIP 在识别常见物体上表现良好,却无法处理更抽象的任务,比如输出图片中物体的个数等需要一定逻辑思维推理的任务。
也就是说,此时的图像识别,更像人的视网膜原理。但人不光是眼睛看到了当前的情况,大脑还得对情况有相应的反应。
这需要算法具备像大脑一样的语义理解能力,才能够全面理解视频,更好地支撑关键词的召回匹配和排序。
而几个月前发布的 GPT-4,让这一问题有了解决的迹象。
比如在对话中输入下图,GPT-4 的回答是 " 这是一棵生长在冰冻湖上的仙人掌,它周围长满了巨大的冰晶,远处还有白雪覆盖的山峰 "。
继续问 " 这种景象在现实世界中是否常见 ",其解释很少有这样的景象,并给出相应原因。
也就是说, 最新的 GPT 4 已经具备了 " 看图说话 " 的能力——不仅做了物体的识别,还可以做很多语义的解读 。
以此后推,随着 AI 模型加速迭代," 看视频说话 " 也指日可待。当然,反过来也能够实现文本生成视频,降低制作视频的门槛。
但 GPT-4 这个能力目前只在宣布阶段,还不存在一个完整的多模态大模型,需要一定时间的探索。
况且,多模态大模型要以图像和视频等作为训练数据,文件大小远大于语言类模型,算力成本极高。
比如,百度的文心一言虽然展示了视频生成能力,但因成本较高,现阶段还未对所有用户开放。
而在结果呈现环节,视频也不能像文章一样快速浏览,ctrl+F 查找,一个十分钟的视频,可能到后半段才有你要的信息,再加上暂停、记录,三十分钟都搞不定。
但这个问题,国内已有音视频大模型破解:将视频信息归纳总结,想看哪一段,直接点击章节,就可以跳转到相应的时间段播放。
总的来说,随着视频 AI 技术的应用,视频搜索在核心的内容丰富度以及搜索精准度,都有望解决。
何况视频本身比文本就更加直观生动,更具吸引力——截止 2022 年 6 月,国内网民每天一半的网上娱乐时间都花在短视频平台上。
种种利好叠加, 到那时,视频或能代替文本成为搜索的主流 。当下在海外,这种苗头已经出现。
Chowdhury 机构调研显示,近 40% 的年轻人在寻找吃饭的地方时,会在 TikTok 进行,而不是谷歌搜索。
可以看到,海外年轻人平均每天都要沉浸在 TikTok 上近两个小时。在这两个小时内,但凡看到有趣的内容,自然触发搜索行为。
这样的情况,让谷歌深感威胁。据透露,谷歌数百名员工被分配到一个被称为 " 重要的搜索转移 " 的项目中工作,该项目的内容是让搜索结果显示更多图像和视频。
显然,这对百度来说,也可能是未来会遇到的情况。
但 " 惊喜 ",远不止此。
不同于文字,视频能润物细无声地植入广告,吸引用户点击。最早上线视频搜索广告的 youtube 曾表示,视频搜索广告带来的点击次数比插播广告,高出近五倍。
不止点击率,广告价格方面也是一样。视频平台本身在算法推荐上就具备优势,再与搜索结合,广告精准度提升,就有人买单。
总的来说,视频搜索场景下,搜索广告的几大驱动因子——流量、加载率、点击率、价格等都有了进一步提高的可能。
这样一来, 意味着一旦技术突破,视频搜索可能会重构搜索广告的生态与逻辑, 视频平台相当于坐上了金矿。
" 泼天富贵 " 终于轮到 B 站?
B 站 14 周年庆上(6 月召开),陈睿当着全国年轻人的面,向中长视频 UP 主服软称," 要用更真实的播放分钟数去替代播放次数,作为 B 站视频的主要外显数字。"
那么,为何 B 站会口风大变呢?
其实, 管理层 可能不是在讨好中长视频 UP 主们,而是要迎接自己的时代 。
众所周知,一直以来,抖快以沉浸式娱乐内容,在日活、用户时长上,压了视频号、B 站等以泛知识内容为主的平台一头。
但视频搜索场景下,两者的处境截然相反。
YouTube 相关负责人曾提到:"YouTube 上,每周经由关键词搜索而产生的视频浏览量有数十亿次,许多风格偏实用的视频正是通过这种方式被发现的。"
其所说的实用视频正是 how to(如何 ...)类视频—— Youtube 上每天有数以百万计的搜索关键词当中包含 "how to",用户花在 "how to" 类视频的时间是 " 宠物和动物 " 的 10 倍。
原因在于: 视频搜索是有目的性的,偏知识类的内容,更符合搜索需求 。
而这也是 B 站的舒适区,可以看到,截至今年 3 月份,B 站泛知识内容占比 41%," 学习网站 " 的名头无意中越来越夯实。
如此就不难理解,为何 " 睿帝 " 低头,调整激励方式。
不过,内容优质只是一方面,视频搜索效率高,还要能提取足够多的关键词。
这一点来看,同一关键词分别在抖音、B 站搜索到的标题汇总显示:抖快视频标题很长,但大多数采用现成的 tag,或者 " 标题党 " 类标题;
相比之下,B 站的标题简单,可大多具备关键词汇,也更加专业。
搜索内容呈现也是一样,以 " 山东地震 " 为例,抖音搜索结果聚焦在 " 肯定要先跑出去呀 "、" 啊啊啊啊啊,地震了 " 等博主本人感受。
B 站搜索到的诸如 " 山东为何突然爆发地震?" 等知识科普,创作者更多运用 " 板块运动 "" 断裂带 " 等专业词汇讲解。
也就是说,无论标题、内容,还是时长方面, 中视频比短视频都更易提取关键词,与视频搜索更适配 。
且短视频平台的创作者想转向做中长视频,恐怕也有难度。可以看到,过去一年,不少千万粉丝的抖音创作者入驻 B 站后,粉丝量表现均不佳。
此外用户自己搜索所需下,优质的内容能够获得更长的生命周期。
仍以 youtube 为例,上述所说的 How to(如何 ...)类视频生命周期极长,即使过去很长时间,依然能维持较高的热度,甚至是逆袭式的消费曲线。
B 站自己也有这样的畅想,2022Q4 电话会议曾提到:B 站上面有很多知识类内容,都有很好的历史价值,几年以后大家也都会去看它。ChatGPT 的搜索体验,它可以把 B 站的内容积累的价值,更充分地发挥出来。
这样一来,会激励创作者产出更多优质内容,而不是像当下的 Story Mode 模式,不断冲击站内的中长视频 UP 主基本盘。
有了更多的优质内容,就能够扩大搜索流量池,广告主闻利而来,创作者也能获得更多收益,社区生态整个良性循环。
换言之, 如果技术实现突破,相比可能让 B 站陷入 " 死亡螺旋 " 的 Story Mode 模式,视频搜索广告才是良药 。
更何况除了拉动正循环,搜索场景下,平台还掌握着宏观调控的权力。
如 YouTube,2020 年提升了 how-to 类内容和高商业化 KOL 分发权重,当年广告营收达到 198 亿美元,相比 2017 年翻了超过 3 倍。
B 站来说,可以将搜索流量分发至更多中腰部 up 主的推广视频中,一定程度上可以带着 up 主 " 共同富裕 "。
小结
视频搜索的蓝图,让所有人垂涎。AI 大模型加持下,技术正在突破 ing,广阔的商业化变现空间,隐隐招手。
而 B 战尤甚,中视频与视频搜索更适配,这意味着盘活平台的创作者生态,促进新一轮的生态发展。
当然,预期总是美好的,但这一块短中期落地方面,仍存在较大的挑战。
比如,视频训练成本高极高,同时 AI 联想能力并不可控,可能会导致不恰当关键词投放,让广告主落入负面风险中。
来源:表外表里