VR社交？先想办法过语音聊天这关吧

36氪 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

编者按：随着 VR 技术的发展，VR 社交的概念也应运而生，本文作者指出 VR 社交的前景可能在语音聊天这一环节上就面临很大的困难。本文作者 “破天之雷”，文章原发于微信公众号“虚拟现实游戏”（vrgames），36 氪经授权转载。

最近听说 VR 社交的概念被三星和 oculus 炒得很火。VR 社交可能太潮了。笔者决定先给大家泼下冷水，VR 社交并不是 “看下去那么美” 的。

这个问题就是语音交互的问题。恩，VR 环境下已经不允许玩家的双手还能有工夫玩码字的闲情逸致了。

首先，我们默认 SIRI 跟科大讯飞的用户体验都是及格的。这样，我们在单机语音交互的时候，起码是没啥问题的。

但是我们试想这样一个场景，如果我们都顺利进入语音交互的场景之后了呢?

那么，问题来了。

人类从来都只习惯过近距离的语音交互，从来没有习惯过远距离的语音交互。

语音会带来陌生的侵入感非常要命，这本能的会引发人类不自然的警戒：人类对周围的声音都应该是熟悉的才对，陌生的声音一定代表着异物入侵。

所以各种网络游戏内置的语音聊天就是没办法用起来。玩家本能的不想去暴露自己的声线——这对不熟悉的人是陌生和危险的信号。而人与陌生人之间的信任成本非常高。“握手” 这个动作能表达信任，首先就代表着双方都放弃了最具有威胁的手，然后伸出去代表自己无恶意。经过这么一个 “信任” 的识别程序之后，人类才能互相接受这个陌生的声音进行交流。所以各种网络游戏都需要 YY 这样的一个中立平台来敲掉信任的成本。

继续，还有问题。人类识别声音能力及其之差。

在 QQ 群中群聊的时候，几百人在一个群不是问题，因为每个人的发言脑袋上都刻着 XXX 发言的标志。在论坛中聊天的时候，几万人在一个社区也没问题，每个人说了什么话同样在脑门子上写着谁跟谁说了话。

但是换成语音聊天会怎样呢？人脑只会极其缓慢的识别出熟悉的人的音色，剩下的就是陌生男子，陌生女子的识别模式；人类识别音色能力很差还体现在，语言组织表达音色的能力也极其匮乏：磁性，尖锐，成熟，中性……还有啥？我们在小说见到的描述，听到陌生的声音只能形容为 “陌生女子 / 男子” 的声音；只有极少数极其有特点的声音被被归纳为某个名人的近似。

HIFI 发烧友的描述，“这声音特别滑 / 甜 / 冷 / 干”……你一个普通人能听懂他们的幸福感何在么？

如果一个社交单元里只有 5 个人以内还好，人脑可以通过谁在发音这个动作辅助识别谁在说话。如果人多了呢？除了把 1-3 个明星选为主播外，就没办法了吧？

然后，还有问题。

人类与在多对多社交界限的问题，其实是取决于信息能保存多久的问题的。

BBS 社区能保存的信息持续时间最长，因此同时支持的多对多的社交人数也就最多。聊天室或者 QQ 群保存信息的能力比社区差了很多，对应圈子就小了很多。

声音保存时间极其短暂，仅仅存在于听众的记忆里，结果就是无限放大的语音聊天的私密性，无限缩小了多对多交流的可能性。3 个女人一台戏听过没有？为什么一个女性只需要一个闺蜜？

VR 如果用语音聊天的话，那么想想看你的现实生活中，经常聊天的能总共有几个朋友，能聊多久。

接着，还有问题。

不管是 BBS，还是朋友圈，微博，QQ 群，或者视频直播战上的弹幕，从来都不会出现 A 说话后 B 就不能说的情况的。弹幕更是无限放大了这种合音的特性，各种人一起不停的刷 2333333333 结果让所有看弹幕的人都发出了 “发自内心的笑容”——原来这么多人跟我想到一起了。

但是语音就存在问题了。一个人上台巴拉巴拉之后，其他人就只能自动闭嘴了。人脑没办法更多线程同时处理杂音。人脑只能智能的识别出谁没在说废话，然后注意力在一个声音上，智能化的把其他杂音排除掉。

文字虽然也是人脑逐行扫描的，但是文字允许其他文字同时共存啊？

点击查看源网页

再次，还有问题。

就算你一群死宅不在乎语音交流的各种缺点。连侵入感这些都无所谓感觉不到了。但是，在一群死宅中突然出现个妹纸的声音，你猜会发生什么情况？

一帮大脑没发育出本能克制的宅男马上就有人跪舔了你信不信？原来聊到的问题直接炸掉了你信不信？

这个问题可不是只出现在一群基佬中来了个妹纸的问题。这个问题只要是陌生异性，就存在。男声女声的差异，就像一道无形的屏障，隔开了男女在公众面前正常聊天的可能性。好色是人之本性，鲁迅那句话怎么说来着？一旦听到 XX，就想到果体就想到 XXOO？笔者觉得鲁迅的评论有失偏颇，这个问题起码是不管男女不管国籍都存在的。

毕竟，用脑子想想，上古时代，我们的祖先，跟陌生异性做有声交流的时间点都只能是些什么样的场合。人类本能还是祖先的胚胎，反而是脑洞某个不能说的层面转进越快的人越有机会把基因遗传给后代。

最后，还是问题。

声音能传递的信息实在是太多了，各种抑扬顿挫，各种节奏……哪怕一个音节发音有微妙的变化，其他人都能读出太多太多的意思出来。承载这么多潜在信息的声音，多少人没事愿意开口说话的？

如果你说，侵入感问题大家统一使用变声器或者中性机械音能解决么？

你见过 YY QQ 市面上各种百分百携带变声器各种语音聊天软件推广变声器成功过么？

人类要怎么才能解决自己扮演陌生人的恐惧感呢？人类本能在进行社交行为的时候，除了扩大信息圈提高保护自己和部落的生存率之外，那啥约个会找个目标也是社交需要完成的在内任务之一好么。不说 YY 这种见不到人脸的情况了，VR 根本就是全程都是你的替身，你要用假声泡一个妹纸。然后试图把妹纸约出来，然后妹纸不认识你怎么办？灰姑娘的童话故事好歹还有一双牛逼轰轰的水晶鞋作为王子的信物标记好么（到底灰姑娘的鞋子有多小，才能让全城女性都适配不了穿不上？）！

本文来自读者投稿，不代表 36氪立场，如若转载，请注明出处：http://36kr.com/p/5039377.html

“看完这篇还不够？如果你也在创业，并且希望自己的项目被报道，请戳这里告诉我们！”