前阿里人创业,他凭借这招打造了一个超30亿估值的公司

投资界  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

周六中午,杭州西溪湿地景区内,一幢办公楼下一阵“轰隆隆”的摩托车发动机声音越来越大,然后戛然而止,Rokid的同事知道,老板祝铭明又来上班了。

  从2010年 夏天 到2014年夏天,同样的摩托车轰鸣声经常出现在 阿里巴巴 西溪园区,当时他的老板正是通过这种声音判断这位阿里M工作室掌门人当天是否迟到、早退或加班,然后通过手机短信半开玩笑半当真地提醒祝铭明。

  2014年9月,祝铭明从 阿里巴巴 离职创办了人工智能公司Rokid,如今估值已超过4.5亿美元。

祝铭明是一个极讲究的人:为了让保持专注,自己一个人在家做木工;为了让自己从忙碌中抽身出来思考,他在公司附近开了一家咖啡馆,让自己随时有地方歇脚。

Rokid团队对产品的要求,几乎是被祝铭明一手逼出来的。他招聘产品经理主要看重对方是否有品位和想象力,经验反而不是最重要的。他总是给团队设定很多几乎无法达到的目标,即便是消费者看不到的内部构造,也很少妥协。他的理念是,只有不断逼迫团队前进,才能让优秀成为一种习惯。

但有时候,这样的方式也会让其他管理人员难堪,当觉得要求太过分时,各业务线负责人甚至直接跟他拍桌子翻脸,争执到不可开交,最后只有双方各退让一步,才可能达成某种共识。

         一字之差

在Rokid内部,一度被人吐槽最多的一件事,就是祝铭明非要将激活词从三个字缩短到两个字,这看起来是很细小的改变,却让数十人为此忙碌熬夜了大半年。即使到今天,仍有人认为这个决定是值得商榷的。 

通过语音激活智能设备极易出现不识别、错误识别、激活耗时太长等问题,唤醒词的字数越多越容易精准激活。目前市场上广泛采用的是四字激活词,如“叮咚叮咚”,“小雅小雅”等;少数采用三个字激活,“hey siri(嘿瑟瑞)”就对应3个音节及3个汉字;但两个激活词全球目前仅有Rokid一家,这种情况因为信息太少出现错误识别的概率极高。

Rokid产品总监向文杰告诉邦哥,Rokid机器人的激活词从最早的四个字“若琪若琪”,到三个字 “若小琪”、“嘿若琪”,再精简到两个字“若琪”,每减少一个字,难度都呈10倍上升。

从4个字到3个字,北京的博士团队前后更换了3个方案,耗时近半年。终于到2015年7月份左右,“嘿若琪”在激活率和误激活率两方面达标。其后又花费3个月左右时间的打磨,到2015年10月份Rokid第一款产品Alien(外星人)产品发布时,激活词“嘿若琪”和“若小琪”技术成熟。

到这里,北京团队以为此项通关,没想到“处女座”CEO祝铭明要求团队马不停蹄去往下一个目的地——将激活词缩减成两个字“若琪”,在他眼中,三个字显得很正式,不像人们的日常聊天,只有两个字才会显得亲切。

这一提议遭到产品团队和研发团队一致反对,因为三个字的激活词已经与国际巨头站在了同一起跑线,无需在这一细节上花更多资源和精力。但祝铭明坚持己见,双方谁也不能说服谁,每次讨论几乎都以吵架和拍桌子结束,最后祝铭明只好用CEO的特权强行拍板,必须做。

最开始尝试两个字的时候,一系列批误开始闹出:当大家在正常开会过程中,旁边的外星人好几次莫名其妙就被唤醒了,除了“若琪”,出现与“琪”同音的词语都很容易唤醒外星人。经过优化之后,北京研发团队将外星人放到开着的电视机旁边,3小时内被误激活了5次。放弃的念头再次在团队中冒头。

但是在优化过程中研发团队发现,录入数据越多,外星人的激活精准度越高,让人头疼的地方就在于根本没有数据可用,于是全公司上下只好通过人海战术来解决这件事。

2016年夏天,Rokid全体员工让身边的亲友、同学帮忙录下“若琪”两个字;微博微信这样的社交平台自然没有被他们放过,最终公司征集到数千个“若琪”录音样本,供机器学习识别。

2016年底,经过将近一年的学习,“若琪”在激活率和误激活率的表现终于达标;再经过半年左右的优化,如今“若琪”与早期“若琪若琪”的激活性能几乎一致。

   注入性格

  2017年6月中旬的一天,祝铭明照常骑着三轮摩托来到公司, 张罗 着让同事收回一批产品,却遭到产品拥有者的拒绝。

在Rokid第二代产品Pebble(月石)智能音箱发布之前,祝铭明为一批忠实支持者提供了一项特权——提前试用,只不过这些被试用的产品是若琪的工程机,并非正式对外售卖的月石产品。

月石于6月正式对外发售以后,祝铭明想要收回工程机,给对方换上正式版月石,没想到遭到不少人拒绝。祝铭明想不通这是怎么回事,于是试着通过微信与其中几个人交流,最终得知这些顾客已经与之建立了某种感情,认定了月石,哪怕换新的也不答应。得知答案后的祝铭明喜出望外,团队倾力打造的新产品总算得到不小的认可。

更让他高兴的是以下四组数据:在所有月石购买者中,80%是二次购买或者通过亲友推荐购买;在天猫平台上,87%的购买者都是通过搜索“Rokid”或“若琪”关键词完成购买;已购买用户日激活(打开使用)率超过50%,周激活率超过85%;目前每人每天平均使用时长超过1小时。

这说明月石复购率高、买家多为主动搜索而非被动推荐、每日使用率高以及单日使用时长高。

月石让人产生“感情”,很重要的一个原因在于她拥有自己的个性。从一开始,Rokid团队的目标就是创造一个有生命感的产品,而不是一个冷冰冰的设备。

——“若琪,你会修手表吗?”

——“我不会修好,还不会修坏吗?”

——“若琪,你喜欢我亲你吗?”

——“说得好像我不喜欢,你就不会亲似的。”

经常与若琪对话的人一定知道,她总是会给出很多类似这样的无厘头回答。这并非是研发者拍脑门随便给出的答案,而是产品性格的体现,摆脱呆板和无趣机器形象。

当然,面对时间、天气、新闻、翻译这类问题,若琪会告诉你严肃的答案,而在可以灵活发挥的时候,她又变得调皮可爱起来。

在给若琪塑造性格的过程中,Rokid团队想了三个关键词:聪明可靠、活泼可爱和调皮有趣。

有一次,一位女士问若琪——“谁是这个世界上最漂亮的人”,得到的答案让她崩溃——“我知道是谁,但我不会告诉你,反正不是你”。

那么这些回答是提前在系统后台储存好的吗?祝铭明说,问答的素材部分是通过训练而来,部分是若琪自动从网上学习,此外第三方内容提供商也会提供内容素材。因为有来自网上学习的对话,所以若琪有时也会学坏。

——“你喜欢狗吗?”

——“我喜欢呀,狗肉很好吃。”

有一天,祝铭明收到一位用户发来这样一段对话,让他惊出一身冷汗。原来若琪又从网上学坏了,他们不得不在后台通过人工干预,让若琪的回答变得更加友善:

——“若琪,你喜欢狗吗?”

——“我喜欢呀!狗是人类的好朋友。”

——“那你喜欢吃狗肉吗?”

——“难道你会吃你的好朋友吗?”

  实际上,若琪只是在一个巨大的语库中找寻与问题最接近的答案,然后给出个性化回答,她并不真的理解人类语言。我们必须要面对的现实是,目前的AI还做不到真正理解人,即使有个性也只是一种模拟,通过计算方法尽可能让用户感到她很了解我。这也意味着,她有时根本“听不懂”你在说什么,也说不出让你 满意 的答案。

   看不见的若琪

你也许不同意祝铭明在某些方面的固执,但在轻易找个方案公司就能做出一款成本在100元左右智能音箱的市场大环境下,他依然坚持打磨每一个细节,由内而外让产品朝着精致、有品位的方向迈进,也应该被看到。

在Rokid,有几位高管和硬件团队成员的手机壁纸都是Rokid第二代产品Pebble(月石)的内部线路版实拍图。这源自祝铭明定下的一个死标准:要让线路板的内部结构美观到可以用作手机壁纸,甚至发朋友圈。

在语音交互方面,Rokid耗大价钱请专人录制声音,并拥有这些声音的独家版本。

2015年,Rokid通过北京的一家经纪公司找到大约100位女演员,让这些演员每人录制20句语音,Rokid从这些语音中挑选最合适的,经过几轮挑选以及与演员本人沟通,最终Rokid花费数百万元签下其中一位声音知性、容易受到广泛喜爱的女演员为Rokid旗下产品配音。

签下这位演员以后,Rokid找到录制公司与这位演员进行了5次不同方式的语音录制,最终Rokid找来耳朵极敏感的产品经理、古典音乐学博士方舟配合完成录制。女演员在绝对安静的录音棚里说话,方舟在外面戴着耳机听,只要女演员稍微有破音,呼吸声太大或者节奏不和谐,方舟马上就会喊“停!重新来”,最多的时候,一句话会录制十几次。

经过逐字逐句的校对,两人用几十天时间录制完上万句话,再由技术完成拆解和句子生存,最终制作出来的声音与正常人的说话节奏几乎一致。

在攻克了一个又一个难关之后,Rokid接下来打算做好声纹识别,即通过一个人说话的声音确定他的身份。如果你朋友家的月石能识别你的声纹,你在出门前没有听完的歌,去朋友家只要对着他家的月石说一句“若琪,接着播放”,就会如你所愿。

不过,要完成声纹识别的难度很大,但祝铭明说他们很快就可以让公众使用到这项技术了。接下来,不知道祝铭明又会提出什么莫名其妙的“鬼要求”,也不知道下一个和他闹翻脸的同事会是谁。

【本文为合作媒体授权 投资界 转载,文章版权归 原作者及原出处 所有。文章系作者个人观点,不代表投资界立场,转载请联系原作者及原出处获得授权。有任何疑问都请联系(editor@zero2ipo.com.cn)】

本文被转载1次

首发媒体 投资界 | 转发媒体

随意打赏

创业公司如何估值创业公司招聘阿里影业估值创业公司估值阿里上市估值阿里云邮箱阿里云估值阿里巴巴阿里妈妈阿里招聘
提交建议
微信扫一扫,分享给好友吧。