注入了机器人属性的智能音箱，能变身吗？

雷锋网 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

人人都在说人工智能，都想做智能机器人，但最后的落地都在人机交互上面。人机交互最佳的方式不是触控、也不是动作识别，就目前的阶段而言，应该是语音交互。既接地气，又能实实在在的解决问题。

能听又能说，关键是还能够想事、做事的机器人是聚熵智能想做的产品，可当CEO何永带领的团队将产品做出来之后，万万没想到的事情发生了。第一代产品小智“机器人”因为与音乐做了深度结合，所以被大家误认为它只是个智能音箱，而且“能说、能唱又能听，放在那里又不能动”的这个理由还让认感觉很有道理的样子。何永觉得音箱就是他们当初设计小智的本体，后面虽然注入了很多机器人属性的东西在里面，但作为第一代产品，取名“超级音箱”不是件坏事，能具象化产品认知。

所以聚熵智能现在做的事情就是着力在声控方面，通过他们小智音箱来打造家庭语音控制中心，然后推出更多能基于声控的智能产品，不排除人形机器人的可能。

关于CEO何永，在此之前雷锋网记者还真是无法想象出来他之前是在中科院搞基因工程，做生物信息学研究，据何永介绍就是在人工智能的技术上，利用计算机的手段与技术去研究分析人体的DNA。而他大学所读的专业确实计算机，基于自己对未来的判断，他觉得未来有两块领域会很有发展，一块是人工智能，一块是纳米医学。

“可能5年前10年前，人工智能这个概念就喊得很嗨了，实际上的话，在08、09年之前，这个领域发展很慢，它只是最近这几年发展非常快。我推断在未来5到10年，人工智能能在很多领域能够给大家的生活的带来实质性的变化。”

雷锋网：为什么选择做人工智能的时候要以音箱做为突破口？

何永： 这就涉及到一个产品的问题了，其实我们这个产品一开始不应该把它叫“音箱”，应该叫“机器人”。但是因为它和音乐结合了，所以我们把它叫“音箱”了，这不代表我们以后的产品还会是音箱。我们之前还做过一款软件产品，现在也还在做，但是为什么做软件还要做硬件呢？ 因为做硬件可以让软件更好地落地 。我们当时分析这个硬件分析了很多产品，像电视、空调、路由器等很多东西，那为什么最后选择了音箱作为一个载体，我觉得有几个特征：

家里面需要与语音结合的产品并不多，比如说空调，电视这类是有必要的，但是路由器就没有必要，因为它放在那个拐角处，语音接收不方便的，还有就是它不是便于移动的产品。还有像家里的灯、插座开关，也可以结合语音，但是运用起来很简单，不能真正把人工智能的东西用起来。所以我们分析了很产品之后，发现只有音箱是最合适。

为什么呢？首先，语音可以很好地提升用户体验，以前音箱是用手机控制播放，现在可以跟它说话就能播放，这个体验就已经提升了。第二个，它是真的带有人工智能的价值在里面，因为音箱不像开关，开灯、关灯两个操作就没了。音箱的交互可以有很多种形式，比如说唱首歌，你可以和他说“来首周杰伦的歌”“来首青花瓷”“来个钢琴曲”等等可以有很多很多种说法，这样就可以把人工智能的价值，也就是我们公司的价值体现出来。音箱本身能说话，举个例子，灯的交互只有两三种，但是他不能说话，所以你也不知道你说的话它是不是很好地执行了。如果我和小智说“把卧室的空调打开”，它就会跟你反馈说“好的，已经给你打开了”，所以，它本身能说话可以解决很多问题。

所以基于这三点我们选择了音箱为载体去做这些事情，但不代表我们只能做音箱，我们给这个产品注入了更多的机器人的属性：你可以直接和它对话交流，和它聊天，它也可以算“１＋１＋１=？”，小孩也可以问它百科知识，其实我们注入了很多机器人属性的东西，只不过我们是以音乐为载体在做这件事情，所以我们把它叫音箱了。

雷锋网：既然是音箱，那你们如何看待音质这个问题？

何永： 对于传统的音箱来说，音质和外观最重要，但对智能产品来说，这两个是基础，还有第三个与第四个：交互体验与音乐源。我觉得交互体验是在这几点中最重要的，我们一代的价格是３９９，所以我们的音质也不和市面上１０００以上的音箱去比，但是不排除我们第二代的产品会在这个价格的基础上做到更好的音质。

其次，可以说明下的是，低价位的音响设备对普通消费者来说音质存在的细微差异基本听不出来，只有更高价位的音箱和专业的听音师才能听出差异。

雷锋网：技术与产品结合会经历哪些过程？语音交互难点在哪？

何永：为什么做语音智能音箱就我们一家呢？因为从技术到最后的产品实现这中间要经过很多环节，它不是简单地把东西往里塞，里面有很多东西需要验证。把技术与产品结合需要一个非常长的时期，一般要三到五年的时间，主要有4个环节：第一个，技术本身的理论验证，然后到技术的工程实现，然后第三个就是和产品结合，第四个集成产品。

做语音交互没有想象中的那么简单，里面有很多问题需要解决：

第一个麦克控制链技术，因为大家做的是远场交互，手机上的语音识别技术虽然很成熟但其实属于近场识别，拿到三五米远可能就完全不能用。

第二就是基于麦克风的降噪，如何把环境噪声去掉，再把人声放大。

第三就是当放音乐的时候怎么去语音控制，这里面有个问题叫回音对焦，当放音乐的时候，人声很容易被掩盖，这个时候怎么去进行语音识别，这也是个技术难题。

第四就是唤醒机制，远距离对话我要首先要唤醒它，原来的唤醒技术可能误唤醒率高，无意说出来的触发词，某些时候也会触发机器人说话，这也是个问题，我们现在解决了这个问题。

第五个就是远场的语音识别，要对语调进行训练，不是手机上简单的语音识别。

第六个就是语义的理解。

雷锋网：说到语义识别那与小i机器人的区别在哪？

何永： 同样做智能语音识别的，但我们做2C，他们做2B。他们的技术用于企业客服，数据是有限的。但是随着人工智能的发展，数据反而会越重要，相同的技术用于不同的领域，起到的结果是完全不一样的。

雷锋网：小智音箱的产品定位是什么？

何永： 第一个就是我们要连接智能硬件，要通过语音能够控制家里的一切。目前我们控制空调、电视是通过红外模块，我们正在对接更多的家庭的智能设备，希望能够通过语音来控制家里的智能设备。而红外控制家电这块主要是和其他厂商合作，我们产品本身不含红外模块。

后记

最后还谈到了智能Pepper机器人，何永认为Pepper更多是做企业服务，而未来他们的方向会是家庭服务，而这里面有两个难点需要解决，第一点，真正的智能化，第二点就是硬件本身能做的事情的成本降低了。

关于以后会不会尝试做一些车载智能语音交互？何永也表示如果从产品谈的，其实是有相通性的，但是从大的发展说，也有很大的不同点，虽然车载是一个很大的市场，但是创业公司要聚焦，第二个还是有不同点，车载不是远距离，第二是高降噪，另外还有就是WiFi环境的问题还没有很好的解决。

小智招贤纳士，求贤若渴，欢迎有志之士简历猛砸邮件： hrd@360iii.com 。

雷锋网先锋志（公众号： vangzine ）致力于发掘更多产品和技术创新驱动的创业项目。如果你也在创业，如果你也认同产品和技术是改变世界的中坚力量，欢迎通过我们向业界介绍自己。联系方式： startup@leiphone.com ，24小时内会收到我们的回复。

注入了机器人属性的智能音箱，能变身吗？

雷锋网：为什么选择做人工智能的时候要以音箱做为突破口？

雷锋网：既然是音箱，那你们如何看待音质这个问题？

雷锋网：说到语义识别那与小i机器人的区别在哪？

雷锋网：小智音箱 的 产品定位是什么？

后记

雷锋网：小智音箱的产品定位是什么？