辞职滴滴加入语音合成创业团队，他要用声音的表现力赋能产品创新体验

猎云网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

电影《Her》中，主人公西奥多刚结束一场失败的婚姻，一次偶然的机会，他接触到了搭载了人工智能系统的虚拟化身“萨曼莎”。萨曼莎拥有迷人的、磁性的声线，时而风趣幽默、时而温柔体贴，与我们实际生活中听到的许多机器人顿字、顿句的发音相去甚远。虽然这个虚构出来的角色是由演员配音完成的，但却透露出一个真实的讯息——越接近真人说话水准和富有情感表现力的声音，越容易为大众所接受。

利用声音的“粘性”为产品打造专属形象

让机器摆脱平铺直叙的发声，带来更加舒适自然的听觉体验，这也是当前语音合成技术的发展方向。

然而，语音合成效果的真实性离不开准确、丰富、优质的语音训练数据。对此，成立于2016年的数据服务提供商标贝科技，在不到两年的时间里已经积累了包括文本、语音等多种类型的语料数据，并为多家互联网巨头的AI产品提供了大量的数据服务。

凭借团队十年以上的语音合成经验，标贝科技也于。

“我认为个性化的语音是一个非常有价值的方向”，标贝科技联合创始人CTO李秀林在接受猎云网（微信： ilieyun
）采访时表示，结合自身在语音合成技术领域十余年的经验和行业观察，他认为，“每个声音都是有特点的，不同的品牌、公司和服务商会根据不同的情景和产品特点采用不同的声音，而这个声音是有粘性的”。

为了打造优质的语音，让用户喜欢从而形成对声音的“粘性”，标贝科技前期需要设计丰富的语料、接触大量的声优，指导他们完成声音的采集，之后再对语音进行深度加工。

传统语料数据处理方式为手工精标，需要耗费大量人力，标贝科技则。

通过标贝科技积累和训练的音库，客户能够从中选择与自己产品属性、形象相匹配的声音，为产品赋能。今年4月召开的上交会上，齐悟就与标贝科技联合展出了“齐天大圣孙悟空”这一经典的神话形象。借助全息投影技术，“孙悟空”在齐悟的智能交互技术和标贝的语音合成技术的“赋能”下，栩栩如生地展现在大众面前。

“在整个产业链中，我们更像一个幕后工作者，为客户提供‘声音’的整体解决方案，让客户可以专心于自身产品的研发，快速地进行产品迭代”，李秀林表示，“随着这次转型，标贝已经形成了从底层数据、到核心技术再到服务和应用的三层业务结构，大大提升了满足合作伙伴多方位需求的能力。合作伙伴还可以借此摆脱产品中迫切需要高水平的语音技术，但又受制于技术门槛高、投入大的压力而左右为难的窘境”。

提供个性化音库数据及解决方案

2013年，李秀林离开当时担任高级研发经理的松下研发中心，加入百度。在百度任职期间，他带领团队开展了一个关于情感合成的项目，专攻百度小说频道，仅用半年左右的时间，就在语音合成加工效率、合成效果上取得了重大突破，项目获得了百度的百万美元大奖。

2016年，李秀林加入滴滴，任职滴滴研究院语音团队负责人兼首席算法工程师，帮助滴滴开拓其出行领域相关的语音业务。这期间的经历也让他发现，“给用户提供服务，并且改善用户的体验是一个让人非常有成就感的事情，非常兴奋”。之后，李秀林一直在寻找那样的机会——“不断进行技术创新，以创新给更多的人带来更好的体验”。

此时，标贝科技抛来的“橄榄枝”让他看到了在创业公司做语音合成技术的优势和机遇，“比如在大公司，做一个语音合成我们需要相关的数据，这时候我们通常会去找数据公司合作，需要3~6个月的时候去等待数据，这中间耗费的周期往往会很长”，李秀林表示，“在标贝，我们有很多的自有数据可以用来做各种实验，新的想法还可以直接让数据团队采集加工来配合，推进的效率非常高”。

目前，在定制型音库方面，标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男生音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等，音库还在不断丰富和积累中。同时标贝科技还提供自有音库，中文男女声，美语男女声，儿童，粤语，台普、日语、韩语等及个性话音库，广大客户现已能直接使用整体解决方案。

在业务发展方面，李秀林基于自己的分析，对公司的发展信心十足。他注意到，随着近年来AI人才的稀缺，极度紧张的人才问题成了很多公司不得不面临的尴尬现状。

“语音人才的招聘很难，组建一个好的团队就更难。有的公司，由于产品中需要语音技术，可能会在这个方向上投入几百甚至上千万，但由于缺乏积累，也很难做出有竞争力的技术。甚至有的公司想组建语音团队，但组建到一定程度后发现力不从心就散掉了。如果将这部分交给我们来做，相当于让客户用很低的成本实现了较高的回报，客户可以专注于产品本身，比如产品的功能、特点、个性等等，从而达到我们和客户的双赢”。

让声音自然，富有情感和表现力，一直是语音合成技术的一大难点。这当中主要涉及自然语言处理和声学建模技术。例如，我们在朗读一段文章时，能够自然分辨出哪个是词、哪个是短语，哪里需要停顿、哪里应该加强语气，并且声音是连贯、悦耳的。

“但机器看到的是一个个字符，它要把这些字符理解成我们所理解的停顿，甚至‘情感’，然后将文本的特征变成一个个声学特征，进一步生成能让人听起来很舒服、自然的声音，这个技术难度是非常大的”，李秀林告诉猎云网（微信： ilieyun
），“另外，在一般场景下，发音人发音的稳定性，包括对于他发音中一些瑕疵的控制，都是要做的，所以从数据的角度、技术的角度（NLP、声学模型）都会有一些挑战”。

高质量的语音合成技术，有非常多的应用场景。

“比如，可以利用自己的声音，或者家人的声音，给孩子讲故事，会非常有趣；再比如，智能客服机器人，通过自动识别客户语音及语义，通过语音合成的语音为客户解答简单的问题，即便只能处理其中30~50%的通话，对人力成本也是极大的改善”，李秀林谈到，“语音行业一直是AI典型的技术领域，我们工作十几年了，大家都还是自称是‘做语音技术的’。做企业需要扎扎实实地做自己擅长的领域，不去追热点，因为热点也会变，自己做得好的话，也能激发出很多新的热点”。

辞职滴滴加入语音合成创业团队，他要用声音的表现力赋能产品创新体验