90 后天才少年打造 AI 家教,教韩国人说英语,干出 10 亿美元独角兽
为什么一个语言学习软件,能被 OpenAI 连投四轮?
2018 年 1 月,Speak 正式在韩国上线应用商店。上线当天共 3 人付费,收入 18 美元。这是 Speak 成立 3 年来第一笔用户付费收入。
Speak 是两位天才少年共同打造的一款 AI 语言学习产品。
一位名叫 Andrew Hsu,生于中国台湾,在美国长大,从小便是华盛顿各大 媒体 笔下的天之骄子。Hsu 5 岁能解代数题,7 岁因太聪明而辍学开始家庭教育(Home-schooling),用 1 年时间学完了从小学到初中的课程;12 岁考入华盛顿大学,16 岁从华盛顿大学毕业时手握三个理学学士学位;19 岁成为斯坦福大学神经科学项目四年级博士候选人后辍学 创业 ,成为 Peter Thiel"20 Under 20" 计划的一期学员,后来成为首位拿到 Google Venture 等知名 VC 投资 的创业者。
另一位名叫 Connor Zwick,从 13 岁开始编程,曾被澳大利亚 科技 网 Nettuts.com 聘请担任网站作者;高二时开发一款语言学习应用 Flashcard+,用户最高达 500 万,最终被上市教育企业 Chegg 收购。之后,Connor 入学哈佛,但只上了一年课便辍学创业,成为 "20 Under 20" 计划二期学员并结识 Hsu。
2016 年,二人共同创办语言学习应用 Speak,试图借助最新的 AI 技术,打造一个 "AI tutor",让每位语言学习者享受到个性化教育,真正学会 " 说 " 英语。
为实现这个目标,成立以来,Speak 团队用了几年时间反复试验 PMF。而上线首日的 18 美元让团队第一次看到希望,也为今天的 10 亿美元估值写下序章。
" 小天才组合 "
2011 年,Peter Thiel 发起 20 Under 20 计划,鼓励有想法的学生辍学或暂时休学创业。
同年,年仅 19 岁的天才少年 Andrew Hsu 从斯坦福辍学,成为 20 Under 20 的一期学员,并创办 Airy Labs。Airy Lab 希望针对儿童开发出能被家长们广泛认可的,具有教育意义的 社交 游戏 ,真正实现 " 寓学于乐 "。
当时,Hsu 天才少年的光环,Peter Thiel 的背书,以及超前的教育理念让 Airy Labs 成为 VC 眼中的一颗新星。Airy Labs 成立不久便获得 150 万美元种子轮融资,投资方大佬云集,包括 Google Ventures、Foundation Capital 和 Playdom 创始人 Rick Thompson。拿到融资后,Airy Labs 的团队迅速扩充至 20 人,Hsu 也成为媒体口中的创业明星。
然而,一时风光无两的 Airy Labs 仅存活了不到 1 年。
Hsu 的天赋并未在经营公司中体现,他的父母成为公司真正的掌舵人,并逐渐将公司变成了一个 " 家庭作坊 "。
Hsu 的父母近乎像管孩子一样管理 Airy Labs,他们制定的一系列管理制度在员工眼中都很 " 糟糕 "。例如,上午 9 点到下午 6 点不能在办公室大声说话,必须通过电子邮件或通讯软件交流;部分成员需要在工作结束后向 Andrew Hsu 或其父母汇报工作,经常等到晚上 9、10 点甚至更晚才下班,而且每周通常要工作 6~7 天。
" 管理层与父母不同,他们肯定不爱我们。他们要求的工作时间在他们所在的国家可能是正常的,但在这里是不可接受的。我认为他们没有根据文化差异进行调整。" 一位离职员工曾抱怨。
除管理问题外,Airy Labs 的离职员工曾透露,公司并没有清晰的愿景和战略布局。公司网站上描述的愿景是 " 为儿童打造下一代社交学习游戏 ",但公司却没几个全职的游戏设计师。在这种情况下,公司却一连发布 7 款免费产品,几个月后才引入收费机制,导致公司一直烧钱,却没有收入。
面对如此局面,Hsu 一度寄希望于 A 轮融资能提供更多资金维持运转。但最终,员工们没有等到 A 轮融资,而是减薪裁员、公司倒闭。
创业失败的教训惨痛,但 Andrew Hsu 改变教育的热情却丝毫不减。正是这次创业经历,他认识了 20 Under 20 计划的二期学员 Connor Zwick。
Connor Zwick 从 13 岁开始编程,曾被澳大利亚科技网 Nettuts.com 聘请担任网站作者。高二时,Connor Zwick 一度对时下的教育体制感到失望,希望用创新技术实现真正的 " 因材施教 "。于是,Zwick 开发了语言学习应用 Flashcards Plus,用户可以把单词和短语的语音制作成电子学习卡片反复练习。
" 我当时的想法是,如果能将这些知识点汇总成某种知识图谱,就能生成任何内容、教授任何知识,并创造出一个无所不知的导师。"Connor 近期回忆道。但显然,当时的技术水平难以满足这个愿景。最终,Flashcards Plus 全球用户量达到 500 万,2013 年被教育科技上市公司 Chegg 收购。
之后,Connor 考入哈佛,在哈佛大学学习一年后,便拿下 10 万美元的泰尔奖学金和 Y Combinator 提供的 15 万美元投资辍学创业,开发了 Coco Controller,曾和 30 家游戏企业建立联系。
直到 2016 年,Andrew Hsu 和 Connor Zwick 都看到了在 AI 教育领域再次出发的机会。
AlphaGo 战胜李世石后,深度学习范式成为 AI 界的新热点,大量人工智能论文问世,Andrew Hsu 和 Connor Zwick 在硅谷亲眼见证了一切的发生。
" 那时的模型更加具体,比如语音模型、图像模型。我们看到这些模型即将与人类一样好,甚至比人类更好。"Connor 曾对媒体表示," 当时只是觉得这东西很酷,想用 AI 来打造一些有趣的东西。"
他们用一年时间研究 AI,甚至到斯坦福蹭课学 AI。期间,他们尝试开发了各种不同的算法,还尝试过不少计算机视觉应用,例如用 AI 定制服装,或应用于医学影像测量人体指标,以及用深度学习预测天气。
但二人发现语音识别是效果最惊艳的。当时,他们在 YouTube 上随机收集了一些语音数据,构建了一个语音识别系统,不仅能理解用户说话的内容,还能理解不同口音。
用随机数据训练的模型尚且有这么好的效果,如果质量更高的数据呢?于是,二人提出一个技术假设:是否能构建一种真正可用的产品,从中收集足够的用户数据,以供算法使用,改善建模,优化产品体验,进而获取更多的数据,形成良性的数据循环?
在这个假设之上,Speak 成立了。
" 先有鸡 " 还是 " 先有蛋 "?
或许是有了此前创业失败的经验,Speak 从创办之初就制定了清晰的发展路径。
Andrew Hsu 和 Connor Zwick 二人一致认为,除非学习者移居到英语母语地区,否则大概率只能学到一手 " 哑巴英语 ",无法正常交流。因此,Speak 的愿景就是为每一位用户打造一位个性化的 "AI tutor",让想学英语的人能真正会说会用。
目标很清晰,问题在于如何实现。
Speak 成立初期,团队遇到了经典的 " 先有鸡 " 还是 " 先有蛋 " 的问题——要建立强大的 AI 模型,就需要大量多元、高质量的语音数据喂给模型。但要获得数据,要么需要全程手动搜集,成本高昂;要么就需要创建一款可以收集该类数据的产品,但好的产品体验又建立在强大的模型能力之上。
权衡过后,Speak 并未直接自研模型,而是在当时的技术水平下,先推出一款用户可接受的产品,跑通 PMF,用户逐渐增长后,Speak 再根据用户数据微调自己的模型,形成数据飞轮。
起初,Speak 面向全球推出产品做用户测试,每个市场都有 AI 对话功能,用户可以选择一个类别,选择喜欢的话题和 AI 简短对话。但试验发现效果并不好,用户基本会在产品发布 30 天后流失。
这个结局或许并不意外。不同地区用户的学习需求、习惯文化背景不同,很难一概而论,而且语言学习市场本就竞争激烈,已经有 Duolingo、Babbel 等巨头占领市场,很难正面 " 硬刚 "。此外,当时的语音识别技术也不足以识别全球各地的语音差异。
在 Andrew Hsu 和 Connor Zwick 苦闷之际,投资人建议先把公司规模做起来,但二人很警惕这种做法。直到 2023 年 6 月,成立七年的 Speak 也只有 30 多名员工。
最终,他们决定先从单一市场攻破,以便集中精力用有限的资源快速验证和迭代产品。
2019 年,Speak 正式进军韩国市场。此前,Speak 进行了一番严格的市场调研。他们租了一个小房间做小规模的用户测试,给每一位参与测试的用户发一部测试 手机 ,并全程记录用户的使用过程。
他们发现,用户真正使用产品的时间大多在通勤的时候。抓住通勤时段培养起用户的学习习惯后,用户在其他时间也会自然而然用 Speak 产品练习英语口语。
意识到这一点后,Speak 发现产品的使用量、转化率、留存率都大幅提升,Speak 才算初步跑通了 PMF。但在 Hsu 看来,"PMF 不仅仅是单点的事物,而是一个连续的过程。你改进 PMF 的程度越大,你的增长速度通常就越快 "。
之后,Speak 不断更新产品功能和课程内容,并不断优化产品的交互设计。" 任何形式的工具提示、用户教育或功能解释,都意味着我们的设计还不够完善。"Connor 认为,应把尽可能减少用户教育作为一个目标。而 Speak 将这一点做到了极致。
很多语言学习 App 的内容会采用算法推荐机制,新用户进入应用后,通常会做一份简单的问卷或用户引导流程,选择自己的学习动机、想学的内容等,算法会根据用户反馈给其首页推荐大量信息。但在 Connor 看来,这些信息并非真正有用。" 过去我们想要获得有价值的信息都要自己主动去搜索,而那些被推送过来的信息有 99% 都毫无价值,比如垃圾邮件和推送通知。"
因此,Speak 借助 AI 能力打造了一个全新的界面解锁方式。
在产品首页,Speak 没有给任何新用户引导流程,只有一个简单的问题:" 你为什么想学英语?" 然后用户就可按下 " 开始 " 按钮说话。每个用户都会用不同的情绪、语音语调回复不同的答案。Speak 会根据这些信息为用户构建个性化体验。
不过,Connor 曾表示,虽然语音到语音模型效果越来越好,但 " 语音并不总是最佳的人机交互方式,很多时候,打字和点击图标是更快捷的方式 "。因此,Speak 试图探索一种 " 混合界面 ",让用户可以在随时都自由选择说话还是打字。
同时,为了更好地理解用户,Speak 在后台运行时,例如在夜间,模型会利用闲置 GPU 资源分析用户数据,从而解析用户感兴趣的课程,并在第二天的学习中给用户推送新的课程。在 Connor 看来," 思维模型 " 真正的价值正在于,即使用户没有使用产品,模型也在后台不断处理着用户数据,分析用户需求。这种模式也决定,Speak 的产品迭代依赖于模型有更强的语音识别、理解和生成能力。
2022 年,Speak 遇到 OpenAI,PMF 又有了质的飞跃。
绑定 OpenAI,自建 AI 团队
从 2022 年起,OpenAI 连续四次投资 Speak。
OpenAI Startup Fund 成立于 2021 年 5 月,已投资数个 AI 应用项目,包括 Descript、Anysphere、Diagram、Harvey AI、Kick、Mem 和 Speak 等,涉猎 AI 音视频编辑、AI 编码工具、AI 产品设计、AI 法律顾问、会计软件等多个领域的落地应用。其中,Speak 是唯一一个教育类软件。
对于投资的创业项目,OpenAI 通常不仅给钱,还给技术。Speak 也不例外。
2023 年 3 月,Speak 先后官宣了和 OpenAI 的三项合作:
3 月 1 日,宣布成为 OpenAI 全新 "Whisper" 模型 API 的首发合作伙伴。Whisper 有更强的语音识别能力,在处理带口音的语音以及无缝处理多语言语音(代码切换)方面的表现更好。
3 月 14 日,宣布其作为早期访问者,将 GPT-4 接入其 "AI tutor" 中,能让 AI tutor 实现高度个性化和上下文相关的反馈。同时,GPT-4 能够生成更高准确度和连贯性的文本,让用户和 AI tutor 进行更自然、更有针对性的互动。
3 月 23 日,Speak 宣布与 OpenAI 合作启动 ChatGPT 插件的 Alpha 版本,用户可从 ChatGPT 的界面直接访问 Speak。
但 Speak 并未把全部希望寄托在 OpenAI 上。在和 OpenAI 深度绑定的同时,Speak 也在 2023 年着手搭建了自己的 AI 团队,开始利用过去几年从产品上积累的数据集微调自己的语音模型。
2024 年,Speak 在官网博客中宣布升级了核心语音识别系统。
系统升级前,Speak 分别在 iOS 和 Android 系统上运营着不同的 ASR(自动语音识别)系统,还会用自有数据训练端侧小模型适配特定型号的移动设备,也会采用第三方语音识别服务。
但长此以往,Speak 便发现了一些弊端。例如,为了支持比较老的设备,Speak 使用了参数规模更小、计算能力较低的模型,对语音识别效果较差;第三方语音识别服务往往也难以识别口音较重的语音,会影响用户体验;Speak 必须维护 iOS 和 Android 两套语音系统,导致 " 事倍功半 "。
而系统升级后,Speak 基于内部数据集微调了 Conformer 系列的语音识别模型,该数据集包含了用户数千小时带有浓重口音的英语语音音频。
此外,Connor 认为:" 模型评估非常困难且重要。对于我们的机器学习团队来说,最重要的可能是评估,特别是对于大型语言模型经常执行的开放式任务,如果你能够提炼出完美的评估标准,你基本上就提炼出了你正在优化的目标问题。" 因此,Speak 根据用户数据,构建了自定义测试集,主要评估语音模型根据音频转录单词的单词错误率(WER)。评估发现,微调过后的模型单词错误率比通用模型降低 60% 以上。
内部 Speak 测试集上的单词错误率(WER),图片来源:Speak 官网
目前,Speak 微调的 Conformer-CTC 模型仅用于英语语音识别,但 Speak 透露,该模型未来也将扩展到西班牙语等其他语言中。此外,Speak 还在开发超出单词之外的其他语音和语言模态(例如,用于发音反馈的音素)。
在用自有数据微调模型的同时,Speak 依然抓紧每一次与 OpenAI 合作的机会。因为在 Connor 看来," 语言学习和实时对话练习,是语音到语音技术的最佳用例,因此我们抓住机会与 OpenAI 合作,并将这项技术深度嵌入我们的核心体验中。" 博客写道。
2024 年 10 月 1 日,Speak 又与 OpenAI 合作测试了 GPT-4o 的实时 API,推出 Live Roleplays,使用户能够在各种角色扮演情境中进行沉浸式、逼真的口语练习。借助 GPT-4o 上的实时 API,Speak 的 AI tutor 可以像人类教室一样快速或更快地响应,并能够理解并提供关于语音各方面的反馈,而不仅仅是纯文本转录,如语调、发音、韵律等。
不过,Speak 在博客中写道,语音到语音模型的指令跟随能力仍然不如文本模型,目前还不擅长更细致的语言学习特定任务,如发音指导和反馈。
语言学习界最懂 AI 的公司
2024 年 12 月,Speak 宣布完成 7800 万美金 C 轮融资,由 Accel 领投,OpenAI Startup Fund、Khosla Ventures 和 Y Combinator 等跟投。本轮投后估值 10 亿美元,Speak 也被看作大模型浪潮中第一家真正以 C 端应用立足的独角兽。
除获得资本青睐外,Speak 的产品表现也得到市场认可。据 " 投资实习所 " 的信息,截止 2024 年 12 月,Speak 的 ARR 已经接近 5000 万美元,年增长率达到 100%。
Speak 主要的 商业 收入都来自 C 端,没有免费版本,只为用户提供七天免费试用,之后就按月或按年收费,收费标准分为 2 档:
Premium 计划:$99.99/ 年,每月 2000 个 AI tutor 积分;
Premium plus 计划:$234.99/ 年,每月 10000 个 AI tutor 积分。
(AI tutor 积分对应的是用户和 AI Tutor 的对话字数,每和 AI 对话一个词即 1 积分。)
在 Speak 的实际测试中,2000 家教积分学习 5 天就能消耗完,这也意味着对于有固定学习习惯的用户而言,Premium Plus 方案更划算。
2024 年,Speak 也开始拓展 to B 业务。Speak for Business 可以练习特定的商务对话,例如与供应商和客户的专业讨论等。目前,Speak for Business 拥有超过 200 个客户,员工采用率为 85%。
Speak 为何能在一众语言学习市场激烈的竞争中脱颖而出?答案或许就是 " 聚焦 " 二字。
Speak 自创立之初的目标就很聚焦,围绕 " 哑巴英语 " 这个核心痛点打造产品体验,并一直坚持产品导向的思路,持续迭代 PMF。最近的访谈中,Connor 表示 Speak 一直非常注重课程内容,现在内部仍会对 AI tutor 的课程内容进行 A/B test。
同时,两位创始人很清楚,其产品体验的迭代很大程度上依赖于底层 AI 模型的能力。因此,在 OpenAI 强势爆发后,Speak 主动拥抱大模型。找到 OpenAI 这个强势的合作伙伴后,Speak 也并未在 AI 的火爆中迷失方向,盲目高估模型的能力,而是组建自己的 AI 团队,利用多年积累的用户数据微调语音模型,升级语音识别系统,继续迭代产品功能。
套用近两年很时髦的概念,Speak 是一个更加 "AI 原生 " 的产品。相比其他语言学习应用,Speak 更像一家技术公司。按对话积分消耗收费的模式,也和大模型按 token 消耗量计费的模式很相似,甚至 营销 文案也相应调整为类似 "20 分钟内说 100 句话 " 的口号。
同时,为了在单一市场打造最佳产品体验,Speak 也十分注重产品设计和营销手段的本地化。在正式进入韩国市场前,Speak 做了充分的市场调研,并在后期搭建了一个世界级的本地营销团队,根据韩国市场的用户特点定制相应的营销策略,创建了一个独特的品牌形象。
Andrew Hsu 曾透露,截止 2024 年 12 月,Speak 应用的下载量已超过 1000 万次, 每位用户每天的使用时间约为 10-20 分钟。
目前,Speak 正在将韩国市场的成功经验逐渐带到其他市场进行验证。2022 年底,Speak 开始开拓日本市场;2024 年下半年,Speak 在中国台湾市场的收入开始快速增长。
不过,Speak 目前主要活跃在不以英语为母语的市场。相比之下,欧美等以英语为母语的市场则由 Duolingo、Babbel 等老牌语言学习软件占领;微软、谷歌等大厂也对语言学习应用虎视眈眈,真正激烈的竞争风暴或许还没有到来。
来源:创业邦