创业公司如何不沦为OpenAI“死侍军团”:训练小众数据,服务特定用户
本文作者:宇婷,题图来自:视觉中国
一
GPT和Dall-E之上, 创业公司需要训练一个OpenAI无法复制的专门聊天机器人。 或者考虑GPT-J等。并且为特定人群训练特定数据集,这可能是未来的出路。
生成式人工智能席卷了大公司和创业公司。美国方面:
Open AI发布了迄今为止最先进的语言模型GPT-4;
谷歌宣布了Workspace中的AI功能,涉及Gmail、Docs、Sheets和Slides;
微软宣布了Microsoft 365的copilot ,涉及到Docs、Excel和PowerPoint;
谷歌发布了Bard,与ChatGPT竞争;
Open AI几乎连续发布了ChatGPT插件。
二
首先说两家美国公司。
第一家,ContentBot.ai是一个构建在OpenAI技术之上的内容自动化工具,在ChatGPT问世之后失去了客户和收入,其创始人公开宣布将不得不转变其产品。
第二家,Jasper AI,在GPT之上构建的文案创作初创公司的创始人在今年10月宣布获得了1.25亿美元的融资,估值为15亿美元,但是在12月,OpenAI发布了ChatGPT。
Jasper AI提供了和OpenAI足够相媲美的功能,而且免费,但仍然无法阻止其线上流量下滑。 根据数据提供商SEMRush的数据,流量下滑一半。
Jasper AI因为有足够的资金和知名度,因此有时间开发和销售自己的转悠技术, 目前它正在整合其他AI模型 (如GPT-J) 以减少对GPT的依赖。
GPT-J是EleutherAI主导,2023年1月,EleutherAI正式注册为非营利研究机构, 这个组织被视为 OpenAI的开源版本 以打破OpenAI的垄断。
三
这两家公司的例子是说,当所有应用都需要以AI为轴重新做一遍的时候,创业公司如何保持自己的独特产品功能?在产品上如何不雷同?以及如何保持收费?
今早我看了一篇文章,作者是Ben Parr,他是一位前媒体人,后在AI领域创业,同时是专注在AI领域的作家。
他提出了一个视角以及例子和建议,创业公司如何不要在这波OpenAI的浪潮下阵亡。
也就是说,不以AI为轴心改变自己的产品和商业模式,未来必死。但是加入AI之后,如何思考公司?
Parr的提醒是, 公司一定要更加专注服务于你所服务的客户,拥有更加垂直的数据。 这是唯一的道路。
“务必做特定垂直领域的专门人工智能。”
“pecialized AI for specific verticals”
四
与其他热门技术不同,生成式人工智能已经与大众的日常融合。 足够好用、简单,且用起来很好玩。 我认为这种产品调性是ChatGPT能够快速起量的原因。当然,ChatGPT是一个包裹在这种好玩、简单,像搜索一样产品背后的大模型,并不是一个简单的前端交互产品。
接入OpenAI成为一些创业公司目前转变产品或者用户量的可能性,也意味着你必须占领的技术高位。
另一方面,AI在一个月之间成为普惠功能,开发人员不需要拥有大型语言模型和机器学习经验,企业不需要雇佣大量AI工程师,只需要通过OpenAI应用程序编程接口发送指令 (用自然语言描述) 或提示就可以生成结果,甚至在几个小时内启动AI。
OpenAI的两个最流行的技术GPT和Dall-E之上, 已经接入了大量应用程序和创业公司。OpenAI也在投资相关生态内的企业。 对此,惶恐的不仅仅是尚未接入AI的创业公司,即便是巨大的Google,也在被颠覆,Bard目前在功能上逊色于OpenAI。
这很正常。
五
回到创业公司的产品上。
如果想抓住AI成为独角兽,而不是沦为OpenAI的“死侍军团” * ,需要极其谨慎地将生成式人工智能,也就是国内流行的“AIGC”和业务模型结合。
OpenAI的技术功能很强大,你用不用它,你的竞争对手都会用它。而OpenAI自己也会发展用户。
Parr的观点是:对抗“平台风险”的关键是, 思考如何构建一个产品,OpenAI这种平台本身是压根就不会构建的。
“这个时候找准产品的核心刚需点,且这个点是基于产品本身的用户基础,基于产品原本的优势,并且不太会被他人愿意去做的功能点。”
机会在于:“不要试图为所有人构建生成式AI工具。为有特殊需求的垂直领域构建。”这一点是建立一个强大、可靠、持久的产品,而不是在这一轮AI应用中消失的前提。
Parr举两个例子:
ChatGPT可以提供基本的诊断,但没有集成到医院的许多系统中,也没有数百万 (或数十亿) 临床数据点的数据。任何医疗技术都有隐私性要求。
OpenAI永远不可能构建医院可能需要的所有集成、数据点和监管功能。 这为专注于医疗的初创公司创造了机会。
GitHub的Copilot产品是另一个例子,它专注于特定的人群——为开发者提供工具。
Jan一位软件工程师的评论也有启发:
比如把CoreML模型下载下来,安装在设备本身上,可以离线使用,这不会因为OpenAI响应时间过慢而影响用户体验。
总结下:
(1) 需要专用的、小众的数据集训练模型。 使用ChatGPT无法访问的数据库 (如医疗数据、数百万封电子邮件等) 来训练。这使得将你公司的结果与ChatGPT的结果有所区分。结果将是一个OpenAI永远无法复制的专门聊天机器人。
(2) 专注于特定垂直领域的产品。 比如为健康、育儿、法律和政府等领域的人们提供服务,提供专门的数据、接口、合规能力、集成和营销,大型面向公众的人工智能平台无法提供这些。
六
我这篇文章写得很浅,我也并不清晰地了解目前中国创业公司中,有谁在场景上做得足够有壁垒,这一切才刚刚开始。
但想提出一个问题。以及给出一个我的认知是: 用户最终的选择,是取决于他们信任谁。 对于功能的稳定性是信任的一个关键,这是这一轮我为Notion而不是ChatGPT plus付费的关键因素。
实际上,对于AI的平台风险也并不是首次出现。Shopify、iOS应用商店与创业应用的关系,很多产品人已经体会到的。
未来, 产品的交互好坏,功能操作上如何融入AI, 这一点是在Notion的产品设计中,我也体会得到的关键。此前,我认为英语不太好的人群可能会无法用好Notion,现在我收回这一论断,我觉得Notion在写作AI上如果走得足够深入,可以帮助用户一起穿透产品使用的语言关,对于生产力的提升已经可以用魔力来形容。但是我对Notion的期待是,它需要比ChatGPT好十倍。
七
最后我的感受,也许我们还来不及思考如何在OpenAI下保护已经共享到这个平台之上的数据,但至少我们先思考下,自己公司的产品未来聚焦在哪一种垂直的数据和用户上。 用户即数据。
当下拥有海量用户的产品,我也认为,你已经拥有了一座金山,千万不要忽略你的用户。OpenAI不是创业公司做AI的起点, 你已经拥有的用户才是金山。
*注:死侍(Deadpool)是美国漫威漫画旗下反英雄,原本是一名加拿大的特种兵,为了治愈身患绝症的自己而参加X武器(Weapon X)计划,虽然在被注入了金刚狼的基因后癌症得以痊愈,但也因此造成脑细胞过度增长,人开始变得癫狂。