五源小酒馆:先请郭靖介绍下自己和ACE Studio。
郭靖: 我叫郭靖,我们的产品叫ACE Studio,它是一个面向professional consumer的work station,目前主要的用户有音乐行业的从业者、制作人等,他们会用它来创作音乐里面的演唱歌声。因为歌声的录制成本很高,很难用一些电子或者数字的手段来代替,比如假设你要一个百人大合唱,还是需要有真人来到一个空间去做录音等很重的安排,但今天你打开ACE Studio就可以完成这件事情。
我们也逐渐发现,不仅仅是传统的音乐人,很多泛内容创作者也会使用ACE Studio,他们会做一些歌曲的填词,产生出一种全新的内容形态,叫唱解说或者唱电影。这些人被称之为professional consumer,就是他们在做这件事情的时候是一个professional的心智,但消费交易决策是个体完成的。ACE Studio就是一个典型的professional customer产品,接下来我们会把更多AI音乐的能力加到里面,逐渐升级为一个all in one的工作站。
五源小酒馆: 半年前你们对于出海还是从零开始摸索的状态,但短短半年时间里,你们做到了单月几十万刀的海外收入,出海的进展还是很快,现在你们的付费用户主要来自哪里?你们是怎么从零开始得到他们的信任的?
郭靖: 对,我们现在主要的收入是海外,90%是美金,这些收入中,70%来自美国和加拿大,其余主要来自欧洲的英国、德国、法国,以及巴西等地区,还有一些收入来自东南亚等其他地区。
我们最初也认为,出海应该是先在国内成功,然后把国内的东西复制到海外,做成一个全球性的产品。因为产品做的还是功能,你只需要将界面翻译成多种语言,这个没什么难的。但现在我们发现,由于我们做的是professional consumer的产品,酒香也怕巷子深,在我们没有往海外怼之前和使劲往海外怼之后,同样的产品形态收入可能差100倍。
一个很大的提示就是, 你的产品好不好或者有没有PMF这件事,并不是在产品发布或用户初次接触后就能立即显现的。 你还是需要在这个地方持续地怼,直到达到某个时刻才能验证这一点。如果你努力了很长时间发现还是起不来,可能证明本身就没有PMF, 但如果你一开始没有成功,并不意味着产品不work,可能有很多事情你还没做到。
五源小酒馆:你们比较关键的一个转折点是什么时候?
郭靖: 我们去了洛杉矶的一个全球最大的音乐行业展,叫NAMM SHOW,当时在展会上认识了很多从业者以及格莱美的音乐人。在去之前,我们的感知是我们也不是完全没做海外,也有英文官网和支付系统,海外用户也能下载,但为什么很少有新增,也没啥收入,偶尔有新增的收入也还是来自华语世界。对于西方世界到底在怎么想这件事情我们是没自信的,我们以为他们没这个需求。
但在展会时发现不是的,他们的确有需求,只是我们没有将产品正式介绍给他们,没有告诉他们产品的好处和使用体验。他们可能对我们的产品一无所知,或者认为它是一个比较随机的产品,你会在他的心智中被忽略掉。
当我们把展台往海外一摆,好好介绍我们的产品是什么的时候,他们感觉到非常impressive,会口口相传说这个非常神奇,以前好像没有产品能够解决我们这样的一个需求,他们觉得你在颠覆这个行业,虽然美国人经常会说话有点夸张,或者是过分赞扬你,但是至少能够看到一些比较正向的信号。
在那之前我们也曾尝试联系了许多YouTuber,希望他们能帮我们做一些产品评测视频。印象特别深,我们发了100封邮件,但没有人回复。但展会结束后,一些YouTuber开始回应我们,因为他们对我们不再感到陌生,他亲眼看到或者听朋友说了你们还不错,我们正式向他们介绍,我们来自中国北京,现在正致力于进入美国市场。大家对你可能没有一下子多信任,但至少有一定体感知道你们是活的,你们在努力做这件事情,然后开始尝试合作,投了几部YouTube的视频,增长就一下起来了。
五源小酒馆:你之前提到过自己英语四级也没有过,也没有长时间在海外生活的经历,最开始出海的时候,有没有过担心或者顾虑?
郭靖: 肯定是有的,最开始你的人际情绪压力会远大于跟中国人交流,因为总觉得自己的语言不行,总有种想要讨好的心态。但是我最后走下来的感觉是,美国人也不是语言都很好,美国有一大堆移民,口音比我差很多倍。
我觉得很多东西说实话都是纸老虎,很多人可能因为对自己的语言不自信,交流时就天然缺乏那种真诚,那种发自内心想做一件事情的动力就体现不出来。 如果你就是脸皮厚一点,用蹩脚的英文去展现你的真诚,往往效果还是不错的。而且因为你是一个非母语者,有些时候你问一些很直接的问题,别人也会原谅你。现在我新的目标是要达到一个native speaker的水平,当然离得还是超级远,但是我给自己定了这个目标。
五源小酒馆:有什么让你印象深刻的故事,你在出海过程中就感受到的一些正反馈,或者是被信任的瞬间?
郭靖: 我们在NAMM SHOW的时候,经常有一些人过来跟我们聊。有一些穿着名不见经传的大哥,带着个破草帽就过来,说你这个东西挺有意思,我跟我录音棚的几个合伙人介绍一下,你能不能明天来我们录音棚咱们一起聊聊,我们说好。结果录音棚是一个好莱坞的传奇录音棚,隶属于东海岸传奇rapper叫Jay Z。当时也有不少人留下了详细的联系方式,想要参加我们的年度会员抽奖,里面有十几个都是格莱美奖提名的人。
但给我最多感触的,不是说我遇到很多很牛的人,而是在那个环境下,很多东西就更近,就像洛杉矶就是一个全球音乐的中心大本营,你在这里接收到的能量密度很高。
很多中国founder可能都是这个感觉,我们先在国内闷头搞,其实不清楚自己与全球顶尖水平的差距,也可能会走向两个极端,一是盲目自信,认为自己非常优秀,而可能与全球最好的东西在理念上差距很大。另一个极端是盲目自卑,认为自己的产品没有竞争力。我现在逐渐意识到,founder也好,工程师也好,很多时候我们的各种能力不比他们差,甚至有过之而无不及, 我们的差距在于对什么事情是对的、什么事情是应该做的这些事情的判断上, 他们的vision更强,因为他们接触到的信息密度更好。
比如说我们吭哧吭哧做ACE Studio做了这么久,各方面的工程技术其实都很强,但是像Suno这样的公司,他们就知道说本质就是你做一个端到端的东西,text to music才是未来,他们就第一个把这个事情做出来。其实这个事情让我挺痛苦的,为什么我们做AI音乐这么多年,有这么多有才华的工程师在我们公司,不是我们作为全球第一个做text to music的人。
我也在反思,Suno最初酝酿这件事情的时候,那会儿全世界都不看好他们。我记得Suno V2刚发布几个月之后,我还跟别人聊天,说可能AI音乐这条赛道是真的不work,因为我觉得Suno V2当时的效果已经到了MidJourney时刻,但发布了半年了,Suno的Twitter只有4000多个粉丝,只有一些技术的人关注,我说是不是AI音乐这事就没需求了。后来发现不是,他只是差一点点临界值击穿这个市场,可能质量再提升一点,这事就翻过来了。
但为什么在Suno刚开始的那段寂寞积累期时,我们没有去做这件事情。我们知道这个范式,研读了它的开源代码,还评估了算力的成本,最后没有选择去做。那我们那个时候在干什么?那个时候大家沉浸在国内的氛围里,讲元宇宙、虚拟人,现在回想起来这些都是挺浪费时间和资源的。本质上是因为我们认知还不够好,技术vision还不够清晰。我们看到的东西不一样,导致在很多决策的细节上我们输了。
五源小酒馆: 怎么能够有击穿市场的认知,尤其是你可能无时无刻会听到很多噪音的时候,怎么能够做出正确的决策?
郭靖: 我现在觉得简单朴素的道理,还是你能够获取到更多正确的信息,能不能给你的大脑靠谱的training data。获取信息的阻碍可能很多, 你需要走出很多舒适圈,让这个世界羞辱你很多次,才能获取真实的信息。 很多时候我们会用一些看起来合理的东西说服自己和团队,让大家接受一个舒适的、而不是正确的决定。
更难的事情是, 在我看来没有什么是努力、才华,一切就是一个单词price,你take多少price你就能获得多少结果。 很多事情我们说为什么他能做到,你不能?也许你看到他每天都在写代码,你说我也行,但反过来讲,你能不能接受他的很多price,可能他秃顶了,假设你现在有挺不错的身材,工作也不错,你愿不愿意把工作变成极致,但是你的代价是变成一个胖子,再比如你为了创业家庭都没了,你要离婚了,你愿不愿意take the price?
当然这是比较极端的思考模式,思考的时候极端,但做事的时候可以圆滑。你先把这个推演到极限,再看怎么辗转腾挪到你能接受的范围内。比如就说出海这件事,也许你在国内整体也不错,财务状况各方面也越来越好,而到海外你可能是个边缘人物,在hacker house里挤着,语言也不通,美国白人也不把你当回事,你愿不愿意接受这一点。最终没有谁比谁聪明,没有谁比谁努力,可能就是他嚼过的玻璃渣比你多。
五源小 酒馆:你们在出海之前就想清楚了要接受哪些price吗?
郭靖: 这事儿也不可能先想得特清楚,有时候就是一头先扎进去再说。但我们最终都是要出海的,哪怕今天我们在国内是离起跑线90米,去海外一下退回到30米,那我也要从30米开始跑,想清楚这一点其实也没那么吓人。
五源小酒馆:你们有在当地找人吗,团队配置有没有做哪些调整?
郭靖: 我们目前都还是华人,主要是在中国,有些在日本。全员远程是我们迈出的第一步,因为我们公司有很强的匿名加开源协作的氛围,所以它的文化特别适合远程,我们自己测下来效率甚至是更高。接下来怎么在那边怎么招人,怎么管理那边的员工,怎么去判断那边的人,现在对我来讲还是一个未知的议题。
五源小酒馆: 之前你也说过你有一个认知,就是世界上没有很难的事儿,天才和普通人之间的区别没有那么大,包括你二十三四岁最开始创业也是自己自学写代码。经过了创业这些年,外部环境也有一些变化,你这个认知现在有改变吗?
郭靖: 我觉得有一点改变。我当时的感觉是很多事情其实差别没那么大,但为什么人和人之间最终还是有巨大的差别?首先客观来讲,因为人是一个自启动系统,很多人可能永远逾越不了那个差别,尽管可能就是小小的一步,但在那个地方他的思考已经板结了。 我也经常反思自己,有哪些是这样的事情,可能差一步就有翻天覆地的改变,这一步本身不难,但因为我自己的局限,我不知道这一步或者我总觉得这一步很难。
大方向上我还是觉得世界上很多事情没有那么难,但我觉得不能停在一腔热血的口号上,你得拆解说为什么很多事情没有那么难,你的策略是什么,因为很多东西是low-hanging fruits,你先给自己制定一个路径,你把low-hanging fruits都吃到之后,其他更高的果实就又变成低垂的果实了,可能两三年之后你看到自己完成了很多在别人看来不可能的任务,但实际上对于你来讲,每一步都是可完成的。另外就还是price,你能接受哪些price,或者你能不能改变自己,让自己能接受更多的price,这件事情其实最终决定了你的天花板。
五源小酒馆: 那还是你对一个愿景的笃定程度和你相信它实践后一定可以带来的改变? 为什么有些人可以接受更大的price,或者是他可以承担更大的痛苦,有些人就不能。
郭靖: 我觉得是你看没看见灯塔。比如说在登山的时候,有些人遇到了暴风雪,失去了所有的视野,然后他可能就冻死在营地外10米的位置。这件事情很震撼,因为他只差几步路了。但是当暴风雪蒙蔽了他的双眼之后,他并不知道往下走的每一步是不是在正确的方向上,你可以想象那种感觉,是非常绝望的。
Vision的本质就是你看到了这件事真的会发生,而且不是通过逻辑推演看到的。 我觉得在创业的前几年,我们所谓的方向和愿景其实都是一种逻辑推演,写在纸面上的漂亮话。现在我特别警惕这种复杂的逻辑推演,我更希望依靠直观的一步创新,比如说这世界上有1000万人或者1亿人有这个需求,这是我看到的,而不是我推导出来的。我只需要做一个假设,我做的这个东西能不能满足这个需求。这个是一个非常简单的、建立在系统一上的直觉,当你能够直观地看到这一点时,你会更有信心。你会觉得如果实现了这个目标,一定会让很多人的生活被改变。
我觉得好的创业者肯定不是依赖逐步的逻辑推演来规划长远的未来,而是更像神经网络,他会把一个看似很长周期、需要很复杂路径的东西,抽象到更稠密的空间里。原本需要很多步骤才能完成的事情,现在可能只需要一步,但这一步是巨大的。
五源小酒馆:那对于AI生成音乐这个领域来说,你们的灯塔是什么?
郭靖: 音乐是一个长久持续而朴实的内容需求,而且音乐有自己的特殊性,这也不是逻辑推导的结果,而是人类几百年历史的规律。人们始终需要音乐,也始终需要有人创作音乐。
我们相信人真正做一个内容,最重要的部分仍然是人性的部分,因为只有人理解人的情感需求。那么唯一的区别或者变量是要用什么方式来做?以前音乐创作的门槛可能很高,只能由少数专业人士完成。但未来,创作将变得更加模块化,更多人可以参与,发挥他们的创造力。
我也经常被问到,普通人为什么要创作音乐,我的回答是:只要人们需要听音乐,就总会有人需要创作音乐。这是我们的基本原则,虽然其中也包含一定的风险和不确定性。我们在bet的无非就两件事情:
第一件事情就是,在可见的未来里,人仍然是供给人的内容消费的主流,AI作为工具,只不过这个工具的模块和颗粒度会越来越大,比如说颗粒度大到他可以作为一个乙方,比如说music agent,你可以跟他去聊,他来帮你去做一个你想象中的东西,但仍然是你想象中的东西,我们仍然相信人性。
第二个bet就是我们相信音乐这个东西不会在有生之年内消失,但也有不确定性,比如说像京剧一样,假设人类今天不需要听京剧了,这事也就不存在了。
五源小酒馆:AI涉及到任何创作领域的时候,常常看到一个讨论是会不会让原来的很多创作者失业,会不会取代人类,你会怎么看?
郭靖: 我们今天的AIGC跟AGI是两件事情,我觉得AGI要解决的是AI具有人性的所有部分,比如说它甚至具有人的自我激励、怀疑、反思甚至洞见的能力,有提出假设的动机和验证假设的能力。但这些问题什么时候被解决,以及解决了之后AI是什么样子?这个事情有很多不可知需要慢慢去揭晓。
在这些问题解决之前,AI仅仅是工具。我认为今天的AIGC可以比喻为你操作的颗粒度,以游戏为例,早期像拳皇这样的游戏要发个大招,你需要按下7个键,而后面的游戏比如王者荣耀只需按一个键。最开始设计师本能地觉得要把这个东西做难,才能拉开玩家之间的技能差距,我们都要经历一个手把手练成机器的过程。而后面通过将复杂的操作封装成更粗颗粒度的模块,比如一键释放大招,降低了工具的门槛,我们可以在更平等的基础上进行竞争和博弈。
好比画画最开始是以像素级颗粒度去操作的,但可能会慢慢变为模块化或语义化操作,比如简单地描述中间一个人,右边一个太阳,底下一片湖水,或者我圈一下这个区域加一个水果篮。以前创作者需要旷日持久的练习才可以具备基本的能力, 但AI做这些事情,会让创作不再仅仅依赖于精细的技巧,而是更多地关注作品的主题、组织和风格等更高层次的元素。 所以我觉得未来不会丧失掉创业者,反而可能会有更多创作者涌现。这是因为随着操作的颗粒度变大,降低了技术门槛,会使更多的人能够参与到创作中来,也为创作者提供了更多表达的空间。
你会发现其实有很多原本被时代埋没的人才。比如在有嘻哈音乐之前,许多现在的rapper和电子音乐制作人可能不会被认为是人才,因为他们无法进入主流音乐界。当摇滚乐出现时,The Beatles乐队刚出来时,一些传统音乐界人士也在批判,说这是对音乐的一种亵渎。
你们凭什么用几种乐器,简单的旋律就能吸引大众。因为之前的爵士乐更为复杂,要求演奏者具有高超的技巧,爵士鼓手的标配就是能用四肢打出不同的节奏,但摇滚打破了这个。不过今天来看,摇滚本身也已成为一种高门槛的音乐形式,后面的朋克、嘻哈音乐门槛逐渐降低,包括现在的网络音乐。 你说这是创作的下沉,艺术的悲哀,还是人性的喜讯?我坚定地相信这是后者。
我觉得人不要过于傲慢,觉得这事儿我能做、你做不了,就高人一等。比如有人擅长打算盘,但计算器的出现让大家都能达到相同的水平,这并不意味着计算器是对财务工作的亵渎,最终要看的是你计算的目的。
同样,创作也是要看你要表达什么,只不过今天的技术能够让更多的人来表达了,这让一些已经积累了打算盘能力很多年的人,这些既得利益者当然是不爽的,他要竖起这个门槛跟大家说,你们是亵渎。这个是自然而然的人性,但是骨子里我不相信这件事情。
五源小酒馆:关于创作,也常常提到1万小时理论,我键盘打得比你快,不是说因为我更具权威或者是既得利益,就是因为我付出了更多的血汗和刻意练习,AI会解构这个理论吗?
郭靖: 当我们讲1万小时理论的时候,这件事情他只提出说这个天才不是天生的,可能是环境铸造的,但是并不代表它认为1万小时的盲目训练就能够让你变成天才。如果1万小时是一种盲目的练习,你的水平不会越来越好,它只会让你变成一个平庸的老油条。
比如你去野球场,会看到很多人可能打了一辈子篮球,他从小十几岁就开始打,每天过来打,但是他左手还是不会运球。真正打篮球好的人不是每天去那打球,一招鲜一个勾手吃遍天下,而是每天花时间练基本功,左手运球,右手运球,交叉运球,各种各样的让自己不舒适的那个东西,这个过程叫encoding。
这给我们的一个巨大的提示是, 我们的1万小时要花在什么事情上,假设你要花7000个小时去练手指的熟练度才能把算盘打出来,可能就压缩了你真正去思考财务应该怎么做的时间。 创作这件事情的本质是你去思考人性的需求,或者说内窥自己内心的情感,寻找你想要表达的东西。如果每个人都能够进入到创作的门槛,他们的1万小时花在去感知艺术、表达情感上,那未来创造的东西应该是更伟大的。
五源小酒馆: AI让工具的门槛降低了,但也并不会让创作这件事情本身变得更容易。
郭靖: 因为创作这个东西它是一个相对性问题,它不是一个绝对性问题。今天我们听到的随便一首口水歌,在20年前在华语乐坛可能都是很厉害的作品。人的品味是会提高的。当大家都可以随便做一些东西的时候,我们每天听到的仍然是那少部分人在这个歌里面注入了人性,注入了有差异化想法的那些作品。