学习曲线4:更精进的AI模型与不断演进的语言
移动AI普及背后的故事——来自三星电子中国研究院的人们与创新
在三星不断创新,持续引领卓越移动AI体验的背景下,我们拜访了位于世界各地的三星电子研究院,力求探究Galaxy AI是如何助力用户释放无限潜能的。如今,Galaxy AI凭借已支持的16种语言,可以服务更多不同语种的用户,即便是在离线状态下,用户也能利用基于端侧AI的通话实时翻译、翻译助手、笔记助手和浏览助手等功能,跨越语言壁垒。那么,关于Galaxy AI语言翻译的研发,又有哪些背后的故事呢?上一期,我们拜访了位于越南的三星电子研究院,了解了用于AI模型训练的数据是如何收集的。这一期,我们将走近中国团队,看他们是如何为中国用户们提供独特的Galaxy AI体验的。
在全球范围内,基于大语言模型(LLM)的AI工具正在飞速发展,中国也不例外。随着百度 ERNIE Bot 和美图 Miracle Vision的发展普及,三星电子中国研究院也选择了与这两家公司深入合作,共同打造属于中国市场的Galaxy AI功能。
携手不同AI合作伙伴,使得Galaxy AI在后端乃至底层技术的整合面临了巨大的挑战,但三星电子中国研究院的北京和广州团队必须在规定的时间内,让中国用户获得与全球其他用户相同的 Galaxy AI 体验。因此,他们利用第三方合作伙伴提供的中国方言专用资源,为中国用户打造了独一无二的 Galaxy AI 解决方案。
三星电子广州研究院软件创新团队负责人张海榕表示:“我们的优势在于能够将全球最好的实践经验与中国本土的实践经验相融合,并通过与中国用户的日常交流了解用户的需求,不断改进提升,开发新功能。我们的团队凭借在Galaxy S24项目中积累的丰富开发经验,与百度、美图等中国本土人工智能公司携手合作,带来了真正赢得用户共鸣的解决方案,对此我深感自豪。”
一开始,各团队都需要适应彼此的工作方式,并解决项目初期信息不对等的问题。对此,三星电子中国研究院院长张代君成立了一个特别工作组,以确保项目能够按照研发规划快速地推进并完成目标。
凭借北京团队在大模型生成方面的丰富经验,以及与第三方合作伙伴的成功合作,所有的生成式AI功能最终在中国成功问世,为中国用户带来了更为本土化的具备特定市场功能(如“触摸搜索”)的解决方案。
基于中文开发粤语方言模型
早在2024年1月Galaxy S24上市之际,Galaxy AI便已支持了普通话,但对于三星电子中国研究院而言,工作仍未结束。在此之后,中国团队投入到了支持粤语的AI模型研发工作中。该项研究将在普通话语言模型的基础上,进一步解决粤语语言特征所带来一系列新问题。
在粤语AI语言模型的开发过程中,研发团队面临的主要难题就是文化方面的差异。首先,香港的书写和口语是两套不同的系统。香港用户在书写时使用类似普通话的语法和表达方式,而在日常交流时则采用完全不同的口语语法。此外,粤语发音有九个声调,而普通话则有四个。
另一个文化差异则是粤语方言本身也在与时俱进,并且很多时候人们经常会在对话中将粤语和英语混在一起用,因此,创建测试用例、验证语言包的复杂程度不言而喻。
"粤语是一种非常独特的方言,在不同的粤语地区会有不同的说法,"负责粤语AI解决方案测试工作的李靖表示,"一些俚语、短语、词汇甚至音调在不同地方都不尽相同。因此,我们对大量香港的详细数据进行了核对,并校对了数以万计的相关测试案例。"
考虑到这些复杂性,三星电子中国研究院的北京和广州团队合作实现了在粤语和英语的混合语音识别中支持深层代码混合、在机器翻译中支持书面和口语表达、在语音合成中使用当前的发音。
沟通中的文化影响
当Galaxy AI的粤语语言包可供使用时,消费者的反馈很好地表明了三星研发团队的辛勤工作都是值得的。
三星Galaxy AI的项目经验表明,不管是在中国大陆还是中国香港地区,一个全球品牌不仅应拥有专业的当地团队和相关的当地知识,还要具备与当地第三方合作伙伴开展开放合作的能力。在中国香港地区,粤语是构建当地居民文化特性的重要部分。为此,当地团队必须研发正确的人工智能语言模型。
三星电子中国香港地区负责人Henry Wat表示:“在任何地方、任何行业中,语言以及沟通交流都非常重要。无论是来自哪里的语言,任何能帮助人们沟通交流的工具都是非常可贵的,我坚信我们的工作很有意义。”
在下一期《学习曲线》中,我们将前往巴西,了解一个团队如何跨越文化和国界,让更多人体验到Galaxy AI。