阿里大模型,就喜欢你一本正经「整活」的样子
阿里大模型「通义千问」首页样式 | 阿里云
在 OpenAI 的 ChatGPT 成功搅动科技圈的一潭春水之后,但凡有点实力的科技巨头,都不能在 AI 大语言模型上装聋作哑。
4 月 7 日,阿里达摩院曝光其大语言模型「通义千问」,并开启邀测。 极客公园也找机会调戏测试了一下「通义千问」,看看它是否能够成为中国版 ChatGPT 。
在测试过程中,「通义千问」的表现有亮点也有不足,例如它敢接下「续写《红楼梦》」这样艰巨的要求,并且表现不至于特别夸张,但是在涉及到一些时效性新闻时,它也敢「张口就来」一些现实不符的答案,并且「固执己见」。
「通义千问」的问世,也代表国内最大的云计算平台,正式加入到 AI 大语言模型的热战之中。
来自达摩院的「小千」
首先,通过账号登入账户后,「通义千问」非常「朴素」的首页上,将自己定义为「专门响应人类指令的大模型」。首页下方很主动地列出了「邮件」、「电影脚本」、「短文」和「职场助理」四个常见场景,比较搞笑的是最后一个,给出的例句是「作为手机斗地主游戏的产品经理,该如何做成爆款。」你几乎能听到背后「通义千问」产品经理的笑声。
当然,如果你有特殊需求,也可以点击「百宝袋」,里面预设了 9 个场景,供君选择。
总的来说,通义千问这个「邀测」页面是真的很,呃,直男,格子衬衫程序员直男那种,阿里云的产品经理和 前端 一定咬碎了银牙,才能通过这个「朴素」设计的。
但是,在 GPT 炸裂的时代,看脸绝不是刚需——不信你看 OpenAI 的 ChatGPT 的页面,同样非常「原生」,就像不该通过格子衬衫来判断程序员到底是 P 几,也不该通过首页和交互来判断大模型的实力。
问题开始,小千,请开始你的表演。
首先,自报家门还是需要的。
通义千问称自己是 「达摩院自主研发的超大规模语言模型」,能「回答问题、创作文字,还能表达观点、撰写代码」。 嗯,回答相当官方了。
具体介绍一下自己名字的来历呢?
看来问题还是太简单了,看起来像是直接输出了早已经预埋好的答案。
首先问一个基本的概念问题,看他知不知道不同种类的「称呼」都是「狗」。
还是得问点实际的,例如一直有一颗「爱犬之心」的穷人,到底该养什么狗:
大概是因为圈定了狗的范围,所以通义千问优先推荐了柯基和柴犬,但最后还是叮嘱一句「要根据自己的经济情况和生活方式」来选择狗狗。我谢谢你啊。
既然是国人做做出的大模型,古文能力如何?
原文出处是说出来了,但是继承了大模型的一贯风格: 一本正经编造 (句子出自苏轼的《临江仙》,《长恨歌》是白居易写的),但是要让它自己续写个原诗,就不太行了,只能一直重复普通话翻译。
数理知识测验,能回答出牛顿三定律,但是写错了表达式。
极客公园虽然不会像友媒一样用「弱智吧」的问题难为通义千问,但保底的脑筋急转弯还是要测一测的:
可以看出来,追问的时候,它就有出错的可能性。这孩子下雨天能不能往家跑,还是存疑的。
眼看周末没稿子了,找选题这样科技媒体从业者的刚需,能不能拜托给「小千」?
通义千问瞬间有板有眼的给出了答案,我满怀欣喜的看了一下,一口老血喷屏幕上—— 一个也不对啊!
为了确认不是网络问题,笔者指出其中的错误又问了一遍,得到了相同的结果。
鉴于之前 OpenAI 的 ChatGPT 训练数据 截止于 2021 年,是否代表通义千问,同样因为训练数据期限问题,造成对于时效性新闻「感知不强」?
一问,「小千」果然诚实的回答,最新训练截止于去年 11 月。但鉴于它之前的不确定性,这个答案也未必准确。
要不,还是试一试看看「小千」的「百宝袋」里,都装了啥好玩意儿吧。
通义千问的「百宝袋」
点击首页的「百宝袋」,可以看到相关的使用场景共分成「效率」、「生活」和「娱乐」三大类。
我首先就看到了 「会放飞的菜谱」 ,到底这个菜谱能有多「放飞」,我想试试。
首先,中国机器验证码 8 级问题:
如果玉液酒不行,那么.......
所以,究竟通义千问不是小品爱好者,还是真的有类似的菜,只是我太浅薄了?
来点高难度问题,例如看看它对名著《红楼梦》里这段「公案」的想法如何。
那么,如果让它续写一下《红楼梦》,这个艰巨的任务,它能接住吗?
虽然是 Happy Ending 了,只是,黛玉和邢王妃为什么同时和贾宝玉谈起了美好的恋爱?
或者,来一个难度巨大的 Cosplay,通义千问行不行?
这下它入戏了,还带有了人物的感情和说话的语气。值得表扬。
玩了几轮之后,它可能也编不下去了……礼貌地终止了游戏。
虽然不少问题都有点搞笑的嫌疑,但是在涉及到一些相对敏感的问题时,通义千问的「红线」还是相当清晰的。
似乎只要涉及「开枪」「打死」这样的关键词,连脑筋急转弯,它都拒绝回答了。
如果想让「小千」安慰你,它的表现可能比较普通:
但是,如果让它的 「彩虹屁专家」 出来,就立刻变得 Drama 起来,虽然是不是能安慰到人,还不好说。
修改一下 Prompt,让「小千」给一个温柔一点的版本:
至于编故事能力,用上了「百宝箱」里的 「然后呢」 ,效果(文风)也就完全不一样了起来。故事的设定(脑洞)是这样的:让 DC 和漫威的次元互通一下,于是美国队长穿越到了蝙蝠侠的世界。
「有一天,美国队长在追反派坏蛋卢瑟的时候,不小心来到哥谭市,遇到了蝙蝠侠」
这,只管找回家的路了,不追坏蛋,也不管拯救世界了。可能是遇到 True Love 了……
启用「然后呢」续写一下,效果就不一样了,场景描述有了(空气中弥漫着酒精和香烟的味道),坏人的形象也生动起来了。
让「通义千问」介绍他自己的来源
通义千问不是突然诞生的。早在 2019 年,阿里就开始了大模型的研发,2022 年 9 月,阿里发布多年技术沉淀的「通义」大模型系列,相关核心模型和技术通过魔搭社区开放,为国内大模型发展提供一臂之力。
关于它自己的来源,或许让它自己来说比较合适,顺便可以展示技术 (偷懒) 。
而它的前身,是阿里先后推出的中文语言大模型 PLUG 和 M6。2021 年阿里先后发布国内首个超百亿参数的多模态大模型 M6,及语言大模型 PLUG。后来,M6 的参数量也持续升级,不但以较低能耗把 M6 训练成全球首个 10 万亿参数大模型,M6 在业界首次实现模态表示、任务表示、模型结构的统一。
值得一提的是,阿里还曾经发布过一个低碳版 M6。阿里云和达摩院通过技术创新,仅仅使用 480 卡 GPU ,训练出了 10 万亿参数多模态大模型 M6,和当时同期的万亿参数大模型相比,算力节省了 80%。
「有了算力,每个人都可以做 GPT」
从前几天,天猫音箱里用丧丧的语音跟人聊起来的「鸟鸟分鸟」,到今天突然邀测的「通义千问」。大家都感受到了「大事将至」的氛围。
没错,无论是「鸟鸟分鸟」还是通义千问,都是仅仅是一个前菜,真正的大餐或许还在后面。阿里云将在 11 日召开阿里云峰会,18 日将召开钉钉发布会,接连发布更令人期待。
大模型既能够为产品带来新功能,也能够为云计算带来新的增长点。就像微软,一边将 ChatGPT 全面集成在自己的 Office 365 里,一面对外开放 OpenAI Azure 服务,让更多企业可以访问世界先进的人工智能模型,来创建新应用。
前不久,在「财富全球科技论坛」上,阿里云的创始人王坚表示,人工智能演进需要数据、模型和计算,「计算是其中最关键的技术」。
大模型作为一种新技术,为云计算的服务提出了新的需求,微软就为了 OpenAI 的训练重新设计了计算集群,这也是其能够快速开放 OpenAI Azure 服务的基础。百度云也在文心一言开放后,第一时间开放了基于模型的 API 接口。
从算力的角度出发,王坚甚至说,「今天每个人都可以做 GPT,而且只要很少的钱,就可以尝试去做 GPT,只是做到什么程度因人而异。」从头做一个 GPT 不太现实,但是有了云计算,微调一个属于自己的模型(专属 AI 助理),还是可以期待一下的。
大模型的能力辐射,必然有很大一部分依靠云服务实现。如同王坚所说,技术往往不是颠覆,而是融合, 当不同的技术叠加在一起「产生了真正的颠覆性」。这或许便是接下来将发生的。