在新加坡,大模型在GAIR 2023上迎来高光时刻
2023年8月14日,由GAIR研究院、雷峰网 (公众号:雷峰网) 、世界科技出版社、科特勒咨询集团联合主办的第七届GAIR全球人工智能与机器人大会,在新加坡乌节大酒店拉开帷幕。
GPT时代的杰出贡献者:那些关于GPT的洞见和机会
潘毅对话黄学东
围绕大模型的讨论在继续。继黄学东介绍完「what we are now」后,清华大学周伯文接着介绍大模型在复杂场景中的应用。周伯文是清华大学惠妍讲席教授、电子工程系长聘教授,衔远科技创始人,IEEE/CAAI Fellow。
周伯文发表演讲
需要注意的是,将大模型的能力迁移到产业应用中,将不可避免地遇到更低频、长尾的复杂场景和大规模协同需求。对此,京东探索研究院院长、京东科技智能服务与产品部总裁、IEEE Fellow 何晓冬指出,应用于产业的大模型必须具备产业原生、价值驱动、开放协同三大特性。
Alex Ren对话邱谆
随着大模型参数的指数级增加,如何高效训练模型成为大模型开发的重中之重。阿里云计算平台首席架构师林伟在 GAIR 2023 的演讲中提出,今天 AI 工程面临非常多挑战。硬件复杂度高,芯片每半年更新一次;集群复杂,高投入未必能带来高性能;分布式任务配置复杂;每一个问题都会大量分散算法工程师在模型训练上的精力。
林伟介绍了阿里云 PAI 灵骏智算平台的基础架构。在算力底座层面,灵骏智算集群通过自研高性能网络、高性能存储、异构资源池化、数据加载加速等优化技术,可实现端到端1.5微秒超低系统通信时延,通信效率17%优化,异构资源利用率3倍提升。在工程平台层,PAI灵骏智算服务提供覆盖AI开发全流程的平台和分布式计算优化能力,单个训练任务可达到万卡级别规模,千卡规模的线性扩展效率达92%,为通用大型模型研发提供稳定、高效的支撑。
阿里云林伟演讲中
青年科学家论坛:探索未知,鼓励交叉研究合作
伊利诺伊大学厄巴纳-香槟分校(UIUC)副教授李博指出,大模型时代,机器学习无处不在,但 是大模型的安全性和可信性问题一直是学术界和工业界关注的重点,Amazon、 Anthropic、 Google和 OpenAI 等公司曾共同承诺将更加负责等对AI进行开发;与此同时,大模型 因为数据隐私等方面的问题,一旦进入物理世界,便会十分脆弱。为此,他们团队提供了一个综合可信度大模型评价平台叫「DecodingTrust」,从有害内容(toxicity)、刻板偏见(stereotype bias)、对抗鲁棒性(adversarial robustness)等多个维度对 GPT 模型进行了可靠性评估,旨在评估不同可信度视角下的 GPT 模型的准确性,以及其在对抗性环境(如对抗性系统/用户提示、示例样本)中的稳健性。「DecodingTrust」研究发现,尽管 GPT-4 在标准基准测试中通常比 GPT-3.5 更可信,但在越狱系统或用户提示的情况下更容易受到攻击,背后原因可能是因为 GPT-4 更加准确地遵循(误导的)指令。李博认为,AI 系统的安全性并没有单一的解决方案可以解决所有问题,需要多方持续 地关注。
李博远程演讲中
南洋理工大学副教授张含望带来了以《视觉识别中的因果关系》为主题的演讲。他认为,对于当前的大模型来说,如果想要真正突破一些最底层逻辑上的问题,因果关系(Causality)是一条必经之路。
张含望表示,在多模态模型或大语言模型的研究中,偏差(bias)是常见问题。随着模型规模的不断扩大,它可能会越来越智能,但偏差问题依旧存在。这就意味着,若不把因果关系加上去,大模型只是在进行强行关联。如果幸运,模型在回答问题时能够给出正确答案,否则就会“胡说八道”。这是因为它背后的关联本身就是错误的,把共生关系当成了因果关系。张含望还更进一步地指出,共生不等于因果,经常发生的事情不一定是因果关系。
对此,他给出的建议是,做多模态模型的过程中,一方面一定要多关注“等变性”,因为“可拆解性”可以通过数据量堆叠,“等变性”不可以;另一方面,目前,多模态之间互通的瓶颈在于非语言模态(例如图像)的spatial tokens和语言分布差的太远。他认为,语言的本质是可递归的符号系统,这也是大语言模型可以推理的基础。所以,如果想得到真正的多模态大模型,就必须找到一种“可递归,可拆解的”的tokenization的方法,把非语言模态转成“可递归分布”的token。
张含望演讲中
严睿在 GAIR 2023 的演讲中主要介绍了大模型的发展历程,以及大模型所对应的新特性与背后对应的新技术。此外,介绍了将大模型能力与对话式人工智能相结合的研究点,探讨了一些现有的技术发展路线与可能存在的技术挑战。最后介绍了一下人民大学推出的玉兰系列大模型,包括RecAgent推荐仿真大模型,能在一定程度上解决数据匮乏与冷启动问题,也有可能推广到其他场景。
会后,严睿与现场观众对涉及到通用模型在专业领域应用的话题展开讨论,严认为将开源模型进行微调以适应特定领域数据有一定效果,但研究尚处早期无确切定论。
严 睿演讲中
大模型时代的超级基建:降低成本和门槛,让新科技革命发生
大会下午第二场进入“大模型时代超级基建”环节。过去数年间,AI领域应用落地曾一度乏善可陈。但在刚刚过去的几个月,ChatGPT引爆了大模型的浪潮。尽管如此,当前的大语言模型的训练然面临诸多挑战。基于此,GAIR大会首日设置“大模型时代的超级基建”,共同探讨AI底层基础设施相关话题。
过去数年,AI 模型的参数发生了极大变化。新加坡国立大学校长青年教授、潞晨科技创始人尤洋指出,从 2016 年至 2021 年 1 月,AI 模型的参数量是每 18 个月增长 40 倍;从 2018 年 1 月到 2021 年 1 月,AI 模型的参数量每 18 个月增长 340 倍。而相形之下,2016 年 1 月至 2021 年 1 月间,GPU 的计算增长速度每 18 个月仅增长了 1.7 倍。由此可见,训练成本高、周期长,是当前大模型发展最需要克服的难题。
针对这一问题,尤洋提出了 Colossal-AI 系统,从高效内存系统、N 维并行系统和大规模优化三个层次出发,以实现同样的设备条件下将数据移动的最小化,将 GPU 的吞吐量扩大至最高点。
尤洋还指出,现阶段的模型参数量以 10 万倍扩大、但层数增加不多,这或意味着:如今的 AI 发展可能不再是深度学习、而是进入了宽度学习时代。在模型变得更宽的情况下,面对大规模、长时间的 GPU 训练任务,大模型训练系统的核心将是如何实现 GPU 并行计算,以实现大模型训练越快越省钱的目标。
尤洋演讲中
如何用云计算支撑大模型的发展?UCloud董事长兼CEO季昕华分享了以《中立云服务助力AIGC的发展》为主题的演讲。
季昕华认为,判断一个大模型能不能做好主要有四个关键要素:一是资金密度;二是人才密度;三是数据密度;四是算力密度。
一家大模型公司如果没有一个亿美金,那基本上压力就会比较大。因此,大模型被称为是互联网的重工业。除资金以外,大模型的训练需要大量的科学家人才、数据、算力。
而UCloud主要做的就是大模型最下面的基础设施。季昕华提到,目前,国内有139家公司在做大模型,其中五六十家都是由UCloud支撑和支持。所以,他们对整个模型过程中的技术要求非常清楚,也看到了大模型目前发展阶段在技术上所遇到的挑战,包括功耗、存储、网络等。
季昕华演讲中
汇智智能联合创始人刘黄骁烈在演讲中介绍了当前大模型技术的主要应用场景。他表示,目前,大模型技术应用场景可以分成优化交互、辅助工作、素材制作三个方向。他还指出,这三个方向主要落在辅助用户,帮助用户去提效上,并不能替代人工。
在实践过程中,他发现对于没有AI专业背景的用户使用大模型,常常会出现翻车现象。这种情况下,大模型对他们工作的提效就是负的。
在用户眼里,现在的大模型就像是一套拥有超能力的钢铁盔甲,用户期待穿上这套盔甲以后,立马就能飞起来、发射激光炮……但现实是,现在大多数用户的问题是:不知道如何去操作这套拥有超能力的钢铁盔甲,以及面对不同种类型的盔甲,应该如何选择?
刘黄骁烈把当前用户面对的大模型时的困境,归纳总结叫做“GNOMIC困境”,六个字母分别对应的是 Guide(指导)、 Notarize(公正)、Operate(操作)、Measure(衡量)、Identify(区别)、 Catelog(推介)。
基于以上分析,汇智智 能推出如下产品和服务:AIGC开源社区微言大义——解决“GNOMIC困境”的一个全量的解决方案。通过智能体的概念把大语言模型封装成一系列,用户能够更好地感知行业案例。
刘黄骁烈演讲中
Zilliz创始人兼CEO星爵指出,过去十年,受限于研发成本和开发难度,全球仅有1%的人专注于AI领域的研发工作。但如今,有了大模型和向量数据库作为能力基座,一个AI 应用的开发仅仅需要两三个工程师一个周末的时间便可完成。“忽如一夜春风来,千树万树梨花开。”对于大模型,星爵如此评价道。
此外,星爵还强调了向量数据库之于大模型的重要性。他认为,向量数据库承担着大模型数据片外存储的重任,不管是图片、视频语言还是生物学中蛋白质的三维结构,都可以用向量的方式表征它的语义。
针对数据实时性和私域专有数据的问题,星爵表示,学术界和工业界存在两种解决方案,一是通过Fine tuning的方式迭代演进,让大模型学到更多知识;二是通过Vector search方法,把最新的或私域知识存到向量数据库中,需要时再在向量数据库中做基于语义的向量检索。上述两种方法都能为大模型提供更加精准的答案。
不过,星爵也坦言,从成本角度出发,向量数据库的成本是Fine tuning的1/ 1000。所以大模型厂商都无一例外地推荐开发者使用向量检索的方式做知识库管理,以便和模型有一个更好交互,降低落地使用成本的同时,提升在业务中的实际效果。
星爵演讲中
在演讲过后的圆桌论坛环节,云启资本合伙人陈昱与尤洋、季昕华、星爵三位嘉宾共同讨论了当下备受关注的热门话题,包括大模型基础设施建设面临的挑战、如何降低大模型训练成本等。
针对大模型基础设施建设面临的挑战:
尤洋认为,通信基础设施非常重要。比如,英伟达收购Mellanox的目的就是为了打造高速网络。过去,挖矿等一些非AI需求的GPU就没有很好的高速互联。
季昕华在此前演讲中已经提到大模型面临的挑战。在圆桌环节,他进一步解释强调,资金方面,大模型的训练需要大量的资金投入;算力方面,现在大部分的公司都没有足够的卡来做支撑;工程方面,数据存储性能问题,以及整个训练过程掉卡问题,都会使得整个训练周期会变得非常长。
星爵则强调了数据方面的问题。他表示,世界上有 80% 以上的数据都是非结构化的数据。过去十多年,非结构化数据的管理能力主要由谷歌、微软等大公司掌握。星爵表示,新AI时代对数据管理的要求也会变得更大,如何更好地做好数据基建,这对大家都是很大的挑战。
针对业内非常关心的成本问题,几位嘉宾也都给出了相应的观点。
尤洋表示,大模型训练的一个巨大负担是训练计算量太大。对此,他给出了三种解决方案:一是不改变硬件条件下试试能否加速收敛;二是,针对下层软件,在不改变模型结果前提下,能否提供更好的基础设施;三是能否进行模型优化。
季昕华表示 ,优刻得主要通过五个方面帮助客户降低成本。一是降低电费。不论做训练还是推理,电费大约占总成本的15%左右,优刻得乌兰察布数据中心能够把电费单价从1块钱/度降低到3毛钱/度;二是化购买为租用。由于训练一般分阶段,因此公司可以选择租用模式。比起购买,租用会极大降低使用者的成本;三是通过网络带宽和存储带宽来提高使用者的训练效率;四是通过压缩模型等手段,来降低推理成本。毕竟,未来推理成本可能会远大于训练成本;五是通过一体机的模式,即私有部署的模式推进私有化大模型。
星爵表示,就降低成本而言,从向量数据库角度来看,主要包括三方面:第一,要有更好的算法;第二,要更聪明地利用个体存储;第三,要比以往有更强的有效利用硬件的能力。
圆桌结尾,电脑报创始人陈宗周发表了总结感言,他对各位嘉宾的演讲和工作成果都给予了盛赞。陈老师还特别提到,很多讲者已经把事业做得非常庞大,但依然非常谦逊,中间更是有不少人是年轻一代的榜样。
陈宗周致大会总结
至此,第七届GAIR全球人工智能与机器人大会首日日程圆满结束。8月15日,精彩继续!
这个世界从不缺时代的注脚,GAIR存在的意义,就是让AI历史上的各种机缘与巧合,交织在一起,碰撞出新的思想与故事。
8月14日-15日,一群涌动着探险家、变革者、英雄血液的创造者,也将让最前沿、最奇思妙想的大模型技术突破与商业试验,以空前肆无忌惮的方式绽放。
这次他们齐聚在新加坡乌节酒店,为第七届GAIR全球人工智能与机器人大会,带来最为激荡的思想碰撞。
雷峰网
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。