王小川大模型的第一个里程碑:baichuan-7B 6月15正式开源发布

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

王小川大模型的第一个里程碑:baichuan-7B 6月15正式开源发布

千呼万唤始出来,王小川的百川智能,终于发布了他们的第一个大模型成果:baichuan-7B。

4月第一次与媒体见面时,王小川对于百川大模型显得相当自信,而“年底争取发布国内最好的大模型”的豪言壮语,一时甚至有些刺耳。

而短短2个半月过去,百川所发布的 baichuan-7B,却足以让不少质疑的人为之“噤声”。

一、大幅领先,最强7B

评判大模型孰优孰劣,尽管当下仍然是个“非共识”,但榜单跑分仍然是印证 AI 能力相当重要的一个路子。而 baichuan-7B 在榜单上的表现,的确令人印象深刻。

在三个最具影响力的中文评估基准中,baichuan-7B 在同等参数量级大模型中的综合评分十分亮眼:

在由微软研究院发起的评测标准 AGI Eval 中,baichua 7B 综合评分34.4,在中国高考、司法考试、SAT、LSAT、GRE 等考试中发挥很好,领先于LLaMa-7B、Falcon-7B、Bloom-7B 以及 ChatGLM-6B 等不少竞争对手;

而在 C-Eval——由上交、清华、爱丁堡大学三个顶级院校联合创建的评测标准中,baichuan-7B 发挥同样出色。在覆盖了52个学科的测评中,baichuan-7B 获评34.4分,在同量级产品中排名第一。

在这次跑分中,baichuan-7B 的表现甚至比起一些参数量级更大的模型更优秀,其中有些参数甚至是 baichuan-7B 的四倍以上。榜单上,比起130亿参数的 GLM-130B 一个月前的测试结果, baichuan-7B 的综合评分也仅相差1.2分。

而在复旦大学研究团队所创建的 GAOKAO 评测框架中,baichuan-7B 在高考题目上的表现同样惊艳,不仅评分在同参数量级的模型中拔得头筹,并且领先第二名近8分。

中文评测在三个榜单拿到第一,而 baichuan-7B 却并不“偏科”,在由美国诸多名校联合划定的 MMLU 英文评估基准上,评分也超过了包括 ChatGLM-6B,LLaMA-7B等开源模型,在英文跨学科专业能力上同样令人信任。

就如同一个“高考状元,baichuan-7B 成绩斐然的背后,百川智能有几个“独门秘籍”

首先,是大规模、高质量训练语料库的构建。如果把面对评测的大模型,比作即将面临考试的应考生,那训练语料就是他们的学习资料和课程——如果没有足够好的课程,学生头脑再聪明也是枉然。

在构建数据集的时候,百川在中英文两方面的数据筛选都采用了独特的手段:

为了保证语料质量,百川使用了质量模型对数据打分,以完成对原始数据集“篇章级”和“句子级”的精确筛选;

而在预料多样性方面,百川为此专研了超大规模局部敏感哈希聚类系统和语义聚类系统,以完成对数据的多层次多粒度聚类。

在这两招之下,baichuan-7B 70亿参数量级的大模型,背后有了一个包含1.2万亿 Token 的高质量与训练数据,内功相当深厚。

其次,是训练效率的提升。资料和课程到位,这位“考生”就要对这些知识进行高效率的学习和消化。就如同学习方法之于考生,训练效率至于大模型也同等重要——掌握了正确的方法,往往事半功倍。

寥寥数月,100天左右的时间,baichuan-7B 能够迅速“出彩”的一个重要原因,就是高效率的训练过程。

为了做到这一点,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上,训练吞吐达到 180+ Tflops。

同时,通过更优的训练流程设计和超参数选择,baichuan-7B 的收敛速度获得了重大的提升,也就让其在困惑度(PPL)和训练损失(Training loss)的表现上更加优秀。

最后,是更好的算法优化。有好的复习材料,也有足够高效的学习方法,单有这两点,还不足以产生一个“状元”。类比考生的天资,算法的实力也同等重要。

这一点,在 baichuan-7B 上,主要体现在更大的窗口长度。

为了能让大模型在训练和推理阶段,捕捉更多的上下文信息,以更好的完成一些长文本建模任务,窗口长度对于大模型能力的制约相当明显。

基于高效的attention算子优化,百川智能实现了万级别超长动态窗口的扩张能力。2倍于已有开源模型的窗口长度,baichuan-7B 把这个参数做到了4k,理解能力相比过去获得了巨大的提升,也能够诸如搜索增强、知识嵌入的下游应用场景完成拓展。

更优、更多样、更大的数据,加上更高效、更收敛的训练,再配上更强的上下文理解能力,baichuan-7B 的斐然成绩并不是偶然。

二、开源免费商用,海纳百川的“百川战略”

海纳百川,从百川智能官宣的第一天起,就是王小川创业的关键精神。

从这个角度看,baichuan-7B 选择开源,就称不上是“意料之外”。

代码采用 Apache-2.0 协议,模型权重采用免费商用协议,堪称“最强7B”的 baichuan-7B,如同一本打开的书,开放给社会各界——包括商用——来使用。

这次开源,baichuan-7B 开放了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。对用户的模型调优优化、低成本应用部署,乃至于其他研究者利用 baichuan-7B 完成研究,都有很大的助力。

开放的开源精神,也让 baichuan-7B获得了清华和北大,两所中国顶级高校的青睐。

在清华互联网司法研究院,计算机系教授刘奕群看中了 baichuan-7B 在中文上的效果表现,并计划在此基础上,开展司法人工智能领域的相关研究。

而在北大,人工智能研究所的助理教授杨耀东则表示, 在 baichuan-7B 的开源之下,中文基础语言模型的生态建设和学术研究,都将获得裨益。

据披露,清北两所高校表示,己计划在未来与百川智能深入合作,来一起推动 baichuan-7B 的应用和发展。

结语:

看着 baichuan-7B 一路“过关斩将”,不由得让人开始相信,王小川“年底争取做国内最好大模型”的发言,似乎并不只是豪言壮语。

而这次成功的首发,也让百川——乃至整个大模型创业界——看到了更大的动力和希望。

在接受雷峰网 (公众号:雷峰网) 采访时,百川智能的技术团队表示:

“这次开源一个7B的模型,并且在公开评测集上有着优异表现,就足以证明百川的产品与技术理念,以及我们在大模型领域的竞争力,也为我们后续的研发提供了更多信心。”

对于百川来说,尽管结结实实地“秀”了一次肌肉,但 7B 规模参数的模型绝不是终点。小试牛刀之后,王小川下一步的动作,在当下相当令人期待。

4月与媒体见面,王小川曾说过,“我们都是第一批迈入新时代的人类”,都有焦虑和好奇。

2个月过去,百川到达了自己的第一个里程碑。而大模型舞台的幕布,也正被徐徐地揭开。

雷峰网

雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。

随意打赏

提交建议
微信扫一扫,分享给好友吧。