训练语言模型

本页是关于频道"训练语言模型"的所有博文，按照时间倒序展现。实时更新。

总数 18 第 1/2 页

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大语言模型 - IT思维

IT思维 • 9月前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 萝卜皮来自深度语言模型的蛋白质表征，已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来，进展主要集中在参数计数上，最近模型的容量超过了它们所训练的数据集的大小。牛津大学（University of

登上Science：利用预训练的蛋白质语言模型扩展了氨基酸多样性 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 萝卜皮蛋白质-蛋白质相互作用的微调通过共同进化自然发生，但这个过程很难在实验室中重现。斯坦福大学医学院的研究人员描述了一个合成蛋白质-蛋白质共同进化的平台，可以从复杂的文库中分离出匹配的相互作用突

英伟达：CPU 已落伍，用 GPU 训练大语言模型成本可降低 96%

砍柴网 • 1年前

来源：品玩品玩 5 月 29 日讯，据英伟达在 2023 年台北电脑展会上的演讲，该公司宣称其 GPU 可以大幅降低训练大型语言模型（LLM）的成本和耗能。黄仁勋在演讲中，向 CPU 行业发起了挑战，他认为生成式人工智能和加速计算是未来计算的方向。他宣布传统的摩尔定律已经过时，未来的性能提升将主要来自生成式人工智能和

亚马逊加入AI大战 CEO：好的大语言模型得耗费数十亿美元训练

砍柴网 • 1年前

贾西北京时间4月14日消息，电商巨头亚马逊公司周四加入了人工智能(AI)的竞争行列，推出了自己的生成式AI服务Bedrock。亚马逊CEO安迪·贾西(Andy Jass)在接受采访时称，真正优秀的大语言模型需要耗费数十亿美元和多年时间来训练。借助Bedrock，亚马逊旗下云服务AWS将允许开发者访问其自主语言

京东拟今年发布千亿级言犀大规模预训练语言模型

砍柴网 • 1年前

IT之家 4 月 9 日消息，中国人工智能学会主办的“人工智能大模型技术高峰论坛”主论坛近日在杭州萧山正式启幕，多位业内人士出席论坛并发表演讲。据《科创板日报》报道，京东集团副总裁何晓冬在人工智能大模型技术高峰论坛上表示，针对真实产业需求，京东计划在今年发布新一代产业大模型 —— 言犀。言犀是“京东版”ChatGPT，

ChatGPT之后标贝科技关于如何为预训练大语言模型提供终身学习语料的探索

砍柴网 • 1年前

近日，在火爆全球的AI聊天机器人ChatGPT上线四个月后，OpenAI又发布了ChatGPT-4。从OpenAI的官网可以了解到，与上一个版本相比，GPT-4 拥有了更广的知识面和更强的解决问题能力，在创意、视觉输入和长内容上都有更好的表现。GPT-4是一个超大的多模态模型，实现了从文本理解到图像理解的飞跃式提升：包

兴智杯|联汇科技首席科学家赵天成受邀出席分享视觉语言预训练大模型技术及赛题讲解

砍柴网 • 2年前

8月30日—9月2日,由工业和信息化部、科学技术部、深圳市人民政府共同主办的2022年首届“兴智杯”全国人工智能创新应用大赛专题活动周正式举行。首届大会主题为“兴智赋能”,旨在推动人工智能核心技术突破和产业生态建设,加速人工智能与实体经济深度融合。活动周首日,邀请了联汇科技

不可能三角：预训练语言模型的下一步是什么？

雷锋网 • 2年前

PLM的不可能三角困境。编译 | 王玥编辑 | 陈彩娴近年来，大规模预训练语言模型（PLM）显著提高了各种NLP任务的性能。由BERT和GPT-2开始，自监督预训练范式和监督的微调范式取得了巨大的成功，并刷新了许多自然语言处理领域的最先进成果，如语义相似度、机器阅读理解、常识推理和文本摘要等。此

DeepMind最新研究：如何将「大语言模型」训练到最优？

雷锋网 • 2年前

作者丨维克多Transformer的提出距离我们已经有5年的时间，随着模型规模的不断增长，性能提升也逐渐出现边际效益递减的情况。如何训练出最优性能的大模型？最近，DeepMind做了一项调查，想弄清AI语言模型的规模和token之间的关系。这个小组训练了超过 400个模型，规模从

北大邹月娴：视觉-语言预训练模型演进及应用

雷锋网 • 2年前

作者丨邹月娴整理 | 维克多编辑 | 青暮预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性，只需在小规模标注数据上进行微调，就可以在相应任务上有所提高。但相关研究的进展如何？还有哪些问题需要进一步探索？