改进版 BERT 打败 XLNet ，Facebook 公布研究细节

雷锋网 • 5年前扫码分享

雷锋网 AI 科技评论按，去年 10 月，被誉为「最强 NLP 预训练模型」的 Bert 问世，横扫 11 项 NLP 任务记录。随后问世的 XLNet 打破了这些记录，在 20 项任务上全面超越 BERT。然而，不久前，Facebook 的最新成果，BERT 改进版本——RoBERTa 打败 XLNet 登上了 GLUE 排行榜榜首。

相关论文地址： https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址： https://github.com/pytorch/fairseq/tree/master/examples/roberta

论文由 Facebook AI 和华盛顿大学共同完成，其摘要如下：

改进版 BERT 打败 XLNet ，Facebook 公布研究细节

语言模型的预训练已经带来了显著的性能提升，但是仔细比较不同的方法是具有挑战性的。训练的计算代价很高，通常在不同的私有数据集上进行，我们将表明尺寸和超参数的选择对最终结果有重大影响。我们提出了对 BERT 预训练的复制研究，该研究仔细测量了许多关键超参数和训练数据大小对结果的影响。我们发现 BERT 明显缺乏训练，并且可以匹配或超过在此之后发布的每个模型的性能。我们最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先进的成果。这些结果突出了以前被忽视的设计选择的重要性，并对最近报道的结果进步的来源提出了疑问。我们公布了我们的模型和代码。

论文的主要贡献是：

提出了一套重要的 BERT 设计选择和训练策略及其介绍；
使用了一个新的数据集 CCNEWS，并确认使用更多的数据进行预训练可以进一步提高下游任务的性能
文中的训练改进表明，在设计选择正确的情况下，遮蔽语言模型与所有其它最近提出的方法相比非常具有竞争力。

改进版 BERT，即 RoBERTa（Robustly Optimized BERT approach）重复了 BERT 的预训练过程，它和 BERT 的区别有以下几点：

训练模型的时间更长
对更多的数据进行更大的批处理
删除下一句预测目标
训练更长的序列
以及动态地更改应用于训练数据的 masking 模式

如前文所述，该模型在 GLUE, RACE 和 SQuAD 上取得了最先进的成果。在参数 L = 24,
H = 1024, A = 16, 355M 的情况下，作者在 BERT-large 结构上训练 RoBERTa，结果如下图所示：

改进版 BERT 打败 XLNet ，Facebook 公布研究细节

在控制训练数据，可以观察到 RoBERTa 比最初报告的 BERT-large 的结果大大提升，这再次证明了设计选择的重要性。

然后，将此数据与另外三个附加数据集相结合，采用的训练步骤数量与之前相同（100k），总共预处理的文本超过 160GB。所有下游任务的提升，验证了预训练中的数据规模和多样性。

作者对 RoBERTa 进行了大量的预处理，将预训练的步骤数量从 100K 增加到 300K，然后再增加到 500K。可以看到下游任务的显著性能提升，在大多数任务中，300k 和 500k 训练步骤的模型优于 XLNetLarge。

还可以注意到的是，即便训练的时间再长也不会产生过拟合，而是可能会受益于额外的训练。作者发现模型训练的时间越长，性能就可以大大提高。

目前，他们还使用了一个新的数据集，并发布相关模型和预训练微调代码，可以点击以下网址查看 https://github.com/pytorch/fairseq 。

想了解更多细节，可以阅读论文原文，还可以参考雷锋网之前的文章「XLNet团队：公平对比，BERT才会知道差距！」。

雷锋网 (公众号：雷锋网) 雷锋网

雷锋网版权文章，未经授权禁止转载。详情见。

改进版 BERT 打败 XLNet ，Facebook 公布研究细节

随意打赏

facebook lite facebook是什么 facebook客户端 facebook营销 facebook登录 facebook bert模型 bert 访问外网

Meta全球大宕机！脸书、Instagram等旗下软件全部瘫痪

砍柴网 • 3月前

12月12日消息，Meta今天凌晨出现了一次全球大宕机，旗下的Facebook、Instagram、WhatsApp等一系列应用全部瘫痪，用户无法使用。在北京时间凌晨2点钟左右，有超过10万名用户在使用Facebook服务时遇到问题，达到中断次数的顶峰。很多用户在X（推特）上发帖吐槽，还以为是自己被平台封禁了，甚至怀疑
辅佐扎克伯格12年脸书前二号人物宣布退出董事会

砍柴网 • 1年前

桑德伯格北京时间1月18日，脸书母公司Meta前首席运营官雪莉·桑德伯格(Sheryl Sandberg)周三宣布，她计划离开Meta董事会。桑德伯格曾是仅次于马克·扎克伯格(Mark Zuckerberg)的Meta二号人物，在2022年卸任首席运营官一职。桑德伯格周三在脸书上发帖称，她将不会在今年5月份竞选连任Me
脸书股价反弹194% 扎克伯格高位套现30亿元

砍柴网 • 1年前

扎克伯格北京时间1月4日，2023年的最后两个月，马克·扎克伯格(Mark Zuckerberg)抛售了价值近5亿美元的脸书母公司Meta股票。此前，扎克伯格已有两年时间没有出售Meta股票。在这两年里，Meta股价曾跌至七年来的最低点。周二公布的监管文件显示，从去年11月1日到年底，扎克伯格每个交易日都在抛售Meta
Meta与亚马逊罕见联手：脸书和INS平台可直接一键网购

砍柴网 • 1年前

11月10日讯 Meta公司被爆出正在与亚马逊就电商领域展开合作，这一举动反映出Meta的“电商梦”未灭。据悉，用户可将他们的Facebook和Instagram账户关联他们的亚马逊账户，随后用户可以直接从Meta旗下的社交账户一键连接到亚马逊购物网站进行购物。或许，Meta已经放
脸书第三财季净利润大增近两倍但扎克伯格豪赌巨亏271亿

砍柴网 • 1年前

Meta北京时间10月26日，脸书母公司Meta(NASDAQ: META)今天发布了截至9月30日的2023财年第三季度财报。财报显示，Meta第三季度总营收为341.46亿美元，较上年同期的277.14亿美元增长23%；净利润为115.83亿美元(约合847.55亿元人民币)，较上年同期的43.95亿美元增长164
X延迟了用户对路透、脸书等网站的访问

i黑马 • 1年前

社交媒体公司X（前身为Twitter）推迟了对路透社、《纽约时报》网站以及Facebook和Instagram等竞争对手网站内容链接的访问。经过在X上的测试发现，点进这些受影响网站的链接大概会出现5秒左右的加载延迟。文章评价匿名用户发布发布
脸书创始人炮轰马斯克夸大续航里程：他的成功靠欺骗、吹牛

砍柴网 • 1年前

莫斯科维茨抨击马斯克北京时间7月29日消息，针对特斯拉夸大续航里程的报道，脸书联合创始人达斯汀·莫斯科维茨(Dustin Moskovitz)周四炮轰埃隆·马斯克(Elon Musk)称，所谓的成功公司特斯拉、SpaceX是马斯克侥幸蒙混过关的骗局。除了脸书联合创始人身份外，莫斯科维茨还担任团队协作公司Asana的CE
扎克伯格要吊死在元宇宙上？脸书累计亏损已超300亿美元

砍柴网 • 1年前

扎克伯格展示Meta头戴设备北京时间7月27日消息，脸书母公司Meta(NASDAQ: META)今天发布了截至6月30日的2023财年第二季度财报。财报显示，Meta第二季度总营收为319.99亿美元，较上年同期的288.22亿美元增长11%；净利润为77.88亿美元，较上年同期的66.87亿美元增长16%。不过，负
微软发布 Win11 Build 25357 预览版更新：引入脸书小部件

砍柴网 • 1年前

来源：品玩品玩 5 月 5 日讯，据 IT 之家报道，微软今天面向 Canary 频道的 Windows Insider 项目成员，发布了 Win11 Build 25357 预览版更新。本次更新主要引入了 Facebook 的小部件，向 Canary 频道所有用户开放全新音量混合器体验。
脸书Q1元宇宙巨亏40亿美元净利润下降24%

砍柴网 • 1年前

Meta北京时间4月27日消息，脸书母公司Meta(NASDAQ: META)今天发布了截至3月31日的2023财年第一季度财报。财报显示，Meta第一季度总营收为286.45亿美元，较上年同期的279.08亿美元增长3%；净利润为57.09亿美元，较上年同期的74.65亿美元大降24%，其中元宇宙业务营业亏损39.9

评论