Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

雷锋网 • 5年前扫码分享

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

雷锋网AI科技评论按：当前自然语言处理中的大多数方法都是数据驱动的，大多数多语言模型（特别是神经机器翻译系统）都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言（例如英语、汉语），且限制于特定的领域。

为了解决这一问题，在去年七月份，Facebook曾发布了第一个系统处理Wikipedia上所有语言（包括资源贫乏的语言和方言）的数据集WikiMatrix，大约包含了亿级的并行语料，覆盖1620种语言对。

据雷锋网AI科技评论了解，最近Facebook基于新的方法和数据源，开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料（是WikiMatrix的近50倍），覆盖576种语言对。

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

论文： https://arxiv.org/abs/1911.04944

数据集开源地址： https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

1、语料库构建

首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题。此外也有几个依靠志愿者翻译而形成的语料库，例如news commentary 、Opensub- Titles 、the TED corpus等。2019年Facebook的Schwenk等人曾利用Wikipedia中的语料进行挖掘，从而开发了WikiMatrix数据集。

以上这些，从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

十次快照语料中，不同语言的单句数量（其中一次快照只包含英语）

然后通过预处理去除高达70%的重复数据（例如模板文件、导航菜单、cookie等），并使用fastText（语言识别器，可以识别176种语言）来识别文档中的语言，最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容，只保留较低困惑度的文档。如此处理获得一个包含有327亿个句子的CCNet数据集。

在这项工作中，使用的挖掘方法的底层思想是，首先学习一种多语言的语义嵌入，即在一个嵌入空间中语义上相似的句子会有较近的距离，而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

用于大规模训练多语言句嵌入的框架

不过由于余弦距离的绝对阈值在全局上并不一致，所以Schwenk在这里所采用的是Margin criterion：

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

2、语料库分析

在超过320亿个句子中挖掘平行语料，计算上是非常昂贵的。在当前版本的CCMatrix语料库中，作者限制为38种语言。

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

CCMatrix：这里给出了单语文本的数量和提取的平行句子的数量(单位：百万)，margin阈值为1.06，以及在TED测试中的BLEU分数。（编者注：这是11月份数据，当时数据集规模为35亿并行语料，下同）

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

CCMatrix：每种语言对的并行语料数量(单位：百万)，Margin阈值为1.06。举例来说，希腊语/汉语对的语料数量为470万。

3、定性评估

为了评估这个数据集的质量，Schwenk等人还利用这个数据集进行了神经机器翻译系统的测试，并与几个公共测试集进行了对比。

1、在TED数据集上进行测试

Schwenk等人首先用CCMatrix对神经翻译系统（NMT）进行训练，然后在TED数据集上进行测试，结果如下：

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

这里只选择了其中的27种语言。以上所有BLEU值的平均值为14.3，英语对的平均BLEU值为26.7，最高的BLEU值为42.9。

当然，在TED上的SOTA远比这些高；但需要注意，这里测试所用的NMT系统没有使用Transformer框架等最新技术。

2、在WMT'19 上评估

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

上图是在Newstest'18（NT'18）和Newtest'19（NT‘19）测试集上的BLEU分数。可以看到，使用CCMatrix，可以提供非常有竞争力的BLEU分数。

3、在 WAT'19 上评估

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

利用CCMatrix在亚洲翻译研讨会的俄语/日语翻译任务上进行的测试如上图所示。这里所使用的模型与前面一样，没有Transformer，没有layer dropout。尽管相比SOTA略差，但仍然在同一层次。

4、总结

CCMatrix使NMT研究社区能够利用比以前仅几十种语言对更大的双语料数据集。这可以加速创建更有效的NMT模型，这些模型可以使用更多的语言，尤其是语料库相对有限的资源较少的模型。

由于规模庞大且使用了大量公共文本，或许CCMatrix将成为NMT领域中用于构建和评估系统的最常用资源之一。

当然，Facebook在构建CCMatrix过程中所提出的数据集构建方法更值得推广，或许能够帮助更多人来创建大规模数据集。

参考资料：

facebook开源官宣： https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix

论文： https://arxiv.org/abs/1911.04944CCMatrix

开源链接： https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

雷锋网 (公众号：雷锋网) 报道。

。

本文被转载2次

首发媒体

雷锋网

| 转发媒体

随意打赏

开源数据库 KWDB 随“开放原子校源行”走进重庆大学

砍柴网 • 2分钟前

4月9日，开放原子校源行Meetup（重庆大学站）在重庆大学虎溪校区成功举办。本次活动由开放原子开源基金会（以下简称“基金会”）主办，浪潮KaiwuDB、KWDB 社区支持，围绕高校开源文化建设、数据库等热点开源技术推广、开源项目共建等话题展开交流，鼓励高校学子积极参与开源贡献。浪潮KaiwuDB 高级研发工程师冷友方
从智能手表到万物互联，开源鸿蒙构建跨行业数字底座新范式

砍柴网 • 1小时前

在万物智联的时代浪潮中，智能手表已不仅是时间的载体，更成为人体数据与数字世界交互的“第一入口”。数据显示，2023年中国智能穿戴设备出货量达3700万台，全球市场突破1.6亿台，市场规模持续扩张的背后，却隐藏着行业长期以来的痛点——操作系统碎片化、API标准不统一、应用适配成本高、设备互联门槛高等问题，如同一张无形的网
数字惠民，基于开源鸿蒙的社保终端机赋能智慧政务

砍柴网 • 1小时前

在山西省洪洞县大槐树镇社区服务中心，居民孙大姐正在使用一台搭载开源鸿蒙操作系统的智能社保终端机办理养老资格认证。“以前每年认证都要去县里排队，现在家门口一分钟就能办好，太方便了！”孙大姐的喜悦之情溢于言表。这样的便民场景，如今正在山西全省23100个基层服务点同步上演。数字政务新突破：开源鸿蒙技术赋能民生服务2024年
谁是开源界的杠把子？

虎嗅网 • 3小时前

咱们都知道了啊，整个AI界被一场“开源核爆”炸得七荤八素。咱们中国公司Deepseek二话不说，把价值百亿的AI模型源代码往全球一扔，美国的AI封锁瞬间被打了个稀巴烂。这操作简直就像是把家里“祖传秘方”直接贴到了大街上。当DeepSeek将代码开源时，硅谷码农们集体PTSD。这场景，像极了1991年8月25日，某个芬兰
全国首个，深开鸿发布基于开源鸿蒙的机器人操作系统 M

砍柴网 • 2天前

4 月 9 日消息，深开鸿今日亮相广东省人工智能与机器人产业创新产品与服务新闻发布会，正式发布全国首个基于开源鸿蒙的分布式异构多机协同机器人操作系统 ——M-Robots OS（Multi-Robots OS）1.0 。深开鸿 CEO 王成录在发布会上表示：“操作系统是机器人产业的‘
Meta发布开源大模型Llama 4：首次采用“混合专家”架构

砍柴网 • 4天前

当地时间周六(4月5日)，美国科技巨头Meta推出了其最强大的开源人工智能(AI)模型Llama 4，Llama 4目前有两个的版本，名为Scout和Maverick。 Meta表示，Llama 4是一个多模态大模型，它能够处理和整合各种类型的数据，包括文本、视频、图像和音频，并且可
阿里通义千问登顶全球开源模型榜首

i黑马 • 8天前

4月2日，全球最大的AI开源社区Hugging Face更新大模型榜单。阿里通义千问近期开源的端到端全模态大模型Qwen2.5-Omni登上总榜榜首，DeepSeek-V3-0324和群核的SpatialLM-Llama-1B紧随其后。据了解，阿里至今已向全球开源200多款模型，千问衍生模型数量已突破10万，超越美国L
DialogHub上线OpenHarmony开源社区，高效开发鸿蒙应用弹窗

砍柴网 • 9天前

作为鸿蒙应用开发者，在使用ArkUI现有能力进行弹窗开发时，总会遇到一些让人纠结的交互问题：应用内进行消息提示时，既要求消息内容支持图文混排，又要求弹窗本身不能打断用户交互（页面滑动、页面点击、键盘输入等操作）；弹窗本身与弹窗蒙层的动画需要进行独立设置；弹窗避让键盘需要自定义避让距离；气泡提示的箭头需要进行自定义等。开
城市技术论坛首次登陆欧洲！OpenHarmony启航海外开源生态新征程

砍柴网 • 10天前

当地时间2025年3月30日下午，欧洲首场OpenHarmony城市技术论坛于荷兰鹿特丹圆满落下帷幕。本次活动以OpenHarmony技术创新与生态实践为主题，聚焦操作系统领域的最新创新以及与OpenHarmony项目相关的技术研究和生态实践。嘉宾合影本次活动由OpenHarmony项目群技术指导委员会（TSC）主办，
OpenAI估值3000亿美元，模型开源；中文苹果 AI 上线；华为全年营收 8621 亿｜极客早知道

极客公园 • 10天前

OpenAI 完成 400 亿美元融资，估值达 3000 亿美元，官宣将发新开放权重语言模型 4 月 1 日消息，OpenAI 宣布完成了一轮规模巨大的私募融资，融资金额高达 400 亿美元，公司估值在融资完成后达到 3000 亿美元。这被认为是有史以来规模最大的私募融资轮之一。此次融资由软银集团领投
Meta全球大宕机！脸书、Instagram等旗下软件全部瘫痪

砍柴网 • 3月前

12月12日消息，Meta今天凌晨出现了一次全球大宕机，旗下的Facebook、Instagram、WhatsApp等一系列应用全部瘫痪，用户无法使用。在北京时间凌晨2点钟左右，有超过10万名用户在使用Facebook服务时遇到问题，达到中断次数的顶峰。很多用户在X（推特）上发帖吐槽，还以为是自己被平台封禁了，甚至怀疑
辅佐扎克伯格12年脸书前二号人物宣布退出董事会

砍柴网 • 1年前

桑德伯格北京时间1月18日，脸书母公司Meta前首席运营官雪莉·桑德伯格(Sheryl Sandberg)周三宣布，她计划离开Meta董事会。桑德伯格曾是仅次于马克·扎克伯格(Mark Zuckerberg)的Meta二号人物，在2022年卸任首席运营官一职。桑德伯格周三在脸书上发帖称，她将不会在今年5月份竞选连任Me
脸书股价反弹194% 扎克伯格高位套现30亿元

砍柴网 • 1年前

扎克伯格北京时间1月4日，2023年的最后两个月，马克·扎克伯格(Mark Zuckerberg)抛售了价值近5亿美元的脸书母公司Meta股票。此前，扎克伯格已有两年时间没有出售Meta股票。在这两年里，Meta股价曾跌至七年来的最低点。周二公布的监管文件显示，从去年11月1日到年底，扎克伯格每个交易日都在抛售Meta
Meta与亚马逊罕见联手：脸书和INS平台可直接一键网购

砍柴网 • 1年前

11月10日讯 Meta公司被爆出正在与亚马逊就电商领域展开合作，这一举动反映出Meta的“电商梦”未灭。据悉，用户可将他们的Facebook和Instagram账户关联他们的亚马逊账户，随后用户可以直接从Meta旗下的社交账户一键连接到亚马逊购物网站进行购物。或许，Meta已经放
脸书第三财季净利润大增近两倍但扎克伯格豪赌巨亏271亿

砍柴网 • 1年前

Meta北京时间10月26日，脸书母公司Meta(NASDAQ: META)今天发布了截至9月30日的2023财年第三季度财报。财报显示，Meta第三季度总营收为341.46亿美元，较上年同期的277.14亿美元增长23%；净利润为115.83亿美元(约合847.55亿元人民币)，较上年同期的43.95亿美元增长164
X延迟了用户对路透、脸书等网站的访问

i黑马 • 1年前

社交媒体公司X（前身为Twitter）推迟了对路透社、《纽约时报》网站以及Facebook和Instagram等竞争对手网站内容链接的访问。经过在X上的测试发现，点进这些受影响网站的链接大概会出现5秒左右的加载延迟。文章评价匿名用户发布发布
脸书创始人炮轰马斯克夸大续航里程：他的成功靠欺骗、吹牛

砍柴网 • 1年前

莫斯科维茨抨击马斯克北京时间7月29日消息，针对特斯拉夸大续航里程的报道，脸书联合创始人达斯汀·莫斯科维茨(Dustin Moskovitz)周四炮轰埃隆·马斯克(Elon Musk)称，所谓的成功公司特斯拉、SpaceX是马斯克侥幸蒙混过关的骗局。除了脸书联合创始人身份外，莫斯科维茨还担任团队协作公司Asana的CE
扎克伯格要吊死在元宇宙上？脸书累计亏损已超300亿美元

砍柴网 • 1年前

扎克伯格展示Meta头戴设备北京时间7月27日消息，脸书母公司Meta(NASDAQ: META)今天发布了截至6月30日的2023财年第二季度财报。财报显示，Meta第二季度总营收为319.99亿美元，较上年同期的288.22亿美元增长11%；净利润为77.88亿美元，较上年同期的66.87亿美元增长16%。不过，负
微软发布 Win11 Build 25357 预览版更新：引入脸书小部件

砍柴网 • 1年前

来源：品玩品玩 5 月 5 日讯，据 IT 之家报道，微软今天面向 Canary 频道的 Windows Insider 项目成员，发布了 Win11 Build 25357 预览版更新。本次更新主要引入了 Facebook 的小部件，向 Canary 频道所有用户开放全新音量混合器体验。
脸书Q1元宇宙巨亏40亿美元净利润下降24%

砍柴网 • 1年前

Meta北京时间4月27日消息，脸书母公司Meta(NASDAQ: META)今天发布了截至3月31日的2023财年第一季度财报。财报显示，Meta第一季度总营收为286.45亿美元，较上年同期的279.08亿美元增长3%；净利润为57.09亿美元，较上年同期的74.65亿美元大降24%，其中元宇宙业务营业亏损39.9

评论