Facebook开源视觉、语言多任务深度学习框架——Pythia

雷锋网 • 5年前扫码分享

雷锋网 AI 科技评论按： Facebook 人工智能研究院最近推出 Pythia ——一个深度学习框架，支持视觉和语言领域的多任务处理。其模块化的即插即用设计能够帮助使用者快速构建、复制和基准人工智能模型。

Facebook开源视觉、语言多任务深度学习框架——Pythia 【图片来源： GitHub 所有者：Facebook 】

Pythia是什么？

Pythia 是一个视觉和语言多模式研究的模块化深度学习框架，它建立在PyTorch之上，具有以下特点：

Model Zoo：最先进的视觉和语言模型的参考实现，这些模型包括 LoRRA（SoQ on VQA 和 TextVQA）、Pythia模型（VQA 2018 挑战获胜者）和 BAN
多任务：支持多任务，允许同时训练多个数据集
数据集：包括对内置的各种数据集的支持，如 VQA、VizWiz，TextVQA 、VisualDialog 等
模块：为视觉和语言领域中的各种常用图层提供实现方式
分布式：支持基于 DataParallel 和 DistributedDataParallel 的分布式训练
Unopinionated：对基于它构建的数据集和模型实现不受任何影响的功能
定制化：包括自定义损失、指标、调度、优化器、张量板等

Pythia能做什么？

即插即用的模块化设计，能够使研究人员快速构建、复制并基准 AI 模型。你可以使用 Pythia 为您的下一个视觉和语言多模式研究项目提供引导程序，也可以用作视觉和语言数据集挑战赛的入门代码库（TextVQA 挑战，VQA 挑战）；还可以用它来回答与视觉数据相关的问题和自动生成图像注释。

Pythia加入了近期的AI比赛（VQA Challenge 2018和Vizwiz Challenge 2018）中获奖作品的元素。功能包括通过参考实现来展示之前的模型如何完成相关基准测试结果，以及迅速评估新模型性能。除了多任务处理，Pythia还支持分布式训练和各种数据集，以及自定义损失、指标、调度和优化器。

Pythia的意义？

Pythia使得进入视觉和语言子领域的过程变得更简单，也使研究人员能够专注于更快的原型设计和实验。通过提高这些模型和结果的可重复性来加速研究进程，将使得社区更容易成功构建系统并进行基准测试。

通过消除这些障碍，研究人员能更快地为人们和智能机器开发新的交流方式。同时，这项工作还将帮助研究人员开发自适应人工智能，使得多种理解更好融合到多情境的多模理解中。除了这个开源版本，Facebook还计划继续添加工具、任务、数据集和参考模型。

具体开源链接：

GitHub 地址

https://github.com/facebookresearch/pythia

Pythia 官方文档

https://learnpythia.readthedocs.io/en/latest/

安装教程

https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR