Pythia：Facebook最新开源的视觉、语言多任务学习框架

那时，Facebook 正式发布了两个崭新的虚拟化自学架构 Pythia，它如前所述 PyTorch 且可用作听觉和词汇的联手各项任务。Pythia 是一类模组化的热插拔架构，统计数据生物学家和机器自学开发人员能加速构筑、Cadours和构筑计算方法数学模型。

工程项目门牌号：https://github.com/facebookresearch/pythia

Pythia 是个啥？

Pythia 是两个广度自学架构，它全力支持听觉和词汇应用领域的虚拟化处理。该架构构筑于开放源码的 PyTorch其内，其模组化、热插拔的结构设计使人类学家能快速构筑数学模型。Pythia 是为视觉和词汇各项任务结构设计的，如与听觉统计数据有关的概要和手动聚合影像注解。

Pythia 不仅全力支持分布式系统体能训练及多种不同统计数据集，与此同时还全力支持自订的经济损失表达式、测度国际标准、运维和最佳化器等。Pythia 还提供更多了常见的听觉和语言层次组件，它都全力支持分布式系统体能训练。Pythia 另两个特征是内置了许多记忆术，主要就包括 VQA、VizWiz、TextVQA 和 VisualDialog，它能用作虚拟化自学，即 Pythia 能与此同时在数个用例体能训练单个虚拟化数学模型。

整体而言，Pythia 的优点主要就有几点：

Model Zoo：SoTA 听觉和词汇数学模型的逻辑推理同时实现，主要就包括 LoRRA（VQA 和 TextVQA 的 SoTA）、Pythia 数学模型（VQA 2018 邀请赛亚军）和 BAN。

虚拟化：全力支持虚拟化，容许在数个统计数据K568与此同时体能训练。

统计数据集：主要就包括对多种不同统计数据集内置的全力支持，有 VQA、VizWiz、TextVQA 和 VisualDialog。

组件：提供更多对听觉和词汇应用领域中数个常见层的同时实现。

分布式系统：全力支持如前所述 DataParallel 和 DistributedDataParallel 的分布式系统体能训练。

非指定：不指定构筑在其上的统计数据集和数学模型同时实现。

定制化：定制经济损失表达式、测度国际标准、运维、最佳化器、TensorBoard，满足所有定制化需求。

Pythia 有啥用？

Pythia 包含了 Facebook 在最近的 AI 竞赛（VQA 2018 邀请赛和 Vizwiz 2018 邀请赛）中获胜的元素。特征主要就包括逻辑推理同时实现，以展示之前的 SOTA 数学模型如何达到有关计算方法结果并加速评估新数学模型。除了虚拟化，Pythia 还全力支持分布式系统体能训练、一系列统计数据集以及定制经济损失表达式、测度、运维和优化器。

Pythia 官方文档：https://learnpythia.readthedocs.io/en/latest/

我们能使用 Pythia 完成听觉和词汇多模态研究工程项目，如下图所示为听觉概要，它与此同时需要自学影像和文本有关的知识。

Pythia：Facebook最新开源的视觉、语言多任务学习框架

Pythia 怎么用？

Pythia 的安装非常简单，各种依赖项也都会手动安装：

# Clone Pythia repositorygitclone

https://github.com/facebookresearch/pythia ~/pythia

# Install dependencies and setupcd

~/pythia

python setup.py develop

Pythia 目前全力支持的统计数据集要求有两部分，即特征和 ImDB。例如，对于 TextVQA，我们需要下载如下统计数据和预体能训练权重。

~/pythia;

# Create data foldermkdir -p data && cd

data;

# Download and extract the features

wget https://dl.fbaipublicfiles.com/pythia/features/open_images.tar.gz

tar xf open_images.tar.gz

# Get vocabularies

wget http://dl.fbaipublicfiles.com/pythia/data/vocab.tar.gz

tar xf vocab.tar.gz

# Download detectron weights required by some models

wget http://dl.fbaipublicfiles.com/pythia/data/detectron_weights.tar.gz

tar xf detectron_weights.tar.gz

# Download and extract ImDBmkdir -p imdb && cd

imdb

wget https://dl.fbaipublicfiles.com/pythia/data/imdb/textvqa_0.5.tar.gz

tar xf textvqa_0.5.tar.gz

体能训练

下载统计数据后就能直接体能训练了：

~/pythia;

python tools/run.py –tasks vqa –datasets textvqa –model lorra –config **

configs/vqa/textvqa/lorra.yml

推断

如果需要运行推断或聚合预测，我们能下载对应的预体能训练数学模型，并运行以下命令行：

~/pythia/data

mkdir -p models && cd

models;

wget https://dl.fbaipublicfiles.com/pythia/pretrained_models/textvqa/lorra_best.pthcd ../..

python tools/run.py –tasks vqa –datasets textvqa –model lorra –config **

configs/vqa/textvqa/lorra.yml –resume_file data/models/lorra_best.pth **

–evalai_inference 1 –run_type inference

完整的示例能在 colab 上查看：https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR

Pythia 有何重要之处

Pythia 使进入不断发展中的听觉和词汇子应用领域这一过程变得更加平滑，能让研究人员专注于更快的原型和实验。Facebook 的目标是通过提高这些数学模型和结果的Cadours性来加速进程。如此一来，社区就能更容易地构筑成功的系统，并对其进行计算方法测试。

Facebook 希望，在移除一些障碍之后，人类学家能够更加加速地开发出人类和智能机器交流的新方法。这项工作还应该帮助人类学家开发适应性 AI，将多种不同理解综合成更如前所述上下文的、多模态的理解。除了本次开放源码的内容外吗，Facebook 还计划增加一些工具、各项任务、统计数据集和参考数学模型。 Pythia：Facebook最新开源的视觉、语言多任务学习框架