迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
作者 | 维克多
自从今年1月份OpenAI祭出120亿参数魔法模型DALL·E,众多科研工作者开始对其进行多方位的剖析,希望也能做出给定“自然语言文字描述直接生成对应图片”的程序或软件。
120亿参数.........这意味着只有“顶级玩家”才能入局。如果缩小模型参数,程序还能跑出高质量的结果么?
今日,谷歌和Hugging Face的研究员们开放了一款DALL·E mini的小程序。顾名思义,作为DALL·E的复刻版,模型规模比原版小了27倍,且只在单个TPU v3-8上训练了3天。
mini版的DALL·E创造思路非常简单:在官方开源代码以及预训练模型的基础上,简化体系结构和减少模型内存需求。
效果如何?作者在博客中说:
“在硬件资源受限的情况下,虽然质量比较低,但结果仍然是令人印象深刻的。”
AI科技评论将其与正版DALL·E进行了对比,结果如下:
文本提示: 穿着芭蕾舞短裙的萝卜宝宝在遛狗。
文本提示: 写着“OpenAI”字样的店面 。
文本提示: 鳄梨形状的扶手椅 。
模型架构
与OpenAI DALL·E相比
1.Dall·E使用120亿参数版本的GPT-3。相比之下,Dall·E mini的模型小27倍,参数约为4亿。
2.Dall·E mini使用大量预先训练好的模型(VQGAN、BART编码器和CLIP),而OpenAI从头开始训练。
3.在图像编码方面,表( vocabulary )的对比是8192 vs 16384,tokens的对比是1024vs256。Dall·E使用VQVAE,而作者使用VQGAN。
4.在文本编码方面,表( vocabulary )的对比是16384 vs 50264,tokens的对比是256 vs 1024。
5.Dall·E通过自回归模型读取文本,而Dall·E mini使用双向编码器。
6.Dall·E接受了2.5亿对图像和文本的训练,而Dall·E mini只使用了1500万对。
基于此,Dall·E生成的图像的质量虽然比Dall·E mini模型高得多,但调用的资源非常少。不得不承认这个模型在复现OpenAI几个官方示例中确实失败了。
差在哪?
雷锋网雷锋网 (公众号:雷锋网) 雷锋网
雷锋网特约稿件,未经授权禁止转载。详情见。