解密！刷屏朋友圈的QQ小世界二次元生成器原理

原副标题：NSA！贴文贴文的QQ小当今世界ACG计算机程序基本原理

NSA！贴文贴文的QQ小当今世界ACG计算机程序基本原理

译者：yichaozhou，百度 PCG 应用领域副研究员

只须要上载两张相片，全屏方可横越ACG。红遍海内外的 QQ 小当今世界ACG计算机程序——“异界的我“另一面基本原理NSA。

1 工程项目如是说

去年是人工智慧应用领域领域丰硕成果遇冷的一年，前有 AI 写字后有 chatGPT，争相快速爆红互联网。早在去年六月，QQ 图像服务中心面世的亚洲地区第一款如前所述 AI 写字控制技术的”AI 初恋专用画”520 公益活动就在小当今世界爆红，前段时间新面世的“异界的我”ACG形像计算机程序着实红遍海内外。

你能看见萨兰勒班县同学全屏化身专横副总裁：

即使能看见 KFC 官推特地冲破次元壁：

各种类型梗图着实不断涌现：

在ACG感光下，就连这张经典之作的“男人吼猫”都透漏出些许温情，“居然都有点儿调皮了呢”。

这在我看来是不是努力做到的呢，责任编辑带你详解“异界的我”另一面的基本原理和用例。

2 基本原理概要 2.1. 图像聚合数学模型

近几年，蔓延数学模型（Diffusion Model）在图像聚合应用领域领域中飞速发展，比如 OpenAI 的 GLIDE 和 Google 的 Imgen，都采用了如前所述蔓延数学模型的 pipeline 来获得高质量的图像聚合结果。

蔓延数学模型分为两个过程。如下图所示，右边是两张正常的图片。从右到左的 Forward Diffusion 是一个逐步地将正态分布的噪声叠加到图片上的过程，最终得到一张看起来完全是噪声的图片。能不严谨地想象成往一块牛排上不断撒椒盐，直到它看起来完全被椒盐覆盖，看不清原来的纹路。

而从左到右的 Reverse Diffusion 则是一步步去除噪声，试图还原图片，这就是蔓延的聚合数据过程。而蔓延数学模型的训练就是在学习预测叠加在 xt 上的噪声，从而得到去噪后 xt-1 的图片，经过一轮又一轮的去噪，得到最终无噪声的输出图 X0。

而最新的 Stable Diffusion 数学模型，则是在此基础上结合了一个训练好的 VAE 数学模型。VAE 数学模型能对任意图片进行压缩再解压，将图片使用 VAE 的编码器压缩后能得到比原图小很多的特征编码，再如前所述特征编码训练蔓延数学模型，最终聚合的特征编码再使用 VAE 的解码器还原回原始尺寸的大图，这就是 Stable Diffision 的做法。这一改进大大减少了图像聚合的时长和占用的 GPU 资源，使得落地成为可能。

2.2. 聚合结果控制

为了能够使用文字控制数学模型聚合的内容，Stable Diffusion 数学模型使用了预训练的 CLIP 数学模型来引导聚合结果。CLIP 数学模型使用了大量的文字和图片对训练，能够衡量任意图片和文本之间的相关性，即 CLIP-score。在前向聚合图片的过程中，数学模型除了要去噪以外，还须要让去噪后的图片和引导词的 CLIP-score 尽量大。这样在不断聚合过程中，输出结果就会越来越接近我们给定的文字描述。

在上图中，左下角的小朋友的脸先被叠加了一定程度的噪声。之后在去噪过程中，会不断拉近聚合结果图和“a woman wearing glasses”的距离，从而使得聚合结果逐渐变成了戴眼镜的成年女性。生成图片依然能够保留原始图片的大致结构，但是细节却在文字的引导下发生了变化。

3 我们的控制技术方案

Stable Diffusion 控制技术在 AI 写字尤其是ACG应用领域领域中展现出非常高的观赏性和娱乐性，各家争相面世如前所述 Stable Diffusion 的 AI 写字平台，如 draft.art、意间 AI 等。但当时现有的平台在使用上非常不便捷，如果直接聚合，大概率聚合的质量不会很高，还容易遇到翻车现场：

如果用户想要聚合比较好的结果，须要对图片内容进行详尽的描述，并增加很多提升效果和强化风格的词，才能得到一个比较理想的效果。而且界面可调的参数非常多，用户使用门槛很高。另一方面，对于资源的消耗导致这些平台通常须要排队非常久才能拿到两张结果。

我们针对这些痛点进行了优化改造，用户只须要上载两张图片，方可得到好看稳定的聚合效果，降低了使用门槛的同时也保证了聚合质量。

在控制技术上，我们主要进行了以下几点优化：

准确的内容聚合：通过自研 diffusion 数学模型对聚合语义进行强化，并辅助图片内容分析提升聚合内容对应性； 更快的聚合速度：利用超分数学模型减少 difussion 数学模型的聚合分辨率，并针对图像 inference 过程进行加速，提升聚合速度，节约 GPU 资源； 多样的风格选择：针对不同的场景设计了丰富且美观的风格化效果。

另外我们在设计玩法时简化了用户的使用流程，让用户使用门槛更低，体验更好，通过口碑积累达到了峰值 1000%的二次传播率。

3.1. 准确的内容聚合

之前的一些 AI 写字平台，如意间 AI，draft art 等，除了上载图片，还须要使用一系列的描述主体和风格的引导词（prompt），有时候还须要调整不同参数，来得到一个理想的结果。

为了降低用户的使用门槛，我们对 pipeline 进行了改进：

我们将输入数学模型的提示词分为两个部分——图片主体内容描述和风格描述。

内容描述：为了得到图片的内容描述，我们对输入图中的信息进行人物性别、年龄、姿势等属性的检测，得到最终尽可能准确详尽的内容描述词。

风格描述：为了让结果更接近ACG，我们为各种不同场景设计了非常鲜明的ACG风格。根据第一步对图片内容进行分析后，进一步细分为单人男性、单人女性、多人等不同场景。

结合内容描述和风格描述，我们通过对原图的分析得到最终完整的提示词输入互联网，从而能够稳定聚合画面精致、风格突出的结果。既保证了聚合内容和原图的对应性，又增添了很多“异界”要素，让用户更有横越到ACG的感觉，同时也保证了较高的聚合质量。

另一方面，我们的自研 diffusion 数学模型针对语义理解进行了强化，能够更准确理解和聚合图片的主体内容，在语义信息理解和图像聚合质量上均有明显提升。

和近期面世相似玩法的竞品对比，我们在内容准确度上会更好，风格也更加ACG化，更美观：

3.2. 更快的聚合速度

原始的 Stable Diffusion 由于须要通过多次迭代聚合图片，在默认配置 A100 机器上聚合两张 720p 的图像耗时约 12s。如果须要通过提升分辨率和增大迭代步数来提升效果，耗时着实须要多达一分钟。我们针对自研数学模型采取了一系列的数学模型压缩和工程加速的方案，最终两张图片的聚合速度是 1.6s，提升了 7 倍。

3.3. 多样的风格选择

我们提供了各种丰富且贴近ACG的画风供不同场景使用：