原创 AI语言大模型之后，AI图像处理工具接连涌现

原副标题：AI词汇大数学模型后，AI绘图辅助工具相继不断涌现

原创
AI语言大模型之后，AI图像处理工具接连涌现

原创
AI语言大模型之后，AI图像处理工具接连涌现1

AI绘图辅助工具，

岂料也不一定为实。

文 | 青崖华阳

（VRPinea2023年5月22日讯）5月10日，Google I/O讨论会（Google本年度开发人员讨论会）正式宣布举行，做为AI词汇大数学模型风潮后的第二次开发人员讨论会，始终都被非议没碰上AI产业发展市场趋势的Google。除轴果正式发布的Android 14DLC以外，口气面世了为数众多配备AI大数学模型的机能与应用领域，或是能生硬一点，Google I/O讨论会上，除AI却是AI。

Magic Editor是甚么，能做甚么

那场讨论会的谢幕，Google就放了大招——Magic Editor，这是这款紧密结合语法认知和生成式AI的绘图辅助工具。Magic Editor是Google打造出十多年的这款辅助工具，早在2015年的Google I/O讨论会就曾如是说过该商品。据介绍，Google将火速在Pixel上面世Magic Eraser，可采用AI驱动力的排序摄影家来消解无谓的阻碍。去年早些时候，Magic Editor将进占Google Photo。

原创
AI语言大模型之后，AI图像处理工具接连涌现2

（2023 Google I/O讨论会Magic Editor如是说各个环节）

在现场演示各个环节中，Google分享了数个Magic Editor的实际应用领域范例。具体机能包括调整人物位置、调整天空颜色与状态等，调整后的其他画面将由AI根据图片原信息进行生成和填充，以达到增加图片整体构图美感的效果。在一个范例中，Google展示了一张小孩坐在长凳上牵着气球的照片，在采用Magic Editor进行美化后，AI将长凳、小孩和气球截取了出来，并将其整体移动到了照片的中间位置，甚至同时还将背景的阴天变成了蓝天。

原创
AI语言大模型之后，AI图像处理工具接连涌现3

（Magic Editor应用领域范例效果图）

Magic Editor还远远称不上完美，甚至存在一些肉眼可见的BUG，具体正式发布日期也没确定。但Google的最终目标却是非常明确的：用户只需在屏幕上进行简单的点击和拖拽，就能创造出完美的照片。换句话来说，Google试图将Photoshop等剪辑软件的高级编辑操作，统统打包整合进Magic Editor的简单操作中。

Meta SAM是甚么，能做甚么

无独有偶，去年4月初，Meta AI正式发布了Meta在CV（Computer Vision，排序机视觉）领域的最新项目，Segment Anything。该项目同时正式发布了大数学模型和数据集，大数学模型命名为Segment Anything Model（SAM），对应数据集为Segment Anything 1-Billion mask dataset（SA-1B）。其核心思想是开发出一个通用的分割数学模型，能在用户输入的Prompts指导下分割一切。

原创
AI语言大模型之后，AI图像处理工具接连涌现4

（SAM的流程框架图）

英伟达人工智能科学家Jim Fan更是在其社交平台公开表示：“Meta的Segment Anything，我相信是排序机视觉领域的GPT-3时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况也是如此。并且，数学模型和数据都是开源的。恕我直言，Segment Anything已经把所有事情都做对了。”

原创
AI语言大模型之后，AI图像处理工具接连涌现5

（Jim Fan社交平台截图）

据相关学术报告研究，虽然SAM总体上表现良好，但并不完美。SAM分割数学模型与当前尖端的伪装物体分割数学模型之间，依旧存在较大的差距。例如，在自然环境下，SAM数学模型不能很好地感知场景中的伪装动物，在分割隐蔽动物方面存在一定问题。

实际上，除开以上两者，类似的AI抠图机能在iPhone上已经存在，去年的iOS更新后就能直接采用，但是相较于Google的Magic Editor，iPhone的AI抠图还停留在初级阶段，并不会根据内容为用户进行下一步的优化。三星的“Space Zoom”机能也能实现AI“增强”照片，北京智源更是和Meta前后脚正式发布类似商品，北京智源SegGPT。

Midjourney是甚么，能做甚么

在更广义的范畴上去讲，AI绘图辅助工具属于AIGC辅助工具的一个子类。那么，号称AI绘画天花板软件的Midjourney（此处暂不讨论Stable Diffution），自然应该有一席之地。Midjourney于2022年3月面世，只要输入一些简短的文字描述或相关提示词，这款软件就能通过AI算法生成相对应的图片，在较短的耗时内将用户的想象转化为现实。有别于Google的Imagen和OpenAI的DALL.E，Midjourney是第一个快速生成AI制图，并开放给大众申请采用的平台。

原创
AI语言大模型之后，AI图像处理工具接连涌现6

（Midjourney生成图片）

Midjourney前段时间面世了V5版本，更加强大的机能，让它成为越来越多设计领域创作者的重要辅助工具，尤其是在游戏行业，现在很多工作室都开始采用Midjourney直接生成原画。当然了，Midjourney不仅能做为辅助辅助工具，它还能直接“平替”原画师、设计师们的工作，近段时间以来，不少工作室都进行了相关岗位的裁员优化，对应的行业岗位招聘需求也有所缩减。

AIGC辅助工具对于普通人意味着甚么

AIGC辅助工具在技术领域的意义无疑是重大的，这里就不做展开了。本文仅从普通人的视角出发，讨论此类辅助工具出现及普遍应用的意义。从正向的角度来看，此类辅助工具降低了“修图”“设计”等的专业性门槛，对于大众来说，它们是能让照片变得更好的“神器”，是能直接制造好看照片的“魔盒”。最简单直白的应用领域场景就是，游客照的“一键清屏”、抓拍瞬间的瑕疵修复以及好看壁纸的生成。

原创
AI语言大模型之后，AI图像处理工具接连涌现7

（AI绘图效果展示）

凡事都有两面性，如果从消极的角度出发，AGC辅助工具可能造成的后果就是，当假的越来越真，真的也会越来越假。相较于一般智能手机中内置的滤镜而言，此类辅助工具的“修改”能力完全称得上究极进化版本。在AI的操作下，一张普通的照片可能在短短几秒之内发生翻天覆地的变化，让人完全分不清孰真孰假。辅助工具是没好坏属性的，但采用辅助工具的人有，将这样机能强大的AIGC辅助工具无限制地开源给所有人，可能导致的后果是谁也无法断言的。

AI完全有能力成为生产力进步的推动者。针对普通从业者，借助AI能在工作流中进一步提高创造力和生产力，AI也能通过赋能开发人员和企业，帮助他们设计制造具有变革性的商品和服务。如此前微软基于ChatGPT打造出的Microsoft Copilot，就能为用户提供各方面的帮助，如一键生成工作邮件、一键撰写提纲、一键生成文章、报告摘要、制作PPT等。

原创
AI语言大模型之后，AI图像处理工具接连涌现8

（微软Microsoft Copilot宣传图）

在前些日子举行的第七届世界智能讨论会上，百度CEO李彦宏发表了题为《大数学模型改变人工智能》的演讲，再次阐述他关于生成式人工智能的思考：“对于人类来说，最大的危险，最大的不可持续，并不是创新带来的不确定性。相反的，我们停止创新，不发明不创造不进步，按照惯性走下去，所带来的各种各样不可预知的风险，才是人类最大的威胁。”

原创
AI语言大模型之后，AI图像处理工具接连涌现9