文 | 雷科技 Ieitech
聚合式 AI 的上限在哪里?这个问题的标准答案也许在短时间内都不会有标准答案,至少现在聚合式 AI 似乎又征服了一个捷伊领域。此前,聚合式 AI 的工作范凑主要集中在文字处置、油画、声音处置等方面,但是聚合式 AI 的能力显然不止于此。
近日,开放源码聚合式 AI 公司 Stability AI 正式宣布正式宣布发布了 Stable Animation SDK,以及备受关注的 Stable Diffusion 数学模型(以下简称 Stable)也正式宣布发布新版本,现在用户能更好的控制 AI 聚合的 3D 数学模型,因此对特定参数进行修改。
也许很多人看到这个消息的想法是:”3D 数学模型?是指魔方、菱形之类的东西?”,毕竟在多数人看来,真正的 3D 可视化复杂性恐怕是普通 AI 难以处置的。不过,聚合式 AI 的魅力就在这里,通过对数据的处置与分析,配合对语义的理解,如今的 AI 能根据描述聚合更加复杂、完善的数学模型,并不仅限于简单的魔方数学模型。
不仅仅是 2D 变 3D
聚合的 3D 数学模型在精巧度上虽然比不上专业人员花长时间搭建的数学模型,但是考虑到聚合所需的时间,也足以带给大家不小的震撼。
而在 Stability AI 发布的最新模拟音频中,Stable 的 3D 模型已经不仅限于素描,即便是一直在体育运动的人物形象,也能轻松转变为 3D 数学模型,因此体育运动的幅度、姿势都与美版十分接近。类似的控制技术在动画电影制做中其实经常被加进,一些动画电影为了让镜头、物体显得更具有层次感时,就会通过 2D 转 3D 的方式来制做这段镜头,凸显镜头的张力
图源:Stability AI而在传统的动画电影金融行业里,想要将 2D 镜头转为 3D,需要不少工作人员忙碌一段时间,而在 Stable 的帮助下,只需要将 2D 镜头输入数学模型中,即可获得高效率的起始 3D 数学模型,大幅提高可视化所需的时间与成本。
当然,如果只是这样,也许也就专业人士会高兴,对于广大网友来说,Stable 又有什么用呢?关键就在于 Stable 的 3D 数学模型聚合无须精巧的引导,即便只是图画,Stable 也能聚合格普雷差不差的 3D 数学模型,比如梵高如图幼儿园小孩般的拼贴,经过 Stable 的 ” 润饰 ” 后就变成了一个还算能看的 3D 镜头。
图源:YouTube让你的一切油画作品,甚至文字动起来,这就是 Stable 的盼望与目标。所以,Stability AI 的所有成果都是直接公开,以开放源码的方式提供给网友使用,对于广大二次元爱好者来说,也许这是让他们的 ” 纸片老婆 ” 们动起来的最简单方法。
而且从 Stable 的 3D 动态数学模型聚合能力中,我们也能看到一些未来的应用场景,比如更低廉、便利的动作捕捉系统,理论上只要算力足够,就能通过探头捕捉的镜头实时聚合对应的 3D 数学模型动作。
除此之外还有什么妙用呢?不知道大家是否有看过近日的一个热闻,海外网红 Caryn Marjorie 通过与 AI 团队合作,用 GPT-4 复制了一个数字版的自己,然后将数字版的使用权以每分钟一美元的价格出售给自己的粉丝。
在短短的一周里,Caryn Marjorie 就以此获得了 7.1 万美元的收入,而她提供的仅仅是语音对话闲聊服务。作为视觉生物,我们对于声音的敏感度其实要低于镜头,如果 Stable 也被应加进相关领域,是否可能打造出真正意义上的 AI 女友呢?可动、可聊,足以抚慰你空虚的内心。
咳咳,好吧,这个话题先打住,至少在目前的数学模型效率和算力规模下,个人想要实现实时且高规格的 3D 动态数学模型聚合,恐怕还十分困难,但是考虑到半导体金融行业的进步速度,也许这一天离我们并不遥远。
全捷伊生产力工具
Stable 此前最大的问题在于只能根据描述或图像来聚合 3D 数学模型,如果聚合的效果不好,只能重新调整图像或文字信息来重新聚合,根据显卡的性能不同,3D 数学模型的聚合时间也会有所区别,相较于 ChatGPT 等传统问答式 AI,Stable 的时间成本高很多。
所以,虽然 Stable 的 3D 数学模型聚合效果远优于以往的类似应用,使用场景却十分受限,仅仅是能够给社区爱好者提供一个简单便利的 3D 数学模型聚合工具。一直以来,社区用户都希望 Stability AI 就能给 Stabel 增加参数调整功能,这样就能对不满意的数学模型细节进行修改。
Stability AI 给出的回应就是 Stable Animation SDK,该接口能被加载到 Stabel 的数学模型中,用户在使用 Stabel 聚合 3D 数学模型后,能通过接口直接输入对应的参数,调整或增加数学模型的细节,让数学模型更符合用户的要求。
从接口的描述文件来看,支持修改的参数非常多,从基础的颜色、形状、大小、纹理到动作姿势等都能进行调节,而且调节过程无须输入专业数据或是名词,只需要如图聚合 3D 数学模型时一样输入文字信息即可。比如你聚合了一只小狗的 3D 数学模型,然后觉得小狗身上的花纹不太满意,只需要从接口输入你想要的花纹描述,Stabel 就会根据描述对数学模型进行修改并重新渲染相关图层。
除此之外,Stable Animation SDK 还支持动作命令的输入,能让静态的 3D 数学模型直接执行你的动作指令,比如你渲染了一只飞龙,然后输入指令 ” 让龙飞起来喷火 “,Stable 就会开始对 3D 数学模型进行动作渲染。
而且 Stable 还提供摄影功能,用户能调整拍摄机位、照明效果、背景等一系列产品的参数,对 3D 数学模型进行静态和动态的录像。是的,大家估计都猜到了,3D 可视化、3D 动画电影等与 3D 可视化有关的金融行业,都将会感受到来自 AI 的 ” 温暖 “。
另外,部分网友认为 Stable 与VR设备结合,也许会让VR设备的生产力表现得到飞跃式提升。大家应该都看过漫威电影《钢铁侠》,电影主角史塔克就拥有一个高级人工智能程序 ” 贾维斯 “,在史塔克制造钢铁侠铠甲时给予了许多帮助。
其中一个片段就是史塔克通过对话直接聚合了一个零件的 3D 数学模型,然后对其进行调整并应加进铠甲上,这套流程听起来是不是有点耳熟?没错,某种意义上这就是 Stable+ChatGPT 的未来版本,通过对话直接创造出 3D 数学模型,让设计师能在VR设备中直接检视物品的外观、使用效果等。
将这个过程放到现实生活照,就相当于将产品设计中最耗时的打样、调整过程简化,实质性的提高产品从设计到落地的整个流程效率。而且,结合VR设备的功能,甚至能让设计师提前在VR中使用和体验自己的产品。
当然,现在的产品设计流程中,其实就已经广泛利用类似的 3D 数学模型软件来渲染场景,但是 Stable 的优势在于聚合的速度,本来需要数小时甚至数天进行调整渲染的数学模型,如今只需要十分之一或更短的时间即可聚合,背后所带来的效率提升不言而喻。
随着聚合式 AI 的遍地开花,能看到 AI 对我们的社会、生产等方面会造成十分深远的影响,今天是 3D 数学模型,明天又会是什么?我非常期待。