原副标题:相片读取没法、一片片镶嵌画?Google开放源码数学模型优先选择表明影像受高度关注部份
Lizier Google AI
电脑之心校对
撰稿:袁铭怿
责任撰稿提出目光服务中心数学模型,用于预估可见光在影像上具体来说特别注意到的边线,从而提高使用者新体验。当观察模样影像时,你会先特别注意影像的什么样内容,换句话说影像中的什么样地区会具体来说招揽你的目光,电脑若想专业委员会人类文明的这种目光形式。在源自Google的几项科学研究中,他们开放源码的目光服务中心数学模型(attention center model)能努力做到这一点。并且该数学模型可用于 JPEG XL 影像文件格式上。
比方说,右图是目光服务中心数学模型的许多预估实例,其中阔边帽为预估的影像的目光服务圆心。
影像源自 Kodak 影像统计数据集:http://r0k.us/graphics/kodak/
目光服务中心数学模型大小不一为 2MB,文件格式为 TensorFlow Lite。它以 RGB 影像做为输入,并输入一个 2D 点,该点是影像上的预估目光服务圆心。
为了体能训练数学模型来预估目光服务中心,具体来说需要许多源自目光服务中心的真实世界统计数据。取值两张影像,许多目光点能透过Ramanathapuram搜集,或者透过滑鼠点选影像来吻合。该科学研究具体来说对那些特别注意点进行时间低通滤波器,只留存起初的目光点
项目门牌号:https://github.com/google/attention-center
目光服务中心数学模型构架
目光服务中心数学模型是一个广度神经互联网,以两张影像为输入,使用预体能训练进行分类互联网如 ResNet、MobileNet 等做为骨干力量。从骨干力量互联网输入的几个第二层被用于目光服务中心预估组件的输入。那些相同的第二层包涵相同的重要信息,比如,表层一般来说包涵较高层级的重要信息,如气压 / 色调 / 着色,而更深层一般来说包涵更高、更语法的重要信息,如花纹 / 目标。
特别注意服务中心预估采用卷积、反卷积调整算子,并结合聚合和 sigmoid 函数,生成目光服务中心的权重图。然后一个算子(在例子中是爱因斯坦求和算子)可用于从加权图中计算服务中心。预估目光服务中心和真实世界目光服务中心之间的 L2 范数做为体能训练损失。
此外 JPEG XL 是一种新的影像文件格式,允许使用者在对影像编码时,确保有趣的部份率先表明。这样做的好处是,当使用者在网上浏览影像时,影像中招揽人的部份能率先表明出来,也就是使用者具体来说看到的部份,在理想情况下,一旦使用者看向图片其余地方时,影像的其他部份也已经就位并已解码。
在 JPEG XL 中,影像一般来说被划分为大小不一为 256 x 256 的矩阵, JPEG XL 编码器将在影像中选择一个起始组,然后围绕该组生成同心正方形。Chrome 浏览器从 107 版增加了对 JPEG XL 影像的渐进解码功能。目前,JPEG XL 还是一个实验性的产物,在 chrome://flags 中透过搜索 jxl 即可启用。
要想了解渐进式读取 JPEG XL 影像的效果,能访问网址进行查看:https://google.github.io/attention-center/
原文链接:
https://opensource.googleblog.com/2022/12/open-sourcing-attention-center-model.html