音频姿势跟踪,早已准确到了每一画素!
Meta新一代面世的音频跟踪辅助工具CoTracker,正式发布没过多久就在GitHub上问鼎了1.4k隆哥蒙。
从非官方正式发布的两个DEMO上看,效用却是很震撼人心的。
这场击剑赛事中,马匹在赛手的操纵者下典雅地越过心理障碍,Longpr了迷人的弧形。
除了两架赛艇巨轮,好似活捉了风的另一面。
另一侧,一名滑翔选手从高空飞过,遗留下了一道道绚烂的七彩……
对这个新“玩具”,有网友评论说,它不仅能改变物体追踪技术,也将在体育(姿势)分析、野生动物跟踪,甚至电影后期领域掀起这场新的革命。
我们也第一时间上手试玩了一下线上的莫雷县本,下面就一起上看看吧。
精准记录画素轨迹
首先有请四川知名网红、熊猫界的当红炸子鸡“果赖”隆重登场。
只见花花六亲不认的步伐被CoTracker整个记录了下来,真的是太可爱了。
不过要论戏剧性的话,可能还得是我们的“西直门三太子”萌兰。
看完了可爱的胖达,接下来就要进入整活环节了,来点名场面!
这个就不用再多介绍了吧(确信)。
除了上面的这位老朋友,除了王境泽吃炒饭的镜头。
只见他手上诚实的姿势在CoTracker面前暴露无遗。
而在地球的另一侧,马斯克正在直播用FSD开着特斯拉去找小扎,准备进行一番亲切友好的交流。
CoTracker的效用就展示到这里了,朋友们如果想看其他效用可以自己玩玩看。
传送门:
https://huggingface.co/spaces/facebook/cotracker
不过,新浪网DEMO是个莫雷县本,还不支持自定义跟踪位置,只能根据输入的跟踪数量等距分配。
但是如果自己部署、用代码操纵者的话,就可以设置任意跟踪点了。
说到这我们正好来看一下CoTracker该怎么部署。
首先是Colab版本,我们刚刚说到的自定义跟踪点也在Colab当中。
传送门:
https://colab.research.google.com/github/facebookresearch/co-tracker/blob/master/notebooks/demo.ipynb
Colab的过程不必过多介绍,进入之后运行笔记中的代码就可以了。
而如果想自己动手的话,最简单的方式是从torch.hub中直接调用已完成预训练的版本。
pip install einops timm tqdm
import torch
import timm
import einops
import tqdm
cotracker = torch.hub.load(“facebookresearch/co-tracker”, “cotracker_w8”)
如果要对数学模型进行评估或训练,那么使用GitHub Repo更为合适。
首先要安装一下程序和相关依赖:
git clone https://github.com/facebookresearch/co-tracker
cd co-tracker
pip install -e .
pip install opencv-python einops timm matplotlib moviepy flow_vis
然后下载数学模型:
mkdir checkpoints
cd checkpoints
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_4_wind_8.pth
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_4_wind_12.pth
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_8_wind_16.pth
cd ..
有关评估和训练的方式,可以到GitHub项目页来查看,链接放在了文末。
那么,CoTracker又是怎么实现画素级跟踪的呢?
评分超过DINOv2
虽然都是跟踪,但CoTracker和物体跟踪数学模型有很大区别。
CoTracker并没有基于语义理解对音频中物体进行分割的过程,而是把重点放在了画素点上。
底层方面,CoTracker采用了Transformer架构。
Transformer编码了音频中点的跟踪信息,并迭代更新点的位置。
推理上,CoTracker还采用了一种窗口机制,在时间轴上划分出滑动窗口。
CoTracker使用上个窗口的输出对后面的窗口进行初始化,并在每一窗口上运行多次Transformer迭代。
这样就使得CoTracker能够对更长的音频进行画素级跟踪。
总之,经过一番训练之后,CoTracker取得了一份不俗的成绩单。
在FastCapture数据集测试上,CoTracker的成绩在一众数学模型中脱颖而出,其中也包括Meta自家的DINOv2。
总之,喜欢的话,就赶紧体验一下试试吧!
— 完 —