更新时间:2021-06-30 18:27:03
小编来分享一篇个人对多面追踪以帮助AI尾随动作相关分析,众所周知,无论是在坊间民众,还是在汽车媒体的议论中,都是不错的,至于产品到底香不香,通过测试还是可以对多面追踪以帮助AI尾随动作的产品力分析分析的,一起来看看吧!
在最近的2018年计算机视觉和模式识别会议上,我介绍了一种用于多面跟踪的新算法,这是理解视频的重要组成部分。为了理解涉及人的视觉序列,尽管相机角度,照明和外观发生了变化,但AI系统必须能够跨场景跟踪多个人。新算法使AI系统可以完成此任务。
该领域以前的工作主要集中在跟踪一个镜头中的一个人或几个人。下一步是在由许多不同镜头组成的整个视频中跟踪多个人。该任务具有挑战性,因为人们可能会反复离开并重新进入视频。得益于衣橱,发型和妆容,它们的外观会发生巨大变化。他们的姿势改变了,他们的脸可能会被视角,照明或场景中的其他物体部分遮挡。摄像机的角度和变焦也会发生变化,诸如图像质量差,光线不足和运动含糊之类的特征可能会增加任务的难度。现有的人脸识别技术可能会在更受约束的情况下工作,在这些情况下,图像质量很好并且可以显示一个人的全脸,但是在不受约束的视频中却失败了,
一种多面跟踪的方法
我们与罗格斯大学统计与生物统计学系教授Ying Hung教授合作,开辟了一种方法来识别视频序列中的不同个体,并识别他们是否离开,然后重新输入视频,即使他们看起来很不一样。为此,我们首先为视频中浮现的人创建小轨迹。小轨迹基于多个身体部位(面部,头部和肩膀,上身和整个身体)的同时浮现,因此即使在人们不完全看到相机的情况下(例如,脸部被转过身),也可以对其进行跟踪远离或被其他物体遮挡)。我们将多人跟踪问题公式化为具有两种类型的边缘:εs和εt的图结构G =(ν,ε)。空间边缘εs表示一帧内候选人的不同身体部位的联系,并用于生成候选人的假设状态。时间边εt表示相同的连接相邻帧上的身体部位,并用于估量每个人在不同帧中的状态。我们使用每个人的Tracklet的人脸边界框生成人脸Tracklet,并提取人脸特征进行聚类。
该方法的第二部分连接属于同一个人的小轨迹。图1(b)显示了音乐视频中提取的VGG脸部特征的二维tSNE可视化。它表明,与所有特征(b1)相比,大图像(b)的特征更具判别力。通过分析对象的面部图像分辨率和提取的深层特征的相对距离,我们在小轨迹之间建立了明确的联系。此步骤将生成初始聚类结果。经验研究表明,基于CNN的模型对图像含糊和噪声敏感,因为网络通常是针对高质量图像进行训练的。我们使用高斯过程(GP)模型来生成可靠的最终聚类结果,以补偿深度特征的局限性并捕获数据的丰富性。与基于CNN的方法不同,GP模型提供了灵便的参数方法来捕获底层系统的非线性和时空相关性。因此,将其与基于CNN的方法相结合以进一步减小尺寸而又不丢失复杂的和导入的时空信息是一种有吸引力的工具。我们应用GP模型检测异常值,删除异常值与其他轨迹线之间的连接,然后将异常值重新分配给异常值断开后形成的精炼簇,从而产生高质量的簇。
音乐视频中的多人脸跟踪
为了评估我们方法的效果,我们将其与最新方法进行了比较,以分析无约束视频的具有挑战性的数据集。在一系列实验中,我们使用了音乐视频,该视频具有很高的图像质量,但场景,相机设置,相机运动,化妆和配件(例如眼镜)的变化却非常明显。在聚类准确性和跟踪方面,我们的算法优于其他方法。与其他方法相比,使用本算法的聚类纯度要好得多(使用音乐视频之一,本算法的聚类纯度为0.86,最接近的竞争对手为0.56)。此外,我们的方法无需人工视频分析即可自动确定要跟踪的人数或人数。
对于大多数指标,包括召回率和精度,我们算法的跟踪性能也优于最新技术。我们的方法显着增加了最受跟踪的(MT)并减少了身份切换(IDS)和跟踪片段(Frag)的实例。以下视频显示了几个音乐视频中的示例跟踪结果。我们的算法可以可靠地跟踪整个无约束视频中不同镜头上的多个人,即使有些人的面部表情非常相似,多个主要歌手浮现在杂乱无章的观众背景中,或者某些人脸被严峻遮挡。这种在不受约束的视频中进行多面跟踪的框架是改进视频的重要一步理解。该算法及其性能在我们的CVPR论文“无约束视频中多面跟踪的先验方法”中有更详细的描述。