450 likes | 628 Views
Tracking Nonstationary Visual Appearances by Data-Driven Adaptation. 作者 : Ming Yang, Zhimin Fan, Jialue Fan &Ying Wu 讲解人:蒋长征. 作者相关信息. Ming Yang (杨铭) Research Staff Member Information Analysis & Management NEC Laboratories America, Inc. Education
E N D
Tracking Nonstationary Visual Appearances by Data-Driven Adaptation 作者:Ming Yang, Zhimin Fan, Jialue Fan &Ying Wu 讲解人:蒋长征
作者相关信息 • Ming Yang(杨铭) • Research Staff Member • Information Analysis & Management • NEC Laboratories America, Inc. • Education • PH.D. Electrical Engineering & Computer Science Department, Northwestern University. • B.E. and M.E. electronic engineering, Tsinghua University • Interest • Computer Vision and Machine Learning • Dynamic visual tracking, head and people tracking, face detection, low-level image features, video data mining, and medical image processing. • Video Coding and Multimedia Communication • Homepage • http://www.ece.northwestern.edu/~mya671
作者相关信息 • Publications • Ming Yang, Zhimin Fan, Jialue Fan, Ying Wu. Tracking non-stationary visual appearances by data-driven adaptation. IEEE Trans. on Image Processing (T-IP), vol.18, no.7, pp.1633-1644, July 2009. • Ming Yang, Ying Wu, Gang Hua. Context-aware visual tracking. IEEE Trans. on Pattern Analysis and Machine Intelligence (T-PAMI), vol.31, no.7, pp.1195-1209, July 2009. • Ming Yang, Ying Wu. Granularity and elasticity adaptation in visual tracking. CVPR'2008. • Ming Yang, Qiong Liu, Thea Turner, Ying Wu. Vital sign estimation from passive thermal video. CVPR'2008. • Ming Yang, Ting Yu, Ying Wu. Game-theoretic multiple target tracking. ICCV'2007. • Ming Yang, Junsong Yuan, Ying Wu. Spatial selection for attentional visual tracking. CVPR'2008. • Ming Yang, Senthil Periaswamy, Ying Wu. False positive reduction in lung GGO nodule detection with 3D volume shape descriptor. ICASSP'2007 . • Ming Yang, Ying Wu, Shihong Lao. Intelligent collaborative tracking by mining auxiliary objects. CVPR'2006. • Ming Yang, Ying Wu. Tracking non-stationary appearances and dynamic feature selection. CVPR'2005. • Zhimin Fan, Ying Wu, Ming Yang. Multiple collaborative kernel tracking. CVPR'2005.
作者相关信息 • Zhimin Fan • Education • B.S. and M.S. Automation Department, Tsinghua University. • M.S. Electrical Engineering and Computer Science Department, Northwestern University. • Interest • computer vision • pattern recognition • image processing. • Homepage • http://www.ece.northwestern.edu/~zfa825/
作者相关信息 • Publications • Zhimin Fan, Ming Yang, Ying Wu. Multiple Collaborative Kernel Tracking.T-PAMI2007. • Zhimin Fan, Jie Zhou and Ying Wu. Multibody grouping by inference of multiple subspaces from high-dimensional data using oriented-frames. T-PAMI2006. • Zhimin Fan, Ming Yang, Ying Wu, Gang Hua, Ting Yu. Efficient Optimal Kernel Placement for Reliable Visual Tracking. CVPR'2006. • Zhimin Fan, Jie Zhou, Ying Wu. Multibody motion segmentation based on simulated annealing. CVPR'2006. • Zhimin Fan, Ying Wu, Ming Yang. Multiple collaborative kernel tracking. CVPR'2005.
作者相关信息 • Ying Wu (吴郢) • Associate Professor • Electrical Engineering & Computer Science • Northwestern University • Education • Ph.D. Electrical & Computer Engineering, UIUC. • M.S. Electrical Engineering, TsingHua. • B.S. Electrical Engineering, HUST. • Interests • Computer Vision, Visual Motion Tracking/Capturing/Recognition • Image/Video Processing Analysis and Understanding, Video-based Interaction • Statistical Learning and Pattern Recognition • Multimedia Processing, Management, and Data Mining • Biomedical Image Processing and Medical Applications • HomePage:http://www.ece.northwestern.edu/~yingwu/
文章信息 • 文章来源 • IEEE T-IP • 发表时间 • vol.18, no.7, pp.1633-1644, July 2009. • 相关文献 • Ming Yang, Ying Wu. Tracking non-stationary appearances and dynamic feature selection. CVPR'2005.
Abstract • Without any prior about the target, the appearance is usually the only cue available in visual tracking. • However, in general, the appearances are often nonstationary which may ruin the predefined visual measurements and often lead to tracking failure in practice. • Thus, a natural solution is to adapt the observation model to the nonstationary appearances. • However, this idea is threatened by the risk of adaptation drift that originates in its ill-posed nature, unless good data-driven constraints are imposed.
Abstract • Different from most existing adaptation schemes, we enforce three novel constraints for the optimal adaptation: 1) negative data, 2) bottom-up pair-wise data constraints, and 3) adaptation dynamics. • Substantializing the general adaptation problem as a subspace adaptation problem, this paper presents a closed-form solution as well as a practical iterative algorithm for subspace tracking. • Extensive experiments have demonstrated that the proposed approach can largely alleviate adaptation drift and achieve better tracking results for a large variety of nonstationary scenes.
文章摘要 • 在视觉跟踪中,在对目标没有任何先验时,表观通常是唯一可获取的线索。但是,总体上,表观通常是不稳定的,从而会破坏原本定义的视觉度量并导致跟踪失败。 • 一个很自然的解决方案就是使观测模型适应不稳定的表观。然而,这个方案因为其内在的病态本质会产生适应性漂移,除非能加上好的数据驱动约束。
文章摘要 • 不同于大多数现存的适应性方案,我们强化了三种新的约束: • 1)反例数据 • 2)自底向上的成对的数据约束 • 3)适应性的动态约束 • 本文将一般的适应性问题实质化为一种子空间的适应性问题,提出了一种闭合的解决方案和一种可行的迭代算法。 • 大量实验证明这种方案可以很大程度上缓和适应性的漂移,在大量不稳定表观的应用场景中获得了更好的跟踪结果。
背景介绍 • 视觉跟踪 • 在连续的帧间建立目标的对应关系 • 视频分析的基础研究问题,对视频监控和人机交互等大量应用有重要意义。 • 面临的挑战 • 长时间无约束环境下,目标表观的不稳定变化,比如来自视角的改变,光照的变化和形状上的变形等。这些表观的变化可能破坏原本的视觉度量或观测模型,导致跟踪失败。
前人的方法 • 利用目标的视觉不变特征 • 跟踪器适应变化 • 更新表观模型 • 选择最好的视觉特征 • 基于适应性的方法较不变特征的方法更加灵活。度量模型可以适应性变化,用于跟踪的特征可以适应性的选择。
本文所研究问题的提出 • 基于适应性的跟踪问题在于一个chicken-and-egg的两难境地 • t时刻的正确数据要由t时刻的正确模型获得,而t时刻正确的模型需要用t时刻的正确数据获得。 • 在多数的基于适应性的跟踪方法中,当前模型使用与上一刻的模型最相近的数据进行更新 • 隐式的假设是上一时刻最好的模型在当前时刻仍是最好的
本文所研究问题的提出 • 基于适应性的跟踪方法中,适应性的漂移是比较普遍的问题。当表观模型适应其他图像区域而不是跟踪目标,就会导致跟踪失败。 • 缓和跟踪漂移的方法 • 强制与初始模型的相似性 • 限定可能的适应性变化的范围
本文的基本思想 • 将不稳定的表观跟踪的普遍的适应性问题实质化为子空间的适应性问题。视觉表观在短的时间间隔内可以表示为线性子空间 • 不同于大多数现存的适应性方案,本文强化了三种新的约束: • 反例数据 • 自底向上的成对的数据约束 • 适应性的动态约束
跟踪中的观测模型 • 目标的跟踪或检测是观测的视觉度量与视觉模型间的匹配过程。 • 观测模型分类 • 固定表观模板 • 已知的表观流形 • 适应性的表观流形
固定表观模板 • 应用于大多数跟踪算法 • 运动参数是表观变化的唯一参数 • 度量图像观测模型与运动参数对应的假设观测间的距离,或是两者之间的似然 • 图像的观测模型,可以是边缘,颜色直方图,特征点等信息。
表观流形 • 不止是运动参数影响表观的改变 • 光照(跟踪人脸中) • 非刚性变化(跟踪人体中) • 由于其他的不确定性因素,给定运动参数,其可能的观测不再只是一个向量,而是一个流形。 • 本文认为:一个目标的表观流形可能很复杂和非线性,但在一个短的时间间隔内,假设其为线性是合理的。
表观的线性子空间表示 • 设表观z是m维向量 • 子空间由r个线性无关的列组成一个线性变换Am*r来表示 • 表观在子空间的投影y z = Am*r y 由最小二乘得到, y = (ATA)-1 ATz= A†z 其中A†为A的伪逆 由子空间投影y重构z, P为映射矩阵
表观的线性子空间表示 • 子空间由向量z的随机过程表示,可以给出一个最优化问题的形式 E(·)是随机过程{z}的期望
表观的线性子空间表示 • 在跟踪中,这个问题表示为 其中xt*为运动参数 给出任意一个跟踪结果{x},都存在一个映射满足最小化,因此需要约束
表观的线性子空间表示 • 一个普遍应用的约束是平滑性 • 比如更新的模型不能偏离上一个太多 • 大多数的解决方法是直接使用前一帧的表观模型来对当前图像进行标记,并从而决定模型的更新
本文方法 • 本文采取数据驱动约束的方法 • 从当前图像观测中选择正例和反例数据进行表观模型的适应 • Negative data constraints:反例数据比较容易获得 • Pair-wise data constraints:给定一对数据,相对容易来判断它们是否属于同一类。大量的成对数据约束可以对数据进行一个粗聚类。根据平滑性约束,可以产生一组可能为正例的数据来约束子空间的更新。 • 适应性的平滑性约束 • 与上两个约束的平衡。与两个子空间的映射矩阵的距离相关。
本文方法 • 针对前面三个约束,最优子空间需要满足 zt+为正例数据, zt-为反例数据。 即正例数据投影在子空间的分量大,反例数据投影在子空间的分量小,两个子空间的距离由F范数度量。
Pair-Wise Constraints • 本文使用Graph cut 算法来粗略的对预测的目标区域内采集的样本进行聚类,这样自底向上地找到正例数据和反例数据。
Pair-Wise Constraints • 用与目标大小相同的图像片在预测区域均匀采样,覆盖住预测区域。对每一个样本片,计算加权核的64个bin的色调直方图h,得到直方图相似度的关联矩阵。 ρ(·)是bhattacharya系数,μ是ρ的均值,σ为ρ的标准偏差
Pair-Wise Constraints • 通过关联矩阵的特征值分解,选择较大一些的特征值将数据聚为3-5类 • 与上一时刻的目标子空间距离最小的聚类被认为是目标可能的位置 • 其他的聚类被认为是反例的聚类。
Select Negative Data • 仔细选择 • 离太远,则可能与目标子空间垂直,对最优化贡献不大 • 离太近,则可能部分在目标子空间内 • 本文的方法 • 选择反例聚类中,与上一刻目标子空间较近的那些样本。
算法流程 • 初始化:t=0,用户输入目标 • 对t>=1 • Step1:计算目标大小的窗口内15*15样本片的色调直方图的相似度的关联矩阵。 • Step2:通过对关联矩阵操作,对样本片聚类,得到正例样本和反例样本。 • Step3:用得到正例样本和反例样本更新子空间。 • Step4:对运动参数进行均匀采样从而获得对应的当前帧的区域,与更新的子空间距离最小的区域所对应的运动参数作为跟踪的输出。
更新子空间 • Closed-form Solution P = UUT, U为以下矩阵的r个最小特征值所对应的特征向量组成 Ct-, Ct+分别为反例,正例的协方差矩阵,更新方法如下:
更新子空间 • 迭代算法 J2(U)的梯度 梯度下降法
实验 • 跟踪目标是恢复运动参数:位置和尺度 • 候选区域归一化为20*20,形成400维的灰度特征向量 • 运动参数的采样: • 100个位置 • 3个尺度:0.95, 1.0, 1.05 • 模型中不一直包括初始表观 • 模型适应每隔4帧应用一次
实验 • 评价度量 • relative position errors:跟踪结果的中心和手工标注的位置 • 比较的方法 • Nearest Updating • Nearest+ Negetive • 本文方法
实验 • Nearest Updating vs Nearest + Negative • Negative data do help.
实验 • 存在的问题
总结 • 文章贡献 • 研究了适应性表观跟踪中的病态问题。 • 提出了自底向上数据驱动的约束,连同自顶向下的光滑性约束,缓和了跟踪中模型漂移的问题,并产生了较好的性能。 • 1)反例数据 • 2)自底向上的成对的数据约束 • 3)适应性的动态约束 • 以后的工作 • 当光滑性约束和自底向上的信息相抵触时,最好的平衡和融合这3种约束的方法。