470 likes | 719 Views
J D L. Robust Object Tracking with Online Multiple Instance Learning. PAMI 33(8) 2011. Tracking. Boris Babenko Ming-Hsuan Yang Serge Belongie. UCSD UC Mecerd UCSD. Motion. Detection. Classifier. Sample Selection. for. Boosting. MIL. Online. (AdaBoost). 讲解人: 项 翔
E N D
JDL Robust Object Tracking with Online Multiple Instance Learning PAMI 33(8) 2011 Tracking Boris Babenko Ming-Hsuan Yang Serge Belongie UCSD UC Mecerd UCSD Motion Detection Classifier Sample Selection for Boosting MIL Online (AdaBoost) 讲解人:项 翔 http://www.jdl.ac.cn/user/xxiang 2014/8/27 1
Conference vesion: Cited: 109 (Google Scholar) till 2011/07/07 Visual Tracking with Online Multiple Instance Learning. In CVPR, 2009. Boris Babenko Ph.D. candidate in CSE @UCSD, with Prof. Serge Belongie B.S. in CSE @USCD, 2006 Intern in Honda Research Institute, CA, US, 2007 ICML11, PAMI11, ICCV09, CVPR09, ECCV08(2), ICCV07 杨明玄(Ming-Hsuan Yang) Assistant Prof. @EECS, UC Mecerd 学习计算机科学和动力机械工程 @清华(新竹) CS and brain theory @USC artificial intelligence and operations research @UT Austin Ph.D. in CS @UIUC 助理教授 @台大资讯工程学系 senior research scientist @Honda Research Institute, CA, US CVPR(11)ECCV(10)ICIP(6)NIPS(5)ICPR(4)CVIU(3)PAMI(3) ICCV(1)IJCV(1)AAAI/IAAI(1) Serge Belongie Associate Prof. @CSE Dept., UCSD Drector of UCSD vision lab, former CVPR PC B.S. in EE @Caltech, 1995 M.S. in EECS @UC Berkeley, 1997 Ph.D.in EECS @UC Berkeley, 2000 (with J. Malik) CVPR(13)ECCV(8)ICCV(8)PAMI(4)IJCV(3) NIPS(3)ICIP(3)ICML(2)ICPR(1) 2014/8/27 2
文章摘要 在本文中,我们试图解决物体跟踪问题(在仅知道目标在首帧中的位置的前提下)。近来,一类“基于检测的跟踪(tracking-by-detection)”方法通过在线训练判别“目标/背景”的二元分类器,给出了令人鼓舞的实时跟踪结果。基本思路是:通过在当前位置附近bootstrap出正/负例样本,我们为下一帧训练出分类器,预测出下一位置,如此递进实现跟踪。然而,样本选取是带有歧义性的。相应地,在线监督学习存在如下问题:如果当前位置已经有些不精确,那么bootstrap出的样本就不精确,于是预测的下一位置更不精确了;长此下去,分类器的判别能力就会退化,预测位置较之目标的真实位置就会漂移开(Drift)。就此问题,已有引入半监督学习添加先验约束(例如:只标记首帧的样本;同时保留离线训练)的工作。而我们的思路是引入多实例学习(Multiple Instance Learning, MIL):打包样本,让学习算法来挑选出最精确的样本;而非我们自己贸然指定。这种思路促成了更鲁棒的跟踪和更少的手动参数调整。 总而言之,我们提出了基于在线多实例学习的物体跟踪算法,在满足实时性的前提下仍很鲁棒。我们在大量的视频上开展了实验,在文中既呈现了直观的跟踪结果,也作了量化评价。 ** Drift(漂移)是指错误地成为物体模型的一部分的背景像素将模型拉离正确的位置,导致有更多被错分为背景像素。 2014/8/27 3
基本思路 2014/8/27 标记第1帧 4
基本思路 分类器 在线分类器 [如在线Ada Boost (Adaptive Boost)] 2014/8/27 标记第1帧 5
基本思路 负样本 正样本 分类器 2014/8/27 选取一个正图像块和一些负图像块,训练或者更新模板。 6
基本思路 负样本 正样本 分类器 2014/8/27 获取下一帧 7
基本思路 负样本 正样本 分类器 分类器 2014/8/27 在搜索窗口中分类估计新位置 8
基本思路 负样本 正样本 原始位置 X Classifier Classifier 2014/8/27 在搜索窗口中分类估计新位置 9
基本思路 负样本 正样本 原始位置 X X 新位置 分类器 分类器 2014/8/27 搜索到最大响应 10
基本思路 负样本 正样本 负样本 正样本 分类器 分类器 2014/8/27 如题迭代,继续基于检测的跟踪…… 11
跟踪 任务:给出第一帧中目标的位置,跟踪任意的目标物体 典型的跟踪系统: 图像表征(例如,滤波器组[17]、子空间[21],等等) 外观模型 静态外观模型:跟踪具有显著外观改变的物体上有困难 自适应外观模型 只对物体建模 对物体和背景都进行建模 通过一个判别分类器来训练模型以从背景中分离物体,经常可以实现上等的结果【基于检测的跟踪】** 运动模型 **·M. Ozuysal, V. Lepetit, F. Fleuret, and P. Fua. Feature harvesting for tracking-by-detection. In ECCV 2006. ·M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection and people-detection-by-tracking. In CVPR 2008. 2014/8/27 12
自适应外观模型的问题 • 如果分类器有些过头(a bit off)? • 跟踪子开始漂移(Drift问题) • 怎样选择训练样本? 2014/8/27 13
检测(获取训练样本) 文献中常常没有被讨论的主要挑战: 当更新自适应外观模型时, 如何选择正样本和负样本? 普遍策略:将当前跟踪子的位置作为正样本, (策略1) 将跟踪子周围的近邻取样为负样本 人工标记固有歧义性 Viola等人[23]表明,物体检测具有固有的歧义性,这种歧义性使得使用传统方法来训练分类器的方法变得更加困难。 【在[23]中,Viola并没有从理论上证明物体检测具有歧义性,只是直观地举了个例子:以识别手写的邮政编码为例,判断组成“5”的像素的位置不是一件容易的事;进而,歧义性会导致训练集的高错误率,而这会限制训练集的准确性。】 如果跟踪子的位置是不准确的,那么外观模型的性能将降低,并且可以导致跟丢 [23] P. Viola, J. C. Platt, and C. Zhang. Multiple instance boosting for object detection. In NIPS 2005. 2014/8/27 14
获取训练样本(续) 运用多个正样本(策略2) 多个正样本取自当前跟踪子 位置周围的一个小的近邻区域 无组织的多个正样本会使分类器混乱,从而导致判别能力下降 针对混乱问题,Grabner等人[15]最近提出了一种半监督方法(SemiBoost,该法被用在实验中比较)【未采用】 被标记的样本只来自于第1帧图片,而后续训练样本不被标记。特别适合物体完全离开了视场的场景。 不足:没有利用帧间信息(特别是存在小的位移,帧间信息可用来推断新位置 Classifier Classifier [15] H. Grabner, C. Leistner, and H. Bischof. Semi-supervised on-line boosting for robust tracking. In ECCV 2008. 2014/8/27 15
获取训练样本(续) 策略1:单个正样本不准确; 策略2:多个正样本太混乱…… 综合一下:“打包”多个正样本! 基于有组织的多样本的学习【多实例学习】[9] Multiple Instance Learning (MIL)方法本身并不是一个新颖的方法,早在1990年Keeler等人就提出该方法,将其应用到手写数字识别,并发表在了当年的NIPS上;后来有很多研究者尝试用boosting算法来执行多实例学习;Paul Viola等人发表在2005年NIPS上的Multiple Instance Boosting for Object Detection是推广MIL方法的重要文章,提出了MILBoost算法,本文就参考了这篇文章中的理论(MIL框架)。本文尝试将MIL方法应用到跟踪问题中,并与On-line Learning相结合。 [9] T. G. Dietterich, R. H. Lathrop, and L. T. Prez. Solving multiple-instance problem with axis parallel rectangles. AI, pages 31-71, 1997. 该文是关于多实例方法的被引次数最多的文献,主要内容是关于药物活性预测。该文第一次正式地在机器学习领域提出了关于多实例学习的开放性问题。 2014/8/27 16
多实例学习(MIL) 动机:将歧义留给MIL算法处理,而非留给标记者。 思路:训练过程中,样本是以集合(“包”)的形式被呈现,一个标记对应一个包而不是一个样本。只要一个包中有一个样本为正,那么这个包就被标记为正;否则这个包将被标记为负。 任务:MIL算法必须弄清,在每个正包中哪个样本最“正确”。 质疑:学习机获得的信息减少,学习更困难 优势:在寻找判别边界的问题上,学习机从而被允许了一定的灵活度 实证:受更弱的标记(仅仅标记人脸的中心)训练的人脸检测器和一个MIL算法的组合胜过了当前的受精确的区域框训练的监督算法[23] [23] P. Viola, J. C. Platt, and C. Zhang. Multiple instance boosting for object detection. In NIPS 2005. 提出MILBoost算法 2014/8/27 17
用于检测的MIL MIL 分类器 2014/8/27 18
基于MIL的跟踪 贪心策略 正包 负包 运动模型 更复杂 粒子滤波器 ·没有计算每帧中目标位置的分布;作为替代地,使用了一个运动模型。在这个运动模型中,在时间t时跟踪子的位置同样可能地出现在以时间(t-1)时跟踪子的位置为中心的半径为s的区域内。 ·跟踪其它运动信息(如比例和旋转)是简单的,出于简单化和计算效率的考虑,我们选择只跟踪位置信息;并且,作者采用的类Haar特征与适度的旋转和比例的变化是完全无关的**。 ** A Bhatia, R Laganiere, and G Roth. Performance Evaluation of Scale-Interpolated Hessian-Laplace and Haar Descriptors for Feature Matching,ICIAP 2007. 2014/8/27 19
在线Boosting(在后续帧中检测) [11] Y. Freund and R. E. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 55: 119-139, 1997. 【Y. Fruend(UCSD)和R. E. Schapire(Princeton)在AT&T时提出AdaBoost,该文有关boosting被引次数最高的文章,推广了在线boosting】 [12] J. Friedman, T. Hastie, and R. Tibshirani. Additive logistic regression: a statistical view of boosting. The Annals of Statistics, 28(2): 337-407, 2000. 【该文描述了bagging(bootstrap aggregating)和boosting的在线版本。Bagging使用bootstrap样本来训练多个预测机,是一种重采样方法。整合多个预测机,加强分类和预测能力】 2014/8/27 20
在线Boosting(续) [20] N. C. Oza. Online ensemble learning. Ph.D. Thesis, UC Berkeley, 2001. ** 决策树树桩是一个弱的机器学习模型,由一棵带有一类或多类标记的单层决策树组成。弱学习机经常被作为机器学习集群技术(如Bagging和Boosting)中的组成部分。因此,多个二元决策树桩被用作集群学习(Ensemble Learning)算法的输入。 2014/8/27 21
MIL Boost 【与LogitBoost中类似】 【Noisy-OR[23]】 2014/8/27 目标:最大化正包的log相似度 (即最小化负包的log相似度): 其中 22
MIL Boost(续) 2014/8/27 以贪心方式训练弱分类器 h: 弱分类器 k: 用于训练的第k个特征 同样地,我们需要在线版本…… 整合在线Boosting和MIL Boost! 23
用于MIL的在线Boosting算法(在线MIL Boost) 非线性,LDA不适用 2014/8/27 24
在线MIL Boost(续) …… [Grabner et al. ‘06] 2014/8/27 在训练过程中,始终保持包含 个候选弱分类器的特征池 25
更新在线MIL Boost(续) …… 2014/8/27 • 在时刻 t获得更多的训练数据 • 更新所有的候选分类器 • 以贪心方式选择最好的 K 26
在线MIL Boost(续) 帧t 帧t+1 获取数据(包) 在池中更新所有的训练器 以贪心方式将最好的 K 加入到强训练器中 2014/8/27 27
小结 负样本(背景) 正样本(目标物体) 2014/8/27 • 基于在线多实例学习的跟踪(MILTrack) = • 在线 MILBoost + • 用于弱分类器的判别树树桩 + • 随机化的类Haar特征 + • 简单的运动模型 + 贪婪的局部搜索 28
实验 • 目标:证实使用MIL可以促成更鲁棒和更稳定的跟踪子 • 将MILTrack同以下方法比较 to: • OAB1 = 在线AdaBoost(搜索半径r=1,每帧1个正样本) • OAB5 = 在线AdaBoost(搜索半径r=5,每帧45个正样本) • SemiBoost = 在线半监督Boosting • FragTrack = 静态外观模型 • 所有参数都是固定的 • 8段视频,每5帧手工标记Ground Truth 2014/8/27 29
OAB1 OAB5 MILTrack MIL 分类器 分类器 分类器 2014/8/27 30
实验结果 数据和代码:http://vision.ucsd.edu/~bbabenko/project_miltrack.shtml; 视频结果: http://www.youtube.com/miltrack08 2014/8/27 31
视频1-2 Sylvester & David Indoor常用跟踪测试集[21,18,14] 2014/8/27 32
视频1-2 Sylvester & David Indoor(续) 2014/8/27 33
视频1-2 Sylvester & David Indoor(续) 2014/8/27 34
视频3-4 Occluded Face来源于[1]FragTrack 2014/8/27 35
视频3-4 Occluded Face(续) 2014/8/27 36
视频3-4 Occluded Face(续) 2014/8/27 37
视频5-6 2014/8/27 38
视频5-6(续) 2014/8/27 39
视频5-6(续) 2014/8/27 40
视频7-8 2014/8/27 41
视频7-8(续) 2014/8/27 42
视频7-8(续) 2014/8/27 43
实验结论 MILTrack最稳定 原因:在线MIL Boost算法能够处理带有歧义的被标记的训练样本。它抽取一包样本(图像块)并挑出最好的那个样本。特别地,它对付部分遮挡的能力较强。 OAB1抽取一个正样本,继而承受那个样本可能不是最好样本的风险。 OAB5抽取多个正样本,混乱使分类器判别能力下降。 SemiBoost算法(半监督)丢弃了许多有用的信息,因为它只标记首帧,这导致在当目标物体外观显著变化时跟踪性能下降。 2014/8/27 44
遮挡处理 Clf Initialize Frame 2 Frame 1 (Labeled) Clf Update Frame 3 Ftr Pool: Ftr Pool: Apply Clf 1 2 3 1 2 3 Extracted Positive Example Initial Positive Example { } { } OAB OAB Clf = OAB Clf = Extracted Positive Examples (a Bag) Initial Positive Example { } { } MIL { } MIL Clf = MIL Clf = Clf=Classifier Ftr=Feature OAB=Online AdaBoost 考虑一个简单的情景,其中分类器被允许只从池中选取一个特征。第一帧被标记,一个正的块和几个负的块(没有显示出来)被抽取出,并且分类器被初始化。OAB和MIL的都产生了同一种分类器——都选择特征#1,因为它们都对脸部上的嘴有好的响应(特征#3也表现得很好,但是假设#1要稍稍更好)。 当更新时,分类器尝试挑选最能判别当前实例和先前看到的实例的特征。在这点上OAB有困难,因为当前的和先前的正实例很不同。它选择了一个不好的特征。MIL能够选择可以判别眼镜的特征,因为在正包中的一个实例被正确地剪辑了(尽管嘴部被遮挡了)。因此MIL能够成功地对后续帧分类。注意如果我们为在MIL包中的图像块安排了一个正标记并且使用这些标记来训练OAB,它将会在寻去一个好的特征上造成困难。 在第二帧中有一些遮挡。特别地,嘴被遮挡了,在先前步中被训练的分类器表现得不好。因此,最有可能的图像块不再是物体中央的那部分。OAB只是使用了这个块来更新;MIL同时使用了这个块和它的邻域。注意MIL包括在正包中的“正确”的图像块。 2014/8/27 45
总结 提出了在线MIL Boost算法 运用MIL来训练外观模型,促成了性能良好的跟踪: 鲁棒 更少的参数调整 易于实现 实时性好 未来工作 扩展运动模型(如粒子滤波器) 基于部件[1],对付严重遮挡 2014/8/27 46
谢谢! 2014/8/27 47