1 / 166

统计分析进阶

郑伟诗 Wei-Shi Jason Zheng wszheng@ieee.org. 统计分析进阶. 12/1/2014 , Page 1. Wei-Shi Zheng wszheng@ieee.org. 简单的自我介绍. 2011年加入中山大学,百人计划,副教授 广东省引进创新科研团队计算科学科研团队核心成员 广东省自然科学杰出青年基金获得者 研究方向:机器视觉与智能学习 计算机视觉与模式识别: 人脸和行人识别 动作识别 人群社交活动分析 机器学习(统计学习)方法:高性能机器学习 大规模的图像搜索和分类 面向大规模数据的特征提取 迁移学习.

Download Presentation

统计分析进阶

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 郑伟诗 Wei-Shi Jason Zheng wszheng@ieee.org 统计分析进阶 12/1/2014, Page 1 Wei-Shi Zheng wszheng@ieee.org

  2. 简单的自我介绍 2011年加入中山大学,百人计划,副教授 广东省引进创新科研团队计算科学科研团队核心成员 广东省自然科学杰出青年基金获得者 研究方向:机器视觉与智能学习 计算机视觉与模式识别: 人脸和行人识别 动作识别 人群社交活动分析 机器学习(统计学习)方法:高性能机器学习 大规模的图像搜索和分类 面向大规模数据的特征提取 迁移学习

  3. 高性能机器学习算法? Search your favour image

  4. 高性能机器学习算法? Search your favour image Relation between two images (far/near)? Similarity between two images? How to learn a metric if you are given billions of images?

  5. 围绕人的计算机视觉研究 Face Recognition in the Wild Google / Facebook

  6. 围绕人的计算机视觉研究 Activity Head Left-arm Right-arm Torso Right-leg Left-leg

  7. 围绕人的计算机视觉研究 Group Activity

  8. 围绕人的计算机视觉研究 Culture

  9. 回到主课---数学实践课 教学理念 是一门承上启下的课 一二年级:基本的数学,如线性代数,高等代数,概率统计与分析 三四年级:专业课 尽量不讲一般的例子,但会比较理论 适当拓展一二年级的知识范围 重点 非面面俱到 侧用应用:简介,自学深入的数学知识 非真正的数学建模课 选取适合二年级学生的知识点做重点介绍 更多结合当前计算机科学的研究及应用(部分结合经济) 小学期教学不强调掌握具体算法的理论部分,但要会用(计算机应用研究更要学会怎么用) 数计学院:数学建模 12/1/2014, Page 9 Wei-Shi Zheng wszheng@ieee.org

  10. 统计分析进阶 课程安排 隐马尔可夫模型 多元统计分析:简介 多元主成分分析 SVD分解(奇异值矩阵分解算法) 案例分析 作业:提交打印版 作业截止时间:9月21日 PPT下载地址: http://www.eecs.qmul.ac.uk/~jason/sysu/course/maths_model 12/1/2014, Page 10 Wei-Shi Zheng wszheng@ieee.org

  11. 一个例子 Object Tracking from Oxford University CVPR 2011, by Ben Benfold and Ian Reid 12/1/2014, Page 11 Wei-Shi Zheng wszheng@ieee.org

  12. 一个例子 Object Tracking from Oxford University CVPR 2011, by Ben Benfold and Ian Reid 从例子中,我们至少发现: 时间序列的建模 二维及更高维特征的建模 12/1/2014, Page 12 Wei-Shi Zheng wszheng@ieee.org

  13. 一个例子 人脸超分辨率分析 12/1/2014, Page 13 Wei-Shi Zheng wszheng@ieee.org

  14. I 隐马尔可夫模型 隐马尔可夫模型(HMM)的由来 马尔可夫性和马尔可夫链 HMM实例 HMM的三个基本算法 12/1/2014, Page 14 Wei-Shi Zheng wszheng@ieee.org

  15. HMM的由来 • 1870年,俄国有机化学家Vladimir V. Markovnikov第一次提出马尔科夫模型 • 马尔可夫模型 • 马尔可夫链 • 隐马尔可夫模型 12/1/2014, Page 15 Wei-Shi Zheng wszheng@ieee.org

  16. 马尔可夫性 如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程 X(t+1) = f( X(t) ) 隐马尔可夫:只观察到Oi, Oi由隐含变量Xi的状态值决定,且(Oi,Xi)独立。 ………… X1 X2 XT ………… O1 O2 OT 12/1/2014, Page 16 Wei-Shi Zheng wszheng@ieee.org

  17. 马尔科夫链 时间和状态都离散的马尔科夫过程称为马尔科夫链 记作{Xn = X(n), n = 0,1,2,…} 在时间集T1 = {0,1,2,…}上对离散状态的过程相继观察的结果 链的状态空间记做I = {a1, a2,…}, ai∈R. 条件概率Pij (m ,m+n)=P{Xm+n = aj|Xm = ai} 为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。 12/1/2014, Page 17 Wei-Shi Zheng wszheng@ieee.org

  18. 转移概率矩阵 晴天 阴天 下雨 晴天 阴天 下雨 晴天 0.50 0.25 0.25 阴天 0.375 0.25 0.375 下雨 0.25 0.125 0.625 12/1/2014, Page 18 Wei-Shi Zheng wszheng@ieee.org

  19. 转移概率矩阵(续) 由于链在时刻m从任何一个状态ai出发,到另一时刻m+n,必然转移到a1,a2…,诸状态中的某一个,所以有 当Pij(m,m+n)与m无关时,称马尔科夫链为齐次马尔科夫链,通常说的马尔科夫链都是指齐次马尔科夫链。 12/1/2014, Page 19 Wei-Shi Zheng wszheng@ieee.org

  20. HMM实例——实例描述 设有N个缸,每个缸中装有很多彩球,球的颜色由一组概率分布描述。实验进行方式如下 根据初始概率分布,随机选择N个缸中的一个开始实验 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为O1,并把球放回缸中 根据描述缸的转移的概率分布,随机选择下一口缸,重复以上步骤。 最后得到一个描述球的颜色的序列O1,O2,…,称为观察值序列O。 Urn 3 Urn 2 Urn 1 Veil 12/1/2014, Page 20 Wei-Shi Zheng wszheng@ieee.org Observed Ball Sequence

  21. HMM实例——约束 在上述实验中,有几个要点需要注意: 不能被直接观察缸间的转移 从缸中所选取的球的颜色和缸并不是 一一对应的 每次选取哪个缸由一组转移概率决定 12/1/2014, Page 21 Wei-Shi Zheng wszheng@ieee.org

  22. HMM概念 HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来 观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系 HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。 12/1/2014, Page 22 Wei-Shi Zheng wszheng@ieee.org

  23. HMM组成 Markov链 (, A) 随机过程 (B) 观察值序列 状态序列 q1, q2, ..., qT o1, o2, ..., oT HMM的组成示意图 12/1/2014, Page 23 Wei-Shi Zheng wszheng@ieee.org

  24. HMM的基本要素 用模型五元组 =( N, M, π , A, B)用来描述HMM,或简写为 =(π ,A,B) 12/1/2014, Page 24 Wei-Shi Zheng wszheng@ieee.org

  25. HMM需解决的问题 问题1:给定观察序列O=O1,O2,…OT,以及模型 , 如何计算P(O|λ)? 问题2:给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S = q1,q2,…qT,使得S能够最为合理的解释观察序列O? 问题3:如何调整模型参数 , 使得P(O|λ)最大? 12/1/2014, Page 25 Wei-Shi Zheng wszheng@ieee.org

  26. 解决问题1 的基础方法 给定一个固定的状态序列S=(q1,q2,q3…) 表示在qt 状态下观测到Ot 的概率 计算量相当大 Wei-Shi Zheng wszheng@ieee.org 12/1/2014, Page 26

  27. 解决问题1: 前向法 定义前向变量 初始化: 递归: 终结: 12/1/2014, Page 27 Wei-Shi Zheng wszheng@ieee.org

  28. 前向法示意图 qN . qi . qj . . q1 atN aNj ati aij a1j at1 1 ... t t+1 ... N=5, M=100, => 计算量3000 12/1/2014, Page 28 Wei-Shi Zheng wszheng@ieee.org

  29. 解决问题1 后向法 与前向法类似 定义后向变量 初始化: 递归: 终结: 12/1/2014, Page 29 Wei-Shi Zheng wszheng@ieee.org

  30. 解决问题2: Viterbi算法 目的:给定观察序列O以及模型λ,如何选择一个对应的状态序列S ,使得S能够最为合理的解释观察序列O? N和T分别为状态个数和序列长度 定义: 我们所要找的,就是T时刻最大的 所代表的那个状态序列 12/1/2014, Page 30 Wei-Shi Zheng wszheng@ieee.org

  31. 解决问题2: Viterbi算法 初始化: 递归: 终结: 求S序列: 12/1/2014, Page 31 Wei-Shi Zheng wszheng@ieee.org

  32. 解决问题3: Baum-Welch算法(模型训练算法) 目的:给定观察值序列O,通过计算确定一个模型l , 使得P(O| l)最大。 算法步骤: 1. 初始模型(待训练模型) l0, 2. 基于l0以及观察值序列O,训练新模型l; 3. 如果 log P(O|l) - log(P(O|l0) < Delta,说明训练已经达到预期效果, 算法结束。 4. 否则,令l0 = l ,继续第2步工作 12/1/2014, Page 32 Wei-Shi Zheng wszheng@ieee.org

  33. Baum-Welch算法(续) 定义: 12/1/2014, Page 33 Wei-Shi Zheng wszheng@ieee.org

  34. Baum-Welch算法(续2) 参数估计: 12/1/2014, Page 34 Wei-Shi Zheng wszheng@ieee.org

  35. 案例:基于HMM的语音分析 我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。 根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音自动识别。同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。如果我们要根据输入的汉语词语片段推测出每个片段的语法含义,那就是自动词法标注。 12/1/2014, Page 35 Wei-Shi Zheng wszheng@ieee.org

  36. 基于HMM的语音分析 那么怎么根据接收到的信息来推测说话者真正想表达的意思呢?可以利用叫做“隐含马尔可夫模型” (Hidden Markov Model)来解决问题。 以自动词法标注为例,当我们观测到词语片断 o1,o2,o3 时,我们要根据这组信号推测出发送的词语语法片断 s1,s2,s3。显然,我们应该在所有可能的语法片断中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,...的情况下,求使得条件概率P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个语法片断 s1,s2,s3,... 12/1/2014, Page 36 Wei-Shi Zheng wszheng@ieee.org

  37. 基于HMM的语音分析 当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成:P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)其中P(o1,o2,o3,...|s1,s2,s3....) 表示某个语法片断序列 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的语法片断序列的可能性,所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身是一个语法片断序列的可能性,得出概率。 12/1/2014, Page 37 Wei-Shi Zheng wszheng@ieee.org

  38. 基于HMM的语音分析 我们在这里做两个假设:第一,s1,s2,s3,... 是一个马尔可夫链,也就是说,si 只由 si-1 决定 ;第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。 满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词,是因为状态 s1,s2,s3,...是无法直接观测到的。 12/1/2014, Page 38 Wei-Shi Zheng wszheng@ieee.org

  39. 基于HMM的语音分析 隐含马尔可夫模型的应用远不只在自动词法标注和语音识别中。 在上面的公式中,如果我们把 s1,s2,s3,...当成中文,把 o1,o2,o3,...当成对应的英文,那么我们就能利用这个模型解决机器翻译问题; 如果我们把 o1,o2,o3,...当成扫描文字得到的图像特征,就能利用这个模型解决印刷体和手写体的识别。 12/1/2014, Page 39 Wei-Shi Zheng wszheng@ieee.org

  40. HMM的罐子比喻(L.R.Rabiner,1989) 12/1/2014, Page 40 Wei-Shi Zheng wszheng@ieee.org

  41. 基于HMM的词性标注 问题: 已知单词序列w1w2…wn,求词性序列c1c2…cn HMM模型: 将词性为理解为状态 将单词为理解为输出值 训练: 统计词性转移矩阵[aij]和词性到单词的输出矩阵[bik] 求解 12/1/2014, Page 41 Wei-Shi Zheng wszheng@ieee.org

  42. 基于HMM的词性标注 12/1/2014, Page 42 Wei-Shi Zheng wszheng@ieee.org

  43. 基于HMM的词性标注 12/1/2014, Page 43 Wei-Shi Zheng wszheng@ieee.org

  44. 基于HMM的词性标注 12/1/2014, Page 44 Wei-Shi Zheng wszheng@ieee.org

  45. 基于HMM的词性标注 12/1/2014, Page 45 Wei-Shi Zheng wszheng@ieee.org

  46. 基于HMM的词性标注 12/1/2014, Page 46 Wei-Shi Zheng wszheng@ieee.org

  47. 词性转移矩阵(用于转移概率计算) 12/1/2014, Page 47 Wei-Shi Zheng wszheng@ieee.org

  48. 词语词性频度表(用于输出概率计算) 12/1/2014, Page 48 Wei-Shi Zheng wszheng@ieee.org

  49. 词性频度表 12/1/2014, Page 49 Wei-Shi Zheng wszheng@ieee.org

  50. 算法标注示例 12/1/2014, Page 50 Wei-Shi Zheng wszheng@ieee.org

More Related