1 / 45

本节课内容

本节课内容. MLE 的性质 MLE 很流行是因为 MLE 有一些很好的性质. MLE 的性质. MLE 的一些性质( 为参数的真值) 一致性: 同变 性:若 是 的 MLE ,则 是 的 MLE 渐近正态: 渐近有效 / 最优:在所有的无偏估计中, MLE 的方差最小 近似于贝叶斯估计(在贝叶斯推理部分讲述) 这些只在满足 正则条件 下成立,正则条件度量 的平滑性。. MLE 的一致性.

wilma
Download Presentation

本节课内容

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 本节课内容 • MLE的性质 • MLE很流行是因为MLE有一些很好的性质

  2. MLE的性质 • MLE的一些性质( 为参数的真值) • 一致性: • 同变性:若 是 的MLE,则 是 的MLE • 渐近正态: • 渐近有效/最优:在所有的无偏估计中,MLE的方差最小 • 近似于贝叶斯估计(在贝叶斯推理部分讲述) • 这些只在满足正则条件下成立,正则条件度量 的平滑性。

  3. MLE的一致性 • 一致性: 依概率收敛于真值 ,即 • 为了证明这一性质,引入KL散度/KL距离

  4. 相对熵:KL散度 • 若f和g为两个pdf,它们之间的KL散度/距离(Kullback-Leibler Divergence)定义为 • KL散度的性质 • 通常情况下 • 我们用 来表示

  5. 可识别性(Identifiability) • 如果 意味着 ,我们说模型 是可识别的 • 这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。 • 连续型分布通常是可识别的,而离散型分布有时是不可识别的。

  6. MLE = Minimizing KL Divergence 令 表示 的真值。极大化 等价于极大化: 相对 是一个常数。

  7. MLE的一致性 • 根据大数定律, 收敛于 • ,在 时取极大值 • 因为 ,且当 时, • 因此 ,在 时取极大值 • 根据MLE的定义,当 时, 取极大值 • 所以可以猜测MLE是一致估计:

  8. MLE的一致性 • 9.13 定理:令 表示的真实值,定义 • 且 • 假设 • 并且对任意 • 令 表示极大似然估计,则

  9. MLE的同变性 • 等价性:令 是 的一个一一映射函数。令 是 的MLE,则 是 的MLE。 • 证明:令 表示函数g的反函数,则 • 对 ,有 • 其中 。 • 则 ,有

  10. MLE的等价性 • 例9.15:令 , • 则 的MLE为 • 令 ,则 的MLE为 随机变量变换的MLE的点估计

  11. MLE的渐近正态性 • 渐近正态性: • 可以给出渐进方差 • 为了证明这一性质,引入记分函数和Fisher信息 • 当记分函数和Fisher信息的形式比较简单时,可解析求解 • 若解析计算困难,可用参数bootstrap方法计算

  12. Fisher信息 • 记分函数(score function)定义为 • 用来估计θ • Fisher信息定义为 • 告诉记分数里包含了θ 的多少信息 Sir Ronald Aylmer Fisher (1890-1962)

  13. 记分函数 vs. 似然函数 • 再定义一个总记分函数:记分函数在样本上的和 • 似然函数为 • 所以 • 即总记分函数为似然函数的一阶导数,表示似然函数的变化率 • 对MLE,

  14. 记分函数的性质 • 记分函数的期望为0: • 证明:

  15. 记分函数的性质 • (1) 经验总记分函数为0: • (2) 总记分函数的期望为0: • 当与 和 匹配时,对 求期望才为0 • 所以当总记分函数为0是的 会产生的一个一致估计

  16. Fisher信息 • 用于计算某个估计量的方差 • 告诉了记分函数包含了的多少信息 • Fisher信息:记分函数的方差 • 其中 为当n= 1时的Fisher信息 容易计算

  17. Fisher信息 • 所以要证明 • 转换为证明

  18. Fisher信息 • 二阶导数 度量了 的曲率 • 即当变化时,似然函数的平滑程度 • 曲率越大,信息越多 • 信息越多,曲率越大(越不平滑/陡峭),MLE越确定,估计的方差越小

  19. 渐近正态性 • 令 ,在满足合适的正则条件下, • 换句话说, • 用标准方差的估计值 代替se,该结论仍然成立,即 • 因此对任意极大似然估计量,我们可以近似其置信区间。

  20. 渐近正态置信区间 • 令 • 则当 时, • 即 为 置信区间。 • 例: ,所以95%置信区间为

  21. 多维参数模型 • 令 ,MLE为 • 则 • 定义Fisher信息矩阵为 • 为 的逆矩阵。

  22. 多维参数模型 • 在合适的正则条件下, • 同时,若 为 的第j个成分,则 • 其中 为矩阵 的第j个对角线上的元素 • 和 的协方差近似为

  23. 例:Bernoulli分布 • 例9.20:令 • 1、

  24. 例:Bernoulli分布(续) • 例9.20(续) • 2、 • 3、95%置信区间为

  25. 例:正态分布 • 例9.21:令 • 1、

  26. 例:正态分布(续) • 例9.21(续) • 2、

  27. 例:正态分布(续) • 例9.21(续) • 2、

  28. 例:正态分布(续) • 例9.21(续) • 2、

  29. MLE的最优性 • 在所有的无偏估计中,MLE的方差最小 • 渐近相对有效性

  30. 中值: 相对有效性 假设 ,则MLE为 。 θ的另一个合理的估计是样本的中值 。 MLE 满足 中值估计满足 • 二者都收敛于正确值,但中值的方差更大。

  31. 相对有效性 • 一般的,假设有两个估计 和 , • 且 • U对T的渐近相对有效性(asymptotic relative efficiency)定义为 。 • 在上述正态分布例子中, ,意味着中值估计只有效利用了63%的数据。 • 但中值估计比均值估计更鲁棒 • 鱼和熊掌不可兼得

  32. MLE的最优性 • 如果 为MLE,且为另一个估计,则 • 因此MLE的(渐近)方差最小,我们称之为MLE是有效的或是渐近最优的。 • 注意:所有的结果都是在基于模型是正确的基础之上预测的。 • 如果模型不正确,MLE不一定是最优的

  33. Delta方法 • 令 ,其中g为一个平滑函数, • 根据MLE的同变性, 的MLE为 • Delta方法的问题: 的分布?

  34. Delta方法 • 若 ,其中g为可微函数,且 • 则 • 其中 • 所以若 • 则当 时,

  35. Delta方法 • 例9.25:设 • Fisher信息函数是 • MLE 的标准差是 • 的MLE是 • 由于 ,根据delta方法 • 所以,95%置信区间是

  36. 多维参数模型的Delta方法 • 令 ,g的导数为 • 假设 ,令 ,则 • 其中 , ,

  37. 例:多维参数模型的Delta方法 • 9.29例:令 • 则MLE为

  38. 其他一些与MLE相关的主题 • MLE vs. 贝叶斯(贝叶斯推断) • MLE与最小二乘法(回归) • MLE假设统计模型为参数模型,模型假设的正确性检验 • 非形式化的,可画出数据的分布图(如直方图) • 如有多个峰,则假设正态分布就有问题 • 形式化:假设检验 • 拟合优度检验 (goodness-of fit test)

  39. 下节课内容 • MLE的迭代计算 • 牛顿法 • EM算法 • 作业 • Chp9:第2、3、4、7、9题

More Related