1 / 42

実験実習 文献紹介 Ⅱ

実験実習 文献紹介 Ⅱ. 行動計量学研究分野 B4  山本倫生. 紹介する文献. The Elements of Statistical Learning Chap.3 Linear Methods for Regression 最小2乗法を用いた回帰や、その変数選択などのお話 サクサクっと行きましょう. 目次. Introduction Linear Regression Models and Least Squares Multiple Regression from Simple Univariate Regression

snow
Download Presentation

実験実習 文献紹介 Ⅱ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 実験実習文献紹介Ⅱ 行動計量学研究分野 B4 山本倫生

  2. 紹介する文献 • The Elements of Statistical Learning • Chap.3 Linear Methods for Regression • 最小2乗法を用いた回帰や、その変数選択などのお話 • サクサクっと行きましょう

  3. 目次 • Introduction • Linear Regression Models and Least Squares • Multiple Regression from Simple Univariate Regression • Subset Selection and Coefficient Shrinkage

  4. 1.Introduction • 線形回帰モデルとは     が線形であることを仮定するものである • 形は単純で、入力が結果にどのような影響を与えるのかを教えてくれる • 時には、複雑な非線形モデルを凌ぐ • 線形モデルを理解することで、非線形モデルの本質を知ることができる • 非線形モデルは線形モデルの一般化

  5. βjは未知のパラメータ 2.Linear Regression Models and Least Squares • 入力            を得たときに出力Yを予測する • 線形回帰モデルは以下の形をとる • Xjのとる値 • 量的変数、基底変換したもの、ダミー変数etc.

  6. RSS: residual sum of squares 最小2乗法 • 最も有名な推定方法 • 以下の値を最小にするパラメータβを選択する

  7. 最小2乗法 • 観測値(xi,yi)が母集団からの独立でランダムなサンプルであれば、力を持つ • だけど、xiがランダムでなくても、yiがxiを与えた下での条件付独立であれば良い • 幾何的な解釈はFigure3.1参照 • 回帰式に特別な仮定を置かずに、ただデータへの当てはまりを考える

  8. 最小2乗法の解法 RSSを以下のように表す βについて偏微分して0とおく これより、ユニークな解を得る

  9. ハット行列H 最小2乗法について • 予測値 は以下のように書ける •  はベクトルxjが張る空間へのyの正射影であると言える • Figure3.2参照 • xiを要素にもつ行列Xがランク落ちしている場合でも、 はyの射影であり、有用である • βは一意に定まらないけれど

  10. 最小2乗法について • 次に、  の性質を知るために、yiは互いに無相関で分散  を持ち、xiはランダムではないとする • すると、  の共分散行列は以下のようになる ここで、  は以下のように推定する 不偏分散

  11. 従って 仮説検定や信頼区間の推定に用いる 最小2乗法について • 次に、誤差が正規分布する、と仮定する つまり において、 と仮定する

  12. 帰無仮説は βj=0 パラメータの効果の検定 • βjを標準化したもの(Zスコア)  がtN-p-1に従うことを利用する •   が既知であれば、標準正規分布に従う • サンプル数が多ければt分布と標準正規分布の裾の部分の差異は無視できる viは      の対角要素 Figure3.3参照

  13. RSS1:p1+1個のパラメータを持った大きいモデルRSS1:p1+1個のパラメータを持った大きいモデル RSS0:p0+1個のパラメータを持った小さいモデル カテゴリカルデータの場合 • k水準を持つカテゴリカル変数がモデルから除かれるかどうかの検定 • 以下のF統計量を用いる • 小さいモデルが正しいという帰無仮説の下で、Fp1-p0,N-p1-1に従うことを利用する

  14. ここで、平均2乗誤差(MSE)を考えると、ガウス=マルコフ定理は、「最小2乗推定量は全ての不偏な線形推定量の中で、最小のMSEを持つ推定量である」ということを示しているここで、平均2乗誤差(MSE)を考えると、ガウス=マルコフ定理は、「最小2乗推定量は全ての不偏な線形推定量の中で、最小のMSEを持つ推定量である」ということを示している The Gauss-Markov Theorem 最小2乗推定量 • ガウス=マルコフ定理によると、        となるあらゆる線形推定量     に対して、以下のことが成り立つ

  15. しかし • バイアスを持った推定量が、より小さなMSEを持つかもしれない • 後述するsubset selectionやshrinkage method • また、期待予測誤差とMSEの関係は以下のように表せる x0は新たな入力

  16. 3.Multiple Regression from simple Univariate Regression • p>1の線形モデルを多変量線形回帰モデルと呼ぶ • まずは、切片を持たない1変量モデルを考える この時、最小2乗推定量と残差は以下のようになる

  17. ベクトル表記で • 内積を次のように定義する  すると、最小2乗推定量と残差は以下のように表せる

  18. 次に直交化する方法を述べる 多変量への拡張 • データ行列Xの列ベクトルx1,x2,…,xpが直交する時、それぞれの推定量  は単変量時の推定量になる • 直交する入力は統制された実験などでは得られるが、調査データでは稀である • データを直交化する必要がある

  19.   はxiの平均で、 は要素が全て1のNベクトルである  はxiの平均で、 は要素が全て1のNベクトルである ここでは、以下の段階を経ている 1.残差             を得るためにxの  への回帰を考える 2.係数   を得るためにyのzへの回帰を考える 1変量での直交化 • 切片と単変量xを持つモデルを考える • xの最小2乗推定量は以下のようになる Figure3.4参照

  20. 多変量への拡張 1.z0=x0=  とする 2.p変量の入力xjの、zkへの回帰を考え、残差ベクトルzjを考える 3.推定値  を得るためにyの残差zpへの回帰を考える (k=0,…,j-1) グラム‐シュミットの直交化

  21. xjのzkに対する回帰式の回帰係数を要素に持つ上三角行列xjのzkに対する回帰式の回帰係数を要素に持つ上三角行列 行列で表すと グラム‐シュミットの直交化のstep2は以下のように書ける jj番目の要素にzjのノルムを持つ対角行列D考える QはN×(p+1)の直交行列で、Rは(p+1)×(p+1)の上三角行列 これより、パラメータと目的変数の推定値は以下のように簡単に表せる

  22. 4.Subset Selection and Coefficient Shrinkage • 最小2乗法では満足できない二つの理由 • 予測の正確さ • 最小2乗推定量は、時に、分散が大きくなる • いくつかの係数を縮小させたり0とすることで改善できる • その解釈 • 予測変数の数が多いとき、強い影響を持つ変数だけを見たい

  23. Subset Selection • Best subset selection • 最も小さいRSSを与える変数の数を決める • leaps and bounds procedureを用いる • Forward stepwise selection • 切片から始めて、適合を最も良くする予測変数を加えていく • 以下の統計量に基づいて、終了する 30or40変数くらいのpに対して有効 Figure3.5参照   :K個の変数を持つ現在のモデルの母数   :変数を一つ加えたモデルの母数

  24. Subset Selection • Backward stepwise selection • フルモデルから始まって、予測変数を消していく • F値が小さいものから消去していき、どの変数を落としても棄却されてしまうなら終了する • N>pの時だけ用いることができる • Stepwise selection • forwardとbackward両方を考える

  25. Example:Prostate Cancer • 変数の意味 • lcavol:癌の量の対数 • lweight:前立腺の重さの対数 • age:年齢 • lbph:良性前立腺の過形成の量の対数 • svi:精嚢への侵入 • lcp:カプセルの侵食度の対数 • gleason:グリーソンスコア • pgg45:グリーソンスコア4or5の割合

  26. 10群CVに基づく予測誤差の推定 • Table3.3にある手法は、それぞれ複雑度パラメータを持っている • 10群クロスバリデーション(CV)に基づいて、期待予測誤差を最小にするように選択する • 10群CV • 訓練データを10群にわけて、その内、1つの群を除いてモデルを作り、除かれた群を用いて予測誤差を調べる、という作業を除く群を次々に代えて、10回行う Figure3.6に期待予測誤差の曲線が描かれている

  27. Shrinkage methodsであれば連続的なので、回避できる Shrinkage Methods • Subset Selectionはある予測変数を保持し、残りを捨てることによって低い予測誤差を達成する • しかし、それは離散的な操作だから、時に高い分散を伴う

  28.     はどれだけ縮小させるかを決める Ridge Regression • 以下のペナルティ付きRSSを最小にする これは、以下のようにも書ける Figure3.7参照

  29. Ridge Regression • 制約条件により多重共線性を回避 • Ridge回帰の解は予測変数の尺度に依存するので、解く前に標準化しておく • ペナルティ項では切片が含まれていないことに注意 • Penalization of the intercept would make the procedure depend on the origin chosen for Y;that is, adding a constant c to each of the targets yi would not simply result in a shift of the predictions by the same amount c.

  30. Ridge回帰の解法 予測変数は中心化されているとする • RSSは以下のように書ける  すると、解は次のようになる 特異値問題を引き起こす Figure3.7に推定値をプロットしたものが描かれている

  31. UとVはそれぞれN×p、p×pの直交行列 DはXの特異値                 を対角要素に持つp×pの対角行列 特異値分解による知見 • N×p行列Xは以下のように分解される • 最小2乗基準を当てはめたものは以下のように書ける 直交基底Uに対するyの座標

  32. 小さな  を持つ基底ベクトルに対して大きな縮小が適用される小さな  を持つ基底ベクトルに対して大きな縮小が適用される 特異値分解による知見 • Ridge回帰の当てはめは以下のように書ける 直交基底Uに対するyの座標

  33. 実際                である実際                である 特異値分解による知見 • 特異値分解は変数の主成分の別表現であると言える •     の固有値分解は以下のように書ける 固有ベクトルvjはXの主成分の方向とも呼ばれている vjに関する性質 第一主成分         はXの列ベクトルの線形結合の中で、最も大きな標本分散を持つ

  34. Lasso • 以下の値を最小にする ここで、           であり、十分に小さなtをとることで、係数はほとんどゼロに近くなる Figure3.9参照

  35. Methods Using Derived Input Directions • 多くの場合、たくさんの説明変数があり、しばしば変数間の相関が高いときがある • ここでは、説明変数Xjの少数の線形結合Zm,m=1,…,M、でモデルを作る方法を紹介する

  36. Principal Components Regression • 以下のような形をとる • 先ほど述べたような性質を持っている • 係数は以下のように表せる • Ridge回帰との関係はFigure3.10参照

  37. Partial Least Squares • xjを平均0、分散1を持つように標準化し、         、              とおく • m=1,2,…,pにおいて順に • 得られたベクトル   を出力 

  38. はxjの標本共分散行列 PLSとPCR • 主成分回帰と違って、PLSは高い分散と高い相関をyに持つものを探す • つまり、m番目の主成分ベクトルvmは以下の式を満たすが m番目のPLSベクトル  は以下の式を満たす

  39. Discussion: A Comparison of the Selection and Shrinkage Methods • 各手法の係数縮小の変遷について • Figure3.11参照 • まとめ • PLS、PCR、Ridge回帰は同じような挙動を見せ、離散的な方法と比べてRidge回帰が好ましい

  40. qを変化させることにより制約を変化させる =事前分布が変化する Ridge回帰とLassoとBest subset selection • Xが正規直交系であれば、Table3.4のように、最小2乗推定量を用いて表すことができる • 正規直交系でないとき、LassoとRidge回帰の関係がFigure3.12に示されている • LassoとRidge回帰はベイズ推定の観点から、以下のように一般化される

  41. Multiple Outcome Shrinkage and Selection • 割愛

  42. 感想など • 現在やってること • Wahbaさんの本 • SVMのtutorial(50ページくらいのやつ) • 項目反応理論(inψなれ) • 細々したこと色々 • 次回予告 • 多分今日の続きのChap.4をやるかと • 線形判別分析について

More Related