1.13k likes | 1.4k Views
社會統計. 第十一講 簡單迴歸分析. ANOVA 的缺點. ANOVA 可以幫助我們探討因子( IV )對依變數( DV )是否有影響 但僅能分析是否有影響,不能分析影響的程度。 IV 必須是間斷變數。 需要其他的統計方法。 趨於平庸 regression toward mediocrity. 資料散佈圖 scatter diagram. 打開 Chinalife.dta 。 討論中國各省市的平均餘命( 2000 年)和其他地區變數( 2004 )的關係。 試畫出各省市每萬人病床數和平均餘命關係的 scatter diagram 。.
E N D
社會統計 第十一講 簡單迴歸分析 社會統計
ANOVA的缺點 • ANOVA可以幫助我們探討因子(IV)對依變數(DV)是否有影響 • 但僅能分析是否有影響,不能分析影響的程度。 • IV必須是間斷變數。 • 需要其他的統計方法。 • 趨於平庸regression toward mediocrity 社會統計
資料散佈圖scatter diagram • 打開Chinalife.dta。 • 討論中國各省市的平均餘命(2000年)和其他地區變數(2004)的關係。 • 試畫出各省市每萬人病床數和平均餘命關係的scatter diagram。 社會統計
PRC各省平均餘命與萬人病床數 ? 社會統計
眼球法與隨手畫迴歸線 • 每個人畫出來的迴歸線都有所不同。 • 我們想知道每萬人病床位每增加一床,對該地區的平均餘命有何影響? • 什麼統計方法可以幫助我們回答? 社會統計
Stata畫迴歸線 社會統計
Stochastic Relationships and Scatter Diagrams • Scatter Plot可以顯示兩連續變數x, y之間的關聯形式與強度: 依變項y 自變項x 社會統計
Stochastic Relationships and Scatter Diagrams 直線上任兩點P1P2,從P1移至P2,x軸座標移動 △x = x2 - x1 y軸座標移動 △y = y2 - y1 依變項y 自變項x 社會統計
Stochastic Relationships and Scatter Diagrams 直線上任兩點P1P2,此線的斜率定義為: 依變項y 自變項x 社會統計
Stochastic Relationships and Scatter Diagrams • 如果x與y的關聯分佈圖呈現一近似直線的關係,則我們假設兩者具有以下的線性關係: Slop斜率 X變動ㄧ單位所造成Y相對應的變動 Intercept截距 當X=0時,Y所相對應的值 社會統計
Deterministic Relationship and Stochastic Relationships • 我們的任務在於估計能夠正確描述X與Y關係的截距0與斜率1。 • 迴歸分析的目的有四: • 將x與y的關係以一種量化的方式來表達Quantify a theory。 • 檢驗有關於X與Y之間關係的理論Test a theory。 • 測量X與Y之間的關係強度Measuring the strength of relationships。 • 在已知X值得條件下對Y作預測Forecasting。 社會統計
Deterministic Relationship and Stochastic Relationships 在Y=f(X)的函數關係中,若每一個x值僅對應於單一的y值,則X, Y之間的關係為完全決定的函數關係,稱為確定模型(deterministic) Deterministic Relationships 電腦每台$12500元,X為電腦台數,Y為總收益 社會統計
Deterministic Relationship and Stochastic Relationships 華氏與攝氏的關係為確定模型(deterministic) 所有的資料點都剛好落在線上 社會統計
Deterministic Relationship and Stochastic Relationships Stochastic Relationships: 若X=xi時,Y值不確定,而是依循某一機率分配,則X, Y之的函數關係稱為 機率模型(stochastic)。 令X為每萬人病床數,Y為平均餘命。對於某個特定的值X = xi而言,我們無法準確地預測出對應於Y的單一值,因為除了病床數外,還有很多其他因素會影響一地的平均餘命。但是知道中國一個省市的每萬人病床數有助於我們預測該省市的平均餘命,第i個省市的平均餘命可以用下列機率模型表達: 社會統計
Deterministic Relationship and Stochastic Relationships 其中ei為一個隨機變數,使平均餘命高於或低於(66.37+0.18xi)。 也就是說,對於某個特定的xi值而言,其相對應的可能Y值具有某種機率分配。 ei代表除每萬人病床數外,所有其他因素(比如說環境污染、收入等)對平均餘命造成的影響。 社會統計
Deterministic Relationship and Stochastic Relationships • ei的來源: • 行為的隨機性(human indeterminacy) • 測量的誤差(measurement error) • 其他無法觀察到影響Y的因素(omissin of the influence of innumerable chance events) 社會統計
每一個特定的x值所相對應的y值不會剛好落於斜線上每一個特定的x值所相對應的y值不會剛好落於斜線上 社會統計
每一個特定的x值所相對應的y值不會剛好落於斜線上每一個特定的x值所相對應的y值不會剛好落於斜線上 社會統計
我們假設在任何一X值下,Y有相同的分配,且其期望值E(Y|X)剛好落在一直線上。我們假設在任何一X值下,Y有相同的分配,且其期望值E(Y|X)剛好落在一直線上。 ei為隨機變數且具有一定的機率或抽樣分配 社會統計
Population regression line 我們假設在母體中,對於每一個xi值而言,其相對應的yi值遵循某種機率分配,且期望值為 F(Y|X) Y 我們假設這些分配有相同的變異數σ2 與x相對應的一組y,其平均值剛好落在一條直線上 X 社會統計
F(Y|X) Y E(y1) E(y2) E(y3) x1 x2 x3 社會統計
Random Error Term 隨機誤差項ei為隨機變數Yi與X= xi時Yi的期望值之間的差距。 F(Y) Y X 社會統計
ei反映除了家庭收入外,影響育樂支出的其他因素如小孩人數、家庭成員年齡等。ei反映除了家庭收入外,影響育樂支出的其他因素如小孩人數、家庭成員年齡等。 ei 每一個家庭的育樂支出可以拆解成兩部分: (1) 系統部份~在某一收入水準下平均的育樂支出(β0 +β1xi) (2) ei~與系統部份偏離的程度 社會統計
ei 假設E(ei) = 0 社會統計
Population regression line 由於母體參數β0,β1為未知數,因此母體迴歸線必須透過觀察到的樣本(xi, yi)來推估 F(Y) 從樣本中可以推估出β0,β1的估計值,也可以建構出樣本迴歸線 Y 由於觀察到樣本點(xi, yi)不會剛好落在母體迴歸線上,因此yi與E(Yi|X=xi)會有所差距。 X 社會統計
Sample Regression Line 給定n個觀察到的樣本(xi, yi), i=1, 2, 3,…n 我們可以估計出樣本迴歸線 殘差值愈小表示迴歸線與每一觀察點愈接近迴歸線 社會統計
簡單迴歸模型的基本假設 • 依變項Yi與自變項之間的關係為: • 我們對於上面的迴歸模型有以下的假設(限制): • (1) Normality : ei為常態分配 (或依變數為一常態分配)ei~N or Yi~N • (2) Zero mean: 對於每個xi,E(ei)=0 殘差項的平均數為零 社會統計
簡單迴歸模型的基本假設 (3) Homoscedasticity: Var(ei) = σ2變異數齊一性 每組的殘差項的變異數均相等。而每一組的變異數實際上是指X=xi條件下的Y之變異數因此σ2也可以表為σ2Y|X 綜合以上:ei~N(0, σ2)Yi~N(B0+B1Xi, σ2) (4) No serial correlation: ei彼此不相關 Cov(ei, ej)=0 (5) Independence of eiand xi: 殘差值與xi不相關Cov(ei, X)=0 or E(ei, X)=0 (6) X為一固定變數或事前決定之變數,Y為一隨機變數 社會統計
簡單迴歸模型的基本假設 社會統計
Method of Least Squares 由於母體參數β0,β1為未知數,因此母體迴歸線必須透過觀察到的樣本(xi, yi)來推估 尋求迴歸係數的估計式有許多種方法,最常用的為 普通最小平方法(ordinary least squares method, OLS)及最大概似法(Maximum likelihood method) 社會統計
如何求取迴歸線? e e e e 社會統計
Sum Squares of Error, SSE • 由於殘差值有正有負,無法正確測量出兩者的距離,因此將殘差值加以平方。 • 我們的目標是要找出一條線,使每一個觀察值與預測值的距離的平方和最小: 社會統計
Sum Squares of Error, SSE 當b0=? b1 =? 時SSE會是最小值? 社會統計
Method of Least Squares 找出最適合樣本資料的一條直線,使預測值與觀察值的差異最小。 社會統計
Stochastic Relationships and Scatter Diagrams 觀念 直線上任兩點P1P2,從P1移至P2,x軸座標移動 △x = x2 - x1 y軸座標移動 △y = y2 - y1 依 變項y 自變項x 社會統計
Stochastic Relationships and Scatter Diagrams 觀念 直線上任兩點P1P2,此線的斜率定義為: 依 變項y 自變項x 社會統計
Stochastic Relationships and Scatter Diagrams 觀念 在直線上任意點(P1或P2)的斜率皆相同,變遷速率為常數 依 變項y 自變項x 社會統計
Sum Squares of Error 當b0=? b1 =? 時SSE會是最小值? 社會統計
社會統計 第11.1講 微分觀念簡介與迴歸係數計算 社會統計
微分(derivative)簡介 曲線上的斜率為何? 曲線圖形上的各點是否有相同的斜率? (-1, 1) (1, 1) 社會統計
微分(derivative)簡介 簡單的說,微分就是找出變遷的速率( a rate of change) 在(-1, 1)點上,x值增加,y值下降 在(1, 1)點,x值增加,Y值也增加 (-1, 1) (1, 1) 社會統計
微分(derivative)簡介 Tangent line切線 曲線在任一點的斜率為與該點相切的切線之斜率 (1, 1) (-1, 1) 社會統計
微分(derivative)簡介 Tangent line切線 任一點上的斜率為何? 利用:給定任意兩點,可以求直線的斜率。 (1, 1) (-1, 1) 社會統計
微分(derivative)簡介 Secant line割線 社會統計
微分(derivative)簡介 Secant line割線 社會統計
微分(derivative)簡介 Secant line割線 社會統計
微分(derivative)簡介 Tangent line 切線 社會統計
Slope of the Tangent Line Tangent line 切線 社會統計