190 likes | 308 Views
Play with Your Data. 何正斌 教授 國立屏東科技大學 工管系. Data can Talk!. Show me evidence, not expertise! 敘述統計 說什麼? 機率 -Y 要大於 38 的機率 ( 良品率 ) Y 是隨機變數 ( 一堆性質相同的”亂數” - 用特定變數去描述 ) 使用直方圖去看各數值出現的頻率 ( 機率 ) 用分配去描述其機率 連續 -Y1-N(40,1); Y2-Expon(40); Y3-Uni(37,43) 不連續 -Y4-Binomial(100,0.98)
E N D
Play with Your Data 何正斌教授 國立屏東科技大學 工管系
Data can Talk! • Show me evidence, not expertise! • 敘述統計 • 說什麼? • 機率-Y要大於38的機率(良品率) • Y是隨機變數(一堆性質相同的”亂數”-用特定變數去描述) • 使用直方圖去看各數值出現的頻率(機率) • 用分配去描述其機率 • 連續-Y1-N(40,1); Y2-Expon(40); Y3-Uni(37,43) • 不連續-Y4-Binomial(100,0.98) • 就之前的經驗得知,本公司產品的良率是98%,本批貨共1000件,廠商IQC部門驗貨條件是抽100件產品,0收1退,問此批貨被退貨的機率! • 退貨機率(a)87%,(b)53%,(c)23%,(d)5% • 隨機變數- random variable • 一堆性質相同的”亂數”-用特定變數去描述 • 二項分配- binomial distribution
Data can Talk! • Show me evidence, not expertise! • 推論統計 • =假設檢定 • 說什麼? • 對於我們的懷疑,可以得到一個結論! • 本公司奶粉的充填重量『的確』小於750g • p-value • 本公司所生產奶粉一向品質穩定,價格公道,獲得消費者的肯定!但是最近某經銷商告知有許多消費者懷疑本公司所生產的奶粉充填量不足,真是豈有此理!切!切!切! • H0 Vs H1 • P-value=0.02 • P-value=0.88 • P-value=0.09
P-value 的變化 Normal(751,1) Normal(749,1) Normal(755,1) P-value=0.000 P-value=0.000 P-value=1 Normal(750,1) P-value=0.7~0.3 750 試試看不同的標準差,不同的分配,不同抽樣個數 ?
P-value 變化 模擬1-常態分配 • 當樣本數增加, p-value通常會變小 • 除非平均數=對立假設所要判斷的常數 • 當樣本變異數增大, 所需樣本數也要加大才能顯著 • 除非平均數=對立假設所要判斷的常數
P-value 變化 模擬2-指數分配 • ∵指數分配的變異大 • 平均數的差距要夠大且樣本數夠多,才能獲得顯著的答案(p-value<0.05)
P-value 變化 模擬3-均等分配 • 當樣本數增加, p-value通常會變小 • 除非平均數=對立假設所要判斷的常數 • 擴大均等分配的範圍=增加樣本的變異 • 相同樣本數則p-value通常會變大
動態視力量測與分析 • 動態視力與運動能力可能有關係嗎? • 使用推論統計! • 無vs網球 • 男生比女生好嗎? • 與體位有關嗎? • 與年齡有關嗎? • 與裸視力相關嗎? • 其他變數有相關嗎? • 身高vs體重 • 年齡vs裸視力(-0.237)
Making Like-Real Data • 身為品管工程師,常常要交很多無法交出來的報告,比如說客戶要過去一年所量測產品硬度的測試報告,但是過去這一年根本沒有量產品硬度,那要怎麼辦? • 現在開始量?! • Honesty is the best policy! • 來不及! • 產生很像真的亂數!
Making Like-Real Data • 過去一年應該有300筆資料,客戶要求的規格是要大於320,客戶也知道我們廠內的不良率大約20%,但是100%檢驗後方出廠,因此出廠良率是100%,客戶要求看廠內及出廠的品質報告!客戶是懂統計的人,他應該會用推論統計,而且他要用這些資料估算你的製造成本!
Making Like-Real Data • 廠內報告 • 客戶想推出甚麼結論? • 經過一年的努力,你們良率應該提升了吧! • 提升之後,應該可以降價吧! • 你們產品的平均硬度應該比另一家工廠大吧? • 要用甚麼分配?分配的平均數,分配的標準差要多少? • Normal(320,10) • Wrong!不良率太高=50%咧! • Normal(330,10) • =NORMDIST(320,330,10,1) • 15.86%
Making Like-Real Data • 出廠報告 • 客戶想推出甚麼結論? • 我是要跟你買比較好,還是跟他買咧? • 價格考量 • Case 1-比較貴 • Case 2-比較便宜 • 品質考量 • 你們產品的平均硬度應該比另一家工廠大吧? • 要用甚麼分配?分配的平均數,分配的標準差要多少?
H0 Vs H1 (Two Means) • A機台生產的產品尺寸好像比B機台生產的產品尺寸小? • H0-A機台生產的產品尺寸=B機台生產的產品尺寸 • H0: mA=mB • P-value>0.05 • Failed to reject H0 (無法證實懷疑) • H1-決定蒐集資料去證實 • H1: mA<mB (單邊)或mAmB (雙邊) • Basic Statistics2 variances • P-value>0.05 • A機台生產的產品尺寸的變異= B機台生產的產品尺寸的變異 • Equal Variances • Basic Statistics2 sample t • A機台及B機台各蒐集300件產品,結果請自己產生! • P-value>0.5(???) • P-value=0.08(???) • P-value(單邊Vs雙邊)
H0 Vs H1 (Two Means) • A機台生產的產品尺寸好像比B機台生產的產品尺寸小? • H0-A機台生產的產品尺寸=B機台生產的產品尺寸 • H0: mA=mB • 現況沒變 • P-value>0.05 • Failed to reject H0 (無法證實懷疑) • H1-決定蒐集資料去證實 • 同一原料對切一半,隨機分給A或B生產 • H1: mA<mB (單邊) 或 mAmB (雙邊) • Basic Statisticspaired t • 300件原料分給A機台及B機台生產,結果請自己產生! • P-value>0.5(???) • P-value=0.08(???) • P-value(單邊Vs雙邊)
Paired t test • 日本:硬板N(20,1)中板N(19.8,1)軟板N(19.5,1) 美國:硬板N(19.9,1)中板N(19.7,1)軟板N(19.4,1) • 因子有兩個 • 日本漆還是美國漆 • 板子種類-軟中硬體 • 知道會影響,但不是考慮重點!
H0 Vs H1 (Three Means ) • A、B、C機台生產的產品尺寸好像不一樣? • H0-三種機台生產的產品尺寸相同 • H0: mA=mB=mc • 現況沒變 • P-value>0.05 • Failed to reject H0 (無法證實懷疑-好像不一樣) • H1-決定蒐集資料去證實 • H1: 至少有一機台生產出的產品尺寸跟其他機台生產的尺寸不同 • STAT ANOVA • A機台、B機台及C機台各蒐集300件產品,結果請自己產生! ! • P-value>0.5(???) • P-value=0.08(???) • P-value(單邊Vs雙邊)
H0 Vs H1 (Three Means ) • P-value<0.05 • 到底是誰,生產出不同尺寸的產品? • Tukey’s • Fisher’s • Another Question? • 同一件原料,均等切割3份,分給A,B,C三台機台生產 • 兩個因子 • 原料(Blocking Variable)及機台(A,B,C) • Two way ANOVA • GLM (General Linear Model) • 哪一種原料交由哪一台機台生產誤差(望小)最高?
分配概說 • Distribution? • 一堆資料所呈現的趨勢 • 資料很少,無法看出趨勢! • Random Variable • 隨機變數是一個變數 • 此變數的趨勢可以用分配來描述 • 趨勢就是機率 • 可分為連續及不連續 • 就之前的經驗得知,本公司產品的良率是98%,本批貨共1000件,廠商IQC部門驗貨條件是抽100件產品,0收1退,問此批貨被退貨的機率!