670 likes | 922 Views
統計学基礎. Statistic. 統計学の分類. 統計学には大きく分けて次の二つがあります。. 記述統計 推測統計. この講座では主に記述統計について学習していきます。. 記述統計>例. ここに20個の数値があります。 173、168、162、175、182、 165、174、171、169、170、 169、168、172、175、163 176、167、164、172、170 ● この数値の集まりが持つ性質を誰かに手短に伝えたい場合、どのような方法が考えられるでしょうか?. 記述統計>例.
E N D
統計学基礎 Statistic
統計学の分類 統計学には大きく分けて次の二つがあります。 • 記述統計 • 推測統計 この講座では主に記述統計について学習していきます。
記述統計>例 ここに20個の数値があります。 173、168、162、175、182、 165、174、171、169、170、 169、168、172、175、163 176、167、164、172、170 ● この数値の集まりが持つ性質を誰かに手短に伝えたい場合、どのような方法が考えられるでしょうか?
記述統計>例 (方法1)・・・数値を一つずつ読み上げる。 (方法2)・・・このデータを要約して伝える。 (例) 「平均は170、最小値162から 最大値182までの20個のデータ」 ◆ 方法2のほうが方法1よりも手短に分かり やすくデータの集まりの持つ性質の特徴を 伝えることができるでしょう。
記述統計>概要 記述統計とは簡単に言うと観察対象となるデータを要約することです。 集団の持つ特色や傾向を表す要約データとして基本統計量を用います。一般的に使われる基本統計量には次のようなものがあります。 標本数、最小値、最大値、合計、平均、範囲、中央値、最頻値、 分散、標準偏差、四分位数、尖度、歪度、変動係数・・・ ◆ではこれらの統計量の算出方法を一つずつ 見ていきましょう。
基本統計量 n 標本数 20 173、168、162、175、182 165、174、171、170、170 169、168、172、175、163 176、167、164、172、175 最大値 182 合計 最小値 162 ÷ Mean(ミーン)。記号はμ(ミュー)で表す。 平均 170.6 標本数 Range(レンジ) 範囲 20 最大値-最小値
基本統計量>平均 ここで少し話しがそれますが・・・ 平均について 厳密な言い方をすれば私たちが一般的に「平均」と呼んでいるのは標本を足して標本数で割る「相加平均」(又は「算術平均」とも呼ぶ)を指します。 これに対して標本同士を掛けて標本数のルートを求める方法で算出したものを「相乗平均」又は「幾何平均」と呼びます。 では少し例を見てみましょう。
基本統計量>平均>例 ある日天井裏で音がするので押し入れから上がって見るとねずみが2匹いました。 それから1ヵ月後、もう一度天井裏に上がって見ると4匹に増えていました。 そのまた1ヵ月後、もう一度天井裏に上がって見ると16匹に増えていました。 そしてまた1ヵ月後、もう一度天井裏に上がって見ると・・・なんと128匹に増えていました。
基本統計量>平均>問題 ある日 1ヵ月後 2ヵ月後 3ヵ月後 2匹 4匹 16匹 128匹 2倍 4倍 8倍 (問題) このねずみは1ヶ月あたり何倍で増えていってるでしょうか?
基本統計量>平均>相加平均 ● 相加平均で算出・・・(2+4+8)/3≒4.6倍 ある日 1ヵ月後 2ヵ月後 3ヵ月後 2匹 9.2匹 42.32匹 194.67匹 4.6倍 4.6倍 4.6倍 実際の3ヵ月後の数128匹とはだいぶ違った結果になりました。
3 3 基本統計量>平均>相乗平均 ● 相乗平均で算出・・・ 2×4×8= 64 = 4 ある日 1ヵ月後 2ヵ月後 3ヵ月後 2匹 8匹 32匹 128匹 4倍 4倍 4倍 3ヵ月後の数128匹とぴったり同じ結果になりました。 この例のように伸び率の平均を求める場合などでは相乗平均を使ったほうが都合が良い場合もあります。では本題に戻ります。
基本統計量>最頻値 Mode(モード) 最頻値 データの中で最も多く現れる値 175 162、163、164、165、167、168、168、169、170、170、171、172、172、173、174、175、175、175、176、182 例えばこの標本集団がある学校で職員にとったアンケート「来年度の募集生徒数を何人にするか?」の結果だとするとこの最頻値「175」が採用されるかも知れません。最頻値は一般的に言う「多数決」にあたります。
基本統計量>中央値 Median(メジアン) 中央値 データを横一列に並べた場合 中央にくる値 170.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 162、163、164、165、167、168、168、169、170、170、171、172、172、173、174、175、175、175、176、182 • データ(標本数)が奇数の場合・・・中央の値 • データ(標本数)が偶数の場合・・・2値の平均 中央値は平均値よりも集団から外れた値の混入による影響を受けにくいという特徴があります。
基本統計量>中央値>例 若年サラリーマン15人に年収をききました。 中央値は200万円になります。 平均値240万円はこの集団の年収の性質をよく表しているといえるでしょうか? この例では中央値の方が平均よりもこの集団の性質をよく表していると言えるでしょう。 異分子の820万円がなければ平均値は約199万円になります。 異分子
基本統計量>四分位数 し ぶん い すう 四分位数 データを横一列に並べた場合 25%、50%、75%地点にある値 (クォータイル) 第1四分位数 第2四分位数 第3四分位数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 162、163、164、165、167、168、168、169、170、170、171、172、172、173、174、175、175、175、176、182 167.5 170.5 174.5 (中央値)
基本統計量>ヒストグラム ヒストグラム データを階級別に分けてその度数をグラフ化したもの 162 163 164 165 167 168 168 169 170 170 171 172 172 173 174 175 175 175 176 182 160~164 165~169 170~174 175~179 180~185
基本統計量>偏差 偏差とは・・・ 平均と 各データとの値の差
基本統計量>偏差 偏差を使ってこの集団の平均値からのばらつきの度合いを表せないか? 偏差を合計したら・・・ 0になるので使えない 偏差の絶対値を合計したら・・・ 79 これなら使えそうですが統計学では一般的に、この方法は使いません。ではどのような方法を使うかと言うと・・・
基本統計量>偏差平方・偏差平方和 (変動) 「偏差を2乗する」方法を使って正の数値にします。この「偏差の2乗値」のことを 「偏差平方」と呼びます。 今回の例では偏差平方の合計は474.95になります。これを「偏差平方和」又は「変動」と呼び、データのばらつきを表す指標の一つとして用いられます。
基本統計量>分散 ではこの変動を用いて平均からのばらつきを比較するとして、この集団と別の20の標本とを比較することは出来ます。変動の数値の大きい方が、平均からのばらつきが大きいと言えるでしょう。 では変動を用いて別の30の標本と比較することが出来るでしょうか?100の標本と比較することが出来るでしょうか? 結果的には標本の数が違うので比較は出来ません。それなら変動を標本数で割ったらどうでしょう?つまり偏差平方の平均です。これなら標本数の違う集団同士でも比較が出来ます。この「偏差平方の平均」のことを「分散」と呼びます。 分散(Variance)は記号ではσ2 またはV で表します。
記述統計>基本統計量>標準偏差 ● 今回の例では偏差平方和は474.95なのでその平均はおよそ23.75に なります。 では今回の20の標本を20人の身長のデータだとして、偏差平方の平均である分散(23.75)は平均身長からのずれの長さの指標として使えるでしょうか? 分散は「平均からのずれ」である偏差を2乗した値の平均なのでそのまま身長の単位の「cm」としては使えません。それでは2乗したものをまた元に戻すために平方根(ルート)を求めれば同じ単位として使えそうです。ちなみに23.75の平方根は4.873になります。 この分散の平方根のことを「標準偏差」と呼び、記号は「σ」(シグマ)で表します。標準偏差は集団の平均からのばらつき度を、標本と同じ単位を使って表すことができます。
基本統計量>変動係数 標準偏差の大きさは元のデータが何かによって変わります。例えば今回は20の身長データとして考えてみましたが、この人たちの体重を量り20の体重データの標準偏差を出したとします。すると当然、大きさの単位も大きさそのものも変わってしまいます。その場合平均からのばらつきを元データと同じ単位で表す標準偏差といえども、身長と体重では標準偏差の値同士を比較して、どちらの方がバラつきが大きいなどと言うことは出来ません。 では種類の違うデータ同士のバラつきの比較は出来ないのでしょうか?標準偏差の大きさは「各データの大きさと平均との差のバラつきの平均」をあらわしているという点ではどの種類のデータであっても同じです。ではその標準偏差をそのデータの大きさの尺度(スケール)の基本になる平均値で割ればどうでしょう。データの種類間のスケールの違いが取り払われて単純に比較ができるようになるはずです。この「標準偏差を平均で割る」ことで求めた値のことを変動係数と呼びます。変動係数は%の単位で表します。次に例を見てみましょう。 σ μ
基本統計量>変動係数>例 次の表はある年のメロンとりんごの半年間の価格の推移を調べたものです。さてどちらの方が平均価格に対する価格のバラつきが大きいでしょうか?標準偏差はあきらかにメロンが大きいですがこれは単価の影響を受けているのでこのままでは単純に比較ができません。
基本統計量>変動係数>例 ではそれぞれの標準偏差を平均値で割ってみましょう。求めた結果を%表示になおします。結果はメロンが8.6%、りんごが10.5%なのでりんごの方が価格の変動が大きいという意外な結果を知ることができました。
推測統計>概要 ここで少し推測統計の話に移ります。 推測統計とは,集団から一部分を取り出して調査したデータをもとに,もとの集団について推測する方法です。よく知られるところでは,内閣の支持率、選挙の出口調査や視聴率などを調べる際など幅広く用いられている手法です。
推測統計>概要>全数調査・標本調査 • 調査の対象となるもの全てを調べることを「全数調査」、一部を取り出して調べることを「標本調査」と言います。全数調査ができれば最も正確な答えが求められるでしょう。例としては5年ごとに行われる国勢調査は全数調査の一つと言えます。しかし食品の抜き取り検査で出荷前の缶詰を全部あけたら商売になりません。また、国内の全世帯で視聴率の調査を行ったら莫大な費用がかかるでしょう。どちらも現実的ではありません。 • 出来るだけ少ないデータで全体の傾向を知ることが出来れば最も効率的で経済的です。それを可能にするのがこの「推測統計」なのです。
推測統計>母集団と標本 ぼしゅうだん 推測統計では母集団と標本とを区別します。 ●母集団・・・調査の対象となる事柄や性質を有するもの全体。 ●標本 ・・・母集団から取り出した一部のもの。サンプル。 ※ 母集団から標本を取り出すことを「標本抽出」、又は「サンプリング」などと呼びます。
推測統計>標本抽出(サンプリング) サンプリングは調査対象の母集団と同じ割合で行うことが重要です。例えば母集団が国内在住の20代から50代の男性と女性であればその人口と同じ割合でサンプリングしなければなりません。
推測統計>世論調査の失敗例 標本調査でよく引き合いに出される話に1936年の大統領選があります。その調査結果は次のようなものでした。 割当法(クォータサンプリング)により3000人 電話帳 自動車所有者名簿 ●これは調査する際に標本数は多ければいいというものではないことを示す良い例です。ちなみに割当法とは対象者を母集団(この例の場合では有権者)と同じ割合になるように割り当てる方法です。(例:30代サラリーマン、40代主婦・・・)
正規分布 世の中の多くの自然現象、社会現象は正規分布(Normal Distribution)に従うと言われています。例えば人間や動物の身長や体重、テストの成績、など多くのものがこの分布に当てはまります。正規分布は平均を中心とした左右対称のなだらかな曲線を描きます。発見者の名をとってガウス曲線とも呼ばれます。
正規分布>例 (例)A高校の3年男子生徒340名のうち60名の生徒の身長を測定したら次のような結果になりました。
正規分布>例 今度は各階級ごとの人数の、調査数60人に対する比率を求めヒストグラムを作成すると、縦軸の目盛以外は全く同じになりました。比率の合計は「1」なので、この棒の長さの合計も「1」になります。
正規分布>例 次に調査対象を50名追加してデータに書き加えました。ついでに階級を4cm区切りから2cm区切りに変更しました。それでもヒストグラムの各棒の長さの合計が「1」であることに変わりありません。
正規分布>面積 それでは対象をA高校だけでなく市内の高校全体、あるいは県内、国内と拡げて階級ももっと細かくわければ、ヒストグラムの形状はおそらく下のような山形の形状になるでしょう。この場合、棒の長さの合計はこの山の面積ということになりますので山の面積はやはり「1」になります。 1
正規分布>正規分布の性質 正規分布は左右対称なので平均値から右側の面積は全体の50% (数値でいうと0.5)になります。となると左側の面積もまた全体の50%(0.5)になります。 50% 50% μ
正規分布>正規分布の性質 正規分布にはおもしろい性質があり、平均値μや標準偏差σの値にかかわらず平均から右側に標準偏差2個分離れた所から切り離した部分の面積は必ず0.0228(2.28%)になります。これが何を意味しているのか前に出てきた20の標本の例で考えてみましょう。 2σ μ
正規分布>正規分布の性質 20の標本をある高校の3年男子生徒の身長だとして、平均μは170.55、標準偏差σは4.87でした。2σは4.87×2なので9.74です。平均170.55に9.74を足すと180.29になります。それより右側の面積が2.28%だということです。これはつまり、「ある朝この20人の中の誰かと道で会ったとしてその人の身長が180.29cm以上である確率が2.8%だということになります。 2σ μ 170.55 180.29
正規分布>正規分布の性質 正規分布の平均μ、標準偏差σとの関係は下図のようになります。例えば平均より2σ以下の人と会う確率もやはり、2.28%です。逆に言うと平均から±2σ以内である確率は100-(2.28×2)=95.44%になります。 95.44% 2σ 2σ μ
μ 正規分布>正規分布の性質 平均値からσ何個分離れているかを表すのに「z」の記号を使います。例えばzの値が2なら2σ、3なら3σのことです。 σをzで表した場合 1 1 2 2 3 3
正規分布>標準正規分布 正規分布は平均μと標準偏差σを使ってN(μ、σ2)で表されます。このときN(0、1)の正規分布を「標準正規分布」と呼びます。 1 1 0
正規分布>正規分布の性質 下表はこのzと山形の右半分の面積との関係を表した「正規分布表」の一部です。 小数点以下二位 小数点以下一位
正規分布>尖度 正規分布には下図のように様々な形があります。この形は平均値と標準偏差の値により変わってきます。見た目の形がどうであれ正規分布であればみな一様な比率の分布を示しています。 しかし、例えば右のような分布では裾の広がり幅は同じでも中心付近に集まっているデータが多くなっています。これは正規分布よりも尖っている例です。この尖りの度合いを表す指標に尖度(せんど:Kurtosis(クルトシス))があります。
正規分布>尖度 尖度は一般的に右の式で表します。 ◆偏差の4乗和を標準偏差の4乗と標本数の積で割る 正規分布の尖度は3になります。 右の式を使う場合もあります。もし正規分布であれば尖度は0になり、正の値であれば正規分布よりも尖り、負の値であれば正規分布よりも偏平になります。 上の式はいずれもデータが母集団そのものの場合であり、データが母集団からとった標本で、そのデータから母集団を推定する場合には下の式を使います。(MS-ExcelのKurt関数はこの定義を使っています)
正規分布>歪度 データ分布は必ず左右対称とは限りません。例えば次の例を見てください。これは平成19年度秋の基本情報技術者試験のスコアの階級ごとの人数を表したグラフです。午前はおよそ正規分布に近い形状ですが、午後は左に歪んでいます。これは出題が午前よりも得点し易い傾向にあったのではないかと考えられます。この場合、午後のスコア分布がどの程度歪んでいるかは歪度(わいど:Skewness(スキューネス))によって表すことが出来ます。歪度は分布の非対称性を表す尺度です。
正規分布>歪度 歪度は一般的に右の式で表します。 ◆偏差の3乗和を標準偏差の3乗と標本数の積で割る 正規分布の歪度は0になります。 上の式はデータが母集団そのものの場合であり、データが母集団からとった標本で、そのデータから母集団を推定する場合には次の式を使います。(MS-ExcelのSkew関数はこの定義を使っています)
自由度 ではここで話を変えて次の問題を考えてみてください。 (問題) A高校で3人の生徒が10点満点の試験を行いました。点数はそれぞれ「2、1、3」という結果で、その平均は「2」になりました。 別の日にまた3人で試験を行った結果、うち2人の成績はどちらも1でした。平均を「3」点にするためには、もう一人が何点とれば良いでしょうか?
自由度 1+1+X 1+1+X=3×3=9 3 X=9-(1+1)=7 =3 上の計算でもう一人が7点をとれば3人の平均が3点になることがわかります。 (問題) ある日、また試験を行いました。3人のうち2人はどちらも「3」点でした。平均を「2」点にするためにはもう一人は何点をとればよいでしょうか?
自由度 2人の合計 6+X 6+X=3×2=6 3 X=6-6=0 =2 上の計算によりあと一人が0点をとれば平均点が「3」になることがわかります。 これまで見てきたように3人のうち2人の点数にかかわらず、もう一人の点数(不確定要素)を調整して合わせれば、平均の結果にあわせることが出来ます。つまりX以外は値が自由になるということです。 今回3人で試験を受けてますので誰か一人がこのXの役を請け負うとして何点をとっても自由なのは「受験数-1」人になります。受験数を一般的な標本数として「n-1」を自由度といいます。
不偏分散・標本標準偏差 統計学では、ある母集団の中からサンプリングした標本を使って母集団を推定する場合、標本数の代わりに自由度(n-1)を用います。例えば前回の20人の身長データの例では偏差2(偏差平方)和の平均である分散は 474.95/20で23.75でしたが、これが 100人の中から抽出した20の標本だということになるとその母集団100人の分散は 474.95/(20-1)で推定値を求めます。値は約25(24.99)になります。この値のことを不偏分散と呼びます。また不偏分散の平方根を標本標準偏差と呼び、一般的に標準偏差の記号σと区別してs で表します。実際、自由度(n-1)で割ったほうが母集団の値に近づくことが知られています。
標準誤差(Standard Error) 今回の標本を、ある高校の3年男子生徒の中から抽出した20人の身長だとします。そしてその平均は170.6でした。 では又別の日に、同じ高校の3年男子生徒の中から20人を無作為に抽出して平均を算出したとすると、おそらく前回と全く同じにはならないでしょう。また別の日に、同様に20人を抽出して・・・ このようにある母集団から何回も標本抽出を繰り返して得られた1回ごとの平均値の平均値は母平均(この場合はある高校の3年男子生徒全体の平均)に限りなく近づいていきます。 では母集団の平均値と、標本抽出1回ごとの平均値とはどの位ずれがあるのでしょうか?この値を表す指標として「標準誤差」(SE:Standard Error)があります。厳密には標準誤差は平均以外の統計量も含みますが、一般的に標準誤差と言えば今回の例のように「平均値の誤差」 (SEM:Standard Error of Mean)のことを指します。