360 likes | 432 Views
2. データのまとめ方. 保健統計 2012 年度. Ⅰ データの種類 Ⅱ 1 変量データのまとめ方 a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ 2) 度数分布表とヒストグラム、度数折れ線 3) 円グラフ、帯グラフ b) 特性値による記述 1) 代表値(中心的傾向) 2) 散布度(散らばりの傾向) Ⅲ 2 変量データのまとめ方 a) 表・グラフによる記述 1) 分割表(クロス集計表) 2) 散布図 b) 特性値による記述 1) 相関係数. Ⅰ データの種類. 10 人の学生について下の表のような情報がえられた。.
E N D
2. データのまとめ方 保健統計 2012年度
Ⅰ データの種類 Ⅱ1変量データのまとめ方 a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ 2) 度数分布表とヒストグラム、度数折れ線 3) 円グラフ、帯グラフ b) 特性値による記述 1) 代表値(中心的傾向) 2) 散布度(散らばりの傾向) Ⅲ2変量データのまとめ方 a) 表・グラフによる記述 1) 分割表(クロス集計表) 2) 散布図 b) 特性値による記述 1) 相関係数
Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 • 学年、性別、出身地、身長、体重、家族の人数、テストの点数という7つの変量(変数)について、10個の観測値を持つデータ。
データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。 この例では出身地(都道府県コード)、性別(男-1、女-2)を数値で表している。
質的変量(質的変数) 量的変量(量的変数) 性別、学年、出身地など 家族の人数、テストの点数など 身長、体重など 離散変量(離散変数) 連続変量(連続変数) この表にある変量は次のように分類することができる。 <質的変量と量的変量> • 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的変量という。 • 家族の人数は数値に意味があるが、性別などは数値に意味が無い。また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。 • 質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。
テストの点数(離散変量) 50 51 52 53 <離散変量と連続変量> • 量的変量はさらに離散変量と連続変量に分類される。 • 離散変量は家族の人数やテストの点数など、とびとびの値しかとらない変量である。 • 一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値になる。(身長171.2865...cm)このような変量は連続変量である。 身長(連続変量) 170 171 172 173 データの種類によって、まとめ方が異なる
Ⅱ1変量データのまとめ方 • データのまとめ方には • 表・グラフによる記述(視覚的表現) • 特性値による記述(数値的表現) がある。 • 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 • 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。
a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ (テキスト40ページも参照) • ともにさまざまなデータの表現に利用される。 • データを年次別や都道府県別に集計したものは、これらのグラフにより記述されることが多い。(集計する項目はこの場合質的変量である) • 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)に利用される。棒グラフは時系列データにもクロスセクションデータ(1時点におけるデータを何らかの項目でまとめたもの)にも利用される。 出典:総務省統計局『労働力調査』 10人の学生の例から作成
単位の異なる2つの時系列データを1つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。単位の異なる2つの時系列データを1つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。
2) 度数分布表とヒストグラム、度数折れ線 (テキスト36-38ページも参照) • 度数分布表は、データをいくつかの階級に分け、その度数を表の形で表したものであり、主に連続変量に利用される。 • 階級値- その階級を代表する値。階級の上限と下限をたして2で割った値が用いられることが多い • 相対度数- 全体を1としたときに、それぞれの階級の度数の占める割合 • 累積度数- 度数を下の階級からたし上げた(累積した)もの • 累積相対度数- 相対度数を累積したもの
<ヒストグラムと度数折れ線> • ヒストグラムは度数分布表を棒グラフであらわしたものであり、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 • 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。
3) 円グラフ、帯グラフ • 円グラフは相対的な割合を表現するときに用いられる。 • 帯グラフは相対的な割合が、時間とともにどのように変化していくかなどを表現するときに用いられる。 (テキスト41 - 43ページも参照) 10人の学生の例から作成 出典:総務省統計局『国勢調査』
b) 特性値による記述 1) 代表値(中心的傾向) • ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 • 中心的傾向をあらわす数値として、 • 算術平均 • メディアン(中央値) • モード(最頻値) の3種類がある。
<算術平均> • 算術平均 = データの合計 ÷ データ数 (例) 10人の数学のテストの点数
<メディアン(中央値)> • メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン
<モード(最頻値)> • モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 • データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。
貯蓄現在高が算術平均(1664万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである991万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。貯蓄現在高が算術平均(1664万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである991万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 • 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 • 下の図は貯蓄現在高階級別の世帯分布である。 出典:総務省統計局『家計簿からみたファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)
b) 特性値による記述 1) 散布度(散らばりの傾向) • 教員A • チャイムの5分後に必ず教室にくる。 • 教員B • チャイムと同時に教室にくることもあれば、15分以上遅れることもある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 • →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として • 分散、標準偏差 • レンジ(範囲)、四分位偏差 • などがある。
<分散> • 分散=偏差2乗和÷(データ数-1) 偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では
算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数-1(10-1)で割る 711.11 分散
<標準偏差> • 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では 26.666…
※2人の教員が教室に来る時間の例 (単位:分) 教員A 5 0.316…
教員B 5 3.16… となり、教員Bの分散の方が大きいことがわかる。 標準偏差についても、と教員Bの方が大きくなる。
<レンジ(範囲)> • レンジ ⇒ データの取りうる範囲 レンジ = 最大値 - 最小値 • 10人のテストの点数の例では 90 - 10=80
<四分位偏差> • データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 • このとき、次式で定義されるQを四分位偏差という。 ※で定義される四分位範囲で考えることもある。 q1 q2 q3 最大値 最小値
(例)9人のテストの点数が次のようになっていたとする。(例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値
※ 補足(パーセンタイルについて) • 四分位偏差はパーセンタイルという概念を用いて説明することもできる。 • 保健分野では、このパーセンタイルがよく用いられるようである。 • たとえば、データを小さい順に並べたときに、10%に当たる値のことを10パーセンタイル値という。 10% 最大値 最小値 10パーセンタイル値
四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75パーセンタイル値である。四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75パーセンタイル値である。 • 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分といえる。 q1 q2 q3 最小値 最大値 = = = 25パーセンタイル値 75パーセンタイル値 50パーセンタイル値
<参考> 第100回(2011年2月)国家試験問題 [午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。 1. 1か月前と比べ体重が10%増加した。 2. 同年齢で同性の児の平均体重よりも10%軽い。 3. 同年齢で同性の児の身長相応の体重よりも10%軽い。 4. 同年齢で同性の児100人中、10番目に軽い体重である。 正答 4 ※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。 [問題118]6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値と評価された。 正しいのはどれか。 • 同年齢女児の10%相当数がこの女児と同じ身長である。 • 同年齢の女児の100人中10番目に低い身長である。 • 女児の身長は体重相応の身長より10%低い。 • 同年齢女児の平均身長より10%低い。 正答 2
Ⅲ2変量データのまとめ方 • 2変量データ → 2つの対になったデータ • (例)あるクラスの英語と数学のテストの点数 • ※A組の英語の点数とB組の数学の点数は2つのデータであるが、対になっていない。 • ※2変量データはその組合せを変えることはできない → イチロー君の英語とヒデキ君の数学を組み合わせても、意味がない。 • 2変量データの記述 • → それぞれ1変量の記述 + 2変量の関係の記述
a) 表・グラフによる記述 1) 分割表(クロス集計表) • 2つの項目でクロス集計したもの • (テキスト38 - 39ページ参照)
なでしこジャパン ロンドン五輪ベンチ入りメンバー • 連続変量の場合は、2変量の度数分布表となる。
2) 散布図 • 横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわしたもの。 • 相関係数と密接な関係があり、相関係数が±1に近いほど、散布図は直線に近くなる。 • 正の相関(r>0) • Xが大きな値をとるほど、Yも大きな値をとる。 • 負の相関(r<0) • Xが大きな値をとるほど、Yは小さな値をとる。 • 無相関(r=0) • Xの値とYの値に一定の傾向がみられない。
b) 数値による記述 1) 相関係数 • 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 • r>0 正の相関 1に近いほど関連度が強い • r<0 負の相関 -1に近いほど関連度が強い • r=0 無相関 (テキスト126 - 128ページ参照)
r=0.773 r=0.964