200 likes | 312 Views
統計の基礎 第4回 データの入手/ヒストグラム 5 月 20 日. 【 目標 】. 既存 データの入手・活用ができるようになる 。 度数 分布を表すヒストグラムを作成できるようになる。. 【 構成 】. データの入手/ヒストグラム 1 .データの入手 2 .ヒストグラム (1) 区間設定 (2) カウント ( 計数 ) (3) グラフ化 (4) 累計化 Excel 分析ツール / グラフ. 1.データの入手 (1) 業務での蓄積データ. 情報システムの浸透の中で 、 膨大 なデータが蓄積されている. ETL (Extra/Transform/Load )
E N D
統計の基礎第4回データの入手/ヒストグラム5月20日統計の基礎第4回データの入手/ヒストグラム5月20日
【目標】 • 既存データの入手・活用ができるようになる。 • 度数分布を表すヒストグラムを作成できるようになる。
【構成】 データの入手/ヒストグラム1.データの入手 2.ヒストグラム (1)区間設定 (2)カウント(計数) (3)グラフ化 (4)累計化 Excel分析ツール/グラフ
1.データの入手(1)業務での蓄積データ 情報システムの浸透の中で、 膨大なデータが蓄積されている
ETL (Extra/Transform/Load) • DWH データウェアハウス(Data warehousing) • DM(Data Mart)部分DB • OLAP(On Line Analysis Procces) • データマイニング(Data mining) • モニタリング (ダッシュボード)
データマイニング(Data mining) POSやオンラインショッピングによる大量のITデータの中から 法則性を見つけ出す • 相関分析 • セグメンテーション分析 • マーケット・バスケット分析 主に共起現象を探り、セールスに結び付け • 例1:スーパーでビデオとガムテープが共に売れる → 両者を同じ場所に置く。 オムツとビール、日曜大工道具とシップ薬 • 例2:本Aを買う人は、後に本Bを買うことが多い 購入者に本Bを薦めるダイレクトメールを送る。
(2)公式統計 • インターネットからの統計入手 • 【話題の統計】 • 【政府統計】 政府統計の総合窓口 • 【県等の統計】 • 【各国の統計】 • 【国際機関の統計】 • 【その他】
(3)統計調査 ⇒第6講 統計調査の実際 • ワーディング • サンプリング
2.ヒストグラム 新しいデータを入手した時、まず何をやるか →全体の様子を見る
度数分布グラフ 度数 出現頻度(の数) ◎Histogram カール・ピアソン 1895年創案 ギリシャ語 histos「すべてのものを直立にする」 gramma「記録すること」
(1)区間設定 • 最大・最小値を求める • 適宜、階層を設定する 階層区分 標本数から凡その区分数を考える 区切りのよい区分を設定する 多少の試行錯誤 山型の分布を想定
区分数の目安 スタージェスの公式 logN/log2+1 (平方根 N^0.5) 50→7,100→8,500→10,1000→11,5000→13
境界線に注意 • 以上、未満 ●─ ─○ • 超、以下 ○─ ─●
(2)カウント(計数) • 階層ごとの数を数える COUNTIFS 作表 • 構成比による表現 確率表現へ
(3)グラフ化 • 棒グラフを作成する。 書式の調整
※階層幅を配慮したグラフ(狭義のヒストグラム)※階層幅を配慮したグラフ(狭義のヒストグラム)
区間の幅によって頻度が決まり、 実際のイメージが分からない
横軸を階層幅とし頻度は面積で表す。階層間に隙間を入れない。横軸を階層幅とし頻度は面積で表す。階層間に隙間を入れない。 ⇒「スカイライングラフ」
(4)累計化 • 累積度数の計算