390 likes | 608 Views
データ分析入門( 3 ). 第 3 章 データの収集と編成 廣野元久. 本章の概要. データの性質と測定の尺度 量的なデータ 質的なデータ データの探し方 政府官庁データ,民間のシンクタンクなど データの編成と入力準備 データ表. 1. データの性質と測定尺度. 1.1 量的データ 間隔尺度,比例尺度 1.2 質的データ 名義尺度,順序尺度 1.3 測定の尺度 . 1.1 量的データ. 量的データ: Quantitative Data 連続的に変化するもの :体重,身長,気温
E N D
データ分析入門(3) 第3章 データの収集と編成 廣野元久
本章の概要 • データの性質と測定の尺度 • 量的なデータ • 質的なデータ • データの探し方 • 政府官庁データ,民間のシンクタンクなど • データの編成と入力準備 • データ表 第3章 データの収集と編成 廣野元久 &高橋行雄
1.データの性質と測定尺度 • 1.1量的データ • 間隔尺度,比例尺度 • 1.2質的データ • 名義尺度,順序尺度 • 1.3測定の尺度 第3章 データの収集と編成 廣野元久 &高橋行雄
1.1 量的データ • 量的データ:QuantitativeData • 連続的に変化するもの :体重,身長,気温 連続変量:Continuous Variate:計量データ • 整数値しかとらないもの:結婚件数,勝敗 離散変量:Discrete Variate:計数データ • 変量:与えられた確率で,色々な値を取る もの 第3章 データの収集と編成 廣野元久 &高橋行雄
1.1 変量:サイコロを例にとると • いかさまのないサイコロの目の出方は, 平等であるから,1/6の確率で出現する 第3章 データの収集と編成 廣野元久 &高橋行雄
1.2質的データ • 質的データ :Qualitative Data • 状態や評価を表す,直接量れないデータ • 例) • 材料メーカーの評価の違い • A社のパスタソース,B社のパスタソース • 質的データを計るには • 状態を評価する評価用語の利用 • (評価の)分類に用いた区分をカテゴリ (Category,Class) 第3章 データの収集と編成 廣野元久 &高橋行雄
1.2 評価や状態の区分例(1) • あなたは,A社のデジカメの写りについてどのくらい満足していますか • 1.大変満足している 2.まあ満足している • 3.普通である • 4.やや不満である 5.大変不満である • 評価に順序がつく回答肢に得点をつけることもできる • 1.5点 2.4点 3.3点 4.2点 5.1点 など 第3章 データの収集と編成 廣野元久 &高橋行雄
1.2 評価や状態の区分例(2) • あなたは,A社のデジカメの写りの色合いについてどうお思われますか • 1.緑みが強い 2.赤みが強い • 3.黄みが強い 4.青みが強い • 評価に順序がつかないので回答肢に得点をつけることは無意味 第3章 データの収集と編成 廣野元久 &高橋行雄
1.3測定の尺度(1) • 比例尺度(Ratio Scale) • 原点(0)に意味がある. • 0~∞(とっても大きい値)をとる • 間隔や比率に意味がある • データの加減乗除ができる. • 物理量(絶対温度,抵抗値),工場の不良率など • 地震のマグニチュードなど 第3章 データの収集と編成 廣野元久 &高橋行雄
1.3測定の尺度(2) • 間隔尺度(interval Scale) • 原点(0)に意味がない(移動可能) • 摂氏や華氏は間隔尺度 • 摂氏は,水が氷になる温度を便宜的に0℃ • -∞から∞までの値をとる • SFCのΩ館を基点(0)にして東を+,西を-にして 距離をmで測る • 間隔には意味がる • データの足し算,引き算ができる 第3章 データの収集と編成 廣野元久 &高橋行雄
1.3測定の尺度(3) • 連続尺度(Continuous Scale) • 比例尺度と間隔尺度をまとめる • 実際のデータ分析では,両者は同じように取り扱う • JMPでも両者を区別しない • 皆さんも,いまは神経質になる必要はない 第3章 データの収集と編成 廣野元久 &高橋行雄
1.3測定の尺度(4) • 順序尺度(Ordinal Scale) • カテゴリの順序はつくが,間隔や比が不明 • 先の満足度の設問について,各カテゴリにどのような配点をするのか厳密には難しい • 加減乗除には意味がない • 名義尺度(Nominal Scale) • カテゴリの順序さえつかない (評価に方向がない) • JMPでも順序尺度と名義尺度は区別 第3章 データの収集と編成 廣野元久 &高橋行雄
1.3測定の尺度(4) • まとめ 第3章 データの収集と編成 廣野元久 &高橋行雄
2 データの収集 • 2.1 データの種類 • 2.2 データの調査・作成主体 • 2.2.1 政府機関のデータ • 2.2.2 企業や民間の諸機関 • 2.3 データの利用 • 2.3.1 データ利用の社会的ルール • 2.3.2 統計データの探索 • 2.3.3 社会調査データの探索 第3章 データの収集と編成 廣野元久 &高橋行雄
2.1 データの種類 • 集計データ(Aggregate Data) • 個別調査の結果を調査票から集計してあるデータ • 全体の傾向や集計単位ごとの比較など • 情報公開度は高い • 個票データ(Individual data) • 集計前の原データ • 集計データよりも細かい情報を必要とする場合 • 情報公開度は日本では僅か,ルールなど未整備 第3章 データの収集と編成 廣野元久 &高橋行雄
データの作成:簡単なアンケート Excel の使用経験、データの編成は? 第3章 データの収集と編成 廣野元久 &高橋行雄
集計データの例 第3章 データの収集と編成 廣野元久 &高橋行雄
個票の例 第3章 データの収集と編成 廣野元久 &高橋行雄
2.2.1 政府機関のデータ(1) • (1)政府統計 • 大規模,継続性,信頼性,優れている • 日本 • 第一義統計(調査統計) 国勢調査,事業所統計調査,工業統計調査 など • 第二義統計(業務統計) 通関統計,犯罪統計,司法統計 など • 加工統計 経済統計,鉱工業生産指数 第3章 データの収集と編成 廣野元久 &高橋行雄
2.2.1 政府機関のデータ(2) • (2)行政情報 • 白書,インターネット情報 • テーマ,話題別の情報(非長期,非継続的) • 非公開なものもある 第3章 データの収集と編成 廣野元久 &高橋行雄
感染症のデータ(例) http://idsc.nih.go.jp/kanja/monthlydata/data99-3s.html 第3章 データの収集と編成 廣野元久 &高橋行雄
データの取り込み(例) 第3章 データの収集と編成 廣野元久 &高橋行雄
2.2.2企業や民間の諸機関 • 企業内情報(非公開) • 財務指標,満足度,市場動向,技術動向 • 業界団体情報 • 場合によっては公開 • 消費者センター(製品情報など公開) • 調査機関 • 販売,コンサルタント,モニターの貸出し • 報道機関:新聞紙面など • 学術研究機関:刊行物の発行 第3章 データの収集と編成 廣野元久 &高橋行雄
2.3 データの利用 • 2.3.1 データ利用の社会的ルール • 2.3.2 統計データの探索 • (1)統計情報の索引 • (2)総合統計書,年鑑類 • (3)統計データベースとインターネット • 2.3.3 社会調査データの探索 • (1)世論調査の索引 • (2)データアーカイブ 第3章 データの収集と編成 廣野元久 &高橋行雄
2.3.1 データ利用の社会的ルール • データにも著作権,DBや書籍にも著作権 • 日本は著作権に対してルーズな国と思われている • 淑女紳士的態度で利用しよう • 利用データの出典を明らかにする • 著者,書籍,DB,発行年など • DBなどは,利用ルールを厳守する • 個票データにはプライバシーの保護を!!! • 情報公開とプライバシー保護の問題は難しい 第3章 データの収集と編成 廣野元久 &高橋行雄
2.3.2 統計データの探索 • 統計情報の索引から統計調査項目を利用 • 年鑑類から数字を見ながら探す • データの出典なども利用 • (1)統計情報の索引 • 統計情報インデックス,統計調査総覧 • データ出典などにより直接,役所へ問い合わせる • (2)総合統計書,年鑑類 • 日本統計年鑑,朝日年鑑,読売年鑑, • 国連世界統計年鑑,理科年表 • 統計データベース(CD ROM)とインターネット • 検索エンジンの利用 • 日経NEEDS など 第3章 データの収集と編成 廣野元久 &高橋行雄
2.3.3 社会調査データの探索 • (1)世論調査の索引 • 世論調査年鑑 • (2)データアーカイブ • 統計データの保存,蓄積,利用 機関 • 米国は先進国(情報化大国IT戦略) • 世論調査:ローパーセンター • 社会科学:コンソーシアム 第3章 データの収集と編成 廣野元久 &高橋行雄
3.データの編成 • 生の食材は扱いにくい • 野菜は,丁度良い大きさに切り揃える • 魚は,焼く場合も,皮がパリと焼けるよう包丁をいれる • データも分析しやすいように表にまとめる • データを取ってから編成を考えてはダメ • データ分析のストーリに沿って収集&編成 第3章 データの収集と編成 廣野元久 &高橋行雄
3.1 データの編成 • 分析の目的に応じて, • データを並べる順序を示す編成を変える • 時間の推移による状況を把握するには,データは時間順序に 時系列データ;Time Series Data • 株価や為替の分析 • 寿命の分析(Survival Data) • 同じ時点について,異なる対象を観測して,その特徴を調べる クロスセクションデータ;Cross-Section Data • 工程データは,変数の取られる工程順に • 特徴が近いと思われる項目を近くに配置する • データ分析後に並べ替えられることもある • 複数時点での異なる対象を観測(3元データ);Panel Data 第3章 データの収集と編成 廣野元久 &高橋行雄
データの編成(時系列データ) シャトーXXX(ボルドー赤ワイン) の初出荷時の価格 項目 i 時間 t 第3章 データの収集と編成 廣野元久 &高橋行雄
データの編成(クロスセクションデータ) レーザープリンタの画質評価 項目 i 地域,種類,個体,刺激など j 第3章 データの収集と編成 廣野元久 &高橋行雄
データの編成(パネルデータ) 時間 t 個体 k(官能評価など) 項目 i 地域,種類,個体,刺激など j 第3章 データの収集と編成 廣野元久 &高橋行雄
3.2 データ入力のための準備 このデータを実際にJMPに取り込んでみよう 第3章 データの収集と編成 廣野元久 &高橋行雄
3.2 データ入力のための準備 列情報 で指定 データは番号など 第3章 データの収集と編成 廣野元久 &高橋行雄
関連Webリンク集を選ぶ 第3章 データの収集と編成 廣野元久 &高橋行雄
学協会・各種団体・…を選ぶ 第3章 データの収集と編成 廣野元久 &高橋行雄
円グラフの例 http://www.jiko.nite.go.jp/ 第3章 データの収集と編成 廣野元久 &高橋行雄
円グラフの例 http://www.jiko.nite.go.jp/ 第3章 データの収集と編成 廣野元久 &高橋行雄
帯グラフの例 http://www.jiko.nite.go.jp/ 第3章 データの収集と編成 廣野元久 &高橋行雄