1 / 39

データ分析入門( 3 )

データ分析入門( 3 ). 第 3 章 データの収集と編成 廣野元久. 本章の概要. データの性質と測定の尺度 量的なデータ 質的なデータ データの探し方 政府官庁データ,民間のシンクタンクなど データの編成と入力準備 データ表. 1. データの性質と測定尺度. 1.1 量的データ 間隔尺度,比例尺度      1.2 質的データ 名義尺度,順序尺度      1.3 測定の尺度    . 1.1  量的データ. 量的データ: Quantitative Data 連続的に変化するもの :体重,身長,気温

evita
Télécharger la présentation

データ分析入門( 3 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. データ分析入門(3) 第3章 データの収集と編成 廣野元久

  2. 本章の概要 • データの性質と測定の尺度 • 量的なデータ • 質的なデータ • データの探し方 • 政府官庁データ,民間のシンクタンクなど • データの編成と入力準備 • データ表 第3章 データの収集と編成 廣野元久 &高橋行雄

  3. 1.データの性質と測定尺度 • 1.1量的データ • 間隔尺度,比例尺度      • 1.2質的データ • 名義尺度,順序尺度      • 1.3測定の尺度     第3章 データの収集と編成 廣野元久 &高橋行雄

  4. 1.1 量的データ • 量的データ:QuantitativeData • 連続的に変化するもの :体重,身長,気温    連続変量:Continuous Variate:計量データ • 整数値しかとらないもの:結婚件数,勝敗 離散変量:Discrete Variate:計数データ • 変量:与えられた確率で,色々な値を取る    もの 第3章 データの収集と編成 廣野元久 &高橋行雄

  5. 1.1 変量:サイコロを例にとると • いかさまのないサイコロの目の出方は, 平等であるから,1/6の確率で出現する 第3章 データの収集と編成 廣野元久 &高橋行雄

  6. 1.2質的データ • 質的データ :Qualitative Data • 状態や評価を表す,直接量れないデータ • 例) • 材料メーカーの評価の違い • A社のパスタソース,B社のパスタソース • 質的データを計るには • 状態を評価する評価用語の利用 • (評価の)分類に用いた区分をカテゴリ (Category,Class) 第3章 データの収集と編成 廣野元久 &高橋行雄

  7. 1.2 評価や状態の区分例(1) • あなたは,A社のデジカメの写りについてどのくらい満足していますか • 1.大変満足している  2.まあ満足している • 3.普通である      • 4.やや不満である   5.大変不満である • 評価に順序がつく回答肢に得点をつけることもできる • 1.5点  2.4点 3.3点   4.2点  5.1点          など 第3章 データの収集と編成 廣野元久 &高橋行雄

  8. 1.2 評価や状態の区分例(2) • あなたは,A社のデジカメの写りの色合いについてどうお思われますか • 1.緑みが強い     2.赤みが強い • 3.黄みが強い     4.青みが強い • 評価に順序がつかないので回答肢に得点をつけることは無意味 第3章 データの収集と編成 廣野元久 &高橋行雄

  9. 1.3測定の尺度(1) • 比例尺度(Ratio Scale) • 原点(0)に意味がある. • 0~∞(とっても大きい値)をとる • 間隔や比率に意味がある • データの加減乗除ができる. • 物理量(絶対温度,抵抗値),工場の不良率など • 地震のマグニチュードなど 第3章 データの収集と編成 廣野元久 &高橋行雄

  10. 1.3測定の尺度(2) • 間隔尺度(interval Scale) • 原点(0)に意味がない(移動可能) • 摂氏や華氏は間隔尺度 • 摂氏は,水が氷になる温度を便宜的に0℃ • -∞から∞までの値をとる • SFCのΩ館を基点(0)にして東を+,西を-にして  距離をmで測る • 間隔には意味がる • データの足し算,引き算ができる 第3章 データの収集と編成 廣野元久 &高橋行雄

  11. 1.3測定の尺度(3) • 連続尺度(Continuous Scale) • 比例尺度と間隔尺度をまとめる • 実際のデータ分析では,両者は同じように取り扱う • JMPでも両者を区別しない • 皆さんも,いまは神経質になる必要はない 第3章 データの収集と編成 廣野元久 &高橋行雄

  12. 1.3測定の尺度(4) • 順序尺度(Ordinal Scale) • カテゴリの順序はつくが,間隔や比が不明 • 先の満足度の設問について,各カテゴリにどのような配点をするのか厳密には難しい • 加減乗除には意味がない • 名義尺度(Nominal Scale) • カテゴリの順序さえつかない          (評価に方向がない) • JMPでも順序尺度と名義尺度は区別 第3章 データの収集と編成 廣野元久 &高橋行雄

  13. 1.3測定の尺度(4) • まとめ 第3章 データの収集と編成 廣野元久 &高橋行雄

  14. 2 データの収集 • 2.1 データの種類 • 2.2 データの調査・作成主体 • 2.2.1 政府機関のデータ • 2.2.2 企業や民間の諸機関 • 2.3 データの利用 • 2.3.1 データ利用の社会的ルール • 2.3.2 統計データの探索 • 2.3.3 社会調査データの探索 第3章 データの収集と編成 廣野元久 &高橋行雄

  15. 2.1 データの種類 • 集計データ(Aggregate Data) • 個別調査の結果を調査票から集計してあるデータ • 全体の傾向や集計単位ごとの比較など • 情報公開度は高い • 個票データ(Individual data) • 集計前の原データ • 集計データよりも細かい情報を必要とする場合 • 情報公開度は日本では僅か,ルールなど未整備 第3章 データの収集と編成 廣野元久 &高橋行雄

  16. データの作成:簡単なアンケート Excel の使用経験、データの編成は? 第3章 データの収集と編成 廣野元久 &高橋行雄

  17. 集計データの例 第3章 データの収集と編成 廣野元久 &高橋行雄

  18. 個票の例 第3章 データの収集と編成 廣野元久 &高橋行雄

  19. 2.2.1 政府機関のデータ(1) • (1)政府統計 • 大規模,継続性,信頼性,優れている • 日本 • 第一義統計(調査統計)  国勢調査,事業所統計調査,工業統計調査 など • 第二義統計(業務統計)  通関統計,犯罪統計,司法統計 など • 加工統計  経済統計,鉱工業生産指数 第3章 データの収集と編成 廣野元久 &高橋行雄

  20. 2.2.1 政府機関のデータ(2) • (2)行政情報 • 白書,インターネット情報 • テーマ,話題別の情報(非長期,非継続的) • 非公開なものもある 第3章 データの収集と編成 廣野元久 &高橋行雄

  21. 感染症のデータ(例) http://idsc.nih.go.jp/kanja/monthlydata/data99-3s.html 第3章 データの収集と編成 廣野元久 &高橋行雄

  22. データの取り込み(例) 第3章 データの収集と編成 廣野元久 &高橋行雄

  23. 2.2.2企業や民間の諸機関  • 企業内情報(非公開) • 財務指標,満足度,市場動向,技術動向 • 業界団体情報 • 場合によっては公開 • 消費者センター(製品情報など公開)    • 調査機関 • 販売,コンサルタント,モニターの貸出し • 報道機関:新聞紙面など • 学術研究機関:刊行物の発行 第3章 データの収集と編成 廣野元久 &高橋行雄

  24. 2.3 データの利用 • 2.3.1 データ利用の社会的ルール • 2.3.2 統計データの探索 • (1)統計情報の索引 • (2)総合統計書,年鑑類 • (3)統計データベースとインターネット • 2.3.3 社会調査データの探索 • (1)世論調査の索引 • (2)データアーカイブ 第3章 データの収集と編成 廣野元久 &高橋行雄

  25. 2.3.1 データ利用の社会的ルール • データにも著作権,DBや書籍にも著作権 • 日本は著作権に対してルーズな国と思われている • 淑女紳士的態度で利用しよう • 利用データの出典を明らかにする • 著者,書籍,DB,発行年など • DBなどは,利用ルールを厳守する • 個票データにはプライバシーの保護を!!! • 情報公開とプライバシー保護の問題は難しい 第3章 データの収集と編成 廣野元久 &高橋行雄

  26. 2.3.2 統計データの探索 • 統計情報の索引から統計調査項目を利用 • 年鑑類から数字を見ながら探す • データの出典なども利用 • (1)統計情報の索引 • 統計情報インデックス,統計調査総覧 • データ出典などにより直接,役所へ問い合わせる • (2)総合統計書,年鑑類 • 日本統計年鑑,朝日年鑑,読売年鑑, • 国連世界統計年鑑,理科年表 • 統計データベース(CD ROM)とインターネット • 検索エンジンの利用 • 日経NEEDS など 第3章 データの収集と編成 廣野元久 &高橋行雄

  27. 2.3.3 社会調査データの探索 • (1)世論調査の索引 • 世論調査年鑑 • (2)データアーカイブ • 統計データの保存,蓄積,利用 機関 • 米国は先進国(情報化大国IT戦略) • 世論調査:ローパーセンター • 社会科学:コンソーシアム 第3章 データの収集と編成 廣野元久 &高橋行雄

  28. 3.データの編成 • 生の食材は扱いにくい • 野菜は,丁度良い大きさに切り揃える • 魚は,焼く場合も,皮がパリと焼けるよう包丁をいれる • データも分析しやすいように表にまとめる • データを取ってから編成を考えてはダメ • データ分析のストーリに沿って収集&編成 第3章 データの収集と編成 廣野元久 &高橋行雄

  29. 3.1 データの編成 • 分析の目的に応じて, • データを並べる順序を示す編成を変える • 時間の推移による状況を把握するには,データは時間順序に 時系列データ;Time Series Data • 株価や為替の分析 • 寿命の分析(Survival Data) • 同じ時点について,異なる対象を観測して,その特徴を調べる クロスセクションデータ;Cross-Section Data • 工程データは,変数の取られる工程順に • 特徴が近いと思われる項目を近くに配置する • データ分析後に並べ替えられることもある • 複数時点での異なる対象を観測(3元データ);Panel Data 第3章 データの収集と編成 廣野元久 &高橋行雄

  30. データの編成(時系列データ) シャトーXXX(ボルドー赤ワイン) の初出荷時の価格 項目 i 時間 t 第3章 データの収集と編成 廣野元久 &高橋行雄

  31. データの編成(クロスセクションデータ) レーザープリンタの画質評価 項目 i 地域,種類,個体,刺激など j 第3章 データの収集と編成 廣野元久 &高橋行雄

  32. データの編成(パネルデータ) 時間 t 個体 k(官能評価など) 項目 i 地域,種類,個体,刺激など j 第3章 データの収集と編成 廣野元久 &高橋行雄

  33. 3.2 データ入力のための準備 このデータを実際にJMPに取り込んでみよう 第3章 データの収集と編成 廣野元久 &高橋行雄

  34. 3.2 データ入力のための準備 列情報 で指定 データは番号など 第3章 データの収集と編成 廣野元久 &高橋行雄

  35. 関連Webリンク集を選ぶ 第3章 データの収集と編成 廣野元久 &高橋行雄

  36. 学協会・各種団体・…を選ぶ 第3章 データの収集と編成 廣野元久 &高橋行雄

  37. 円グラフの例 http://www.jiko.nite.go.jp/ 第3章 データの収集と編成 廣野元久 &高橋行雄

  38. 円グラフの例 http://www.jiko.nite.go.jp/ 第3章 データの収集と編成 廣野元久 &高橋行雄

  39. 帯グラフの例 http://www.jiko.nite.go.jp/ 第3章 データの収集と編成 廣野元久 &高橋行雄

More Related