Ma.02 オープンデータを活用する

データ分析のマイプロジェクト(naimanの発表会以降の分析)を始めるにあたり、最初の関門は「どこにデータがあるか」だと思います。
データそのものは、インターネット上に広く公開されていますが、玉石混交です。

せっかくならば、自身の興味にあったものを選択するのが良いかと思っております。
やみくもに検索しても良いデータに出会う可能性はあると思いますが、以下の「王道」データソースも知っていて、損はないかと思います。

なお、この演習では、データの種類や集め方、N数(サンプルサイズ)などは特に指定しません。
ご自身のサーバーでログを収集したり、APIを用いてデータを収集・作成したりするのも一向に構いません。

e-Stat (政府統計の総合窓口)

https://www.e-stat.go.jp
日本のデータ分析において、最重要のプラットフォーム。
総務省統計局が中心となり、日本の公的統計(基幹統計を含む)が集約されています。

SSDSE(教育用標準データセット)

https://www.nstac.go.jp/use/literacy/ssdse/
統計センターが提供する、e-Statのデータ等を教育用に使いやすく加工したデータセットです。

Kaggle ★

https://www.kaggle.com/datasets
分析のコンペティションで有名ですが、純粋なデータセットの宝庫です。
研究用のデータセットとしては耐えられないと思いますが、練習・演習のデータセットとしてはかなり優秀だと思います。登録して利用できます。

専門分野別の詳細データの例

2.1. 医療・健康分野

  • NDBオープンデータ(厚労省): https://www.mhlw.go.jp/ndb/opendatasite/
    • レセプト情報・特定健診等情報データベース(NDB)から作成された統計表。
      地域別・年齢階級別の医薬品の使用状況、特定健診の結果など、大規模データに基づく分析が可能。
  • 死因データベース(国立社会保障・人口問題研究所): https://www.ipss.go.jp/p-toukei/JMD/00/index.html
    • 死因・年齢・性・都道府県別の詳細な死亡データ(死亡率、死亡数など)を利用できます。
  • がん登録(がん情報サービス): https://ganjoho.jp/reg_stat/statistics/data/dl/index.html
    • 全国がん登録のデータに基づき、部位別・都道府県別の罹患率、死亡率などの統計(集計結果)が公開されています。
  • 厚生指標((一財)厚生労働統計協会): https://www.hws-kyokai.or.jp/information/hpinfo.html
    • 健康・福祉関連の各種指標がありますが、ほぼリンクが死んでいます(例:平均寿命、健康寿命、医療費など)。

2.2. 労働・職業分野

  • 職業情報提供サイト(j-o-b tag)(厚労省): https://shigoto.mhlw.go.jp/User/download
    • 各職業の業務内容、求められるスキル、知識、労働条件、関連する資格などの詳細なデータがダウンロード可能。
      キャリア分析や労働市場の研究に使える可能性があるとのことです。
      欠損値がかなり多く、利用にはハードルがあるとは思います。
  • gBIzinfor(経産省): https://info.gbiz.go.jp/hojin/DownloadTop
    • 法人活動情報の最新情報を情報種別の単位でダウンロードすることができる。
    • 法人活動情報…政府が保有している届出認定情報、表彰情報、補助金情報、調達情報、特許情報、財務情報、職場情報。

2.3. 地理・空間情報

  • 国土数値情報ダウンロードサイト(国土交通省): https://nlftp.mlit.go.jp/
    • 行政区域、道路、鉄道、地価公示、医療機関、福祉施設の位置情報など、多様な地理空間データ(GISデータ)。

3. 社会調査アーカイブ(個票データ・二次分析用)

これまでは主に「集計表」でしたが、大学院の演習では「個票(マイクロデータ)」を用いた、より高度な統計分析(例:回帰分析、ロジスティック回帰)が求められます。以下のアーカイブは、そのためのデータを提供しています。

  • SSJDA (東大社会科学研究所附属社会調査・データアーカイブ研究センター): https://ssjda.iss.u-tokyo.ac.jp/Direct/?lang=jpn
    • 日本の代表的な社会調査(JGSS: 日本版総合社会調査など)の個票データ(調査対象者一人ひとりの回答データ)が利用できます。
      ※利用には申請が必要ですが、希望があれば、「研究目的」を明記して、稲垣に依頼してください。依頼が通れば、数日でデータをいただけるようです。
  • ICPSR (Inter-university Consortium for Political and Social Research): https://www.icpsr.umich.edu/sites/icpsr/home
    • ミシガン大学が中心となって運営している社会科学系データアーカイブ。
      ※すぐにデータを提供してくれます。(がファイルの構造が難しかったりします。)

4. 探索的データソース・リンク集

Googleトレンド: https://trends.google.co.jp/trends/?geo=JP
特定のキーワードがGoogleでどれだけ検索されているかの推移を示します。社会の関心や季節性などを把握し、分析の「問い」を立てるヒントとして有用です。

Google Dataset Search: https://datasetsearch.research.google.com/
世界中のデータセット(政府、学術機関、雑誌の表など)を横断的に検索できます。
(検索できすぎてしまって、逆に使いにくいです、ある程度AIにたずねてからでないと使えないと思います)

大学等のリンク集「案内所」
東大CSRDA リンク集: https://csrda.iss.u-tokyo.ac.jp/csrda/link.html
阪大(石黒先生)統計・データリンク: https://ngoishi.com/stats.html

前の記事

Ma.01. SSDSEを活用