P7. データセットを吐き出す

社会調査で得られる生データは、料理で言えば「土が付いたままの野菜」や「まだ活きている魚」のようなものです。
これをそのまま調理(分析)しようとするのは、あまりに乱暴で、美味しくない(正しくない)結果に繋がってしまいます。

野菜の土を除き、調理に適した形の海鮮が、生鮮食料の売り場に並べられるように、
汎用的に使える具材(データ)が整えられた段階で地域の人達(チームメンバー)に開放するのは有意義です。

新しい角度で料理をしたいと思ったとき、料理が失敗したときに、
「完璧に下ごしらえされた食材」の状態から調理が再開できるという意味で有意義です。

どこまでが下ごしらえなのか?

  • ありえない値の修正
  • 逆転項目の処理
  • 尺度得点の作成
  • 変数の型(Factorなど)の定義
  • 値ラベル・変数ラベルの付与
  • 欠損値・外れ値の処理(あえて下ごしらえには入れないという考え方もアリ)

この辺りまでをmaesyori.Rの中で済ませておくことを推奨します。
このあとも永遠にデータをいじくり回すことになりますが、普遍的にやっておくべきところまで、という認識でOKです。

満足するまで処理ができたら吐き出す。

「うむ、このデータセットでよい、匂わないレベルにはなった」と、チームで判断したら、名前をつけて吐き出します。
RDS形式で吐き出しましょう。
csv形式で吐き出すと、変数の型を失い、ただの「文字」と「数字」の表に戻ってしまうのでだめです。

write_rds ( naiman_cxx_last, file = “naiman_clean.rds”)

前処理が完了したデータフレーム ‘naiman_cxx_last’ があると仮定。

成功したという知らせもなく、ひっそりとプロジェクトの中に生まれています。

これを’data’というフォルダの中に移動して保存しておくのが一般的です。
(演習ではRDSを推奨していますが、Pythonで分析をしたいチームメンバーがいる場合は、Parquetというファイル形式も良い選択肢だと思います。両方とも出力しておく、というのが正解かもしれません)

読み込んで利用する

プロジェクトの中に、このrdsファイルがあれば、maesyoriのスクリプトから離れても、すぐに読み込めます。
新しいスクリプトで、このデータセットを利用するときは、いつものセットと一緒に以下のように書いてあげたらよいです。
※Excelから読み込むときのような面倒な処理は不要です。

#ライブラリとファイル読み込み —————————————————————

rm(list = ls())
library(tidyverse)
library(summarytools)

naiman <- read_rds(“naiman_clean.rds”)

・・・ここから、永遠にEDAと条件分岐を繰り返していくことになります。