P7. データセットを吐き出す
社会調査で得られる生データは、料理で言えば「土が付いたままの野菜」や「まだ活きている魚」のようなものです。
これをそのまま調理(分析)しようとするのは、あまりに乱暴で、美味しくない(正しくない)結果に繋がってしまいます。
野菜の土を除き、調理に適した形の海鮮が、生鮮食料の売り場に並べられるように、
汎用的に使える具材(データ)が整えられた段階で地域の人達(チームメンバー)に開放するのは有意義です。
新しい角度で料理をしたいと思ったとき、料理が失敗したときに、
「完璧に下ごしらえされた食材」の状態から調理が再開できるという意味で有意義です。
どこまでが下ごしらえなのか?
- ありえない値の修正
- 逆転項目の処理
- 尺度得点の作成
- 変数の型(Factorなど)の定義
- 値ラベル・変数ラベルの付与
- 欠損値・外れ値の処理(あえて下ごしらえには入れないという考え方もアリ)
この辺りまでをmaesyori.Rの中で済ませておくことを推奨します。
このあとも永遠にデータをいじくり回すことになりますが、普遍的にやっておくべきところまで、という認識でOKです。
満足するまで処理ができたら吐き出す。
「うむ、このデータセットでよい、匂わないレベルにはなった」と、チームで判断したら、名前をつけて吐き出します。
RDS形式で吐き出しましょう。
csv形式で吐き出すと、変数の型を失い、ただの「文字」と「数字」の表に戻ってしまうのでだめです。
write_rds ( naiman_cxx_last, file = “naiman_clean.rds”)
前処理が完了したデータフレーム ‘naiman_cxx_last’ があると仮定。
成功したという知らせもなく、ひっそりとプロジェクトの中に生まれています。

これを’data’というフォルダの中に移動して保存しておくのが一般的です。
(演習ではRDSを推奨していますが、Pythonで分析をしたいチームメンバーがいる場合は、Parquetというファイル形式も良い選択肢だと思います。両方とも出力しておく、というのが正解かもしれません)
読み込んで利用する
プロジェクトの中に、このrdsファイルがあれば、maesyoriのスクリプトから離れても、すぐに読み込めます。
新しいスクリプトで、このデータセットを利用するときは、いつものセットと一緒に以下のように書いてあげたらよいです。
※Excelから読み込むときのような面倒な処理は不要です。
#ライブラリとファイル読み込み —————————————————————
rm(list = ls())
library(tidyverse)
library(summarytools)naiman <- read_rds(“naiman_clean.rds”)
・・・ここから、永遠にEDAと条件分岐を繰り返していくことになります。