P3_PBL変数型についての補足

ExcelデータをRに読み込んだら最初にすること

RにExcelデータを読み込んだら、まずはデータの中身をざっくり確認しましょう。
glimpse(オブジェクト名) を使うと、変数名・データ型・一部の値などが一覧で表示され、全体の構造を素早く把握できます。

ここでは、「すべての欠損を見つける」といった精密な確認ではなく、

  • 想定通りに読み込めているか
  • 文字化けしていないか
  • 読み込めていない列がないか
  • 各変数の型(数値・文字など)が妥当か
    といったポイントをざっくり確認するのが目的です。

特に初心者の方は、変数の型(例えば dblchr)の意味がわからないこともあると思います。以下に簡単に説明します。

変数の型の基本

知っておくべき変数型は多々ありますが、
演習で必須となるのは、Numericか、Factorか、Character型か、ということを意識することです。

glimpseで表示される略記

  • dbl:double(数値)= 小数を含む数値データ
  • int:integer(整数)= 小数を含まない数値データ
  • chr:character(文字列)= 名前や分類名などの文字データ
  • lgl:logical(論理型)= TRUE/FALSEで表されるデータ

glimpse() を使って最初にデータの「全体像」と「変数型」を確認することは、後の分析や前処理のために必須です。





変数の型が思った形でなかったときの対応方法

一時的な対応(箱ひげ図が1つしか表示されてしまう場合)

箱ひげ図(boxplot())を描いたときに 1つの箱しか表示されない場合、
カテゴリ変数として使いたい変数が 数値型(numeric) として扱われている可能性があります。
このままでは、カテゴリごとのグループ分けがされず、全体の箱ひげしか出力されません。

対処法(その場限りの型変換)

boxplot(hensu11 ~ as.factor(sex), data = naiman_cx)

as.factor() を使って、その場で因子型(factor)に変換することで、グループ別の箱ひげ図が描けます。

恒久的に変数型を正しく設定する(例:性別)

データ分析や可視化を繰り返す場合は、一時的な変換ではなく、
データフレームの変数型自体を正しく変換しておく方が望ましいです。

mutate()factor() を使った恒久的な変換の例

naiman_c10 <- naiman_c10 %>%
mutate(sex = factor(sex,
levels = c(1, 2), # 元の数値(例:1 = 男性, 2 = 女性)
labels = c("male", "female"))) # 表示用ラベルに変換

こうしておくと、以後の分析で「sex は男性・女性の2カテゴリ」として自動的に扱われるため、毎回 as.factor() を書く必要がなくなります。

おまけ:変数型について、もう少しだけ解説

繰り返しになりますが、重要なことは、赤字の変数型を意識することです。