P3_PBL変数型についての補足
ExcelデータをRに読み込んだら最初にすること
RにExcelデータを読み込んだら、まずはデータの中身をざっくり確認しましょう。glimpse(オブジェクト名)
を使うと、変数名・データ型・一部の値などが一覧で表示され、全体の構造を素早く把握できます。
ここでは、「すべての欠損を見つける」といった精密な確認ではなく、
- 想定通りに読み込めているか
- 文字化けしていないか
- 読み込めていない列がないか
- 各変数の型(数値・文字など)が妥当か
といったポイントをざっくり確認するのが目的です。
特に初心者の方は、変数の型(例えば dbl
や chr
)の意味がわからないこともあると思います。以下に簡単に説明します。
変数の型の基本

知っておくべき変数型は多々ありますが、
演習で必須となるのは、Numericか、Factorか、Character型か、ということを意識することです。
glimpseで表示される略記
dbl
:double(数値)= 小数を含む数値データint
:integer(整数)= 小数を含まない数値データchr
:character(文字列)= 名前や分類名などの文字データlgl
:logical(論理型)= TRUE/FALSEで表されるデータ
glimpse()
を使って最初にデータの「全体像」と「変数型」を確認することは、後の分析や前処理のために必須です。
変数の型が思った形でなかったときの対応方法
一時的な対応(箱ひげ図が1つしか表示されてしまう場合)
箱ひげ図(boxplot()
)を描いたときに 1つの箱しか表示されない場合、
カテゴリ変数として使いたい変数が 数値型(numeric) として扱われている可能性があります。
このままでは、カテゴリごとのグループ分けがされず、全体の箱ひげしか出力されません。
対処法(その場限りの型変換):
boxplot(hensu11 ~ as.factor(sex), data = naiman_cx)
as.factor()
を使って、その場で因子型(factor)に変換することで、グループ別の箱ひげ図が描けます。
恒久的に変数型を正しく設定する(例:性別)
データ分析や可視化を繰り返す場合は、一時的な変換ではなく、
データフレームの変数型自体を正しく変換しておく方が望ましいです。
mutate()
と factor()
を使った恒久的な変換の例:
naiman_c10 <- naiman_c10 %>%
mutate(sex = factor(sex,
levels = c(1, 2), # 元の数値(例:1 = 男性, 2 = 女性)
labels = c("male", "female"))) # 表示用ラベルに変換
こうしておくと、以後の分析で「sex
は男性・女性の2カテゴリ」として自動的に扱われるため、毎回 as.factor()
を書く必要がなくなります。
おまけ:変数型について、もう少しだけ解説
繰り返しになりますが、重要なことは、赤字の変数型を意識することです。
