特徴量エンジニアリング

特徴量エンジニアリングとは？

特徴量エンジニアリングは、生データを機械学習モデルが理解しやすい『特徴量』に変換するプロセスです。 例えば、Eコマースで「顧客の購買予測モデル」を作る場合、単なる「購入履歴」ではなく、「過去 3 ヶ月の平均購入額」「購入頻度」「お気に入り商品カテゴリ」など、予測に役立つ変数を作成します。

ひとことで言うと： 「石炭からダイヤモンドを磨き出す」作業。同じ原料（生データ）でも、加工次第でモデルの価値は 10 倍変わります。

ポイントまとめ：

何をするものか： 生データを、機械学習に最適な形に変換する技術
なぜ重要か： よい特徴量があると、単純なモデルでも高精度を実現。悪い特徴量では、最新のAIモデルでも精度は低い
誰が使うか： データサイエンティスト、機械学習エンジニア、ビジネスアナリスト

仕組みをわかりやすく解説

特徴量エンジニアリングは大きく 4 つのステップで進みます。

ステップ1：データ理解 — 生データの形を理解。欠損値、外れ値、分布を分析。

ステップ2：データクリーニング — 欠損値を補完、矛盾を修正、外れ値を処理。

ステップ3：データ変換 — 例えば、顧客年齢の範囲を「0～20 歳」「21～40 歳」「41～60 歳」などに分割（ビニング）。あるいは、「購入額の対数」を計算（スケーリング）。

ステップ4：特徴量作成 — 複数の変数を組み合わせて新しい変数を作成。例：「(購入額 × 購入頻度) / 顧客齢」といった相互作用項。

実装例：オンラインストアの「解約予測モデル」

生データ：  会員ID、登録日、購入日一覧、購入金額一覧
↓
特徴量エンジニアリング
↓
特徴量：
- 顧客齢（登録からの日数）
- 過去3ヶ月の購入頻度
- 平均購入額
- 最終購入からの日数（購買意欲の低下指標）
- 購入額の変動係数（安定性指標）

こうした特徴量があると、モデルは「購買活動が停止しかけている顧客」を効果的に検出できます。

実際の活用シーン

銀行のローンデフォルト予測 申込者の年収、勤続年数だけでなく、「年収 ÷ 月の返済額」（返済余裕度）、「直近 6 ヶ月の給与変動」などの特徴量を追加。モデル精度が 72% から 88% に向上。貸し倒れリスク削減。

医療の患者入院リスク予測 血圧、血糖値などの生検査データから、「(血圧 - 平均) / 標準偏差」などの正規化変数や、「血圧 × 年齢」といった相互作用項を作成。医師の勘より正確に高リスク患者を特定。

不正検知 クレジットカード取引で「取引額」「時間」だけでなく、「過去 24 時間の取引回数」「通常と異なる利用地域」など異常検知に有効な特徴量を作成。詐欺検知精度が大幅向上。

メリットと注意点

メリット： 適切な特徴量があると、単純で解釈しやすいモデル（決定木など）でも複雑なモデル（ニューラルネット）に匹敵する精度を実現。学習速度も向上。また、特徴量に「ビジネス上の意味」がある場合、モデル予測を説明しやすい。

注意点： 特徴量を作りすぎると「次元の呪い」に陥り、モデルが訓練データに過度に適応して、新しいデータで精度が落ちる（過学習）。バランスが重要。また、将来情報が漏れ込まないよう注意。例えば、「最終購入までの日数」を特徴量にしている場合、訓練時には過去データのみを使う必要があります。

主な手法の比較

スケーリングは数値範囲を統一（0～1正規化など）、ビニングは連続値をカテゴリ分割（年齢区分など）、One-Hotエンコーディングはカテゴリを数値化、相互作用項は複数変数の組み合わせ（購入額×購入頻度）、次元削減は変数を圧縮（PCA等）です。

よくある質問

Q: 特徴量エンジニアリングに正解はあるか？ A: ありません。ビジネス問題、データ形状、モデル選択により異なり、試行錯誤が必須です。

Q: 特徴量は何個まで作る？ A: 訓練データサイズの1/10程度が目安。100万行なら最大10万個まで。

Q: 自動特徴量生成は可能か？ A: 部分的に可能です。AutoMLで試行は可能ですが、ドメイン知識を反映した作成には人間関与が必須です。

特徴量エンジニアリング