データ・アナリティクス

特徴量エンジニアリング

Feature Engineering

機械学習モデルの性能を向上させるため、生データを意味のある入力変数に変換するプロセス。データ前処理、特徴量作成、次元削減などの技術を含みます。

特徴量エンジニアリング データ前処理 機械学習 特徴量選択 データ変換
作成日: 2025年12月19日 更新日: 2026年4月2日

特徴量エンジニアリングとは?

特徴量エンジニアリングは、生データを機械学習モデルが理解しやすい『特徴量』に変換するプロセスです。 例えば、Eコマースで「顧客の購買予測モデル」を作る場合、単なる「購入履歴」ではなく、「過去 3 ヶ月の平均購入額」「購入頻度」「お気に入り商品カテゴリ」など、予測に役立つ変数を作成します。

ひとことで言うと: 「石炭から ダイヤモンドを磨き出す」作業。同じ原料(生データ)でも、加工次第でモデルの価値は 10 倍変わります。

ポイントまとめ:

  • 何をするものか: 生データを、機械学習に最適な形に変換する技術
  • なぜ重要か: よい特徴量があると、単純なモデルでも高精度を実現。悪い特徴量では、最新のAIモデルでも精度は低い
  • 誰が使うか: データサイエンティスト、機械学習エンジニア、ビジネスアナリスト

仕組みをわかりやすく解説

特徴量エンジニアリングは大きく 4 つのステップで進みます。

ステップ1:データ理解 — 生データの形を理解。欠損値、外れ値、分布を分析。

ステップ2:データクリーニング — 欠損値を補完、矛盾を修正、外れ値を処理。

ステップ3:データ変換 — 例えば、顧客年齢の範囲を「0~20 歳」「21~40 歳」「41~60 歳」などに分割(ビニング)。あるいは、「購入額の対数」を計算(スケーリング)。

ステップ4:特徴量作成 — 複数の変数を組み合わせて新しい変数を作成。例:「(購入額 × 購入頻度) / 顧客齢」といった相互作用項。

実装例:オンラインストアの「解約予測モデル」

生データ:  会員ID、登録日、購入日一覧、購入金額一覧
↓
特徴量エンジニアリング
↓
特徴量:
- 顧客齢(登録からの日数)
- 過去3ヶ月の購入頻度
- 平均購入額
- 最終購入からの日数(購買意欲の低下指標)
- 購入額の変動係数(安定性指標)

こうした特徴量があると、モデルは「購買活動が停止しかけている顧客」を効果的に検出できます。

実際の活用シーン

銀行のローンデフォルト予測 申込者の年収、勤続年数だけでなく、「年収 ÷ 月の返済額」(返済余裕度)、「直近 6 ヶ月の給与変動」などの特徴量を追加。モデル精度が 72% から 88% に向上。貸し倒れリスク削減。

医療の患者入院リスク予測 血圧、血糖値などの生検査データから、「(血圧 - 平均) / 標準偏差」などの正規化変数や、「血圧 × 年齢」といった相互作用項を作成。医師の勘より正確に高リスク患者を特定。

不正検知 クレジットカード取引で「取引額」「時間」だけでなく、「過去 24 時間の取引回数」「通常と異なる利用地域」など異常検知に有効な特徴量を作成。詐欺検知精度が大幅向上。

メリットと注意点

メリット: 適切な特徴量があると、単純で解釈しやすいモデル(決定木など)でも複雑なモデル(ニューラルネット)に匹敵する精度を実現。学習速度も向上。また、特徴量に「ビジネス上の意味」がある場合、モデル予測を説明しやすい。

注意点: 特徴量を作りすぎると「次元の呪い」に陥り、モデルが訓練データに過度に適応して、新しいデータで精度が落ちる(過学習)。バランスが重要。また、将来情報が漏れ込まないよう注意。例えば、「最終購入までの日数」を特徴量にしている場合、訓練時には過去データのみを使う必要があります。

主な手法の比較

スケーリングは数値範囲を統一(0~1正規化など)、ビニングは連続値をカテゴリ分割(年齢区分など)、One-Hotエンコーディングはカテゴリを数値化、相互作用項は複数変数の組み合わせ(購入額×購入頻度)、次元削減は変数を圧縮(PCA等)です。

関連用語

よくある質問

Q: 特徴量エンジニアリングに正解はあるか? A: ありません。ビジネス問題、データ形状、モデル選択により異なり、試行錯誤が必須です。

Q: 特徴量は何個まで作る? A: 訓練データサイズの1/10程度が目安。100万行なら最大10万個まで。

Q: 自動特徴量生成は可能か? A: 部分的に可能です。AutoMLで試行は可能ですが、ドメイン知識を反映した作成には人間関与が必須です。

関連用語

データ前処理

データ前処理は、生データを機械学習や分析に適した形式に変換する重要なプロセス。品質向上とモデル性能向上につながります。...

アンサンブル学習

複数のモデルを組み合わせて予測精度を向上させる機械学習手法で、単独モデルより堅牢で正確な結果を実現します。...

×
お問い合わせ Contact