データ前処理

データ前処理とは？

データ前処理は、生の不完全なデータを、機械学習や分析に適したクリーンで構造化された形式に変換するプロセスです。 欠損値の補完、重複の削除、異常値の処理、データ型の統一などが含まれます。データサイエンティストが実務で費やす時間の60～80%がこのステップであり、モデル性能を大きく左右する最重要フェーズです。

ひとことで言うと： 料理に例えると、野菜を洗う・皮むき・カットする下準備。これが丁寧でないと、せっかくの良い食材も台無しになってしまいます。

ポイントまとめ：

何をするものか： 生データをクリーニングし、分析可能な形に整えます
なぜ必要か： モデル精度向上とエラー削減に直結します
誰が使うか： データサイエンティスト、分析エンジニア、データエンジニアが中心です

なぜ重要か

実世界のデータは常に不完全です。欠損値（入力されなかった情報）、外れ値（異常な値）、形式の不整合（日付フォーマットがバラバラなど）、重複レコード（同じ顧客が2回登録されているなど）が含まれます。

これらの問題をそのままモデルに与えると、モデルは不正確に学習し、予測精度が低下します。例えば、顧客の年齢データに「999」という明らかな異常値が含まれていると、平均年齢の計算が完全に狂ってしまいます。前処理でこうした問題を事前に修正することで、モデルは正確なパターンを学習でき、信頼性の高い予測が可能になります。

仕組みをわかりやすく解説

データ前処理は、大きく分けて5つのステップで進みます。

**データ探索（Exploration）**では、データセットの全体像を把握します。カラム数、行数、データ型、欠損値の割合、統計的特性を調べます。データクリーニングでは、重複レコードを削除し、明らかなエラーを修正します。例えば、日付が「2025-13-45」という無効な値なら、それを削除するか「NULL」に置き換えます。

欠損値処理では、欠損データが多い場合は削除し、少ない場合は平均値や中央値で補完します。外れ値処理では、統計手法（zスコア分析）で異常値を特定し、削除するか変換するかを判断します。特徴量エンジニアリングでは、既存のカラムから新しい情報を生成します。例えば、「生年月日」から「年齢」や「世代」を計算するなど、ビジネス的に有用な特徴を作ります。

最後に、標準化・正規化により、数値の尺度を統一します。年齢（0～100）と年収（0～1000万）では尺度が大きく異なるため、アルゴリズムが正しく学習できません。

実際の活用シーン

クレジットカード不正検知

銀行は、トランザクションデータから不正を検知するモデルを構築します。このデータには、処理されなかったトランザクション（NULL値）や、システムエラーによる異常な金額が含まれます。前処理で外れ値を除去し、欠損値を適切に補完し、時間帯や曜日などの特徴を追加することで、モデルが不正パターンをより正確に認識できるようになります。

顧客離脱予測

通信会社は、顧客が解約するかどうかを予測するモデルを構築します。データには、顧客が登録時に記入したプロフィール（多くの欠損値あり）、月別の利用料金、サポート連絡数が含まれます。前処理で欠損値を埋め、異常な利用パターンを同定し、「月あたり平均支出」「サポート連絡頻度」などの有用な特徴を作成することで、予測精度が大幅に向上します。

メリットと注意点

データ前処理の最大のメリットは、モデル精度の向上です。クリーンなデータを与えると、モデルはより正確に学習できます。計算効率の改善も重要で、不要なカラムを削除することでメモリ使用量が削減でき、学習時間が短くなります。解釈可能性の向上もあります。適切に加工されたデータは、結果の理由を説明しやすくなります。

注意点として、过度な処理による情報喪失があります。外れ値を全部削除すれば、貴重な情報（例：新しい詐欺パターン）も消えてしまいます。プライバシーとのバランスも重要で、個人識別情報を削除する必要がありながらも、分析に必要な情報を残す配慮が必要です。再現性の確保も課題で、前処理の手順が明確に文書化されていないと、新しいデータで同じ処理ができません。

よくある質問

Q: データの何%が欠損していたら、そのカラムを削除すべきですか？

A: 一般的には、欠損率が50%を超えていたら削除を検討します。ただし、そのカラムがビジネスで重要なら、補完を試みる価値があります。ドメイン知識とビジネス要件に基づいて判断すべきです。

Q: 外れ値は全部削除すべきですか？

A: いいえ。外れ値の中に重要な情報が隠れていることもあります。例えば、不正検知では、通常と異なるトランザクション（外れ値）こそが重要です。外れ値を記録し、その理由を調査することが大切です。

Q: 訓練データとテストデータで前処理は同じ方法で実施すべきですか？

A: はい。重要なポイントです。訓練データで得た統計値（平均値、最小値など）を使用して、テストデータも同じ方法で変換する必要があります。これによって公平な評価が可能になります。

データ前処理