決定木
Decision Tree
意思決定のロジックを樹形図で表現し、データから予測パターンを学習する機械学習手法を解説します。
決定木とは?
決定木は、データの中から「もしAなら、Bを選び、そうでなければCを選ぶ」というパターンを自動的に見つけ出す機械学習の手法です。 フローチャートのような樹形図で表現されるため、人間にも理解しやすいのが特徴です。顧客がローンを受けられるか、病気の診断、商品の売行き予測など、様々な場面で活用されています。
ひとことで言うと: 「データから『もし…なら…である』という意思決定ルールを自動で学習し、樹形図で表現する方法」です。
ポイントまとめ:
- 何をするものか: データを段階的に分割して、分類や予測を行う機械学習アルゴリズム
- なぜ必要か: 複雑なパターンを人間が理解できる形で学習でき、新しいデータへの予測ができる
- 誰が使うか: データサイエンティスト、アナリスト、医療・金融の専門家
なぜ重要か
ニューラルネットワークのようなブラックボックスモデルと違い、決定木なら「なぜそう予測したのか」が人間にも分かります。これは、医療診断、金融ローン判定など、「判断根拠を説明する必要がある」場面で極めて重要です。
また、複雑な前処理が不要です。カテゴリ型と数値型のデータを混在させることもでき、欠損値への対応も自然です。少ないデータからでも学習できるため、導入が容易なのも利点です。
仕組みをわかりやすく解説
決定木の学習プロセスは、大きく3つのステップで進みます。
第1段階:分割候補の探索 - 複数の特徴(年齢、収入、雇用状況など)について、データをどこで分割すれば、最も「グループが均一になるか」を計算します。例えば、「年齢が35歳以上か未満か」で分割したときと、「収入が50万円以上か未満か」で分割したとき、どちらがグループをきれいに分かれさせるかを判断します。
第2段階:最適分割の選択 - 最も効果的な分割を選んで、データを2つのグループに分けます。
第3段階:再帰的な分割 - 各グループに対して、同じプロセスを繰り返します。これを「葉」と呼ばれるノード(最終的な判定結果)に到達するまで続けるのです。
実例として、ローン審査で考えると、決定木は「まず信用スコアで分割→次に収入で分割→次に雇用状況で分割」という階層的なルールを自動的に学習します。結果として、「信用スコア650以上で、年収500万以上で、正社員なら、ローン許可」というルールが樹形図として表現されるわけです。
実際の活用シーン
医療診断への応用 患者の症状(発熱、咳、頭痛など)と検査結果から、「何の病気か」を予測する決定木を構築。医師の診断を補助し、誤診のリスクを低減しました。
顧客チャーンの予測 通信会社が利用パターンから「どの顧客が解約する可能性が高いか」を予測。ターゲットを絞った引き留め施策を実施でき、チャーン率を30%低減しました。
クレジットカード不正検出 取引額、時間帯、位置情報から「この取引は不正の可能性が高いか」を判定。複数の決定木を組み合わせたランダムフォレストにより、精度97%以上を実現しました。
メリットと注意点
決定木の最大のメリットは解釈可能性です。「なぜそう判定したのか」が樹形図で明確に分かります。また、複雑な前処理が不要で、導入が容易です。
一方、単一の決定木は「過学習」(訓練データに過適応して、新しいデータに対応できなくなる)しやすい傾向があります。対策として、複数の木を組み合わせたランダムフォレストや勾配ブースティングなどのアンサンブル手法が使われます。また、データに強い季節性やトレンドがあると、決定木だけでは対応しきれない場合もあります。
関連用語
- 機械学習 — 決定木が属する分野
- ランダムフォレスト — 複数の決定木を組み合わせた強力なモデル
- 勾配ブースティング — 複数の木を順序立てて構築する手法
- 分類 — 決定木の主な用途
- 説明可能性 — 決定木の大きな利点
よくある質問
Q: 決定木が過学習するのを防ぐには? A: 「剪定」という操作で、不要な枝を削除します。また、ランダムフォレストなど、複数の木を組み合わせる手法も効果的です。
Q: 決定木とニューラルネットワーク、どちらを選ぶべきですか? A: 判断根拠が重要なら決定木、高い予測精度が最優先ならニューラルネットワーク。実は両者を組み合わせる使い方もあります。
Q: 決定木は画像認識に使えますか? A: 直接は難しいですが、画像から特徴を先に抽出しておけば、決定木で分類は可能です。ただし、複雑な画像認識にはディープラーニングの方が一般的です。