Topiqlo ロゴ

決定木

公開日: 2025/06/02

決定木とは?直感的で使いやすい機械学習の分類・回帰モデル

はじめに

決定木(Decision Tree)は、分類や回帰に使われるシンプルで分かりやすい機械学習モデルです。
データの特徴に基づいて条件分岐を繰り返し、ツリー構造で予測を行います。
この記事では決定木の基本構造や学習方法、メリット・デメリットをわかりやすく解説します。

基本情報・概要

決定木は、入力データの特徴量を使い条件分岐を行いながら、最終的に葉ノードでクラスや数値を予測します。
ルールベースで説明しやすいことが特徴です。

  • 主な特徴:

    • 分かりやすい可視化と解釈性
    • 分類問題・回帰問題の両方に対応
    • 過学習しやすいため剪定や正則化が重要
    用語説明
    ノードデータを分割する条件や結果を持つポイント
    ルートノード木の最上部のノード(最初の分割基準)
    葉ノード最終的な予測結果が出るノード
    分割基準情報利得やジニ不純度、分散減少などで最適な分割を決定

深掘り解説

  • 学習の流れ

    1. データ全体から最適な特徴と閾値で分割
    2. 分割後の各グループに対し再帰的に同様の処理を繰り返す
    3. 条件を満たすまでまたは規定の深さまでツリーを成長させる
  • 分割基準

    • 情報利得(Information Gain):エントロピーの減少量で判断
    • ジニ不純度(Gini Impurity):グループの混雑度を評価
    • 回帰では分散の減少を用いる
  • 剪定(プルーニング)
    過学習を防ぐため、不要な枝を切り落とす操作。

応用・発展的な使い方

  • 顧客分類やスパム検出
  • 医療診断の意思決定支援
  • 売上予測や需要予測の回帰分析
  • ランダムフォレストなどのアンサンブル学習の基礎モデル

よくある誤解と注意点

  • 決定木は単独で過学習しやすい
  • 大規模・高次元データには向かない場合がある
  • ノイズに敏感で枝が複雑になりやすい

まとめ

決定木は直感的で使いやすい機械学習モデルで、多くの実問題に適用可能です。
適切な分割基準や剪定を用いることで、過学習を抑えつつ高い性能を発揮します。
モデルの解釈性も高いため、説明が必要な場面で特に有用です。