決定木で分析を行う際、よく見かけるのがデータを放り込み、そのままの設定で木を成長させるというものだ。

そして何の工夫もないまま生成させた木に対して独善的な解釈を加えていく。


実際、上記のような使い方しかできないツールも多く、ツール開発者側も分析の本質を理解していないと言わざるを得ない。


あるツールがバージョンアップされたとき、分岐させる変数を自由に選択できなくなっていたので、提供会社に問い合わせたことがあった。

対応してくれた女性はリサーチに詳しく丁寧に受け答えしてくれてはいたが、言葉の端々で「何をそんなに文句いってるんだ、こいつ?」的な空気が電話口から伝わってきた。

それほどシンプルな分析でありながら使いこなせていないデータサイエンティストが多いのだろう。

(幸い、オプションの奥の方に希望の設定はあったが。)


ニューラルネットワークや自己組織化特徴マップなどの他の分析手法に対して決定木が優れている点は、解釈容易性である。

その特徴を活かすためには、分析者はデータに対する事前仮説をしっかりと持っておくことが重要だ。

データを放り込んだらあとはツールが何か出してくれるだろう、という姿勢では意味のある分析結果は絶対に得られない。

こういうレベルの人物に現在のビッグデータブームにのってドヤ顔でデータマイニングを語られると、これから真摯にデータマイニングを学ぼうと考えている人材をミスリードしてしまうのではと危惧してしまう。


システムトレードでも同様に、堅牢なシステムを構築しようと考えるならば、分岐させるべき変数にはマーケットメカニズムに基づく確固たる事前仮説を用意しておこう。


私にはその信念があったからこそ、土屋氏のセミナーの、ほぼ全員が聞き逃してしまったであろう決定木モデルに(もしかしたら唯一?)反応できたのだろう。

その時だけは、長年データマイニングに従事してきたことに感謝したものだった。