業績予想修正検証チーム準備状況:効率的な検証のためのサンプリング法である層化抽出法

現在、検証チームの事前準備を、みんなで少しずつ手分けして実施している。

敏腕プログラマの加入により、検証用のサンプル数が10,000件を超えるという、嬉しい悲鳴をあげている。


自動的に取り込めるデータでの検証は問題ないのだが、各自のアイデアに基づく検証は手入力する場面もある。

さすがに10000件手入力は現実的ではないため、サンプリングが必要となる。


サンプリングで重要なことは、母集団の特性をいかに保持したまま少ない件数を抜き出すかだ。

単純なランダムサンプリングの場合、ある少数の集団の特性が失われる可能性があるので注意が必要だ。


今回検証で使う実際のデータで考えてみよう。

たとえば、市場ごとの件数を見てみる。

日本の市場ごとの比率

表のように、市場ごとにかなりの偏りがあることがわかるだろう。

札幌証券取引所の割合は0.4%であるため、100件しかサンプリングしない場合、0件もありうる。


ここからの進め方は、事前知識とどのような検証を実施するかに依存するが、市場ごとの特性を考慮し、ジャスダックとマザーズを“新興”、福証と札証を“東証外”とまとめてみる。
東証、新興市場ごとの比率

それでも東証外は少ないので、流動性なども考慮して思い切って除外するか、それとも意外とそこがおいしいかも知れないので、あえて東証外だけ別で検証するなど、キックオフミーティングでの議題としよう。


単純に母集団の特性を保持して300サンプルをサンプリングしたい場合、この市場ごとの割合でランダムに抽出する。
市場ごとの比率でサンプリング

これを「層化抽出法」と呼び、各種マーケティングリサーチや選挙の出口調査で使われる手法だ。


プログラムが苦手な読者は、非定型のIRデータをPDFから抜き出すなど、あえて手作業でしか検証し得ないシステムを目指すのも手だ。

なぜなら、そこはプログラマが面倒くさがってやらない領域なので、エッジが残っている可能性がある。


そんなとき、投下する労力をより効率的なものとするために「層化抽出法」を使ってみるといいだろう。

ちょっとしたことだが、そのわずかな優位性の積み重ねこそが後の巨万の富の種。

ゆめゆめおろかにしないよう。