クラスタリング分析とは何か──株式投資で「似ている銘柄」を見つけるための実践ガイド

株の用語
投稿日:2026.02.15
mv
目次

株式市場には、業種や時価総額、成長性、値動きの癖など、さまざまな軸で似ている銘柄が存在します。
クラスタリング分析は、これらの「似ている」をデータから自動的に拾い上げ、銘柄をグループ分けするためのアプローチです。教師データ(正解ラベル)を使わずに観測データの構造を可視化できるため、銘柄発掘・リスク管理・分散投資の設計など幅広い投資シーンで即効性があります。

伝統的な分類(セクターや業種区分)は人手の判断に基づくため大枠の理解に便利ですが、実際の株価はテーマ、需給、金利感応度、為替、決算サプライズなど多様な要因で動きます。
クラスタリング分析は、こうした「市場で一緒に動く・離れる」の実像をデータ駆動で描き出せるのが強みです。相関構造を把握して重複リスクを避ける、あるいは意図的に似た銘柄を集める戦略設計まで、応用の幅が広がります。

本記事では、株式投資におけるクラスタリング分析の基礎、特徴量(入力データ)の設計、代表的な手法の使い分け、評価・可視化・運用の勘所までを、実務フローに沿って網羅します。
手法名や指標は登場しますが、投資での意思決定につながる視点を中心に整理していきます。

クラスタリング分析の基礎と株式投資での意義

クラスタリング分析は「距離(似ている度合い)」を定義し、距離の近いデータを同じグループにまとめるのが核です。
株式での「距離」は、価格リターンの軌跡、ボラティリティ、出来高の変動、ファンダメンタルのプロファイル、ニュース感情など、何を似ているとみなすかで変わります。ここを投資目的と整合的に設計することが成功の鍵です。

クラスタを使う意義は三つに集約できます。第一に、相関の高い銘柄を束ねてポートフォリオの分散度合いを制御できること。第二に、業種横断の「隠れたテーマ」を抽出し、物色トレンドを把握しやすくすること。
第三に、通常のグループから外れた振る舞い(異常)を検知し、リスク察知やイベント検出に役立てられることです。

  • 分散投資の強化:似通った銘柄の重複を避け、真の分散度を高める
  • セクターを越えたテーマ発見:金利敏感株、高ベータ株、ディフェンシブ群などの実像を抽出
  • スクリーニングの効率化:候補群の中から類似クラスターを一括評価・比較
  • リスク管理:クラスタごとの下落耐性やイベント反応を把握し、ヘッジ設計に活用
  • 売買シグナル設計:クラスター平均からの乖離を利用したペア・バスケット戦略

市場環境は常に変わるため、クラスタの姿も時間とともに入れ替わります。
したがって「どの粒度で分類し、どれくらいの頻度で更新するか」を運用設計に落とし込むことが不可欠です。週次・月次などの更新リズムと、売買頻度やコストのバランスを先に定義しておくと、分析が実運用に結びつきやすくなります。

データ前処理と特徴量設計:株式ならではの勘所

クラスタリングの品質は、選ぶ特徴量と前処理で大きく左右されます。
株式では、価格ベースの時系列と、財務・需給・ニュースなどの説明変数をどう組み合わせるかが肝。期間の整合、スケールの統一、外れ値の扱いを丁寧に設計し、単一の尺度に偏らないようにします。

価格ベースの特徴量設計

直近1カ月・3カ月・12カ月のリターン、日次ボラティリティ、最大ドローダウン、ベータ(市場感応度)、出来高回転率、ギャップ頻度などは、値動きの癖を端的に捉えます。
さらに、銘柄同士の相関行列から「他銘柄との関係性」を要約する手法(相関距離の活用や相関に基づく埋め込み)を使うと、クラスタの解像度が高まります。

ファンダメンタルと流動性の組み込み

売上成長率、営業利益率、利益の安定度、ROE/ROIC、予想EPSの変化、配当性向、ネットキャッシュ、時価総額、浮動株比率、スプレッドといった特徴量は、企業の基礎体力と取引しやすさを反映します。
価格系列だけのクラスタは「動きが似ている」群に偏りがちなので、企業属性を織り込むとより実務的なグルーピングになります。

スケーリング、正規化、外れ値への耐性

特徴量のスケールが揃っていないと、距離計算が一部の変数に引っ張られます。
平均0・分散1への標準化、順位変換、対数変換、ロバストスケーリングを使い分けましょう。また、イベントで一時的に跳ねた値は、ウィンズorトリム(極端値の切り詰め)で安定化するのが定石です。

欠損値は単純補完に頼らず、「欠損自体が意味を持つ」可能性にも配慮します(例:配当未実施、予想未提示)。
期間の整合性も重要で、決算頻度や指数の再構成タイミングに合わせてサンプルを揃えると、クラスタのノイズが減ります。

代表的なクラスタリング手法の使い分け

k-means:速くて扱いやすい標準選手

重心(センチロイド)からの距離が最小になるよう反復的に割り当てる手法です。計算が速く、大規模銘柄にも適用しやすいのが利点。
一方で、クラスタ数kを事前に決める必要があり、非球面の形や密度差に弱い面があります。kの選定はエルボー法やシルエット係数を参考にしつつ、実務目的(運用の粒度、保有銘柄数)と整合させるのが現実的。特徴量のスケールに敏感なため、前処理の質が結果を大きく左右します。

階層型クラスタリング:関係の樹形図で理解を深める

デンドログラム(樹形図)で、細かい群から大きな群までの統合過程を可視化できるのが魅力です。
距離の定義(相関距離、ユークリッド)、結合法(ウォード法、完全連結、単連結)を変えることで、多様な粒度のクラスタが得られます。業種やサブテーマの階層を市場データから再構築するのに向いており、説明性が高いのが強みです。

混合ガウス(GMM):重なり合いを確率で扱う

各クラスタを確率分布の混合で表現し、銘柄が複数のクラスタに属する度合いを持てます。たとえば「成長株だがディフェンシブ性も一部ある」といった中間的な性質を表現しやすく、ソフトな割り当てが欲しい場面に有効です。
分布仮定への依存や初期値感度があるため、正則化と複数初期化での安定化がコツです。

DBSCAN/OPTICS:密度ベースでノイズに強い

近傍点が一定以上集まる領域をクラスタとみなし、孤立点(ノイズ)を自然に排除できます。イベントで一時的に異常な動きをした銘柄の検出や、群の外側にある銘柄の識別に役立ちます。
パラメータ(近傍半径や最小点数)の設定が結果に影響するため、スケールとサンプル密度に合わせたグリッド探索が効果的です。

距離・類似度の選択が結果を決める

値動きの類似や逆相関を重視するなら相関距離、方向性重視ならコサイン距離、絶対量の違いも評価するならユークリッド距離が候補です。
価格データの季節性や市場トレンドの影響を減らすため、相関距離+標準化の組み合わせはクラスタの安定化に有効。距離の選択は手法選び以上に重要で、投資目的に合わせて必ず検証しましょう。

実務フロー、評価、可視化、運用のポイント

思いつきでクラスタリングを回しても、投資リターンにはつながりません。
目的に合った設計・評価・可視化・更新サイクルまで含めた「運用の型」を作ることが成果への近道です。現場で使えるワークフローに落とし込むことで、分析がポートフォリオ改善へ直結します。

  • 目的定義:分散の強化か、テーマ抽出か、スクリーニング効率化かを明確化
  • データ取得・前処理:期間整合、スケーリング、外れ値・欠損の取り扱いを標準化
  • 手法選択とパラメータ探索:距離指標とクラスタ数をグリッドで検証
  • 学習と安定性チェック:期間ずらしの再学習で結果の揺れを評価
  • 可視化:2次元埋め込みや樹形図で人が直感的に理解できる形へ
  • 評価:内部指標+実務適合度(回転率、コスト、解釈容易性)で多面的に判断
  • 運用:更新頻度と活用先(リバランス、スクリーニング、ヘッジ)を明文化

評価指標と安定性の考え方

内部評価としては、シルエット係数、ダビーズ・ボウリン指数、クラスタ内分散などが挙げられます。
ただし、これらが高くても投資に直結しないことは多々あります。たとえば「安定しているが構成が極端で取引できない」クラスタは実務では使いにくい。推奨は、内部指標に加え、(1)月次でのクラスタ継続率、(2)売買コスト込みのバスケット検証、(3)極端相場での耐性チェックを組み合わせることです。

データ漏洩(未来の情報を使ってしまう問題)にも注意が必要です。
学習と評価の期間を厳密に分け、ウォークフォワード方式で繰り返し検証します。これにより、クラスタの入れ替わりや回転率、実運用上の手間まで見通せるようになります。

可視化と解釈の実務テクニック

PCAやUMAPなどで2次元に配置し、色でクラスタ、点の大きさで時価総額、形でセクターを示すと、群の性質を直感的に把握できます。
各クラスタの代表銘柄、平均リスク、平均成長性、ニュース頻度などを添えると、投資会議での説明力が一段上がります。階層クラスタの樹形図から、上位テーマと下位サブテーマを読み解くのも有効です。

活用例:ポートフォリオ、スクリーニング、シグナル

ポートフォリオでは、各クラスタから均等に採る「クラスタ均等配分」で重複リスクを抑え、逆相関クラスタを組み合わせて下落相場のドローダウンを緩和できます。
スクリーニングでは、目標銘柄に似た群から代替候補を見つける、あるいは逆に「今までと違う性格の銘柄」を抽出する活用が考えられます。シグナル設計では、クラスタ中心からの乖離や、クラスタ内のリーダー/ラガードの入れ替わりをトリガーにした戦略が機能しやすいです。

実装のヒントと運用設計

実装面では、距離行列のキャッシュ、バッチ更新、並列化で計算を安定・高速化できます。
学習は月末時点の情報で行い翌月の運用に使うなど、明確な時系列分離を徹底。銘柄の入れ替えルール(新規上場、指数入替)も事前に規定し、クラスタ再推定時に整合を取ります。結果の配布は、クラスターID、代表銘柄、要約統計を定形フォーマットで出力すると、日々の運用に溶け込みます。

まとめ:銘柄を上手に「仲間分け」して投資をラクにする

株の世界で「なんとなく似ている」を感覚だけで追うのは大変です。
データで銘柄を仲間分けすれば、重なりすぎた持ち方を避けたり、思わぬ組み合わせを見つけたりと、日々の判断がシンプルになります。大事なのは、目的に合った物差しを選ぶことと、やり方を決めてくり返し回すこと。むずかしい数式がなくても、基本の手順を守れば十分に役立ちます。

最初は、値動きといくつかの企業指標だけで小さく試し、見やすい図を作って現状を把握するところから始めましょう。
更新のタイミングや使い道(分散の調整、候補探し、見張り役)を決めておけば、分析がそのまま行動につながります。似たもの同士を見つけ、違いを味方につける――その素直な発想が、相場の波にもぶれにくい投資の土台になります。

矢印一覧へ戻る