如何運用AI協助資產管理--筆記系列(1)
用最簡單的方式理解 Clustering
0. 引言:為什麼要談 clustering
在多數投資教材裡,我們非常習慣先學「預測」,用各種財務模型或AI 模型預測:
預測 EPS
預測股價
預測景氣
實務上更根本的問題是:在預測之前,有沒有先搞清楚我們在看的是什麼?如果我們把 NVDA、KO、JPM、XOM 放在同一個組合裡討論「平均報酬」,這個平均數本身是沒有經濟上的意義的。問題於在分類:而Clustering 的角色,就是在這裡。
它不是先回答:這些東西,本質上是不是同一類?這個問題看起來簡單,但它其實是所有量化投資的起點。
延伸閱讀:科技股分類比我們想像的複雜?
1. Clustering 是什麼
Clustering(分群)是 unsupervised learning(非監督學習)的一種演算法。
關鍵特徵只有兩個:
沒有標籤(no labels)
目標是讓「群內儘可能相似、群跟群之間儘可能不同」
如果用工程語言講,可以寫成:
Given data points x1,x2,...,xnx_1, x_2, ..., x_nx1,x2,...,xn,
find a partition such that intra-cluster distance is minimized, inter-cluster distance is maximized.
也就是說:
我們其實沒有標準答案(不同於標準的分類問題)
只能用資料彼此間的「距離」來定義結構
這個距離可以是:
歐氏距離(Euclidean distance)
cosine similarity
correlation distance
而不同的距離定義,會直接改變你看到的「市場結構」。
1.1. k-Means:最常用的方法
在所有 clustering 方法裡,k-means 是最直觀的一種。
它的流程可以簡化成三句話:
隨機選 k 個中心點(centroids)
把每個資料分配到最近的中心
重新計算中心,重複直到收斂
數學上就是在做這件事:
白話的意思是:
找到一組分群,讓每個點到其群中心的距離平方和最小。
這個方法的特性很重要:
假設群是「球狀」
對尺度(scale)很敏感
k 必須事先決定
所以 k-means 不是「正確答案」,實際上是一種先有假設的結構組織。
1.1.1. 把 Clustering 放進股票市場的應用
現在把問題轉成投資語言:假設我們有一組股票(例如:S&P500成份股),每一檔股票不是一個價格,而是一個特徵向量:
例如:
4W / 13W / 26W return(動能)
Volatility(波動)
Beta(市場敏感度)
Forward P/E(估值)
Revenue / EPS growth(成長)
ROIC / FCF margin(品質)
Debt-to-equity(槓桿)
所以每一檔股票,可以看成是一個多維空間中的點。
Clustering 要做的事情就是:在這個高維空間中,找出「行為相似」的股票群。
1.1.2. 實際應用
1.1.3. 關鍵 insight:Clustering 改變你看市場的方式
這裡有一個很重要的轉換:
我們可以知道傳統分類上S&P500有11個Sectors,像是:
Technology
Healthcare
Financials
但Clustering 並不是這樣以產業分類的,而是根據我們給的特徵值:
高動能成長
防禦現金流
景氣循環
投機高波動
這兩種分類的主要差異是:一個是「產業」,一個是「行為」。而市場真正影響報酬的,往往是後者。
2. K-mean的優勢與缺陷
2.1. 優勢
A. 它讓平均數變得有意義
如果你不分群,市場平均報酬是混合的,也就是我們會看不清主要報酬來自那個族群;像S&P500報酬主要來源為科技巨頭。
但分群之後,我們可以回答:
成長股平均報酬
防禦股平均波動
高 beta 群的 drawdown
這些才是可以用來決策的數字。
B. 它讓 rotation 被看見
市場常見的現象:
從 growth → defensive
從 tech → energy
Clustering 可以把這些變化轉成:
資金在不同 cluster 之間移動
這比看 sector 更精確。
C. 它是 AI 投資的第一層
如果你直接讓模型預測報酬,很容易 overfit。但如果你先做 clustering:
先理解結構
再在每個 cluster 裡建模型
這會更穩定。
2.2. 限制
但Clustering 並不是萬能。幾個實務上一定會遇到的問題:
A. k 的選擇是主觀的
當我們給定不同的k = 4、5、6…時,結果會不同。
沒有「正確答案」,只有:哪個結構對你的決策比較有用
B. 對尺度敏感
如果沒有標準化(standardization):
波動會主導分群
成長因子可能被忽略
C. 群的形狀假設
k-means 假設:群是圓形(convex)但市場其實不是。這也是為什麼後面會需要:
spectral clustering(下一篇再做介紹)
風險揭露
本文僅供學術與教育用途,不構成投資建議。文中分析為方法示範,結果受資料與模型設定影響,過去表現不代表未來,投資需自行承擔風險。
AI 輔助揭示
本文使用 AI 協助整理與表達,觀點與分析由作者獨立完成並審閱。


感謝好文分享