前言

這篇整理了一些在處理不平衡資料集會進行的常見處理方式。

蒐集新特徵

抽樣方法:透過個體的複製與刪除,創造出比較平衡的資料集合

Oversampling:隨機複製陽性個體,使陽性與陰性在訓練集合的比例達到 1:1,這種方法最大的缺點是很容易讓 Specificity 下降 Undersampling:隨機刪除陰性個體,使陽性與陰性在訓練集合的比例達到 1:1,這種方法最大的缺點是很容易缺失某些陰性個體的資訊

產生合成樣本 (Synthetic Sample)

根據原本陽性樣本的分佈特徵,模擬出很類似的新陽性樣本,比如SMOTE / AdaSyn 等利用「最近鄰點」(Nearest Neighbors) 為出發的方法產生新資料 利用貝氏網絡 (Bayesian Network) 產生具有相似變數結構的新資料

GAN:利用生成與對抗模型產生相似分配的資料

成本導向的機器學習模型 (Cost-sensitive Classification): 將一般機器學習的損失函數 (loss function) 改為成本導向的損失函數