使用Python進行異常檢測的解決方案

2020-10-26 08:44

如圖所示，我們沒有太多異常數據，所以，如果我們從75％的值開始，會是比較好的結果，但為了安全起見，我會從平均值開始。所以我們將從平均值和更低的概率范圍開始檢查這個范圍內每個概率的f1分數。首先，定義一個函數來計算真正例、假正例和假反例：def tpfpfn（ep）：

tp， fp， fn ＝ 0， 0， 0
for i in range（len（y））：
if p［i］＜＝ ep and y［i］［0］＝＝ 1：
tp ＋＝ 1
elif p［i］＜＝ ep and y［i］［0］＝＝ 0：
fp ＋＝ 1
elif p［i］＞ ep and y［i］［0］＝＝ 1：
fn ＋＝ 1
return tp， fp， fn

列出低于或等于平均概率的概率。eps ＝［i for i in p if i ＜＝ p．mean（）］

檢查一下列表的長度len（eps）

輸出：133

根據前面討論的公式定義一個計算f1分數的函數：def f1（ep）：
tp， fp， fn ＝ tpfpfn（ep）
prec ＝ tp／（tp ＋ fp）
rec ＝ tp／（tp ＋ fn）
f1 ＝ 2＊prec＊rec／（prec ＋ rec）
return f1

所有函數都準備好了！現在計算所有epsilon和我們之前選擇的概率值范圍的f1分數。f ＝［］
for i in eps：
f．append（f1（i））
f
輸出：［0．14285714285714285，
0．14035087719298248，
0．1927710843373494，
0．1568627450980392，
0．208955223880597，
0．41379310344827586，
0．15517241379310345，
0．28571428571428575，
0．19444444444444445，
0．5217391304347826，
0．19718309859154928，
0．19753086419753085，
0．29268292682926833，
0．14545454545454545，

這是f分數表的一部分，它的長度是133。f分數通常在0到1之間，其中f1得分越高越好，所以，我們需要從剛才計算的f分數列表中取f的最高分數。現在，使用“argmax”函數來確定f分數值最大值的索引。np．array（f）．argmax（）
輸出：131

現在用這個索引來得到閾值概率。e ＝ eps［131］

輸出：6．107184445968581e－05

找出異常實例現在我們有了臨界概率，可以從中找出我們訓練數據的標簽了。如果概率值小于或等于該閾值，則數據為異常數據，否則為正常數據。我們將正常數據和異常數據分別表示為0和1，label ＝［］
for i in range（len（df））：
if p［i］＜＝ e：
label．append（1）
else：
label．append（0）
label
輸出：［0，
0，
0，
0，
0，
0，
0，
0，
0，
0，

這是標簽列表的一部分。我將在上面的訓練數據集中添加此標簽：df［＇label＇］＝ np．array（label）

df．head（）

使用Python進行異常檢測的解決方案