Home >> Blog >> 了解 AUC - ROC 曲線
了解 AUC - ROC 曲線
在機器學習中,性能測量是一項必不可少的任務。因此,當涉及到分類問題時,我們可以依靠 AUC - ROC 曲線。當我們需要檢查或可視化多類分類問題的性能時,我們使用 AUC(曲線下面積)ROC(接收器操作特徵)曲線。它是檢查任何分類模型性能的最重要的評估指標之一。它也被寫為 AUROC(接收器工作特性下的區域 )
注意:為了更好地理解,我建議你閱讀我關於混淆矩陣的文章。
本博客旨在回答以下問題:
- 什麼是 AUC - ROC 曲線?
- 定義 AUC 和 ROC 曲線中使用的術語。
- 如何推測模型的性能?
- 靈敏度、特異性、FPR 和閾值之間的關係。
- 多類模型如何使用AUC-ROC曲線?
什麼是 AUC - ROC 曲線?
AUC - ROC 曲線是在各種閾值設置下對分類問題的性能度量。ROC 是概率曲線,AUC 表示可分離性的程度或度量。它告訴模型能夠區分類別的程度。AUC 越高,模型越能將 0 類預測為 0,將 1 類預測為 1。以此類推,AUC 越高,模型在區分患有疾病和沒有疾病的患者方面越好。
ROC 曲線是用 TPR 對 FPR 繪製的,其中 TPR 在 y 軸上,FPR 在 x 軸上。
定義 AUC 和 ROC 曲線中使用的術語。
TPR(真陽性率)/召回率/靈敏度
特異性
FPR
如何推測模型的性能?
一個優秀的模型的 AUC 接近於 1,這意味著它具有良好的可分離性度量。一個較差的模型的 AUC 接近 0,這意味著它具有最差的可分離性度量。事實上,這意味著它正在回報結果。它將 0 預測為 1,將 1 預測為 0。當 AUC 為 0.5 時,意味著模型沒有任何分類能力。
讓我們解釋一下上面的陳述。
眾所周知,ROC 是一條概率曲線。因此,讓我們繪製這些概率的分佈:
注:紅色分佈曲線為陽性類(有病患者),綠色分佈曲線為陰性類(無病患者)。
這是一個理想的情況。當兩條曲線完全不重疊時,意味著模型具有理想的可分離性度量。它完全能夠區分正類和負類。
當兩個分佈重疊時,我們會引入類型 1 和類型 2 錯誤。根據閾值,我們可以最小化或最大化它們。當 AUC 為 0.7 時,意味著模型有 70% 的機會能夠區分正類和負類。
這是最壞的情況。當 AUC 約為 0.5 時,模型沒有區分正類和負類的區分能力。
當 AUC 大約為 0 時,模型實際上是對類進行交互。這意味著模型將負類預測為正類,反之亦然。
靈敏度、特異性、FPR 和閾值之間的關係。
敏感性和特異性彼此成反比。因此,當我們增加靈敏度時,特異性會降低,反之亦然。
敏感性⬆️、特異性⬇️和敏感性⬇️、特異性⬆️
當我們降低閾值時,我們得到更多的正值,因此它增加了靈敏度並降低了特異性。
同樣,當我們增加閾值時,我們會得到更多的負值,因此我們會獲得更高的特異性和更低的靈敏度。
正如我們所知,FPR 是 1 - 特異性。因此,當我們增加 TPR 時,FPR 也會增加,反之亦然。
TPR⬆️、FPR⬆️和TPR⬇️、FPR⬇️
如何將 AUC ROC 曲線用於多類模型?
在多類模型中,我們可以使用 One vs ALL 方法繪製 N 個類別的 N 個 AUC ROC 曲線。因此,例如,如果您有三個名為X、Y和Z的類,您將有一個用於 X 的 ROC 針對 Y 和 Z 分類,另一個用於 Y 的 ROC 針對 X 和 Z 分類,以及 Z 中的第三個針對 Y 和X。
謝謝閱讀。
我希望我已經讓您對 AUC - ROC 曲線的確切含義有所了解。如果你喜歡這篇文章,給這篇文章鼓掌 👏 會給你一點額外的動力。我總是對您的問題和建議持開放態度。你可以在 Facebook、Twitter、Linkedin 上分享這個,所以有需要的人可能會偶然發現這個。
您可以通過以下方式聯繫我: