Home >> Blog >> 什麼是 MLOps?
什麼是 MLOps?
MLOps 代表機器學習操作。MLOps 是機器學習工程的核心功能,專注於簡化將機器學習模型投入生產,然後對其進行維護和監控的過程。MLOps 是一種協作功能,通常由數據科學家、devops 工程師、SEO優化專家和 IT 組成。
MLOps 有什麼用?
MLOps 是一種用於創建機器學習和 AI 解決方案並提高質量的有用方法。通過採用 MLOps 方法,數據科學家和機器學習工程師可以通過對 ML 模型進行適當的監控、驗證和治理來實施持續集成和部署 (CI/CD) 實踐,從而進行協作並加快模型開發和生產的步伐。
為什麼我們需要 MLOps?
生產機器學習是困難的。機器學習生命週期由許多複雜的組件組成,例如數據攝取、數據準備、模型訓練、模型調整、模型部署、模型監控、可解釋性等等。它還需要跨團隊的協作和交接,從數據工程到數據科學再到 ML 工程。自然,它需要嚴格的操作來保持所有這些過程同步和協同工作。MLOps 包含機器學習生命週期的實驗、疊代和持續改進。
MLOps 有什麼好處?
MLOps 的主要好處是效率、可擴展性和降低風險。效率:MLOps 允許數據團隊實現更快的模型開發、提供更高質量的 ML 模型以及更快的部署和生產。可擴展性:MLOps 還實現了巨大的可擴展性和管理,可以監督、控制、管理和監控數千個模型,以實現持續集成、持續交付和持續部署。具體來說,MLOps 提供了 ML 管道的可重複性,實現了跨數據團隊更緊密耦合的協作,減少了與 devops 和 IT 的衝突,並加快了發布速度。降低風險:機器學習模型通常需要監管審查和漂移檢查,
MLOps 的組成部分是什麼?
機器學習項目中 MLOps 的跨度可以與項目需求一樣集中或擴展。在某些情況下,MLOps 可以涵蓋從數據管道到模型生產的所有內容,而其他項目可能只需要模型部署過程的 MLOps 實施。大多數企業在以下方面部署 MLOps 原則:
- 探索性數據分析 (EDA)
- 數據準備和特徵工程
- 模型訓練和調優
- 模型審查和治理
- 模型推理和服務
- 模型監控
- 自動模型再訓練
MLOps 的最佳實踐是什麼?
MLOps 的最佳實踐可以通過應用 MLOps 原則的階段來描述。
- 探索性數據分析 (EDA) - 通過創建可重現、可編輯和可共享的數據集、表格和可視化,疊代地探索、共享和準備機器學習生命週期的數據。
- 數據準備和特徵工程- 疊代地轉換、聚合和刪除重複數據以創建精細的特徵。最重要的是,利用特徵存儲使特徵在數據團隊之間可見和可共享。
- 模型訓練和調優- 使用流行的開源庫,如 scikit-learn 和 hyperopt 來訓練和提高模型性能。作為更簡單的替代方案,使用 AutoML 等自動化機器學習工具自動執行試運行並創建可審查和可部署的代碼。
- 模型審查和治理- 跟踪模型沿襲、模型版本,並在其生命週期中管理模型工件和轉換。借助開源 MLOps 平台(例如 MLflow)發現、共享和協作跨 ML 模型。
- 模型推理和服務- 在測試和 QA 中管理模型刷新頻率、推理請求時間和類似的生產細節。使用 CI/CD 工具,例如 repos 和 orchestrators(借用 devops 原則)來自動化預生產管道。
- 模型部署和監控- 自動化權限和集群創建以生產註冊模型。啟用 REST API 模型端點。
- 自動模型再訓練- 創建警報和自動化以採取糾正措施,以防由於訓練和推理數據的差異導致模型漂移。
MLOps 和 DevOps 有什麼區別?
MLOps 是一組特定於機器學習項目的工程實踐,它藉鑑了軟體工程中更廣泛採用的 DevOps 原則。雖然 DevOps 為交付應用程序帶來了一種快速、持續疊代的方法,但 MLOps 借鑒了相同的原則將機器學習模型用於生產。在這兩種情況下,結果都是更高的軟體質量、更快的更新和發布以及更高的客戶滿意度。
什麼是 MLOps 平台?
MLOps 平台為數據科學家和軟體工程師提供了一個協作環境,可促進疊代數據探索、用於實驗跟踪、特徵工程和模型管理的實時協同工作能力,以及受控模型轉換、部署和監控。MLOps 自動化機器學習生命週期的操作和同步方面。