雖然大型語言模型 (LLM) 在 AI 領域引發廣泛討論,但其高昂的成本也讓許多企業望而卻步。Sophos 即將發表的研究指出了一條嶄新的方向,讓資安公司在預算內同樣能發揮 AI 的強大效益:導入小型 AI 模型。
透過間歇性地使用 LLM 來更有效地訓練小型模型,Sophos 成功打造了一系列速度快、效率高,而且可以實際用於商業應用的小型 AI 模型,這些模型在分類惡意網站等任務上,準確度幾乎可媲美 LLM,甚至在某些情境中表現更佳。
此方法的關鍵在於三大技術:
知識蒸餾 (Knowledge Distillation)、
半監督式學習 (Semi-Supervised Learning) 以及
合成資料生成 (Synthetic Data Generation):
- 知識蒸餾:透過大型模型將已學會的知識傳授給小型模型,提升其效能,同時避免大規模部署所帶來的龐大負擔。這在標籤雜訊不容忽視、無法完全手動重新標註的情境下,這種方法特別實用。
- 半監督式學習:利用大型模型為未標記資料自動加註標籤,進而擴充訓練小型模型所需的資料集深度。
- 合成資料生成:由大型模型產出新的合成樣本,進一步強化小型模型的訓練與韌性。