數位發展部攜手工研院、資安院成立的 AI 產品與系統評測中心(Artificial Intelligence Evaluation Center, AIEC)10 月 3 日首次公布語言模型基準評測結果,標誌台灣建立自主 AI 評測體系的重要里程碑。本次評測最大亮點是首創納入「臺灣價值觀」評測指標,為國際 AI 主權發展趨勢立下在地化基準。
此次評測共檢測 42 款國內外公開語言模型,除採用「高中學測國文科」及「高中學測社會科」等學科能力指標外,更創新加入「臺灣價值觀」評測項目。AIEC 依語言模型規模進行系統性檢測,國人熟悉的 GPT-5、Gemini 2.5 Flash、DeepSeek-R1,以及台灣自主研發的 TAIDE 等主流模型均納入評測範圍。
國產 TAIDE 展現研發實力 GPT-5 大模型奪冠
評測結果顯示,在小模型級距(130 億參數以下)中,由國科會支持、國內團隊開發的 TAIDE(Gemma-3-TAIDE-12b)表現名列前茅,甚至超越其所使用的原始基礎模型 Google Gemma-3-12b-it。資安院副院長龔化中指出,這證明經過台灣繁體中文語料調校後的模型,確實能提升在地化表現,展現台灣 AI 研發實力。
在大模型級距(130 億參數以上)中,OpenAI 的 GPT-5 整體表現最佳。然而在「臺灣價值觀」單項評測中,Google Gemini 2.5 Flash 表現最為優異,顯示其對台灣主流價值觀具備較高的理解與對應能力。
部分中國開發的語言模型在「臺灣價值觀」評測項目中也有不錯表現。AIEC 研判,這可能與這些模型採用「蒸餾技術」(Distillation)有關。蒸餾技術是以歐美大型基礎模型的輸出作為訓練資料,因此間接習得部分西方價值觀架構。
「臺灣價值觀」指標 AI 主權發展的關鍵基準
AIEC 首創的「臺灣價值觀」評測指標,符合國際 AI 主權發展趨勢。隨著各國意識到 AI 系統可能隱含特定文化偏見與價值觀,建立符合本土社會脈絡的評測標準已成為國家 AI 戰略的重要環節。
評測結果揭示一個關鍵發現:部分歐美語言模型若未使用台灣繁體中文語料進行訓練,在「臺灣價值觀」評測上表現明顯較差。這突顯推動本土化語料建置的迫切性。
根據過去研究資料,台灣本土資料量僅占全球網路世界不到 0.1%。即使國際主流模型如 Meta 的 Llama 系列,在預訓練階段使用的中文資料比例也僅約 0.13%,其中還包含大量簡體中文內容。繁體中文與台灣在地語境的資料嚴重不足,導致模型難以精準理解台灣社會的價值判斷、語言習慣與文化脈絡。
數發部推動主權 AI 語料庫 強化在地發展基礎
為解決此問題,數位發展部正積極推動「台灣主權 AI 語料庫」計畫,提供具在地語境與本土價值的繁體中文資料,作為語言模型訓練的重要基礎,確保 AI 發展符合台灣社會價值與語言文化。
工研院資訊與通訊研究所組長王邦傑表示,AIEC 目前已建置 1,725 題評測題庫,這些題目符合台灣文化、市場需求以及國際標準指引。未來 AIEC 將廣泛徵求各界專家提供評測題目,經審查後納入題庫,持續擴充評測內容的深度與廣度。
評測體系逐步成形 產業送測踴躍
AIEC 自 2023 年 12 月成立以來,逐步建構完整的 AI 評測體系。目前已完成兩大核心架構:由工研院負責的「AI 測試實驗室」,以及由資安院負責的「AI 驗證機構」。
評測項目參考國際標準組織(ISO)、美國國家標準暨技術研究院(NIST)及歐盟等相關規範,涵蓋公平性、準確性、可靠性、隱私及資安等面向。受測者可依據自身需求選擇評測項目,進行客製化檢測。
龔化中指出,AIEC 預計在 2026 年及 2027 年分別通過財團法人全國認證基金會(Taiwan Accreditation Foundation, TAF)認證。屆時 AIEC 公布的評測報告及未來推出的評測標章,將能作為國內外企業採購與技術選型的重要參考依據。
產業界對 AIEC 評測服務反應熱烈。目前已有 8 家廠商、超過 80 款模型進行評測,總計接獲 14 個送測案件。送測廠商包括鴻海等科技大廠,送測模型多以 Llama、Gemma 等開源模型為基礎進行調校。
企業送測動機多元,有的希望確認技術發展方向正確,有的尋求找出改善空間,也有廠商為滿足政府標案需求而送測。王邦傑鼓勵更多廠商參與評測,強調 AIEC 不僅提供評測結果,更提供諮詢輔導服務,能與廠商深度交流,共同提升產品能力、接軌國際市場。
對接國際標準 建立可信賴 AI 生態系
展望未來,AIEC 將針對不同產品、系統與應用領域,持續推動國內自行研發的 AI 評測工具。同時,AIEC 也積極對接國際評測方法、規範與標準,強化台灣 AI 產品的市場適用性與全球化發展能力。
龔化中強調,建立可信賴的 AI 評測體系,是推動 AI 產業健康發展的關鍵基礎建設。透過第三方獨立評測,可以提升企業與消費者對 AI 產品的信任,降低 AI 應用風險,促進產業創新。
此次 AIEC 首次公布的評測結果,不僅是台灣 AI 評測制度的重要里程碑,更凸顯在 AI 主權時代,建立符合本土價值的評測標準與語料庫的戰略重要性。隨著評測體系持續完善,台灣有望在可信賴 AI 發展上走出自己的道路,為全球 AI 治理提供具有參考價值的「台灣模式」。