AI transparency(透明性)與 explainability(可解釋性)是 AIF-C01 考試將其視為獨立學習目標的兩大 responsible AI 支柱。業界部落格文章常把這兩個概念混為一談,而考試正是利用這種混淆來出題。Transparency 是對模型本身的揭露——用了哪些資料訓練、預期用途為何、已知限制有哪些。Explainability 則是針對單一預測的洞察——為什麼模型對這筆輸入給出這個答案。兩個概念都屬於 AIF-C01 考試指南的 Domain 4(責任 AI 指引),而 AWS 針對各概念分別提供了專屬服務:Amazon SageMaker Clarify 負責特徵歸因;Amazon SageMaker Model Cards 與 Amazon Bedrock Model Cards 負責模型層級的文件;AWS AI Service Cards 負責受管服務的揭露。
什麼是 AI Transparency 與 Explainability?
AI transparency(透明性)與 explainability(可解釋性)各自回答不同利害關係人的問題。主管機關問的是「這個模型是什麼、誰建的、怎麼驗證的?」——這是 transparency。貸款申請遭拒的終端使用者問的是「我的申請為什麼被拒?」——這是 explainability。在 AIF-C01 考試中,答案選項裡常同時出現這兩個詞,選哪個完全取決於情境回答的是哪一個問題。
AI transparency 產出的是文件——model cards、service cards、資料說明書、預期用途聲明、限制揭露。AI explainability 產出的是針對單一預測的訊號——特徵重要性分數、歸因熱力圖、反事實範例、代理決策樹。Transparency 是描述性的;explainability 是診斷性的。當情境提到「揭露」、「記錄」、「預期用途」或「訓練資料來源追蹤」,AI transparency 與 explainability 的答案傾向 transparency。當情境提到「為什麼模型這樣預測」、「哪些特徵影響了結果」或「特徵歸因」,答案傾向 explainability。
為何 AI Transparency 與 Explainability 對 AIF-C01 至關重要
AIF-C01 考試指南的 Domain 4(「責任 AI 指引」)佔有相當份量,而 Domain 4 內的 transparency-and-explainability 子題目擁有最豐富的詞彙集。AWS 研究人員也將 AI transparency 與 explainability 標記為練習考試中高度混淆的領域——考生在一個選項看到「explainability」、在另一個選項看到「transparency」,往往選最近剛讀到的那個。精確掌握兩者的邊界,可以把 3 到 4 題原本猶豫的題目變成穩拿的分數。
本主題範疇與相鄰主題的對照
AI transparency 與 explainability 位於三個相鄰主題之間。偏差與公平性(獨立主題)是關於衡量跨人口族群的不均等結果。模型評估指標(獨立主題)是關於準確率、精確率、召回率、F1、困惑度、BLEU、ROUGE。生成式 AI 風險(獨立主題)是關於幻覺、提示注入、毒性、著作權。AI transparency 與 explainability 只專注於揭露,以及解釋預測發生的原因。不要讓考試情境把你拉過邊界。
Transparency vs Explainability — 你必須背起來的核心區別
這是本主題筆記最重要的一節。Transparency vs explainability 的區別是 AIF-C01 研究標記的痛點,清晰的心智模型能終結這種混淆。
Transparency — 對模型的揭露
Transparency 是對模型本身保持公開的特質。一個具有 transparency 的 AI 系統會附帶文件,回答利害關係人在使用模型之前可能提出的問題:
- 模型用哪些資料訓練?那些資料有已知的偏差或授權問題嗎?
- 誰建了這個模型?最後一次更新是何時?
- 預期的使用情境是什麼?哪些是超出範圍的使用情境?
- 模型在評估資料集上達到了什麼樣的準確率、精確率、召回率或毒性分數?
- 供應商識別出哪些效能限制和已知失效模式?
- 模型在發布前經過了哪些治理、測試和紅隊測試流程?
Transparency 在訓練時和發布時產出,而非在推論時產出。Model card 是標準的 transparency 產物——一份靜態文件(通常是 PDF、網頁或 JSON 記錄),陪伴模型的方式就像營養標示陪伴包裝食品一樣。
Explainability — 針對特定預測的洞察
Explainability 是能夠理解為何針對特定輸入做出特定預測的特質。一個具有 explainability 的 AI 系統能夠回答:「模型對這份貸款申請預測『拒絕』,是因為申請人收入對決策貢獻了 -0.42,信用記錄貢獻了 -0.33,在職年資貢獻了 +0.08。」
Explainability 在推論時產出(或對過去的預測追溯產出)。特徵歸因分數、圖像像素上的顯著性熱力圖、token 層級的注意力視覺化,以及反事實範例(「如果收入高出 20%,決策就會翻轉為核准」)都是 explainability 的產出。
一句話解碼器
Transparency 是關於模型的。Explainability 是關於預測的。Transparency 描述「是什麼」;explainability 描述「為什麼」。把這一對背起來。
白話文類比一:銀行信貸審查的透明度與可解釋性
想像一家台灣本土銀行推出 AI 信貸審核系統。銀行依法規要求公開一份《信貸 AI 模型說明書》,載明模型訓練資料來源(近五年聯徵資料)、適用客群(本國籍自然人)、預期誤判率與已知限制。這份說明書就是 transparency——它在模型上線之前就存在,讓主管機關、消費者保護團體、乃至一般民眾都能事先了解這個系統是什麼。
某天,客戶王小明的信貸申請被拒,他打電話詢問原因。此時銀行客服需要的不是那份說明書,而是針對王小明這筆申請的分析報告:「您的年收入使分數下降了 0.42、近一年信用卡遲繳記錄使分數下降了 0.33、在職年資使分數上升了 0.08,最終總分低於核准門檻。」這份針對單一申請的拆解就是 explainability。說明書是靜態的、全模型的;拆解報告是動態的、針對個人的。
白話文類比二:健保醫療 AI 的透明度與可解釋性
台灣健保署若部署 AI 輔助診斷系統,必須向醫界與病患揭露系統的設計邏輯:使用哪些醫療資料庫訓練、適用哪些病症、靈敏度與特異度各為何、有哪些不適用情境(例如罕見疾病)。這份公開說明就是 transparency——即便從未使用過這套系統的人,也能從文件了解它的全貌。
但當某位病患被 AI 輔助診斷標記為高風險,主治醫師需要向病患解釋「為何 AI 這樣判斷」時,醫師查閱的是系統針對這位病患的特徵分析:「您的糖化血色素數值貢獻最大的風險權重,其次是 BMI 與家族病史。」這是 explainability——聚焦在這個人、這次預測的原因,與整體系統說明書是兩回事。
AIF-C01 考試情境如何描述各概念
Transparency 情境使用的詞彙:「揭露」、「發布文件」、「預期用途」、「告知終端使用者能力與限制」、「記錄訓練資料來源」、「新模型版本的發行說明」,或「幫助合規人員了解模型做什麼」。
Explainability 情境使用的詞彙:「為什麼模型預測 X」、「特徵重要性」、「特徵歸因」、「哪些輸入最影響決策」、「向客戶解釋單一預測」、「計算 SHAP 值」,或「了解特定結果的驅動因素」。
如果情境圍繞著一份文件,答案是 transparency。如果情境圍繞著一個預測,答案是 explainability。
Transparency 透過揭露文件(如 model cards 和 service cards)回答「這個模型是什麼?」。Explainability 透過特徵歸因方法(如 SHAP 和 LIME)回答「模型為什麼對這個特定輸入產生這個預測?」。如果情境提到文件、揭露、預期用途或訓練資料,選 transparency。如果情境提到特徵重要性、為什麼某個預測發生,或 SHAP/LIME,選 explainability。 Reference: https://aws.amazon.com/machine-learning/responsible-machine-learning/
白話文解釋 AI Transparency 與 Explainability
以下四個台灣情境的類比,幫助你把 AI transparency 與 explainability 的區別記得更牢固。
類比一:銀行信貸審查透明度
(見上方「白話文類比一」完整說明)核心句:《信貸 AI 模型說明書》是 transparency;針對王小明這筆申請的特徵拆解是 explainability。Transparency 存在於審查之前;explainability 存在於預測之後。
類比二:健保醫療決策可解釋性
(見上方「白話文類比二」完整說明)核心句:健保 AI 的公開說明文件是 transparency;醫師告知病患「為何被標記為高風險」的特徵分析是 explainability。相同的 AI 系統同時需要兩者,但它們回答的是不同問題。
類比三:YouBike 調度決策的透明度與可解釋性
台北市 YouBike 系統若引入 AI 預測調度,運輸局應公開一份調度演算法說明書:使用哪些資料(歷史租借量、氣象、節假日、捷運進出站人數)、模型更新頻率、預測準確率、以及在哪些情況下調度建議不可信(如臨時交通管制)。這份公開說明就是 transparency——任何關心公共資源分配的市民都能事前閱讀。
某天,信義區某站點被 AI 建議緊急調入 20 輛車,站長覺得不合理,要求系統解釋。系統回應:「本站點下一小時預測租借需求為 87 次,遠高於目前庫存的 12 輛,主要驅動因素是今日跨年活動人潮(貢獻 +62%)與天氣晴朗(+15%)。」這是 explainability——針對這個站點、這個時刻的預測,逐一拆解驅動原因。調度系統說明書不會講到具體站點;可解釋性報告只看這一次預測。
類比四:法庭上的履歷與證詞
法庭上的鑑定人帶著一份履歷——學歷、證照、著作、已知立場偏向。這份履歷就是 AI transparency:讓法官和陪審團在聽取證詞之前就了解這位鑑定人是誰、能力如何、有什麼侷限。
當鑑定人就某一具體事件作證,陪審團追問:「你怎麼知道?哪些觀察讓你得出這個結論?」鑑定人逐步走過具體物證、推論步驟,說明每一個環節如何指向最終意見。這個「逐步走過」就是 AI explainability——針對這一次事件、這一個結論,說明驅動因素。Transparency 是資格;explainability 是論據。
Global vs Local Explanations — 另一個必學的邊界
在 AI explainability 內部,AIF-C01 考試還喜歡考第二個區別:global(全域)解釋 vs local(局部)解釋。把這個邊界和 transparency vs explainability 的區別一起記,因為答案選項常把這四個詞混在一起。
Global Explanations
Global explanation 描述模型在所有預測上的整體行為。如果你問「這個信用評分模型平均最依賴哪些特徵?」,global explanation 的答案可能是:「收入佔信號的 35%、信用記錄佔 30%、在職年資佔 15%、地區佔 10%、年齡佔 10%。」Global explanations 透過對驗證集計算聚合 SHAP 值或排列重要性來產生。
Local Explanations
Local explanation 描述模型為何對單一特定輸入做出單一特定預測。對申請編號 #1734,local explanation 可能顯示:「收入使分數下降了 0.42,信用記錄使分數下降了 0.33,在職年資使分數上升了 0.08,最終淨結果為拒絕。」Local explanations 使用逐案 SHAP 值、LIME 擾動,或注意力權重。
考試情境解碼器
「資料科學團隊想了解模型整體最依賴哪些特徵」——global explanation。「客服人員需要告知某位被拒申請人為何遭拒」——local explanation。Global 是全模型的;local 是預測特定的;兩者都屬於 explainability 的範疇(不是 transparency)。
Global explanation 描述模型在許多預測上的整體行為——通常使用聚合特徵重要性。Local explanation 描述模型為何對特定輸入產生特定預測——通常使用逐案 SHAP 或 LIME 值。兩者都是 explainability 的形式,都不是 transparency。 Reference: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-shapley-values.html
SHAP — AIF-C01 最重要的 Explainability 技術
SHAP(SHapley Additive exPlanations)是 AIF-C01 考試中你必須認識的唯一特徵歸因技術。Amazon SageMaker Clarify 以 SHAP 作為其核心 explainability 引擎,AWS 文件也將 SHAP 描述為特徵歸因的預設方法。
SHAP 直覺理解
SHAP 借用合作賽局理論的概念。想像四位廚師合作料理一道菜,某位客人品嚐後給了評分。SHAP 回答的是:「每位廚師對最終評分各貢獻了多少?」方法是模擬每一種可能的廚師組合——有時全部四人合作、有時三人、兩人、一人、甚至沒有任何廚師——測量每位廚師的加入如何改變最終分數。每位廚師的 SHAP 值就是他們在所有可能順序下的平均貢獻。
對應到機器學習:每個特徵(收入、信用記錄、在職年資、地區)就是一位廚師。最終預測值就是料理評分。SHAP 對每個特徵計算「將該特徵加入所有可能的其他特徵子集」時,預測值的平均變化量。結果是一個加法歸因——所有特徵 SHAP 值的總和等於模型預測值與模型平均預測值的差。
為何 SHAP 重要
SHAP 有三個特性使它成為 explainability 的主力工具:局部準確性(歸因總和等於預測值)、一致性(若某特徵的真實影響增大,其歸因不能縮小)、以及缺失性(沒有效果的特徵歸因為零)。這些數學保證是 Amazon SageMaker Clarify 以 SHAP 為標準的原因。
SHAP Global vs SHAP Local
SHAP 是一種同時產生 local 和 global 解釋的方法。單一預測產生一組逐特徵 SHAP 值——這是 local explanation。將驗證集上每個特徵的絕對 SHAP 值取平均,得到特徵重要性排名——這是 global explanation。考試中,若答案選項出現「SHAP」,不要因為 global-vs-local 的問題就排除它;SHAP 兩者都能處理。
SHAP(SHapley Additive exPlanations)是 Amazon SageMaker Clarify 使用的預設特徵歸因方法。SHAP 既能產生 local explanations(逐預測的特徵貢獻),也能產生 global explanations(聚合特徵重要性)。如果 AIF-C01 情境在 AWS 上提到「特徵歸因」或「解釋某個預測」,透過 SageMaker Clarify 使用 SHAP 就是標準答案。 Reference: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-shapley-values.html
LIME — 另一個值得認識的技術
LIME(Local Interpretable Model-agnostic Explanations)是你在 AIF-C01 深度應該能辨認的第二種 explainability 技術。考試不會要求你實作 LIME,但你應該了解它的作用以及它與 SHAP 的差異。
LIME 直覺理解
LIME 的做法是在特定預測附近對輸入進行擾動,然後在該預測的局部鄰域內擬合一個簡單、可解釋的模型(通常是線性迴歸或淺層決策樹)。這個簡單模型只在被解釋的那個預測的極小鄰域內準確,但在該鄰域內它能揭示哪些特徵將決策推向哪個方向。
LIME vs SHAP
LIME 速度快且與模型無關,但其解釋是近似的,在不同執行中可能不穩定。SHAP 較慢,具有更強的數學保證(一致性、局部準確性),但在大型模型上計算成本較高。在 AWS 服務中,SageMaker Clarify 預設使用 SHAP。LIME 存在於更廣泛的生態系中,會出現在 AIF-C01 答案列表中作為干擾項或有效的第二選項。如果情境明確要求 AWS 原生方法,選擇透過 Clarify 使用的 SHAP。如果情境是供應商無關的,並詢問 local model-agnostic 解釋,SHAP 或 LIME 都可能是正確答案。
何時兩者皆可
SHAP 和 LIME 都能產生 local explanations。兩者都可以聚合(SHAP 更自然)以近似 global explanations。兩者都是 post-hoc 的——應用於已訓練的模型而不修改它。對於 AIF-C01 的記憶,將 SHAP 視為 AWS 首選工具,將 LIME 視為通用 ML 替代方案。
Interpretable Models vs Post-Hoc Explanation
實現 explainability 有兩種方式:建立本質上可解釋的模型,或對黑盒模型應用 post-hoc 解釋技術。AIF-C01 上的 AI transparency 與 explainability 涵蓋兩種方法。
Interpretable Models(可解釋模型)
線性迴歸、邏輯迴歸、淺層決策樹、規則型系統和廣義加法模型本質上是可解釋的。貸款審查員可以查看邏輯迴歸的係數,直接讀出「每增加 10,000 元的收入,核准機率提高 8%」。不需要額外工具——模型本身就是解釋。代價是可解釋模型在複雜任務上的準確率通常較低。
Post-Hoc Explanation
深度神經網路、梯度提升樹集成和基礎模型本質上不可解釋。對於這些模型,你以最高準確率訓練黑盒模型,然後應用 post-hoc 解釋方法——SHAP、LIME、整合梯度、注意力視覺化——來提取洞察。Amazon SageMaker Clarify 是一種 post-hoc 解釋工具。Amazon Bedrock 基礎模型需要 post-hoc 方法,因為你無法直接檢視其數兆個參數。
考試中的取捨
AIF-C01 情境有時會問:「公司重視可解釋性勝於準確率——應該選哪個模型?」正確答案是簡單的可解釋模型(線性或決策樹),而非加掛 SHAP 的深層網路。有時情境又問:「公司有黑盒深層模型,必須向客戶解釋個別預測——應該怎麼做?」那時透過 SageMaker Clarify 使用的 post-hoc SHAP 才是正確答案。閱讀限制條件再作答。
Amazon SageMaker Clarify — AWS 的 Explainability 主力服務
Amazon SageMaker Clarify 是 AWS 專門為 AI explainability(以及偏差偵測,但那是另一個主題)建立的服務。任何提到 AWS 服務的 AIF-C01 explainability 問題,都應該讓你聯想到 Clarify。
Clarify 計算什麼
SageMaker Clarify 以 SageMaker Processing Job 的形式,針對已訓練的模型和資料集執行。它產生三類輸出:訓練前偏差指標(在訓練前對資料集進行測量)、訓練後偏差指標(對模型預測進行測量),以及特徵歸因分數(使用 SHAP)。對於本主題,特徵歸因輸出是相關的部分。
使用 Clarify 計算 Global Feature Importance
Clarify 輸出一份 JSON 報告和 SageMaker Studio 中的視覺分析,根據評估資料集上的平均絕對 SHAP 值對特徵進行排名。平均絕對 SHAP 值高的特徵,平均而言對預測有較大影響——這是 global explanation。
使用 Clarify 計算 Local Feature Importance
Clarify 也可以為個別預測產生逐案 SHAP 值。如果客服團隊需要解釋為何某一筆信貸申請遭拒,Clarify 會提供該筆記錄的逐特徵貢獻拆解。
Clarify 在 SageMaker 生命週期中的位置
Clarify 在 ML 生命週期的多個節點整合。在資料準備期間,它偵測訓練前偏差。訓練後,它評估訓練後偏差和 global 特徵重要性。部署後,Amazon SageMaker Model Monitor 可使用 Clarify 持續檢查特徵歸因漂移——模型在生產環境中依賴特徵的轉變。漂移偵測本身就是 explainability 的使用情境:如果特徵重要性突然改變,生產環境的分佈已偏移,模型可能不再可信。
Clarify 與 Model Card 工作流程
Clarify 的輸出直接饋入 Amazon SageMaker Model Cards。Model card 的「Evaluation」區段可以嵌入 Clarify 的偏差和 explainability 結果,將 AI transparency 與 explainability 縫合在單一產物中——card 是 transparency,嵌入的 Clarify 報告是 explainability 的佐證。
如果題目提到 AWS explainability、特徵歸因、SHAP,或在 SageMaker 模型上進行偏差偵測,答案就是 Amazon SageMaker Clarify。Clarify 底層使用 SHAP,並同時產生 global 特徵重要性和 local 逐案解釋。 Reference: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-configure-processing-jobs.html
Amazon SageMaker Model Cards 與 Amazon Bedrock Model Cards — Transparency 產物
Model cards 是標準的 AI transparency 產物。AWS 提供兩種 model card 服務:Amazon SageMaker Model Cards(用於你自行訓練和部署的模型)和 Amazon Bedrock Model Cards(用於你透過 Bedrock 調用的基礎模型)。
Model Card 包含什麼
Model card 是描述特定模型版本的結構化文件。它包含以下區段:模型詳情(名稱、版本、擁有者、日期)、預期用途(主要使用情境、超出範圍的使用情境、主要使用者)、訓練資料(來源、日期範圍、預處理、已知偏差)、評估(資料集、指標、公平性測量)、倫理考量(風險、緩解措施、失效模式)、注意事項與建議(已知限制、部署指引)以及相關法規揭露。
那份清單中的每個欄位都回答一個 transparency 問題。沒有任何欄位回答「你為何對這個特定輸入預測 X」——那是 explainability,屬於 Clarify 輸出,不屬於 card 本身(雖然 card 可以連結到 Clarify 報告)。
Amazon SageMaker Model Cards
SageMaker Model Cards 讓你在 SageMaker 內建立、儲存和取得模型層級的文件。一張 card 將模型產物與其訓練資料、評估結果和預期用途連結在單一登記項目中。資料科學家在 MLOps 流水線中建立 cards;風險與合規團隊讀取它們以核准部署。
Amazon Bedrock Model Cards
Amazon Bedrock Model Cards 提供 Amazon Bedrock 中可用基礎模型的 AWS 生成文件——Anthropic Claude、Meta Llama、Cohere Command、Amazon Titan、Mistral、AI21 Labs 及其他。每張 card 描述模型的架構(在可揭露的範圍內)、訓練資料特性、建議使用情境、已知限制和評估結果。在 Bedrock 上建立生成式 AI 應用程式的客戶查閱這些 cards,以選擇符合需求的模型並記錄供應商盡職調查。
Model Card vs Clarify Report — Transparency 與 Explainability 的邊界
Model card 是 transparency——它描述模型。Clarify report 是 explainability——它描述預測。強健的 responsible AI 工作流程將兩者連結:model card 引用 Clarify report 作為評估佐證,但兩個產物保持獨立。在 AIF-C01 考試中,如果答案選項同時包含「建立 model card」和「執行 Clarify」,選擇情境的利害關係人實際需要的那個。正在審查模型以核准發布的合規主任需要 model card。正在解釋單筆拒絕的客服人員需要 Clarify 輸出。
Amazon SageMaker Model Cards 和 Amazon Bedrock Model Cards 記錄模型的訓練資料、預期用途、評估結果和已知限制。它們不解釋個別預測。對於 AIF-C01 的逐預測解釋,答案是使用 SHAP 的 SageMaker Clarify——不是 model card。 Reference: https://docs.aws.amazon.com/sagemaker/latest/dg/model-cards.html
AWS AI Service Cards — 受管 AI 服務的 Transparency
AWS AI Service Cards 是 AWS 受管 AI 服務的 transparency 產物——Amazon Rekognition、Amazon Transcribe、Amazon Textract、Amazon Comprehend、Amazon Polly、Amazon Lex、Amazon Personalize、Amazon Fraud Detector 及其他。當你使用受管 AI 服務時,你不是自行訓練模型,所以你無法產生 model card。AWS 發布 service cards,讓客戶仍能履行 transparency 義務。
Service Card 包含什麼
AWS AI Service Card 涵蓋:基本概念(用白話文說明服務做什麼)、預期使用情境和限制、服務設計(高層架構與如何生成輸出)、responsible AI 考量(公平性、隱私、安全性),以及部署最佳實踐。每張 card 由 AWS 撰寫和維護。
哪裡可以找到 Service Cards
AWS AI Service Cards 發布在 AWS Responsible AI 資源頁面。目前的 cards 涵蓋 Amazon Rekognition 人臉比對、Amazon Transcribe 批次和串流、Amazon Textract analyze-document、Amazon Comprehend 偵測有毒內容、Amazon Titan 文字,以及一個不斷增長的清單。AWS 將 service cards 視為活文件——隨著服務獲得或改變能力而更新。
Service Card vs Model Card — 範疇邊界
Model card 描述你或第三方訓練的一個特定模型版本。AWS AI Service Card 描述整個受管 AWS AI 服務,該服務內部可能由多個模型驅動。如果 AIF-C01 情境提到 Amazon Rekognition、Transcribe、Textract 或 Comprehend,並詢問 transparency 文件,答案是 AWS AI Service Card,不是 SageMaker Model Card。
Amazon SageMaker Model Cards 記錄你在 SageMaker 上訓練和部署的模型。Amazon Bedrock Model Cards 記錄透過 Bedrock 可用的基礎模型。AWS AI Service Cards 記錄 AWS 受管 AI 服務,例如 Amazon Rekognition、Transcribe 和 Textract。三者都是 AI transparency 產物,但各自適用於 AI 技術棧的不同層級。 Reference: https://aws.amazon.com/ai/responsible-ai/resources/
支援 AI Transparency 與 Explainability 的文件實踐
生產環境中的 AI transparency 與 explainability 不只是執行一次 Clarify job 然後發布一張 model card。成熟的 ML 組織將文件工作融入 ML 生命週期的每個階段。
資料文件
記錄每個訓練資料集的來源:來源系統、提取日期、預處理步驟、結構描述、已知品質問題,以及任何人口統計組成分析。Amazon SageMaker Feature Store 和 AWS Glue Data Catalog 等工具會自動捕捉部分內容,但有意識的資料文件工作仍是人的責任。
模型版本控制
每個已訓練的模型版本需要唯一識別碼、連結到精確訓練資料集、訓練超參數,以及評估結果。Amazon SageMaker Model Registry 處理機制部分;你的團隊必須確保每個已登記版本在升至生產環境前都有填寫完整的 model card。
評估文件
對每個模型版本,記錄評估資料集、使用的指標(分類用的準確率、F1、精確率、召回率;生成用的 BLEU、ROUGE、困惑度;公平性用的差異影響比率),以及測量結果。評估文件是 transparency 的輸入——它出現在 model card 的 Evaluation 區段中。
預測層級日誌
為了事後進行 explainability 調查,記錄每個生產預測及其輸入特徵。Amazon SageMaker Model Monitor 和 Amazon CloudWatch 可以捕捉這些日誌。當客戶稍後對特定預測提出異議時,保存輸入特徵讓你可以對該記錄追溯執行 SageMaker Clarify,並產生 local explanation。
變更日誌與事故日誌
維護每次模型更新的變更日誌,以及每次生產問題的事故日誌——幻覺、偏差輸出、預測漂移、下游危害。兩種日誌都饋入未來版本的 model card,並提升與監管機關和客戶之間的信任。
AIF-C01 考試情境如何描述 Transparency vs Explainability
以下是一個用於訓練你辨識 AI transparency 與 explainability 模式的描述目錄。
Transparency 描述
- 「合規團隊需要一份描述模型預期用途、訓練資料和已知限制的文件。」
- 「公司想要告知終端使用者他們在 Amazon Bedrock 中使用的基礎模型的能力和限制。」
- 「主管機關要求揭露用於訓練面向客戶推薦模型的資料來源。」
- 「內部治理委員會需要在新模型升至生產環境前審查它。」
- 「公司想要發布一份描述 Amazon Rekognition 公平性考量和預期用途的聲明。」
五個情境都是 transparency。答案包含 Amazon SageMaker Model Cards、Amazon Bedrock Model Cards,或 AWS AI Service Cards,取決於技術棧的哪個層級在討論中。
Explainability 描述
- 「客戶詢問為何其貸款申請遭拒。銀行應使用哪個 AWS 服務來解釋這個預測?」
- 「資料科學團隊需要了解詐欺偵測模型整體上最依賴哪些特徵。」
- 「醫師詢問哪些因素驅動了模型對特定病患的建議。」
- 「風險團隊想要衡量每個輸入特徵對特定信用評分貢獻了多少。」
- 「公司需要對部署的 SageMaker 模型的預測計算 SHAP 值。」
五個情境都是 explainability。AWS 答案是 Amazon SageMaker Clarify。
測試邊界的混合描述
- 「公司想要對模型建置方式保持透明,並能夠解釋個別預測。」——需要兩者:model cards(transparency)和 Clarify(explainability)。
- 「合規主任想要審查模型文件,並調查客戶對特定預測的投訴。」——同樣需要組合答案。
如果情境說「兩者都要」,選擇結合 model cards 加上 Clarify 的答案。如果情境只強調其中一方,只選那一方。
Foundation Models、生成式 AI 與 Explainability 的限制
對大型 foundation models 而言,AI transparency 與 explainability 比傳統 ML 更困難。AIF-C01 考生應了解實際限制。
為何 Foundation Models 更難處理
像 Anthropic Claude 或 Amazon Titan 這樣的 foundation model 有數百億到數千億個參數,並以數兆個 tokens 進行訓練。對一個數兆 token 的提示進行逐特徵 SHAP 歸因並不實際,而注意力權重——你能提取的部分信號——並不總是對應於人類可理解的推理。透過 model cards 進行的 transparency 仍然有效(描述架構、訓練資料、評估結果)。透過 SHAP 進行的 explainability 無法直接擴展。
Foundation Model Explainability 的實用替代方案
對於生成式 AI,實用的 explainability 技術包括:引用和檢索增強生成(RAG)——將答案植根於可檢索的來源文件;思維鏈提示——要求模型陳述其推理;較短輸入的提示層級注意力視覺化;以及用於描述邊緣案例模型行為的紅隊探測。這些都不是完整的 SHAP 式歸因,但它們是目前最好的可用方法。
支援 Transparency 的 Amazon Bedrock 功能
Amazon Bedrock 提供 Model Cards、模型評估任務(自動和人工在環),以及用於內容過濾的 Guardrails。這些共同涵蓋了 transparency(cards)、評估(偏差和準確性測量)和操作安全性(guardrails)——但 foundation model 層級的逐預測 explainability 仍是一個活躍的研究領域。
AIF-C01 在這裡的期望
考試期望你認識到傳統 ML 透過 SHAP 享有強大的 explainability,而生成式 AI 的 explainability 較弱,需要檢索植根、model cards 和 guardrails。你不需要實作任何東西——只需認識詞彙。
Responsible AI 與 Amazon Bedrock / SageMaker 的對齊
AI transparency 與 explainability 並非孤立存在。AWS 將其歸在 responsible AI 的總括下,與公平性、隱私、安全性、保障性、可控性、真實性和治理並列。AWS AI 雲端採用框架(AWS CAF for AI)組織這些支柱,並將其對應到具體的 AWS 服務。
與 Transparency 和 Explainability 互動的 Responsible AI 支柱
- 公平性透過 SageMaker Clarify 偏差指標評估,並透過 model cards 揭露。
- 隱私透過 Amazon Macie、KMS 和 VPC endpoints 保護,並透過 model cards 揭露。
- 安全性透過 Amazon Bedrock Guardrails 和內容過濾實施,並透過 service cards 揭露。
- 治理透過 Amazon SageMaker Model Registry、SageMaker Role Manager 和 IAM 實作。
- 可控性體現在 Guardrails 和停止序列等推論時工具中。
- 真實性透過 RAG、Amazon Bedrock Knowledge Bases 和引用模式來處理。
Transparency 是包裹每個支柱的揭露層。Explainability 是支持公平性和真實性調查的診斷層。
AWS Well-Architected Framework for ML
AWS Well-Architected Machine Learning Lens 包含 transparency 和 explainability 的設計原則。該框架建議:記錄每個模型(model card)、評估每個模型(Clarify)、監控每個已部署的模型(Model Monitor),以及記錄每個生產預測(CloudWatch)。在考試中,任何問「如何使 ML 工作負載符合 responsible AI 最佳實踐」的問題,都應包含這四個動詞。
關鍵數字與必背事實
對於 AIF-C01 的 AI transparency 與 explainability,你需要的是一小組事實,而非深度的數字掌握。
- Amazon SageMaker Clarify 使用 SHAP 作為其預設特徵歸因方法。
- Clarify 同時產生 global(全資料集)和 local(逐案)特徵重要性。
- Amazon SageMaker Model Cards、Amazon Bedrock Model Cards 和 AWS AI Service Cards 是三種 AWS transparency 產物。
- Service cards 涵蓋受管 AI 服務(Rekognition、Transcribe、Textract、Comprehend)。Model cards 涵蓋你訓練或透過 Bedrock 存取的模型。
- SHAP 和 LIME 都是 post-hoc 方法,適用於已訓練的黑盒模型。
- 可解釋模型(線性迴歸、決策樹)不需要 post-hoc 解釋。
- Transparency 產物在模型發布時產出。Explainability 輸出在推論時產出。
- Amazon Bedrock Model Evaluation 支援自動和人工在環評估,饋入 transparency 產物。
常見考試陷阱
除了頂層的 transparency vs explainability 混淆之外,還有幾個其他陷阱讓 AIF-C01 考生在 AI transparency 與 explainability 情境上失分。
陷阱:Clarify 只用於偏差偵測
錯誤。Amazon SageMaker Clarify 同時涵蓋偏差偵測和特徵歸因(explainability)。如果答案選項說「SageMaker Clarify」,而情境是關於特徵重要性,它仍然是正確的。
陷阱:Model cards 解釋個別預測
錯誤。Model cards 在發布時描述模型;它們不解釋發布後的個別預測。對於逐預測解釋,使用 SageMaker Clarify。
陷阱:SHAP 和 LIME 是一樣的
接近但不完全相同。兩者都是 post-hoc local 解釋方法,但 SHAP 具有正式的數學屬性(一致性、局部準確性),並且是 SageMaker Clarify 使用的方法。LIME 更簡單、更快,但更近似。在 AWS 特定問題上,選 SHAP。
陷阱:Transparency 意味著開源程式碼
考試中不是這樣。這裡的 transparency 意味著文件(model card、service card、預期用途、訓練資料揭露),不是開放模型權重或訓練程式碼。Anthropic Claude 是閉源的,但有 model cards——在 AIF-C01 的意義上它是 transparent 的。
陷阱:AWS AI Service Cards 涵蓋所有 AWS AI 服務
目前還沒有。Service cards 存在於不斷增長的受管 AI 服務子集中。對於 SageMaker 訓練的模型,你仍然需要 SageMaker Model Cards。對於 Bedrock 基礎模型,你需要 Bedrock Model Cards。將 card 類型與服務層對應。
陷阱:Global explanation 意味著整體 transparency
不對。Global 和 local explanations 都是 explainability 的形式。Transparency 是一個獨立概念,存在於 model cards 和 service cards 中。不要讓「global」這個詞把 explainability 情境拖進 transparency 的範疇。
情境是關於揭露(transparency)時選「explainability」,或情境是關於解釋特定預測(explainability)時選「transparency」。重新閱讀情境。如果利害關係人在審查文件或預期用途,答案是 transparency。如果利害關係人需要了解模型為何對特定輸入預測某事,答案是 explainability。 Reference: https://aws.amazon.com/machine-learning/responsible-machine-learning/
Transparency 和 Explainability vs 相鄰的 Responsible AI 主題
AI transparency 與 explainability 緊鄰偏差/公平性和模型評估。保持這些邊界清晰。
Transparency 和 Explainability vs 偏差和公平性
偏差和公平性是關於模型是否在人口統計族群之間產生不均等的結果。Transparency 是關於揭露偏差測量值是什麼。Explainability 是關於將特定預測追溯回輸入特徵。三者可以在同一對話中並存,但在考試日它們通常是不同的答案。AWS 上的偏差偵測使用 SageMaker Clarify 偏差指標。AWS 上的 explainability 使用 SageMaker Clarify 特徵歸因。Transparency 使用 model cards。不要在偏差指標問題上選「model card」。
Transparency 和 Explainability vs 模型評估指標
模型評估指標(準確率、精確率、召回率、F1、BLEU、ROUGE、困惑度、差異影響比率)衡量模型的效能好壞。它們饋入 transparency 產物(model card 的 Evaluation 區段)。但指標本身不是 transparency;它是評估。如果情境問「團隊應該計算哪個指標?」答案是評估指標,不是 model card。
Transparency 和 Explainability vs 生成式 AI 安全性
生成式 AI 安全性涵蓋幻覺、提示注入、毒性和著作權。AWS 透過 Amazon Bedrock Guardrails、內容過濾器和政策規則來處理這些問題。這些是推論時的操作控制,不是 transparency 產物。Guardrail 阻止有毒回應;model card 揭露模型在無防護的情況下可能產生有毒回應。將推論時控制(guardrail)與文件產物(card)分開。
練習題型 — 對應練習
預期 AIF-C01 考試在 AI transparency 與 explainability 上的題型如下:
- 「銀行需要向客戶解釋其貸款申請為何遭拒。應使用哪個 AWS 服務?」答案:Amazon SageMaker Clarify(使用 SHAP 的 local explanation)。
- 「合規團隊需要描述基礎模型預期用途、訓練資料和限制的文件,然後才能核准其用於生產環境。」答案:Amazon Bedrock Model Card。
- 「資料科學團隊想了解其詐欺偵測模型整體上最依賴哪些特徵。」答案:Amazon SageMaker Clarify global 特徵重要性(SHAP)。
- 「公司使用 Amazon Rekognition,需要向監管機關展示該服務的 responsible AI 考量。」答案:AWS AI Service Card。
- 「風險主任想要模型層級文件,以及解釋個別預測的能力。」答案:Amazon SageMaker Model Cards 加上 Amazon SageMaker Clarify。
- 「AI transparency 和 AI explainability 的主要差異是什麼?」答案:Transparency 是關於模型的揭露(訓練資料、預期用途、限制);explainability 是理解為何做出特定預測。
- 「公司重視可解釋性勝於最高準確率。哪種建模方式最適合?」答案:本質上可解釋的模型,例如邏輯迴歸或決策樹。
- 「Amazon SageMaker Clarify 使用哪種技術計算特徵歸因?」答案:SHAP(SHapley Additive exPlanations)。
- 「團隊需要個別預測的 local explanations,且不重新訓練模型。」答案:post-hoc 方法,例如 SHAP(透過 SageMaker Clarify)或 LIME。
- 「生成式 AI 應用程式必須將其答案植根於來源文件,以改善生成回應的 explainability。」答案:檢索增強生成(RAG),例如透過 Amazon Bedrock Knowledge Bases。
FAQ — AI Transparency 與 Explainability 常見問題
Q1. AIF-C01 中 AI transparency 和 AI explainability 的差異是什麼?
AI transparency 是關於模型的揭露——其訓練資料、預期用途、評估結果和已知限制——記錄在 Amazon SageMaker Model Cards、Amazon Bedrock Model Cards 和 AWS AI Service Cards 等文件中。AI explainability 是理解為何做出特定預測——透過 SHAP 等特徵歸因方法捕捉,在 AWS 中透過 Amazon SageMaker Clarify 提供。Transparency 回答「這個模型是什麼?」Explainability 回答「它為什麼這樣預測?」這兩個概念互補,但解決不同的利害關係人問題。
Q2. 我應該使用哪個 AWS 服務進行特徵歸因,為什麼?
Amazon SageMaker Clarify。Clarify 使用 SHAP(SHapley Additive exPlanations)計算 global 特徵重要性(每個特徵在資料集上平均的重要程度)和 local 特徵重要性(每個特徵對特定預測的貢獻程度)。Clarify 以 SageMaker Processing Job 形式執行,與 SageMaker Model Monitor 整合以進行漂移偵測,並將其輸出饋入 SageMaker Model Cards 以便記錄。
Q3. Global 和 local explanations 的差異是什麼?
Global explanation 描述模型在許多預測上的整體行為——模型平均最依賴哪些特徵。Local explanation 描述模型為何對一個特定輸入產生一個特定預測。兩者都是 explainability 的形式(不是 transparency),都可以由 Amazon SageMaker Clarify 使用 SHAP 計算。Global 是全模型的;local 是預測特定的。提到「整體特徵重要性」的情境想要 global;提到「為何這位特定客戶遭拒」的情境想要 local。
Q4. 何時應選擇可解釋模型而非加掛 post-hoc 解釋的黑盒模型?
當利害關係人重視直接閱讀模型的能力勝於最後幾個百分點的準確率、當監管環境要求任何審查員都能在不借助額外工具的情況下檢視模型、或當資料集足夠小使得簡單模型表現相當時,選擇本質上可解釋的模型(線性迴歸、邏輯迴歸、淺層決策樹、廣義加法模型)。當你需要額外準確率,且利害關係人接受雙產物工作流程(模型加上 SHAP 報告)時,選擇帶有 post-hoc SHAP 解釋的黑盒模型。
Q5. Amazon SageMaker Model Cards 和 AWS AI Service Cards 的差異是什麼?
Amazon SageMaker Model Cards 記錄你在 SageMaker 內訓練、登記和部署的特定模型版本——它們適用於你自己的自訂模型。AWS AI Service Cards 記錄 AWS 受管 AI 服務,例如 Amazon Rekognition、Amazon Transcribe、Amazon Textract 和 Amazon Comprehend——它們由 AWS 撰寫和維護,並發布在 AWS Responsible AI 資源頁面上。如果你訓練了模型,你需要 model card。如果你在使用受管 AWS AI 服務,你查閱 service card。Amazon Bedrock Model Cards 是第三種變體,涵蓋透過 Amazon Bedrock 可用的基礎模型。
Q6. 我能以解釋傳統 ML 預測的方式解釋 Amazon Bedrock 的生成式 AI 輸出嗎?
不能直接做到。中等規模的傳統 ML 模型可以透過 Amazon SageMaker Clarify 使用 SHAP 解釋,產生逐特徵歸因分數。Amazon Bedrock 底層的基礎模型有數十億個參數和數兆個訓練 tokens,SHAP 無法直接擴展到該規模的逐 token 歸因。實用的替代方案是:使用 RAG 將答案植根於可引用的來源文件、Amazon Bedrock Model Cards 提供 transparency、思維鏈提示呈現推理過程,以及紅隊評估描述模型行為。Amazon Bedrock Guardrails 提供推論時的安全控制,補充但不取代 explainability。
Q7. AWS SageMaker Clarify 同時處理偏差偵測和 explainability 嗎?
是的。Amazon SageMaker Clarify 涵蓋兩項職責。它計算訓練前偏差指標(針對訓練資料集)、訓練後偏差指標(針對模型的預測),以及基於 SHAP 的特徵歸因以用於 explainability。在 AIF-C01 中,看到答案選項中有「SageMaker Clarify」,對偏差偵測情境和特徵歸因情境都是有效的。仔細閱讀題目,確認問題問的是哪項職責。
Q8. 滿足 AI transparency 要求的 model card 應包含什麼?
完整的 model card 應包含:基本詳情(模型名稱、版本、擁有者、日期)、預期使用情境、超出範圍的使用情境、訓練資料描述(來源、預處理、已知偏差)、評估資料集和結果(包括來自 Clarify 的任何公平性指標)、已知限制和失效模式、倫理考量和緩解措施、部署建議,以及任何相關的法規揭露。目標是讓合規主任、下游消費者或終端使用者閱讀 card 後,能了解模型是什麼以及不是什麼。
延伸閱讀
- Amazon SageMaker Clarify — Configure Explainability Jobs: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-configure-processing-jobs.html
- Amazon SageMaker Clarify — SHAP Feature Attributions: https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-shapley-values.html
- Amazon SageMaker Model Cards Developer Guide: https://docs.aws.amazon.com/sagemaker/latest/dg/model-cards.html
- Amazon Bedrock Model Evaluation: https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html
- AWS AI Service Cards (Responsible AI resources): https://aws.amazon.com/ai/responsible-ai/resources/
- AWS Responsible Machine Learning: https://aws.amazon.com/machine-learning/responsible-machine-learning/
- AWS Cloud Adoption Framework for AI, ML, and Generative AI: https://docs.aws.amazon.com/whitepapers/latest/aws-caf-for-ai/aws-caf-for-ai.html
- AWS Certified AI Practitioner (AIF-C01) Exam Guide: https://d1.awsstatic.com/training-and-certification/docs-ai-practitioner/AWS-Certified-AI-Practitioner_Exam-Guide.pdf