examlab .net 用最有效率的方法,考取最有價值的認證
Vol. I
本篇導覽 約 30 分鐘

AI 的資料治理與 PII 處理

5,820 字 · 約 30 分鐘閱讀 ·

完整掌握 AIF-C01 考試所需的 AWS AI 資料治理與 PII 處理知識:Amazon Macie、Comprehend PII、AWS Glue Data Catalog、Lake Formation、Amazon DataZone、Bedrock 資料政策、資料駐留合規,以及訓練資料血緣追蹤。

立即做 20 題練習 → 免費 · 不用註冊 · AIF-C01

AWS 上的 AI 資料治理與 PII(個人識別資訊)處理,決定了一個生成式 AI 專案是順利上線,還是被法務部門擋下。AIF-C01 考試 Task 5.2 要求你辨識 AWS 服務——Amazon Macie、Amazon Comprehend、AWS Glue Data Catalog、AWS Lake Formation、Amazon DataZone、Amazon Bedrock 資料政策,以及區域管控——如何組合成一套端對端的 AI 資料治理工作流程,涵蓋血緣追蹤、尊重同意書與授權、清除 PII,並遵守資料駐留規範。由於訓練資料牽動一切下游環節——模型行為、法律責任與法規曝險——AI 資料治理是在訓練或部署任何模型之前,你必須最優先稽核的基礎。

AI 資料治理與 PII 處理在 AWS 上的定義

AWS 上的 AI 資料治理,是一套協調一致的政策、服務與工作流程,管控資料如何進入、流經,以及離開機器學習與生成式 AI 管線。PII 處理是 AI 資料治理的子集,專注於偵測、分類、遮蔽與追蹤個人資料。兩者合在一起,回答了稽核人員或主管機關必然提問的四個問題:訓練資料從哪裡來?我們有使用授權嗎?資料是否包含個人資訊?我們能證明資料現在在哪裡嗎?

在 AIF-C01 的基礎層級,AI 資料治理並非程式設計任務,而是服務辨識任務。考題形式通常是:「某公司需要達成 X——哪個 AWS 服務能處理這件事?」如果你能將訓練資料血緣對應到 AWS Glue Data Catalog、將大規模 S3 PII 探索對應到 Amazon Macie、將提示詞即時 PII 遮蔽對應到 Amazon Comprehend、將跨團隊資料存取治理對應到 Amazon DataZone、將細粒度資料表存取對應到 AWS Lake Formation,幾乎所有 AI 資料治理的 5.2 題型都能答對。

AI 資料治理為何在 AIF-C01 中至關重要

Domain 5(「AI 解決方案的安全、合規與治理」)佔 AIF-C01 考試分數的 14%,而 Task 5.2 正是治理專題的核心切片。AI 資料治理題目的情境描述比例特別高——題目會描述一個團隊、一份資料集,以及一項合規限制,再問哪個 AWS 服務能推動問題解決。熟悉 AI 資料治理服務的小詞彙表,在 Task 5.2 題目與跨領域的 Task 4.1 負責任 AI 題目上都能得到回報,因為負責任 AI 的前提是底層資料已先被妥善治理。

本主題範圍與相鄰主題的界線

AI 資料治理有別於 IAM 存取控制(見 iam-and-bedrock-security)、透過 Bedrock Guardrails 進行的輸出過濾(見 bedrock-guardrails-and-controls),以及 EU AI Act 等更廣泛的合規框架(見 security-compliance-governance-ai)。本主題聚焦在:訓練資料來源溯源、血緣追蹤、PII 分類、區域資料主權,以及 Amazon Bedrock 的特定資料政策。閱讀情境題時,請牢記這條邊界。

「你願意拿這份資料訓練模型嗎?」稽核法則

每一套 AI 資料治理計畫,最終都要回答一個你在訓練或微調前必須自問的問題:如果這份資料集的每一筆記錄明天出現在新聞頭版,並標注是你負責的,你能坦然接受嗎?如果答案是否定的——因為資料含有客戶 PII、未授權的著作權文本,或未經同意的第三方記錄——那麼 AI 資料治理機制就是在資料產生法律責任之前,阻止管線繼續運作的防線。Macie、Comprehend PII、Data Catalog 血緣,以及 DataZone 存取審查,其存在的意義就是讓這個問題有稽查紀錄,而非憑感覺判斷。

白話文解釋 AI 資料治理與 PII 處理

正式的 AI 資料治理用語往往讓概念顯得比實際更複雜。以下三個貼近台灣生活的類比,有助於在腦海中建立 AIF-C01 考試所需的心智模型。

類比一——健保系統與病歷調閱申請

想像一下台灣的健保體系。醫院病歷室收到外部調閱申請時,必須確認三件事:申請者是誰(身份)、調閱目的是否合法(授權),以及被調閱者的身分證字號與健保卡號是否應該完整揭露還是遮蔽部分欄位(PII 管控)。AWS Glue Data Catalog 就像病歷索引系統,記錄每份病歷的格式與所在位置;AWS Lake Formation 就像病歷室的資料存取規則,規定哪個角色只能看哪幾欄,確保實習醫師看不到不相關的財務紀錄;Amazon Macie 則是定期掃描儲存櫃、找出可能外洩的健保卡號或身分證字號的稽查工具;Amazon Comprehend 是在病歷電子化後,自動把發文中殘存的個資標記並遮蔽的智慧引擎。若跳過這些管控直接把病歷拿去訓練 AI,就像把整個病歷室的門鑰匙交給陌生人——違反《個人資料保護法》(個資法)的後果可能相當嚴重。

類比二——金融業的客戶 KYC 資料管理

台灣銀行業有嚴格的客戶認識(KYC)要求,客戶的財務往來記錄、身分資料屬於最高敏感等級。銀行內部有不同部門——信用卡中心、財富管理、法遵部門——各自對客戶資料有不同的使用需求與權限邊界。Amazon DataZone 扮演銀行內部的「資料市集管理員」:各資料提供方(後端系統)把資料集發布為可被訂閱的資產,各業務部門(消費方)提出申請、說明用途,DataZone 將申請路由給資料擁有者審核,整個批准流程留下完整稽查紀錄。AWS Lake Formation 則像資料倉儲的資料列過濾規則:即使某個分析師通過了申請,也只能看到「同意 AI 訓練 = 是」的客戶資料列,而不是全部客戶記錄。Macie 像資安團隊定期掃描存儲桶,確認沒有任何客戶身分證字號或信用卡號以明文方式滯留在 S3 裡。金融業對個資的嚴格要求,在台灣同時受《個人資料保護法》與金管會規範所約束,與 GDPR 的精神高度吻合。

類比三——海關與外交郵袋

把 AI 資料治理想像成一套國際郵政系統。每個包裹(資料集)都有申報單,列明來源、內容與合法用途——這是 Glue Data Catalog 裡的資料血緣記錄。海關人員用 X 光機逐一掃描包裹,尋找禁運物品——這是 Amazon Macie 大規模掃描 S3 儲存桶中的 PII。包裹上印有「內容物不得離開台灣境內」的規定——這是區域資料主權,透過選擇 AWS 區域並套用 SCP 來執行。外交郵袋有特殊封條,保證郵政機構絕不私拆——這是 Amazon Bedrock 資料政策,AWS 承諾不以你的提示詞或完成結果來訓練基礎模型。部分郵袋走的是從不接觸公共道路的私人外交快遞專線——這是透過 AWS PrivateLink 連接 Amazon Bedrock,讓流量不必經過公共網際網路。每個大使館的條約細節不同——這是你在 Bedrock 裡必須各別閱讀 Anthropic、Meta、Mistral、Cohere、Amazon Titan 服務條款的原因。郵政系統本身可信;你仍需稽查的是各方的條約文字。

AWS AI 資料治理的核心原則

AWS 上的 AI 資料治理建立在五個相互作用的原則上:來源溯源(Provenance)、同意書(Consent)、分類(Classification)、駐留地(Residency),以及供應商資料政策(Vendor Data Policy)。每個原則都對應一組 AIF-C01 考試要求你辨識的 AWS 服務。

來源溯源——資料從哪裡來?

每一份訓練資料集都必須有書面記錄的來源。AWS Glue Data Catalog 捕捉 schema、來源系統,以及爬取的 metadata。AWS Lake Formation 追蹤誰在何時登錄了資料。Amazon DataZone 新增業務詞彙表與發布工作流程,使「來源」不只是一個 S3 URI,而是一個有擁有者的具名業務資產。

同意書、授權與智慧財產——我們有使用權嗎?

來源溯源本身並不足夠。AI 資料治理必須記錄:資料主體是否同意將其資料用於 AI 訓練?資料集授權是否允許衍生模型訓練(許多開放資料集並不允許)?智慧財產權是否已完成清查?AWS 不替你解讀合約,但 DataZone 業務 metadata 欄位與 Lake Formation 資源標籤,讓你能將「consent_status」、「license_type」、「ip_cleared_on」編碼為一等屬性,供下游 SageMaker 任務與 Bedrock 微調管線核查。

分類——是否含有 PII、PHI 或其他敏感內容?

Amazon Macie 使用內建識別碼(姓名、電子郵件、身分證號、信用卡號、AWS 金鑰等)與自訂識別碼,針對 S3 物件進行個人資料分類。Amazon Comprehend 在自由文字中偵測 PII 實體,適用於 Bedrock 應用的提示詞處理與輸出處理階段。分類將模糊的「敏感資料疑慮」轉化為可執行的政策。

駐留地——資料實際存放在哪裡?

AI 資料治理繼承 AWS 的區域資料駐留模型。歐盟訓練資料必須留在歐盟區域;你可以透過 SCP、AWS Config 規則,以及 Lake Formation 區域登錄來強制執行。Amazon Bedrock 中的基礎模型也是按區域部署的:在 eu-central-1 呼叫 Claude 或 Titan,推論就在 eu-central-1 的基礎架構上執行。跨區域推論設定必須明確啟用。

供應商資料政策——AWS 或模型提供商會重新利用我的資料嗎?

Amazon Bedrock 資料政策的表述毫不含糊:你的提示詞、完成結果,以及微調資料,不會被 AWS 或基礎模型提供商用來訓練或改進其模型。這對稽查人員很重要,因為它將 Bedrock 與許多消費端 AI 服務區隔開來。然而——這是考試常測的細節——Bedrock 上的個別提供商,對其在 Bedrock 之外自有服務的條款可能有所不同,你必須閱讀各提供商在 Bedrock 主控台內的專屬細則,因為存在細微差異。

若不知道資料來自哪裡,就無法授予任何使用許可。AWS 上的每一套 AI 資料治理計畫,都應以 AWS Glue Data Catalog 登錄資料集為起點,接著由 Lake Formation 完成資源登錄,再由 DataZone 將其發布為審核通過的資產。跳過來源溯源,後續所有管控(PII 掃描、存取授予、駐留規則)都是建立在沙地上。 Reference: https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html

訓練資料治理——血緣、同意書、授權與智慧財產

訓練資料治理是 AI 資料治理中決定「哪些資料可以進入模型權重」的部分。一旦資料被烘焙進基礎模型或微調適配器,實際上就幾乎不可能完全抹除。這種單向不可逆的特性,正是 AI 資料治理對訓練資料施加最嚴格規則的原因。

AI 管線的資料血緣

資料血緣是資料集的記錄族譜:它由哪些上游資料表合併而來、套用了哪些轉換,以及哪個下游訓練任務使用了它。在 AWS 上,血緣由 AWS Glue Data Catalog metadata、SageMaker ML Lineage Tracking(用於訓練任務),以及 Amazon DataZone 資產版本管理共同捕捉。稽查人員問「這個微調版 Claude 模型的 2.3 版,是用哪個 S3 前綴的資料訓練的?」——只有在血緣從第一天就開始追蹤的情況下,才能回答這個問題。

同意書與授權追蹤

同意書適用於個人資料:資料主體是否同意其資料用於 AI 模型訓練?授權適用於資料集:授權條款是否賦予訓練商業模型的權利?這是兩個不同的法律概念。將兩者都存為 Lake Formation 標籤與 DataZone 業務 metadata,使 Lake Formation 的資料列或欄位過濾政策能根據「consent=granted」或「license=commercial_training_allowed」來管控存取。

智慧財產與「你願意拿這份資料訓練模型嗎?」稽核

AI 資料治理中的智慧財產風險,不只限於明確的著作權問題。爬取的網路文字、第三方使用者生成內容,以及競爭對手的產品文件,若用於訓練資料,都可能引發 IP 糾紛。實際可用的工具是「你願意拿這份資料訓練模型嗎?」稽核法:一個在訓練前進行的跨職能審查,由法務、隱私與工程師共同抽樣資料集,判斷每筆記錄是否具備可辯護的訓練合法性。在這個階段發現問題,可以防止部署後的訴訟風險。

訓練前的資料品質閘道

除了法律限制,AI 資料治理還要執行品質閘道——去除重複、標籤準確性抽查、分佈核查與新鮮度確認。SageMaker Data Wrangler 與 AWS Glue DataBrew 提供剖析功能。DataZone 的業務詞彙表讓團隊能將「最低品質分數 = 0.85」編碼為已發布準則,由下游消費方自行執行。

資料來源溯源是資料最初的出處(過去某一個時間點)。資料血緣是從起點到當前用途的完整轉換圖譜(一條完整軌跡)。AI 資料治理兩者都需要——來源溯源回答「我們能否合法使用這份資料?」;血緣回答「哪個模型版本包含了哪批資料?」 Reference: https://docs.aws.amazon.com/glue/latest/dg/components-overview.html

AWS Glue Data Catalog 與 Lake Formation 用於訓練資料

AWS Glue Data Catalog 是 AWS 上 AI 資料治理的 metadata 基礎。Lake Formation 則是疊加在其上的存取控制與細粒度權限層。

AWS Glue Data Catalog 作為 AI metadata 儲存庫

AWS Glue Data Catalog 存儲 S3 資料、Redshift 資料表、RDS 資料庫等的 schema、分區資訊、資料表統計數據與分類標籤。對 AI 資料治理而言,Data Catalog 成為中央登錄庫:每一個可能餵入 SageMaker 訓練任務、Bedrock 微調任務或 Bedrock Knowledge Base 的 S3 前綴,都應先完成登錄,使下游服務可以查詢 metadata,而不是猜測 schema。

Glue Crawlers 自動探索 metadata

Glue Crawlers 掃描 S3 路徑、推斷 schema,並自動在 Data Catalog 中登錄資料表。對 AI 資料治理團隊而言,Crawler 確保新訓練批次落入 S3 時能即時更新目錄——若沒有 Crawler,目錄條目會逐漸過時,血緣準確性就會崩潰。

AWS Lake Formation 對訓練資料的權限管控

AWS Lake Formation 在 Data Catalog 物件上增加資料庫層、資料表層、欄層、資料列層與儲存格層的權限。AI 資料治理團隊可授予 SageMaker 訓練角色只能存取客戶資料表中非 PII 欄位的權限,或僅能存取「consent_given = true」的資料列。Lake Formation 以標籤為基礎的存取控制(LF-TBAC)讓你能附加如「ai_training_approved=yes」的標籤,並大規模授予權限。

Lake Formation 資料過濾器排除 PII

Lake Formation 的資料過濾器讓你建立具名的過濾檢視——例如,排除 emailphonessn 欄位的「customer_table_no_pii」。使用此檢視的 SageMaker 任務永遠看不到原始 PII 欄位,滿足 GDPR 及類似 AI 資料治理框架中的「目的限制」原則。台灣《個人資料保護法》對目的限制同樣有明文規定,此機制可同時滿足兩者要求。

Lake Formation vs. 單純 IAM

純粹的 S3 儲存桶 IAM 政策是物件層級且粗粒度的。Lake Formation 權限具有 schema 感知能力並支援細粒度管控。若考題情境指出「限制對 AI 訓練所用客戶資料表的特定欄位存取」,答案是 Lake Formation,而非 IAM。

Amazon Macie——大規模掃描 S3 訓練資料中的 PII

Amazon Macie 是 AWS 的受管服務,用於探索和分類 Amazon S3 儲存桶中的敏感資料。Macie 結合機器學習與模式比對,在大規模 S3 環境中識別 PII、個人健康資訊、憑證素材,以及自訂的敏感類型。

Amazon Macie 能找到什麼

Macie 內建對姓名、街道地址、電子郵件、電話號碼、各國政府身分證件、駕駛執照、信用卡號、AWS 存取金鑰、API token 等的受管資料識別碼。在台灣的情境中,身分證字號與健保卡號同樣屬於 Macie 可偵測的個人識別資訊類型。每個 Macie 發現結果會回報儲存桶名稱、物件鍵值、識別碼類型,以及出現次數。

Macie 在 AI 資料治理工作流程中的角色

在 AI 資料治理管線中,Macie 在訓練之前執行。典型流程:原始資料落入暫存 S3 儲存桶,Macie 掃描 PII,發現結果路由至 AWS Security Hub 與 Amazon EventBridge,補救管線遮蔽或隔離問題物件,僅有乾淨資料才能晉升至訓練儲存桶。此模式將「我們認為沒有 PII」轉化為「我們可以證明沒有 PII」——這正是 AI 資料治理稽查人員的要求。

Macie 自訂資料識別碼

自訂資料識別碼讓你定義自己的模式——員工編號、內部客戶編號、專有產品 SKU——與受管識別碼一起掃描。對受監管產業的 AI 資料治理而言,自訂識別碼是執行組織特定資料類別的方式。

Macie 敏感度評分

Macie 根據掃描結果,對每個 S3 儲存桶指派自動化敏感度評分(0-100)。存儲訓練資料且評分較高的儲存桶,應先進行補救,或在任何 ML 消費者讀取前,透過 Lake Formation 的欄位過濾檢視路由。

Macie vs. Amazon GuardDuty vs. Inspector

Macie 找到 S3 物件內部的敏感資料。GuardDuty 偵測威脅活動(異常 API 呼叫、惡意軟體、憑證外洩)。Inspector 掃描運算工作負載(EC2、ECR 映像檔、Lambda)的漏洞。AI 資料治理的 PII 相關題目,Macie 是正確答案;GuardDuty 和 Inspector 處理不同的安全顧慮。

Amazon Macie 掃描 Amazon S3 儲存桶。它不掃描 DynamoDB 資料表、RDS 資料庫,或傳輸中的提示詞。若要在推論時對傳輸中的文字進行 PII 遮蔽,需搭配 Amazon Comprehend PII 實體偵測(處理文字),以及 Amazon Bedrock Guardrails Sensitive Information Filters(用於 Bedrock 模型呼叫)。Macie 是訓練資料工具;Comprehend 是提示詞與輸出工具。 Reference: https://docs.aws.amazon.com/macie/latest/user/what-is-macie.html

Amazon Comprehend PII 實體偵測——遮蔽提示詞與輸出中的 PII

Amazon Comprehend 是 AWS 的受管自然語言處理服務。其 PII 偵測功能可在自由文字中識別個人識別資訊實體,並可返回實體清單或原始文字的遮蔽版本。

Comprehend PII 實體類型

Comprehend PII 偵測可識別的實體包括:NAME(姓名)、EMAIL(電子郵件)、PHONE(電話)、ADDRESS(地址)、SSN(社會安全碼)、CREDIT_DEBIT_NUMBER(信用卡號)、BANK_ACCOUNT_NUMBER(銀行帳號)、PASSPORT_NUMBER(護照號碼)、DRIVER_ID(駕照號碼)、IP_ADDRESS(IP 位址)、MAC_ADDRESS(MAC 位址)、URL、USERNAME(使用者名稱)、PASSWORD(密碼)等二十餘種類型。每個實體偵測結果返回類型、位置(位移與長度),以及信心分數。

即時偵測 vs. 批次偵測

Comprehend 提供同步的 DetectPiiEntities 用於請求時處理,以及非同步 PII 偵測任務用於跨大型 S3 語料庫的批次處理。在即時 Bedrock 應用的 AI 資料治理中,同步 API 作為每個使用者提示詞的前置處理步驟,以及每個模型輸出的後置處理步驟。

遮蔽模式——ContainsPiiEntities 與 DetectPiiEntities

Comprehend 的 ContainsPiiEntities 返回簡單的是/否加上實體類型標籤——成本低廉到可對每個請求執行。DetectPiiEntities 返回位移資訊用於原地遮蔽。在將提示詞傳送至 Bedrock 基礎模型之前進行遮蔽,可防止 PII 進入模型提供商的基礎架構——即使 Bedrock 資料政策已承諾不用於訓練。

輸出端 PII 過濾

模型有時會產生幻覺姓名或電話號碼,或重新輸出訓練資料中的 PII。在將模型輸出返回給終端使用者之前,對其執行 Comprehend PII 偵測,提供雙重防禦。這在概念上類似於 Bedrock Guardrails Sensitive Information Filters,但在非 Bedrock 情境(例如 SageMaker 託管的自訂 LLM)下提供更細粒度的控制。

Comprehend PII vs. Bedrock Guardrails Sensitive Information Filters

Bedrock Guardrails Sensitive Information Filters 自動套用於配置了 guardrail 的 Bedrock 模型呼叫。Amazon Comprehend PII 是獨立服務,可在任何 AI 工作流程周邊編排——Bedrock、SageMaker、Lex、透過 Lambda 呼叫的第三方 LLM。考試兩者都考:Guardrails 用於 Bedrock 特定情境,Comprehend 用於通用文字 PII。

Amazon DataZone——跨團隊資料存取治理

Amazon DataZone 是 AWS 的資料管理服務,用於跨團隊發布、探索和治理資料。對 AI 資料治理而言,DataZone 在組織規模上解決「哪個團隊可以為哪個 AI 目的使用哪份資料集?」的問題。

DataZone 專案與環境

DataZone 將工作組織成專案(業務計畫)與環境(專案可用的運算和儲存資源)。AI 團隊可能有一個「理賠分類模型」專案,包含開發環境與正式環境。資料生產方將資產發布至領域目錄;消費方透過其專案申請訂閱存取。

DataZone 業務詞彙表

業務詞彙表捕捉人類可讀的術語定義(「客戶」、「活躍訂閱者」、「流失率」)以及實作它們的物理欄位。對 AI 資料治理而言,詞彙表術語彌補了資料科學家詢問「什麼算是活躍客戶?」與實際回答此問題的 Glue Catalog 欄位之間的落差。

訂閱申請與資料共享工作流程

當資料科學家申請存取已發布資產用於 AI 訓練時,DataZone 將申請路由給資料擁有者,記錄業務理由,並在批准後自動佈建 Lake Formation 權限。每一次批准都可稽查且可撤銷。這是受監管產業中 AI 資料治理的工作流程。

供 AI 使用的 DataZone 資產 metadata

DataZone 資產同時攜帶技術 metadata(欄位、類型、來自 Glue 的統計數據)與業務 metadata(擁有者、資料管理聯絡人、同意旗標、授權類型、敏感度等級)。AI 團隊篩選目錄中 metadata 標示「ai_training_approved = yes」的資產,並只訂閱這些資產。

DataZone vs. Lake Formation vs. Glue Catalog

Glue Data Catalog 是技術 metadata 儲存庫。Lake Formation 執行細粒度權限。DataZone 是疊加在上方的業務層目錄、訂閱工作流程與詞彙表。三者互補,並不重疊:大規模 AI 資料治理需要同時使用全部三個。

若 AIF-C01 情境詢問跨團隊資料探索,以及帶有業務 metadata 的訂閱型存取工作流程,請選擇 Amazon DataZone。若詢問資料表的資料列層或欄位層權限,請選擇 AWS Lake Formation。若詢問 schema 探索與 metadata 儲存,請選擇 AWS Glue Data Catalog。請勿將三者混為一談。 Reference: https://docs.aws.amazon.com/datazone/latest/userguide/what-is-datazone.html

區域資料主權——歐盟訓練資料必須留在歐盟境內

區域資料主權是資料必須留在指定司法管轄區內的法律要求。AI 資料治理繼承 AWS 的區域模型:存放在歐盟區域的訓練資料,除非有人明確移動它,否則會留在歐盟區域的資料中心。類似地,台灣企業若需確保資料不離境,亦需明確選擇區域與管控設定,並結合《個人資料保護法》對跨境傳輸的相關規定進行稽查。

區域選擇是首要管控

對於歐盟專用 AI 訓練資料集,在 eu-central-1、eu-west-1 或其他歐盟區域建立 S3 儲存桶。在同一區域的 Glue Data Catalog 中登錄這些 S3 路徑。在該區域執行 Glue ETL 任務、SageMaker 任務,以及 Bedrock 模型呼叫。每個服務都遵守你選擇的區域——AWS 不會靜默地跨區域複製資料。

Bedrock 基礎模型的區域可用性

並非每個 Bedrock 基礎模型都在每個區域可用。歐盟專用訓練的 AI 資料治理計畫,必須確認選定的基礎模型——Claude、Titan、Llama、Mistral——在歐盟區域有可用的端點。若模型僅在 us-east-1 可用,要麼選擇不同模型,要麼接受資料出境與法規方面的取捨(在 GDPR 下幾乎不可接受)。

SCP、AWS Config 與 Lake Formation 區域管控

深度防禦:新增拒絕在非歐盟區域建立資源的服務控制政策(SCP)、標記非歐盟資源的 AWS Config 規則,以及拒絕登錄非本區域資料的 Lake Formation 區域登錄。每一層都能補捉其他層遺漏的錯誤。

Bedrock 跨區域推論的陷阱

Amazon Bedrock 提供跨區域推論功能,可自動將模型呼叫路由至一組區域中的可用容量。對具有主權限制的 AI 資料治理工作負載而言,跨區域推論必須停用,或限定在同一司法管轄區內的一組區域(例如,僅限歐盟的區域群組)。未限定範圍的跨區域推論可能將提示詞資料移至原始區域以外——這是必須主動預防的 AI 資料治理違規行為。

AWS 歐洲主權雲與 GovCloud

對於最高資料主權要求,AWS 運營 AWS GovCloud(美國)區域(FedRAMP High、ITAR),並已宣布為歐盟客戶提供 AWS 歐洲主權雲。AIF-C01 認知層級:知道這些選項存在即可。大多數考試情境以標準商業歐盟區域加上 SCP 與 Lake Formation 解決。

AI 資料治理考生常假設選擇歐盟區域就能自動阻止任何歐盟資料外流。對於 S3、SageMaker 訓練任務與單一區域 Bedrock 呼叫而言,這是正確的;但對於 Bedrock 跨區域推論、從全球模型登錄庫提取的 SageMaker JumpStart,或依設計全球運作的服務(IAM、CloudFront、Route 53 metadata)而言,則並非自動成立。具有主權限制的 AI 資料治理計畫,必須明確審查每個服務的區域行為。 Reference: https://docs.aws.amazon.com/bedrock/latest/userguide/data-protection.html

Amazon Bedrock 資料政策——你的資料不會用於訓練提供商模型

Amazon Bedrock 資料政策是 AWS 上 AI 資料治理的基礎,也是考試的高頻考點。請精確記憶。

核心保證

你提交給 Amazon Bedrock 的提示詞、完成結果,以及微調資料,不會被 AWS 使用,也不會分享給第三方基礎模型提供商,用於訓練或改進底層基礎模型。AWS 在傳輸與靜態時加密你的資料、隔離每位客戶的微調適配器,並且除服務運行所需外,不讀取你的內容。

為何這對 AI 資料治理至關重要

許多消費端 AI 產品會保留並重新利用提示詞來改進模型——這對含有機密、受監管或受著作權保護內容的企業 AI 資料治理而言是無法接受的。Bedrock 的政策顛覆了這個預設:企業資料保持企業資料屬性。AI 資料治理團隊在批准 Bedrock 用於正式工作負載時,正是依賴這項保證。

加密的範圍與位置

你的 VPC 與 Bedrock 端點之間的傳輸中資料使用 TLS。Bedrock Knowledge Bases、Bedrock Agents,以及微調模型適配器中的靜態資料,使用 AWS 管理的或客戶管理的 KMS 金鑰加密。你的微調資料隔離於你的帳號,其他客戶無法存取。

保證的限制——閱讀各提供商條款

透過 Bedrock 存取的第三方基礎模型(Anthropic Claude、Meta Llama、Mistral、Cohere、AI21、Stability AI)均在 AWS 基礎架構上依 Bedrock 資料政策托管。然而,每個提供商的 Bedrock 專屬條款可能包含細微差異——例如,關於濫用監控、安全調查的保留,或彙總 metadata 的使用。AI 資料治理最佳實踐是在採購審查期間,閱讀 Bedrock 主控台中每個提供商的條款頁面,並在 AWS 引進新模型系列時更新審查。

Amazon Titan 與 Amazon Q 由 AWS 完全管理

Amazon Titan 基礎模型與 Amazon Q Business/Developer 由 AWS 完全管理,分別遵循 Bedrock 資料政策與 Amazon Q 企業條款。對希望擁有最簡單 AI 資料治理故事(一個供應商、一份合約、一項政策)的客戶,Titan 與 Amazon Q 可縮減供應商層面。

Bedrock PrivateLink——讓 AI 流量遠離公共網際網路

AWS PrivateLink 讓 Amazon Bedrock 流量留在 AWS 私有網路,而非穿越公共網際網路。對受監管產業的 AI 資料治理而言,這是不可商量的設定。

Bedrock 的 VPC 介面端點

你為 com.amazonaws.<region>.bedrock-runtimecom.amazonaws.<region>.bedrock 建立 VPC 介面端點。在私有子網路中運行的應用程式,透過端點路由 Bedrock InvokeModel 呼叫。流量永遠不接觸公共網際網路。

發送給基礎模型的提示詞,往往包含工作流程中最敏感的資料——客戶記錄、內部文件、原始碼。將流量保持在 AWS 骨幹網路上,可降低網際網路攔截、路由異常與 DNS 攻擊的曝險。結合 Bedrock 資料政策,PrivateLink 為 Bedrock 型 AI 工作流程提供完整的「資料從不離開 AWS」故事。

AI 資料治理團隊也應為 S3、AWS Glue、Amazon Comprehend、Amazon Macie 與 SageMaker 佈建 PrivateLink 端點。AI 管線的私密性只有最弱的一環那麼強;若 Bedrock 流量使用 PrivateLink,但上游 S3 取用走的是公共網際網路,AI 資料治理的聲明就只是部分成立。

PrivateLink 是網路隔離功能。它不能取代 IAM、加密或 Bedrock 資料政策。AI 資料治理將 PrivateLink 與這些管控一起使用,而非取而代之。

Glue Data Catalog = schema 與 metadata 登錄庫。Lake Formation = 細粒度資料表/欄/列權限。DataZone = 跨團隊目錄與訂閱工作流程。Macie = 大規模 S3 PII 掃描。Comprehend PII = 提示詞與輸出中的文字 PII 偵測與遮蔽。Bedrock 資料政策 = AWS 不以你的資料訓練提供商模型。Bedrock PrivateLink = 流量不走公共網際網路。區域選擇 = 資料駐留執行。 Reference: https://docs.aws.amazon.com/bedrock/latest/userguide/data-protection.html

模型提供商資料使用政策各異——請閱讀細則

Amazon Bedrock 托管來自多個提供商的模型,雖然總體 Bedrock 資料政策適用於所有模型,但 AI 資料治理仍需在採購審查期間閱讀每個提供商的具體條款。AIF-C01 考試期望你了解提供商政策有所不同,而非記住每條條款。

各提供商條款的頁面入口

在 Amazon Bedrock 主控台中,每個模型目錄條目都連結至提供商的 Bedrock 專屬條款——Anthropic、Meta、Mistral AI、Cohere、AI21 Labs、Stability AI、Amazon Titan 及其他提供商。條款在可接受使用限制、可能被標記為濫用審查的內容,以及地理可用性方面有所不同。

AI 資料治理團隊應核查什麼

在採購期間:提供商的可接受使用政策是否與我們的預定使用情境衝突?是否有可能讓提示詞資料超出 Bedrock 資料政策保證期限的濫用審查保留窗口?是否有對特定司法管轄區資料使用該模型的地理限制?這些核查是 AI 資料治理中「閱讀細則」步驟。

安全變體與評估模型

部分提供商提供不同的 Bedrock 端點——標準版、指令版或安全調整版。條款在不同變體間可能略有不同。AI 資料治理團隊應記錄使用了哪個變體,而不僅僅是哪個提供商。

透過 Bedrock Marketplace 與 SageMaker JumpStart 的開源模型

引入 Bedrock Marketplace 或透過 SageMaker JumpStart 部署的開源基礎模型,帶有其來源授權(Llama 3 社群授權、Apache 2.0、Mistral 授權等)。AI 資料治理必須同時追蹤 AWS 端的資料政策與上游開源授權——再發布、微調與商業使用規則在不同開源授權之間有實質性差異。

與 AI 資料治理交叉的合規框架

AWS 上的 AI 資料治理與多個合規計畫交叉。AIF-C01 考試要求你辨識哪個框架適用於特定情境,而非記住條款細節。

GDPR——歐盟居民的個人資料

歐盟《一般資料保護規則》管轄歐盟居民的個人資料。對 AI 資料治理而言,GDPR 要求合法處理基礎、目的限制、資料最小化、存取權、刪除權,以及對特定處理類型的明確同意。AWS Artifact 提供 GDPR 資料處理附件。AI 資料治理管控——Macie 用於分類、Comprehend 用於遮蔽、Lake Formation 用於目的限制欄位存取——實作 GDPR 合規的技術面。台灣的《個人資料保護法》在精神上與 GDPR 高度類似,同樣要求特定目的、資料最小化,以及當事人同意。

HIPAA——美國受保護健康資訊

《健康保險可攜性與責任法》適用於美國的受保護健康資訊。Bedrock 與 SageMaker 在簽署業務夥伴附件(BAA)後,均為 HIPAA 合規可用服務。醫療保健 AI 工作負載的 AI 資料治理增加了 PHI 專屬管控:Macie 受管識別碼用於病歷號碼、Lake Formation 欄位過濾器用於提供商特定欄位,以及 CloudTrail 記錄每次模型呼叫。

EU AI Act——風險分級 AI 法規

歐盟 AI 法依風險等級(不可接受風險、高風險、有限風險、最低風險)對 AI 系統進行分類。EU AI Act 下的 AI 資料治理強調訓練資料品質、偏誤監控、人工監督與技術文件——這些都對應本主題中的 AWS 服務,以及 SageMaker Clarify 與 Bedrock Model Evaluation。

ISO/IEC 42001——AI 管理系統

ISO/IEC 42001 是 AI 的國際管理系統標準。AWS 正在追求相關認證;AWS Artifact 將在認證取得後發布。以 ISO 42001 對齊為目標的 AI 資料治理計畫,高度依賴 DataZone 與 Lake Formation 來建立標準所要求的資產生命周期文件。

其他框架

SOC 2、ISO 27001 與 FedRAMP 適用於托管 AI 工作負載的基礎架構。AWS 持有這些認證並在 AWS Artifact 中發布報告。AI 特定義務透過上述框架疊加在上方。

AI 資料治理與 PII 的常見考試陷阱

AIF-C01 Task 5.2 AI 資料治理題目中,有幾個反覆出現的混淆點。明確學習這些陷阱,可以爭取幾分。

Amazon Macie vs. Amazon Comprehend PII

Macie 掃描靜態的 Amazon S3 物件。Comprehend 在請求時偵測自由文字中的 PII 實體。若情境說「探索 S3 中訓練資料集的 PII」,答案是 Macie。若情境說「在傳送給 Bedrock 前遮蔽使用者提示詞中的 PII」,答案是 Comprehend(或 Bedrock Guardrails Sensitive Information Filters)。

AWS Glue Data Catalog vs. SageMaker Feature Store

Data Catalog 存儲關於 S3 及其他儲存庫中資料集的 metadata。SageMaker Feature Store 存儲用於訓練與即時推論的計算特徵值。提及「跨訓練與推論的可重用特徵工程」的考題指向 Feature Store;關於「訓練資料 schema 登錄庫」的考題指向 Data Catalog。

Lake Formation vs. IAM

IAM 單獨管理粗粒度的物件層級與 API 層級權限。Lake Formation 在資料目錄登錄的資料表上增加欄、列與儲存格層級的權限。關於細粒度資料存取的 AI 資料治理題目,預設答案是 Lake Formation。

Amazon DataZone vs. AWS Glue Data Catalog

DataZone 是帶有訂閱工作流程、業務詞彙表與跨專案共享的業務層目錄。Glue Data Catalog 是技術層目錄。兩者協同工作;DataZone 發布由 Glue Catalog 資料表支撐的資產。

Bedrock 資料政策 vs. 模型提供商條款

Bedrock 資料政策禁止 AWS 與提供商使用你的 Bedrock 資料進行訓練。個別提供商條款疊加額外限制與偶發例外(濫用監控窗口、地理可用性)。請勿假設所有提供商的條款完全相同。

區域駐留 vs. 加密

加密保護機密性。區域選擇執行資料駐留。加密並不阻止資料跨區域移動;只有區域選擇才能做到。當情境要求「僅在德國保留資料」時,正確答案以區域選擇與 SCP 為主,而非 KMS。

Macie 敏感度評分是訊號,而非閘道

Macie 的自動化敏感度評分有助於優先排序,但不會自動封鎖任何工作流程。AI 資料治理團隊仍需 Lake Formation 資料過濾器、SCP 拒絕,或管線層級的隔離邏輯,才能真正阻止敏感資料流入訓練。

必記數字與重要事實

在 AIF-C01 AI 資料治理中,你需要辨識而非精確記憶所有數字,但有幾個事實反覆出現:

  • Amazon Macie 內建 100 種以上受管資料識別碼,涵蓋全球 PII 模式與憑證。
  • Amazon Comprehend 每次請求同步偵測 20 種以上 PII 實體類型。
  • AWS Glue Data Catalog 是依區域設計的;目錄條目預設不跨區域複製。
  • AWS Lake Formation 權限適用於資料庫、資料表、欄位、資料列與儲存格粒度。
  • Amazon DataZone 訂閱可透過 CloudTrail 端到端稽查。
  • Amazon Bedrock 預設以 AWS 管理的 KMS 金鑰加密存儲微調資料;客戶管理的 KMS 金鑰為可選項目。
  • Amazon Bedrock 資料政策適用於提示詞、完成結果與微調資料——三者皆適用。
  • Bedrock PrivateLink 使用帶有區域端點名稱的 VPC 介面端點。

練習題連結——Task 5.2 對應練習

AIF-C01 考試的 AI 資料治理題目,預期以下幾種形式出現:

  1. 「一家醫療保健公司想在訓練基礎模型前,掃描包含醫療逐字稿的 S3 儲存桶中的 PII。」答案:Amazon Macie。
  2. 「一個建立在 Amazon Bedrock 上的應用程式,必須在呼叫模型前遮蔽使用者提示詞中的電話號碼。」答案:Amazon Comprehend DetectPiiEntities(或 Bedrock Guardrails Sensitive Information Filters)。
  3. 「一個團隊需要一個單一目錄,讓資料科學家能探索並訂閱已核准的訓練資料集。」答案:Amazon DataZone。
  4. 「一個資料平台必須限制 SageMaker 訓練角色只能存取客戶資料表的特定欄位。」答案:AWS Lake Formation 欄位權限。
  5. 「一家歐盟銀行必須確保訓練資料永遠不離開歐盟。」答案:選擇歐盟區域、執行拒絕非歐盟資源建立的 SCP,並確認 Bedrock 基礎模型在該區域可用。
  6. 「一家公司希望確保 AWS 不會使用 Bedrock 提示詞來訓練提供商模型。」答案:Amazon Bedrock 資料政策以書面形式提供此保證。
  7. 「一個安全團隊必須防止 Bedrock 流量穿越公共網際網路。」答案:透過 AWS PrivateLink 使用 Amazon Bedrock VPC 介面端點。
  8. 「一位合規主任詢問哪個 AWS 服務集中存儲 AI 訓練資料的 schema 與 metadata。」答案:AWS Glue Data Catalog。

FAQ——AI 資料治理與 PII 熱門問題

Q1. Amazon Macie 與 Amazon Comprehend 在 PII 偵測上有何差異?

Amazon Macie 掃描靜態於 Amazon S3 儲存桶中的 PII,使用受管與自訂資料識別碼,可涵蓋數 PB 的訓練資料。Amazon Comprehend 同步或批次偵測自由文字中的 PII 實體,並能返回遮蔽後的文字。Macie 是訓練資料治理工具;Comprehend 是即時提示詞與輸出遮蔽工具。在 AIF-C01 考試中,情境涉及 S3 儲存桶時,Macie 幾乎必然是正確答案;情境涉及流向或來自基礎模型的即時文字時,Comprehend 幾乎必然是正確答案。

Q2. Amazon Bedrock 會使用我的提示詞訓練其基礎模型嗎?

不會。Amazon Bedrock 資料政策明確表示,你的提示詞、完成結果與微調資料,不會被 AWS 使用,也不會分享給第三方模型提供商用於訓練或改進基礎模型。這是 Bedrock 文件中具名的 AWS 承諾,是企業採用 Bedrock 的核心 AI 資料治理保證。個別提供商條款可能增加細微條款(例如濫用監控窗口),但無法凌駕核心 Bedrock 資料政策。

Q3. AWS Glue Data Catalog、AWS Lake Formation 與 Amazon DataZone 在 AI 資料治理中如何配合?

三者是分層架構。AWS Glue Data Catalog 存儲技術 metadata——schema、分區、統計數據。AWS Lake Formation 在 Data Catalog 資料表上增加細粒度存取控制(欄、列、儲存格)。Amazon DataZone 將 Data Catalog 資料表發布為帶有業務詞彙表與訂閱工作流程的業務資產,用於跨團隊存取。端對端 AI 資料治理技術堆疊同時使用三者:Glue Catalog 用於 metadata、Lake Formation 用於執行、DataZone 用於面向使用者的目錄與審批。

Q4. 如何在 AWS 上將歐盟訓練資料保留在歐盟境內?

為每個接觸資料的服務選擇歐盟 AWS 區域(eu-central-1、eu-west-1、eu-north-1、eu-west-3、eu-south-1、eu-south-2 或 eu-central-2)——S3、Glue、SageMaker、Bedrock。套用拒絕在非歐盟區域建立資源的 AWS Organizations 服務控制政策。使用 AWS Config 規則標記偏移。確認計畫使用的 Bedrock 基礎模型在歐盟區域可用,並停用或限定跨區域推論範圍,使提示詞不會路由至歐盟以外。透過 AWS Artifact 簽署 GDPR 資料處理附件。這些步驟合在一起,使你擁有可辯護的歐盟專用 AI 資料治理。

Q5. 我應該稽查 Bedrock 提供商細則中的哪些內容?

在主控台中閱讀每個 Bedrock 提供商的條款頁面,核查可接受使用限制、濫用監控窗口、濫用案件中的保留行為、地理可用性,以及與核心 Bedrock 資料政策的任何差異。各提供商條款不同;AWS 不會統一它們。AI 資料治理團隊應記錄每個工作負載中使用了哪個提供商、哪個模型版本,以及哪個變體,並在 AWS 引進新模型系列時重複細則審查。

Q6. Amazon Bedrock 在 AI 工作負載中處理 PHI 時是否符合 HIPAA 規定?

是的,Amazon Bedrock 在與 AWS 簽署業務夥伴附件(BAA)後,符合 HIPAA 合規資格。這意味著當 BAA 到位,且你疊加了通常的 HIPAA 管控時——靜態與傳輸中加密、IAM 最小權限、CloudTrail 稽查——以及專屬於 AI 資料治理的管控:掃描訓練資料的 Macie、對提示詞與輸出進行 PII 遮蔽的 Comprehend PII,以及 Lake Formation 欄位層存取執行——就可以透過 Bedrock 基礎模型處理受保護健康資訊。請隨時在 AWS HIPAA 合規服務頁面上確認特定模型與區域組合,該頁面會定期更新。

Q7. 「你願意拿這份資料訓練模型嗎?」稽核是什麼,何時應執行?

「你願意拿這份資料訓練模型嗎?」稽核是一個訓練前審查,由法務、隱私與工程師利害關係人對資料集進行抽樣,並詢問每筆記錄在考慮同意書、授權、智慧財產、PII 曝露與駐留情況下,是否具備可辯護的 AI 模型訓練合法性。在每次微調或持續預訓練任務前執行,而不只是在專案啟動時,因為上游資料管線會隨時間改變,上一季安全的資料,這季可能已不安全。在 AWS 上,Macie 掃描提供 PII 支援、Glue Data Catalog 血緣記錄、DataZone 同意書標記資產,以及 Lake Formation 欄位過濾器讓你在不讓審查者接觸原始資料的情況下抽樣乾淨子集。

延伸閱讀

官方資料來源

更多 AIF-C01 主題