基礎模型與大型語言模型是 AWS Certified AI Practitioner AIF-C01 考試的核心重點。Task Statement 2.1 要求你能定義基礎模型、說明大型語言模型為何是其中一種特定子類型、列舉 Amazon Bedrock 上可用的基礎模型(Anthropic Claude、Amazon Titan、Amazon Nova、Meta Llama、Mistral AI、AI21 Labs Jurassic、Cohere Command、Stability AI Stable Diffusion),並能分析驅動模型選擇的取捨——規模與成本與延遲與準確度、開放權重與專有授權、文字與圖像與多模態。本篇筆記便是針對這個考試標準撰寫的。基礎模型與大型語言模型約佔 Domain 2 共 1800 題中的 350 題,而 Domain 2 和 Domain 3 其餘所有主題都預設你已經對這些詞彙滾瓜爛熟。
本文也會標示 AIF-C01 與即將推出的 AIP-C01 專業級考試之間的分野——基礎級考試要求你能辨識並選擇基礎模型,而 AIP-C01 則要求你能設計、優化並在生產環境中運作這些模型。閱讀時請牢記這條範疇界線。
什麼是基礎模型與大型語言模型?
基礎模型是一種大型神經網路,透過自監督學習在極廣泛的資料集上進行預訓練,因此可透過提示、檢索或微調,適應各種下游任務,而不需從頭重建。這個詞彙由史丹佛大學基礎模型研究中心(Stanford CRFM)於 2021 年提出,正是為了捕捉「一個模型,多種任務」的特性。AIF-C01 考試直接採用這個定義。
大型語言模型(LLM)是基礎模型中專門處理文字的子類型。LLM 接收 token 序列並預測下一個 token;這個看似簡單的機制在預訓練期間重複執行數十億次後,會產生摘要、翻譯、問答、分類與程式碼生成等湧現能力。Amazon Bedrock 上的每一個 LLM——Claude、Titan Text、Llama、Mistral、Jurassic、Cohere Command——都是基礎模型,但並非每個基礎模型都是 LLM。例如 Stability AI Stable Diffusion 是圖像生成基礎模型;Amazon Titan Image Generator 是用於圖像的基礎模型;Amazon Nova 則是涵蓋文字、圖像與影片的多模態基礎模型家族。
「基礎」這個詞因此具有實質意義:它代表(1)龐大的參數量與訓練 token 數,(2)廣泛的預訓練覆蓋範圍,以及(3)可適應下游任務的能力。三個條件缺一不可,否則在考試定義上就不算基礎模型。Amazon Bedrock 是透過 API 呼叫基礎模型的 AWS 服務;Amazon SageMaker JumpStart 則是讓你將基礎模型部署到自己控管的受管基礎設施上的 AWS 服務。兩者皆與考試相關,兩者都會出現在 AIF-C01 的題目中,也都仰賴你即將熟練的基礎模型與大型語言模型詞彙。
為什麼基礎模型與大型語言模型主導 AIF-C01
AIF-C01 Domain 2(生成式 AI 基礎知識)占考試的 24%,而每一題 Domain 2 的題目不是直接考基礎模型與大型語言模型,就是預設你能辨識它們。Domain 3(基礎模型的應用)再加上 28%——因此 AIF-C01 超過一半的考題都仰賴本篇筆記的基礎模型與大型語言模型知識。跳過這個主題不是選項。
基礎模型需同時滿足:(1)大型、(2)以自監督學習在廣泛資料上預訓練、(3)可適應多種下游任務。三個條件缺一不可。僅在胸部 X 光上訓練的 500 億參數分類器——大型且經過預訓練,但範圍不夠廣——不算基礎模型。一個小型規則引擎——範圍雖廣但未經預訓練——也不算基礎模型。請熟記這個定義;Domain 2 大約每五題就有一題要靠清晰的定義得分。 Source ↗
白話文解釋基礎模型與大型語言模型
基礎模型與大型語言模型聽起來很學術,但三個生活類比就能讓概念變得清晰易懂。
類比一:便利商店的店員
想像你在一家已開業多年的便利商店上班。這家店的師傅(預訓練團隊)花了幾個月與大量資金,把各種商品的位置、進貨邏輯、促銷規則全部整合進一套系統裡。你上班的第一天不需要重新盤點所有貨架——有人問飲料在哪,你就能馬上帶他找到。
- 整家便利商店的知識系統就是基礎模型。
- 師傅當初整理全店的過程就是預訓練。
- 你回答顧客問題就是推論(inference)。
- 顧客用「限時優惠」這幾個字縮小問題範圍,就是提示工程(prompt engineering)。
- 把公司內部系統的說法教給你,就是微調(fine-tuning)。
- 讓你隨時查閱今天的進貨單,不需重新訓練,就是檢索增強生成(RAG)。
大型語言模型是這家便利商店的「文字區」。像 Stable Diffusion 這類圖像基礎模型是「美工材料區」。像 Amazon Nova 這類多模態基礎模型則是「跨區整合服務台」。AIF-C01 如果問「哪種方法能讓預訓練模型回答特定領域問題,而不改變其權重」,本質上是在問「怎麼不用重新整理貨架就能服務顧客」,答案是提示工程或 RAG,不是微調,更不是從頭預訓練。
類比二:瑞士刀工廠
基礎模型就是一把瑞士刀。它不是最鋒利的廚刀、不是最精準的手術刀,也不是最強壯的撬棍——但開箱就能應付數百種任務。工廠(OpenAI、Anthropic、Meta、Amazon、Mistral、AI21、Cohere、Stability AI)用龐大的資本鑄造這把刀一次;你透過 Amazon Bedrock 按 token 租用。
- 主刀片是 LLM 文字能力——摘要、分類、翻譯、寫程式碼。
- 剪刀是多模態視覺能力——描述圖片、解讀圖表。
- 開瓶器是程式碼助手能力——解讀 stack trace、生成函式。
- 小刀片是嵌入模型能力——Amazon Titan Embeddings、Cohere Embed。
- 牙籤是護欄(guardrail)——細小安靜,卻讓整把工具保持安全。
選擇基礎模型就是選要佩掛哪把瑞士刀。珠寶師(延遲敏感的對話)需要輕巧快速的小刀,例如 Claude Haiku 或 Amazon Nova Micro。木工師傅(分析 200 頁合約的長文脈任務)需要大型穩健的刀,例如 Claude Opus 或 Amazon Nova Premier。兩者都是基礎模型、都是大型語言模型;差別在於成本效益比——這正是 AIF-C01 最愛深探的取捨點。
類比三:電力網格
把基礎模型與大型語言模型想成電力網格。電網出現之前,每家工廠都得自己燒煤發電——那就是 2018 年以前每家企業各自從頭訓練自己模型的世界。電網一出現(超大規模業者進行預訓練),任何家庭只要插上插頭(下游任務)就能獲得穩定電力。Amazon Bedrock 是牆上的插座;模型提供商(Anthropic、Meta、Amazon、Mistral)是發電廠;token 是按電表計費的度數。
- 從頭預訓練一個基礎模型,成本從幾千萬到幾億美元不等——就像蓋一座核電廠。
- 微調就是裝一個電壓轉換器,讓電網能驅動你的設備。
- 提示工程就是正確地按下電燈開關。
- 專有模型就像受管制的電力公司——你按電表付費,遵守服務條款(EULA)。
- 像 Meta Llama 或 Mistral 這類開放權重模型就像合作社的微電網——你可以把發電機載回家,在 Amazon SageMaker JumpStart 上自己跑,但維護責任也由你承擔。
如果題目問「產業為何從任務特定機器學習轉向基礎模型」,電網類比給你答案:把昂貴的工作(預訓練)集中到計量 API 後面,大幅降低了每個下游應用的成本。
Transformer 架構:每個 LLM 裡的核心引擎
Transformer 是驅動 Amazon Bedrock 上所有 LLM 的神經網路架構。AIF-C01 不要求你懂數學,但要求你具備概念詞彙。
注意力機制一段話解釋
舊架構逐字處理文字,對早期的上下文記憶力很差。Vaswani 等人於 2017 年提出的 Transformer,以注意力機制取代了序列式閱讀:在生成每個 token 時,模型同時關注 context window 中所有其他 token,並決定哪些最重要。這種平行運算方式使 Transformer 能擴展到數千億參數,以及數十萬 token 的 context window,也讓同一個基礎模型能用相同的權重處理摘要、翻譯與程式碼生成。
為何這對模型選擇很重要
兩個 Transformer 特性驅動了 AIF-C01 每一道模型選擇題。
- Context window 大小受 Transformer 注意力機制的制約——長度翻倍大約讓運算量增為四倍。這就是為什麼同樣擁有 200k context window 的 Claude Sonnet,每個 token 的費用比層數較少的 Claude Haiku 更高。Context window 是基礎模型與大型語言模型的設計參數;考試預設你知道它是成本驅動因素。
- 參數數量(預訓練期間學到的數十億個權重)控制能力。參數越多通常代表越豐富的世界知識與更強的推理能力,但也意味著更高的延遲、更高的每 token 費用,以及更多的 GPU 記憶體需求。小型 LLM 如 Amazon Nova Micro、Claude Haiku、Mistral 7B 便宜且快速;大型 LLM 如 Claude Opus、Amazon Nova Premier、Llama 3.1 405B 則較昂貴且深思熟慮。
基礎模型(FM)是一種大型神經網路,透過自監督學習在廣泛的、大多無標注的資料集上進行預訓練,使其能透過提示、情境學習(in-context learning)、檢索增強或微調,適應多種下游任務,而無需從頭重新訓練。AWS 明確將 Amazon Bedrock 定位為「以基礎模型建構和擴展生成式 AI 應用的最簡單方式」。 Source ↗
大規模預訓練:基礎模型是如何誕生的
預訓練是基礎模型生命週期中成本最高的單一步驟。預訓練團隊會組建一個語料庫——對 LLM 而言,這通常是從網路爬取、書籍、程式碼儲存庫和授權資料集中抽取的數兆個 token——然後訓練 Transformer 在這整個語料庫上預測下一個 token。訓練過程本身在數千個 GPU 或 AWS Trainium 晶片上需要數週至數個月,費用從 70 億參數模型的幾百萬美元,到頂尖模型的超過一億美元不等。
AIF-C01 不要求你估算預訓練費用,但確實要求你認識大規模預訓練的三個後果:
- 基礎模型與大型語言模型會展現湧現能力——只有在一定規模以上才會出現的行為(思維鏈推理、零樣本翻譯、工具使用),並非明確寫入程式的。
- 基礎模型與大型語言模型有知識截止日期——訓練資料的最新日期。此日期之後的任何事都是不可見的,除非透過 RAG 或工具使用提供。
- 基礎模型與大型語言模型會繼承訓練資料中的偏見、受版權保護的內容以及事實錯誤。這就是為什麼負責任 AI 護欄(Domain 4 涵蓋)存在的原因。
預訓練也是產業轉向租用基礎模型而非自行建構的原因。對大多數企業而言,從頭訓練一個新的基礎模型在經濟上是不理性的;在 Amazon Bedrock 上呼叫一個是主流選擇。
預訓練(pretraining)、微調(fine-tuning)、持續預訓練(continued pretraining)和指令調整(instruction tuning)是四種不同的操作。預訓練在廣泛資料上從頭建立基礎模型。持續預訓練在更多廣泛資料上延伸現有的基礎模型(例如領域文字)。微調在標注的(指令、回應)配對上更新權重。指令調整是一種特定的微調,教導模型遵循人類風格的指令——這一步驟將原始 LLM 轉變為對話助手。混淆這些概念是 AIF-C01 的經典陷阱。 Source ↗
模型參數:「數十億參數」的意思
參數是 Transformer 內部一個學習到的權重。一個 70 億參數的 LLM 有 70 億個這樣的權重;一個 4050 億參數的 LLM 則有 4050 億個。在 AIF-C01 上你需要三個實際的直覺認知。
- 參數越多通常能力越強,尤其在推理密集的任務上——但邊際效益遞減。參數翻倍不代表準確度翻倍。
- 參數越多需要越多 GPU 記憶體。以 16 位元精度的 700 億參數模型,光是存放權重就需要約 140 GB 的加速器記憶體;70 億參數模型可以放進單張消費級 GPU。這決定了 Amazon SageMaker 的執行個體選擇,也影響 Amazon Bedrock 的每 token 定價。
- 參數越多,每個 token 的延遲越高。對於互動式對話,即使能力已夠,延遲往往才是關鍵限制。
參數量因此是模型選擇決策的一個維度,而非唯一維度。Amazon Bedrock 上的基礎模型與大型語言模型刻意提供多種規格——Claude Haiku / Sonnet / Opus、Amazon Nova Micro / Lite / Pro / Premier、Llama 3.1 8B / 70B / 405B、Mistral 7B / 8x7B / Large——讓你能將規格對應到工作負載。
參數 vs 訓練 Token 數:Scaling Laws
DeepMind Chinchilla 論文證明,在相同的運算預算下,用更多 token 訓練的小型模型,可以勝過用較少 token 訓練的大型模型。這個洞察解釋了為何現代基礎模型同時公告參數量和訓練 token 數。AIF-C01 不要求你計算 scaling laws,但預設你知道模型品質是參數與資料的函數,而非僅取決於參數量。
Amazon Bedrock 上的基礎模型家族
Amazon Bedrock 將來自七家外部提供商,以及 Amazon 自家的 Titan 和 Nova 家族的基礎模型,整合在單一 API 後面。考試要求你能將每個家族對應到其典型使用案例。
Anthropic Claude
Anthropic 的 Claude 家族(Haiku、Sonnet、Opus,以及撰文時的 Claude 3.5/3.7 世代)是 Amazon Bedrock 首推的專有文字與多模態 LLM 陣容。Claude 擅長長文脈推理(最多 200k token)、精確的指令遵循,以及憲法式 AI 護欄。Anthropic 是 AWS 的策略合作夥伴,Claude 在考試中通常是「能力強且安全」的預設選項。Claude 是封閉式基礎模型——你透過 Amazon Bedrock API 存取,不能下載權重。
Amazon Titan
Amazon Titan 是 Amazon 自家的基礎模型家族。Titan Text(Express、Lite)涵蓋通用文字生成;Titan Embeddings 產生用於語意搜尋和 RAG 的向量;Titan Image Generator 從文字提示生成圖像。Titan 與 Amazon Bedrock Knowledge Bases 和 Amazon Bedrock Guardrails 深度整合。考試常將 Titan 定位為「留在 AWS 內部、定價可預期」的選項。
Amazon Nova
Amazon Nova 於 re:Invent 2024 發表,是 Amazon 的前沿多模態基礎模型家族。Nova Micro 僅支援文字且針對延遲最佳化;Nova Lite、Nova Pro 和 Nova Premier 支援文字、圖像和影片輸入。Nova 僅透過 Amazon Bedrock 提供,與 Amazon Bedrock Agents 緊密整合,定位為 Amazon 的性價比領導者。預計 AIF-C01 的考試指南 v1.1 起會將 Nova 納入 Bedrock 模型目錄。
Meta Llama
Meta 的 Llama 家族(Llama 2、Llama 3、Llama 3.1、Llama 3.2)是旗艦開放權重基礎模型系列。Llama 3.1 提供 8B、70B 和 405B 三種規格;Llama 3.2 加入了更小型和多模態的變體。在 Amazon Bedrock 上,Llama 和其他基礎模型一樣透過 API 存取;在 Amazon SageMaker JumpStart 上,Llama 的權重可以部署到客戶控管的基礎設施,進行更深度的客製化。Llama 的社群授權條款雖然寬鬆,但並非純正開放原始碼——每月活躍用戶超過 7 億的大型部署需要向 Meta 取得額外授權。這個授權細節對考試的開放 vs 專有問題很重要。
Mistral AI
Mistral AI(一家法國實驗室)提供 Mistral 7B、Mixtral 8x7B(混合專家架構)和 Mistral Large。Mistral 7B 和 Mixtral 8x7B 採用寬鬆的 Apache 2.0 授權;Mistral Large 是專有的。Mistral 在考試中的定位是「高效率基礎模型、擅長歐洲語言、有開放權重版本」。Mistral 模型可在 Amazon Bedrock 和 SageMaker JumpStart 上取得。
AI21 Labs Jurassic
AI21 Labs 在 Amazon Bedrock 上提供 Jurassic-2 家族以及較新的 Jamba 家族。Jurassic 定位為專有文字 LLM,針對多語言企業內容生成最佳化。在 AIF-C01 上你只需認識 Jurassic 是 Amazon Bedrock 基礎模型提供商之一,不需記憶其基準測試分數。
Cohere Command
Cohere 的 Command 家族(Command、Command R、Command R+)是以企業為重心的專有文字 LLM 系列,尤其專注於 RAG 工作流程和工具使用。Cohere Embed 是其配套的嵌入模型。Cohere 是 Amazon Bedrock Knowledge Bases 的核心成員。
Stability AI Stable Diffusion
Stability AI 提供 Stable Diffusion(SD3、SDXL)和 Stable Image 模型——這些是圖像生成的基礎模型,而非文字模型。Stable Diffusion 是 AIF-C01 用來說明「基礎模型比 LLM 範圍更廣」的標準範例。Stable Diffusion 的權重在 Stability AI 社群授權條款下發布,屬於開放權重,但對商業用途有使用門檻限制,並不算友善。
其他 Amazon Bedrock 基礎模型
Amazon Bedrock 的模型目錄還包含來自 HuggingFace(透過自訂模型匯入)、Writer(Palmyra)和特定領域提供商的模型。對 AIF-C01 而言,請記住上述七個主要家族——Anthropic、Amazon(Titan 和 Nova)、Meta、Mistral、AI21、Cohere、Stability AI——其餘視為認識層級的知識即可。
AIF-C01 要求你能背出 Amazon Bedrock 上的提供商:Anthropic Claude、Amazon Titan、Amazon Nova、Meta Llama、Mistral AI、AI21 Labs Jurassic、Cohere Command、Stability AI Stable Diffusion。拖放題少填一個就是直接丟分。請為每個提供商及每個模型的主要模態(文字、圖像、多模態、嵌入)製作閃卡。 Source ↗
文字 vs 圖像 vs 多模態基礎模型
基礎模型有三種模態類型,AIF-C01 會測試你能否把情境對應到正確的模態。
文字基礎模型(LLM)
文字基礎模型——也就是經典的 LLM——接收 token 序列並輸出 token 序列。範例:Anthropic Claude Sonnet、Amazon Titan Text Express、Meta Llama 3.1 70B、Mistral Large、AI21 Jurassic-2 Ultra、Cohere Command R+。使用案例:摘要、問答、翻譯、分類、程式碼生成、對話。
圖像基礎模型
圖像基礎模型接收文字提示(以及可選的圖像輸入)並輸出圖像。範例:Stability AI Stable Diffusion SDXL、Amazon Titan Image Generator。使用案例:行銷創意素材生成、合成訓練資料、圖像變體與修復(inpainting)。在 Amazon Bedrock 上,圖像模型按生成的圖像張數計費,而非按 token 計費。
多模態基礎模型
多模態基礎模型同時接受多種模態的輸入。Anthropic Claude Sonnet 和 Opus 接受文字加圖像(視覺輸入)。Amazon Nova Pro 和 Premier 接受文字、圖像和影片。多模態模型支援的使用案例包括:圖表理解、超越 OCR 的文件版面分析,以及影片摘要。在 AIF-C01 上,預期至少會有一道題要求你為「摘要這段 10 分鐘的影片和附帶的投影片組」這類情境選擇多模態模型。
嵌入模型
另外,嵌入模型是基礎模型的一種子類型,將文字(或圖像)映射為固定長度的數值向量,用於語意搜尋和 RAG。範例:Amazon Titan Embeddings、Cohere Embed。嵌入模型在「嵌入與向量資料庫」主題中有深入介紹。
模型規模 vs 成本 vs 延遲 vs 準確度:四軸取捨
這是基礎模型與大型語言模型中最常被考的思維模型。Amazon Bedrock 上每一個實際的選擇,都是四軸取捨空間中的一個點。
軸一:能力(準確度與推理深度)
越大的基礎模型在推理基準測試上得分越高、能處理更模糊的指令,並產生更高品質的創意輸出。Claude Opus 和 Llama 3.1 405B 在這個軸的頂端;Claude Haiku 和 Mistral 7B 則較低。
軸二:延遲(每秒 Token 數與首 Token 時間)
較小的模型輸出 token 速度更快。一個 70 億參數的 LLM 在普通 GPU 上可以每秒產生 100 個以上的 token;一個 4000 億以上參數的 LLM 可能每秒只輸出 20 到 30 個。對於有 1 秒延遲預算的互動式對話 UI,只有小型和中型基礎模型符合資格。對於有 10 分鐘 SLA 的批次文件處理,最快的模型就不再是關鍵考量了。
軸三:成本(每輸入 Token 和每輸出 Token)
Amazon Bedrock 按每 1000 個輸入 token 和每 1000 個輸出 token 計費,費用大致與參數量成正比。在撰文時,Claude Haiku 每個輸出 token 的費用大約比 Claude Opus 便宜 10 到 20 倍。批次推論(batch inference)和預置輸送量(provisioned throughput)會進一步改變成本結構——對 AIF-C01 而言,請認識成本是第一等級的模型選擇因素,而非附加考量。
軸四:Context Window(每次請求的 Token 數)
各基礎模型的 context window 長度不同。Claude Sonnet 支援 200k token;Llama 3.1 支援 128k;較舊的 Titan Text Express 支援 8k。長 context window 能讓整份文件在不分塊的情況下摘要,但每次請求的費用更高。請選擇能涵蓋你最壞情況輸入的最小 context window。
整合四軸:選小快 vs 選大準
在考試中使用以下啟發法:
- 短提示的即時客戶對話 → 小型快速基礎模型(Claude Haiku、Nova Micro、Mistral 7B)。
- 複雜多步推理或需要細膩品質的文字創作 → 大型基礎模型(Claude Opus、Nova Premier、Llama 3.1 405B)。
- 高量批次分類 → 小型基礎模型搭配批次推論或預置輸送量。
- 合約或研究報告的長文脈分析 → 擁有大 context window 的大型基礎模型(Claude Sonnet/Opus)。
考試的干擾選項常建議選最大的基礎模型,「因為它最準確」。只要小型模型以十分之一的成本和五分之一的延遲就能通過準確度門檻,這個說法就是錯的。AIF-C01 獎勵的是情境下最小可行的基礎模型,而非最大的那個。如果題目說「在符合需求的前提下最佳化成本」,請選擇能合理解決任務的最小 Claude(Haiku)或 Amazon Nova(Micro/Lite)。 Source ↗
開放權重 vs 專有基礎模型:授權全景
基礎模型分為兩種商業類別,而授權是考試繼規模 vs 成本之後最喜愛的陷阱。
專有(封閉權重)基礎模型
專有基礎模型的權重從不對客戶公開。你透過 API 呼叫它——Amazon Bedrock、提供商自己的端點,或 Azure/GCP 的同類服務——並在每次呼叫時接受提供商的使用者授權條款(EULA)。範例:Anthropic Claude、Amazon Titan、Amazon Nova、AI21 Jurassic、Cohere Command、Mistral Large。
專有模型的優點:無需自行運行基礎設施;由提供商持續更新;內建強大的護欄與安全訓練。
專有模型的缺點:產品生命週期內持續有 token 費用;依賴提供商的可用性;無法稽核或在地端部署權重。
開放權重基礎模型
開放權重基礎模型的權重以授權條款(通常在 HuggingFace 上)公開發布,允許下載和自行託管。範例:Meta Llama 3.1、Mistral 7B、Mixtral 8x7B、Stability AI Stable Diffusion。這些模型仍可在 Amazon Bedrock 上作為受管 API 使用,也可額外部署到 Amazon SageMaker JumpStart 或自行管理的運算資源上。
開放權重模型的優點:完全掌控部署;一次性基礎設施費用而非每 token 計費;可積極微調權重;友善於稽核。
開放權重模型的缺點:需要自己運行基礎設施;負責安全護欄;授權條款可能限制商業用途。
開放權重不等於開放原始碼
AIF-C01 的經典陷阱:「開放權重」(open-weight)和「開放原始碼」(open-source)是不同的。Meta 的 Llama 社群授權是開放權重,但未獲 OSI 認證為開放原始碼——它限制了大規模部署和某些使用案例。Stability AI 的社群授權是開放權重,但對超過特定營收門檻的商業使用有限制。只有在 Apache 2.0、MIT 或同等條款(例如 Mistral 7B 和 Mixtral 8x7B)下發布的模型,才是真正的開放原始碼。
EULA 與負責任使用
Amazon Bedrock 上的每個基礎模型都有可接受使用政策。你不能用 Claude 生成兒童安全違規內容;你不能用 Llama 建立違反 Meta 授權的大規模監控系統;你不能用 Stable Diffusion 創作未經同意的圖像。考試預設你認識 EULA 由提供商執行,而非 AWS,且 AWS 提供額外的控制措施(Amazon Bedrock Guardrails),讓客戶可以在上面疊加使用。
專有 = 權重從不離開提供商(Claude、Titan、Nova、Jurassic、Cohere Command、Mistral Large)。開放權重 = 權重在有限制的自訂授權下可下載(Llama、Stable Diffusion)。開放原始碼 = 權重加上 Apache 2.0 或 MIT 等 OSI 認可的寬鬆授權(Mistral 7B、Mixtral 8x7B)。在 AIF-C01 考試中,「開放原始碼」是最嚴格的標籤——除非題目明確允許社群授權,否則不要把它套用到 Llama 上。 Source ↗
何時選擇小型快速模型 vs 大型準確模型
整合四個維度,以下是 AIF-C01 預期你能應用的決策框架。
選擇小型快速基礎模型的情境
- 延遲有硬性限制(首 token 低於 500ms)。
- 每次呼叫的成本必須非常低(每天數百萬次呼叫)。
- 任務是簡單的分類、擷取或模板化生成。
- 量夠大,小型模型的預置輸送量比大型模型的隨需(on-demand)更划算。
- 產品處於快速原型階段,需要快速迭代週期。
具體選擇:Claude 3 Haiku、Amazon Nova Micro、Amazon Titan Text Lite、Mistral 7B、Llama 3.1 8B、Cohere Command Light。
選擇大型準確基礎模型的情境
- 任務需要多步推理、細膩處理或由人類評判的創意寫作。
- Context window 需要容納完整的合約、研究報告或程式碼庫。
- 長尾問題的準確度值得 10 倍的成本溢價。
- 基礎模型的輸出直接進入受監管的決策(仍需接受負責任 AI 審查)。
- 需要最強的多模態理解能力(圖表、圖形、影片)。
具體選擇:Claude 3.5 Sonnet、Claude 3 Opus、Amazon Nova Pro、Amazon Nova Premier、Llama 3.1 70B 或 405B、Mistral Large、Cohere Command R+。
混合模式:預設用小型,遇到不確定時升級
真實的生產系統很少為所有流量選擇同一個基礎模型。一個常見的模式——也是 AIF-C01 情境題的常客——是把 95% 的流量路由到小型快速基礎模型,對不確定的 5% 升級到大型準確的模型。Amazon Bedrock 透過應用程式邏輯的模型路由,以及用於韌性的跨區域推論 profile,原生支援這個模式。
基礎模型為何改變了機器學習產業
在基礎模型出現之前,每個企業的機器學習問題都需要自己的資料集、自己的訓練管線和自己部署的模型。一家建立詐欺分類器的銀行、一家建立商品描述生成器的零售商,以及一家建立放射科助手的醫院,各自從頭訓練——既昂貴、又緩慢,還很脆弱。基礎模型消除了這種每個任務的成本,因為單一預訓練的基礎模型可以透過提示、RAG 或輕量微調適應許多下游任務。
AIF-C01 考試預期你能用一句話說明這個轉變:基礎模型與大型語言模型讓企業能在數天而非數月內解決新的機器學習問題——透過從 Amazon Bedrock 租用能力,而非在 Amazon SageMaker 上從頭建構。這個轉變是生成式 AI 成為 C 層級優先議題的經濟原因。
Stanford CRFM 的框架
Stanford 基礎模型研究中心創造「基礎模型」這個詞,正是為了捕捉這個轉變帶來的三大風險。第一,同質化:如果每個下游應用都建立在少數幾個基礎模型上,其中一個基礎模型的單一缺陷就會傳播到所有地方。第二,湧現性:能力在規模擴大時以預訓練團隊未曾預料的方式出現,使安全分析變得複雜。第三,中心化:預訓練的經濟成本將權力集中在少數提供商手中。AIF-C01 不要求你辯論這些風險,但確實預設你認識「基礎模型」是一個具有特定屬性的專業術語。
基礎模型與大型語言模型的內在風險
考試會重複測試三種內在風險。每種風險都是基礎模型訓練方式的直接後果。
幻覺(Hallucination)
LLM 會在沒有事實依據的情況下生成流暢的文字。它會自信地捏造案例引用、函式庫函數或歷史日期。幻覺不是 bug——它是在沒有真相神諭(truth oracle)的情況下訓練模型預測下一個 token 的可預期結果。緩解措施包括 RAG(提供有依據的上下文)、降低 temperature(減少隨機性),以及 Amazon Bedrock Guardrails 的事實依據檢查(grounding check)。
偏見放大(Bias Amplification)
基礎模型會繼承並往往放大訓練語料庫中存在的偏見。用英文網際網路文字訓練的模型,對西方主題會更有自信、會將某些職業與特定性別連結,並對少數語言表現較差。緩解措施包括謹慎的資料策劃、以多元回饋進行指令調整,以及透過 Amazon SageMaker Clarify 進行部署後監控。
訓練資料記憶(Training-Data Memorisation)
基礎模型可能逐字複誦訓練資料中的片段——受版權保護的文字、授權程式碼或個人識別資訊(PII)。這既是法律風險,也是隱私風險。緩解措施包括提供商在訓練期間進行資料去重、差分隱私技術,以及對輸出使用 Amazon Bedrock Guardrails 的敏感資訊過濾器。
暗示基礎模型「正在邁向 AGI」或「具有通用智慧」的干擾選項,在 AIF-C01 上永遠是錯的。基礎模型是具有湧現能力的統計式下一 token 預測器;它們不是人工通用智慧(AGI)。考試指南明確將當前的 AI 框架為窄域 AI,而每一頁 Amazon Bedrock 的行銷頁面都將基礎模型定位為工具,而非具有通用智慧的智能體。請選擇描述窄域能力而非通用認知的選項。 Source ↗
Amazon Bedrock vs Amazon SageMaker JumpStart 上的基礎模型
AIF-C01 至少會在每份考卷中測試一次 Amazon Bedrock 和 Amazon SageMaker JumpStart 之間的邊界。
Amazon Bedrock:受管 API
Amazon Bedrock 是針對基礎模型的無伺服器、API 優先服務。你選擇一個模型 ID、傳送提示、按 token 付費。AWS 負責運行加速器、修補執行環境,並維持模型的可用性。Amazon Bedrock 支援受管功能——用於 RAG 的 Knowledge Bases、用於工具使用的 Agents、用於內容安全的 Guardrails、用於基準測試的 Model Evaluation——全部附加在同一個基礎模型目錄上。
Amazon SageMaker JumpStart:受管部署
Amazon SageMaker JumpStart 託管基礎模型的權重(專有與開放權重),讓你將其部署到你控管的 Amazon SageMaker 端點上。你選擇執行個體類型、自動擴展和 VPC 配置;你按執行個體小時付費而非 token;你可以進行比 Amazon Bedrock 受管微調更深度的客製化。
決策規則
- 想要按 token 計費、無需基礎設施、快速整合?選 Amazon Bedrock。
- 想要按執行個體計費、VPC 隔離、重度微調,或非常規的模型變體?選 Amazon SageMaker JumpStart。
兩者都是有效的 AIF-C01 答案;情境決定選哪個。基礎模型與大型語言模型在兩個服務上都存在——不要混淆服務選擇與模型存在性。
選型時的基礎模型評估
選擇基礎模型本身是個評估問題。AIF-C01 在兩個時機點框架評估:在選型時(本主題)和在部署後監控時(涵蓋於「基礎模型評估」主題)。
你應該認識的基準測試
- MMLU(Massive Multitask Language Understanding):57 個學科的學術基準。
- HellaSwag:常識推理。
- HumanEval:Python 程式碼生成。
- GSM8K:小學程度的數學文字題。
- MT-Bench:由 GPT-4 評判的開放式對話品質。
這些基準測試適合用於基礎模型的初步篩選。AIF-C01 不要求你計算這些數值,只需認識它們是標準比較工具。
Amazon Bedrock Model Evaluation
Amazon Bedrock 提供受管的 Model Evaluation 功能——在你自己的資料集和提示上進行自動化評估,並可選擇透過 Amazon SageMaker Ground Truth 進行人工評估。用它來比較候選基礎模型(Claude Haiku vs Amazon Nova Lite vs Llama 3.1 8B)針對你的實際使用案例,而非抽象基準。這是考試偏好的方法:「在自己的資料上做基準測試」勝過「相信排行榜」。
基礎模型與大型語言模型的常見考試陷阱
陷阱一:「LLM」和「基礎模型」被交換使用
每個 LLM 都是基礎模型;並非每個基礎模型都是 LLM。Stable Diffusion 是基礎模型但不是 LLM。嵌入模型是基礎模型但不是 LLM。考試用這個區別來抓粗心的讀者。
陷阱二:「已預訓練」代表「開箱即用、任務就緒」
預訓練的基礎模型能做很多事,但很少在沒有提示、RAG 或微調的情況下完美地完成你的特定任務。問「選完基礎模型後還需要什麼」的題目,通常想讓你選擇提示工程、RAG 或微調。
陷阱三:把「開放原始碼」套用到 Meta Llama 上
Meta Llama 是在 Llama 社群授權下的開放權重模型。它不是 OSI 認可的開放原始碼。如果題目要求 OSI 開放原始碼的基礎模型,請選 Mistral 7B 或 Mixtral 8x7B(Apache 2.0),而非 Llama。
陷阱四:「Amazon Bedrock 只託管 Amazon 的模型」
錯誤。Amazon Bedrock 託管 Anthropic、Amazon、Meta、Mistral、AI21、Cohere 和 Stability AI 的基礎模型。不要把 Amazon Bedrock 和 Amazon Titan 或 Amazon Nova 混淆。
陷阱五:「更大的 Context Window = 更好的模型」
Context window 和能力是獨立的維度。擁有 128k context window 的小型模型(某些 Llama 3.1 8B 的變體)依然是小型模型。請依照與需求匹配的維度來選擇基礎模型。
陷阱六:「基礎模型的訓練很快」
預訓練一個前沿基礎模型需要在數千個加速器上花費數週至數個月,費用從幾千萬到幾億美元不等。考試從不獎勵將預訓練視為便宜或快速的答案。
陷阱七:「Bedrock 的模型呼叫會訓練基礎模型」
錯誤。Amazon Bedrock 明確記載,客戶對基礎模型的輸入不會被用於重新訓練基礎模型。這是考試測試的核心信任與合規特性。
AIF-C01 vs AIP-C01 在基礎模型與大型語言模型上的範疇
基礎模型與大型語言模型同時出現在兩個 AWS AI 認證中,但範疇差異顯著。
AIF-C01(基礎級:本考試)
- 定義基礎模型和 LLM。
- 背出 Amazon Bedrock 模型目錄。
- 依規模、成本、延遲和 context window 比較基礎模型。
- 認識開放權重 vs 專有授權類別。
- 將商業情境對應到小型 vs 大型基礎模型。
- 辨識內在風險:幻覺、偏見放大、訓練資料記憶。
AIP-C01(專業/進階從業者級:未來考試)
- 在 Amazon Bedrock Agents 上設計多模型基礎模型管線架構。
- 在 Amazon SageMaker 上設計微調和持續預訓練工作流程。
- 用預置輸送量、自訂模型匯入,以及搭載 Inferentia2 的 Amazon SageMaker 端點最佳化推論成本。
- 建立自訂護欄和生產規模的提示注入防禦。
- 運作基礎模型生命週期:影子部署、A/B 測試、回滾、漂移偵測。
如果題目深入 GPU 記憶體計算、微調超參數或自訂模型匯入細節,那是 AIP-C01 的範疇,不是 AIF-C01 的。不要過度準備——AIF-C01 獎勵清晰的辨識能力與情境對應,而非動手優化。
把 60% 的基礎模型與大型語言模型備考時間用於 Amazon Bedrock 目錄(哪個提供商、哪種模態、哪個規格層級)和四軸取捨。花 25% 在授權(專有、開放權重、開放原始碼)。花 15% 在內在風險(幻覺、偏見、記憶)。這個分配依據公布的 AIF-C01 考試藍圖,反映了考題分佈。 Source ↗
練習錨點:考試如何測試基礎模型與大型語言模型
預期 AIF-C01 會出現三種題型。
- 定義辨識——「以下哪個最能描述基礎模型?」選擇包含大型、預訓練、廣泛和可適應的選項。
- 目錄選擇——「一家公司需要在 AWS 上從文字提示生成產品行銷圖像。」選擇 Amazon Bedrock 上的 Stability AI Stable Diffusion 或 Amazon Titan Image Generator。
- 取捨情境——「一個客服中心聊天機器人必須在不超過一秒的時間內回應,每天處理數百萬次通話,同時留在 AWS 上。」選擇像 Claude Haiku 或 Amazon Nova Micro 這類小型快速基礎模型,而非 Claude Opus。
熟練這三種題型,你就能拿下 Domain 2 和 Domain 3 大多數的基礎模型與大型語言模型分數。
FAQ:AIF-C01 的基礎模型與大型語言模型
Q1. 什麼確切使一個模型是「基礎模型」而不只是「大型模型」?
基礎模型必須同時滿足三個標準:它在參數量和訓練資料上是大型的;它以自監督學習在廣泛的通用資料上進行預訓練;而且它可以適應多種下游任務而無需重建。僅僅是大型但只在單一窄域任務上訓練的模型(例如,只在胸部 X 光上訓練的 500 億參數分類器)在 AIF-C01 的定義中不算基礎模型。Amazon Bedrock 的文件、Stanford CRFM 論文和 AIF-C01 考試指南都使用這個三段式定義。
Q2. Amazon Bedrock 上的每個大型語言模型(LLM)都是基礎模型嗎?
是的。Amazon Bedrock 上的每個 LLM——Anthropic Claude(Haiku、Sonnet、Opus)、Amazon Titan Text、Amazon Nova(Micro、Lite、Pro、Premier 在其文字角色中)、Meta Llama(8B、70B、405B)、Mistral(7B、Mixtral、Large)、AI21 Jurassic、Cohere Command——都是基礎模型。反過來則不成立:Stability AI Stable Diffusion 是圖像的基礎模型,不是 LLM;Amazon Titan Image Generator 是基礎模型但不是 LLM。請在你的思維模型中把 LLM 定位為基礎模型的文字生成子集。
Q3. 即時聊天機器人應該選小型快速基礎模型還是大型準確基礎模型?
從小型開始。對於有次秒延遲預算、每天數百萬次呼叫的即時客戶對話,像 Claude 3 Haiku、Amazon Nova Micro 或 Mistral 7B 這類小型快速基礎模型是 AIF-C01 偏好的答案。只有當小型模型在你自己的評估資料集上無法達到準確度標準時,才升級到較大的模型。這個升級模式正是 Amazon Bedrock 的多模型支援所設計的。在考試中,對延遲敏感的情境選擇最大基礎模型的答案,幾乎總是輸給選擇仍能達到品質要求的較小模型的答案。
Q4. 開放權重、開放原始碼和專有基礎模型有什麼區別?
專有基礎模型(Claude、Titan、Nova、Jurassic、Cohere Command、Mistral Large)保持其權重封閉——你只能透過 Amazon Bedrock 或提供商的 API 呼叫它們。開放權重基礎模型(Meta Llama、Stability AI Stable Diffusion)在自訂授權條款下發布可下載的權重,通常包含使用限制。開放原始碼基礎模型(Apache 2.0 下的 Mistral 7B、Mixtral 8x7B)更進一步,在 OSI 認可的寬鬆授權下發布權重。在 AIF-C01 上,預計至少有一道題會要求你區分這三個類別——Meta Llama 是最常見的陷阱,因為許多備考資料錯誤地稱之為開放原始碼。
Q5. 我在 Amazon Bedrock 上的提示和輸出會用於訓練基礎模型嗎?
不會。Amazon Bedrock 的文件明確說明:透過 Amazon Bedrock API 的基礎模型呼叫的輸入和輸出,不會被 AWS 或模型提供商用於訓練或改進底層基礎模型。這是一個對受監管產業很重要的核心信任特性。你可以選擇性地啟用模型呼叫日誌記錄(傳送到你自己帳戶中的 CloudWatch 或 S3)以供自己稽核,但 AWS 不會將這些資料回饋到預訓練語料庫中。
Q6. AIF-C01 需要理解 Transformer 的數學嗎?
不需要。AIF-C01 是基礎級考試,要求概念詞彙,而非數學。你需要知道 Transformer 使用注意力機制讓 token 互相關聯、context window 長度受注意力設計制約、參數(數十億個權重)在預訓練期間習得,以及規模能帶來湧現能力。自注意力、softmax 或位置編碼的推導是 AIP-C01 和 MLS-C01 的範疇。把你的備考時間花在 Amazon Bedrock 的模型選擇上——那才是考試獎勵的重點。
Q7. Amazon Bedrock 是在 AWS 上使用基礎模型的唯一方式嗎?
不是。Amazon Bedrock 是受管的、API 優先的入口,也是大多數 AIF-C01 情境的第一個答案。Amazon SageMaker JumpStart 是另一個選項——它讓你將基礎模型的權重(Llama、Mistral、Falcon、Stable Diffusion 等眾多模型)部署到自己 VPC 內的 Amazon SageMaker 端點,按執行個體而非 token 付費,並進行比 Amazon Bedrock 受管作業允許的更深度的微調。當情境強調零基礎設施和按 token 計費時,選 Amazon Bedrock。當情境強調 VPC 隔離、執行個體級成本控制或積極的客製化時,選 Amazon SageMaker JumpStart。
摘要:基礎模型與大型語言模型速查表
- 基礎模型是大型、預訓練、廣泛且可適應的;LLM 是其文字子類型。
- Amazon Bedrock 目錄:Anthropic Claude、Amazon Titan、Amazon Nova、Meta Llama、Mistral、AI21 Jurassic、Cohere Command、Stability AI Stable Diffusion。
- 模態:文字(LLM)、圖像(Stable Diffusion、Titan Image Generator)、多模態(Claude Sonnet/Opus、Amazon Nova Pro/Premier)、嵌入(Titan Embeddings、Cohere Embed)。
- 四軸取捨:能力、延遲、成本、context window。考試獎勵的是最小可行的基礎模型,而非最大的。
- 授權:專有(封閉)、開放權重(可下載但有限制)、開放原始碼(Apache 2.0 或 MIT)。Llama 是開放權重,不是開放原始碼。
- 內在風險:幻覺、偏見放大、訓練資料記憶——透過 RAG、護欄和監控緩解。
- 部署選項:Amazon Bedrock(API、按 token)或 Amazon SageMaker JumpStart(端點、按執行個體)。
- AIF-C01 範疇:辨識並選擇基礎模型。AIP-C01 範疇:設計、微調並運作基礎模型。
熟記這份基礎模型與大型語言模型速查表,你就已經鎖定了 AIF-C01 Domain 2 和 Domain 3 大量的考題分數。本備考系列中其餘的主題——tokens-context-window-temperature、fine-tuning-vs-in-context-learning、bedrock-model-selection、rag-retrieval-augmented-generation——全都建立在你現在已掌握的基礎模型與大型語言模型詞彙之上。