Supervised、Unsupervised 與 Reinforcement Learning

**Supervised learning（監督式學習）、unsupervised learning（非監督式學習）與 reinforcement learning（強化學習）**這套三分類法，是 AIF-C01 考生在 Domain 1 必須最先掌握的核心詞彙。Task Statement 1.1「解釋 AI 基礎概念與術語」幾乎每次都會在題幹中描述一個業務情境，要求你判斷哪種學習範式適用。選錯的話，整個 Domain 1 的 20% 分數就會大幅流失。

本學習指南完整涵蓋 AIF-C01 考試範圍內所有關於 supervised learning、unsupervised learning 與 reinforcement learning 的考點，以及驅動現代 foundation model 的 self-supervised 與 semi-supervised 變體。你將學到：根據標籤是否可取得來判斷學習類型的啟發式原則、AWS 各服務對應哪種範式（SageMaker built-in algorithms、SageMaker JumpStart、Amazon DeepRacer、Amazon Bedrock fine-tuning），以及 AIF-C01 慣用的細微陷阱題——包括社群回報中最常踩到的 Domain Adaptation 與 Transfer Learning 辨別題。

什麼是 Supervised、Unsupervised 與 Reinforcement Learning？

Supervised learning、unsupervised learning 與 reinforcement learning 是機器學習的三大典範範式，差異在於模型在訓練時接收到的訓練訊號種類。Supervised learning 使用有標籤的輸入輸出配對；unsupervised learning 只使用輸入資料，讓模型自行找出結構；reinforcement learning 則透過與環境互動所獲得的 reward 訊號來指導學習。AIF-C01 及整個 AWS ML 服務堆疊中的每一個 ML 問題，最終都可以歸類到這三種範式之一（另加兩種混合型態：self-supervised 和 semi-supervised，後面會詳細介紹）。

AIF-C01 考試指南在 Task 1.1 中明確列出這三種範式，並要求考生能夠：（a）從情境中的關鍵字辨識各範式；（b）指出正確的 AWS 服務；（c）避開以「聽起來合理但其實錯誤」的範式作為干擾選項的陷阱題。

Supervised learning 在（輸入, 標籤）配對上訓練模型，讓模型能對新輸入預測標籤。Unsupervised learning 僅在輸入資料上訓練，找出隱藏結構（cluster、低維嵌入、異常值）。Reinforcement learning 訓練一個 agent 在環境中選擇動作，目標是讓累積 reward 最大化。這三個類別——統稱為 supervised、unsupervised 與 reinforcement learning——涵蓋了 AWS 上絕大多數的傳統 ML 應用場景。 Source ↗

AIF-C01 為何如此執著於三大分類法

Domain 1 佔 AIF-C01 考試的 20%，而光是 Task 1.1 就對應整場 65 題中大約六到十道計分題。情境題幾乎不會直接問「定義 reinforcement learning 是什麼」，而是描述一個場景（例如：「工程團隊希望機器人在不寫死規則的情況下自學走路」），再要求你迅速歸類到正確的範式。背誦關鍵字是必要的，但真正持久有用的能力，是理解訓練訊號的本質形態。

本主題與 AIF-C01 其他考點的關聯

Supervised learning、unsupervised learning 與 reinforcement learning 的詞彙體系，是以下主題的概念根基：

Classification 指標（accuracy、precision、recall、F1）——在 Overfitting、Bias 與 Variance 主題中深入評估
ML 開發生命週期——資料標注成本直接取決於你選擇了哪種學習範式
Foundation model——pre-training 使用 self-supervised；fine-tuning 使用 supervised；RLHF 是來自人類回饋的 reinforcement learning
AWS 服務映射——SageMaker built-in algorithms 整齊地對應到三大範式

為何學習類型如此重要：標籤可用性測試

在選擇任何演算法之前，AWS 建議先問一個診斷問題：你有標籤嗎？取得標籤的成本高嗎？標籤長什麼樣子？ 這個答案會以可預測的方式將你引導到 supervised learning、unsupervised learning 或 reinforcement learning。

有大量標籤資料 → 預設使用 supervised learning
沒有標籤但有大量原始輸入 → unsupervised learning
沒有標籤，但有模擬器或有評分函式的環境 → reinforcement learning
標籤取得成本高，但無標籤資料很豐富 → semi-supervised 或 self-supervised learning
標籤可以從資料本身衍生（預測下一個 token、預測被遮罩的像素）→ self-supervised learning

這個判斷順序在後面會重複出現，是回答 supervised、unsupervised 與 reinforcement learning 情境題時最有用的單一啟發式原則。

白話文解釋 Supervised、Unsupervised 與 Reinforcement Learning

從 ML 術語走出來，進入日常生活場景，supervised learning、unsupervised learning 與 reinforcement learning 之間的差異就會豁然開朗。以下三個取材自台灣生活的類比，讓這三種範式的差異令人難忘。

類比一：手搖飲料店學徒（Supervised Learning）

想像一個剛進店的手搖飲料店學徒，師傅從第一天起就手把手教：這杯珍奶要加多少珍珠、幾分糖、幾分冰，每一份飲料都有標準答案對照。學徒看了幾千筆「原料配方 → 成品評分」的配對之後，漸漸掌握箇中規律，最終能在師傅不在場時，自行做出符合標準的飲料。

這就是 supervised learning。有標準答案的配方手冊就是訓練集；師傅不在時的自主製作就是測試集。重點在於從「已有答案的例子」泛化到「沒看過的新訂單」。Classification 問題（這杯飲料是甜的還是不甜？）和 regression 問題（這杯飲料最終會定價多少元？）只是輸出形式不同——兩者都屬於 supervised learning。

類比二：夜市攤商自學分類（Unsupervised Learning）

想像一位新來的夜市廣場管理員，面對幾百個攤販散落一地，沒有任何分類標籤，沒有人告訴他哪個攤位應該歸哪個區。他只能觀察：這幾攤都賣甜點、用相似的材料，應該擺在一起；那幾攤都賣辣炒類，氣味和客群相近，自成一群。管理員不是在預測預先存在的標籤，而是從資料本身發現潛藏結構。

這就是 unsupervised learning。K-Means clustering 把相似的顧客分群；Principal Component Analysis（PCA）把 500 個特徵壓縮到 20 個但保留大部分資訊；anomaly detection 發現某筆交易跟任何族群都不像，進而標記為可疑。三者都沒有事先給定的正確答案——unsupervised learning 靠著發現無人明確教過模型的模式來展現價值。

類比三：MRT 通勤路線自學（Reinforcement Learning）

最後，想像一個剛搬到台北的外縣市學生，第一次靠 MRT 通勤，沒有人給他路線手冊。他每天實驗：坐這條線轉這一站，結果遲到了（懲罰）；改搭另一條線提前一站換乘，準時到了（獎勵）；試試尖峰時段提早出門，座位還有空的（額外獎勵）。經過幾週的嘗試，他發展出一套「在這個時間、這個起點，走這條路線」的最佳策略。

這就是 reinforcement learning。這位學生是 agent，台北 MRT 網路是 environment，當下所在車站與時間是 state，決定搭哪班車是 action，是否準時到站並找到座位是 reward，而最終跑出來的通勤習慣就是 policy。和 supervised learning 不同，沒有老師說「正確動作是 X」；和 unsupervised learning 不同，有一個清晰的目標（準時且舒適地抵達）。Reinforcement learning 最適合用於「能評分結果、但無法一一列舉正確動作」的情境——正是 AWS DeepRacer 在虛擬賽道上模擬的場景。

考試當天該用哪個類比

三個類比各自從不同角度說明 supervised、unsupervised 與 reinforcement learning。根據題目措辭選擇：

題目提到有標籤資料、歷史結果、訓練範例附有答案 → 手搖飲料店學徒（supervised）
題目提到發現模式、分群相似項目、沒有標籤可用 → 夜市管理員（unsupervised）
題目提到agent、environment、reward、policy、試誤、simulator → MRT 通勤自學（reinforcement）

Supervised Learning：有標籤資料，精準預測

Supervised learning 是 supervised、unsupervised 與 reinforcement learning 中，在 AWS 正式環境最常見的範式，也是 AIF-C01 最常出現的情境類型。你擁有每一筆資料都帶有正確答案的歷史資料集，並希望模型在面對未來的新資料時，也能預測出相應的答案。

核心前提：標籤必須存在

Supervised learning 預設你已經擁有標籤，或是能夠取得標籤。標籤的來源可以是人工標注、自然發生的業務結果（顧客確實流失，或沒有流失），或透過 Amazon SageMaker Ground Truth 進行自動化標注。沒有標籤就無法做 supervised learning，句點——這個限制正是它與其他兩種範式的分水嶺。

Classification vs Regression：輸出類型的岔路口

Supervised learning 依輸出類型分成兩個子類別：

Classification 從一個離散集合中預測類別。這封 email 是垃圾郵件嗎？這張 X 光片顯示的是肺炎、肺結核，還是正常？Classification 輸出一個類別標籤（有時附帶機率）。
Regression 預測一個連續的數值。這棟房子能賣多少錢？下個月我們能出貨幾件？Regression 輸出一個實數。

AIF-C01 反覆考這個岔路口。任何答案是數字（價格、溫度、需求量）的情境，答案就是 regression。任何答案是類別（是/否、A/B/C/D、詐欺/非詐欺）的情境，答案就是 classification。

Binary classification 仍然是 classification，不是 regression。 有些考生遇到是/否問題時會選「regression」，因為是/否可以編碼成 0/1。請不要上當。兩個輸出類別 = binary classification。只有當目標是連續實數時，才選 regression。這是 AIF-C01 練習題回報中，supervised learning 相關題目最常出現的陷阱。 Source ↗

Training、Validation 與 Test 資料集的切分

Supervised learning 的基礎是將有標籤的資料切分成三個子集：

Training set（通常佔 60–80%）——模型在這裡學習規律。
Validation set（通常佔 10–20%）——用於調整 hyperparameter，且不會碰到 test set。
Test set（通常佔 10–20%）——只在最後評估時使用一次，用來估算真實世界的效能。

混用這三個集合會造成資訊洩漏、虛高精確度。AIF-C01 要求你知道，用 test set 來做調參是大忌，而 validation set 存在的目的正是防止這種情況。將切分方式輪流旋轉時稱為 cross-validation；將旋轉切成 k 份時稱為 k-fold cross-validation。

常見 Supervised 演算法（概念層次）

AIF-C01 不要求數學推導，但要求能辨識以下演算法家族：

Linear regression — 對連續輸出擬合一條直線（或超平面）。
Logistic regression — 儘管名稱含有「regression」，它其實是 classification，輸出一個機率值。
Decision trees — 基於規則的分支，可解釋性高。
Random forests — Decision trees 的 ensemble，對 overfitting 較具抵抗力。
Gradient-boosted trees / XGBoost — AWS 表格型 ML 的主力演算法；SageMaker 內建 XGBoost。
Support vector machines (SVMs) — 以最大 margin 為基礎的 classifier。
Neural networks — 從淺層 MLP 到深層 CNN 與 transformer。

支援 Supervised Learning 的 AWS 服務

在 supervised、unsupervised 與 reinforcement learning 三大分支中，supervised 分支在 AWS 服務上的涵蓋最為完整：

Amazon SageMaker built-in algorithms — Linear Learner、XGBoost、Factorization Machines、Image Classification、Object Detection、BlazingText（supervised 模式）、Seq2Seq。
Amazon SageMaker JumpStart — 文字、視覺與表格任務的預訓練 supervised 模型。
Amazon SageMaker Canvas — 供業務分析師使用的無程式碼 supervised classification 與 regression 工具。
Amazon Comprehend Custom Classification 和 Custom Entity Recognition — 在你的有標籤文字上進行 supervised NLP。
Amazon Rekognition Custom Labels — 在你的有標籤圖片上進行 supervised 影像分類與物件偵測。
Amazon Fraud Detector — 以你的歷史業務結果訓練的 supervised 詐欺 classifier。

當 AIF-C01 情境中出現「歷史有標籤資料」、「預測未來數值」、「分類到某些類別中」或「根據過去結果訓練」等措辭時，答案就在 supervised、unsupervised 與 reinforcement learning 的 supervised 分支。搭配 regression 與 classification 的輸出類型判斷，就能迅速鎖定正確答案。 Source ↗

Unsupervised Learning：無需標籤的模式發現

Unsupervised learning 是 supervised、unsupervised 與 reinforcement learning 的第二個家族，適用於標籤缺失或取得成本過高的場景。它不去預測一個目標值，而是在資料本身中發現結構。

Clustering：將相似項目分群

Clustering 將輸入資料分配到多個群體，使得同一群內的項目彼此之間，比跨群項目更為相似。

K-Means — 指定 k 個群，迭代地將每個資料點分配給最近的 centroid，再重新計算 centroid，直到穩定。這是 AIF-C01 最常考的 clustering 演算法。
Hierarchical clustering — 建立巢狀 cluster 的樹狀結構（agglomerative 由下往上，或 divisive 由上往下）。
DBSCAN — 基於密度的方法，能處理任意形狀的 cluster，並自動標記異常點。

K-Means 可作為 SageMaker built-in algorithm 使用，是 AIF-C01 考試中最常出現的服務映射。

Dimensionality Reduction：無需標籤的特徵壓縮

當資料有 500 個特徵時，大多數下游演算法會變慢或 overfit。Dimensionality reduction 在盡量保留訊號的前提下，壓縮特徵空間。

Principal Component Analysis (PCA) — 將資料投影到捕獲最大 variance 的正交軸上。可作為 SageMaker built-in algorithm 使用。
t-SNE 和 UMAP — 非線性嵌入方法，主要用於視覺化。
Autoencoders — 學習壓縮與重建輸入的神經網路；瓶頸層（bottleneck layer）即是低維表示。

Anomaly Detection：找出異常的那一個

Anomaly detection 找出不符合已觀察模式的輸入。詐欺偵測、基礎設施監控與製造業缺陷偵測都仰賴這種能力。

Random Cut Forest (RCF) — SageMaker 的內建 anomaly 演算法，也用於 Amazon Kinesis Data Analytics 與 Amazon Lookout 之中。
Isolation Forest — 透過隨機分割來孤立異常點；較短的路徑長度對應異常值。
Amazon Lookout for Metrics / Equipment / Vision — 基於 unsupervised 技術的受管 anomaly detection 服務。

支援 Unsupervised Learning 的 AWS 服務

Unsupervised learning 在 AWS 的服務涵蓋範圍：

SageMaker built-in algorithms — K-Means、PCA、Random Cut Forest、IP Insights（針對 IP 配對的 anomaly detection）。
Amazon Lookout for Metrics — 針對時間序列業務 KPI 的 anomaly detection。
Amazon Lookout for Equipment — 針對工業感測器資料的 anomaly detection。
Amazon Lookout for Vision — 利用 unsupervised 特徵學習進行視覺瑕疵偵測。
Amazon Kinesis Data Analytics — 用於串流 anomaly detection 的 RANDOM_CUT_FOREST SQL 函式。

Clustering 不等於 classification。Classification 將項目指定到預先存在的、有標籤的類別（垃圾郵件/非垃圾郵件）。Clustering 在沒有任何預先標籤的情況下發現群體。如果 AIF-C01 情境中有一組固定的命名類別，答案是 classification（supervised）。如果情境描述「將顧客分成我們事先未定義的群組」，答案就是 clustering（unsupervised）。這是 supervised、unsupervised 與 reinforcement learning 相關題目中，最常被回報的關鍵字陷阱。 Source ↗

Reinforcement Learning：從 Reward 中學習

Reinforcement learning（RL）是 supervised、unsupervised 與 reinforcement learning 三大範式中的第三個，也是最容易在「其實是正確答案」時被排除、或在「其實不適用」時被誤選的範式。AIF-C01 在概念層次考 RL——只要能從題目措辭辨識出來，並映射到 AWS DeepRacer 和 SageMaker RL 即可。

Agent-Environment-Reward-Policy 循環

RL 用五個標準術語將試誤學習的循環形式化：

Agent — 被訓練的決策者。
Environment — Agent 與之互動的世界（真實或模擬的）。
State — Agent 觀察到的環境快照。
Action — Agent 選擇採取的行動。
Reward — 執行 action 後，environment 給出的數值回饋。
Policy — 從 state 到 action 的學習映射；也就是 agent 的「策略」。

每次 agent 選擇一個 action，environment 就會轉換到新的 state 並發出 reward。在無數次這樣的步驟之後，agent 更新它的 policy，讓未來的累積 reward（正式名稱為「期望折扣回報」）最大化。

Q-Learning 直覺理解

Q-Learning 是 AIF-C01 有時會點名的教科書級 RL 演算法。直觀上，Q(s, a) 是一個表格（或神經網路），估計「如果我在 state s 採取 action a，之後再以最佳方式行動，我預期能獲得多少總 reward？」Agent 不斷根據觀察到的 reward 修正 Q，再在每個 state 選取能讓 Q(s, a) 最大化的 a。Deep Q-Networks（DQN）用神經網路取代表格，讓這個方法能擴展到像素這類高維度 state 空間。

Exploration vs Exploitation

RL agent 面臨永無止境的矛盾：要 exploit 已知的最佳 action（選擇估計 reward 最高的 action），還是 explore 新的可能性（嘗試可能更好的未知選項）？Epsilon-greedy 策略——以 1 − epsilon 的機率貪婪地選擇，以 epsilon 的機率隨機選擇——是最經典的平衡方式。這個矛盾在 supervised learning 中沒有對應的概念，這也是 RL 自成一個範式家族的原因之一。

On-Policy vs Off-Policy（概念層次）

On-policy 方法（例如 SARSA）學習當前正在執行的 policy 的相關知識。Off-policy 方法（例如 Q-Learning）可以在執行另一個探索性 policy 的同時，學習最佳 policy 的知識。AIF-C01 很少深究這個區別——知道它存在就已足夠。

AWS DeepRacer：考試最友善的 RL 範例

AWS DeepRacer 是一輛自主 1/18 比例的賽車，透過 RL 學習如何在賽道上行駛。學員定義一個 reward function（例如：reward = track_width - distance_from_center），選擇訓練演算法（PPO 或 SAC），在模擬器中訓練，再選擇性地部署到實體車上。DeepRacer 是 AIF-C01 的 RL 標準範例，原因是：（a）五個 RL 術語可以乾淨地映射到它身上；（b）AWS 將它定位為教育工具；（c）它底層使用 SageMaker RL。

RL 術語	DeepRacer 對應
Agent	1/18 比例的賽車
Environment	模擬賽道
State	相機影像 + 車速
Action	轉向角度 + 油門
Reward	你自行定義的 Python 函式
Policy	將 state 映射到 action 的神經網路

其他支援 Reinforcement Learning 的 AWS 服務

SageMaker RL — 全受管的 RL 訓練任務，支援 RLlib、Coach，以及 TensorFlow/PyTorch 後端。
Amazon Bedrock RLHF（Reinforcement Learning from Human Feedback） — foundation model 提供者內部用於將模型對齊到人類偏好；在討論 model fine-tuning 時作為概念出現。

AIF-C01 RL 速查表：

五個 RL 術語：Agent、Environment、State、Action、Reward → Policy 在訓練中浮現
AWS 旗艦 RL 產品：AWS DeepRacer
SageMaker RL 支援 PPO、SAC、DQN 演算法
RL 標誌性關鍵字：「trial and error（試誤）」、「reward function（獎勵函式）」、「simulator（模擬器）」、「cumulative return（累積回報）」、「policy（策略）」
RLHF = Reinforcement Learning from Human Feedback——用於 foundation model 的對齊調整

Source ↗

Self-Supervised Learning：Foundation Model 如何預訓練

Self-supervised learning（自監督學習）是 supervised、unsupervised 與 reinforcement learning 家族樹上相對新的成員，也是 Amazon Bedrock 上每一個現代 foundation model 的秘密武器。

關鍵技巧：從資料本身衍生標籤

Self-supervised learning 在技術上是 supervised learning 的特殊案例——確實有標籤——但標籤是從資料本身合成的，而非由人工標注。對於文字，每個位置的標籤就是「下一個 token 是什麼？」對於圖片，標籤可以是「哪個區塊被遮住了？」對於音訊，則是「哪一段被靜音了？」你不需要任何人工標注者，卻擁有無限多的訓練樣本。

為何對 Foundation Model 至關重要

Amazon Bedrock 上每一個大型語言模型（LLM）——Anthropic Claude、Amazon Titan、Meta Llama、Mistral、Cohere——都是在巨型文字語料庫上以 self-supervised 方式預訓練的。「預測下一個 token」的訓練目標，讓每個模型以接近零標注成本取得數十億筆免費訓練樣本。這就是 foundation model 能在經濟上成立的根本原因：你永遠不可能靠人工標注數兆個 token，但 self-supervision 完全繞過了這個成本。

其他 self-supervised 訓練目標：

Masked language modeling (MLM) — BERT 風格模型預測隨機被遮罩的 token。
Masked image modeling — 視覺模型預測被遮罩的圖像區塊。
Contrastive learning — 將相似的配對拉近嵌入空間，將不相似的配對推遠（CLIP 和 Titan Multimodal Embeddings 採用此方式）。
Next-token prediction（自迴歸式） — GPT 風格模型根據所有前置 token 預測下一個 token；這是現代 LLM 的標準訓練目標。

Self-Supervised vs Unsupervised：一線之隔

有些教科書把 self-supervised 歸類在 unsupervised learning 之下，因為兩者都不使用人工標籤。但 AIF-C01 將它們視為獨立的類別：self-supervised 有明確的預測目標（即使是自動產生的），而 unsupervised learning 完全沒有預測目標（clustering 沒有「正確答案」）。考試時遇到拿不定主意的情況，請記住：如果模型被訓練來預測某個東西，那就是 supervised（包含 self-supervised）；如果模型在沒有預測輸出的情況下發現結構，那就是 unsupervised。

Semi-Supervised Learning：標籤稀缺時的解法

Semi-supervised learning（半監督學習）是 AIF-C01 要求你能辨識的最後一種範式。它在 supervised 與 unsupervised 之間，適用於你有一個小型有標籤資料集，加上大量無標籤資料的情境。

典型做法

先在小型有標籤資料集上訓練一個初始模型，再用這個模型對無標籤資料產生 pseudo-label，保留高信心的 pseudo-label，最後在合併後的資料集上重新訓練。替代方案包括：co-training（兩個模型互相為對方的無標籤資料標注）以及基於圖的 label propagation。

何時選擇 Semi-Supervised

以下情況適合選 semi-supervised：

標注成本高昂（醫療影像、法律文件）
無標籤資料豐富（你有數百萬筆產品評論，但只有數千筆有標注）
無標籤資料的分佈與有標籤資料相符（至關重要；否則 pseudo-label 會造成污染）

支援 Semi-Supervised 工作流程的 AWS 服務

Amazon SageMaker Ground Truth — 內建 active learning；系統自動標注「簡單」的樣本，將「困難」的樣本路由給人工標注者，在操作上是一種 semi-supervised 標注形式。
Amazon Comprehend Custom — 在小型有標籤資料集上訓練，並從 Amazon 的預訓練基礎模型進行 transfer。

Semi-supervised learning 在 AIF-C01 上很少是直接考點，但認識它能讓你在 supervised、unsupervised 與 reinforcement learning 情境題中排除干擾選項。

何時選擇哪種範式：問題形態 + 標籤可用性

以下是整個 supervised、unsupervised 與 reinforcement learning 家族（含兩種混合型態）的綜合決策流程：

我有一個帶有 reward 和 action 的 environment 嗎？ → Reinforcement learning（DeepRacer、SageMaker RL）
我能從資料本身免費產生標籤（預測下一個 token、被遮罩的區塊）嗎？ → Self-supervised learning（foundation model 預訓練）
我有豐富的標籤嗎？ → Supervised learning
- 輸出是類別 → Classification
- 輸出是數字 → Regression
我只有少量標籤，加上大量無標籤資料？ → Semi-supervised learning
我只有無標籤資料，需要發現結構？ → Unsupervised learning
- 將相似項目分群 → Clustering
- 壓縮特徵 → Dimensionality reduction
- 標記異常值 → Anomaly detection

關鍵字對範式速查表

情境關鍵字	範式	可能的 AWS 服務
「歷史有標籤資料」、「預測類別」	Supervised classification	SageMaker XGBoost、Comprehend Custom Classification
「預測銷售數字」	Supervised regression	SageMaker Linear Learner、Amazon SageMaker Canvas 時間序列
「顧客分群，無預先定義的組別」	Unsupervised clustering	SageMaker K-Means
「將 500 個特徵降維」	Unsupervised dimensionality reduction	SageMaker PCA
「偵測異常行為，沒有有標籤的詐欺範例」	Unsupervised anomaly detection	SageMaker Random Cut Forest、Lookout for Metrics
「試誤、模擬器、reward」	Reinforcement learning	AWS DeepRacer、SageMaker RL
「在原始文字上預訓練 foundation model」	Self-supervised learning	Bedrock continued pre-training
「少量有標籤資料加大量無標籤資料」	Semi-supervised learning	SageMaker Ground Truth（active learning）

SageMaker Built-in Algorithms 與三大範式的對應

Amazon SageMaker 提供一系列 built-in algorithms，可以整齊地對應到 supervised、unsupervised 與 reinforcement learning。AIF-C01 要求你認識哪個演算法對應哪種範式。

Supervised 類 Built-ins

Linear Learner — 表格資料上的 classification 或 regression。
XGBoost — Gradient-boosted trees，表格型 ML 的主力；classification 或 regression 皆可。
Factorization Machines — 用於高維稀疏資料集（點擊流、推薦系統）。
Image Classification（基於 ResNet）和 Object Detection（基於 SSD）— 電腦視覺 supervised 任務。
Semantic Segmentation — 像素級別的 classification。
BlazingText（supervised 模式） — 文字 classification。
Seq2Seq — 序列到序列任務，例如翻譯。
DeepAR — Supervised 時間序列預測。

Unsupervised 類 Built-ins

K-Means — Clustering。
PCA — Dimensionality reduction。
Random Cut Forest — Anomaly detection。
IP Insights — 針對 IP 位址配對的 anomaly detection。
BlazingText（unsupervised Word2Vec 模式） — 詞嵌入學習。
Object2Vec — 通用神經嵌入。
Neural Topic Model (NTM) 和 LDA — 文字語料庫的主題建模。

Reinforcement Learning 類 Built-ins

SageMaker RL — 不是單一演算法，而是一個框架，透過 RLlib 和 Coach 支援 PPO、SAC、DQN。
AWS DeepRacer — 將 RL 包裝成遊戲化的消費者端產品。

SageMaker BlazingText 有兩種模式——模式決定範式。 在 supervised 模式下，它是文字 classifier（supervised learning）。在 Word2Vec 模式下，它在沒有標籤的情況下學習詞嵌入（unsupervised learning）。AIF-C01 很喜歡利用這種模糊性出題。如果情境提到訓練標籤，答案是 BlazingText supervised 模式。如果情境提到從原始語料庫學習詞的表示，答案是 BlazingText unsupervised 模式。請不要混淆兩者。 Source ↗

Transfer Learning vs Domain Adaptation：考試陷阱

社群回報一致將 Transfer Learning 與 Domain Adaptation 的區別，列為 AIF-C01 上最容易答錯的 supervised、unsupervised 與 reinforcement learning 鄰近概念之一。這兩個術語在日常使用中看似同義，但考試將它們視為截然不同的概念。

Transfer Learning：新任務，重用知識

Transfer learning 重用一個在某任務上訓練好的模型，以便快速啟動另一個不同的任務。經典範例：一個在 ImageNet（1000 類通用影像分類）上預訓練的 ResNet，被 fine-tune 到一個小型胸部 X 光資料集上（二元肺炎偵測）。來源任務（ImageNet 分類）與目標任務（X 光分類）是不同的任務。特徵提取層被重用，classification head 被替換或 fine-tune。

Transfer learning 是關於改變任務。

Domain Adaptation：同一任務，新的資料分佈

Domain adaptation 保持相同的任務，但讓模型適應新的資料分佈。經典範例：一個在 Amazon 商品評論上訓練的情感 classifier，被調整成能分類電影評論的情感。任務（情感分類）是一樣的，改變的是domain（輸入的統計分佈——詞彙、風格、長度）。

Domain adaptation 是關於在保持任務不變的情況下，改變資料分佈。

對比比較表

維度	Transfer Learning	Domain Adaptation
任務	改變（ImageNet → X 光）	維持不變（情感 → 情感）
Domain / 輸入分佈	通常也會改變	按定義必然改變
典型情境	重用預訓練 ImageNet backbone	情感模型：Amazon 評論 → 電影評論
常用方法	替換並 fine-tune 輸出層	在目標 domain 資料上繼續訓練
AWS 服務	SageMaker JumpStart fine-tuning	Bedrock continued pre-training、Comprehend Custom

為何考試喜歡這個配對

兩個概念都描述「在新情境中使用現有模型」。沒有精確的定義，考生往往聳聳肩選一個聽起來比較熟悉的詞。AIF-C01 考試指南明確列出兩者，社群回報也確認它們會在同一題中作為不同選項出現，強迫你選出正確的那個。

Transfer Learning 改變任務。Domain Adaptation 在保持任務不變的情況下改變輸入分佈。 把這個一句話區別背下來。在 AIF-C01 中，這是 supervised、unsupervised 與 reinforcement learning 鄰近規則中價值最高的一條——因為選錯就是整題失分，而社群資料顯示這個配對在大多數 AIF-C01 考試中都會出現。 Source ↗

Supervised、Unsupervised 與 Reinforcement Learning 的常見考試陷阱

除了已經點名的兩個陷阱（binary classification vs regression、clustering vs classification）之外，AIF-C01 還有幾個反覆出現的 supervised、unsupervised 與 reinforcement learning 陷阱題型。

陷阱一：「Unsupervised」不等於「沒有訓練」

Unsupervised 模型一樣需要訓練——只是在沒有標籤的情況下訓練。不要把「unsupervised」當成「規則式」或「沒有 ML」的同義詞。

陷阱二：RL 不是「自適應」系統的萬能答案

自適應推薦引擎通常是 supervised（collaborative filtering、matrix factorization）或混合型態。RL 只在系統需要在有延遲 reward 的 environment 中執行序列性動作時才出現。如果情境只是「根據過去的購買記錄推薦商品」，答案是 supervised，而非 reinforcement。

陷阱三：Self-Supervised 預訓練不等於 Fine-Tuning

Foundation model 要經歷兩個階段：在巨型語料庫上進行 self-supervised 預訓練，然後（選擇性地）在較小的有標籤資料集上進行 supervised fine-tuning。AIF-C01 如果問到「在特定 domain 有標籤資料上進行 fine-tuning」，問的是 supervised fine-tuning 步驟，而非原始的 self-supervised 預訓練。

陷阱四：Anomaly Detection 可以是 Supervised 也可以是 Unsupervised

AWS 上大多數 anomaly detection（Random Cut Forest、Lookout 系列）是 unsupervised 的——因為你沒有預先標注的異常資料。但 Amazon Fraud Detector 使用 supervised learning，因為你將過去的交易標注為詐欺或合法。範式取決於異常值是否被預先標注。

陷阱五：DeepRacer 的 Reward Function 是由人類撰寫的，不是自動學習的

常見誤解：「DeepRacer 自己學習 reward。」錯誤。是學員用 Python 撰寫 reward function。Agent 學習的是一個讓學員所定義的 reward function 最大化的 policy。如果 reward function 設計不良，學習到的 policy 也會很差。

在 AIF-C01 上，請不要把「self-supervised learning」和「unsupervised learning」混淆。 兩者都跳過人工標籤，但 self-supervised 模型有一個明確的、從資料自動產生的預測目標（預測下一個 token、預測被遮罩的區塊）；unsupervised 模型完全沒有預測目標（clustering、PCA）。AIF-C01 考試指南將它們列為 supervised、unsupervised 與 reinforcement learning 分類法中的獨立條目，且據回報曾在同一題中同時出現作為選項。 Source ↗

必背數字與常數

AIF-C01 出題者在設計 supervised、unsupervised 與 reinforcement learning 情境題時，有幾個數字反覆出現。這些並非來自單一白皮書，而是反映了 AWS 文件的預設值與典型建議。

AIF-C01 Supervised、Unsupervised 與 Reinforcement Learning 速查數字：

3 — ML 分類法中的典範範式數量（supervised、unsupervised、reinforcement）
5 — 加入 self-supervised 和 semi-supervised 後的變體總數
60/20/20 或 70/15/15 或 80/10/10 — 典型的 train/validation/test 切分比例
5-fold、10-fold — 最常見的 k-fold cross-validation 數值
k — K-Means 中的群數，由人工選定（通常透過 elbow method 或 silhouette score）
PPO、SAC — AWS DeepRacer 開放的兩種標準 RL 演算法
1000 — ImageNet 的類別數，transfer learning 最常見的來源任務
1/18 — DeepRacer 賽車的比例尺

Source ↗

Supervised、Unsupervised 與 Reinforcement Learning 對比 Foundation Model

現代 foundation model 模糊了 supervised、unsupervised 與 reinforcement learning 之間的舊有界線。理解它們如何重疊，是快速回答比較型考題的捷徑。

預訓練：Self-Supervised

Foundation model 的預訓練是 self-supervised 的。預測下一個 token，預測被遮罩的區塊。沒有人工標籤。

Supervised Fine-Tuning（SFT）

預訓練之後，提供者通常在一個較小的（指令, 理想回應）配對資料集上對模型進行 fine-tune。這個階段是純粹的 supervised learning——標籤就是理想的回應。

Reinforcement Learning from Human Feedback（RLHF）

第三個對齊階段應用 reinforcement learning。一個 reward model 在人類對模型輸出的排名上訓練，而 policy（即 LLM）則被更新以最大化 reward model 的分數。Claude 和 Titan 等模型的最終對齊使用了 RLHF，將 supervised、unsupervised 與 reinforcement learning 三大家族全部整合進一個正式環境中的模型。

考試重點

當 AIF-C01 問到 foundation model 如何訓練時，正確答案必須提及全部三個階段：self-supervised 預訓練、supervised fine-tuning，以及 reinforcement learning from human feedback。對於 foundation model 相關問題，只提到單一範式的答案通常是錯的。

考題演練：AIF-C01 Task 1.1 練習指引

AIF-C01 Task Statement 1.1「解釋 AI 基礎概念與術語」透過情境型考題來考查 supervised、unsupervised 與 reinforcement learning 的詞彙。以下是最常見的考題模板。完整的練習題與詳細解析請見 ExamLab 題庫。

模板 A：標籤可用性路由

一家零售商擁有五年的顧客交易資料，沒有任何標示「高價值顧客」的標籤，希望發現自然的顧客群體以設計精準行銷活動。應用哪種範式？答案：unsupervised learning（clustering）。干擾選項：supervised classification（錯誤，因為沒有標籤）；reinforcement learning（錯誤，因為沒有 environment/reward）。

模板 B：輸出類型岔路口

一家房地產新創公司希望根據坪數、地點和房間數預測房屋售價。應用哪種範式？答案：supervised regression（連續數值目標）。干擾選項：supervised classification（錯誤，因為售價是連續的，不是類別）。

模板 C：帶有 Reward 的 Environment 模式

一家物流公司希望倉庫機器人自學最快的取貨路線，並能適應不斷變化的倉庫佈局。應用哪種範式？答案：reinforcement learning（agent、environment、隨時間累積的 reward）。干擾選項：supervised learning（錯誤，因為不存在有標籤的最佳路徑）。

模板 D：Domain Adaptation vs Transfer Learning

一位資料科學家有一個在英文商品評論上訓練的情感分析模型，希望將它調整成能分類英文電影評論的情感。應用哪種技術？答案：domain adaptation（相同任務，不同 domain）。干擾選項：transfer learning（錯誤，因為任務沒有改變）。

模板 E：Foundation Model 預訓練

一個 AI 團隊希望在一個 1 TB 的法律文件語料庫（沒有人工標籤）上預訓練一個語言模型。應用哪種範式？答案：self-supervised learning（「預測下一個 token」是隱含的訓練目標）。干擾選項：unsupervised learning（技術上相鄰，但未能捕捉到預測目標的本質）；supervised learning（沒有人工標籤）。

常見問題（FAQ）

Supervised、Unsupervised 與 Reinforcement Learning 之間有什麼差別？

Supervised learning 在（輸入, 標籤）配對上訓練模型，讓模型能預測新輸入的標籤。Unsupervised learning 僅在輸入上訓練，發現隱藏結構，例如 cluster 或低維嵌入。Reinforcement learning 訓練一個 agent 在 environment 中選擇 action，以 reward 訊號為指引，讓累積回報最大化。這三大範式涵蓋了 AWS 上大多數的傳統 ML，並明確列於 AIF-C01 考試指南中。

我要如何判斷該用 Supervised 還是 Unsupervised Learning？

從標籤可用性測試開始。如果你有有標籤的訓練資料，並想對新輸入預測同樣的標籤，就用 supervised learning。如果你只有原始輸入，想發現結構（分群、壓縮特徵、找異常），就用 unsupervised learning。如果標籤稀缺但無標籤資料豐富，semi-supervised learning 或 self-supervised 預訓練加上 supervised fine-tuning，效果可能優於純 supervised learning。

Classification 和 Regression 一樣嗎？

不一樣。兩者都是 supervised learning，但 classification 從離散集合中預測類別（垃圾郵件/非垃圾郵件、A/B/C），而 regression 預測一個連續數值（價格、溫度）。AIF-C01 要求你透過觀察目標變數的類型來區分兩者。數值 → regression。類別 → classification。是/否的 binary 問題是 classification（具體來說是 binary classification），而非 regression，即使是/否可以被編碼成 0/1。

Reinforcement Learning 是什麼？在 AIF-C01 上什麼時候該選它？

Reinforcement learning 透過試誤讓 agent 在 environment 中最大化 reward。當情境涉及序列決策、模擬器或真實 environment，以及評分函式（而非有標籤資料集）時，就選它。AWS DeepRacer 是 AIF-C01 的標準範例。關鍵字「agent」、「reward」、「policy」、「simulator」、「trial and error」都應讓你立刻聯想到 reinforcement learning。

Self-Supervised Learning 是什麼？它與 Foundation Model 有何關聯？

Self-supervised learning 從資料本身產生標籤——對文字是預測下一個 token；對圖片是預測被遮罩的區塊——因此不需要人工標注。Amazon Bedrock 上的每一個現代 foundation model（Anthropic Claude、Amazon Titan、Meta Llama、Mistral）都是在巨型語料庫上以 self-supervised 方式預訓練的。Self-supervised 預訓練讓 foundation model 在經濟上可行——以所需規模進行人工標注將花費數十億美元，但 self-supervision 完全繞過了這個成本。AIF-C01 要求你認識 self-supervised learning 是 foundation model 預訓練背後的機制。

Transfer Learning 和 Domain Adaptation 有什麼差別？

Transfer learning 改變任務（例如：ImageNet classifier → 胸部 X 光 classifier），透過重用已學習的特徵表示來達成。Domain adaptation 保持任務不變，讓模型適應新的輸入分佈（例如：商品評論情感 classifier → 電影評論情感 classifier）。這兩個概念都出現在 AIF-C01 Task 1.1 和 3.3 中，社群回報一致將這個配對列為高陷阱辨別題。記住：transfer learning = 新任務；domain adaptation = 新資料分佈。

哪些 AWS 服務實作了各種學習範式？

Supervised learning 使用 SageMaker built-in algorithms（XGBoost、Linear Learner、Image Classification）、SageMaker JumpStart、Comprehend Custom、Rekognition Custom Labels、Amazon Fraud Detector 和 Amazon Personalize。Unsupervised learning 使用 SageMaker K-Means、PCA、Random Cut Forest，以及 Amazon Lookout 系列的 anomaly detection 服務。Reinforcement learning 使用 AWS DeepRacer 和 SageMaker RL。Self-supervised learning 方面，Amazon Bedrock continued pre-training 讓你能在自己的無標籤資料上繼續 foundation model 的 self-supervised 訓練。

AIF-C01 需要我撰寫這些演算法的程式碼嗎？

不需要。AIF-C01 是一個基礎認證，考查的是概念理解、詞彙掌握與 AWS 服務映射能力。你需要能辨識各範式、區分子類型、將情境對應到正確的家族，並判斷哪個 AWS 服務支援哪種方式。你不需要實作 K-Means 或 gradient descent。那個程度的深度留給了 AWS Certified Machine Learning Engineer – Associate（MLA-C01）以及 AWS Certified Machine Learning – Specialty（MLS-C01）認證。

什麼是 Supervised、Unsupervised 與 Reinforcement Learning？

AIF-C01 為何如此執著於三大分類法

本主題與 AIF-C01 其他考點的關聯

為何學習類型如此重要：標籤可用性測試

白話文解釋 Supervised、Unsupervised 與 Reinforcement Learning

類比一：手搖飲料店學徒（Supervised Learning）

類比二：夜市攤商自學分類（Unsupervised Learning）

類比三：MRT 通勤路線自學（Reinforcement Learning）

考試當天該用哪個類比

Supervised Learning：有標籤資料，精準預測

核心前提：標籤必須存在

Classification vs Regression：輸出類型的岔路口

Training、Validation 與 Test 資料集的切分

常見 Supervised 演算法（概念層次）

支援 Supervised Learning 的 AWS 服務

Unsupervised Learning：無需標籤的模式發現

Clustering：將相似項目分群

Dimensionality Reduction：無需標籤的特徵壓縮

Anomaly Detection：找出異常的那一個

支援 Unsupervised Learning 的 AWS 服務

Reinforcement Learning：從 Reward 中學習

Agent-Environment-Reward-Policy 循環

Q-Learning 直覺理解

Exploration vs Exploitation

On-Policy vs Off-Policy（概念層次）

AWS DeepRacer：考試最友善的 RL 範例

其他支援 Reinforcement Learning 的 AWS 服務

Self-Supervised Learning：Foundation Model 如何預訓練

關鍵技巧：從資料本身衍生標籤

為何對 Foundation Model 至關重要

Self-Supervised vs Unsupervised：一線之隔

Semi-Supervised Learning：標籤稀缺時的解法

典型做法

何時選擇 Semi-Supervised

支援 Semi-Supervised 工作流程的 AWS 服務

何時選擇哪種範式：問題形態 + 標籤可用性

關鍵字對範式速查表

SageMaker Built-in Algorithms 與三大範式的對應

Supervised 類 Built-ins

Unsupervised 類 Built-ins

Reinforcement Learning 類 Built-ins

Transfer Learning vs Domain Adaptation：考試陷阱

Transfer Learning：新任務，重用知識

Domain Adaptation：同一任務，新的資料分佈

對比比較表

為何考試喜歡這個配對

Supervised、Unsupervised 與 Reinforcement Learning 的常見考試陷阱

陷阱一：「Unsupervised」不等於「沒有訓練」

陷阱二：RL 不是「自適應」系統的萬能答案

陷阱三：Self-Supervised 預訓練不等於 Fine-Tuning

陷阱四：Anomaly Detection 可以是 Supervised 也可以是 Unsupervised

陷阱五：DeepRacer 的 Reward Function 是由人類撰寫的，不是自動學習的

必背數字與常數

Supervised、Unsupervised 與 Reinforcement Learning 對比 Foundation Model

預訓練：Self-Supervised

Supervised Fine-Tuning（SFT）

Reinforcement Learning from Human Feedback（RLHF）

考試重點

考題演練：AIF-C01 Task 1.1 練習指引

模板 A：標籤可用性路由

模板 B：輸出類型岔路口

模板 C：帶有 Reward 的 Environment 模式

模板 D：Domain Adaptation vs Transfer Learning

模板 E：Foundation Model 預訓練

常見問題（FAQ）

Supervised、Unsupervised 與 Reinforcement Learning 之間有什麼差別？

我要如何判斷該用 Supervised 還是 Unsupervised Learning？

Classification 和 Regression 一樣嗎？

Reinforcement Learning 是什麼？在 AIF-C01 上什麼時候該選它？

Self-Supervised Learning 是什麼？它與 Foundation Model 有何關聯？

Transfer Learning 和 Domain Adaptation 有什麼差別？

哪些 AWS 服務實作了各種學習範式？

AIF-C01 需要我撰寫這些演算法的程式碼嗎？

延伸閱讀

官方資料來源

更多 AIF-C01 主題