examlab .net 用最有效率的方法,考取最有價值的認證
Vol. I
本篇導覽 約 28 分鐘

監督式、非監督式與強化學習

5,600 字 · 約 28 分鐘閱讀 ·

以正體中文深入解析 supervised learning(監督式學習)、unsupervised learning(非監督式學習)與 reinforcement learning(強化學習),涵蓋有標籤與無標籤資料的差異、classification 與 regression 的判斷方式、clustering 演算法、RL agent 機制、self-supervised 預訓練原理,以及對應的 AWS SageMaker 與 DeepRacer 服務映射。

立即做 20 題練習 → 免費 · 不用註冊 · AIF-C01

**Supervised learning(監督式學習)、unsupervised learning(非監督式學習)與 reinforcement learning(強化學習)**這套三分類法,是 AIF-C01 考生在 Domain 1 必須最先掌握的核心詞彙。Task Statement 1.1「解釋 AI 基礎概念與術語」幾乎每次都會在題幹中描述一個業務情境,要求你判斷哪種學習範式適用。選錯的話,整個 Domain 1 的 20% 分數就會大幅流失。

本學習指南完整涵蓋 AIF-C01 考試範圍內所有關於 supervised learning、unsupervised learning 與 reinforcement learning 的考點,以及驅動現代 foundation model 的 self-supervised 與 semi-supervised 變體。你將學到:根據標籤是否可取得來判斷學習類型的啟發式原則、AWS 各服務對應哪種範式(SageMaker built-in algorithms、SageMaker JumpStart、Amazon DeepRacer、Amazon Bedrock fine-tuning),以及 AIF-C01 慣用的細微陷阱題——包括社群回報中最常踩到的 Domain Adaptation 與 Transfer Learning 辨別題。

什麼是 Supervised、Unsupervised 與 Reinforcement Learning?

Supervised learning、unsupervised learning 與 reinforcement learning 是機器學習的三大典範範式,差異在於模型在訓練時接收到的訓練訊號種類。Supervised learning 使用有標籤的輸入輸出配對;unsupervised learning 只使用輸入資料,讓模型自行找出結構;reinforcement learning 則透過與環境互動所獲得的 reward 訊號來指導學習。AIF-C01 及整個 AWS ML 服務堆疊中的每一個 ML 問題,最終都可以歸類到這三種範式之一(另加兩種混合型態:self-supervised 和 semi-supervised,後面會詳細介紹)。

AIF-C01 考試指南在 Task 1.1 中明確列出這三種範式,並要求考生能夠:(a)從情境中的關鍵字辨識各範式;(b)指出正確的 AWS 服務;(c)避開以「聽起來合理但其實錯誤」的範式作為干擾選項的陷阱題。

Supervised learning 在(輸入, 標籤)配對上訓練模型,讓模型能對新輸入預測標籤。Unsupervised learning 僅在輸入資料上訓練,找出隱藏結構(cluster、低維嵌入、異常值)。Reinforcement learning 訓練一個 agent 在環境中選擇動作,目標是讓累積 reward 最大化。這三個類別——統稱為 supervised、unsupervised 與 reinforcement learning——涵蓋了 AWS 上絕大多數的傳統 ML 應用場景。 Source ↗

AIF-C01 為何如此執著於三大分類法

Domain 1 佔 AIF-C01 考試的 20%,而光是 Task 1.1 就對應整場 65 題中大約六到十道計分題。情境題幾乎不會直接問「定義 reinforcement learning 是什麼」,而是描述一個場景(例如:「工程團隊希望機器人在不寫死規則的情況下自學走路」),再要求你迅速歸類到正確的範式。背誦關鍵字是必要的,但真正持久有用的能力,是理解訓練訊號的本質形態。

本主題與 AIF-C01 其他考點的關聯

Supervised learning、unsupervised learning 與 reinforcement learning 的詞彙體系,是以下主題的概念根基:

  • Classification 指標(accuracy、precision、recall、F1)——在 Overfitting、Bias 與 Variance 主題中深入評估
  • ML 開發生命週期——資料標注成本直接取決於你選擇了哪種學習範式
  • Foundation model——pre-training 使用 self-supervised;fine-tuning 使用 supervised;RLHF 是來自人類回饋的 reinforcement learning
  • AWS 服務映射——SageMaker built-in algorithms 整齊地對應到三大範式

為何學習類型如此重要:標籤可用性測試

在選擇任何演算法之前,AWS 建議先問一個診斷問題:你有標籤嗎?取得標籤的成本高嗎?標籤長什麼樣子? 這個答案會以可預測的方式將你引導到 supervised learning、unsupervised learning 或 reinforcement learning。

  • 有大量標籤資料 → 預設使用 supervised learning
  • 沒有標籤但有大量原始輸入 → unsupervised learning
  • 沒有標籤,但有模擬器或有評分函式的環境 → reinforcement learning
  • 標籤取得成本高,但無標籤資料很豐富 → semi-supervised 或 self-supervised learning
  • 標籤可以從資料本身衍生(預測下一個 token、預測被遮罩的像素)→ self-supervised learning

這個判斷順序在後面會重複出現,是回答 supervised、unsupervised 與 reinforcement learning 情境題時最有用的單一啟發式原則。

白話文解釋 Supervised、Unsupervised 與 Reinforcement Learning

從 ML 術語走出來,進入日常生活場景,supervised learning、unsupervised learning 與 reinforcement learning 之間的差異就會豁然開朗。以下三個取材自台灣生活的類比,讓這三種範式的差異令人難忘。

類比一:手搖飲料店學徒(Supervised Learning)

想像一個剛進店的手搖飲料店學徒,師傅從第一天起就手把手教:這杯珍奶要加多少珍珠、幾分糖、幾分冰,每一份飲料都有標準答案對照。學徒看了幾千筆「原料配方 → 成品評分」的配對之後,漸漸掌握箇中規律,最終能在師傅不在場時,自行做出符合標準的飲料。

這就是 supervised learning。有標準答案的配方手冊就是訓練集;師傅不在時的自主製作就是測試集。重點在於從「已有答案的例子」泛化到「沒看過的新訂單」。Classification 問題(這杯飲料是甜的還是不甜?)和 regression 問題(這杯飲料最終會定價多少元?)只是輸出形式不同——兩者都屬於 supervised learning。

類比二:夜市攤商自學分類(Unsupervised Learning)

想像一位新來的夜市廣場管理員,面對幾百個攤販散落一地,沒有任何分類標籤,沒有人告訴他哪個攤位應該歸哪個區。他只能觀察:這幾攤都賣甜點、用相似的材料,應該擺在一起;那幾攤都賣辣炒類,氣味和客群相近,自成一群。管理員不是在預測預先存在的標籤,而是從資料本身發現潛藏結構。

這就是 unsupervised learning。K-Means clustering 把相似的顧客分群;Principal Component Analysis(PCA)把 500 個特徵壓縮到 20 個但保留大部分資訊;anomaly detection 發現某筆交易跟任何族群都不像,進而標記為可疑。三者都沒有事先給定的正確答案——unsupervised learning 靠著發現無人明確教過模型的模式來展現價值。

類比三:MRT 通勤路線自學(Reinforcement Learning)

最後,想像一個剛搬到台北的外縣市學生,第一次靠 MRT 通勤,沒有人給他路線手冊。他每天實驗:坐這條線轉這一站,結果遲到了(懲罰);改搭另一條線提前一站換乘,準時到了(獎勵);試試尖峰時段提早出門,座位還有空的(額外獎勵)。經過幾週的嘗試,他發展出一套「在這個時間、這個起點,走這條路線」的最佳策略。

這就是 reinforcement learning。這位學生是 agent,台北 MRT 網路是 environment,當下所在車站與時間是 state,決定搭哪班車是 action,是否準時到站並找到座位是 reward,而最終跑出來的通勤習慣就是 policy。和 supervised learning 不同,沒有老師說「正確動作是 X」;和 unsupervised learning 不同,有一個清晰的目標(準時且舒適地抵達)。Reinforcement learning 最適合用於「能評分結果、但無法一一列舉正確動作」的情境——正是 AWS DeepRacer 在虛擬賽道上模擬的場景。

考試當天該用哪個類比

三個類比各自從不同角度說明 supervised、unsupervised 與 reinforcement learning。根據題目措辭選擇:

  • 題目提到有標籤資料、歷史結果、訓練範例附有答案 → 手搖飲料店學徒(supervised)
  • 題目提到發現模式、分群相似項目、沒有標籤可用 → 夜市管理員(unsupervised)
  • 題目提到agent、environment、reward、policy、試誤、simulator → MRT 通勤自學(reinforcement)

Supervised Learning:有標籤資料,精準預測

Supervised learning 是 supervised、unsupervised 與 reinforcement learning 中,在 AWS 正式環境最常見的範式,也是 AIF-C01 最常出現的情境類型。你擁有每一筆資料都帶有正確答案的歷史資料集,並希望模型在面對未來的新資料時,也能預測出相應的答案。

核心前提:標籤必須存在

Supervised learning 預設你已經擁有標籤,或是能夠取得標籤。標籤的來源可以是人工標注、自然發生的業務結果(顧客確實流失,或沒有流失),或透過 Amazon SageMaker Ground Truth 進行自動化標注。沒有標籤就無法做 supervised learning,句點——這個限制正是它與其他兩種範式的分水嶺。

Classification vs Regression:輸出類型的岔路口

Supervised learning 依輸出類型分成兩個子類別:

  • Classification 從一個離散集合中預測類別。這封 email 是垃圾郵件嗎?這張 X 光片顯示的是肺炎、肺結核,還是正常?Classification 輸出一個類別標籤(有時附帶機率)。
  • Regression 預測一個連續的數值。這棟房子能賣多少錢?下個月我們能出貨幾件?Regression 輸出一個實數。

AIF-C01 反覆考這個岔路口。任何答案是數字(價格、溫度、需求量)的情境,答案就是 regression。任何答案是類別(是/否、A/B/C/D、詐欺/非詐欺)的情境,答案就是 classification。

Binary classification 仍然是 classification,不是 regression。 有些考生遇到是/否問題時會選「regression」,因為是/否可以編碼成 0/1。請不要上當。兩個輸出類別 = binary classification。只有當目標是連續實數時,才選 regression。這是 AIF-C01 練習題回報中,supervised learning 相關題目最常出現的陷阱。 Source ↗

Training、Validation 與 Test 資料集的切分

Supervised learning 的基礎是將有標籤的資料切分成三個子集:

  • Training set(通常佔 60–80%)——模型在這裡學習規律。
  • Validation set(通常佔 10–20%)——用於調整 hyperparameter,且不會碰到 test set。
  • Test set(通常佔 10–20%)——只在最後評估時使用一次,用來估算真實世界的效能。

混用這三個集合會造成資訊洩漏、虛高精確度。AIF-C01 要求你知道,用 test set 來做調參是大忌,而 validation set 存在的目的正是防止這種情況。將切分方式輪流旋轉時稱為 cross-validation;將旋轉切成 k 份時稱為 k-fold cross-validation

常見 Supervised 演算法(概念層次)

AIF-C01 不要求數學推導,但要求能辨識以下演算法家族:

  • Linear regression — 對連續輸出擬合一條直線(或超平面)。
  • Logistic regression — 儘管名稱含有「regression」,它其實是 classification,輸出一個機率值。
  • Decision trees — 基於規則的分支,可解釋性高。
  • Random forests — Decision trees 的 ensemble,對 overfitting 較具抵抗力。
  • Gradient-boosted trees / XGBoost — AWS 表格型 ML 的主力演算法;SageMaker 內建 XGBoost。
  • Support vector machines (SVMs) — 以最大 margin 為基礎的 classifier。
  • Neural networks — 從淺層 MLP 到深層 CNN 與 transformer。

支援 Supervised Learning 的 AWS 服務

在 supervised、unsupervised 與 reinforcement learning 三大分支中,supervised 分支在 AWS 服務上的涵蓋最為完整:

  • Amazon SageMaker built-in algorithms — Linear Learner、XGBoost、Factorization Machines、Image Classification、Object Detection、BlazingText(supervised 模式)、Seq2Seq。
  • Amazon SageMaker JumpStart — 文字、視覺與表格任務的預訓練 supervised 模型。
  • Amazon SageMaker Canvas — 供業務分析師使用的無程式碼 supervised classification 與 regression 工具。
  • Amazon Comprehend Custom Classification 和 Custom Entity Recognition — 在你的有標籤文字上進行 supervised NLP。
  • Amazon Rekognition Custom Labels — 在你的有標籤圖片上進行 supervised 影像分類與物件偵測。
  • Amazon Fraud Detector — 以你的歷史業務結果訓練的 supervised 詐欺 classifier。

當 AIF-C01 情境中出現「歷史有標籤資料」、「預測未來數值」、「分類到某些類別中」或「根據過去結果訓練」等措辭時,答案就在 supervised、unsupervised 與 reinforcement learning 的 supervised 分支。搭配 regression 與 classification 的輸出類型判斷,就能迅速鎖定正確答案。 Source ↗

Unsupervised Learning:無需標籤的模式發現

Unsupervised learning 是 supervised、unsupervised 與 reinforcement learning 的第二個家族,適用於標籤缺失或取得成本過高的場景。它不去預測一個目標值,而是在資料本身中發現結構。

Clustering:將相似項目分群

Clustering 將輸入資料分配到多個群體,使得同一群內的項目彼此之間,比跨群項目更為相似。

  • K-Means — 指定 k 個群,迭代地將每個資料點分配給最近的 centroid,再重新計算 centroid,直到穩定。這是 AIF-C01 最常考的 clustering 演算法。
  • Hierarchical clustering — 建立巢狀 cluster 的樹狀結構(agglomerative 由下往上,或 divisive 由上往下)。
  • DBSCAN — 基於密度的方法,能處理任意形狀的 cluster,並自動標記異常點。

K-Means 可作為 SageMaker built-in algorithm 使用,是 AIF-C01 考試中最常出現的服務映射。

Dimensionality Reduction:無需標籤的特徵壓縮

當資料有 500 個特徵時,大多數下游演算法會變慢或 overfit。Dimensionality reduction 在盡量保留訊號的前提下,壓縮特徵空間。

  • Principal Component Analysis (PCA) — 將資料投影到捕獲最大 variance 的正交軸上。可作為 SageMaker built-in algorithm 使用。
  • t-SNE 和 UMAP — 非線性嵌入方法,主要用於視覺化。
  • Autoencoders — 學習壓縮與重建輸入的神經網路;瓶頸層(bottleneck layer)即是低維表示。

Anomaly Detection:找出異常的那一個

Anomaly detection 找出不符合已觀察模式的輸入。詐欺偵測、基礎設施監控與製造業缺陷偵測都仰賴這種能力。

  • Random Cut Forest (RCF) — SageMaker 的內建 anomaly 演算法,也用於 Amazon Kinesis Data Analytics 與 Amazon Lookout 之中。
  • Isolation Forest — 透過隨機分割來孤立異常點;較短的路徑長度對應異常值。
  • Amazon Lookout for Metrics / Equipment / Vision — 基於 unsupervised 技術的受管 anomaly detection 服務。

支援 Unsupervised Learning 的 AWS 服務

Unsupervised learning 在 AWS 的服務涵蓋範圍:

  • SageMaker built-in algorithms — K-Means、PCA、Random Cut Forest、IP Insights(針對 IP 配對的 anomaly detection)。
  • Amazon Lookout for Metrics — 針對時間序列業務 KPI 的 anomaly detection。
  • Amazon Lookout for Equipment — 針對工業感測器資料的 anomaly detection。
  • Amazon Lookout for Vision — 利用 unsupervised 特徵學習進行視覺瑕疵偵測。
  • Amazon Kinesis Data Analytics — 用於串流 anomaly detection 的 RANDOM_CUT_FOREST SQL 函式。

Clustering 不等於 classification。Classification 將項目指定到預先存在的、有標籤的類別(垃圾郵件/非垃圾郵件)。Clustering 在沒有任何預先標籤的情況下發現群體。如果 AIF-C01 情境中有一組固定的命名類別,答案是 classification(supervised)。如果情境描述「將顧客分成我們事先未定義的群組」,答案就是 clustering(unsupervised)。這是 supervised、unsupervised 與 reinforcement learning 相關題目中,最常被回報的關鍵字陷阱。 Source ↗

Reinforcement Learning:從 Reward 中學習

Reinforcement learning(RL)是 supervised、unsupervised 與 reinforcement learning 三大範式中的第三個,也是最容易在「其實是正確答案」時被排除、或在「其實不適用」時被誤選的範式。AIF-C01 在概念層次考 RL——只要能從題目措辭辨識出來,並映射到 AWS DeepRacer 和 SageMaker RL 即可。

Agent-Environment-Reward-Policy 循環

RL 用五個標準術語將試誤學習的循環形式化:

  • Agent — 被訓練的決策者。
  • Environment — Agent 與之互動的世界(真實或模擬的)。
  • State — Agent 觀察到的環境快照。
  • Action — Agent 選擇採取的行動。
  • Reward — 執行 action 後,environment 給出的數值回饋。
  • Policy — 從 state 到 action 的學習映射;也就是 agent 的「策略」。

每次 agent 選擇一個 action,environment 就會轉換到新的 state 並發出 reward。在無數次這樣的步驟之後,agent 更新它的 policy,讓未來的累積 reward(正式名稱為「期望折扣回報」)最大化。

Q-Learning 直覺理解

Q-Learning 是 AIF-C01 有時會點名的教科書級 RL 演算法。直觀上,Q(s, a) 是一個表格(或神經網路),估計「如果我在 state s 採取 action a,之後再以最佳方式行動,我預期能獲得多少總 reward?」Agent 不斷根據觀察到的 reward 修正 Q,再在每個 state 選取能讓 Q(s, a) 最大化的 a。Deep Q-Networks(DQN)用神經網路取代表格,讓這個方法能擴展到像素這類高維度 state 空間。

Exploration vs Exploitation

RL agent 面臨永無止境的矛盾:要 exploit 已知的最佳 action(選擇估計 reward 最高的 action),還是 explore 新的可能性(嘗試可能更好的未知選項)?Epsilon-greedy 策略——以 1 − epsilon 的機率貪婪地選擇,以 epsilon 的機率隨機選擇——是最經典的平衡方式。這個矛盾在 supervised learning 中沒有對應的概念,這也是 RL 自成一個範式家族的原因之一。

On-Policy vs Off-Policy(概念層次)

On-policy 方法(例如 SARSA)學習當前正在執行的 policy 的相關知識。Off-policy 方法(例如 Q-Learning)可以在執行另一個探索性 policy 的同時,學習最佳 policy 的知識。AIF-C01 很少深究這個區別——知道它存在就已足夠。

AWS DeepRacer:考試最友善的 RL 範例

AWS DeepRacer 是一輛自主 1/18 比例的賽車,透過 RL 學習如何在賽道上行駛。學員定義一個 reward function(例如:reward = track_width - distance_from_center),選擇訓練演算法(PPO 或 SAC),在模擬器中訓練,再選擇性地部署到實體車上。DeepRacer 是 AIF-C01 的 RL 標準範例,原因是:(a)五個 RL 術語可以乾淨地映射到它身上;(b)AWS 將它定位為教育工具;(c)它底層使用 SageMaker RL。

RL 術語 DeepRacer 對應
Agent 1/18 比例的賽車
Environment 模擬賽道
State 相機影像 + 車速
Action 轉向角度 + 油門
Reward 你自行定義的 Python 函式
Policy 將 state 映射到 action 的神經網路

其他支援 Reinforcement Learning 的 AWS 服務

  • SageMaker RL — 全受管的 RL 訓練任務,支援 RLlib、Coach,以及 TensorFlow/PyTorch 後端。
  • Amazon Bedrock RLHF(Reinforcement Learning from Human Feedback) — foundation model 提供者內部用於將模型對齊到人類偏好;在討論 model fine-tuning 時作為概念出現。

AIF-C01 RL 速查表:

  • 五個 RL 術語:Agent、Environment、State、Action、Reward → Policy 在訓練中浮現
  • AWS 旗艦 RL 產品:AWS DeepRacer
  • SageMaker RL 支援 PPO、SAC、DQN 演算法
  • RL 標誌性關鍵字:「trial and error(試誤)」、「reward function(獎勵函式)」、「simulator(模擬器)」、「cumulative return(累積回報)」、「policy(策略)」
  • RLHF = Reinforcement Learning from Human Feedback——用於 foundation model 的對齊調整

Source ↗

Self-Supervised Learning:Foundation Model 如何預訓練

Self-supervised learning(自監督學習)是 supervised、unsupervised 與 reinforcement learning 家族樹上相對新的成員,也是 Amazon Bedrock 上每一個現代 foundation model 的秘密武器。

關鍵技巧:從資料本身衍生標籤

Self-supervised learning 在技術上是 supervised learning 的特殊案例——確實有標籤——但標籤是從資料本身合成的,而非由人工標注。對於文字,每個位置的標籤就是「下一個 token 是什麼?」對於圖片,標籤可以是「哪個區塊被遮住了?」對於音訊,則是「哪一段被靜音了?」你不需要任何人工標注者,卻擁有無限多的訓練樣本。

為何對 Foundation Model 至關重要

Amazon Bedrock 上每一個大型語言模型(LLM)——Anthropic Claude、Amazon Titan、Meta Llama、Mistral、Cohere——都是在巨型文字語料庫上以 self-supervised 方式預訓練的。「預測下一個 token」的訓練目標,讓每個模型以接近零標注成本取得數十億筆免費訓練樣本。這就是 foundation model 能在經濟上成立的根本原因:你永遠不可能靠人工標注數兆個 token,但 self-supervision 完全繞過了這個成本。

其他 self-supervised 訓練目標:

  • Masked language modeling (MLM) — BERT 風格模型預測隨機被遮罩的 token。
  • Masked image modeling — 視覺模型預測被遮罩的圖像區塊。
  • Contrastive learning — 將相似的配對拉近嵌入空間,將不相似的配對推遠(CLIP 和 Titan Multimodal Embeddings 採用此方式)。
  • Next-token prediction(自迴歸式) — GPT 風格模型根據所有前置 token 預測下一個 token;這是現代 LLM 的標準訓練目標。

Self-Supervised vs Unsupervised:一線之隔

有些教科書把 self-supervised 歸類在 unsupervised learning 之下,因為兩者都不使用人工標籤。但 AIF-C01 將它們視為獨立的類別:self-supervised 有明確的預測目標(即使是自動產生的),而 unsupervised learning 完全沒有預測目標(clustering 沒有「正確答案」)。考試時遇到拿不定主意的情況,請記住:如果模型被訓練來預測某個東西,那就是 supervised(包含 self-supervised);如果模型在沒有預測輸出的情況下發現結構,那就是 unsupervised。

Semi-Supervised Learning:標籤稀缺時的解法

Semi-supervised learning(半監督學習)是 AIF-C01 要求你能辨識的最後一種範式。它在 supervised 與 unsupervised 之間,適用於你有一個小型有標籤資料集,加上大量無標籤資料的情境。

典型做法

先在小型有標籤資料集上訓練一個初始模型,再用這個模型對無標籤資料產生 pseudo-label,保留高信心的 pseudo-label,最後在合併後的資料集上重新訓練。替代方案包括:co-training(兩個模型互相為對方的無標籤資料標注)以及基於圖的 label propagation。

何時選擇 Semi-Supervised

以下情況適合選 semi-supervised:

  • 標注成本高昂(醫療影像、法律文件)
  • 無標籤資料豐富(你有數百萬筆產品評論,但只有數千筆有標注)
  • 無標籤資料的分佈與有標籤資料相符(至關重要;否則 pseudo-label 會造成污染)

支援 Semi-Supervised 工作流程的 AWS 服務

  • Amazon SageMaker Ground Truth — 內建 active learning;系統自動標注「簡單」的樣本,將「困難」的樣本路由給人工標注者,在操作上是一種 semi-supervised 標注形式。
  • Amazon Comprehend Custom — 在小型有標籤資料集上訓練,並從 Amazon 的預訓練基礎模型進行 transfer。

Semi-supervised learning 在 AIF-C01 上很少是直接考點,但認識它能讓你在 supervised、unsupervised 與 reinforcement learning 情境題中排除干擾選項。

何時選擇哪種範式:問題形態 + 標籤可用性

以下是整個 supervised、unsupervised 與 reinforcement learning 家族(含兩種混合型態)的綜合決策流程:

  1. 我有一個帶有 reward 和 action 的 environment 嗎? → Reinforcement learning(DeepRacer、SageMaker RL)
  2. 我能從資料本身免費產生標籤(預測下一個 token、被遮罩的區塊)嗎? → Self-supervised learning(foundation model 預訓練)
  3. 我有豐富的標籤嗎? → Supervised learning
    • 輸出是類別 → Classification
    • 輸出是數字 → Regression
  4. 我只有少量標籤,加上大量無標籤資料? → Semi-supervised learning
  5. 我只有無標籤資料,需要發現結構? → Unsupervised learning
    • 將相似項目分群 → Clustering
    • 壓縮特徵 → Dimensionality reduction
    • 標記異常值 → Anomaly detection

關鍵字對範式速查表

情境關鍵字 範式 可能的 AWS 服務
「歷史有標籤資料」、「預測類別」 Supervised classification SageMaker XGBoost、Comprehend Custom Classification
「預測銷售數字」 Supervised regression SageMaker Linear Learner、Amazon SageMaker Canvas 時間序列
「顧客分群,無預先定義的組別」 Unsupervised clustering SageMaker K-Means
「將 500 個特徵降維」 Unsupervised dimensionality reduction SageMaker PCA
「偵測異常行為,沒有有標籤的詐欺範例」 Unsupervised anomaly detection SageMaker Random Cut Forest、Lookout for Metrics
「試誤、模擬器、reward」 Reinforcement learning AWS DeepRacer、SageMaker RL
「在原始文字上預訓練 foundation model」 Self-supervised learning Bedrock continued pre-training
「少量有標籤資料加大量無標籤資料」 Semi-supervised learning SageMaker Ground Truth(active learning)

SageMaker Built-in Algorithms 與三大範式的對應

Amazon SageMaker 提供一系列 built-in algorithms,可以整齊地對應到 supervised、unsupervised 與 reinforcement learning。AIF-C01 要求你認識哪個演算法對應哪種範式。

Supervised 類 Built-ins

  • Linear Learner — 表格資料上的 classification 或 regression。
  • XGBoost — Gradient-boosted trees,表格型 ML 的主力;classification 或 regression 皆可。
  • Factorization Machines — 用於高維稀疏資料集(點擊流、推薦系統)。
  • Image Classification(基於 ResNet)和 Object Detection(基於 SSD)— 電腦視覺 supervised 任務。
  • Semantic Segmentation — 像素級別的 classification。
  • BlazingText(supervised 模式) — 文字 classification。
  • Seq2Seq — 序列到序列任務,例如翻譯。
  • DeepAR — Supervised 時間序列預測。

Unsupervised 類 Built-ins

  • K-Means — Clustering。
  • PCA — Dimensionality reduction。
  • Random Cut Forest — Anomaly detection。
  • IP Insights — 針對 IP 位址配對的 anomaly detection。
  • BlazingText(unsupervised Word2Vec 模式) — 詞嵌入學習。
  • Object2Vec — 通用神經嵌入。
  • Neural Topic Model (NTM) 和 LDA — 文字語料庫的主題建模。

Reinforcement Learning 類 Built-ins

  • SageMaker RL — 不是單一演算法,而是一個框架,透過 RLlib 和 Coach 支援 PPO、SAC、DQN。
  • AWS DeepRacer — 將 RL 包裝成遊戲化的消費者端產品。

SageMaker BlazingText 有兩種模式——模式決定範式。 在 supervised 模式下,它是文字 classifier(supervised learning)。在 Word2Vec 模式下,它在沒有標籤的情況下學習詞嵌入(unsupervised learning)。AIF-C01 很喜歡利用這種模糊性出題。如果情境提到訓練標籤,答案是 BlazingText supervised 模式。如果情境提到從原始語料庫學習詞的表示,答案是 BlazingText unsupervised 模式。請不要混淆兩者。 Source ↗

Transfer Learning vs Domain Adaptation:考試陷阱

社群回報一致將 Transfer Learning 與 Domain Adaptation 的區別,列為 AIF-C01 上最容易答錯的 supervised、unsupervised 與 reinforcement learning 鄰近概念之一。這兩個術語在日常使用中看似同義,但考試將它們視為截然不同的概念。

Transfer Learning:新任務,重用知識

Transfer learning 重用一個在某任務上訓練好的模型,以便快速啟動另一個不同的任務。經典範例:一個在 ImageNet(1000 類通用影像分類)上預訓練的 ResNet,被 fine-tune 到一個小型胸部 X 光資料集上(二元肺炎偵測)。來源任務(ImageNet 分類)與目標任務(X 光分類)是不同的任務。特徵提取層被重用,classification head 被替換或 fine-tune。

Transfer learning 是關於改變任務

Domain Adaptation:同一任務,新的資料分佈

Domain adaptation 保持相同的任務,但讓模型適應新的資料分佈。經典範例:一個在 Amazon 商品評論上訓練的情感 classifier,被調整成能分類電影評論的情感。任務(情感分類)是一樣的,改變的是domain(輸入的統計分佈——詞彙、風格、長度)。

Domain adaptation 是關於在保持任務不變的情況下,改變資料分佈

對比比較表

維度 Transfer Learning Domain Adaptation
任務 改變(ImageNet → X 光) 維持不變(情感 → 情感)
Domain / 輸入分佈 通常也會改變 按定義必然改變
典型情境 重用預訓練 ImageNet backbone 情感模型:Amazon 評論 → 電影評論
常用方法 替換並 fine-tune 輸出層 在目標 domain 資料上繼續訓練
AWS 服務 SageMaker JumpStart fine-tuning Bedrock continued pre-training、Comprehend Custom

為何考試喜歡這個配對

兩個概念都描述「在新情境中使用現有模型」。沒有精確的定義,考生往往聳聳肩選一個聽起來比較熟悉的詞。AIF-C01 考試指南明確列出兩者,社群回報也確認它們會在同一題中作為不同選項出現,強迫你選出正確的那個。

Transfer Learning 改變任務。Domain Adaptation 在保持任務不變的情況下改變輸入分佈。 把這個一句話區別背下來。在 AIF-C01 中,這是 supervised、unsupervised 與 reinforcement learning 鄰近規則中價值最高的一條——因為選錯就是整題失分,而社群資料顯示這個配對在大多數 AIF-C01 考試中都會出現。 Source ↗

Supervised、Unsupervised 與 Reinforcement Learning 的常見考試陷阱

除了已經點名的兩個陷阱(binary classification vs regression、clustering vs classification)之外,AIF-C01 還有幾個反覆出現的 supervised、unsupervised 與 reinforcement learning 陷阱題型。

陷阱一:「Unsupervised」不等於「沒有訓練」

Unsupervised 模型一樣需要訓練——只是在沒有標籤的情況下訓練。不要把「unsupervised」當成「規則式」或「沒有 ML」的同義詞。

陷阱二:RL 不是「自適應」系統的萬能答案

自適應推薦引擎通常是 supervised(collaborative filtering、matrix factorization)或混合型態。RL 只在系統需要在有延遲 reward 的 environment 中執行序列性動作時才出現。如果情境只是「根據過去的購買記錄推薦商品」,答案是 supervised,而非 reinforcement。

陷阱三:Self-Supervised 預訓練不等於 Fine-Tuning

Foundation model 要經歷兩個階段:在巨型語料庫上進行 self-supervised 預訓練,然後(選擇性地)在較小的有標籤資料集上進行 supervised fine-tuning。AIF-C01 如果問到「在特定 domain 有標籤資料上進行 fine-tuning」,問的是 supervised fine-tuning 步驟,而非原始的 self-supervised 預訓練。

陷阱四:Anomaly Detection 可以是 Supervised 也可以是 Unsupervised

AWS 上大多數 anomaly detection(Random Cut Forest、Lookout 系列)是 unsupervised 的——因為你沒有預先標注的異常資料。但 Amazon Fraud Detector 使用 supervised learning,因為你將過去的交易標注為詐欺或合法。範式取決於異常值是否被預先標注。

陷阱五:DeepRacer 的 Reward Function 是由人類撰寫的,不是自動學習的

常見誤解:「DeepRacer 自己學習 reward。」錯誤。是學員用 Python 撰寫 reward function。Agent 學習的是一個讓學員所定義的 reward function 最大化的 policy。如果 reward function 設計不良,學習到的 policy 也會很差。

在 AIF-C01 上,請不要把「self-supervised learning」和「unsupervised learning」混淆。 兩者都跳過人工標籤,但 self-supervised 模型有一個明確的、從資料自動產生的預測目標(預測下一個 token、預測被遮罩的區塊);unsupervised 模型完全沒有預測目標(clustering、PCA)。AIF-C01 考試指南將它們列為 supervised、unsupervised 與 reinforcement learning 分類法中的獨立條目,且據回報曾在同一題中同時出現作為選項。 Source ↗

必背數字與常數

AIF-C01 出題者在設計 supervised、unsupervised 與 reinforcement learning 情境題時,有幾個數字反覆出現。這些並非來自單一白皮書,而是反映了 AWS 文件的預設值與典型建議。

AIF-C01 Supervised、Unsupervised 與 Reinforcement Learning 速查數字:

  • 3 — ML 分類法中的典範範式數量(supervised、unsupervised、reinforcement)
  • 5 — 加入 self-supervised 和 semi-supervised 後的變體總數
  • 60/20/2070/15/1580/10/10 — 典型的 train/validation/test 切分比例
  • 5-fold、10-fold — 最常見的 k-fold cross-validation 數值
  • k — K-Means 中的群數,由人工選定(通常透過 elbow method 或 silhouette score)
  • PPO、SAC — AWS DeepRacer 開放的兩種標準 RL 演算法
  • 1000 — ImageNet 的類別數,transfer learning 最常見的來源任務
  • 1/18 — DeepRacer 賽車的比例尺

Source ↗

Supervised、Unsupervised 與 Reinforcement Learning 對比 Foundation Model

現代 foundation model 模糊了 supervised、unsupervised 與 reinforcement learning 之間的舊有界線。理解它們如何重疊,是快速回答比較型考題的捷徑。

預訓練:Self-Supervised

Foundation model 的預訓練是 self-supervised 的。預測下一個 token,預測被遮罩的區塊。沒有人工標籤。

Supervised Fine-Tuning(SFT)

預訓練之後,提供者通常在一個較小的(指令, 理想回應)配對資料集上對模型進行 fine-tune。這個階段是純粹的 supervised learning——標籤就是理想的回應。

Reinforcement Learning from Human Feedback(RLHF)

第三個對齊階段應用 reinforcement learning。一個 reward model 在人類對模型輸出的排名上訓練,而 policy(即 LLM)則被更新以最大化 reward model 的分數。Claude 和 Titan 等模型的最終對齊使用了 RLHF,將 supervised、unsupervised 與 reinforcement learning 三大家族全部整合進一個正式環境中的模型。

考試重點

當 AIF-C01 問到 foundation model 如何訓練時,正確答案必須提及全部三個階段:self-supervised 預訓練、supervised fine-tuning,以及 reinforcement learning from human feedback。對於 foundation model 相關問題,只提到單一範式的答案通常是錯的。

考題演練:AIF-C01 Task 1.1 練習指引

AIF-C01 Task Statement 1.1「解釋 AI 基礎概念與術語」透過情境型考題來考查 supervised、unsupervised 與 reinforcement learning 的詞彙。以下是最常見的考題模板。完整的練習題與詳細解析請見 ExamLab 題庫。

模板 A:標籤可用性路由

一家零售商擁有五年的顧客交易資料,沒有任何標示「高價值顧客」的標籤,希望發現自然的顧客群體以設計精準行銷活動。應用哪種範式?答案:unsupervised learning(clustering)。干擾選項:supervised classification(錯誤,因為沒有標籤);reinforcement learning(錯誤,因為沒有 environment/reward)。

模板 B:輸出類型岔路口

一家房地產新創公司希望根據坪數、地點和房間數預測房屋售價。應用哪種範式?答案:supervised regression(連續數值目標)。干擾選項:supervised classification(錯誤,因為售價是連續的,不是類別)。

模板 C:帶有 Reward 的 Environment 模式

一家物流公司希望倉庫機器人自學最快的取貨路線,並能適應不斷變化的倉庫佈局。應用哪種範式?答案:reinforcement learning(agent、environment、隨時間累積的 reward)。干擾選項:supervised learning(錯誤,因為不存在有標籤的最佳路徑)。

模板 D:Domain Adaptation vs Transfer Learning

一位資料科學家有一個在英文商品評論上訓練的情感分析模型,希望將它調整成能分類英文電影評論的情感。應用哪種技術?答案:domain adaptation(相同任務,不同 domain)。干擾選項:transfer learning(錯誤,因為任務沒有改變)。

模板 E:Foundation Model 預訓練

一個 AI 團隊希望在一個 1 TB 的法律文件語料庫(沒有人工標籤)上預訓練一個語言模型。應用哪種範式?答案:self-supervised learning(「預測下一個 token」是隱含的訓練目標)。干擾選項:unsupervised learning(技術上相鄰,但未能捕捉到預測目標的本質);supervised learning(沒有人工標籤)。

常見問題(FAQ)

Supervised、Unsupervised 與 Reinforcement Learning 之間有什麼差別?

Supervised learning 在(輸入, 標籤)配對上訓練模型,讓模型能預測新輸入的標籤。Unsupervised learning 僅在輸入上訓練,發現隱藏結構,例如 cluster 或低維嵌入。Reinforcement learning 訓練一個 agent 在 environment 中選擇 action,以 reward 訊號為指引,讓累積回報最大化。這三大範式涵蓋了 AWS 上大多數的傳統 ML,並明確列於 AIF-C01 考試指南中。

我要如何判斷該用 Supervised 還是 Unsupervised Learning?

從標籤可用性測試開始。如果你有有標籤的訓練資料,並想對新輸入預測同樣的標籤,就用 supervised learning。如果你只有原始輸入,想發現結構(分群、壓縮特徵、找異常),就用 unsupervised learning。如果標籤稀缺但無標籤資料豐富,semi-supervised learning 或 self-supervised 預訓練加上 supervised fine-tuning,效果可能優於純 supervised learning。

Classification 和 Regression 一樣嗎?

不一樣。兩者都是 supervised learning,但 classification 從離散集合中預測類別(垃圾郵件/非垃圾郵件、A/B/C),而 regression 預測一個連續數值(價格、溫度)。AIF-C01 要求你透過觀察目標變數的類型來區分兩者。數值 → regression。類別 → classification。是/否的 binary 問題是 classification(具體來說是 binary classification),而非 regression,即使是/否可以被編碼成 0/1。

Reinforcement Learning 是什麼?在 AIF-C01 上什麼時候該選它?

Reinforcement learning 透過試誤讓 agent 在 environment 中最大化 reward。當情境涉及序列決策、模擬器或真實 environment,以及評分函式(而非有標籤資料集)時,就選它。AWS DeepRacer 是 AIF-C01 的標準範例。關鍵字「agent」、「reward」、「policy」、「simulator」、「trial and error」都應讓你立刻聯想到 reinforcement learning。

Self-Supervised Learning 是什麼?它與 Foundation Model 有何關聯?

Self-supervised learning 從資料本身產生標籤——對文字是預測下一個 token;對圖片是預測被遮罩的區塊——因此不需要人工標注。Amazon Bedrock 上的每一個現代 foundation model(Anthropic Claude、Amazon Titan、Meta Llama、Mistral)都是在巨型語料庫上以 self-supervised 方式預訓練的。Self-supervised 預訓練讓 foundation model 在經濟上可行——以所需規模進行人工標注將花費數十億美元,但 self-supervision 完全繞過了這個成本。AIF-C01 要求你認識 self-supervised learning 是 foundation model 預訓練背後的機制。

Transfer Learning 和 Domain Adaptation 有什麼差別?

Transfer learning 改變任務(例如:ImageNet classifier → 胸部 X 光 classifier),透過重用已學習的特徵表示來達成。Domain adaptation 保持任務不變,讓模型適應新的輸入分佈(例如:商品評論情感 classifier → 電影評論情感 classifier)。這兩個概念都出現在 AIF-C01 Task 1.1 和 3.3 中,社群回報一致將這個配對列為高陷阱辨別題。記住:transfer learning = 新任務;domain adaptation = 新資料分佈。

哪些 AWS 服務實作了各種學習範式?

Supervised learning 使用 SageMaker built-in algorithms(XGBoost、Linear Learner、Image Classification)、SageMaker JumpStart、Comprehend Custom、Rekognition Custom Labels、Amazon Fraud Detector 和 Amazon Personalize。Unsupervised learning 使用 SageMaker K-Means、PCA、Random Cut Forest,以及 Amazon Lookout 系列的 anomaly detection 服務。Reinforcement learning 使用 AWS DeepRacer 和 SageMaker RL。Self-supervised learning 方面,Amazon Bedrock continued pre-training 讓你能在自己的無標籤資料上繼續 foundation model 的 self-supervised 訓練。

AIF-C01 需要我撰寫這些演算法的程式碼嗎?

不需要。AIF-C01 是一個基礎認證,考查的是概念理解、詞彙掌握與 AWS 服務映射能力。你需要能辨識各範式、區分子類型、將情境對應到正確的家族,並判斷哪個 AWS 服務支援哪種方式。你不需要實作 K-Means 或 gradient descent。那個程度的深度留給了 AWS Certified Machine Learning Engineer – Associate(MLA-C01)以及 AWS Certified Machine Learning – Specialty(MLS-C01)認證。

延伸閱讀

相關 ExamLab 主題:AI 與 ML 核心概念Overfitting、Underfitting、Bias 與 VarianceML 開發生命週期實際 AI 與 ML 應用場景

官方資料來源

更多 AIF-C01 主題