Kecerdasan Artifisial

Pertemuan 14

Unsupervised Learning & Reinforcement Learning

Mata Kuliah: Kecerdasan Artifisial (AI401) | 3 SKS

🎯 Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

Menjelaskan dan menerapkan algoritma K-Means clustering
Memahami hierarchical clustering dan dendrogramnya
Menerapkan evaluasi clustering (silhouette, elbow method)
Menjelaskan konsep PCA untuk dimensionality reduction
Memahami komponen reinforcement learning dan MDP
Menerapkan algoritma Q-Learning pada masalah sederhana
Membandingkan tiga paradigma machine learning

📋 Agenda Hari Ini

Bagian 1: Unsupervised Learning

Konsep Unsupervised Learning
K-Means Clustering
Hierarchical Clustering
Evaluasi Clustering
PCA (Pengenalan)

Bagian 2: Reinforcement Learning

Konsep RL
Markov Decision Process
Policy & Value Function
Q-Learning
Perbandingan 3 Paradigma ML

📝 Recap: Supervised Learning (Pertemuan 13)

Supervised Learning: Belajar dari data berlabel (input → output yang diketahui)

Konsep	Keterangan
Decision Tree	Klasifikasi dengan information gain
Naive Bayes	Klasifikasi probabilistik
Regresi Linear	Prediksi nilai kontinu
Evaluasi	Accuracy, precision, recall, F1

❓ Bagaimana jika data tidak memiliki label?

🔍 Apa itu Unsupervised Learning?

Unsupervised Learning adalah paradigma ML di mana model belajar dari data tanpa label untuk menemukan pola atau struktur tersembunyi.

Supervised

Data: (x, y) ✅

Tujuan: Prediksi y baru

Unsupervised

Data: (x) saja ❌

Tujuan: Temukan pola

📌 Aplikasi Unsupervised Learning

🏠 Umum

Segmentasi pelanggan
Deteksi anomali (fraud)
Kompresi data
Rekomendasi produk

🎖️ Pertahanan

Clustering sinyal SIGINT
Deteksi pola serangan siber
Segmentasi citra satelit
Analisis trafik jaringan

🎯 Clustering: Konsep Dasar

Clustering: Mengelompokkan data ke dalam klaster sehingga data dalam klaster mirip, data antar klaster berbeda.

Gambar 1: Prinsip clustering — intra-cluster similarity tinggi, inter-cluster similarity rendah

⚙️ Algoritma K-Means

Inisialisasi: Pilih K centroid awal secara acak
Assignment: Tetapkan setiap data ke centroid terdekat
Update: Hitung centroid baru (rata-rata anggota klaster)
Ulangi langkah 2-3 hingga centroid tidak berubah

📏 Jarak Euclidean: d(x, y) = √(Σ(xᵢ - yᵢ)²)

📊 Contoh K-Means (K=2)

Data:

Titik	x	y
A	1	2
B	2	1
C	4	5
D	5	4
E	3	3

Centroid awal: μ₁ = (1, 1), μ₂ = (5, 5)

📊 K-Means: Iterasi 1 — Assignment

Titik	d(titik, μ₁)	d(titik, μ₂)	Klaster
A(1,2)	1.00	5.00	C₁
B(2,1)	1.00	5.00	C₁
C(4,5)	5.00	1.00	C₂
D(5,4)	5.00	1.00	C₂
E(3,3)	2.83	2.83	C₁

📊 K-Means: Iterasi 1 — Update Centroid

Klaster C₁ = {A, B, E}

μ₁ = ((1+2+3)/3, (2+1+3)/3)

μ₁ = (2.0, 2.0)

Klaster C₂ = {C, D}

μ₂ = ((4+5)/2, (5+4)/2)

μ₂ = (4.5, 4.5)

Centroid berubah dari (1,1)→(2,2) dan (5,5)→(4.5,4.5) → Lanjut iterasi!

✅ K-Means: Konvergensi

Iterasi 2: Dengan μ₁=(2,2), μ₂=(4.5,4.5)

Titik	d(titik, μ₁)	d(titik, μ₂)	Klaster
A(1,2)	1.00	4.30	C₁
B(2,1)	1.00	4.30	C₁
C(4,5)	3.61	0.71	C₂
D(5,4)	3.61	0.71	C₂
E(3,3)	1.41	2.12	C₁

Assignment tidak berubah → Centroid tetap → Konvergen! ✅

📋 Karakteristik K-Means

✅ Kelebihan

Sederhana & cepat
Scalable (data besar)
Selalu konvergen

⚠️ Kelemahan

Harus tentukan K
Sensitif inisialisasi
Hanya klaster spherical
Sensitif outlier

📐 Menentukan K: Elbow Method

Elbow Method: Plot WCSS vs K, cari titik "siku" di mana penurunan WCSS melambat signifikan.

Gambar 2: Grafik elbow method — K optimal di titik siku

📐 Elbow Method: Contoh

K	WCSS	Penurunan	% Penurunan
1	500	—	—
2	200	300	60%
3	100	100	50%
3→4	80	20	20% ← Siku!
5	75	5	6%
6	72	3	4%

K optimal = 3 (penurunan drastis berkurang setelahnya)

📏 Evaluasi: Silhouette Score

s(i) = (b(i) - a(i)) / max(a(i), b(i))

a(i) = rata-rata jarak ke anggota klaster sendiri
b(i) = rata-rata jarak ke klaster terdekat lain

Nilai s(i)	Interpretasi
≈ +1	Sangat cocok dengan klasternya ✅
≈ 0	Di batas dua klaster ⚠️
≈ -1	Mungkin salah klaster ❌

🌳 Hierarchical Clustering

Membangun hierarki klaster dalam bentuk dendrogram, tanpa perlu menentukan K di awal.

⬆️ Agglomerative (Bottom-Up)

Mulai dari n klaster → gabung yang terdekat

⬇️ Divisive (Top-Down)

Mulai dari 1 klaster → pecah iteratif

🔗 Metode Linkage

Metode	Jarak Antar Klaster	Karakteristik
Single	Minimum distance	Rawan chaining
Complete	Maksimum distance	Klaster kompak
Average	Rata-rata distance	Kompromi

⚖️ K-Means vs Hierarchical

Aspek	K-Means	Hierarchical
Input K	Harus ditentukan	Tidak perlu
Kompleksitas	O(nKt)	O(n³)
Bentuk klaster	Spherical	Fleksibel
Scalability	✅ Baik	⚠️ Kurang
Deterministik	❌ Tidak	✅ Ya

📉 PCA: Dimensionality Reduction

Principal Component Analysis (PCA): Mentransformasi data ke dimensi lebih rendah dengan mempertahankan variansi maksimal.

Mengurangi jumlah fitur tanpa kehilangan banyak informasi
Mencari arah (principal components) dengan variansi terbesar
Contoh: 100 fitur → 3 komponen yang menjelaskan 95% variansi

🎖️ Pertahanan: Reduksi 50 sensor surveillance → 5-10 komponen utama untuk pemrosesan real-time

🎮

Bagian 2: Reinforcement Learning

Belajar dari Interaksi dan Reward

🤖 Apa itu Reinforcement Learning?

Reinforcement Learning (RL): Agen belajar mengambil tindakan dalam lingkungan untuk memaksimalkan reward kumulatif melalui trial and error.

Gambar 3: Siklus interaksi agen-lingkungan dalam RL

🧩 Komponen Reinforcement Learning

Komponen	Simbol	Deskripsi
Agent	—	Entitas yang belajar
Environment	—	Dunia tempat agen berinteraksi
State	sₜ	Situasi saat ini
Action	aₜ	Tindakan yang diambil
Reward	rₜ	Sinyal feedback numerik
Policy	π(s)	Strategi: state → action
Value Function	V(s)	Estimasi reward kumulatif

🎖️ Contoh RL: Drone Otonom

Komponen	Drone Menghindari Rintangan
Agent	Drone otonom
State	Posisi (x,y,z), kecepatan, jarak rintangan
Action	Naik, turun, belok kiri/kanan, hover
Reward	+1 terbang aman, -100 tabrakan, +10 sampai tujuan
Policy	"Jika rintangan di depan → belok kiri"

⚖️ Tiga Paradigma ML

Gambar 4: Perbandingan supervised, unsupervised, dan reinforcement learning

⚖️ Perbandingan Detail

Aspek	Supervised	Unsupervised	Reinforcement
Data	Berlabel (x, y)	Tanpa label (x)	Interaksi (s, a, r)
Feedback	Langsung (label)	Tidak ada	Delayed (reward)
Tujuan	Prediksi	Temukan pola	Maks. reward
Algoritma	Decision Tree, NB	K-Means, PCA	Q-Learning
Pertahanan	Klasifikasi citra	Clustering sinyal	Strategi drone

📐 Markov Decision Process (MDP)

MDP = (S, A, T, R, γ) — framework formal untuk pengambilan keputusan sekuensial

Komponen	Deskripsi
S	Himpunan state
A	Himpunan action
T(s'\|s,a)	Fungsi transisi (probabilitas)
R(s,a,s')	Fungsi reward
γ	Discount factor (0 ≤ γ ≤ 1)

🔑 Markov Property

Markov Property: Masa depan hanya bergantung pada state saat ini, bukan pada sejarah.

P(s_t+1 | s_t, a_t) — cukup!

💡 Analogi: Dalam catur, posisi papan saat ini berisi semua informasi yang relevan — tidak perlu tahu urutan langkah sebelumnya.

📊 Contoh MDP: Grid 2×2

Grid:

S1	S2
S3	S4 ⭐

S4 = Goal (reward +10)

Setiap langkah: reward -1

S = {S1, S2, S3, S4}

A = {U, D, L, R}

R = -1/langkah, +10 di S4

γ = 0.9

🎯 Policy dan Value Function

Policy π(s) → a

Strategi: "di state s, lakukan action a"

Contoh: S1→R, S2→D, S3→R

Value V^π(s)

Expected cumulative reward dari state s mengikuti policy π

V(S2) = +10 (1 langkah ke goal)

V(S1) = -1 + 0.9×10 = 8.0

🔄 Exploration vs Exploitation

🔍 Exploration

Mencoba aksi baru

Pro: Temukan strategi lebih baik

Con: Reward rendah sementara

💰 Exploitation

Gunakan pengetahuan terbaik

Pro: Reward tinggi segera

Con: Terjebak sub-optimal

🎖️ Analogi: Drone patroli — selalu rute sama (exploitation) vs coba rute baru (exploration). Solusi: ε-greedy

🧠 Algoritma Q-Learning

Q-Learning: Algoritma RL model-free yang mempelajari Q(s,a) — expected utility dari action a di state s.

Update Rule:

Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]

α = learning rate
r = reward yang diterima
γ = discount factor
max Q(s',a') = estimasi value terbaik dari state berikutnya

⚙️ Algoritma Q-Learning

Gambar 5: Flowchart algoritma Q-Learning

📊 Q-Learning: Contoh

Grid 1×3: S1 — S2 — S3(Goal)

Actions: Left (L), Right (R)

Reward: -1 per langkah, +10 di S3

α = 0.5, γ = 0.9

Q-Table awal:

State	Q(s, L)	Q(s, R)
S1	0	0
S2	0	0

📊 Q-Learning: Episode 1

Path: S1 →R→ S2 →R→ S3

Step 1: S1 →R→ S2, reward = -1

Q(S1,R) ← 0 + 0.5×[-1 + 0.9×max(0,0) - 0] = -0.5

Step 2: S2 →R→ S3(goal), reward = +10

Q(S2,R) ← 0 + 0.5×[10 + 0 - 0] = 5.0

State	Q(s, L)	Q(s, R)
S1	0	-0.5
S2	0	5.0

📊 Q-Learning: Episode 2

Path: S1 →R→ S2 →R→ S3 (lagi)

Step 1: Q(S1,R) ← -0.5 + 0.5×[-1 + 0.9×5.0 + 0.5] = 1.5

Step 2: Q(S2,R) ← 5.0 + 0.5×[10 + 0 - 5.0] = 7.5

Episode	Q(S1, R)	Q(S2, R)
0	0	0
1	-0.5	5.0
2	1.5	7.5
∞	~8.0	~10.0

⏱️ Discount Factor (γ)

γ menentukan seberapa penting reward masa depan dibanding sekarang.

γ	Perilaku Agen	Analogi
γ = 0	Hanya reward segera (myopic)	Penghindaran tabrakan instan
γ = 0.5	Seimbang	Patroli taktis
γ = 0.9	Pertimbangkan masa depan	Strategi jangka panjang

🧬 Trend: Deep Learning (Overview)

Deep Learning: Neural network dengan banyak hidden layers untuk representasi data hierarkis.

Arsitektur	Aplikasi	Contoh Pertahanan
CNN	Computer Vision	Deteksi objek citra satelit
RNN/LSTM	Sequence data	Analisis SIGINT
Transformer	NLP, multimodal	Analisis intelijen teks
Deep RL	Decision making	Autonomous drone navigation

📌 Akan diperdalam di mata kuliah Machine Learning (Semester 5)

🧠 Quiz Time!

Pertanyaan 1:

K-Means memerlukan parameter apa yang harus ditentukan di awal?

A. Learning rate (α)

B. Jumlah iterasi maksimal

C. Jumlah klaster (K) ✅

D. Jenis linkage

💡 Elbow Method dan Silhouette Score dapat membantu menentukan K optimal

🧠 Quiz Time!

Pertanyaan 2:

Dalam RL, sinyal feedback numerik yang diterima agen setelah mengambil tindakan disebut?

A. Policy

B. Value function

C. State transition

D. Reward ✅

🧠 Quiz Time!

Pertanyaan 3:

Paradigma ML mana yang paling sesuai untuk mengelompokkan sinyal komunikasi musuh yang terintersepsi tanpa label?

A. Supervised Learning

B. Unsupervised Learning ✅

C. Reinforcement Learning

D. Transfer Learning

💡 Data tanpa label + cari kelompok alami = Unsupervised (Clustering)

📝 Ringkasan

Konsep	Poin Kunci
Unsupervised Learning	Data tanpa label, temukan pola
K-Means	Partisi data ke K klaster via centroid
Hierarchical	Dendrogram, tidak perlu K di awal
Evaluasi	Elbow Method (WCSS), Silhouette Score
PCA	Reduksi dimensi, pertahankan variansi
RL	Agen belajar dari reward
MDP	(S, A, T, R, γ)
Q-Learning	Model-free, pelajari Q(s,a)

📅 Pertemuan Berikutnya

Pertemuan 15: Etika AI, Keamanan, dan Review Komprehensif

Persiapan Ujian Akhir Semester

Bias algoritmik dan fairness
AI safety dan alignment problem
AI dalam konteks pertahanan
Review komprehensif seluruh materi
Latihan soal UAS

📚 Referensi

Russell, S. & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th Ed.). Pearson. Chapter 19-22
Mitchell, T. (1997). Machine Learning. McGraw-Hill. Chapter 13.
Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer. Chapter 9.
Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd Ed.). MIT Press.

Terima Kasih