Kecerdasan Artifisial

Pertemuan 14

Unsupervised Learning & Reinforcement Learning

Mata Kuliah: Kecerdasan Artifisial (AI401) | 3 SKS

๐ŸŽฏ Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

  1. Menjelaskan dan menerapkan algoritma K-Means clustering
  2. Memahami hierarchical clustering dan dendrogramnya
  3. Menerapkan evaluasi clustering (silhouette, elbow method)
  4. Menjelaskan konsep PCA untuk dimensionality reduction
  5. Memahami komponen reinforcement learning dan MDP
  6. Menerapkan algoritma Q-Learning pada masalah sederhana
  7. Membandingkan tiga paradigma machine learning

๐Ÿ“‹ Agenda Hari Ini

Bagian 1: Unsupervised Learning

  • Konsep Unsupervised Learning
  • K-Means Clustering
  • Hierarchical Clustering
  • Evaluasi Clustering
  • PCA (Pengenalan)

Bagian 2: Reinforcement Learning

  • Konsep RL
  • Markov Decision Process
  • Policy & Value Function
  • Q-Learning
  • Perbandingan 3 Paradigma ML

๐Ÿ“ Recap: Supervised Learning (Pertemuan 13)

Supervised Learning: Belajar dari data berlabel (input โ†’ output yang diketahui)

Konsep Keterangan
Decision Tree Klasifikasi dengan information gain
Naive Bayes Klasifikasi probabilistik
Regresi Linear Prediksi nilai kontinu
Evaluasi Accuracy, precision, recall, F1

โ“ Bagaimana jika data tidak memiliki label?

๐Ÿ” Apa itu Unsupervised Learning?

Unsupervised Learning adalah paradigma ML di mana model belajar dari data tanpa label untuk menemukan pola atau struktur tersembunyi.

Supervised

Data: (x, y) โœ…

Tujuan: Prediksi y baru

Unsupervised

Data: (x) saja โŒ

Tujuan: Temukan pola

๐Ÿ“Œ Aplikasi Unsupervised Learning

๐Ÿ  Umum

  • Segmentasi pelanggan
  • Deteksi anomali (fraud)
  • Kompresi data
  • Rekomendasi produk

๐ŸŽ–๏ธ Pertahanan

  • Clustering sinyal SIGINT
  • Deteksi pola serangan siber
  • Segmentasi citra satelit
  • Analisis trafik jaringan

๐ŸŽฏ Clustering: Konsep Dasar

Clustering: Mengelompokkan data ke dalam klaster sehingga data dalam klaster mirip, data antar klaster berbeda.
K-Means Clustering

Gambar 1: Prinsip clustering โ€” intra-cluster similarity tinggi, inter-cluster similarity rendah

โš™๏ธ Algoritma K-Means

  1. Inisialisasi: Pilih K centroid awal secara acak
  2. Assignment: Tetapkan setiap data ke centroid terdekat
  3. Update: Hitung centroid baru (rata-rata anggota klaster)
  4. Ulangi langkah 2-3 hingga centroid tidak berubah

๐Ÿ“ Jarak Euclidean: d(x, y) = โˆš(ฮฃ(xแตข - yแตข)ยฒ)

๐Ÿ“Š Contoh K-Means (K=2)

Data:

Titikxy
A12
B21
C45
D54
E33

Centroid awal: ฮผโ‚ = (1, 1), ฮผโ‚‚ = (5, 5)

๐Ÿ“Š K-Means: Iterasi 1 โ€” Assignment

Titikd(titik, ฮผโ‚)d(titik, ฮผโ‚‚)Klaster
A(1,2)1.005.00 Cโ‚
B(2,1)1.005.00 Cโ‚
C(4,5)5.001.00 Cโ‚‚
D(5,4)5.001.00 Cโ‚‚
E(3,3)2.832.83 Cโ‚

๐Ÿ“Š K-Means: Iterasi 1 โ€” Update Centroid

Klaster Cโ‚ = {A, B, E}

ฮผโ‚ = ((1+2+3)/3, (2+1+3)/3)

ฮผโ‚ = (2.0, 2.0)

Klaster Cโ‚‚ = {C, D}

ฮผโ‚‚ = ((4+5)/2, (5+4)/2)

ฮผโ‚‚ = (4.5, 4.5)

Centroid berubah dari (1,1)โ†’(2,2) dan (5,5)โ†’(4.5,4.5) โ†’ Lanjut iterasi!

โœ… K-Means: Konvergensi

Iterasi 2: Dengan ฮผโ‚=(2,2), ฮผโ‚‚=(4.5,4.5)

Titikd(titik, ฮผโ‚)d(titik, ฮผโ‚‚)Klaster
A(1,2)1.004.30Cโ‚
B(2,1)1.004.30Cโ‚
C(4,5)3.610.71Cโ‚‚
D(5,4)3.610.71Cโ‚‚
E(3,3)1.412.12Cโ‚

Assignment tidak berubah โ†’ Centroid tetap โ†’ Konvergen! โœ…

๐Ÿ“‹ Karakteristik K-Means

โœ… Kelebihan

  • Sederhana & cepat
  • Scalable (data besar)
  • Selalu konvergen

โš ๏ธ Kelemahan

  • Harus tentukan K
  • Sensitif inisialisasi
  • Hanya klaster spherical
  • Sensitif outlier

๐Ÿ“ Menentukan K: Elbow Method

Elbow Method: Plot WCSS vs K, cari titik "siku" di mana penurunan WCSS melambat signifikan.
Elbow Method

Gambar 2: Grafik elbow method โ€” K optimal di titik siku

๐Ÿ“ Elbow Method: Contoh

KWCSSPenurunan% Penurunan
1500โ€”โ€”
220030060%
310010050%
3โ†’4802020% โ† Siku!
57556%
67234%

K optimal = 3 (penurunan drastis berkurang setelahnya)

๐Ÿ“ Evaluasi: Silhouette Score

s(i) = (b(i) - a(i)) / max(a(i), b(i))

  • a(i) = rata-rata jarak ke anggota klaster sendiri
  • b(i) = rata-rata jarak ke klaster terdekat lain
Nilai s(i)Interpretasi
โ‰ˆ +1Sangat cocok dengan klasternya โœ…
โ‰ˆ 0Di batas dua klaster โš ๏ธ
โ‰ˆ -1Mungkin salah klaster โŒ

๐ŸŒณ Hierarchical Clustering

Membangun hierarki klaster dalam bentuk dendrogram, tanpa perlu menentukan K di awal.

โฌ†๏ธ Agglomerative (Bottom-Up)

Mulai dari n klaster โ†’ gabung yang terdekat

โฌ‡๏ธ Divisive (Top-Down)

Mulai dari 1 klaster โ†’ pecah iteratif

๐Ÿ”— Metode Linkage

MetodeJarak Antar KlasterKarakteristik
Single Minimum distance Rawan chaining
Complete Maksimum distance Klaster kompak
Average Rata-rata distance Kompromi
Dendrogram

โš–๏ธ K-Means vs Hierarchical

AspekK-MeansHierarchical
Input K Harus ditentukan Tidak perlu
Kompleksitas O(nKt) O(nยณ)
Bentuk klaster Spherical Fleksibel
Scalability โœ… Baik โš ๏ธ Kurang
Deterministik โŒ Tidak โœ… Ya

๐Ÿ“‰ PCA: Dimensionality Reduction

Principal Component Analysis (PCA): Mentransformasi data ke dimensi lebih rendah dengan mempertahankan variansi maksimal.
  • Mengurangi jumlah fitur tanpa kehilangan banyak informasi
  • Mencari arah (principal components) dengan variansi terbesar
  • Contoh: 100 fitur โ†’ 3 komponen yang menjelaskan 95% variansi

๐ŸŽ–๏ธ Pertahanan: Reduksi 50 sensor surveillance โ†’ 5-10 komponen utama untuk pemrosesan real-time

๐ŸŽฎ

Bagian 2: Reinforcement Learning

Belajar dari Interaksi dan Reward

๐Ÿค– Apa itu Reinforcement Learning?

Reinforcement Learning (RL): Agen belajar mengambil tindakan dalam lingkungan untuk memaksimalkan reward kumulatif melalui trial and error.
Reinforcement Learning Cycle

Gambar 3: Siklus interaksi agen-lingkungan dalam RL

๐Ÿงฉ Komponen Reinforcement Learning

KomponenSimbolDeskripsi
Agentโ€”Entitas yang belajar
Environmentโ€”Dunia tempat agen berinteraksi
Statesโ‚œSituasi saat ini
Actionaโ‚œTindakan yang diambil
Rewardrโ‚œSinyal feedback numerik
Policyฯ€(s)Strategi: state โ†’ action
Value FunctionV(s)Estimasi reward kumulatif

๐ŸŽ–๏ธ Contoh RL: Drone Otonom

KomponenDrone Menghindari Rintangan
AgentDrone otonom
StatePosisi (x,y,z), kecepatan, jarak rintangan
ActionNaik, turun, belok kiri/kanan, hover
Reward +1 terbang aman, -100 tabrakan, +10 sampai tujuan
Policy"Jika rintangan di depan โ†’ belok kiri"

โš–๏ธ Tiga Paradigma ML

Tiga Paradigma ML

Gambar 4: Perbandingan supervised, unsupervised, dan reinforcement learning

โš–๏ธ Perbandingan Detail

AspekSupervisedUnsupervisedReinforcement
DataBerlabel (x, y)Tanpa label (x)Interaksi (s, a, r)
FeedbackLangsung (label)Tidak adaDelayed (reward)
TujuanPrediksiTemukan polaMaks. reward
AlgoritmaDecision Tree, NBK-Means, PCAQ-Learning
PertahananKlasifikasi citraClustering sinyalStrategi drone

๐Ÿ“ Markov Decision Process (MDP)

MDP = (S, A, T, R, ฮณ) โ€” framework formal untuk pengambilan keputusan sekuensial
KomponenDeskripsi
SHimpunan state
AHimpunan action
T(s'|s,a)Fungsi transisi (probabilitas)
R(s,a,s')Fungsi reward
ฮณDiscount factor (0 โ‰ค ฮณ โ‰ค 1)

๐Ÿ”‘ Markov Property

Markov Property: Masa depan hanya bergantung pada state saat ini, bukan pada sejarah.

P(st+1 | st, at) โ€” cukup!

๐Ÿ’ก Analogi: Dalam catur, posisi papan saat ini berisi semua informasi yang relevan โ€” tidak perlu tahu urutan langkah sebelumnya.

๐Ÿ“Š Contoh MDP: Grid 2ร—2

Grid:

S1S2
S3S4 โญ

S4 = Goal (reward +10)

Setiap langkah: reward -1

S = {S1, S2, S3, S4}

A = {U, D, L, R}

R = -1/langkah, +10 di S4

ฮณ = 0.9

๐ŸŽฏ Policy dan Value Function

Policy ฯ€(s) โ†’ a

Strategi: "di state s, lakukan action a"

Contoh: S1โ†’R, S2โ†’D, S3โ†’R

Value Vฯ€(s)

Expected cumulative reward dari state s mengikuti policy ฯ€

V(S2) = +10 (1 langkah ke goal)

V(S1) = -1 + 0.9ร—10 = 8.0

๐Ÿ”„ Exploration vs Exploitation

๐Ÿ” Exploration

Mencoba aksi baru

Pro: Temukan strategi lebih baik

Con: Reward rendah sementara

๐Ÿ’ฐ Exploitation

Gunakan pengetahuan terbaik

Pro: Reward tinggi segera

Con: Terjebak sub-optimal

๐ŸŽ–๏ธ Analogi: Drone patroli โ€” selalu rute sama (exploitation) vs coba rute baru (exploration). Solusi: ฮต-greedy

๐Ÿง  Algoritma Q-Learning

Q-Learning: Algoritma RL model-free yang mempelajari Q(s,a) โ€” expected utility dari action a di state s.

Update Rule:

Q(s,a) โ† Q(s,a) + ฮฑ[r + ฮณ maxa' Q(s',a') - Q(s,a)]

  • ฮฑ = learning rate
  • r = reward yang diterima
  • ฮณ = discount factor
  • max Q(s',a') = estimasi value terbaik dari state berikutnya

โš™๏ธ Algoritma Q-Learning

Q-Learning Flowchart

Gambar 5: Flowchart algoritma Q-Learning

๐Ÿ“Š Q-Learning: Contoh

Grid 1ร—3: S1 โ€” S2 โ€” S3(Goal)

Actions: Left (L), Right (R)

Reward: -1 per langkah, +10 di S3

ฮฑ = 0.5, ฮณ = 0.9

Q-Table awal:

StateQ(s, L)Q(s, R)
S100
S200

๐Ÿ“Š Q-Learning: Episode 1

Path: S1 โ†’Rโ†’ S2 โ†’Rโ†’ S3

Step 1: S1 โ†’Rโ†’ S2, reward = -1

Q(S1,R) โ† 0 + 0.5ร—[-1 + 0.9ร—max(0,0) - 0] = -0.5

Step 2: S2 โ†’Rโ†’ S3(goal), reward = +10

Q(S2,R) โ† 0 + 0.5ร—[10 + 0 - 0] = 5.0

StateQ(s, L)Q(s, R)
S10-0.5
S205.0

๐Ÿ“Š Q-Learning: Episode 2

Path: S1 โ†’Rโ†’ S2 โ†’Rโ†’ S3 (lagi)

Step 1: Q(S1,R) โ† -0.5 + 0.5ร—[-1 + 0.9ร—5.0 + 0.5] = 1.5

Step 2: Q(S2,R) โ† 5.0 + 0.5ร—[10 + 0 - 5.0] = 7.5

EpisodeQ(S1, R)Q(S2, R)
000
1-0.55.0
21.57.5
โˆž~8.0~10.0

โฑ๏ธ Discount Factor (ฮณ)

ฮณ menentukan seberapa penting reward masa depan dibanding sekarang.
ฮณPerilaku AgenAnalogi
ฮณ = 0 Hanya reward segera (myopic) Penghindaran tabrakan instan
ฮณ = 0.5 Seimbang Patroli taktis
ฮณ = 0.9 Pertimbangkan masa depan Strategi jangka panjang

๐Ÿงฌ Trend: Deep Learning (Overview)

Deep Learning: Neural network dengan banyak hidden layers untuk representasi data hierarkis.
ArsitekturAplikasiContoh Pertahanan
CNN Computer Vision Deteksi objek citra satelit
RNN/LSTM Sequence data Analisis SIGINT
Transformer NLP, multimodal Analisis intelijen teks
Deep RL Decision making Autonomous drone navigation

๐Ÿ“Œ Akan diperdalam di mata kuliah Machine Learning (Semester 5)

๐Ÿง  Quiz Time!

Pertanyaan 1:

K-Means memerlukan parameter apa yang harus ditentukan di awal?

A. Learning rate (ฮฑ)
B. Jumlah iterasi maksimal
C. Jumlah klaster (K) โœ…
D. Jenis linkage

๐Ÿ’ก Elbow Method dan Silhouette Score dapat membantu menentukan K optimal

๐Ÿง  Quiz Time!

Pertanyaan 2:

Dalam RL, sinyal feedback numerik yang diterima agen setelah mengambil tindakan disebut?

A. Policy
B. Value function
C. State transition
D. Reward โœ…

๐Ÿง  Quiz Time!

Pertanyaan 3:

Paradigma ML mana yang paling sesuai untuk mengelompokkan sinyal komunikasi musuh yang terintersepsi tanpa label?

A. Supervised Learning
B. Unsupervised Learning โœ…
C. Reinforcement Learning
D. Transfer Learning

๐Ÿ’ก Data tanpa label + cari kelompok alami = Unsupervised (Clustering)

๐Ÿ“ Ringkasan

KonsepPoin Kunci
Unsupervised LearningData tanpa label, temukan pola
K-MeansPartisi data ke K klaster via centroid
HierarchicalDendrogram, tidak perlu K di awal
EvaluasiElbow Method (WCSS), Silhouette Score
PCAReduksi dimensi, pertahankan variansi
RLAgen belajar dari reward
MDP(S, A, T, R, ฮณ)
Q-LearningModel-free, pelajari Q(s,a)

๐Ÿ“… Pertemuan Berikutnya

Pertemuan 15: Etika AI, Keamanan, dan Review Komprehensif

Persiapan Ujian Akhir Semester

  • Bias algoritmik dan fairness
  • AI safety dan alignment problem
  • AI dalam konteks pertahanan
  • Review komprehensif seluruh materi
  • Latihan soal UAS

๐Ÿ“š Referensi

  1. Russell, S. & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th Ed.). Pearson. Chapter 19-22
  2. Mitchell, T. (1997). Machine Learning. McGraw-Hill. Chapter 13.
  3. Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer. Chapter 9.
  4. Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd Ed.). MIT Press.

Terima Kasih

๐Ÿค– Kecerdasan Artifisial

Pertemuan 14: Unsupervised Learning & Reinforcement Learning


Ada pertanyaan?