Mata Kuliah: Kecerdasan Artifisial (AI401) | 3 SKS
Setelah pertemuan ini, mahasiswa mampu:
Supervised Learning: Belajar dari data berlabel (input โ output yang diketahui)
| Konsep | Keterangan |
|---|---|
| Decision Tree | Klasifikasi dengan information gain |
| Naive Bayes | Klasifikasi probabilistik |
| Regresi Linear | Prediksi nilai kontinu |
| Evaluasi | Accuracy, precision, recall, F1 |
โ Bagaimana jika data tidak memiliki label?
Data: (x, y) โ
Tujuan: Prediksi y baru
Data: (x) saja โ
Tujuan: Temukan pola
Gambar 1: Prinsip clustering โ intra-cluster similarity tinggi, inter-cluster similarity rendah
๐ Jarak Euclidean: d(x, y) = โ(ฮฃ(xแตข - yแตข)ยฒ)
Data:
| Titik | x | y |
|---|---|---|
| A | 1 | 2 |
| B | 2 | 1 |
| C | 4 | 5 |
| D | 5 | 4 |
| E | 3 | 3 |
Centroid awal: ฮผโ = (1, 1), ฮผโ = (5, 5)
| Titik | d(titik, ฮผโ) | d(titik, ฮผโ) | Klaster |
|---|---|---|---|
| A(1,2) | 1.00 | 5.00 | Cโ |
| B(2,1) | 1.00 | 5.00 | Cโ |
| C(4,5) | 5.00 | 1.00 | Cโ |
| D(5,4) | 5.00 | 1.00 | Cโ |
| E(3,3) | 2.83 | 2.83 | Cโ |
ฮผโ = ((1+2+3)/3, (2+1+3)/3)
ฮผโ = (2.0, 2.0)
ฮผโ = ((4+5)/2, (5+4)/2)
ฮผโ = (4.5, 4.5)
Centroid berubah dari (1,1)โ(2,2) dan (5,5)โ(4.5,4.5) โ Lanjut iterasi!
Iterasi 2: Dengan ฮผโ=(2,2), ฮผโ=(4.5,4.5)
| Titik | d(titik, ฮผโ) | d(titik, ฮผโ) | Klaster |
|---|---|---|---|
| A(1,2) | 1.00 | 4.30 | Cโ |
| B(2,1) | 1.00 | 4.30 | Cโ |
| C(4,5) | 3.61 | 0.71 | Cโ |
| D(5,4) | 3.61 | 0.71 | Cโ |
| E(3,3) | 1.41 | 2.12 | Cโ |
Assignment tidak berubah โ Centroid tetap โ Konvergen! โ
Gambar 2: Grafik elbow method โ K optimal di titik siku
| K | WCSS | Penurunan | % Penurunan |
|---|---|---|---|
| 1 | 500 | โ | โ |
| 2 | 200 | 300 | 60% |
| 3 | 100 | 100 | 50% |
| 3โ4 | 80 | 20 | 20% โ Siku! |
| 5 | 75 | 5 | 6% |
| 6 | 72 | 3 | 4% |
K optimal = 3 (penurunan drastis berkurang setelahnya)
s(i) = (b(i) - a(i)) / max(a(i), b(i))
| Nilai s(i) | Interpretasi |
|---|---|
| โ +1 | Sangat cocok dengan klasternya โ |
| โ 0 | Di batas dua klaster โ ๏ธ |
| โ -1 | Mungkin salah klaster โ |
Mulai dari n klaster โ gabung yang terdekat
Mulai dari 1 klaster โ pecah iteratif
| Metode | Jarak Antar Klaster | Karakteristik |
|---|---|---|
| Single | Minimum distance | Rawan chaining |
| Complete | Maksimum distance | Klaster kompak |
| Average | Rata-rata distance | Kompromi |
| Aspek | K-Means | Hierarchical |
|---|---|---|
| Input K | Harus ditentukan | Tidak perlu |
| Kompleksitas | O(nKt) | O(nยณ) |
| Bentuk klaster | Spherical | Fleksibel |
| Scalability | โ Baik | โ ๏ธ Kurang |
| Deterministik | โ Tidak | โ Ya |
๐๏ธ Pertahanan: Reduksi 50 sensor surveillance โ 5-10 komponen utama untuk pemrosesan real-time
Belajar dari Interaksi dan Reward
Gambar 3: Siklus interaksi agen-lingkungan dalam RL
| Komponen | Simbol | Deskripsi |
|---|---|---|
| Agent | โ | Entitas yang belajar |
| Environment | โ | Dunia tempat agen berinteraksi |
| State | sโ | Situasi saat ini |
| Action | aโ | Tindakan yang diambil |
| Reward | rโ | Sinyal feedback numerik |
| Policy | ฯ(s) | Strategi: state โ action |
| Value Function | V(s) | Estimasi reward kumulatif |
| Komponen | Drone Menghindari Rintangan |
|---|---|
| Agent | Drone otonom |
| State | Posisi (x,y,z), kecepatan, jarak rintangan |
| Action | Naik, turun, belok kiri/kanan, hover |
| Reward | +1 terbang aman, -100 tabrakan, +10 sampai tujuan |
| Policy | "Jika rintangan di depan โ belok kiri" |
Gambar 4: Perbandingan supervised, unsupervised, dan reinforcement learning
| Aspek | Supervised | Unsupervised | Reinforcement |
|---|---|---|---|
| Data | Berlabel (x, y) | Tanpa label (x) | Interaksi (s, a, r) |
| Feedback | Langsung (label) | Tidak ada | Delayed (reward) |
| Tujuan | Prediksi | Temukan pola | Maks. reward |
| Algoritma | Decision Tree, NB | K-Means, PCA | Q-Learning |
| Pertahanan | Klasifikasi citra | Clustering sinyal | Strategi drone |
| Komponen | Deskripsi |
|---|---|
| S | Himpunan state |
| A | Himpunan action |
| T(s'|s,a) | Fungsi transisi (probabilitas) |
| R(s,a,s') | Fungsi reward |
| ฮณ | Discount factor (0 โค ฮณ โค 1) |
Markov Property: Masa depan hanya bergantung pada state saat ini, bukan pada sejarah.
P(st+1 | st, at) โ cukup!
๐ก Analogi: Dalam catur, posisi papan saat ini berisi semua informasi yang relevan โ tidak perlu tahu urutan langkah sebelumnya.
Grid:
| S1 | S2 |
| S3 | S4 โญ |
S4 = Goal (reward +10)
Setiap langkah: reward -1
S = {S1, S2, S3, S4}
A = {U, D, L, R}
R = -1/langkah, +10 di S4
ฮณ = 0.9
Strategi: "di state s, lakukan action a"
Contoh: S1โR, S2โD, S3โR
Expected cumulative reward dari state s mengikuti policy ฯ
V(S2) = +10 (1 langkah ke goal)
V(S1) = -1 + 0.9ร10 = 8.0
Mencoba aksi baru
Pro: Temukan strategi lebih baik
Con: Reward rendah sementara
Gunakan pengetahuan terbaik
Pro: Reward tinggi segera
Con: Terjebak sub-optimal
๐๏ธ Analogi: Drone patroli โ selalu rute sama (exploitation) vs coba rute baru (exploration). Solusi: ฮต-greedy
Update Rule:
Q(s,a) โ Q(s,a) + ฮฑ[r + ฮณ maxa' Q(s',a') - Q(s,a)]
Gambar 5: Flowchart algoritma Q-Learning
Grid 1ร3: S1 โ S2 โ S3(Goal)
Actions: Left (L), Right (R)
Reward: -1 per langkah, +10 di S3
ฮฑ = 0.5, ฮณ = 0.9
Q-Table awal:
| State | Q(s, L) | Q(s, R) |
|---|---|---|
| S1 | 0 | 0 |
| S2 | 0 | 0 |
Path: S1 โRโ S2 โRโ S3
Step 1: S1 โRโ S2, reward = -1
Q(S1,R) โ 0 + 0.5ร[-1 + 0.9รmax(0,0) - 0] = -0.5
Step 2: S2 โRโ S3(goal), reward = +10
Q(S2,R) โ 0 + 0.5ร[10 + 0 - 0] = 5.0
| State | Q(s, L) | Q(s, R) |
|---|---|---|
| S1 | 0 | -0.5 |
| S2 | 0 | 5.0 |
Path: S1 โRโ S2 โRโ S3 (lagi)
Step 1: Q(S1,R) โ -0.5 + 0.5ร[-1 + 0.9ร5.0 + 0.5] = 1.5
Step 2: Q(S2,R) โ 5.0 + 0.5ร[10 + 0 - 5.0] = 7.5
| Episode | Q(S1, R) | Q(S2, R) |
|---|---|---|
| 0 | 0 | 0 |
| 1 | -0.5 | 5.0 |
| 2 | 1.5 | 7.5 |
| โ | ~8.0 | ~10.0 |
| ฮณ | Perilaku Agen | Analogi |
|---|---|---|
| ฮณ = 0 | Hanya reward segera (myopic) | Penghindaran tabrakan instan |
| ฮณ = 0.5 | Seimbang | Patroli taktis |
| ฮณ = 0.9 | Pertimbangkan masa depan | Strategi jangka panjang |
| Arsitektur | Aplikasi | Contoh Pertahanan |
|---|---|---|
| CNN | Computer Vision | Deteksi objek citra satelit |
| RNN/LSTM | Sequence data | Analisis SIGINT |
| Transformer | NLP, multimodal | Analisis intelijen teks |
| Deep RL | Decision making | Autonomous drone navigation |
๐ Akan diperdalam di mata kuliah Machine Learning (Semester 5)
Pertanyaan 1:
K-Means memerlukan parameter apa yang harus ditentukan di awal?
๐ก Elbow Method dan Silhouette Score dapat membantu menentukan K optimal
Pertanyaan 2:
Dalam RL, sinyal feedback numerik yang diterima agen setelah mengambil tindakan disebut?
Pertanyaan 3:
Paradigma ML mana yang paling sesuai untuk mengelompokkan sinyal komunikasi musuh yang terintersepsi tanpa label?
๐ก Data tanpa label + cari kelompok alami = Unsupervised (Clustering)
| Konsep | Poin Kunci |
|---|---|
| Unsupervised Learning | Data tanpa label, temukan pola |
| K-Means | Partisi data ke K klaster via centroid |
| Hierarchical | Dendrogram, tidak perlu K di awal |
| Evaluasi | Elbow Method (WCSS), Silhouette Score |
| PCA | Reduksi dimensi, pertahankan variansi |
| RL | Agen belajar dari reward |
| MDP | (S, A, T, R, ฮณ) |
| Q-Learning | Model-free, pelajari Q(s,a) |
Persiapan Ujian Akhir Semester
Pertemuan 14: Unsupervised Learning & Reinforcement Learning
Ada pertanyaan?