Kecerdasan Artifisial

Pertemuan 13

Pembelajaran Mesin - Supervised Learning

Mata Kuliah: Kecerdasan Artifisial (AI401) | 3 SKS

🎯 Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

Menjelaskan tiga paradigma pembelajaran mesin
Menghitung entropy dan information gain
Mengimplementasikan algoritma ID3 untuk decision tree
Menerapkan Naive Bayes classifier
Menjelaskan konsep regresi linear
Mengevaluasi model dengan metrik dan cross-validation

📋 Agenda Hari Ini

Bagian 1

Paradigma Machine Learning
Decision Tree
Entropy & Information Gain
Algoritma ID3

Bagian 2

Naive Bayes Classifier
Regresi Linear
Evaluasi Model
Cross-Validation

🤖 Apa itu Machine Learning?

Machine Learning adalah cabang AI yang memungkinkan sistem komputer belajar dan meningkatkan kinerja dari pengalaman (data) tanpa diprogram secara eksplisit.

Definisi Tom Mitchell (1997):

Program belajar dari pengalaman E terhadap tugas T dengan ukuran kinerja P, jika kinerjanya pada T meningkat seiring E.

📊 Contoh T, P, E

Sistem Deteksi Ancaman Radar:

Komponen	Deskripsi
Task (T)	Klasifikasi sinyal radar: ancaman atau bukan
Performance (P)	Akurasi klasifikasi pada data uji
Experience (E)	Database sinyal radar historis yang sudah dilabeli

🔄 Tiga Paradigma Machine Learning

Gambar 1.1: Tiga paradigma utama dalam pembelajaran mesin

Perbandingan Paradigma ML

Aspek	Supervised	Unsupervised	Reinforcement
Data	Berlabel (input + output)	Tanpa label	Reward/punishment
Tujuan	Prediksi output baru	Temukan pola/struktur	Maksimalkan reward
Contoh	Klasifikasi, regresi	Clustering, dimensionality reduction	Game AI, robotika
Militer	Deteksi ancaman radar	Segmentasi sinyal SIGINT	Navigasi drone otonom

📦 Komponen Supervised Learning

Komponen	Deskripsi	Contoh
Features (X)	Atribut input	Kecepatan, altitude, RCS
Label (Y)	Output yang diprediksi	Ancaman / Bukan
Training Set	Data untuk melatih model	80% data historis
Test Set	Data untuk menguji model	20% data historis

🌳 Decision Tree (Pohon Keputusan)

Decision Tree adalah model prediktif yang menggunakan struktur pohon untuk mengambil keputusan berdasarkan serangkaian aturan IF-THEN.

Komponen utama:

Root node — atribut pertama untuk split
Internal node — pengujian atribut
Branch — hasil pengujian
Leaf node — keputusan akhir (kelas)

🌳 Contoh Decision Tree

Gambar 2.1: Struktur Decision Tree untuk klasifikasi ancaman radar

📐 Entropy (Ketidakpastian)

Entropy mengukur tingkat ketidakpastian (impurity) dalam suatu dataset.

H(S) = -∑ p_i log₂(p_i)

H(S) = 0 → semua data kelas sama (murni)
H(S) = 1 → data terbagi rata 50:50 (maksimal ketidakpastian)

📈 Grafik Entropy

Gambar 2.2: Kurva entropy untuk klasifikasi biner

Entropy maksimum saat distribusi merata (p = 0.5)

🔢 Contoh Perhitungan Entropy

Dataset: 14 sinyal radar → 9 Ancaman, 5 Aman

H(S) = -(9/14) log₂(9/14) - (5/14) log₂(5/14)

H(S) = -(0.643)(−0.637) − (0.357)(−1.486)

H(S) = 0.410 + 0.531 = 0.940

⚠️ Entropy tinggi (mendekati 1) → perlu atribut yang baik untuk memisahkan data!

📊 Information Gain

Information Gain mengukur seberapa baik suatu atribut memisahkan data ke dalam kelas-kelas yang lebih murni.

Gain(S, A) = H(S) − ∑_{v∈Values(A)} (|S_v|/|S|) × H(S_v)

Atribut dengan information gain tertinggi dipilih sebagai node berikutnya!

🔢 Contoh Information Gain

Atribut "Kecepatan" (Tinggi/Rendah) pada 14 data:

Kecepatan	Ancaman	Aman	Total	Entropy
Tinggi	7	1	8	0.544
Rendah	2	4	6	0.918

Gain = 0.940 − (8/14)(0.544) − (6/14)(0.918)

Gain = 0.940 − 0.311 − 0.394 = 0.235

⚙️ Algoritma ID3

Langkah-langkah membangun decision tree:

Hitung entropy keseluruhan dataset
Hitung information gain untuk setiap atribut
Pilih atribut dengan gain tertinggi sebagai node
Partisi dataset berdasarkan nilai atribut
Ulangi rekursif untuk setiap subset
Berhenti jika: semua data satu kelas, atau tidak ada atribut tersisa

💻 Pseudocode ID3


def ID3(data, attributes, target):
    # Base cases
    if all_same_class(data, target):
        return Leaf(majority_class)
    if attributes is empty:
        return Leaf(majority_class)
    
    # Pilih atribut terbaik
    best = argmax(information_gain(data, a) 
                  for a in attributes)
    tree = Node(best)
    
    # Rekursi untuk setiap nilai
    for value in best.values:
        subset = data[best == value]
        if subset is empty:
            tree.add(Leaf(majority_class))
        else:
            tree.add(ID3(subset, 
                    attributes - {best}, target))
    return tree

⚠️ Overfitting dan Underfitting

Gambar 2.3: Ilustrasi overfitting vs underfitting

Overfitting: Model terlalu "hafal" data training, gagal di data baru

Underfitting: Model terlalu sederhana, tidak menangkap pola

✂️ Teknik Pruning

Solusi untuk mengatasi overfitting pada decision tree:

Pre-Pruning

Batasi kedalaman maksimum
Minimum sampel per leaf
Threshold information gain

                            Post-Pruning
                            Bangun tree lengkap dulu
Hapus subtree yang tidak signifikan
Reduced error pruning

                        

🔧 ID3 → C4.5

C4.5 (oleh Ross Quinlan) memperbaiki kelemahan ID3:

Aspek	ID3	C4.5
Atribut numerik	❌ Hanya kategorikal	✅ Threshold splitting
Missing values	❌ Tidak bisa	✅ Distribusi probabilistik
Pruning	❌ Tidak ada	✅ Error-based pruning
Kriteria split	Information Gain	Gain Ratio

📧 Naive Bayes Classifier

Naive Bayes adalah classifier probabilistik berdasarkan Teorema Bayes dengan asumsi independensi antar fitur.

P(C|X) = P(X|C) × P(C) / P(X)

Asumsi "Naive":

P(x₁, x₂, ..., xₙ | C) = P(x₁|C) × P(x₂|C) × ... × P(xₙ|C)

📧 Contoh: Klasifikasi Email Militer

Klasifikasi email: Spam atau Bukan Spam

Kata	P(kata\|Spam)	P(kata\|Bukan)
"gratis"	0.8	0.1
"operasi"	0.2	0.7
"klik"	0.7	0.05

Email baru mengandung: "gratis", "klik"

P(Spam) = 0.3, P(Bukan) = 0.7

🔢 Perhitungan Naive Bayes

P(Spam | "gratis", "klik"):

∝ P(Spam) × P("gratis"|Spam) × P("klik"|Spam)

= 0.3 × 0.8 × 0.7 = 0.168

P(Bukan | "gratis", "klik"):

∝ P(Bukan) × P("gratis"|Bukan) × P("klik"|Bukan)

= 0.7 × 0.1 × 0.05 = 0.0035

Normalisasi: P(Spam) = 0.168 / (0.168 + 0.0035) = 97.96%

→ Klasifikasi: SPAM ✉️

🧮 Laplace Smoothing

Masalah Zero Probability: Jika P(kata|kelas) = 0, maka seluruh produk menjadi 0!

Solusi - Laplace Smoothing:

P(xᵢ|C) = (count(xᵢ, C) + α) / (count(C) + α × |V|)

α = parameter smoothing (biasanya 1), |V| = jumlah nilai unik

📈 Regresi Linear

Regresi Linear memodelkan hubungan linear antara variabel input (X) dan output kontinu (Y).

ŷ = w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ

Perbedaan dari Klasifikasi:

Klasifikasi: Output diskret (kelas)
Regresi: Output kontinu (angka)

📏 Metode Least Squares

Tujuan: Minimumkan Sum of Squared Errors (SSE)

SSE = ∑(yᵢ − ŷᵢ)²

Rumus untuk regresi linear sederhana (ŷ = w₀ + w₁x):

w₁ = [n∑xᵢyᵢ − ∑xᵢ∑yᵢ] / [n∑xᵢ² − (∑xᵢ)²]

w₀ = ȳ − w₁x̄

🎯 Contoh: Jam Latihan vs Akurasi Tembak

Jam Latihan (x)	Akurasi % (y)
2	55
4	65
6	72
8	80
10	88

Hasil: ŷ = 44.6 + 4.2x

Prediksi untuk 7 jam latihan: ŷ = 44.6 + 4.2(7) = 74.0%

⛰️ Gradient Descent

Gambar 4.1: Ilustrasi gradient descent mencari minimum cost function

Aturan update: w ← w − α × ∂J/∂w

α = learning rate (kecepatan belajar)

📊 Confusion Matrix

Gambar 5.1: Struktur Confusion Matrix 2×2

	Prediksi: Positif	Prediksi: Negatif
Aktual: Positif	TP (True Positive)	FN (False Negative)
Aktual: Negatif	FP (False Positive)	TN (True Negative)

📏 Metrik Evaluasi

Metrik	Rumus	Fokus
Accuracy	(TP + TN) / Total	Kebenaran keseluruhan
Precision	TP / (TP + FP)	Ketepatan prediksi positif
Recall	TP / (TP + FN)	Cakupan data positif
F1-Score	2 × (P×R) / (P+R)	Harmonic mean P & R

🎖️ Contoh: Deteksi Rudal

Sistem deteksi rudal: TP=85, FP=10, FN=15, TN=890

Metrik	Perhitungan	Nilai
Accuracy	(85+890)/1000	97.5%
Precision	85/(85+10)	89.5%
Recall	85/(85+15)	85.0%
F1-Score	2(0.895×0.85)/(0.895+0.85)	87.2%

⚠️ Dalam pertahanan, Recall lebih penting! FN = rudal tidak terdeteksi = berbahaya!

🎯 Kapan Menggunakan Metrik Mana?

Konteks	Metrik Utama	Alasan
🚀 Deteksi rudal	Recall	Jangan lewatkan ancaman!
📧 Filter spam	Precision	Jangan buang email penting!
🏥 Diagnosis medis	F1-Score	Seimbangkan keduanya
📊 Data seimbang	Accuracy	Distribusi kelas merata

🔄 Cross-Validation

Cross-validation adalah teknik untuk mengevaluasi model dengan membagi data menjadi beberapa fold untuk training dan testing secara bergantian.

Tujuan:

Mengurangi bias dari single train-test split
Mengukur stabilitas model
Mendeteksi overfitting

📊 K-Fold Cross-Validation

Gambar 6.1: Ilustrasi 5-fold cross-validation

Kinerja akhir = rata-rata akurasi dari semua fold

Standar industri: k = 5 atau k = 10

📊 Stratified K-Fold

Masalah: Data tidak seimbang (misal 95% kelas A, 5% kelas B) → fold mungkin tidak representatif

Solusi: Stratified K-Fold memastikan setiap fold memiliki proporsi kelas yang sama dengan dataset asli

Contoh: Dataset 100 data (90 Aman, 10 Ancaman)

Setiap fold dari 5-fold: 18 Aman + 2 Ancaman = 20 data

🧠 Quiz Time!

Pertanyaan 1:

Jika entropy suatu dataset = 0, artinya:

A. Data terdistribusi merata antar kelas

B. Dataset kosong

C. Semua data berasal dari kelas yang sama ✅

D. Algoritma gagal konvergen

💡 Entropy = 0 berarti dataset sudah murni (pure), tidak ada ketidakpastian

🧠 Quiz Time!

Pertanyaan 2:

Dalam sistem deteksi ancaman, metrik mana yang paling penting?

A. Accuracy

B. Precision

C. Recall ✅

D. Specificity

💡 Recall tinggi = meminimalkan False Negative (ancaman yang tidak terdeteksi)

🧠 Quiz Time!

Pertanyaan 3:

Apa tujuan utama Laplace smoothing pada Naive Bayes?

A. Meningkatkan akurasi model secara signifikan

B. Mengatasi masalah zero probability ✅

C. Mengurangi jumlah fitur

D. Mempercepat waktu training

📝 Ringkasan

Konsep	Poin Kunci
Paradigma ML	Supervised, Unsupervised, Reinforcement
Decision Tree	Entropy → Information Gain → ID3
Naive Bayes	P(C\|X) ∝ P(X\|C) × P(C) + Laplace smoothing
Regresi Linear	ŷ = w₀ + w₁x, metode least squares
Evaluasi	Accuracy, Precision, Recall, F1-Score
Cross-Validation	K-fold, Stratified K-fold

📅 Pertemuan Berikutnya

Pertemuan 14: Unsupervised Learning & Reinforcement Learning

Pembelajaran Mesin Lanjutan

K-Means Clustering
Hierarchical Clustering
Dimensionality Reduction (PCA)
Reinforcement Learning & Q-Learning

📚 Referensi

Russell, S. & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th Ed.). Pearson. Chapter 19
Mitchell, T. (1997). Machine Learning. McGraw-Hill. Chapter 3
Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer. Chapter 4
CS188 Berkeley AI Materials: https://inst.eecs.berkeley.edu/~cs188/

Terima Kasih

🤖 Kecerdasan Artifisial

Pertemuan 13: Pembelajaran Mesin - Supervised Learning

Ada pertanyaan?