Kecerdasan Artifisial

Pertemuan 13

Pembelajaran Mesin - Supervised Learning

Mata Kuliah: Kecerdasan Artifisial (AI401) | 3 SKS

๐ŸŽฏ Capaian Pembelajaran

Setelah pertemuan ini, mahasiswa mampu:

  1. Menjelaskan tiga paradigma pembelajaran mesin
  2. Menghitung entropy dan information gain
  3. Mengimplementasikan algoritma ID3 untuk decision tree
  4. Menerapkan Naive Bayes classifier
  5. Menjelaskan konsep regresi linear
  6. Mengevaluasi model dengan metrik dan cross-validation

๐Ÿ“‹ Agenda Hari Ini

Bagian 1

  • Paradigma Machine Learning
  • Decision Tree
  • Entropy & Information Gain
  • Algoritma ID3

Bagian 2

  • Naive Bayes Classifier
  • Regresi Linear
  • Evaluasi Model
  • Cross-Validation

๐Ÿค– Apa itu Machine Learning?

Machine Learning adalah cabang AI yang memungkinkan sistem komputer belajar dan meningkatkan kinerja dari pengalaman (data) tanpa diprogram secara eksplisit.

Definisi Tom Mitchell (1997):

Program belajar dari pengalaman E terhadap tugas T dengan ukuran kinerja P, jika kinerjanya pada T meningkat seiring E.

๐Ÿ“Š Contoh T, P, E

Sistem Deteksi Ancaman Radar:

Komponen Deskripsi
Task (T) Klasifikasi sinyal radar: ancaman atau bukan
Performance (P) Akurasi klasifikasi pada data uji
Experience (E) Database sinyal radar historis yang sudah dilabeli

๐Ÿ”„ Tiga Paradigma Machine Learning

Tiga Paradigma ML

Gambar 1.1: Tiga paradigma utama dalam pembelajaran mesin

Perbandingan Paradigma ML

Aspek Supervised Unsupervised Reinforcement
Data Berlabel (input + output) Tanpa label Reward/punishment
Tujuan Prediksi output baru Temukan pola/struktur Maksimalkan reward
Contoh Klasifikasi, regresi Clustering, dimensionality reduction Game AI, robotika
Militer Deteksi ancaman radar Segmentasi sinyal SIGINT Navigasi drone otonom

๐Ÿ“ฆ Komponen Supervised Learning

Komponen Deskripsi Contoh
Features (X) Atribut input Kecepatan, altitude, RCS
Label (Y) Output yang diprediksi Ancaman / Bukan
Training Set Data untuk melatih model 80% data historis
Test Set Data untuk menguji model 20% data historis

๐ŸŒณ Decision Tree (Pohon Keputusan)

Decision Tree adalah model prediktif yang menggunakan struktur pohon untuk mengambil keputusan berdasarkan serangkaian aturan IF-THEN.

Komponen utama:

  • Root node โ€” atribut pertama untuk split
  • Internal node โ€” pengujian atribut
  • Branch โ€” hasil pengujian
  • Leaf node โ€” keputusan akhir (kelas)

๐ŸŒณ Contoh Decision Tree

Struktur Decision Tree

Gambar 2.1: Struktur Decision Tree untuk klasifikasi ancaman radar

๐Ÿ“ Entropy (Ketidakpastian)

Entropy mengukur tingkat ketidakpastian (impurity) dalam suatu dataset.

H(S) = -โˆ‘ pi logโ‚‚(pi)

  • H(S) = 0 โ†’ semua data kelas sama (murni)
  • H(S) = 1 โ†’ data terbagi rata 50:50 (maksimal ketidakpastian)

๐Ÿ“ˆ Grafik Entropy

Grafik Entropy

Gambar 2.2: Kurva entropy untuk klasifikasi biner

Entropy maksimum saat distribusi merata (p = 0.5)

๐Ÿ”ข Contoh Perhitungan Entropy

Dataset: 14 sinyal radar โ†’ 9 Ancaman, 5 Aman

H(S) = -(9/14) logโ‚‚(9/14) - (5/14) logโ‚‚(5/14)

H(S) = -(0.643)(โˆ’0.637) โˆ’ (0.357)(โˆ’1.486)

H(S) = 0.410 + 0.531 = 0.940

โš ๏ธ Entropy tinggi (mendekati 1) โ†’ perlu atribut yang baik untuk memisahkan data!

๐Ÿ“Š Information Gain

Information Gain mengukur seberapa baik suatu atribut memisahkan data ke dalam kelas-kelas yang lebih murni.

Gain(S, A) = H(S) โˆ’ โˆ‘vโˆˆValues(A) (|Sv|/|S|) ร— H(Sv)

Atribut dengan information gain tertinggi dipilih sebagai node berikutnya!

๐Ÿ”ข Contoh Information Gain

Atribut "Kecepatan" (Tinggi/Rendah) pada 14 data:

Kecepatan Ancaman Aman Total Entropy
Tinggi 7 1 8 0.544
Rendah 2 4 6 0.918

Gain = 0.940 โˆ’ (8/14)(0.544) โˆ’ (6/14)(0.918)

Gain = 0.940 โˆ’ 0.311 โˆ’ 0.394 = 0.235

โš™๏ธ Algoritma ID3

Langkah-langkah membangun decision tree:

  1. Hitung entropy keseluruhan dataset
  2. Hitung information gain untuk setiap atribut
  3. Pilih atribut dengan gain tertinggi sebagai node
  4. Partisi dataset berdasarkan nilai atribut
  5. Ulangi rekursif untuk setiap subset
  6. Berhenti jika: semua data satu kelas, atau tidak ada atribut tersisa

๐Ÿ’ป Pseudocode ID3


def ID3(data, attributes, target):
    # Base cases
    if all_same_class(data, target):
        return Leaf(majority_class)
    if attributes is empty:
        return Leaf(majority_class)
    
    # Pilih atribut terbaik
    best = argmax(information_gain(data, a) 
                  for a in attributes)
    tree = Node(best)
    
    # Rekursi untuk setiap nilai
    for value in best.values:
        subset = data[best == value]
        if subset is empty:
            tree.add(Leaf(majority_class))
        else:
            tree.add(ID3(subset, 
                    attributes - {best}, target))
    return tree
                

โš ๏ธ Overfitting dan Underfitting

Overfitting vs Underfitting

Gambar 2.3: Ilustrasi overfitting vs underfitting

Overfitting: Model terlalu "hafal" data training, gagal di data baru
Underfitting: Model terlalu sederhana, tidak menangkap pola

โœ‚๏ธ Teknik Pruning

Solusi untuk mengatasi overfitting pada decision tree:

Pre-Pruning

  • Batasi kedalaman maksimum
  • Minimum sampel per leaf
  • Threshold information gain

Post-Pruning

  • Bangun tree lengkap dulu
  • Hapus subtree yang tidak signifikan
  • Reduced error pruning

๐Ÿ”ง ID3 โ†’ C4.5

C4.5 (oleh Ross Quinlan) memperbaiki kelemahan ID3:

Aspek ID3 C4.5
Atribut numerik โŒ Hanya kategorikal โœ… Threshold splitting
Missing values โŒ Tidak bisa โœ… Distribusi probabilistik
Pruning โŒ Tidak ada โœ… Error-based pruning
Kriteria split Information Gain Gain Ratio

๐Ÿ“ง Naive Bayes Classifier

Naive Bayes adalah classifier probabilistik berdasarkan Teorema Bayes dengan asumsi independensi antar fitur.

P(C|X) = P(X|C) ร— P(C) / P(X)

Asumsi "Naive":

P(xโ‚, xโ‚‚, ..., xโ‚™ | C) = P(xโ‚|C) ร— P(xโ‚‚|C) ร— ... ร— P(xโ‚™|C)

๐Ÿ“ง Contoh: Klasifikasi Email Militer

Klasifikasi email: Spam atau Bukan Spam

Kata P(kata|Spam) P(kata|Bukan)
"gratis" 0.8 0.1
"operasi" 0.2 0.7
"klik" 0.7 0.05

Email baru mengandung: "gratis", "klik"

P(Spam) = 0.3, P(Bukan) = 0.7

๐Ÿ”ข Perhitungan Naive Bayes

P(Spam | "gratis", "klik"):

โˆ P(Spam) ร— P("gratis"|Spam) ร— P("klik"|Spam)

= 0.3 ร— 0.8 ร— 0.7 = 0.168

P(Bukan | "gratis", "klik"):

โˆ P(Bukan) ร— P("gratis"|Bukan) ร— P("klik"|Bukan)

= 0.7 ร— 0.1 ร— 0.05 = 0.0035

Normalisasi: P(Spam) = 0.168 / (0.168 + 0.0035) = 97.96%

โ†’ Klasifikasi: SPAM โœ‰๏ธ

๐Ÿงฎ Laplace Smoothing

Masalah Zero Probability: Jika P(kata|kelas) = 0, maka seluruh produk menjadi 0!

Solusi - Laplace Smoothing:

P(xแตข|C) = (count(xแตข, C) + ฮฑ) / (count(C) + ฮฑ ร— |V|)

ฮฑ = parameter smoothing (biasanya 1), |V| = jumlah nilai unik

๐Ÿ“ˆ Regresi Linear

Regresi Linear memodelkan hubungan linear antara variabel input (X) dan output kontinu (Y).

ลท = wโ‚€ + wโ‚xโ‚ + wโ‚‚xโ‚‚ + ... + wโ‚™xโ‚™

Perbedaan dari Klasifikasi:

  • Klasifikasi: Output diskret (kelas)
  • Regresi: Output kontinu (angka)

๐Ÿ“ Metode Least Squares

Tujuan: Minimumkan Sum of Squared Errors (SSE)

SSE = โˆ‘(yแตข โˆ’ ลทแตข)ยฒ

Rumus untuk regresi linear sederhana (ลท = wโ‚€ + wโ‚x):

wโ‚ = [nโˆ‘xแตขyแตข โˆ’ โˆ‘xแตขโˆ‘yแตข] / [nโˆ‘xแตขยฒ โˆ’ (โˆ‘xแตข)ยฒ]

wโ‚€ = ศณ โˆ’ wโ‚xฬ„

๐ŸŽฏ Contoh: Jam Latihan vs Akurasi Tembak

Jam Latihan (x) Akurasi % (y)
255
465
672
880
1088

Hasil: ลท = 44.6 + 4.2x

Prediksi untuk 7 jam latihan: ลท = 44.6 + 4.2(7) = 74.0%

โ›ฐ๏ธ Gradient Descent

Gradient Descent

Gambar 4.1: Ilustrasi gradient descent mencari minimum cost function

Aturan update: w โ† w โˆ’ ฮฑ ร— โˆ‚J/โˆ‚w

ฮฑ = learning rate (kecepatan belajar)

๐Ÿ“Š Confusion Matrix

Confusion Matrix

Gambar 5.1: Struktur Confusion Matrix 2ร—2

Prediksi: Positif Prediksi: Negatif
Aktual: Positif TP (True Positive) FN (False Negative)
Aktual: Negatif FP (False Positive) TN (True Negative)

๐Ÿ“ Metrik Evaluasi

Metrik Rumus Fokus
Accuracy (TP + TN) / Total Kebenaran keseluruhan
Precision TP / (TP + FP) Ketepatan prediksi positif
Recall TP / (TP + FN) Cakupan data positif
F1-Score 2 ร— (Pร—R) / (P+R) Harmonic mean P & R

๐ŸŽ–๏ธ Contoh: Deteksi Rudal

Sistem deteksi rudal: TP=85, FP=10, FN=15, TN=890

Metrik Perhitungan Nilai
Accuracy (85+890)/1000 97.5%
Precision 85/(85+10) 89.5%
Recall 85/(85+15) 85.0%
F1-Score 2(0.895ร—0.85)/(0.895+0.85) 87.2%

โš ๏ธ Dalam pertahanan, Recall lebih penting! FN = rudal tidak terdeteksi = berbahaya!

๐ŸŽฏ Kapan Menggunakan Metrik Mana?

Konteks Metrik Utama Alasan
๐Ÿš€ Deteksi rudal Recall Jangan lewatkan ancaman!
๐Ÿ“ง Filter spam Precision Jangan buang email penting!
๐Ÿฅ Diagnosis medis F1-Score Seimbangkan keduanya
๐Ÿ“Š Data seimbang Accuracy Distribusi kelas merata

๐Ÿ”„ Cross-Validation

Cross-validation adalah teknik untuk mengevaluasi model dengan membagi data menjadi beberapa fold untuk training dan testing secara bergantian.

Tujuan:

  • Mengurangi bias dari single train-test split
  • Mengukur stabilitas model
  • Mendeteksi overfitting

๐Ÿ“Š K-Fold Cross-Validation

K-Fold CV

Gambar 6.1: Ilustrasi 5-fold cross-validation

Kinerja akhir = rata-rata akurasi dari semua fold

Standar industri: k = 5 atau k = 10

๐Ÿ“Š Stratified K-Fold

Masalah: Data tidak seimbang (misal 95% kelas A, 5% kelas B) โ†’ fold mungkin tidak representatif

Solusi: Stratified K-Fold memastikan setiap fold memiliki proporsi kelas yang sama dengan dataset asli

Contoh: Dataset 100 data (90 Aman, 10 Ancaman)

Setiap fold dari 5-fold: 18 Aman + 2 Ancaman = 20 data

๐Ÿง  Quiz Time!

Pertanyaan 1:

Jika entropy suatu dataset = 0, artinya:

A. Data terdistribusi merata antar kelas
B. Dataset kosong
C. Semua data berasal dari kelas yang sama โœ…
D. Algoritma gagal konvergen

๐Ÿ’ก Entropy = 0 berarti dataset sudah murni (pure), tidak ada ketidakpastian

๐Ÿง  Quiz Time!

Pertanyaan 2:

Dalam sistem deteksi ancaman, metrik mana yang paling penting?

A. Accuracy
B. Precision
C. Recall โœ…
D. Specificity

๐Ÿ’ก Recall tinggi = meminimalkan False Negative (ancaman yang tidak terdeteksi)

๐Ÿง  Quiz Time!

Pertanyaan 3:

Apa tujuan utama Laplace smoothing pada Naive Bayes?

A. Meningkatkan akurasi model secara signifikan
B. Mengatasi masalah zero probability โœ…
C. Mengurangi jumlah fitur
D. Mempercepat waktu training

๐Ÿ“ Ringkasan

Konsep Poin Kunci
Paradigma ML Supervised, Unsupervised, Reinforcement
Decision Tree Entropy โ†’ Information Gain โ†’ ID3
Naive Bayes P(C|X) โˆ P(X|C) ร— P(C) + Laplace smoothing
Regresi Linear ลท = wโ‚€ + wโ‚x, metode least squares
Evaluasi Accuracy, Precision, Recall, F1-Score
Cross-Validation K-fold, Stratified K-fold

๐Ÿ“… Pertemuan Berikutnya

Pertemuan 14: Unsupervised Learning & Reinforcement Learning

Pembelajaran Mesin Lanjutan

  • K-Means Clustering
  • Hierarchical Clustering
  • Dimensionality Reduction (PCA)
  • Reinforcement Learning & Q-Learning

๐Ÿ“š Referensi

  1. Russell, S. & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th Ed.). Pearson. Chapter 19
  2. Mitchell, T. (1997). Machine Learning. McGraw-Hill. Chapter 3
  3. Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer. Chapter 4
  4. CS188 Berkeley AI Materials: https://inst.eecs.berkeley.edu/~cs188/

Terima Kasih

๐Ÿค– Kecerdasan Artifisial

Pertemuan 13: Pembelajaran Mesin - Supervised Learning


Ada pertanyaan?