AktuNotes
← Kembali
TA2 · Materi 6.4

Model Diagnostics and Selection

Hard Bobot: 20–25% Klugman, Panjer & Willmot (2019), Loss Models 5th ed., Bab 13 & 15
TA2ModelDiagnosticsModelSelectionGoodnessOfFitAICBICTeoriRisiko

📊 6.4 — Model Diagnostics and Selection

Ringkasan Cepat

Topik: Model Diagnostics and Selection | Bobot: ~20–25% | Difficulty: Hard Ref: Klugman et al. (2019), Loss Models 5th ed., Bab 13 & 15 | Prereq: 6.1 Parameter Estimation Methods, 6.2 MSE Confidence Intervals and Delta Method

Section 0 — Pemetaan Topik

Topik TA2Sub-topik IDSkill DiujiBobotDifficultyPrerequisiteConnected TopicsReferensi
Pembentukan dan Pemilihan Model Parametrik6.4Mengevaluasi kecocokan model menggunakan perbandingan grafik (p-p plot, d-plot), uji hipotesis (chi-square, K-S, A-D), dan kriteria seleksi berbasis skor (AIC, BIC, SSPE)20–25%Hard6.1 Parameter Estimation Methods, 6.2 MSE Confidence Intervals and Delta Method6.3 Bayesian Parameter Estimation, 6.1 Parameter Estimation MethodsKlugman et al. (2019), Bab 13 & 15

Section 1 — Intuisi

Bayangkan seorang dokter yang baru saja mengobati 500 pasien dengan kondisi tertentu dan ingin tahu: “Apakah obat yang saya berikan bekerja sesuai teori?” Dokter tersebut tidak hanya melihat satu angka — ia melihat grafik pemulihan, membandingkan distribusi waktu penyembuhan antara teori dan kenyataan, dan menjalankan uji statistik untuk memastikan perbedaan yang terlihat bukan sekadar kebetulan. Aktuaris yang telah membangun model distribusi klaim menghadapi tantangan yang sama persis: setelah parameter diestimasi, apakah model tersebut benar-benar menggambarkan data dengan baik?

Inilah inti dari diagnostik dan seleksi model. Setelah kita memiliki kandidat distribusi — katakanlah Lognormal, Pareto, atau Gamma — dengan parameter yang sudah diestimasi, kita perlu mengevaluasi seberapa baik model tersebut cocok dengan data aktual. Ada tiga pendekatan besar: perbandingan grafik (melihat secara visual apakah kurva teoritis mendekati kurva empiris), uji hipotesis formal (menghitung statistik uji dan membandingkannya dengan nilai kritis), dan kriteria seleksi berbasis skor seperti AIC dan BIC (menghukum model yang terlalu kompleks untuk menghindari overfitting).

Yang membuat topik ini menantang adalah bahwa ketiga pendekatan dapat memberikan sinyal yang berbeda — model yang lolos uji chi-square belum tentu memiliki AIC terbaik, dan model dengan grafik yang “terlihat bagus” belum tentu signifikan secara statistik. Aktuaris yang baik harus memahami kekuatan dan keterbatasan masing-masing alat, dan menggunakan ketiganya secara komplementer untuk memilih model terbaik.

Section 2 — Definisi Formal

Definisi Matematis

Diberikan nn observasi x1,,xnx_1, \ldots, x_n dan model terfitting F^(x)\hat{F}(x) dengan kk parameter terestimasi. Uji kecocokan (goodness-of-fit) bertujuan menguji:

H0:F(x)=F0(x;θ^)vsH1:F(x)F0(x;θ^)H_0: F(x) = F_0(x;\hat{\boldsymbol{\theta}}) \quad \text{vs} \quad H_1: F(x) \neq F_0(x;\hat{\boldsymbol{\theta}})

di mana F0F_0 adalah distribusi parametrik yang diusulkan.

SimbolMaknaCatatan
Fn(x)F_n(x)Empirical Distribution Function (EDF): jumlah xixn\frac{\text{jumlah } x_i \leq x}{n}Estimator nonparametrik dari F(x)F(x)
F^(x)\hat{F}(x)CDF teoritis dengan parameter terestimasiModel parametrik yang diuji
OjO_jFrekuensi observasi (observed) di interval ke-jjDigunakan dalam uji chi-square
EjE_jFrekuensi ekspektasi (expected) di interval ke-jjEj=n[F^(cj)F^(cj1)]E_j = n \cdot [\hat{F}(c_j) - \hat{F}(c_{j-1})]
kkJumlah parameter yang diestimasiDigunakan untuk menghitung derajat bebas
mmJumlah interval dalam uji chi-squarePilih sehingga Ej5E_j \geq 5 untuk setiap jj
DnD_nStatistik Kolmogorov-Smirnov: supxFn(x)F^(x)\sup_x \lvert F_n(x) - \hat{F}(x)\rvertDeviasi maksimum EDF vs CDF teoritis
A2A^2Statistik Anderson-DarlingMemberi bobot lebih pada ekor distribusi
(θ^)\ell(\hat{\boldsymbol{\theta}})Log-likelihood maksimum dari modelDigunakan dalam AIC dan BIC
ppJumlah parameter bebas dalam modelDigunakan dalam penalti AIC/BIC

Rumus Utama

[Chi-Square] Statistik uji chi-square goodness-of-fit:

χ2=j=1m(OjEj)2Ej\chi^2 = \sum_{j=1}^{m} \frac{(O_j - E_j)^2}{E_j}

Label: Distribusi asimtotik χmk12\chi^2_{m-k-1} di bawah H0H_0, dengan derajat bebas =mk1= m - k - 1 (jumlah interval dikurangi jumlah parameter dikurangi 1).

[K-S] Statistik Kolmogorov-Smirnov:

Dn=supxFn(x)F^(x)D_n = \sup_x |F_n(x) - \hat{F}(x)|

Label: Untuk sampel besar, nilai kritis pada level α=0.05\alpha = 0.05 adalah 1.36/n\approx 1.36/\sqrt{n}. Nilai kritis ini hanya berlaku untuk parameter yang diketahui, bukan diestimasi dari data.

[A-D] Statistik Anderson-Darling:

A2=n[Fn(x)F^(x)]2F^(x)[1F^(x)]dF^(x)A^2 = n \int_{-\infty}^{\infty} \frac{[F_n(x) - \hat{F}(x)]^2}{\hat{F}(x)[1-\hat{F}(x)]} \, d\hat{F}(x)

Label: Bobot [F^(1F^)]1[\hat{F}(1-\hat{F})]^{-1} membuat A-D lebih sensitif terhadap deviasi di ekor distribusi dibanding K-S — sangat relevan untuk distribusi klaim asuransi.

[A-D Diskrit] Rumus komputasi A-D untuk data terurut x(1)x(2)x(n)x_{(1)} \leq x_{(2)} \leq \ldots \leq x_{(n)}:

A2=n1ni=1n[(2i1)lnF^(x(i))+(2n+12i)ln[1F^(x(i))]]A^2 = -n - \frac{1}{n} \sum_{i=1}^{n} \left[(2i-1)\ln \hat{F}(x_{(i)}) + (2n+1-2i)\ln[1-\hat{F}(x_{(i)})]\right]

Label: Formula ini memungkinkan komputasi numerik langsung dari data terurut.

[AIC] Akaike Information Criterion:

AIC=2(θ^)+2p\text{AIC} = -2\ell(\hat{\boldsymbol{\theta}}) + 2p

Label: Pilih model dengan AIC terkecil. Penalti 2p2p menghukum kompleksitas model (overfitting).

[BIC] Bayesian Information Criterion (Schwarz Criterion):

BIC=2(θ^)+pln(n)\text{BIC} = -2\ell(\hat{\boldsymbol{\theta}}) + p\ln(n)

Label: Pilih model dengan BIC terkecil. Penalti pln(n)p\ln(n) lebih besar dari AIC untuk n>7n > 7, sehingga BIC lebih agresif menghukum model kompleks.

[SSPE] Sum of Squared Probability-weighted Errors (score-based):

SSPE=i=1n[Fn(xi)F^(xi)]2\text{SSPE} = \sum_{i=1}^{n} \left[F_n(x_i) - \hat{F}(x_i)\right]^2

Label: Pilih model dengan SSPE terkecil. Kriteria berbasis skor yang langsung mengukur deviasi kuadrat antara EDF dan CDF teoritis.

Asumsi Eksplisit

  1. Independensi: Observasi x1,,xnx_1, \ldots, x_n adalah independen dan identically distributed (i.i.d.).
  2. Chi-square — expected frequency: Setiap interval harus memiliki Ej5E_j \geq 5; interval dengan Ej<5E_j < 5 harus digabung dengan interval tetangganya.
  3. K-S — distribusi kontinu: Uji K-S valid hanya untuk distribusi kontinu; untuk distribusi diskrit, distribusi dari DnD_n berbeda.
  4. Parameter diestimasi dari data: Ketika parameter diestimasi dari data yang sama (bukan diketahui a priori), nilai kritis uji K-S dan A-D yang tabel standar berikan tidak lagi berlaku secara tepat — perlu tabel khusus.
  5. Large sample: Distribusi asimtotik χmk12\chi^2_{m-k-1} untuk statistik chi-square valid hanya untuk nn besar (umumnya n30n \geq 30 dengan Ej5E_j \geq 5).

Section 3 — Jembatan Logika

Dari Definisi ke Rumus — Mengapa Tiga Pendekatan Berbeda?

Ketiga pendekatan diagnostik menjawab pertanyaan yang sedikit berbeda. Perbandingan grafik (p-p plot, d-plot) menjawab: “Di bagian mana distribusi teoritis paling menyimpang dari data?” Uji hipotesis menjawab: “Apakah penyimpangan yang terlihat signifikan secara statistik, atau bisa dijelaskan oleh variasi sampling?” Kriteria AIC/BIC menjawab: “Dari beberapa kandidat model, mana yang memberikan trade-off terbaik antara fit dan kesederhanaan?” Ketiganya saling melengkapi — grafik untuk diagnosis lokasi masalah, uji hipotesis untuk keputusan formal, AIC/BIC untuk perbandingan antar model.

Derajat Bebas Chi-Square — Jangan Salah Hitung

Derajat bebas uji chi-square adalah ν=mk1\nu = m - k - 1, di mana:

  • mm = jumlah interval (setelah penggabungan interval dengan Ej<5E_j < 5)
  • kk = jumlah parameter yang diestimasi dari data yang sama
  • 1-1 = untuk constraint total frekuensi Oj=Ej=n\sum O_j = \sum E_j = n

Jika parameter diketahui (tidak diestimasi), maka k=0k = 0 dan ν=m1\nu = m - 1.

Derivasi Logika Penalti AIC — Mengapa 2p2p? (step-by-step):

Latar belakang: Menambahkan parameter ke model selalu meningkatkan (θ^)\ell(\hat{\boldsymbol{\theta}}) (atau setidaknya tidak menurunkan), karena ruang pencarian yang lebih besar. Tanpa penalti, model dengan lebih banyak parameter akan selalu “menang.”

Langkah 1: Ukur kecocokan model dengan log-likelihood maksimum (θ^)\ell(\hat{\boldsymbol{\theta}}). Model lebih cocok → \ell lebih besar → 2-2\ell lebih kecil.

Langkah 2: Tambahkan penalti untuk kompleksitas. Akaike (1974) menurunkan bahwa expected overfitting dari model dengan pp parameter adalah pp unit dalam skala log-likelihood. Sehingga penalti = 2p2p (faktor 2 agar sesuai dengan skala χ2\chi^2).

Langkah 3: AIC = 2+2p-2\ell + 2p. Minimasi AIC berarti mencari model yang paling akurat dengan penalti terhadap kompleksitas berlebih.

Langkah 4: BIC mengganti penalti dengan pln(n)p\ln(n). Untuk n=100n = 100: ln(100)4.6>2\ln(100) \approx 4.6 > 2, sehingga BIC lebih agresif. BIC secara asimtotik konsisten (memilih model “benar” jika ada dalam kandidat), sedangkan AIC tidak.

Perbandingan AIC vs BIC:

BICAIC=pln(n)2p=p[ln(n)2]\text{BIC} - \text{AIC} = p\ln(n) - 2p = p[\ln(n) - 2]

Untuk n>e27.4n > e^2 \approx 7.4: BIC >> AIC, artinya BIC selalu menghukum kompleksitas lebih keras untuk sampel praktis. Semakin besar nn, semakin besar selisih ini.

Dilarang
  1. Jangan membandingkan nilai AIC atau BIC antar model yang diestimasi dari data berbeda atau dengan transformasi berbeda — AIC/BIC hanya valid untuk perbandingan pada data dan skala yang sama.
  2. Jangan menggunakan nilai kritis K-S dari tabel standar (tabel untuk parameter diketahui) ketika parameter diestimasi dari data — nilai kritis akan terlalu liberal (terlalu mudah menerima H0H_0).
  3. Jangan menggabungkan interval chi-square setelah menghitung statistik — penggabungan harus dilakukan sebelum perhitungan, berdasarkan Ej<5E_j < 5.

Section 4 — Contoh Soal

Soal A — Fundamental

Data berikut adalah 100 klaim yang dikelompokkan dalam 5 interval. Model Eksponensial dengan θ^=500\hat{\theta} = 500 (diestimasi dari data yang sama) diusulkan. Lakukan uji chi-square goodness-of-fit pada level signifikansi α=0.05\alpha = 0.05.

IntervalOjO_jF^(cj)\hat{F}(c_j) — batas atas interval
(0,200](0, 200]331e200/500=0.32971 - e^{-200/500} = 0.3297
(200,500](200, 500]261e500/500=0.63211 - e^{-500/500} = 0.6321
(500,1000](500, 1000]221e1000/500=0.86471 - e^{-1000/500} = 0.8647
(1000,2000](1000, 2000]131e2000/500=0.98171 - e^{-2000/500} = 0.9817
(2000,)(2000, \infty)61.00001.0000
Solusi Soal A

Pendekatan: Hitung EjE_j dari selisih CDF teoritis, periksa Ej5E_j \geq 5, hitung statistik χ2\chi^2, bandingkan dengan nilai kritis χν,0.052\chi^2_{\nu, 0.05}.

1. Identifikasi Variabel

  • n=100n = 100, model: Eksponensial(θ^=500\hat{\theta} = 500), k=1k = 1 parameter diestimasi
  • m=5m = 5 interval, derajat bebas: ν=mk1=511=3\nu = m - k - 1 = 5 - 1 - 1 = 3

2. Identifikasi Distribusi / Model Eksponensial: F^(x)=1ex/500\hat{F}(x) = 1 - e^{-x/500}. Periksa Ej5E_j \geq 5 untuk setiap interval.

3. Setup Persamaan

Ej=n[F^(cj)F^(cj1)],χ2=j=15(OjEj)2EjE_j = n \cdot [\hat{F}(c_j) - \hat{F}(c_{j-1})], \quad \chi^2 = \sum_{j=1}^{5} \frac{(O_j - E_j)^2}{E_j}

4. Eksekusi Aljabar

IntervalOjO_jPj=ΔF^P_j = \Delta\hat{F}Ej=100PjE_j = 100 P_j(OjEj)2/Ej(O_j - E_j)^2/E_j
(0,200](0, 200]330.32970.329732.9732.97(3332.97)2/32.97=0.000(33-32.97)^2/32.97 = 0.000
(200,500](200, 500]260.30240.302430.2430.24(2630.24)2/30.24=0.595(26-30.24)^2/30.24 = 0.595
(500,1000](500, 1000]220.23260.232623.2623.26(2223.26)2/23.26=0.068(22-23.26)^2/23.26 = 0.068
(1000,2000](1000, 2000]130.11700.117011.7011.70(1311.70)2/11.70=0.145(13-11.70)^2/11.70 = 0.145
(2000,)(2000, \infty)60.01830.01831.831.83— gabung!

Interval terakhir memiliki E5=1.83<5E_5 = 1.83 < 5, gabung dengan interval sebelumnya:

O4=13+6=19,E4=11.70+1.83=13.53O_4^* = 13 + 6 = 19, \quad E_4^* = 11.70 + 1.83 = 13.53

Setelah penggabungan: m=4m^* = 4, ν=411=2\nu = 4 - 1 - 1 = 2.

χ2=0.000+0.595+0.068+(1913.53)213.53=0.000+0.595+0.068+2.217=2.880\chi^2 = 0.000 + 0.595 + 0.068 + \frac{(19 - 13.53)^2}{13.53} = 0.000 + 0.595 + 0.068 + 2.217 = 2.880

Nilai kritis: χ2,0.052=5.991\chi^2_{2, 0.05} = 5.991.

5. Verification χ2=2.880<5.991\chi^2 = 2.880 < 5.991. Gagal tolak H0H_0. Karena semua Ej5E_j^* \geq 5 setelah penggabungan, uji valid. Penggabungan interval yang diperlukan juga mengurangi ν\nu, yang wajar.

Hasil: Tidak ada bukti statistik yang cukup untuk menolak model Eksponensial(θ^=500\hat{\theta}=500) pada α=0.05\alpha = 0.05.

Exam Tips — Soal A

Target waktu: 4 menit. Common trap: Lupa mengurangi kk dari derajat bebas, menggunakan ν=m1\nu = m - 1 padahal parameter diestimasi. Common trap kedua: Tidak memeriksa Ej5E_j \geq 5 dan tidak menggabungkan interval — ini langkah wajib sebelum kalkulasi. Shortcut: Jika soal memberi EjE_j sudah dihitung, langsung cek yang < 5, gabung, lalu hitung χ2\chi^2.


Soal B — Exam-Typical

Dua model diusulkan untuk 200 klaim dengan log-likelihood berikut:

ModelParameter (pp)Log-likelihood (θ^)\ell(\hat{\boldsymbol{\theta}})
Eksponensial11450-1450
Gamma21442-1442
Weibull21445-1445
Lognormal21440-1440

Pilih model terbaik menggunakan (a) AIC dan (b) BIC. Apakah kedua kriteria memberikan rekomendasi yang sama?

Solusi Soal B

Pendekatan: Hitung AIC = 2+2p-2\ell + 2p dan BIC = 2+pln(n)-2\ell + p\ln(n) untuk setiap model, pilih yang terkecil.

1. Identifikasi Variabel

  • n=200n = 200, ln(200)=ln(200)5.298\ln(200) = \ln(200) \approx 5.298
  • Empat kandidat model dengan pp dan \ell seperti di tabel

2. Identifikasi Distribusi / Model Perbandingan antar-model dengan data dan skala yang sama — AIC dan BIC valid digunakan.

3. Setup Persamaan

AIC=2+2p,BIC=2+pln(200)\text{AIC} = -2\ell + 2p, \quad \text{BIC} = -2\ell + p\ln(200)

4. Eksekusi Aljabar

Modelpp\ell2-2\ellAIC =2+2p= -2\ell + 2pBIC =2+5.298p= -2\ell + 5.298p
Eksponensial11450-1450290029002900+2=29022900 + 2 = \mathbf{2902}2900+5.298=2905.32900 + 5.298 = \mathbf{2905.3}
Gamma21442-1442288428842884+4=28882884 + 4 = \mathbf{2888}2884+10.596=2894.62884 + 10.596 = \mathbf{2894.6}
Weibull21445-1445289028902890+4=28942890 + 4 = \mathbf{2894}2890+10.596=2900.62890 + 10.596 = \mathbf{2900.6}
Lognormal21440-1440288028802880+4=28842880 + 4 = \mathbf{2884}2880+10.596=2890.62880 + 10.596 = \mathbf{2890.6}

5. Verification AIC terkecil: Lognormal (2884). BIC terkecil: Lognormal (2890.6). Kedua kriteria sepakat memilih Lognormal. Ini wajar karena Lognormal memiliki log-likelihood tertinggi (1440-1440) di antara model 2-parameter, sehingga unggul meski penalti sama dengan Gamma dan Weibull.

Hasil: Kedua AIC dan BIC merekomendasikan model Lognormal sebagai pilihan terbaik.

Exam Tips — Soal B

Target waktu: 3 menit. Common trap: Memilih model dengan \ell terbesar (bukan AIC/BIC terkecil) — ingat, kita minimasi AIC/BIC, bukan maksimasi. Common trap kedua: Lupa ln(n)\ln(n) untuk BIC; untuk n=200n=200, ln(200)5.3\ln(200) \approx 5.3, bukan log10(200)2.3\log_{10}(200) \approx 2.3. Shortcut: Jika semua model dua-parameter, cukup bandingkan 2-2\ell saja (penalti sama), pilih yang \ell terbesar.


Soal C — Challenging

Untuk 50 klaim yang terurut, model Pareto dengan α^=2\hat{\alpha} = 2 dan θ^=1000\hat{\theta} = 1000 (2 parameter, diestimasi dari data yang sama) telah ditetapkan. Statistik uji berikut diperoleh:

  • Statistik chi-square: χ2=8.2\chi^2 = 8.2 dengan m=6m = 6 interval (semua Ej5E_j \geq 5)
  • Statistik K-S: D50=0.112D_{50} = 0.112
  • Statistik A-D: A2=1.95A^2 = 1.95

Nilai kritis pada α=0.05\alpha = 0.05 (menggunakan tabel yang disesuaikan untuk parameter terestimasi):

UjiNilai Kritis (α=0.05\alpha=0.05)
Chi-square (ν=3\nu = 3)7.8157.815
K-S (parameter terestimasi, Pareto)0.1300.130
A-D (parameter terestimasi, Pareto)2.5002.500

Evaluasi kecocokan model secara komprehensif dan berikan rekomendasi.

Solusi Soal C

Pendekatan: Evaluasi tiga uji secara independen, catat keputusan masing-masing, lalu sintesis rekomendasi akhir dengan mempertimbangkan kekuatan dan kelemahan setiap uji.

1. Identifikasi Variabel

  • n=50n = 50, model: Pareto(α^=2,θ^=1000\hat{\alpha}=2, \hat{\theta}=1000), k=2k = 2 parameter diestimasi
  • Chi-square: m=6m = 6, ν=621=3\nu = 6 - 2 - 1 = 3
  • Nilai kritis disesuaikan sudah diberikan (penting: bukan tabel standar)

2. Identifikasi Distribusi / Model Pareto: F^(x)=1(θx+θ)α=1(1000x+1000)2\hat{F}(x) = 1 - \left(\frac{\theta}{x+\theta}\right)^\alpha = 1 - \left(\frac{1000}{x+1000}\right)^2. Distribusi ekor berat — A-D sangat relevan karena lebih sensitif di ekor.

3. Setup Persamaan

Aturan keputusan: Tolak H0H_0 jika statistik uji melebihi nilai kritis (untuk chi-square, K-S, A-D).

Tolak H0 jika: χ2>χν,α2,Dn>dα,A2>aα\text{Tolak } H_0 \text{ jika: } \chi^2 > \chi^2_{\nu,\alpha}, \quad D_n > d_{\alpha}, \quad A^2 > a_\alpha

4. Eksekusi Aljabar

UjiStatistikNilai KritisKeputusanInterpretasi
Chi-square (ν=3\nu=3)8.28.27.8157.815Tolak H0H_0Penyimpangan signifikan dalam frekuensi per interval
K-S0.1120.1120.1300.130Gagal Tolak H0H_0Deviasi maksimum CDF tidak signifikan
A-D1.951.952.5002.500Gagal Tolak H0H_0Penyimpangan di ekor tidak signifikan

5. Verification Ketiga uji memberikan sinyal berbeda — situasi umum dalam praktik. Chi-square sensitif terhadap penyimpangan di interval tengah (di mana EjE_j besar), sedangkan K-S dan A-D mengevaluasi keseluruhan CDF. Karena uji chi-square menolak H0H_0 namun K-S dan A-D tidak, kemungkinan masalah ada di bagian tengah distribusi (bukan di ekor). Untuk distribusi Pareto yang dikenal ekor-berat, kinerja di ekor (yang K-S dan A-D evaluasi) seringkali lebih penting secara aktuaria.

Hasil: Bukti campuran (mixed evidence). Chi-square menolak model, K-S dan A-D tidak. Rekomendasi: Eksplorasi lebih lanjut dengan d-plot untuk mengidentifikasi bagian distribusi yang bermasalah. Pertimbangkan model alternatif dengan lebih banyak fleksibilitas di bagian tengah (misalnya Burr atau Generalized Pareto), lalu bandingkan AIC/BIC dengan model Pareto saat ini.

Exam Tips — Soal C

Target waktu: 5 menit. Common trap terbesar: Menggunakan nilai kritis K-S dari tabel standar (untuk parameter diketahui) ketika soal menyatakan parameter diestimasi — nilai kritis standar 1.36/n=1.36/50=0.1921.36/\sqrt{n} = 1.36/\sqrt{50} = 0.192 jauh berbeda dari 0.1300.130 yang disesuaikan, dan akan menghasilkan keputusan yang salah. Common trap kedua: Mengira “mayoritas uji gagal tolak” berarti model otomatis diterima — interpretasi tetap harus mempertimbangkan konteks aktuaria. Shortcut: Jika soal meminta “evaluasi komprehensif,” selalu buat tabel ringkasan seperti di atas sebelum menulis rekomendasi.

Section 5 — Verifikasi & Sanity Check

Cek Derajat Bebas Chi-Square

Sebelum melihat tabel, verifikasi: ν=mk11\nu = m^* - k - 1 \geq 1, di mana mm^* adalah jumlah interval setelah penggabungan. Jika ν=0\nu = 0 atau negatif, terlalu banyak parameter relatif terhadap interval — model tidak bisa diuji dengan chi-square dalam konfigurasi ini. Tambah interval atau kurangi parameter.

Sanity Check AIC dan BIC

Untuk dua model A (lebih sederhana, pA<pBp_A < p_B) dan B (lebih kompleks):

  • Jika BA<pBpA\ell_B - \ell_A < p_B - p_A: Model A menang menurut AIC (peningkatan fit tidak cukup besar untuk mengkompensasi penalti tambahan).
  • Jika BA<(pBpA)ln(n)2\ell_B - \ell_A < \frac{(p_B - p_A)\ln(n)}{2}: Model A menang menurut BIC.
  • Jika AIC memilih B tetapi BIC memilih A: BIC lebih konservatif — ini sinyal bahwa improvement fit dari B “borderline” signifikan.

Metode Alternatif — Perbandingan Grafik

Selain uji formal, dua alat grafis penting yang sering ditanyakan:

1. p-p plot (Probability Plot): Plot F^(x(i))\hat{F}(x_{(i)}) (CDF teoritis di setiap observasi terurut) pada sumbu-xx vs Fn(x(i))=i/nF_n(x_{(i)}) = i/n (CDF empiris) pada sumbu-yy. Model sempurna: titik-titik jatuh tepat pada garis y=xy = x (garis diagonal 45°). Penyimpangan sistematis menunjukkan misfit.

2. d-plot (Difference Plot): Plot Fn(x)F^(x)F_n(x) - \hat{F}(x) terhadap xx. Deviasi positif berarti model terlalu rendah mengestimasi CDF (underfit di bagian bawah); deviasi negatif berarti overfit. Pola sistematis (bukan acak) mengindikasikan misfit sistematis.

Section 6 — Visualisasi Mental

Diagram Konseptual: Hierarki Alat Diagnostik

Tahap 1 — Eksplorasi Visual (sebelum uji formal):
  ┌────────────────────────────────────────────┐
  │  p-p plot: titik dekat garis y=x? ✓/✗      │
  │  d-plot: pola deviasi acak atau sistematis? │
  │  Histogram vs PDF teoritis: bentuk cocok?   │
  └────────────────────────────────────────────┘
             ↓ (identifikasi area masalah)

Tahap 2 — Uji Formal (keputusan statistik):
  ┌────────────────────────────────────────────┐
  │  Chi-square: deviasi di setiap interval     │
  │  K-S: deviasi maksimum di semua titik       │
  │  A-D: deviasi di EKOR (lebih sensitif)      │
  └────────────────────────────────────────────┘
             ↓ (keputusan H₀ diterima/ditolak)

Tahap 3 — Seleksi Model (perbandingan antar kandidat):
  ┌────────────────────────────────────────────┐
  │  AIC: fit vs kompleksitas (penalti lunak)   │
  │  BIC: fit vs kompleksitas (penalti keras)   │
  │  SSPE: deviasi kuadrat EDF vs CDF teoritis  │
  └────────────────────────────────────────────┘

Visualisasi: p-p plot vs d-plot

p-p plot (model bagus):          p-p plot (model overestimasi ekor):
  F_n ↑                            F_n ↑
  1.0 |        ●●●               1.0 |      ●●●
      |      ●● /                    |   ●●/
      |    ●● /                      | ●●/
      |  ●● /                        |●●●──────── ← titik di BAWAH diagonal
      | ●●/                          |
      └──────────→ F_hat             └──────────→ F_hat
         Titik di garis y=x ✓          Titik sistematis di bawah diagonal ✗

Hubungan Visual ↔ Rumus

Elemen VisualKomponen Rumus
Titik pada p-p plot(Fn(x(i)),F^(x(i)))=(i/n,F^(x(i)))(F_n(x_{(i)}), \hat{F}(x_{(i)})) = (i/n, \hat{F}(x_{(i)})) untuk setiap observasi terurut
Deviasi dari garis y=xy=x pada p-p plotFn(x(i))F^(x(i))F_n(x_{(i)}) - \hat{F}(x_{(i)}) — sama dengan yang diplot di d-plot
Panjang batang terpanjang di d-plotStatistik DnD_n (K-S)
Luas total deviasi berbobot di d-plotStatistik A2A^2 (Anderson-Darling)
Selisih tinggi histogram vs PDF teoritisBerkontribusi pada (OjEj)2/Ej(O_j - E_j)^2/E_j di statistik chi-square

Section 7 — Jebakan Umum

Kesalahan Parametrisasi — Derajat Bebas Chi-Square

Jebakan paling sering: menggunakan ν=m1\nu = m - 1 (asumsi parameter diketahui) padahal parameter diestimasi dari data.

  • Salah: ν=61=5\nu = 6 - 1 = 5 untuk model Gamma (2 parameter) dengan 6 interval.
  • Benar: ν=621=3\nu = 6 - 2 - 1 = 3. Kesalahan ini menghasilkan nilai kritis yang terlalu besar, membuat kita terlalu mudah gagal menolak H0H_0.
Kesalahan Konseptual — 4 Miskonsepsi Umum
  1. “AIC terbesar = model terbaik” — Salah. Kita minimasi AIC dan BIC, bukan maksimasi. 2-2\ell besar berarti fit buruk; penalti 2p2p memperburuknya.
  2. “K-S lebih baik dari A-D untuk distribusi ekor berat” — Salah. A-D memberi bobot lebih pada ekor, sehingga lebih sensitif untuk distribusi klaim asuransi yang ekor-berat (Pareto, Lognormal). K-S paling sensitif di median.
  3. “Gagal tolak H0H_0 berarti model benar” — Salah. Ini hanya berarti tidak cukup bukti untuk menolak; model yang berbeda bisa juga tidak ditolak dengan data yang sama.
  4. “BIC selalu lebih baik dari AIC” — Tidak ada yang selalu lebih baik. BIC konsisten (memilih model benar asimtotik) tetapi bisa memilih model terlalu sederhana; AIC optimal untuk prediksi tapi bisa overfit.
Kesalahan Interpretasi Soal
  • “Nilai kritis K-S pada α=0.05\alpha = 0.05” tanpa keterangan lebih lanjut → hati-hati, bisa jadi nilai kritis untuk parameter diketahui (1.36/n1.36/\sqrt{n}) atau parameter terestimasi (lebih kecil, lebih ketat). Baca soal cermat.
  • “Pilih model terbaik” dengan hanya satu kandidat model → AIC/BIC tidak relevan; yang diminta adalah evaluasi kecocokan (goodness-of-fit), bukan seleksi.
  • “Combine intervals as needed” → ini instruksi untuk menggabungkan interval dengan Ej<5E_j < 5, bukan instruksi untuk mempersempit interval.
Red Flags — Keyword Pemicu Prosedur Khusus
  • “Parameters estimated from the data” → derajat bebas chi-square berkurang; nilai kritis K-S/A-D bukan dari tabel standar.
  • “Compare two (or more) models” → langsung ke AIC/BIC, bukan goodness-of-fit tunggal.
  • “Heavy-tailed” atau distribusi Pareto/Lognormal → A-D lebih relevan dari K-S karena sensitif di ekor.
  • “Expected counts less than 5” → wajib gabung interval sebelum hitung chi-square, dan update ν\nu.
  • “Graphical comparison” → p-p plot atau d-plot, bukan uji numerik.

Section 8 — Ringkasan Eksekutif

Must-Remember

1. Chi-square — statistik dan derajat bebas:

χ2=j=1m(OjEj)2Ej,ν=mk1\chi^2 = \sum_{j=1}^{m^*} \frac{(O_j - E_j)^2}{E_j}, \quad \nu = m^* - k - 1

2. K-S — deviasi maksimum:

Dn=supxFn(x)F^(x),nilai kritis1.36n (parameter diketahui)D_n = \sup_x |F_n(x) - \hat{F}(x)|, \quad \text{nilai kritis} \approx \frac{1.36}{\sqrt{n}} \text{ (parameter diketahui)}

3. AIC dan BIC — pilih yang terkecil:

AIC=2(θ^)+2p,BIC=2(θ^)+pln(n)\text{AIC} = -2\ell(\hat{\boldsymbol{\theta}}) + 2p, \quad \text{BIC} = -2\ell(\hat{\boldsymbol{\theta}}) + p\ln(n)

4. Urutan penalti: BIC >> AIC untuk n>8n > 8, sehingga BIC lebih konservatif (lebih memilih model sederhana).

5. Prinsip penggabungan chi-square: Gabung interval dengan Ej<5E_j < 5 sebelum hitung statistik; setiap penggabungan mengurangi mm^* dan ν\nu.

Kapan Digunakan

  • Chi-square: Data berkelompok dalam interval; ingin uji formal kecocokan per-segmen distribusi; nn cukup besar (30\geq 30, dengan Ej5E_j \geq 5).
  • K-S: Data individu (tidak dikelompokkan); ingin uji deviasi maksimum; distribusi kontinu; parameter diketahui (atau gunakan nilai kritis yang disesuaikan jika diestimasi).
  • A-D: Distribusi ekor berat (Pareto, Lognormal, Burr); ingin deteksi misfit di ekor yang krusial untuk pricing asuransi.
  • AIC/BIC: Membandingkan dua atau lebih kandidat model yang berbeda jumlah parameternya; data dan skala sama.

Kapan TIDAK Boleh Digunakan

  • Chi-square: Jika Ej<5E_j < 5 di beberapa interval dan tidak bisa digabung secara bermakna; jika ν0\nu \leq 0.
  • K-S: Untuk distribusi diskrit (distribusi DnD_n berbeda); jangan gunakan nilai kritis standar jika parameter diestimasi.
  • AIC/BIC: Untuk membandingkan model yang diestimasi dari data berbeda atau dengan transformasi berbeda (misalnya log-transformasi) — skala log-likelihood tidak kompatibel.
  • Semua uji formal: Jangan gunakan sebagai satu-satunya kriteria; selalu lengkapi dengan perbandingan grafis untuk diagnosis lokasi masalah.

Quick Decision Tree

graph TD
    A["Model parametrik sudah ditetapkan<br>dengan parameter terestimasi"] --> B{"Tujuan evaluasi?"}
    B -- "Satu model,<br>apakah cocok?" --> C{"Data berkelompok<br>atau individual?"}
    B -- "Beberapa model,<br>mana yang terbaik?" --> D["Hitung AIC dan BIC<br>untuk setiap model<br>Pilih yang terkecil"]
    C -- "Berkelompok<br>(interval)" --> E["Uji Chi-square<br>df = m* - k - 1<br>Gabung jika E_j < 5"]
    C -- "Individual" --> F{"Distribusi<br>ekor berat?"}
    F -- "Ya<br>(Pareto, Lognormal)" --> G["Gunakan A-D<br>lebih sensitif di ekor"]
    F -- "Tidak" --> H["Gunakan K-S<br>deviasi maksimum"]
    E --> I["Lengkapi dengan<br>p-p plot / d-plot<br>untuk diagnosis visual"]
    G --> I
    H --> I
    D --> J["Jika AIC vs BIC<br>tidak sepakat:<br>BIC lebih konservatif"]
    I --> K["Keputusan final:<br>terima / tolak / eksplorasi<br>model alternatif"]
    J --> K

Follow-up Options
  1. “Berikan contoh soal lengkap p-p plot dan d-plot untuk distribusi Gamma”
  2. “Jelaskan hubungan 6.4 Model Diagnostics and Selection dengan 6.3 Bayesian Parameter Estimation
  3. “Buat flashcard 1-halaman untuk rumus AIC, BIC, chi-square, K-S, dan A-D”

📖 Ref: Klugman, Panjer & Willmot (2019), Loss Models 5th ed., Bab 13 & 15 | 🗓️ 2026-04-17 | #TA2 #ModelDiagnostics #ModelSelection