Distribution Classes and Extreme Value
📊 1.2 — Distribution Classes and Extreme Value
Ringkasan Cepat›
Topik: Distribution Classes and Extreme Value | Bobot: ~5–10% | Difficulty: Hard Ref: Klugman et al. (2019) Bab 3–5 | Prereq: 1.1 Moment and Probability Generating Functions
Section 0 — Pemetaan Topik
| Topik TA2 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Model Besar Klaim | 1.2 | Mengklasifikasikan distribusi ke kelas (a,b,0)/(a,b,1), mengidentifikasi heavy/light tail, memilih model untuk data kerugian, menerapkan distribusi nilai ekstrim (GEV, GPD) | 5–10% | Hard | 1.1 Moment and Probability Generating Functions | 1.3 Techniques for Creating New Distributions, 1.4 Tail Characteristics, 6.4 Model Diagnostics and Selection | Klugman et al. (2019) Bab 3–5 |
Section 1 — Intuisi
Bayangkan seorang aktuaris di perusahaan asuransi properti yang mencoba memodelkan besar klaim dari kebakaran gedung. Sebagian besar klaim adalah kecil: kerusakan kecil akibat korsleting listrik, kebakaran dapur, dan sejenisnya. Namun sesekali muncul klaim raksasa — gedung bertingkat hangus, kerugian ratusan miliar rupiah. Pertanyaan kritis adalah: distribusi probabilitas mana yang paling tepat merepresentasikan perilaku data seperti ini? Apakah kita bisa menggunakan distribusi Normal yang simetris dan “jinak”? Atau kita butuh distribusi yang mampu mengakomodasi ekor kanan yang sangat panjang dan berat?
Di sinilah klasifikasi distribusi menjadi alat navigasi yang esensial. Dunia distribusi probabilitas untuk data kerugian terbagi ke dalam beberapa “keluarga besar” — seperti keluarga transformasi (skala, eksponen), keluarga sistem (Pearson, Burr), dan keluarga berdasarkan perilaku ekor (heavy-tailed vs. light-tailed). Setiap keluarga memiliki karakteristik yang membuat mereka cocok atau tidak cocok untuk tipe risiko tertentu. Mengenal kelas-kelas ini adalah seperti mengenal jenis-jenis alat di kotak perkakas: seorang profesional tahu kapan harus memilih obeng, kapan palu, dan kapan kunci inggris.
Dimensi paling kritis dalam pemilihan model kerugian adalah perilaku distribusi nilai ekstrim (extreme value). Ketika kita bicara tentang bencana alam, klaim katastrofi, atau kerugian operasional terbesar dalam satu tahun — kita tidak lagi peduli dengan distribusi keseluruhan, melainkan distribusi dari nilai maksimum atau excess di atas threshold yang sangat tinggi. Teori Nilai Ekstrim (Extreme Value Theory, EVT) memberi kita kerangka matematis yang kokoh untuk memodelkan ekor distribusi dengan tepat, bahkan ketika data historis di zona ekstrim sangat sedikit.
Section 2 — Definisi Formal
Definisi Matematis — Kelas Distribusi Kerugian›
Distribusi kerugian diklasifikasikan berdasarkan fungsi distribusi , fungsi kepadatan , serta perilaku ekor ketika .
| Simbol | Makna | Catatan |
|---|---|---|
| Variabel acak besar klaim (loss severity) | ||
| Fungsi distribusi kumulatif (CDF) | ||
| Survival function / fungsi ekor | ||
| Fungsi kepadatan probabilitas (PDF) | ||
| Momen ke- (raw moment) | ||
| Shape parameter GEV | Menentukan jenis distribusi ekstrim | |
| Location parameter GEV | Geser distribusi | |
| Scale parameter GEV | ||
| Threshold dalam GPD | Batas nilai ekstrim | |
| Scale parameter GPD |
Rumus Utama
Klasifikasi Ekor: Heavy vs. Light-Tailed
Distribusi dikatakan heavy-tailed jika momen ke- tidak ada (divergen) untuk cukup besar:
Label: Distribusi heavy-tailed memiliki momen yang tidak terbatas; light-tailed memiliki semua momen terbatas.
Uji Ekor Berbasis Rasio Hazard:
Distribusi heavy-tailed ekuivalen dengan:
Label: Fungsi hazard menurun menuju nol untuk distribusi heavy-tailed.
Distribusi Generalized Extreme Value (GEV) — Fisher-Tippett-Gnedenko:
untuk .
Label: Distribusi limit dari maksimum terstandarisasi dari sampel i.i.d.; tiga tipe bergantung pada .
Tiga Tipe Distribusi GEV:
Distribusi Generalized Pareto (GPD) — Excess Loss di atas Threshold :
di mana adalah excess loss di atas threshold .
Label: GPD adalah distribusi alami untuk memodelkan excess loss di zona ekstrim (Peaks-Over-Threshold method).
Mean Excess Function untuk GPD:
Label: Fungsi excess mean yang linear dalam adalah ciri khas GPD; digunakan untuk validasi model.
Kelas Distribusi Parametrik Umum (Transformed/Power/Exponential):
Jika maka:
- Scale transform: untuk
- Power transform: untuk
- Inverse transform: (menghasilkan distribusi “inverse”)
- Exponential transform: (jika Normal, maka Lognormal)
Asumsi Eksplisit
- Klaim bersifat non-negatif: support atau .
- Data dianggap i.i.d. (independent and identically distributed) kecuali disebutkan lain.
- Untuk EVT, sample size cukup besar agar teorema limit (Fisher-Tippett-Gnedenko) berlaku.
- Threshold dalam GPD dipilih cukup tinggi sehingga pendekatan GPD valid, namun tidak terlalu tinggi sehingga data di atas masih cukup.
- Parameter diperlukan agar mean excess function (dan mean) terdefinisi.
Section 3 — Jembatan Logika
Dari Definisi ke Klasifikasi: Mengapa Bentuk Ekor Menentukan Segalanya›
Dalam pemodelan kerugian asuransi, pilihan distribusi hampir seluruhnya ditentukan oleh perilaku ekor. Ekor distribusi menentukan seberapa sering dan seberapa besar klaim-klaim ekstrim akan terjadi. Dua distribusi bisa memiliki mean dan variansi yang sama, tetapi berperilaku sangat berbeda di zona ekstrim. Inilah mengapa kita tidak bisa sembarangan memilih distribusi berdasarkan ringkasan statistik saja — kita harus memeriksa perilaku ekor secara eksplisit.
Support dan Domain›
- Distribusi kerugian: (atau jika ada massa di titik nol)
- GEV: tidak terbatas, bergantung pada tanda yang menentukan endpoint
- GPD: di mana untuk , dan untuk
- Untuk Fréchet (): tidak ada momen ke- untuk
Derivasi Step-by-Step: Dari Distribusi Maksimum ke GEV
Langkah 1: Setup masalah.
Misalkan adalah klaim-klaim individual i.i.d. dengan CDF . Definisikan maksimum:
Langkah 2: CDF dari maksimum.
Langkah 3: Masalah degenerasi.
Ketika , untuk setiap (right endpoint dari ). Distribusi “kabur” ke tak hingga. Kita perlu standarisasi: cari dan sehingga memiliki distribusi limit non-degeneratif.
Langkah 4: Teorema Fisher-Tippett-Gnedenko.
Jika limit distribusi non-degeneratif tersebut ada, maka distribusi limit hanya dapat berupa distribusi GEV:
untuk .
Langkah 5: Interpretasi .
- : Distribusi asal memiliki ekor Pareto-like (heavy tail). Klaim ekstrim bisa sangat besar. Contoh: Pareto, Burr, Loggamma.
- : Ekor eksponensial atau lebih ringan. Klaim ekstrim terbatas dengan baik. Contoh: Normal, Lognormal, Gamma, Exponential.
- : Distribusi memiliki titik akhir yang terbatas (finite right endpoint). Klaim tidak bisa melebihi batas tertentu. Contoh: Uniform, Beta.
Derivasi Step-by-Step: Hubungan GEV dan GPD (Teorema Pickands-Balkema-de Haan)
Langkah 1: Untuk distribusi dalam domain of attraction GEV dengan parameter , definisikan distribusi excess:
Langkah 2: Teorema Pickands-Balkema-de Haan menyatakan bahwa ketika :
artinya distribusi excess loss mendekati GPD dengan parameter shape yang sama dengan parameter GEV.
Langkah 3: Hubungan langsung: jika maksimum block mengikuti GEV(), maka excess loss di atas threshold tinggi mengikuti GPD(). Ini memungkinkan dua pendekatan EVT: Block Maxima (GEV) dan Peaks-Over-Threshold (GPD).
Dilarang›
- Jangan menggunakan distribusi Normal untuk data kerugian asuransi tanpa justifikasi kuat — distribusi Normal memiliki ekor yang sangat tipis dan support tak terbatas di kiri, keduanya tidak realistis untuk klaim.
- Jangan menyamakan dalam GEV dengan dalam GPD sebagai parameter yang berbeda — keduanya adalah parameter shape yang sama dan harus konsisten.
- Jangan mengestimasi GPD tanpa memilih threshold secara hati-hati — threshold terlalu rendah melanggar asimptotik GPD, threshold terlalu tinggi menghasilkan estimasi tidak stabil karena data terlalu sedikit.
Section 4 — Contoh Soal
Soal A — Fundamental
Klaim asuransi kebakaran mengikuti distribusi Pareto dengan CDF:
dengan dan .
(a) Tentukan apakah distribusi ini heavy-tailed atau light-tailed. (b) Untuk block maxima klaim tahunan, distribusi GEV tipe apa yang relevan?
Solusi Soal A›
Pendekatan: Periksa keberadaan momen dan fungsi hazard; hubungkan dengan klasifikasi GEV.
1. Identifikasi Variabel
- ,
2. Identifikasi Distribusi / Model Pareto single-parameter adalah anggota keluarga transformed beta, dikenal sebagai distribusi heavy-tailed klasik dalam aktuaria.
3. Setup Persamaan Periksa fungsi hazard:
4. Eksekusi Aljabar
Konfirmasi momen: terbatas hanya untuk . Momen ke-3 dan seterusnya tidak ada.
5. Verification Fungsi hazard mengkonfirmasi heavy tail. Untuk Pareto, (power law decay) — jauh lebih lambat dari exponential .
Hasil: (a) Heavy-tailed: , momen ke-3 dan lebih tinggi tidak ada. (b) Karena Pareto adalah heavy-tailed, block maxima mengikuti GEV tipe Fréchet (), dengan .
Exam Tips — Soal A›
Target waktu: 3 menit. Common trap: Mengira heavy-tailed berarti mean tidak ada — untuk Pareto(), mean ada () dan variansi ada (), tetapi momen ke-3 tidak ada. Shortcut: Untuk Pareto, secara langsung.
Soal B — Exam-Typical
Seorang aktuaris menganalisis klaim asuransi besar menggunakan metode Peaks-Over-Threshold (POT). Dari 500 klaim historis, 42 klaim melebihi threshold . Excess losses diestimasi mengikuti GPD dengan dan .
Hitung: (a) Mean excess loss di atas threshold. (b) Probabilitas bahwa suatu klaim melebihi .
Solusi Soal B›
Pendekatan: Gunakan formula mean excess GPD dan decompose probabilitas via Bayes.
1. Identifikasi Variabel
- Threshold:
- ,
- total klaim, klaim melebihi
- Target: , sehingga
2. Identifikasi Distribusi / Model GPD valid karena threshold dipilih dari zona tail; mengkonfirmasi heavy tail (Fréchet domain).
3. Setup Persamaan
(a) Mean excess GPD:
(b) Dekomposisi probabilitas:
4. Eksekusi Aljabar
(a)
(b) Estimasi empiris:
GPD survival function:
5. Verification Mean excess juta berarti rata-rata kerugian di atas threshold adalah juta. Probabilitas klaim melebihi 12 juta sekitar 0.94% — wajar untuk zona tail yang jauh di atas threshold.
Hasil: (a) (b) atau sekitar .
Exam Tips — Soal B›
Target waktu: 4 menit. Common trap: Menggunakan dalam formula mean excess sebagai (confusing dengan formula GPD general) — pada threshold tepat , suku sehingga . Shortcut: Selalu tulis dekomposisi secara eksplisit sebelum kalkulasi.
Soal C — Challenging
Data klaim kebakaran industri menunjukkan bahwa klaim tahunan maksimum dari 200 polis mengikuti GEV dengan parameter , , dan .
(a) Hitung Value-at-Risk pada level , yaitu dari distribusi GEV ini. (b) Tentukan apakah momen ke-4 dari distribusi GEV ini terbatas. (c) Seorang analis mengusulkan menggunakan distribusi Gumbel () sebagai alternatif yang lebih sederhana. Berikan argumen matematis mengapa ini tidak tepat jika .
Solusi Soal C›
Pendekatan: Invert CDF GEV untuk VaR; gunakan kondisi momen Fréchet; bandingkan kecepatan decay ekor.
1. Identifikasi Variabel
- GEV: , , (Fréchet)
- untuk VaR
2. Identifikasi Distribusi / Model → domain Fréchet → heavy-tailed. Momen ke- terbatas hanya jika .
3. Setup Persamaan
(a) VaR dari GEV adalah quantile . Invert:
4. Eksekusi Aljabar
(a)
(b) Untuk GEV Fréchet, momen ke- terbatas . Momen ke-4 () tidak terbatas karena kondisinya (ketat). Akibatnya: kurtosis tidak terdefinisi.
(c) Gumbel () memiliki ekor eksponensial: untuk besar. Fréchet () memiliki ekor power-law: untuk besar.
Artinya Gumbel secara dramatis underestimate probabilitas klaim ekstrim besar. Menggunakan Gumbel untuk data yang sebenarnya Fréchet akan menghasilkan cadangan teknis yang tidak memadai dan penetapan premi yang terlalu rendah untuk risiko katastrofi.
5. Verification VaR juta vs. masuk akal — distribusi heavy-tailed menghasilkan quantile yang jauh lebih tinggi dari mean. Cross-check: pada (median), , , sehingga median , mendekati sesuai ekspektasi.
Hasil: (a) (b) Momen ke-4 tidak terbatas ( bukan ) (c) Gumbel severely underestimates tail probability — secara asimtotis rasio , tidak tepat secara aktuaria.
Exam Tips — Soal C›
Target waktu: 5–6 menit. Common trap: Untuk kondisi momen Fréchet, ingat ketidaksetaraan ketat: momen ke- ada , bukan . Momen ke- persis tidak ada! Shortcut: Invers CDF GEV selalu bisa ditulis — hafal formula ini untuk menghemat waktu.
Section 5 — Verifikasi & Sanity Check
Cek 1: Konsistensi antara GEV dan GPD Untuk data yang sama, block maxima method (GEV) dan POT method (GPD) harus memberikan estimasi yang konsisten. Jika keduanya memberikan yang sangat berbeda, ada masalah dalam pemilihan block size atau threshold.›
Cek 2: Mean Excess Function Linear untuk GPD›
Jika model GPD valid, plot mean excess empiris vs. harus mendekati linear:
Linearitas konfirmasi kesesuaian GPD. Kurva cekung ke atas (superlinear) mengindikasikan lebih besar dari estimasi; cekung ke bawah mengindikasikan ekor lebih tipis.
Cek 3: Hubungan Momen GEV›
Untuk GEV Fréchet dengan : (terdefinisi hanya jika ). Jika , mean tidak ada. Ini adalah red flag: jika MLE menghasilkan , premi dan cadangan berbasis mean tidak terdefinisi secara matematis.
Metode Alternatif
Selain klasifikasi berbasis dan EVT, distribusi dapat diklasifikasikan menggunakan:
- Log-log plot: Plot vs. . Straight line dengan slope mengindikasikan Pareto-like heavy tail ().
- Mean excess plot (ME plot): Plot empiris vs. . Slope positif → heavy tail (Pareto/GPD dengan ); slope nol → exponential tail (); slope negatif → finite endpoint ().
- Hill estimator: Estimasi nonparametrik langsung dari order statistics tanpa asumsi distribusi parametrik.
Section 6 — Visualisasi Mental
Visualisasi 1: Kurva Ekor Tiga Tipe GEV
Bayangkan tiga kurva survival function diplot pada skala log-log:
- Fréchet (): Garis lurus menurun (power law) — ekor “lambat mati”, mengizinkan nilai ekstrim sangat besar. Seperti lereng gunung yang landai: masih ada ketinggian bahkan jauh dari puncak.
- Gumbel (): Kurva melengkung ke bawah semakin cepat — ekor eksponensial. Seperti lereng yang semakin curam: nilai ekstrim semakin jarang secara eksponensial.
- Weibull EVT (): Kurva berakhir di titik tertentu — ada batas maksimum absolut. Seperti tembok: tidak ada klaim yang bisa melewati batas tertentu.
Visualisasi 2: Mean Excess Plot (ME Plot)
Plot vs. adalah alat diagnostik visual kunci:
- Slope positif → distribusi heavy-tailed (GPD dengan , Pareto)
- Slope nol → exponential tail (, distribusi Exponential)
- Slope negatif → finite right endpoint (, Beta, Uniform)
- Non-linear → data mungkin campuran dua populasi, atau threshold belum cukup tinggi
Untuk mengidentifikasi threshold : cari titik di atas mana ME plot mendekati linear. Zona di bawah titik ini adalah “bulk” distribusi; zona di atasnya adalah tail yang bisa dimodelkan dengan GPD.
Hubungan Visual ↔ Rumus
| Elemen Visual | Komponen Rumus |
|---|---|
| Slope ME plot = | Parameter dalam |
| Intercept ME plot = | Parameter (scale GPD) |
| Slope log-log plot survival = | Exponent power law Fréchet: |
| Titik akhir Weibull EVT | ketika |
Section 7 — Jebakan Umum
Kesalahan Parametrisasi›
GEV vs. Weibull (distribusi biasa): Distribusi Weibull dalam EVT (, tipe III GEV) adalah berbeda dari distribusi Weibull biasa yang digunakan untuk modeling lifetime. Keduanya menggunakan nama “Weibull” tetapi tidak sama — distribusi Weibull biasa adalah heavy-tailed atau light-tailed bergantung shape parameter, bukan finite-endpoint.
GPD scale : Parameter dalam GPD bergantung pada threshold . Jika threshold berubah, harus diestimasi ulang. Shape relatif stabil terhadap perubahan threshold (jika model benar).
Kesalahan Konseptual›
- “Heavy-tailed = mean tidak ada” — SALAH. Pareto dengan adalah heavy-tailed, tetapi mean dan variansinya ada. Heavy-tailed artinya beberapa momen tidak ada (ekor lebih berat dari eksponensial), bukan semua momen tidak ada.
- “GEV hanya untuk data maksimum tahunan” — SALAH. “Block” bisa berupa periode apa pun (bulanan, quarterly), tetapi ukuran block harus cukup besar untuk konvergensi teorema limit.
- ” artinya distribusinya Normal” — SALAH. (Gumbel) adalah domain of attraction yang mencakup banyak distribusi: Normal, Lognormal, Gamma, Exponential semuanya dalam domain Gumbel.
- Mengabaikan ukuran sampel untuk EVT — Teorema Fisher-Tippett-Gnedenko adalah teorema asimtotik. Dengan data kecil ( per block, atau untuk POT), estimasi GEV/GPD sangat tidak stabil.
Kesalahan Interpretasi Soal›
- “Distribusi mana yang cocok?” — Harus memeriksa empirical tail behavior, bukan hanya menyesuaikan goodness-of-fit statistik. Distribusi dengan AIC terbaik bisa saja salah jika ekor tidak direpresentasikan dengan baik.
- “Heavy-tailed vs. fat-tailed” — Kedua istilah sering digunakan bergantian, tetapi secara teknis “heavy-tailed” biasanya merujuk pada ekor lebih berat dari eksponensial, sementara “fat-tailed” sering digunakan lebih longgar dalam finance.
Red Flags — Keywords yang Harus Memicu Prosedur Tertentu›
- “Klaim katastrofi”, “bencana”, “kerugian maksimum” → Pertimbangkan EVT (GEV/GPD), bukan distribusi standard
- “Excess loss di atas threshold” → GPD / POT method
- “Block maxima”, “maksimum tahunan” → GEV / Block Maxima method
- “Momen tidak terbatas”, “momen tidak ada” → Cek kondisi untuk Fréchet
- “Mean excess function linear” → Validasi GPD, hitung dan dari slope dan intercept
- “Distribusi Pareto” → Langsung identifikasi sebagai Fréchet domain,
Section 8 — Ringkasan Eksekutif
Must-Remember›
-
Tiga tipe GEV: (Fréchet, heavy tail), (Gumbel, exponential tail), (Weibull EVT, finite endpoint)
-
Quantile (VaR) GEV:
- GPD survival function:
- Mean excess GPD:
-
Kondisi momen Fréchet (Pareto-like): momen ke- terbatas
-
Identifikasi empiris heavy tail: ketika , atau ME plot memiliki slope positif
Kapan Digunakan
- Ketika soal menyebutkan “maksimum”, “klaim ekstrim”, “katastrofi”, atau “excess loss di atas threshold”
- Ketika diminta mengklasifikasikan distribusi sebagai heavy/light/finite-endpoint
- Ketika soal menanyakan apakah momen tertentu terbatas atau tidak
- Ketika diminta menghitung probabilitas di zona tail yang sangat jauh dari mean
- Ketika memilih distribusi untuk data kerugian asuransi dengan outlier ekstrim
Kapan TIDAK Boleh Digunakan
- Data dengan support terbatas (misalnya proporsi ) — EVT untuk maksimum di sini menghasilkan Weibull EVT dengan , bukan Fréchet
- Ketika block size kecil atau jumlah exceedances di atas threshold sangat sedikit () — estimasi tidak reliabel
- Untuk variabel yang secara alamiah symmetric (e.g., return portofolio tanpa truncation) — EVT masih bisa diterapkan tetapi dengan modifikasi untuk ekor kiri
Quick Decision Tree
graph TD
A["Data kerugian atau<br>distribusi besar klaim"] --> B{"Perilaku ekor?"}
B -->|"h(x) → 0 atau<br>momen tidak ada"| C["Heavy-tailed<br>(e.g. Pareto, Burr, Loggamma)"]
B -->|"h(x) → konstan<br>(exponential)"| D["Exponential-tailed<br>(e.g. Exponential, Gamma)"]
B -->|"h(x) → tak hingga<br>atau endpoint terbatas"| E["Light/finite-tailed<br>(e.g. Normal, Weibull, Beta)"]
C --> F{"GEV domain?"}
F -->|"xi > 0"| G["Fréchet<br>Block maxima ~ GEV(xi>0)<br>Excess ~ GPD(xi>0)"]
D --> H{"GEV domain?"}
H -->|"xi = 0"| I["Gumbel<br>Block maxima ~ GEV(xi=0)<br>Excess ~ Exponential"]
E --> J{"GEV domain?"}
J -->|"xi < 0"| K["Weibull EVT<br>Block maxima ~ GEV(xi<0)<br>Excess ~ GPD(xi<0)"]
G --> L["Momen ke-k ada<br>iff k < 1/xi"]
I --> M["Semua momen ada"]
K --> N["Semua momen ada<br>endpoint terbatas"]
Follow-up Options›
- “Berikan contoh soal variasi pemilihan threshold dalam GPD dengan ME plot”
- “Jelaskan hubungan 1.2 Distribution Classes and Extreme Value dengan 1.4 Tail Characteristics dan 6.4 Model Diagnostics and Selection”
- “Buat flashcard 1-halaman untuk klasifikasi GEV dan kondisi momen Fréchet”
📖 Ref: Klugman, Panjer & Willmot (2019) Loss Models 5th ed., Bab 3–5 | 🗓️ 2026-04-16 | #TA2 #ExtremeValue #DistributionClasses #TeoriRisiko