Frequency Model Selection
📊 2.3 — Frequency Model Selection
Ringkasan Cepat›
Topik: Pemilihan Distribusi Frekuensi yang Sesuai untuk Permasalahan Nyata | Bobot: ~5–10% | Difficulty: Hard Ref: Klugman et al. (2019), Bab 6 | Prereq: 2.1 Frequency MGF and PGF, 2.2 (a,b,0) and (a,b,1) Distribution Classes
Section 0 — Pemetaan Topik
| Topik TA2 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Model Frekuensi Klaim | 2.3 | Mengidentifikasi distribusi frekuensi yang paling sesuai untuk suatu konteks nyata; menjelaskan alasan pemilihan berdasarkan sifat dispersi, struktur risiko, dan karakteristik populasi; menerapkan distribusi dengan parameter yang diberikan | 5–10% | Hard | 2.1 Frequency MGF and PGF, 2.2 (a,b,0) and (a,b,1) Distribution Classes | 2.4 Mixed Frequency Distributions, 2.5 Exposure Effect on Frequency, 4.1 Individual and Collective Risk Models, 6.4 Model Diagnostics and Selection | Klugman et al. (2019), Bab 6 |
Section 1 — Intuisi
Bayangkan Anda adalah seorang aktuaris yang harus menetapkan premi untuk tiga produk asuransi yang berbeda: asuransi kendaraan bermotor massal untuk jutaan pengguna jalan, asuransi jiwa kredit untuk kelompok karyawan sebuah perusahaan, dan asuransi kesehatan individu untuk nasabah dengan riwayat penyakit berbeda-beda. Meskipun ketiganya melibatkan “berapa banyak klaim yang muncul”, karakter klaim dari masing-masing portofolio sangat berbeda. Pertanyaan kuncinya: distribusi probabilitas mana yang paling tepat untuk merepresentasikan frekuensi klaim di setiap situasi itu?
Inilah inti dari Frequency Model Selection — kemampuan membaca karakteristik suatu permasalahan nyata dan menerjemahkannya ke pilihan distribusi yang tepat. Ada tiga kandidat utama yang digunakan dalam praktik aktuaria: Poisson, Binomial, dan Negatif Binomial. Masing-masing lahir dari asumsi yang berbeda tentang bagaimana klaim terjadi. Poisson cocok ketika setiap pemegang polis memiliki risiko yang kurang lebih sama dan klaim terjadi secara independen. Binomial cocok ketika ada batas atas yang jelas pada jumlah klaim — misalnya, satu orang hanya bisa mengalami satu kematian. Negatif Binomial cocok ketika populasi heterogen: sebagian nasabah “berisiko tinggi” dan sebagian lagi “berisiko rendah”, sehingga klaim cenderung mengelompok (clustering).
Kemampuan memilih model yang tepat bukan sekadar soal pengetahuan rumus, melainkan pemahaman mendalam tentang mengapa setiap distribusi berperilaku seperti yang ia lakukan. Di ujian TA2, soal tipe ini menguji apakah Anda mampu menghubungkan narasi permasalahan dengan sifat matematis distribusi — terutama hubungan antara mean dan variansi (dispersion index) — dan kemudian menerapkan distribusi tersebut dengan parameter konkret.
Section 2 — Definisi Formal
Definisi Matematis — Indeks Dispersi›
Untuk variabel acak frekuensi , indeks dispersi (dispersion index / variance-to-mean ratio) didefinisikan sebagai:
- : equidispersion → indikasi kuat Poisson
- : underdispersion → indikasi kuat Binomial
- : overdispersion → indikasi kuat Negatif Binomial
| Simbol | Makna | Catatan |
|---|---|---|
| Variabel acak frekuensi klaim | Diskrit, | |
| Parameter rata-rata Poisson | ||
| Jumlah maksimum klaim (Binomial) | Batas atas yang eksplisit; | |
| Peluang klaim per unit eksposur (Binomial) | ||
| Parameter bentuk Negatif Binomial | ; tidak harus bilangan bulat | |
| Parameter skala Negatif Binomial | ||
| Indeks dispersi | Alat utama pemilihan model | |
| Fungsi massa probabilitas |
Rumus Utama
Ringkasan tiga distribusi utama:
| Distribusi | Parameter | Support | |||
|---|---|---|---|---|---|
| Poisson | |||||
| Binomial | |||||
| Negatif Binomial |
Fungsi massa probabilitas Poisson:
Label: Probabilitas tepat klaim pada populasi Poisson dengan rata-rata .
Fungsi massa probabilitas Binomial:
Label: Probabilitas tepat klaim dari unit independen masing-masing berpeluang .
Fungsi massa probabilitas Negatif Binomial:
Label: Probabilitas tepat klaim pada populasi heterogen dengan parameter .
Estimasi parameter via Method of Moments:
Label: = rata-rata sampel, = variansi sampel; digunakan saat parameter tidak diketahui.
Asumsi Eksplisit
- Poisson — klaim terjadi secara independen; setiap pemegang polis memiliki intensitas risiko yang sama dan konstan .
- Binomial — ada batas atas eksplisit pada jumlah klaim; setiap “percobaan” independen dengan peluang klaim yang sama.
- Negatif Binomial — populasi heterogen: intensitas klaim individual bervariasi antar pemegang polis, sehingga terjadi overdispersi.
- Ketiga distribusi termasuk kelas — dapat diidentifikasi dari plot terhadap .
- Model diasumsikan stasioner dalam satu periode; efek eksposur ditangani terpisah di 2.5 Exposure Effect on Frequency.
Section 3 — Jembatan Logika
Dari Konteks Soal ke Pilihan Distribusi›
Kunci pemilihan model adalah membaca tiga sinyal dari narasi soal secara berurutan: (1) Apakah ada batas atas klaim? → Jika ya, Binomial. Jika tidak, Poisson atau NegBin. (2) Apakah populasi homogen atau heterogen? → Homogen (risiko sama): Poisson. Heterogen (risiko bervariasi): NegBin. (3) Apa hubungan mean dan variansi? → DI = 1: Poisson; DI < 1: Binomial; DI > 1: NegBin. Ketiganya harus konsisten. Jika narasi dan DI memberi sinyal berbeda, prioritaskan konteks ekonomi/aktuaria.
Support dan Domain›
- Binomial memiliki support terbatas: . Ini adalah ciri pembeda paling tegas — jika soal menyebutkan “paling banyak klaim” atau “dari kelompok orang”, Binomial adalah satu-satunya kandidat.
- Poisson dan NegBin memiliki support tak terbatas: . Keduanya tidak membatasi jumlah klaim secara teoritis.
- Geometric adalah kasus khusus NegBin dengan ; DI .
- Logarithmic hanya memiliki support (tidak memasukkan ) — bukan kelas standar.
Derivasi: Mengapa DI < 1 mengimplikasikan Binomial?
Langkah 1 — Tulis DI Binomial:
Langkah 2 — Karena :
Langkah 3 — Analoginya untuk Negatif Binomial:
Langkah 4 — Kesimpulan:
DI secara tegas memisahkan tiga distribusi pada garis bilangan: Binomial berada di , Poisson tepat di , dan Negatif Binomial di .
Derivasi: Mengapa NegBin muncul dari populasi heterogen?
Langkah 1 — Misalkan intensitas klaim individual bervariasi antar pemegang polis dan berdistribusi Gamma, sehingga dan .
Langkah 2 — Bersyarat pada , jumlah klaim .
Langkah 3 — Dengan hukum total ekspektasi dan variansi:
Langkah 4 — Distribusi marginal adalah Negatif Binomial.
Ini menjelaskan secara intuitif: overdispersi NegBin muncul karena variansi frekuensi = variansi inheren Poisson + variansi heterogenitas populasi.
Dilarang›
- Jangan pilih Poisson hanya karena “klaim jarang terjadi” — kejadian langka tidak otomatis Poisson. Poisson mensyaratkan homogenitas risiko antar pemegang polis, bukan sekadar frekuensi rendah.
- Jangan abaikan support distribusi — jika soal memberi batas atas klaim, NegBin dan Poisson tidak valid karena support-nya tak terbatas.
- Jangan gunakan DI dari data mentah tanpa koreksi — variansi sampel harus dihitung dengan penyebut , bukan , untuk estimasi tidak bias.
Section 4 — Contoh Soal
Soal A — Fundamental
Sebuah perusahaan asuransi menganalisis data klaim dari portofolio 500 polis kendaraan bermotor selama setahun. Rata-rata jumlah klaim per polis adalah dan variansi sampel .
(a) Hitung indeks dispersi dan tentukan distribusi frekuensi yang paling sesuai. (b) Tentukan parameter distribusi tersebut menggunakan method of moments. (c) Hitung dan dengan parameter yang diperoleh.
Solusi Soal A›
Pendekatan: Hitung DI terlebih dahulu untuk mengidentifikasi distribusi, lalu estimasi parameter via MoM, dan terakhir hitung probabilitas.
1. Identifikasi Variabel
- (mean sampel)
- (variansi sampel)
2. Identifikasi Distribusi / Model Hitung DI:
DI sedikit di atas 1 → indikasi overdispersi ringan → pilih Negatif Binomial. Konteks kendaraan bermotor juga mendukung: heterogenitas pengemudi (usia, pengalaman, zona) menyebabkan variasi risiko antar polis.
3. Setup Persamaan
4. Eksekusi Aljabar
Hitung probabilitas:
5. Verification Cek rekursif : dengan , . Rasio ✓ (selisih akibat pembulatan).
Hasil: DI → NegBin; , ; , .
Exam Tips — Soal A›
Target waktu: 3 menit. Common trap: DI sangat dekat dengan 1 (di sini 1.025) — ujian mungkin memancing pilihan Poisson. Tetapi secara teknis , jadi NegBin lebih tepat; sertakan justifikasi konteks (heterogenitas pengemudi). Shortcut: Estimasi parameter NegBin dari MoM selalu lewat dan .
Soal B — Exam-Typical
Sebuah perusahaan memiliki 200 karyawan yang masing-masing diasuransikan. Polis menjamin bahwa setiap karyawan dapat mengajukan paling banyak 1 klaim per tahun (misalnya klaim rawat inap). Dari data historis, diketahui bahwa peluang seorang karyawan mengajukan klaim adalah .
(a) Identifikasi distribusi yang tepat dan jelaskan alasannya secara lengkap. (b) Hitung , , dan . (c) Hitung dan .
Solusi Soal B›
Pendekatan: Batas atas klaim dan ukuran kelompok tetap → Binomial. Hitung momen lalu gunakan rumus PMF langsung.
1. Identifikasi Variabel
- (jumlah karyawan = jumlah “percobaan” Bernoulli)
- (peluang klaim per karyawan)
- Setiap karyawan: independen, maksimum 1 klaim
2. Identifikasi Distribusi / Model Binomial. Justifikasi lengkap:
- Ada batas atas eksplisit: setiap karyawan paling banyak 1 klaim → support .
- Kelompok tertutup dengan ukuran tetap .
- Setiap karyawan bertindak sebagai “percobaan Bernoulli” independen dengan peluang sukses .
- Tidak ada informasi heterogenitas antar karyawan → Binomial lebih tepat dari NegBin.
3. Setup Persamaan
4. Eksekusi Aljabar
Untuk dengan besar dan cukup besar, gunakan aproksimasi Normal:
5. Verification DI ✓ konsisten Binomial. masuk akal karena dengan 200 karyawan dan , hampir mustahil tidak ada satupun yang klaim. juga sangat masuk akal.
Hasil: Binomial; , , ; , .
Exam Tips — Soal B›
Target waktu: 3–4 menit. Common trap: Karena besar dan tidak kecil, jangan gunakan aproksimasi Poisson (yang mensyaratkan , tetap). Shortcut: Sinyal Binomial paling kuat adalah batas atas jumlah klaim — jika soal menyebutkan “kelompok orang” atau “paling banyak 1 klaim per orang”, identifikasi Binomial instan.
Soal C — Challenging
Dari data klaim tahunan suatu perusahaan asuransi jiwa kredit, diperoleh distribusi frekuensi berikut dari 1.000 polis:
| Jumlah klaim | Frekuensi observasi |
|---|---|
| 0 | 620 |
| 1 | 260 |
| 2 | 85 |
| 3 | 28 |
| 4 | 7 |
| 0 |
(a) Hitung mean sampel dan variansi sampel . (b) Tentukan distribusi yang paling sesuai dan estimasi parameternya. (c) Hitung probabilitas teoritis dari distribusi yang dipilih dan bandingkan dengan frekuensi relatif observasi. (d) Berikan justifikasi kontekstual mengapa distribusi tersebut sesuai untuk asuransi jiwa kredit.
Solusi Soal C›
Pendekatan: Hitung statistik deskriptif → identifikasi distribusi via DI → estimasi parameter → hitung probabilitas teoritis → validasi dengan konteks bisnis.
1. Identifikasi Variabel
- Total polis:
- Data: =
2. Identifikasi Distribusi / Model Akan ditentukan setelah menghitung DI dari data.
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Mean sampel:
Variansi sampel — perlu :
Indeks dispersi:
(b) DI → Negatif Binomial. Estimasi parameter MoM:
(c) Probabilitas teoritis NegBin:
Rekursif dengan dan :
Perbandingan teoritis vs observasi:
| (NegBin) | (observasi) | Selisih | |
|---|---|---|---|
| 0 | 0.6149 | 0.620 | −0.0051 |
| 1 | 0.2693 | 0.260 | +0.0093 |
| 2 | 0.0848 | 0.085 | −0.0002 |
Kecocokan sangat baik — selisih di bawah 1%.
(d) Justifikasi kontekstual: Asuransi jiwa kredit melindungi debitur (peminjam) terhadap risiko kematian atau cacat. Populasi debitur heterogen: berbeda usia, kondisi kesehatan, jenis kredit, dan tenor pinjaman. Pemegang polis dengan profil risiko tinggi (usia tua, riwayat sakit) cenderung mengajukan klaim lebih sering, menciptakan clustering yang menyebabkan overdispersi. Ini adalah kondisi ideal untuk NegBin sebagai model frekuensi.
5. Verification (NegBin, semua ) ✓. Kecocokan teoritis vs observasi untuk sangat baik (< 1% selisih). positif dan ✓ — parameter valid.
Hasil: , , ; NegBin; probabilitas teoritis cocok dengan observasi; didukung heterogenitas populasi debitur.
Exam Tips — Soal C›
Target waktu: 5–6 menit. Common trap: Kesalahan menghitung — gunakan tabel sistematis jangan hitung mental. Common trap 2: Lupa menggunakan penyebut (bukan ) untuk variansi sampel tidak bias. Shortcut: Rekursif jauh lebih cepat daripada menghitung langsung dari PMF NegBin — gunakan setelah menghitung .
Section 5 — Verifikasi & Sanity Check
Sanity Check 1 — DI sebagai Kompas Utama›
Sebelum apapun, hitung DI = :
- DI (toleransi ±0.05 dalam soal): → Poisson
- DI : → Binomial (pastikan ada batas atas dari konteks)
- DI : → Negatif Binomial Jika DI sangat dekat dengan 1 tetapi ada info kelompok tertutup ukuran , tetap pilih Binomial.
Sanity Check 2 — Validasi Parameter via Mean›
Setelah estimasi parameter, verifikasi dengan menghitung ulang mean dari distribusi:
- Poisson: harus ✓
- Binomial: harus ✓
- NegBin: harus ✓ Jika tidak sama, ada kesalahan dalam estimasi parameter.
Sanity Check 3 — Rekursif sebagai Cek Konsistensi Plot atau hitung untuk beberapa nilai . Jika linier dalam , distribusi termasuk kelas .›
- Rasio menurun (slope negatif): Binomial ()
- Rasio konstan (slope nol): Poisson ()
- Rasio meningkat (slope positif): NegBin ()
Metode Alternatif — Identifikasi via Kelas
Selain DI, distribusi dapat diidentifikasi dari parameter rekursif :
| Distribusi | Tanda | ||
|---|---|---|---|
| Poisson | , | ||
| Binomial | |||
| NegBin |
Kunci: Tanda langsung mengidentifikasi kelas — hanya Binomial; hanya Poisson; hanya NegBin/Geometric.
Section 6 — Visualisasi Mental
Posisi tiga distribusi pada garis DI:
Underdispersion Equidispersion Overdispersion
│ │ │
▼ ▼ ▼
───────●───────────────────────●───────────────────────●──────▶ DI
0 1 +∞
BINOMIAL POISSON NEG. BINOMIAL
(0 < DI < 1) (DI = 1) (DI > 1)
Kelompok tertutup Homogen Heterogen
Batas atas ada Risiko sama Clustering
Bentuk PMF tiga distribusi (mean sama ):
P(N=k)
0.30 │ P ← Poisson(2)
│ ╱ ╲
0.20 │ ╱ ╲ NB ← NegBin (lebih "berat" di kiri dan kanan)
│ B ╲╱╲
0.10 │ ╱ ╲ ← Binomial (terpotong di kanan)
│╱ ╲
─────┼──┬──┬──┬──┬──┬──▶ k
0 1 2 3 4 5
│
NegBin punya ekor lebih tebal dari Poisson
Binomial terpotong di k=m
Hubungan Visual ↔ Rumus
| Elemen Visual | Komponen Rumus |
|---|---|
| Posisi di garis DI | ; nilai menentukan kelas distribusi |
| Titik potong kanan PMF Binomial | Support terbatas ; untuk |
| Ekor tebal NegBin vs Poisson | ; variansi lebih besar dari mean |
| Slope rasio | Parameter dalam rekursif ; positif=NegBin, nol=Poisson, negatif=Binomial |
Section 7 — Jebakan Umum
Kesalahan Parametrisasi›
NegBin vs : Klugman menggunakan (odds dari klaim), sementara beberapa teks lain menggunakan (peluang gagal). Estimasi MoM Klugman: . Jika menggunakan konvensi : . Selalu cek konvensi referensi soal.
Kesalahan Konseptual›
- “Klaim jarang = Poisson” — salah. Poisson mensyaratkan homogenitas, bukan frekuensi rendah. Klaim rare dengan populasi heterogen tetap NegBin.
- Mengabaikan batas atas — jika soal menyebutkan kelompok tetap orang atau maksimum klaim, wajib Binomial, terlepas dari nilai DI dari sampel.
- DI dari populasi vs sampel — DI teoritis (dari rumus distribusi) berbeda dari DI sampel (). Untuk estimasi parameter gunakan DI sampel; untuk identifikasi teoritis gunakan DI populasi.
- Geometric adalah NegBin dengan , bukan distribusi terpisah. DI Geometric , selalu overdispersi.
Kesalahan Interpretasi Soal›
- “Populasi homogen” → Poisson, bukan NegBin. Kata “sama” atau “identik” adalah sinyal homogenitas.
- “Kelompok orang, masing-masing 0 atau 1 klaim” → Binomial. Kalimat ini secara definitif menetapkan Binomial.
- “Klaim mengikuti proses Poisson campuran dengan intensitas Gamma” → hasilnya adalah NegBin marginal (lihat derivasi Section 3).
- Soal kadang memberi dan langsung (bukan dari data) — hitung DI dari nilai ini, bukan dari sampel.
Red Flags›
- Kata “kelompok tetap” atau “n orang/unit” → sinyal kuat Binomial; cari nilai .
- Kata “heterogen”, “campuran”, atau “contagious” → sinyal kuat NegBin.
- Kata “independen dan identik” tanpa batas atas → sinyal Poisson.
- Data tabel vs diberikan → harus hitung , , DI secara manual; gunakan rekursif untuk efisiensi.
- DI dihitung dari data tetapi sangat dekat dengan 1 → justifikasi dengan konteks, bukan hanya angka.
Section 8 — Ringkasan Eksekutif
Must-Remember›
-
Indeks Dispersi sebagai kompas utama:
-
Estimasi MoM tiga distribusi:
-
Binomial — satu-satunya dengan support terbatas:
-
NegBin muncul dari Poisson-Gamma mixture:
-
Tanda parameter rekursif : = Binomial; = Poisson; = NegBin.
Kapan Digunakan
- Soal meminta identifikasi distribusi frekuensi yang sesuai dari narasi atau data.
- Soal memberikan data tabel frekuensi dan meminta estimasi parameter.
- Soal menyebutkan karakteristik populasi (homogen/heterogen, batas klaim, ukuran kelompok).
- Sebagai input model agregat di 4.1 Individual and Collective Risk Models dan 4.2 Compound Distributions.
- Sebagai landasan untuk 2.4 Mixed Frequency Distributions (Poisson campuran → NegBin).
Kapan TIDAK Boleh Digunakan
- Distribusi frekuensi sudah ditetapkan oleh soal → tidak perlu pemilihan model.
- Data yang tersedia adalah besar klaim (severity), bukan jumlah klaim — gunakan Topik 1 untuk model severity.
- Efek eksposur berbeda antar polis belum disesuaikan → selesaikan dulu dengan 2.5 Exposure Effect on Frequency sebelum memilih model.
Quick Decision Tree
graph TD
A["Soal: Pilih distribusi frekuensi N"] --> B{"Ada batas atas<br>jumlah klaim?"}
B --> |"Ya, maks m klaim"| C["BINOMIAL(m, q)<br>DI = 1-q < 1"]
B --> |"Tidak"| D{"Populasi<br>homogen atau heterogen?"}
D --> |"Homogen<br>risiko sama"| E["POISSON(lambda)<br>DI = 1"]
D --> |"Heterogen<br>risiko bervariasi"| F["NEG. BINOMIAL(r, beta)<br>DI = 1+beta > 1"]
D --> |"Tidak disebutkan,<br>punya data"| G["Hitung DI = s2 / n-bar"]
G --> |"DI kurang dari 1"| C
G --> |"DI sama dengan 1"| E
G --> |"DI lebih dari 1"| F
C --> H["Estimasi: q-hat = 1 - s2/n-bar<br>m-hat = n-bar / q-hat"]
E --> I["Estimasi: lambda-hat = n-bar"]
F --> J["Estimasi: beta-hat = s2/n-bar - 1<br>r-hat = n-bar / beta-hat"]
Follow-up Options›
- “Berikan contoh soal variasi identifikasi distribusi dari deskripsi naratif tanpa data numerik”
- “Jelaskan hubungan 2.3 Frequency Model Selection dengan 2.4 Mixed Frequency Distributions — mengapa Poisson campuran menghasilkan NegBin?”
- “Buat flashcard 1-halaman untuk topik ini”
📖 Ref: Klugman, Panjer & Willmot (2019), Loss Models 5th ed., Bab 6 | 🗓️ 2026-04-17 | #TA2 #FrekuensiKlaim #ModelSelection