Maximum Likelihood Estimation for Survival
📊 1.6 — Maximum Likelihood Estimation for Survival
Ringkasan Cepat›
Topik: MLE untuk Model Survival Parametrik | Bobot: ~15–25% | Difficulty: Hard Ref: London (1997) Bab 6–8; Frees (2010) Bab 14 | Prereq: 1.2 Survival and Hazard Functions, 1.4 Parametric Survival Models, 1.5 Censoring and Non-Parametric Estimation
Section 0 — Pemetaan Topik
| Topik TA1 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Analisis Survival | 1.6 | Konstruksi fungsi likelihood dengan data tersensor; turunkan log-likelihood; selesaikan persamaan likelihood untuk estimasi parameter MLE model eksponensial, Weibull, Gompertz | 15–25% | Hard | 1.2 Survival and Hazard Functions, 1.4 Parametric Survival Models, 1.5 Censoring and Non-Parametric Estimation | 2.2 MLE for Transition Intensities, 1.3 Curtate Future Lifetime | London (1997) Bab 6–8; Frees (2010) Bab 14 |
Section 1 — Intuisi
Bayangkan sebuah perusahaan asuransi jiwa memiliki data 500 nasabah yang diamati selama 5 tahun. Sebagian nasabah meninggal dunia dalam periode pengamatan — waktu kematian mereka tercatat dengan tepat. Namun sebagian lainnya masih hidup saat periode pengamatan berakhir, atau berhenti membayar premi dan keluar dari portofolio di tengah jalan. Untuk nasabah kelompok kedua ini, yang diketahui hanyalah bahwa mereka masih hidup sampai titik tertentu — informasi yang tidak lengkap, namun tetap berharga. Inilah yang disebut data tersensor (censored data).
Pertanyaannya: bagaimana kita mengestimasi parameter model distribusi survival — misalnya laju kematian rata-rata pada model eksponensial, atau parameter bentuk pada model Weibull — dari data yang sebagian tidak lengkap ini? Jawaban standar statistika adalah Maximum Likelihood Estimation (MLE). Ide intinya sederhana: temukan nilai parameter yang membuat data yang kita amati “paling mungkin terjadi”. Untuk data survival yang tersensor, fungsi likelihood harus dimodifikasi agar kontribusi setiap individu — baik yang meninggal maupun yang tersensor — direpresentasikan dengan tepat.
Keindahan MLE dalam konteks survival adalah kemampuannya untuk memanfaatkan semua informasi yang tersedia: individu yang meninggal berkontribusi melalui nilai densitas (seberapa mungkin ia meninggal tepat pada waktu itu), sementara individu yang tersensor berkontribusi melalui nilai probabilitas survival (seberapa mungkin ia masih hidup sampai waktu sensor). Hasilnya adalah estimator yang konsisten, asimtotik normal, dan efisien — properti yang sangat diinginkan dalam pemodelan aktuaria.
Section 2 — Definisi Formal
Definisi Matematis Inti›
Untuk sampel individu dengan waktu pengamatan dan indikator kematian (di mana berarti individu meninggal, berarti tersensor), fungsi likelihood parametrik adalah:
di mana adalah vektor parameter yang hendak diestimasi.
Tabel Variabel & Parameter
| Simbol | Makna | Catatan |
|---|---|---|
| Vektor parameter model (e.g., , , ) | Yang hendak diestimasi | |
| Waktu pengamatan individu (waktu kematian atau waktu sensor) | ||
| Indikator kematian: = meninggal, = tersensor | Bernilai biner | |
| Fungsi densitas model parametrik | Kontribusi individu yang meninggal | |
| Fungsi survival model parametrik | Kontribusi individu yang tersensor | |
| Fungsi hazard model parametrik | ||
| Fungsi likelihood | Produk kontribusi semua individu | |
| Log-likelihood: | Dioptimalkan dalam praktek | |
| Estimator MLE dari | Solusi dari | |
| Jumlah kematian yang teramati dalam sampel | ||
| Total waktu pengamatan (exposure): | Digunakan pada model hazard konstan |
Rumus Utama
1. Fungsi Likelihood Umum (data tersensor kanan):
Label: Inti MLE survival — mesin utama yang harus dikuasai.
2. Menggunakan , likelihood dapat ditulis ulang:
Label: Bentuk hazard — lebih mudah diturunkan log-likelihood-nya untuk model dengan hazard sederhana.
3. Log-likelihood umum:
Label: Selalu ubah ke log-likelihood sebelum didiferensiasikan — produk menjadi penjumlahan.
4. Log-likelihood dalam bentuk hazard:
Label: Karena , bentuk ini menghubungkan hazard dan survival secara eksplisit.
5. MLE untuk model eksponensial (, konstan):
Label: Hasil MLE paling penting dan paling sering diuji — rasio kematian per unit waktu total.
6. Persamaan likelihood score (syarat perlu optimum):
Label: Selesaikan sistem persamaan ini untuk mendapatkan ; untuk model non-eksponensial seringkali memerlukan metode numerik.
Asumsi Eksplisit
- Sensor independen: Mekanisme sensor tidak bergantung pada waktu hidup sebenarnya individu — sensor bersifat non-informative.
- Model parametrik benar: Distribusi survival benar-benar mengikuti bentuk fungsional yang diasumsikan (eksponensial, Weibull, Gompertz, dll.).
- Sensor kanan: Semua sensor adalah right censoring — individu diketahui hidup sampai , tetapi tidak diketahui setelah itu. (Kecuali disebutkan lain.)
- Independensi antar individu: Waktu hidup setiap individu independen satu sama lain.
- Parameter tidak bergantung pada waktu (dalam model parametrik standar) — berlaku untuk model stasioner.
Section 3 — Jembatan Logika
Dari Definisi ke Rumus — Mengapa Likelihood Berbentuk Seperti Itu?›
Likelihood adalah pernyataan matematis tentang “seberapa mungkin data yang kita amati terjadi, jika parameter benar adalah ”. Untuk individu yang meninggal pada waktu : kontribusinya adalah — densitas di titik tersebut, karena kita tahu persis kapan ia meninggal. Untuk individu yang tersensor pada waktu : yang kita tahu hanyalah ia hidup sampai , jadi kontribusinya adalah . Mengalikan semua kontribusi menghasilkan likelihood total. Karena produk sulit dioptimalkan secara analitik, kita ambil logaritma — produk menjadi penjumlahan, dan turunan menjadi lebih mudah.
Support dan Domain›
- Fungsi likelihood harus selalu positif; log-likelihood terdefinisi hanya di domain di mana .
- MLE harus berada di interior ruang parameter (bukan di batas), agar kondisi orde pertama valid.
- Untuk model eksponensial: . Jika dengan (tidak ada kematian), estimator tidak terdefinisi dalam pengertian konvensional.
Derivasi Step-by-Step: MLE Model Eksponensial dengan Data Tersensor
Misalkan , sehingga dan .
Langkah 1 — Tulis fungsi likelihood:
Langkah 2 — Sederhanakan dengan memisahkan faktor:
di mana adalah total kematian teramati.
Langkah 3 — Gabungkan eksponensial:
di mana adalah total exposure (total waktu pengamatan).
Langkah 4 — Ambil log-likelihood:
Langkah 5 — Diferensiasikan dan set nol:
Langkah 6 — Verifikasi ini maksimum (bukan minimum):
Turunan kedua negatif → titik kritis adalah maksimum.
Dilarang›
- Jangan lupa indikator dalam konstruksi likelihood — individu tersensor berkontribusi , bukan . Mencampur keduanya adalah kesalahan fatal.
- Jangan gunakan untuk model non-eksponensial — rumus ini hanya berlaku untuk hazard konstan. Untuk Weibull atau Gompertz, persamaan score harus diselesaikan secara terpisah.
- Jangan abaikan tanda negatif pada turunan kedua saat verifikasi — ini membuktikan bahwa solusi adalah maksimum, bukan minimum.
Section 4 — Contoh Soal
Soal A — Fundamental
Lima individu diamati dalam studi survival. Waktu pengamatan dan status mereka adalah: individu 1 meninggal pada ; individu 2 meninggal pada ; individu 3 tersensor pada ; individu 4 meninggal pada ; individu 5 tersensor pada . Asumsikan model eksponensial . Tentukan MLE .
Solusi Soal A›
Pendekatan: Identifikasi dan , lalu terapkan rumus langsung dari derivasi MLE eksponensial.
1. Identifikasi Variabel
- individu
- Kematian (): →
- Sensor ():
- Total exposure:
2. Identifikasi Distribusi / Model Model eksponensial: , , hazard konstan .
3. Setup Persamaan
4. Eksekusi Aljabar
5. Verification Estimasi harapan hidup residual: tahun. Median = tahun. Mengingat kematian teramati pada , nilai median sekitar 6 tahun terasa masuk akal. ✓
Hasil: , artinya laju kematian diestimasi sekitar 11.1% per tahun.
Exam Tips — Soal A›
Target waktu: 2 menit. Common trap: Membagi dengan (jumlah individu), bukan dengan (total waktu). Ingat: individu yang tersensor tetap menyumbang waktu ke exposure . Shortcut: Hitung dan terpisah, substitusi langsung.
Soal B — Exam-Typical
Dalam studi mortalitas pemegang polis asuransi jiwa, terdapat 8 individu dengan data berikut (model diasumsikan eksponensial):
| Individu | ||
|---|---|---|
| 1 | 1.5 | 1 |
| 2 | 3.0 | 0 |
| 3 | 2.5 | 1 |
| 4 | 4.0 | 1 |
| 5 | 0.5 | 1 |
| 6 | 5.0 | 0 |
| 7 | 3.5 | 0 |
| 8 | 2.0 | 1 |
(a) Tentukan (MLE).
(b) Tulis fungsi log-likelihood secara eksplisit dan verifikasi bahwa adalah solusinya.
(c) Estimasi probabilitas seseorang bertahan lebih dari 3 tahun: .
Solusi Soal B›
Pendekatan: Hitung dan dari tabel, terapkan formula MLE eksponensial, lalu substitusi ke fungsi survival.
1. Identifikasi Variabel
- Kematian (): individu 1, 3, 4, 5, 8 →
- Sensor (): individu 2, 6, 7 → 3 individu tersensor
- Total exposure:
2. Identifikasi Distribusi / Model Model eksponensial: log-likelihood .
3. Setup Persamaan
(a)
(b)
(c)
4. Eksekusi Aljabar
(a)
(b) Verifikasi: turunkan :
(c)
5. Verification Harapan hidup estimasi: tahun. Probabilitas bertahan 3 tahun sebesar konsisten dengan harapan hidup 4.4 tahun (titik median tahun, sangat dekat dengan ) ✓.
Hasil: ; log-likelihood dimaksimumkan di ; .
Exam Tips — Soal B›
Target waktu: 4 menit. Common trap: Menghitung hanya dari individu yang meninggal — individu tersensor tetap berkontribusi penuh ke . Shortcut: Urutkan tabel, pisahkan kolom dan , jumlahkan semua untuk .
Soal C — Challenging
Asumsikan model Weibull dengan fungsi hazard dan fungsi survival , di mana (parameter bentuk) dan (parameter skala).
Diberikan data berikut dari 6 individu:
| Individu | ||
|---|---|---|
| 1 | 1 | 1 |
| 2 | 2 | 1 |
| 3 | 3 | 0 |
| 4 | 4 | 1 |
| 5 | 5 | 0 |
| 6 | 6 | 1 |
(a) Tulis fungsi log-likelihood secara eksplisit.
(b) Dengan (diketahui), tentukan MLE .
(c) Estimasi .
Solusi Soal C›
Pendekatan: Gunakan bentuk likelihood dengan hazard survival, turunkan log-likelihood, lalu selesaikan persamaan score untuk dengan tetap.
1. Identifikasi Variabel
- (kematian: individu 1, 2, 4, 6)
- Sensor: individu 3 (), individu 5 ()
2. Identifikasi Distribusi / Model Model Weibull dua parameter. Log-likelihood menggunakan dan .
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Log-likelihood umum:
Substitusi data: ; kematian pada ; sensor pada .
(b) MLE dengan tetap:
Hitung .
Log-likelihood menjadi (hanya suku yang mengandung ):
Persamaan score:
(c) Estimasi :
5. Verification Cek: persamaan score untuk berbentuk sama dengan model eksponensial — , yang merupakan generalisasi alami dari . Untuk (eksponensial), ini reduksi ke ✓. Nilai masuk akal — lebih dari separuh individu bertahan 3 tahun.
Hasil: ; dengan : ; .
Exam Tips — Soal C›
Target waktu: 6 menit. Common trap: Lupa bahwa mencakup semua individu (baik yang meninggal maupun yang tersensor), bukan hanya yang meninggal. Shortcut: Kenali pola sebagai generalisasi MLE eksponensial — berlaku untuk semua model Weibull di mana hanya yang diestimasi dengan diketahui.
Section 5 — Verifikasi & Sanity Check
Cek 1 — Dimensi Estimator MLE Eksponensial›
memiliki satuan . Ini konsisten dengan interpretasi sebagai laju kematian per unit waktu. Jika dalam satuan orang-tahun, maka dalam satuan per tahun. Selalu periksa dimensi sebelum melaporkan hasil.
Cek 2 — Reduksi ke Kasus Lengkap (Tanpa Sensor)›
Jika tidak ada sensor ( untuk semua ), maka dan , sehingga — identik dengan MLE distribusi eksponensial pada data lengkap (kebalikan rata-rata sampel). Ini adalah cek konsistensi yang kuat: saat sensor dihilangkan, MLE survival harus mereduksi ke MLE standar.
Cek 3 — Generalisasi Weibull ke Eksponensial›
Untuk model Weibull dengan : , sehingga . Ini memverifikasi bahwa Weibull dengan identik dengan model eksponensial.
Metode Alternatif
Untuk model eksponensial, MLE juga dapat diturunkan dengan memperhatikan bahwa log-likelihood adalah fungsi konkaf. Maksimum dicapai di dan ini unik karena untuk . Jika (tidak ada kematian teramati), fungsi monoton turun dalam — MLE tidak terdefinisi (atau sebagai solusi batas).
Section 6 — Visualisasi Mental
Visualisasi 1 — Kontribusi Likelihood setiap Individu:
Timeline pengamatan:
Ind 1: ●──────────────× t=2 × = meninggal (kontribusi: f(2))
Ind 2: ●──────────────────────── t=3 ] = tersensor (kontribusi: S(3))
Ind 3: ●──────────────────────────────────× t=5 (kontribusi: f(5))
0 2 3 4 5 6 → waktu
● = masuk studi × = kematian ] = sensor (masih hidup, keluar studi)
L = f(t₁) × S(t₂) × f(t₃) × ...
Visualisasi 2 — Permukaan Log-likelihood Model Eksponensial:
ℓ(μ)
↑
| ● ← maksimum di μ̂ = d/V
| / \
| / \
| / \
|/ \
+─────────────────→ μ
0 d/V
Bentuk: konkaf (cembung ke bawah), satu puncak global
Semakin besar d → puncak lebih tajam → estimasi lebih presisi
Visualisasi 3 — Struktur Data Survival dengan Sensor:
Individu Waktu pengamatan Status akhir
─────────────────────────────────────────────────
1 ●────────────× MATI (δ=1)
2 ●────────────────────] SENSOR (δ=0)
3 ●──× MATI (δ=1)
4 ●────────────────────────────× MATI (δ=1)
5 ●───────────] SENSOR (δ=0)
─────────────────────────────────────→ waktu
V = total panjang semua garis (exposure)
d = jumlah tanda × (kematian)
μ̂ = d / V
Hubungan Visual ↔ Rumus
- Setiap tanda → menyumbang ke log-likelihood
- Setiap tanda → menyumbang ke log-likelihood
- Panjang garis setiap individu → menyumbang ke (exposure total)
- Puncak kurva → posisinya tepat di
Section 7 — Jebakan Umum
Kesalahan Parametrisasi — Kontribusi Individu Tersensor›
Salah: Individu tersensor diabaikan (tidak dimasukkan ke likelihood sama sekali).
Benar: Individu tersensor berkontribusi — mereka memberikan informasi bahwa individu tersebut hidup setidaknya sampai .
Mengabaikan individu tersensor menghasilkan estimator yang bias ke atas (overestimate laju kematian) karena hanya individu yang meninggal yang dihitung.
Kesalahan Konseptual — MLE Eksponensial Digunakan Sembarangan›
- bukan rumus universal: Hanya berlaku untuk model eksponensial (hazard konstan). Untuk Weibull, Gompertz, dll., perlu menurunkan persamaan score secara terpisah.
- tidak sama dengan ketika ada sensor: mencakup semua individu, tetapi beberapa adalah waktu sensor, bukan waktu kematian.
- Sensor kematian: Individu tersensor pada berarti ia hidup sampai , bukan meninggal di .
- Log-likelihood bukan likelihood: Maximizing menghasilkan MLE yang sama dengan maximizing , tetapi jauh lebih mudah didiferensiasikan. Jangan campurkan keduanya dalam satu ekspresi.
Kesalahan Interpretasi Soal›
- “Censored at ” = individu tersensor pada waktu → , berkontribusi
- “Observed to die at ” = kematian teramati → , berkontribusi
- “Lost to follow-up” = jenis sensor → perlakuan sama dengan sensor kanan
- “Study ends at ” = individu yang masih hidup saat tersensor pada
Red Flags — Keyword Pemicu Prosedur›
- “Exponential model” + data tersensor → , hitung dan secara cermat
- “Weibull model” + diketahui →
- “Derive MLE” → turunkan , set , selesaikan
- “Write the likelihood function” → pastikan muncul sebagai eksponen, bukan faktor pengali
- “Verify MLE” → substitusi ke persamaan score dan tunjukkan hasilnya nol
Section 8 — Ringkasan Eksekutif
Must-Remember›
- Likelihood umum survival (data tersensor kanan):
- Log-likelihood (selalu gunakan ini):
- MLE model eksponensial (paling sering diuji):
- MLE model Weibull ( diketahui):
- Syarat MLE — persamaan score:
Kapan Digunakan
- Soal yang meminta estimasi parameter model survival dari data dengan sensor
- Soal yang menyebut “MLE”, “maximum likelihood”, atau “estimate the parameter”
- Soal yang memberikan tabel individu dengan kolom dan (atau status hidup/mati)
- Soal yang meminta log-likelihood atau likelihood function secara eksplisit
- Soal model eksponensial, Weibull (dengan tetap), atau Gompertz
Kapan TIDAK Boleh Digunakan
- Saat tidak ada asumsi model parametrik → gunakan 1.5 Censoring and Non-Parametric Estimation (Kaplan-Meier, Nelson-Aalen)
- Saat soal meminta probabilitas survival empiris, bukan estimasi parameter parametrik
- Saat data tidak tersensor dan distribusi diketahui → MLE standar tanpa modifikasi survival
- Saat soal tentang intensitas transisi antar state → gunakan 2.2 MLE for Transition Intensities
Quick Decision Tree
graph TD
A["Data survival diberikan<br>(tabel t_i dan delta_i)"] -->|"Ada sensor?"| B["Ya — gunakan<br>likelihood survival"]
A -->|"Tidak ada sensor"| C["MLE standar:<br>diferensiasikan log-likelihood biasa"]
B --> D["Model parametrik<br>apa yang diasumsikan?"]
D -->|"Eksponensial"| E["Hitung d = jumlah kematian<br>Hitung V = jumlah semua t_i<br>mu-hat = d / V"]
D -->|"Weibull (alpha diketahui)"| F["Hitung d<br>Hitung sum t_i^alpha (semua individu)<br>lambda-hat = d / sum t_i^alpha"]
D -->|"Model lain / dua parameter"| G["Tulis log-likelihood<br>Selesaikan sistem persamaan score<br>d-ell/d-theta = 0"]
E --> H["Estimasi S(t) atau f(t)<br>dengan substitusi parameter hat"]
F --> H
G --> H
C --> H
Follow-up Options›
- “Berikan contoh soal MLE model Gompertz dengan data tersensor”
- “Jelaskan hubungan 1.6 Maximum Likelihood Estimation for Survival dengan 2.2 MLE for Transition Intensities”
- “Buat flashcard 1-halaman: rumus likelihood, kontribusi sensor vs. kematian, dan MLE eksponensial”
📖 Ref: London (1997) Survival Models and Their Estimation, Bab 6–8; Frees (2010) Bab 14 | 🗓️ 2026-04-19 | #TA1 #AnalisisSurvival #MLE #CensoredData