AktuNotes
← Kembali
TA1 · Materi 1.6

Maximum Likelihood Estimation for Survival

Hard Bobot: 15–25% (bersama Topik 1) London (1997), Survival Models and Their Estimation, Bab 6–8; Frees (2010), Bab 14
TA1AnalisisSurvivalMLEMaximumLikelihoodCensoredDataParametricSurvival

📊 1.6 — Maximum Likelihood Estimation for Survival

Ringkasan Cepat

Topik: MLE untuk Model Survival Parametrik | Bobot: ~15–25% | Difficulty: Hard Ref: London (1997) Bab 6–8; Frees (2010) Bab 14 | Prereq: 1.2 Survival and Hazard Functions, 1.4 Parametric Survival Models, 1.5 Censoring and Non-Parametric Estimation


Section 0 — Pemetaan Topik

Topik TA1Sub-topik IDSkill DiujiBobotDifficultyPrerequisiteConnected TopicsReferensi
Analisis Survival1.6Konstruksi fungsi likelihood dengan data tersensor; turunkan log-likelihood; selesaikan persamaan likelihood untuk estimasi parameter MLE model eksponensial, Weibull, Gompertz15–25%Hard1.2 Survival and Hazard Functions, 1.4 Parametric Survival Models, 1.5 Censoring and Non-Parametric Estimation2.2 MLE for Transition Intensities, 1.3 Curtate Future LifetimeLondon (1997) Bab 6–8; Frees (2010) Bab 14

Section 1 — Intuisi

Bayangkan sebuah perusahaan asuransi jiwa memiliki data 500 nasabah yang diamati selama 5 tahun. Sebagian nasabah meninggal dunia dalam periode pengamatan — waktu kematian mereka tercatat dengan tepat. Namun sebagian lainnya masih hidup saat periode pengamatan berakhir, atau berhenti membayar premi dan keluar dari portofolio di tengah jalan. Untuk nasabah kelompok kedua ini, yang diketahui hanyalah bahwa mereka masih hidup sampai titik tertentu — informasi yang tidak lengkap, namun tetap berharga. Inilah yang disebut data tersensor (censored data).

Pertanyaannya: bagaimana kita mengestimasi parameter model distribusi survival — misalnya laju kematian rata-rata μ\mu pada model eksponensial, atau parameter bentuk α\alpha pada model Weibull — dari data yang sebagian tidak lengkap ini? Jawaban standar statistika adalah Maximum Likelihood Estimation (MLE). Ide intinya sederhana: temukan nilai parameter yang membuat data yang kita amati “paling mungkin terjadi”. Untuk data survival yang tersensor, fungsi likelihood harus dimodifikasi agar kontribusi setiap individu — baik yang meninggal maupun yang tersensor — direpresentasikan dengan tepat.

Keindahan MLE dalam konteks survival adalah kemampuannya untuk memanfaatkan semua informasi yang tersedia: individu yang meninggal berkontribusi melalui nilai densitas (seberapa mungkin ia meninggal tepat pada waktu itu), sementara individu yang tersensor berkontribusi melalui nilai probabilitas survival (seberapa mungkin ia masih hidup sampai waktu sensor). Hasilnya adalah estimator yang konsisten, asimtotik normal, dan efisien — properti yang sangat diinginkan dalam pemodelan aktuaria.


Section 2 — Definisi Formal

Definisi Matematis Inti

Untuk sampel nn individu dengan waktu pengamatan tit_i dan indikator kematian δi{0,1}\delta_i \in \{0, 1\} (di mana δi=1\delta_i = 1 berarti individu ii meninggal, δi=0\delta_i = 0 berarti tersensor), fungsi likelihood parametrik adalah:

L(θ)=i=1n[f(ti;θ)]δi[S(ti;θ)]1δiL(\theta) = \prod_{i=1}^{n} \left[f(t_i;\,\theta)\right]^{\delta_i} \left[S(t_i;\,\theta)\right]^{1-\delta_i}

di mana θ\theta adalah vektor parameter yang hendak diestimasi.

Tabel Variabel & Parameter

SimbolMaknaCatatan
θ\thetaVektor parameter model (e.g., μ\mu, α\alpha, λ\lambda)Yang hendak diestimasi
tit_iWaktu pengamatan individu ii (waktu kematian atau waktu sensor)ti>0t_i > 0
δi\delta_iIndikator kematian: 11 = meninggal, 00 = tersensorBernilai biner
f(t;θ)f(t;\,\theta)Fungsi densitas model parametrikKontribusi individu yang meninggal
S(t;θ)S(t;\,\theta)Fungsi survival model parametrikKontribusi individu yang tersensor
μ(t;θ)\mu(t;\,\theta)Fungsi hazard model parametrik=f(t;θ)/S(t;θ)= f(t;\,\theta)/S(t;\,\theta)
L(θ)L(\theta)Fungsi likelihoodProduk kontribusi semua individu
(θ)\ell(\theta)Log-likelihood: (θ)=lnL(θ)\ell(\theta) = \ln L(\theta)Dioptimalkan dalam praktek
θ^\hat{\theta}Estimator MLE dari θ\thetaSolusi dari /θ=0\partial \ell / \partial \theta = 0
ddJumlah kematian yang teramati dalam sampeld=i=1nδid = \sum_{i=1}^n \delta_i
VVTotal waktu pengamatan (exposure): V=i=1ntiV = \sum_{i=1}^n t_iDigunakan pada model hazard konstan

Rumus Utama

1. Fungsi Likelihood Umum (data tersensor kanan):

L(θ)=i=1n[f(ti;θ)]δi[S(ti;θ)]1δiL(\theta) = \prod_{i=1}^{n} \left[f(t_i;\,\theta)\right]^{\delta_i} \left[S(t_i;\,\theta)\right]^{1-\delta_i}

Label: Inti MLE survival — mesin utama yang harus dikuasai.

2. Menggunakan f=μSf = \mu \cdot S, likelihood dapat ditulis ulang:

L(θ)=i=1n[μ(ti;θ)]δiS(ti;θ)L(\theta) = \prod_{i=1}^{n} \left[\mu(t_i;\,\theta)\right]^{\delta_i} S(t_i;\,\theta)

Label: Bentuk hazard — lebih mudah diturunkan log-likelihood-nya untuk model dengan hazard sederhana.

3. Log-likelihood umum:

(θ)=i=1nδilnf(ti;θ)+i=1n(1δi)lnS(ti;θ)\ell(\theta) = \sum_{i=1}^{n} \delta_i \ln f(t_i;\,\theta) + \sum_{i=1}^{n} (1-\delta_i) \ln S(t_i;\,\theta)

Label: Selalu ubah ke log-likelihood sebelum didiferensiasikan — produk menjadi penjumlahan.

4. Log-likelihood dalam bentuk hazard:

(θ)=i=1nδilnμ(ti;θ)+i=1nlnS(ti;θ)\ell(\theta) = \sum_{i=1}^{n} \delta_i \ln \mu(t_i;\,\theta) + \sum_{i=1}^{n} \ln S(t_i;\,\theta)

Label: Karena lnS(ti;θ)=0tiμ(s;θ)ds\ln S(t_i;\,\theta) = -\int_0^{t_i} \mu(s;\,\theta)\, ds, bentuk ini menghubungkan hazard dan survival secara eksplisit.

5. MLE untuk model eksponensial (μ(t)=μ\mu(t) = \mu, konstan):

μ^=dV=jumlah kematiantotal exposure\hat{\mu} = \frac{d}{V} = \frac{\text{jumlah kematian}}{\text{total exposure}}

Label: Hasil MLE paling penting dan paling sering diuji — rasio kematian per unit waktu total.

6. Persamaan likelihood score (syarat perlu optimum):

(θ)θ=0\frac{\partial \ell(\theta)}{\partial \theta} = 0

Label: Selesaikan sistem persamaan ini untuk mendapatkan θ^\hat{\theta}; untuk model non-eksponensial seringkali memerlukan metode numerik.

Asumsi Eksplisit

  1. Sensor independen: Mekanisme sensor tidak bergantung pada waktu hidup sebenarnya individu — sensor bersifat non-informative.
  2. Model parametrik benar: Distribusi survival benar-benar mengikuti bentuk fungsional yang diasumsikan (eksponensial, Weibull, Gompertz, dll.).
  3. Sensor kanan: Semua sensor adalah right censoring — individu diketahui hidup sampai tit_i, tetapi tidak diketahui setelah itu. (Kecuali disebutkan lain.)
  4. Independensi antar individu: Waktu hidup setiap individu independen satu sama lain.
  5. Parameter θ\theta tidak bergantung pada waktu (dalam model parametrik standar) — berlaku untuk model stasioner.

Section 3 — Jembatan Logika

Dari Definisi ke Rumus — Mengapa Likelihood Berbentuk Seperti Itu?

Likelihood adalah pernyataan matematis tentang “seberapa mungkin data yang kita amati terjadi, jika parameter benar adalah θ\theta”. Untuk individu yang meninggal pada waktu tit_i: kontribusinya adalah f(ti;θ)f(t_i;\,\theta) — densitas di titik tersebut, karena kita tahu persis kapan ia meninggal. Untuk individu yang tersensor pada waktu tit_i: yang kita tahu hanyalah ia hidup sampai tit_i, jadi kontribusinya adalah Pr(T>ti)=S(ti;θ)\Pr(T > t_i) = S(t_i;\,\theta). Mengalikan semua kontribusi menghasilkan likelihood total. Karena produk sulit dioptimalkan secara analitik, kita ambil logaritma — produk menjadi penjumlahan, dan turunan menjadi lebih mudah.

Support dan Domain
  • Fungsi likelihood L(θ)L(\theta) harus selalu positif; log-likelihood (θ)\ell(\theta) terdefinisi hanya di domain di mana L(θ)>0L(\theta) > 0.
  • MLE θ^\hat{\theta} harus berada di interior ruang parameter (bukan di batas), agar kondisi orde pertama /θ=0\partial\ell/\partial\theta = 0 valid.
  • Untuk model eksponensial: μ>0\mu > 0. Jika μ^=d/V\hat{\mu} = d/V dengan d=0d = 0 (tidak ada kematian), estimator tidak terdefinisi dalam pengertian konvensional.

Derivasi Step-by-Step: MLE Model Eksponensial dengan Data Tersensor

Misalkan TiExp(μ)T_i \sim \text{Exp}(\mu), sehingga f(t;μ)=μeμtf(t;\,\mu) = \mu e^{-\mu t} dan S(t;μ)=eμtS(t;\,\mu) = e^{-\mu t}.

Langkah 1 — Tulis fungsi likelihood:

L(μ)=i=1n[μeμti]δi[eμti]1δiL(\mu) = \prod_{i=1}^{n} \left[\mu e^{-\mu t_i}\right]^{\delta_i} \left[e^{-\mu t_i}\right]^{1-\delta_i}

Langkah 2 — Sederhanakan dengan memisahkan faktor:

L(μ)=i=1nμδieμtiδieμti(1δi)=μdi=1neμtiL(\mu) = \prod_{i=1}^{n} \mu^{\delta_i} \cdot e^{-\mu t_i \delta_i} \cdot e^{-\mu t_i (1-\delta_i)} = \mu^d \cdot \prod_{i=1}^{n} e^{-\mu t_i}

di mana d=i=1nδid = \sum_{i=1}^n \delta_i adalah total kematian teramati.

Langkah 3 — Gabungkan eksponensial:

L(μ)=μdeμi=1nti=μdeμVL(\mu) = \mu^d \cdot e^{-\mu \sum_{i=1}^n t_i} = \mu^d \cdot e^{-\mu V}

di mana V=i=1ntiV = \sum_{i=1}^n t_i adalah total exposure (total waktu pengamatan).

Langkah 4 — Ambil log-likelihood:

(μ)=dlnμμV\ell(\mu) = d \ln \mu - \mu V

Langkah 5 — Diferensiasikan dan set nol:

ddμ=dμV=0    μ^=dV\frac{d\ell}{d\mu} = \frac{d}{\mu} - V = 0 \implies \hat{\mu} = \frac{d}{V}

Langkah 6 — Verifikasi ini maksimum (bukan minimum):

d2dμ2=dμ2<0\frac{d^2\ell}{d\mu^2} = -\frac{d}{\mu^2} < 0 \quad \checkmark

Turunan kedua negatif → titik kritis adalah maksimum.

Dilarang
  1. Jangan lupa indikator δi\delta_i dalam konstruksi likelihood — individu tersensor berkontribusi S(ti)S(t_i), bukan f(ti)f(t_i). Mencampur keduanya adalah kesalahan fatal.
  2. Jangan gunakan μ^=d/V\hat{\mu} = d/V untuk model non-eksponensial — rumus ini hanya berlaku untuk hazard konstan. Untuk Weibull atau Gompertz, persamaan score harus diselesaikan secara terpisah.
  3. Jangan abaikan tanda negatif pada turunan kedua saat verifikasi — ini membuktikan bahwa solusi adalah maksimum, bukan minimum.

Section 4 — Contoh Soal

Soal A — Fundamental

Lima individu diamati dalam studi survival. Waktu pengamatan dan status mereka adalah: individu 1 meninggal pada t=2t = 2; individu 2 meninggal pada t=5t = 5; individu 3 tersensor pada t=3t = 3; individu 4 meninggal pada t=7t = 7; individu 5 tersensor pada t=10t = 10. Asumsikan model eksponensial TExp(μ)T \sim \text{Exp}(\mu). Tentukan MLE μ^\hat{\mu}.

Solusi Soal A

Pendekatan: Identifikasi dd dan VV, lalu terapkan rumus μ^=d/V\hat{\mu} = d/V langsung dari derivasi MLE eksponensial.

1. Identifikasi Variabel

  • n=5n = 5 individu
  • Kematian (δi=1\delta_i = 1): t=2,5,7t = 2, 5, 7d=3d = 3
  • Sensor (δi=0\delta_i = 0): t=3,10t = 3, 10
  • Total exposure: V=2+5+3+7+10=27V = 2 + 5 + 3 + 7 + 10 = 27

2. Identifikasi Distribusi / Model Model eksponensial: f(t;μ)=μeμtf(t;\,\mu) = \mu e^{-\mu t}, S(t;μ)=eμtS(t;\,\mu) = e^{-\mu t}, hazard konstan μ\mu.

3. Setup Persamaan

μ^=dV=jumlah kematiantotal waktu pengamatan\hat{\mu} = \frac{d}{V} = \frac{\text{jumlah kematian}}{\text{total waktu pengamatan}}

4. Eksekusi Aljabar

μ^=327=190.1111\hat{\mu} = \frac{3}{27} = \frac{1}{9} \approx 0.1111

5. Verification Estimasi harapan hidup residual: E^[T]=1/μ^=9\hat{E}[T] = 1/\hat{\mu} = 9 tahun. Median = ln2/μ^6.24\ln 2 / \hat{\mu} \approx 6.24 tahun. Mengingat kematian teramati pada t=2,5,7t = 2, 5, 7, nilai median sekitar 6 tahun terasa masuk akal. ✓

Hasil: μ^=1/90.111\hat{\mu} = 1/9 \approx 0.111, artinya laju kematian diestimasi sekitar 11.1% per tahun.

Exam Tips — Soal A

Target waktu: 2 menit. Common trap: Membagi dd dengan nn (jumlah individu), bukan dengan VV (total waktu). Ingat: individu yang tersensor tetap menyumbang waktu ke exposure VV. Shortcut: Hitung dd dan VV terpisah, substitusi langsung.


Soal B — Exam-Typical

Dalam studi mortalitas pemegang polis asuransi jiwa, terdapat 8 individu dengan data berikut (model diasumsikan eksponensial):

Individutit_iδi\delta_i
11.51
23.00
32.51
44.01
50.51
65.00
73.50
82.01

(a) Tentukan μ^\hat{\mu} (MLE).

(b) Tulis fungsi log-likelihood (μ)\ell(\mu) secara eksplisit dan verifikasi bahwa μ^\hat{\mu} adalah solusinya.

(c) Estimasi probabilitas seseorang bertahan lebih dari 3 tahun: S^(3)\hat{S}(3).

Solusi Soal B

Pendekatan: Hitung dd dan VV dari tabel, terapkan formula MLE eksponensial, lalu substitusi ke fungsi survival.

1. Identifikasi Variabel

  • Kematian (δi=1\delta_i = 1): individu 1, 3, 4, 5, 8 → d=5d = 5
  • Sensor (δi=0\delta_i = 0): individu 2, 6, 7 → 3 individu tersensor
  • Total exposure: V=1.5+3.0+2.5+4.0+0.5+5.0+3.5+2.0=22.0V = 1.5 + 3.0 + 2.5 + 4.0 + 0.5 + 5.0 + 3.5 + 2.0 = 22.0

2. Identifikasi Distribusi / Model Model eksponensial: log-likelihood (μ)=dlnμμV\ell(\mu) = d\ln\mu - \mu V.

3. Setup Persamaan

(a)

μ^=dV\hat{\mu} = \frac{d}{V}

(b)

(μ)=5lnμ22μ\ell(\mu) = 5\ln\mu - 22\mu

(c)

S^(3)=eμ^3\hat{S}(3) = e^{-\hat{\mu} \cdot 3}

4. Eksekusi Aljabar

(a)

μ^=5220.2273\hat{\mu} = \frac{5}{22} \approx 0.2273

(b) Verifikasi: turunkan (μ)=5lnμ22μ\ell(\mu) = 5\ln\mu - 22\mu:

ddμ=5μ22=0    μ=522=μ^\frac{d\ell}{d\mu} = \frac{5}{\mu} - 22 = 0 \implies \mu = \frac{5}{22} = \hat{\mu} \quad \checkmark

(c)

S^(3)=e(5/22)3=e15/22=e0.68180.5058\hat{S}(3) = e^{-(5/22)\cdot 3} = e^{-15/22} = e^{-0.6818} \approx 0.5058

5. Verification Harapan hidup estimasi: 1/μ^=22/5=4.41/\hat{\mu} = 22/5 = 4.4 tahun. Probabilitas bertahan 3 tahun sebesar 50.6%\approx 50.6\% konsisten dengan harapan hidup 4.4 tahun (titik median =ln2/μ^=0.6931×22/53.05= \ln 2 / \hat{\mu} = 0.6931 \times 22/5 \approx 3.05 tahun, sangat dekat dengan t=3t = 3) ✓.

Hasil: μ^0.2273\hat{\mu} \approx 0.2273; log-likelihood (μ)=5lnμ22μ\ell(\mu) = 5\ln\mu - 22\mu dimaksimumkan di μ=5/22\mu = 5/22; S^(3)50.6%\hat{S}(3) \approx 50.6\%.

Exam Tips — Soal B

Target waktu: 4 menit. Common trap: Menghitung VV hanya dari individu yang meninggal — individu tersensor tetap berkontribusi penuh ke VV. Shortcut: Urutkan tabel, pisahkan kolom δi=1\delta_i = 1 dan δi=0\delta_i = 0, jumlahkan semua tit_i untuk VV.


Soal C — Challenging

Asumsikan model Weibull dengan fungsi hazard μ(t;α,λ)=αλtα1\mu(t;\,\alpha,\,\lambda) = \alpha \lambda t^{\alpha-1} dan fungsi survival S(t;α,λ)=eλtαS(t;\,\alpha,\,\lambda) = e^{-\lambda t^\alpha}, di mana α>0\alpha > 0 (parameter bentuk) dan λ>0\lambda > 0 (parameter skala).

Diberikan data berikut dari 6 individu:

Individutit_iδi\delta_i
111
221
330
441
550
661

(a) Tulis fungsi log-likelihood (α,λ)\ell(\alpha, \lambda) secara eksplisit.

(b) Dengan α=2\alpha = 2 (diketahui), tentukan MLE λ^\hat{\lambda}.

(c) Estimasi S(3;α=2,λ^)S(3;\,\alpha=2,\,\hat{\lambda}).

Solusi Soal C

Pendekatan: Gunakan bentuk likelihood dengan hazard ×\times survival, turunkan log-likelihood, lalu selesaikan persamaan score untuk λ\lambda dengan α\alpha tetap.

1. Identifikasi Variabel

  • d=4d = 4 (kematian: individu 1, 2, 4, 6)
  • Sensor: individu 3 (t=3t=3), individu 5 (t=5t=5)
  • f(t;α,λ)=μ(t)S(t)=αλtα1eλtαf(t;\,\alpha,\lambda) = \mu(t) \cdot S(t) = \alpha\lambda t^{\alpha-1} \cdot e^{-\lambda t^\alpha}
  • S(t;α,λ)=eλtαS(t;\,\alpha,\lambda) = e^{-\lambda t^\alpha}

2. Identifikasi Distribusi / Model Model Weibull dua parameter. Log-likelihood menggunakan lnf=ln(αλ)+(α1)lntλtα\ln f = \ln(\alpha\lambda) + (\alpha-1)\ln t - \lambda t^\alpha dan lnS=λtα\ln S = -\lambda t^\alpha.

3. Setup Persamaan

(α,λ)=i:δi=1ln ⁣[αλtiα1eλtiα]+i:δi=0ln ⁣[eλtiα]\ell(\alpha,\lambda) = \sum_{i:\delta_i=1} \ln\!\left[\alpha\lambda t_i^{\alpha-1} e^{-\lambda t_i^\alpha}\right] + \sum_{i:\delta_i=0} \ln\!\left[e^{-\lambda t_i^\alpha}\right]

4. Eksekusi Aljabar

(a) Log-likelihood umum:

(α,λ)=i=16δi[lnα+lnλ+(α1)lnti]λi=16tiα\ell(\alpha,\lambda) = \sum_{i=1}^{6} \delta_i \left[\ln\alpha + \ln\lambda + (\alpha-1)\ln t_i\right] - \lambda \sum_{i=1}^{6} t_i^\alpha =dlnα+dlnλ+(α1)i:δi=1lntiλi=16tiα= d\ln\alpha + d\ln\lambda + (\alpha-1)\sum_{i:\delta_i=1}\ln t_i - \lambda \sum_{i=1}^{6} t_i^\alpha

Substitusi data: d=4d = 4; kematian pada t=1,2,4,6t = 1, 2, 4, 6; sensor pada t=3,5t = 3, 5.

(α,λ)=4lnα+4lnλ+(α1)(ln1+ln2+ln4+ln6)λ(1α+2α+3α+4α+5α+6α)\ell(\alpha,\lambda) = 4\ln\alpha + 4\ln\lambda + (\alpha-1)(\ln 1 + \ln 2 + \ln 4 + \ln 6) - \lambda(1^\alpha + 2^\alpha + 3^\alpha + 4^\alpha + 5^\alpha + 6^\alpha)

(b) MLE λ^\hat{\lambda} dengan α=2\alpha = 2 tetap:

Hitung i=16ti2=1+4+9+16+25+36=91\sum_{i=1}^6 t_i^2 = 1 + 4 + 9 + 16 + 25 + 36 = 91.

Log-likelihood menjadi (hanya suku yang mengandung λ\lambda):

(λ)=4lnλ91λ+konstan\ell(\lambda) = 4\ln\lambda - 91\lambda + \text{konstan}

Persamaan score:

λ=4λ91=0    λ^=4910.04396\frac{\partial\ell}{\partial\lambda} = \frac{4}{\lambda} - 91 = 0 \implies \hat{\lambda} = \frac{4}{91} \approx 0.04396

(c) Estimasi S(3;α=2,λ^)S(3;\,\alpha=2,\,\hat{\lambda}):

S^(3)=eλ^32=e(4/91)9=e36/91=e0.39560.6732\hat{S}(3) = e^{-\hat{\lambda}\cdot 3^2} = e^{-(4/91)\cdot 9} = e^{-36/91} = e^{-0.3956} \approx 0.6732

5. Verification Cek: persamaan score untuk λ\lambda berbentuk sama dengan model eksponensial — λ^=d/tiα\hat{\lambda} = d / \sum t_i^\alpha, yang merupakan generalisasi alami dari μ^=d/V\hat{\mu} = d/V. Untuk α=1\alpha = 1 (eksponensial), ini reduksi ke μ^=d/ti\hat{\mu} = d/\sum t_i ✓. Nilai S^(3)67%\hat{S}(3) \approx 67\% masuk akal — lebih dari separuh individu bertahan 3 tahun.

Hasil: (α,λ)=4lnα+4lnλ+(α1)δ=1lntiλtiα\ell(\alpha,\lambda) = 4\ln\alpha + 4\ln\lambda + (\alpha-1)\sum_{\delta=1}\ln t_i - \lambda\sum t_i^\alpha; dengan α=2\alpha=2: λ^=4/910.0440\hat{\lambda} = 4/91 \approx 0.0440; S^(3)67.3%\hat{S}(3) \approx 67.3\%.

Exam Tips — Soal C

Target waktu: 6 menit. Common trap: Lupa bahwa tiα\sum t_i^\alpha mencakup semua nn individu (baik yang meninggal maupun yang tersensor), bukan hanya yang meninggal. Shortcut: Kenali pola λ^=d/tiα\hat{\lambda} = d / \sum t_i^\alpha sebagai generalisasi MLE eksponensial — berlaku untuk semua model Weibull di mana hanya λ\lambda yang diestimasi dengan α\alpha diketahui.


Section 5 — Verifikasi & Sanity Check

Cek 1 — Dimensi Estimator MLE Eksponensial

μ^=d/V\hat{\mu} = d/V memiliki satuan [kematian]/[waktu]=per waktu[\text{kematian}] / [\text{waktu}] = \text{per waktu}. Ini konsisten dengan interpretasi μ\mu sebagai laju kematian per unit waktu. Jika VV dalam satuan orang-tahun, maka μ^\hat{\mu} dalam satuan per tahun. Selalu periksa dimensi sebelum melaporkan hasil.

Cek 2 — Reduksi ke Kasus Lengkap (Tanpa Sensor)

Jika tidak ada sensor (δi=1\delta_i = 1 untuk semua ii), maka V=tiV = \sum t_i dan d=nd = n, sehingga μ^=n/ti=1/tˉ\hat{\mu} = n / \sum t_i = 1/\bar{t} — identik dengan MLE distribusi eksponensial pada data lengkap (kebalikan rata-rata sampel). Ini adalah cek konsistensi yang kuat: saat sensor dihilangkan, MLE survival harus mereduksi ke MLE standar.

Cek 3 — Generalisasi Weibull ke Eksponensial

Untuk model Weibull dengan α=1\alpha = 1: tiα=ti=V\sum t_i^\alpha = \sum t_i = V, sehingga λ^=d/V=μ^\hat{\lambda} = d/V = \hat{\mu}. Ini memverifikasi bahwa Weibull dengan α=1\alpha = 1 identik dengan model eksponensial.

Metode Alternatif

Untuk model eksponensial, MLE juga dapat diturunkan dengan memperhatikan bahwa log-likelihood (μ)=dlnμμV\ell(\mu) = d\ln\mu - \mu V adalah fungsi konkaf. Maksimum dicapai di μ^=d/V\hat{\mu} = d/V dan ini unik karena (μ)=d/μ2<0\ell''(\mu) = -d/\mu^2 < 0 untuk d>0d > 0. Jika d=0d = 0 (tidak ada kematian teramati), fungsi \ell monoton turun dalam μ\mu — MLE tidak terdefinisi (atau μ^=0\hat{\mu} = 0 sebagai solusi batas).


Section 6 — Visualisasi Mental

Visualisasi 1 — Kontribusi Likelihood setiap Individu:

Timeline pengamatan:

Ind 1: ●──────────────× t=2      × = meninggal (kontribusi: f(2))
Ind 2: ●──────────────────────── t=3  ] = tersensor (kontribusi: S(3))
Ind 3: ●──────────────────────────────────× t=5  (kontribusi: f(5))

        0              2    3    4    5    6  → waktu

● = masuk studi   × = kematian   ] = sensor (masih hidup, keluar studi)

L = f(t₁) × S(t₂) × f(t₃) × ...

Visualisasi 2 — Permukaan Log-likelihood Model Eksponensial:

ℓ(μ)

  |        ●  ← maksimum di μ̂ = d/V
  |      /   \
  |    /       \
  |  /           \
  |/               \
  +─────────────────→ μ
  0      d/V

Bentuk: konkaf (cembung ke bawah), satu puncak global
Semakin besar d → puncak lebih tajam → estimasi lebih presisi

Visualisasi 3 — Struktur Data Survival dengan Sensor:

Individu    Waktu pengamatan         Status akhir
─────────────────────────────────────────────────
   1        ●────────────×           MATI (δ=1)
   2        ●────────────────────]   SENSOR (δ=0)
   3        ●──×                     MATI (δ=1)
   4        ●────────────────────────────×  MATI (δ=1)
   5        ●───────────]             SENSOR (δ=0)
            ─────────────────────────────────────→ waktu
            
V = total panjang semua garis (exposure)
d = jumlah tanda × (kematian)
μ̂ = d / V

Hubungan Visual ↔ Rumus

  • Setiap tanda ×\times → menyumbang lnf(ti;θ)\ln f(t_i;\,\theta) ke log-likelihood
  • Setiap tanda ]] → menyumbang lnS(ti;θ)\ln S(t_i;\,\theta) ke log-likelihood
  • Panjang garis setiap individu → menyumbang ke VV (exposure total)
  • Puncak kurva (μ)\ell(\mu) → posisinya tepat di μ^=d/V\hat{\mu} = d/V

Section 7 — Jebakan Umum

Kesalahan Parametrisasi — Kontribusi Individu Tersensor

Salah: Individu tersensor diabaikan (tidak dimasukkan ke likelihood sama sekali).

Benar: Individu tersensor berkontribusi S(ti;θ)S(t_i;\,\theta) — mereka memberikan informasi bahwa individu tersebut hidup setidaknya sampai tit_i.

Mengabaikan individu tersensor menghasilkan estimator yang bias ke atas (overestimate laju kematian) karena hanya individu yang meninggal yang dihitung.

Kesalahan Konseptual — MLE Eksponensial Digunakan Sembarangan
  1. μ^=d/V\hat{\mu} = d/V bukan rumus universal: Hanya berlaku untuk model eksponensial (hazard konstan). Untuk Weibull, Gompertz, dll., perlu menurunkan persamaan score secara terpisah.
  2. VV tidak sama dengan ntˉn \cdot \bar{t} ketika ada sensor: V=i=1ntiV = \sum_{i=1}^n t_i mencakup semua individu, tetapi beberapa tit_i adalah waktu sensor, bukan waktu kematian.
  3. Sensor \neq kematian: Individu tersensor pada tit_i berarti ia hidup sampai tit_i, bukan meninggal di tit_i.
  4. Log-likelihood bukan likelihood: Maximizing \ell menghasilkan MLE yang sama dengan maximizing LL, tetapi \ell jauh lebih mudah didiferensiasikan. Jangan campurkan keduanya dalam satu ekspresi.
Kesalahan Interpretasi Soal
  • “Censored at tt = individu tersensor pada waktu ttδi=0\delta_i = 0, berkontribusi S(t)S(t)
  • “Observed to die at tt = kematian teramati → δi=1\delta_i = 1, berkontribusi f(t)f(t)
  • “Lost to follow-up” = jenis sensor → perlakuan sama dengan sensor kanan
  • “Study ends at TT = individu yang masih hidup saat TT tersensor pada TT
Red Flags — Keyword Pemicu Prosedur
  • “Exponential model” + data tersensorμ^=d/V\hat{\mu} = d/V, hitung dd dan VV secara cermat
  • “Weibull model” + α\alpha diketahuiλ^=d/tiα\hat{\lambda} = d / \sum t_i^\alpha
  • “Derive MLE” → turunkan \ell, set /θ=0\partial\ell/\partial\theta = 0, selesaikan
  • “Write the likelihood function” → pastikan δi\delta_i muncul sebagai eksponen, bukan faktor pengali
  • “Verify MLE” → substitusi θ^\hat{\theta} ke persamaan score dan tunjukkan hasilnya nol

Section 8 — Ringkasan Eksekutif

Must-Remember
  1. Likelihood umum survival (data tersensor kanan):
L(θ)=i=1n[f(ti;θ)]δi[S(ti;θ)]1δiL(\theta) = \prod_{i=1}^{n} \left[f(t_i;\,\theta)\right]^{\delta_i} \left[S(t_i;\,\theta)\right]^{1-\delta_i}
  1. Log-likelihood (selalu gunakan ini):
(θ)=i=1nδilnf(ti;θ)+i=1n(1δi)lnS(ti;θ)\ell(\theta) = \sum_{i=1}^{n} \delta_i \ln f(t_i;\,\theta) + \sum_{i=1}^{n} (1-\delta_i)\ln S(t_i;\,\theta)
  1. MLE model eksponensial (paling sering diuji):
μ^=dV=δiti\hat{\mu} = \frac{d}{V} = \frac{\sum \delta_i}{\sum t_i}
  1. MLE model Weibull (α\alpha diketahui):
λ^=di=1ntiα\hat{\lambda} = \frac{d}{\sum_{i=1}^n t_i^\alpha}
  1. Syarat MLE — persamaan score:
(θ)θ=0\frac{\partial \ell(\theta)}{\partial \theta} = 0

Kapan Digunakan

  • Soal yang meminta estimasi parameter model survival dari data dengan sensor
  • Soal yang menyebut “MLE”, “maximum likelihood”, atau “estimate the parameter”
  • Soal yang memberikan tabel individu dengan kolom tit_i dan δi\delta_i (atau status hidup/mati)
  • Soal yang meminta log-likelihood atau likelihood function secara eksplisit
  • Soal model eksponensial, Weibull (dengan α\alpha tetap), atau Gompertz

Kapan TIDAK Boleh Digunakan

  • Saat tidak ada asumsi model parametrik → gunakan 1.5 Censoring and Non-Parametric Estimation (Kaplan-Meier, Nelson-Aalen)
  • Saat soal meminta probabilitas survival empiris, bukan estimasi parameter parametrik
  • Saat data tidak tersensor dan distribusi diketahui → MLE standar tanpa modifikasi survival
  • Saat soal tentang intensitas transisi antar state → gunakan 2.2 MLE for Transition Intensities

Quick Decision Tree

graph TD
    A["Data survival diberikan<br>(tabel t_i dan delta_i)"] -->|"Ada sensor?"| B["Ya — gunakan<br>likelihood survival"]
    A -->|"Tidak ada sensor"| C["MLE standar:<br>diferensiasikan log-likelihood biasa"]
    B --> D["Model parametrik<br>apa yang diasumsikan?"]
    D -->|"Eksponensial"| E["Hitung d = jumlah kematian<br>Hitung V = jumlah semua t_i<br>mu-hat = d / V"]
    D -->|"Weibull (alpha diketahui)"| F["Hitung d<br>Hitung sum t_i^alpha (semua individu)<br>lambda-hat = d / sum t_i^alpha"]
    D -->|"Model lain / dua parameter"| G["Tulis log-likelihood<br>Selesaikan sistem persamaan score<br>d-ell/d-theta = 0"]
    E --> H["Estimasi S(t) atau f(t)<br>dengan substitusi parameter hat"]
    F --> H
    G --> H
    C --> H

Follow-up Options
  1. “Berikan contoh soal MLE model Gompertz dengan data tersensor”
  2. “Jelaskan hubungan 1.6 Maximum Likelihood Estimation for Survival dengan 2.2 MLE for Transition Intensities
  3. “Buat flashcard 1-halaman: rumus likelihood, kontribusi sensor vs. kematian, dan MLE eksponensial”

📖 Ref: London (1997) Survival Models and Their Estimation, Bab 6–8; Frees (2010) Bab 14 | 🗓️ 2026-04-19 | #TA1 #AnalisisSurvival #MLE #CensoredData