AktuNotes
← Kembali
TA1 · Materi 1.5

Censoring and Non-Parametric Estimation

Hard Bobot: 15–25% London (1997), Bab 6–8; Frees (2010), Bab 14
TA1AnalisisSurvivalCensoringKaplanMeierNelsonAalenCoxProportionalHazardsKernelDensity

📊 1.5 — Censoring and Non-Parametric Estimation

Ringkasan Cepat

Topik: Censoring and Non-Parametric Estimation | Bobot: ~15–25% | Difficulty: Hard Ref: London (1997) Bab 6–8; Frees (2010) Bab 14 | Prereq: 1.1 Survival and Lifetime Variables, 1.2 Survival and Hazard Functions


Section 0 — Pemetaan Topik

Topik TA1Sub-topik IDSkill DiujiBobotDifficultyPrerequisiteConnected TopicsReferensi
Analisis Survival1.5Mengidentifikasi jenis sensoring; menghitung estimator Kaplan-Meier dan Nelson-Aalen dari data tersensor; memahami Cox PH dan estimator densitas Kernel15–25%Hard1.1 Survival and Lifetime Variables, 1.2 Survival and Hazard Functions1.4 Parametric Survival Models, 1.6 Maximum Likelihood Estimation for SurvivalLondon (1997) Bab 6–8; Frees (2010) Bab 14

Section 1 — Intuisi

Bayangkan sebuah perusahaan asuransi jiwa melakukan studi mortalitas pada 200 nasabahnya yang baru bergabung pada tahun 2015. Mereka ingin membangun tabel mortalitas dari data nyata. Lima tahun kemudian, ketika studi berakhir di tahun 2020, baru 35 nasabah yang meninggal dunia. Sementara 165 lainnya masih hidup saat studi ditutup — dan beberapa lagi keluar di tengah jalan karena pindah perusahaan asuransi atau tidak bisa dihubungi. Pertanyaannya: bagaimana kita bisa mengestimasi distribusi mortalitas dari data yang tidak lengkap seperti ini?

Inilah masalah censoring (penyensoran). Data dikatakan tersensor ketika kita hanya tahu bahwa seseorang masih hidup sampai titik waktu tertentu, tetapi tidak tahu kapan ia akhirnya meninggal — karena studinya berakhir lebih dulu, atau karena individu tersebut keluar dari pengamatan. Jika kita abaikan individu tersensor dan hanya menghitung dari yang meninggal, estimasi kita akan sangat bias — seolah-olah mortalitas jauh lebih tinggi dari kenyataannya. Estimator non-parametrik hadir untuk mengatasi masalah ini: mereka menggunakan semua informasi yang tersedia, termasuk dari individu yang tersensor, dengan cara yang tepat secara statistik.

Estimator Kaplan-Meier adalah yang paling terkenal — ia memperbarui estimasi fungsi survival tepat di setiap waktu kematian yang diamati, dengan memperhitungkan berapa banyak individu yang masih “berisiko” pada saat itu. Nelson-Aalen, saudara kandungnya, bekerja dengan mengakumulasi estimasi hazard rate inkremental. Cox Proportional Hazards melangkah lebih jauh dengan memasukkan kovariat (misalnya jenis kelamin, usia, riwayat penyakit) tanpa perlu mengasumsikan bentuk spesifik dari hazard baseline. Ketiganya adalah alat terpenting dalam survival analysis modern — dan ketiganya diuji dalam TA1.


Section 2 — Definisi Formal

Definisi Matematis — Jenis Sensoring

Data survival tit_i dikatakan tersensor kanan (right-censored) jika yang diketahui hanya Ti>ciT_i > c_i untuk suatu waktu sensor cic_i, bukan nilai TiT_i yang sesungguhnya. Observasi ke-ii direpresentasikan sebagai pasangan (yi,δi)(y_i, \delta_i) di mana:

yi=min(Ti,ci),δi=1(Tici)={1jika Ti teramati (event/kematian)0jika tersensory_i = \min(T_i, c_i), \qquad \delta_i = \mathbf{1}(T_i \leq c_i) = \begin{cases} 1 & \text{jika } T_i \text{ teramati (event/kematian)} \\ 0 & \text{jika tersensor} \end{cases}
SimbolMaknaCatatan
TiT_iWaktu survival sejati individu ke-iiVariabel acak, mungkin tidak teramati
cic_iWaktu sensor (censoring time) individu ke-iiDeterministic atau random
yiy_iWaktu pengamatan: min(Ti,ci)\min(T_i, c_i)Yang benar-benar tercatat
δi\delta_iIndikator event: 1 jika meninggal, 0 jika tersensorDeath indicator
njn_jJumlah individu yang berisiko (at risk) sesaat sebelum waktu tjt_jTermasuk yang tersensor setelah tjt_j
djd_jJumlah kematian (deaths) pada waktu tjt_jHanya event yang teramati
t(1)<t(2)<<t(k)t_{(1)} < t_{(2)} < \cdots < t_{(k)}Waktu-waktu kematian yang teramati (terurut)kk = jumlah waktu kematian unik
S^(t)\hat{S}(t)Estimasi fungsi survival pada waktu ttKaplan-Meier atau Nelson-Aalen
H^(t)\hat{H}(t)Estimasi cumulative hazard pada waktu ttNelson-Aalen
Λ^(t)\hat{\Lambda}(t)Notasi alternatif untuk cumulative hazardΛ^(t)=H^(t)\hat{\Lambda}(t) = \hat{H}(t)
h(tx)h(t \mid \mathbf{x})Hazard rate kondisional pada kovariat x\mathbf{x}Untuk Cox PH
h0(t)h_0(t)Baseline hazard (tidak dispesifikasi)Untuk Cox PH
β\boldsymbol{\beta}Vektor koefisien regresi CoxDiestimasi via partial likelihood

Rumus Utama

A. Jenis-Jenis Sensoring

Right censoring (tersensor kanan): Ti>ciT_i > c_i — individu masih hidup pada akhir studi atau saat keluar dari pengamatan. Paling umum dalam data aktuaria.

Left censoring (tersensor kiri): Event sudah terjadi sebelum pengamatan dimulai — hanya tahu Ti<ciLT_i < c_i^L.

Interval censoring (tersensor interval): Hanya diketahui Ti(Li,Ri]T_i \in (L_i, R_i] — event terjadi dalam suatu interval waktu.

Left truncation (trunkasi kiri): Individu hanya masuk ke studi jika Ti>τiT_i > \tau_i — seleksi masuk studi bergantung pada masih hidup. Berbeda dari sensoring!

B. Estimator Kaplan-Meier (Product-Limit)

S^(t)=j:t(j)t(1djnj)\hat{S}(t) = \prod_{j:\, t_{(j)} \leq t} \left(1 - \frac{d_j}{n_j}\right)

Label: Perkalian probabilitas survive di setiap waktu kematian yang teramati hingga tt. S^(t)\hat{S}(t) bersifat step function yang turun tepat di setiap t(j)t_{(j)}.

Aproksimasi Kaplan-Meier untuk data besar (Greenwood):

Var^[S^(t)]=[S^(t)]2j:t(j)tdjnj(njdj)\widehat{\text{Var}}[\hat{S}(t)] = [\hat{S}(t)]^2 \sum_{j:\, t_{(j)} \leq t} \frac{d_j}{n_j(n_j - d_j)}

Label: Formula Greenwood untuk varians estimator Kaplan-Meier.

C. Estimator Nelson-Aalen

H^(t)=j:t(j)tdjnj\hat{H}(t) = \sum_{j:\, t_{(j)} \leq t} \frac{d_j}{n_j}

Label: Akumulasi hazard inkremental dj/njd_j/n_j di setiap waktu kematian hingga tt.

Konversi Nelson-Aalen ke fungsi survival:

S^NA(t)=exp ⁣(H^(t))=exp ⁣(j:t(j)tdjnj)\hat{S}_{\text{NA}}(t) = \exp\!\left(-\hat{H}(t)\right) = \exp\!\left(-\sum_{j:\, t_{(j)} \leq t} \frac{d_j}{n_j}\right)

Label: Estimasi fungsi survival berbasis Nelson-Aalen — umumnya sedikit lebih tinggi dari Kaplan-Meier untuk sampel kecil.

D. Model Cox Proportional Hazards

h(tx)=h0(t)exp(βx)h(t \mid \mathbf{x}) = h_0(t) \cdot \exp(\boldsymbol{\beta}^\top \mathbf{x})

Label: Hazard individu dengan kovariat x\mathbf{x} adalah baseline hazard h0(t)h_0(t) dikali faktor eksponensial dari kovariat. Bentuk h0(t)h_0(t) tidak perlu dispesifikasi.

Hazard ratio antara dua individu:

h(tx1)h(tx2)=exp ⁣(β(x1x2))\frac{h(t \mid \mathbf{x}_1)}{h(t \mid \mathbf{x}_2)} = \exp\!\left(\boldsymbol{\beta}^\top (\mathbf{x}_1 - \mathbf{x}_2)\right)

Label: Rasio hazard bersifat konstan sepanjang waktu (asumsi proportional hazards) dan tidak bergantung pada bentuk h0(t)h_0(t).

E. Estimator Densitas Kernel

f^(t)=1nhi=1nK ⁣(ttih)\hat{f}(t) = \frac{1}{nh} \sum_{i=1}^{n} K\!\left(\frac{t - t_i}{h}\right)

Label: Estimasi densitas non-parametrik dari nn observasi dengan kernel function K()K(\cdot) dan bandwidth h>0h > 0.

Kernel Gaussian (paling umum):

K(u)=12πeu2/2K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2}

Label: Setiap observasi berkontribusi sebagai “gundukan” normal kecil di sekitar nilainya.

Asumsi Eksplisit

  1. Non-informatif censoring: Mekanisme sensoring independen dari waktu survival — TiciT_i \perp c_i. Ini asumsi paling kritis; jika dilanggar, semua estimator di atas menjadi bias.
  2. Independent censoring: Waktu sensor tiap individu tidak bergantung pada status survival individu lain dalam studi.
  3. Kaplan-Meier: Tidak ada ikatan (ties) antara waktu kematian dan waktu sensor; jika ada ties, individu tersensor dianggap keluar sesaat setelah waktu itu (konvensi umum).
  4. Cox PH: Proportional hazards — rasio hazard antara dua individu konstan sepanjang waktu. Jika kovariat berinteraksi dengan waktu, asumsi ini dilanggar.
  5. Kernel density: Bandwidth hh dipilih tepat — terlalu kecil menghasilkan estimasi noisy (overfit), terlalu besar menghasilkan estimasi yang terlalu halus (underfit).

Section 3 — Jembatan Logika

Dari Definisi ke Rumus — Mengapa Kaplan-Meier Berbentuk Produk?

Bayangkan kita ingin menghitung P(T>t)P(T > t) secara empiris. Kita bisa memecah peluang ini menjadi rantai peluang kondisional: “survive hingga t(1)t_{(1)}, lalu survive dari t(1)t_{(1)} ke t(2)t_{(2)}, lalu survive dari t(2)t_{(2)} ke t(3)t_{(3)}, …” — seperti aturan perkalian dalam 1.1 Survival and Lifetime Variables: t+upx=tpxupx+t{}_{t+u}p_x = {}_{t}p_x \cdot {}_{u}p_{x+t}. Di setiap waktu kematian t(j)t_{(j)}, estimasi peluang kematian kondisional adalah dj/njd_j / n_j (dari njn_j orang yang berisiko, djd_j meninggal). Peluang kondisional survive di t(j)t_{(j)} adalah 1dj/nj1 - d_j/n_j. Produk dari semua faktor ini untuk t(j)tt_{(j)} \leq t adalah estimator Kaplan-Meier. Individu tersensor berkontribusi pada njn_j untuk semua t(j)t_{(j)} sebelum waktu sensor mereka — mereka “membantu” menghitung penyebut — tetapi mereka tidak masuk ke djd_j karena tidak meninggal pada waktu itu.

Perbedaan Sensoring vs Trunkasi
  • Sensoring kanan: Individu masuk ke studi, lalu hilang sebelum event terjadi. Kita tahu ia hidup sampai waktu sensor cic_i. Nilai yi=ciy_i = c_i dengan δi=0\delta_i = 0.
  • Trunkasi kiri: Individu hanya masuk ke studi jika ia masih hidup pada waktu τi\tau_i. Individu yang meninggal sebelum τi\tau_i tidak pernah tercatat sama sekali — ini menyebabkan bias seleksi yang berbeda dari sensoring. Dalam trunkasi kiri, njn_j harus dihitung hanya dari individu yang sudah masuk ke studi pada waktu t(j)t_{(j)}.
  • Keduanya perlu penanganan berbeda dalam estimasi njn_j.

Derivasi Prosedur Kaplan-Meier Step-by-Step:

Misalkan data survival (waktu, indikator) terurut: (t(1),d1,n1),(t(2),d2,n2),,(t(k),dk,nk)(t_{(1)}, d_1, n_1), (t_{(2)}, d_2, n_2), \ldots, (t_{(k)}, d_k, n_k).

Langkah 1: Urutkan semua waktu kematian yang teramati secara ascending: t(1)<t(2)<<t(k)t_{(1)} < t_{(2)} < \cdots < t_{(k)}.

Langkah 2: Untuk setiap t(j)t_{(j)}, hitung njn_j = jumlah individu yang masih at risk sesaat sebelum t(j)t_{(j)}:

nj=#{i:yit(j)}n_j = \#\{i : y_i \geq t_{(j)}\}

Individu dengan yi=ci<t(j)y_i = c_i < t_{(j)} (sudah tersensor sebelum t(j)t_{(j)}) tidak masuk ke njn_j.

Langkah 3: Hitung faktor kondisional survive di t(j)t_{(j)}:

p^j=1djnj\hat{p}_j = 1 - \frac{d_j}{n_j}

Langkah 4: Estimasi Kaplan-Meier adalah produk kumulatif:

S^(t)=j:t(j)tp^j=j:t(j)tnjdjnj\hat{S}(t) = \prod_{j:\, t_{(j)} \leq t} \hat{p}_j = \prod_{j:\, t_{(j)} \leq t} \frac{n_j - d_j}{n_j}

Langkah 5: S^(t)\hat{S}(t) bersifat step function — nilainya konstan antara dua waktu kematian berturutan, dan turun tiba-tiba tepat di setiap t(j)t_{(j)}.

Langkah 6 — Perbarui njn_j saat ada sensoring antara dua waktu kematian: Jika ada cc individu tersensor dalam interval (t(j),t(j+1))(t_{(j)}, t_{(j+1)}), maka nj+1=njdjcn_{j+1} = n_j - d_j - c.

Dilarang
  1. Jangan memasukkan individu tersensor ke dalam djd_j. Hanya kematian yang teramati (δi=1\delta_i = 1) yang masuk ke djd_j. Individu tersensor (δi=0\delta_i = 0) hanya berkontribusi ke njn_j selama mereka masih dalam studi.
  2. Jangan membuang (drop) observasi tersensor dari analisis. Membuang mereka menyebabkan estimasi bias ke atas — seolah-olah mortalitas lebih tinggi dari sebenarnya karena hanya tersisa individu yang meninggal.
  3. Jangan menggunakan estimator Nelson-Aalen S^NA(t)=eH^(t)\hat{S}_{\text{NA}}(t) = e^{-\hat{H}(t)} dan mengira hasilnya identik dengan Kaplan-Meier. Untuk sampel besar keduanya sangat dekat, tetapi untuk sampel kecil S^NA(t)S^KM(t)\hat{S}_{\text{NA}}(t) \geq \hat{S}_{\text{KM}}(t) karena 1xex1 - x \leq e^{-x} untuk x[0,1]x \in [0,1].

Section 4 — Contoh Soal

Soal A — Fundamental

Soal: Sebuah studi survival mencatat 8 individu dengan data berikut (dalam bulan). Tanda ”+” menunjukkan tersensor kanan:

3,  5+,  6,  8,  9+,  10,  12+,  143, \; 5^+, \; 6, \; 8, \; 9^+, \; 10, \; 12^+, \; 14

Hitunglah estimator Kaplan-Meier S^(t)\hat{S}(t) untuk semua tt, dan tentukan nilai S^(10)\hat{S}(10).

Solusi Soal A

Pendekatan: Susun tabel Kaplan-Meier dengan kolom t(j)t_{(j)}, njn_j, djd_j, faktor kondisional, dan S^\hat{S} kumulatif.

1. Identifikasi Variabel

  • n=8n = 8 individu total
  • Waktu kematian teramati: 3,6,8,10,143, 6, 8, 10, 14 (tanpa tanda ”+”) → k=5k = 5
  • Waktu tersensor: 5,9,125, 9, 12 (dengan tanda ”+”)

2. Identifikasi Distribusi / Model Data campuran: 5 event teramati, 3 observasi tersensor kanan. Gunakan Kaplan-Meier — tidak ada asumsi distribusi parametrik.

3. Setup Persamaan

S^(t)=j:t(j)t(1djnj)\hat{S}(t) = \prod_{j:\, t_{(j)} \leq t} \left(1 - \frac{d_j}{n_j}\right)

4. Eksekusi Aljabar

Susun tabel prosedur (perbarui njn_j saat ada sensoring sebelum t(j+1)t_{(j+1)}):

t(j)t_{(j)}Event sebelum t(j)t_{(j)}njn_jdjd_j1dj/nj1 - d_j/n_jS^(t(j))\hat{S}(t_{(j)})
3388117/87/87/8=0.87507/8 = 0.8750
66sensor 5+5^+ keluar setelah t=3t=366115/65/6(7/8)(5/6)=0.7292(7/8)(5/6) = 0.7292
8855114/54/5(0.7292)(4/5)=0.5833(0.7292)(4/5) = 0.5833
1010sensor 9+9^+ keluar setelah t=8t=833112/32/3(0.5833)(2/3)=0.3889(0.5833)(2/3) = 0.3889
1414sensor 12+12^+ keluar setelah t=10t=1011110/10/1(0.3889)(0)=0(0.3889)(0) = 0

Untuk t=10t = 10: tepat pada t(4)=10t_{(4)} = 10, sehingga:

S^(10)=78×56×45×23=7×5×4×28×6×5×3=280720=7180.3889\hat{S}(10) = \frac{7}{8} \times \frac{5}{6} \times \frac{4}{5} \times \frac{2}{3} = \frac{7 \times 5 \times 4 \times 2}{8 \times 6 \times 5 \times 3} = \frac{280}{720} = \frac{7}{18} \approx 0.3889

5. Verification Cek: njn_j turun dari 8 dengan cara: 881=78 \to 8-1=7 (setelah t=3t=3) 71=6\to 7-1=6 (setelah sensor 5+5^+) 61=5\to 6-1=5 (setelah t=6t=6) 51=4\to 5-1=4 (setelah t=8t=8) 41=3\to 4-1=3 (setelah sensor 9+9^+) 31=2\to 3-1=2 (setelah t=10t=10) 21=1\to 2-1=1 (setelah sensor 12+12^+) 11=0\to 1-1=0 (setelah t=14t=14). Konsisten. ✓

Hasil: S^(10)=7/1838.89%\hat{S}(10) = 7/18 \approx 38.89\% — sekitar 39% dari individu diperkirakan masih hidup melewati 10 bulan.

Exam Tips — Soal A

Target waktu: 4 menit. Common trap: Lupa mengurangi njn_j untuk individu tersensor yang keluar antara dua waktu kematian. Sensor 5+5^+ keluar setelah t=3t=3 tetapi sebelum t=6t=6, sehingga nn turun dari 7 menjadi 6 sebelum t(2)=6t_{(2)}=6. Shortcut: Susun timeline semua kejadian (kematian dan sensoran) berurutan, lalu lacak nn yang tersisa satu per satu.


Soal B — Exam-Typical

Soal: Dengan data yang sama pada Soal A, hitunglah estimator Nelson-Aalen H^(t)\hat{H}(t) dan estimasi fungsi survival berbasis Nelson-Aalen S^NA(t)\hat{S}_{\text{NA}}(t) untuk t=8t = 8. Bandingkan dengan Kaplan-Meier.

Solusi Soal B

Pendekatan: Akumulasikan inkremen dj/njd_j/n_j di setiap waktu kematian hingga t=8t = 8, lalu konversi ke survival via eksponensial negatif.

1. Identifikasi Variabel

  • Waktu kematian: 3,6,8,10,143, 6, 8, 10, 14; njn_j dan djd_j dari tabel Soal A
  • Target: H^(8)\hat{H}(8) dan S^NA(8)\hat{S}_{\text{NA}}(8)

2. Identifikasi Distribusi / Model Nelson-Aalen: estimator hazard kumulatif non-parametrik. Tidak memerlukan asumsi distribusi.

3. Setup Persamaan

H^(t)=j:t(j)tdjnj,S^NA(t)=eH^(t)\hat{H}(t) = \sum_{j:\, t_{(j)} \leq t} \frac{d_j}{n_j}, \qquad \hat{S}_{\text{NA}}(t) = e^{-\hat{H}(t)}

4. Eksekusi Aljabar

Inkremen hazard hingga t=8t = 8:

t(j)t_{(j)}djd_jnjn_jdj/njd_j/n_jH^(t(j))\hat{H}(t_{(j)}) kumulatif
3311880.125000.125000.125000.12500
6611660.166670.166670.291670.29167
8811550.200000.200000.491670.49167
H^(8)=18+16+15=0.12500+0.16667+0.20000=0.49167\hat{H}(8) = \frac{1}{8} + \frac{1}{6} + \frac{1}{5} = 0.12500 + 0.16667 + 0.20000 = 0.49167 S^NA(8)=e0.49167=0.6118\hat{S}_{\text{NA}}(8) = e^{-0.49167} = 0.6118

Perbandingan dengan Kaplan-Meier:

S^KM(8)=0.5833vsS^NA(8)=0.6118\hat{S}_{\text{KM}}(8) = 0.5833 \quad \text{vs} \quad \hat{S}_{\text{NA}}(8) = 0.6118

5. Verification Secara teoritis: 1xex1 - x \leq e^{-x} untuk x0x \geq 0, sehingga setiap faktor (1dj/nj)edj/nj(1 - d_j/n_j) \leq e^{-d_j/n_j}, yang berarti S^KM(t)S^NA(t)\hat{S}_{\text{KM}}(t) \leq \hat{S}_{\text{NA}}(t) — terbukti: 0.58330.61180.5833 \leq 0.6118. ✓ Untuk sampel kecil (n=8n=8), selisih cukup terlihat. Untuk nn besar, keduanya akan sangat dekat.

Hasil: H^(8)0.4917\hat{H}(8) \approx 0.4917; S^NA(8)0.612\hat{S}_{\text{NA}}(8) \approx 0.612. Nelson-Aalen memberikan estimasi survival yang sedikit lebih optimis dari Kaplan-Meier pada sampel kecil.

Exam Tips — Soal B

Target waktu: 3–4 menit. Common trap: Menggunakan njn_j yang salah (tidak memperbarui untuk individu tersensor). njn_j harus konsisten dengan tabel Kaplan-Meier — gunakan tabel yang sama. Shortcut: Nelson-Aalen = jumlahkan 1/nj1/n_j di setiap kematian (jika dj=1d_j = 1 selalu). Untuk dj>1d_j > 1, gunakan dj/njd_j/n_j.


Soal C — Challenging

Soal: Studi survival pada pasien penyakit jantung mencatat variabel kovariat “merokok” (x=1x = 1 jika perokok, x=0x = 0 jika bukan). Model Cox Proportional Hazards diestimasi menghasilkan β^=0.693\hat{\beta} = 0.693 untuk variabel merokok.

(a) Tentukan hazard ratio antara perokok dan bukan perokok. (b) Jika hazard baseline pada t=5t = 5 tahun adalah h0(5)=0.04h_0(5) = 0.04 per tahun, berapa hazard perokok pada t=5t = 5? (c) Jelaskan arti dari asumsi proportional hazards dalam konteks ini. (d) Jika S^0(5)=0.82\hat{S}_0(5) = 0.82 (survival baseline pada t=5t=5), estimasikan S^(5x=1)\hat{S}(5 \mid x=1) untuk seorang perokok.

Solusi Soal C

Pendekatan: Gunakan definisi Cox PH: h(tx)=h0(t)eβxh(t \mid x) = h_0(t) \cdot e^{\beta x}. Untuk survival: S(tx)=[S0(t)]eβxS(t \mid x) = [S_0(t)]^{e^{\beta x}}.

1. Identifikasi Variabel

  • β^=0.693\hat{\beta} = 0.693, kovariat x{0,1}x \in \{0, 1\} (merokok)
  • h0(5)=0.04h_0(5) = 0.04 per tahun
  • S^0(5)=0.82\hat{S}_0(5) = 0.82 (survival baseline)

2. Identifikasi Distribusi / Model Model Cox PH semi-parametrik: h(tx)=h0(t)eβxh(t \mid x) = h_0(t) \cdot e^{\beta x}. Bentuk h0(t)h_0(t) tidak diasumsikan — hanya koefisien β\beta yang diestimasi.

3. Setup Persamaan

HR=h(tx=1)h(tx=0)=eβ^(10)=eβ^\text{HR} = \frac{h(t \mid x=1)}{h(t \mid x=0)} = e^{\hat{\beta} \cdot (1 - 0)} = e^{\hat{\beta}} h(tx=1)=h0(t)eβ^×1h(t \mid x=1) = h_0(t) \cdot e^{\hat{\beta} \times 1} S(tx)=[S0(t)]eβxS(t \mid x) = [S_0(t)]^{e^{\beta x}}

4. Eksekusi Aljabar

(a) Hazard Ratio:

HR=e0.693=eln2=2.0\text{HR} = e^{0.693} = e^{\ln 2} = 2.0

Perokok memiliki hazard kematian 2 kali lipat dibanding bukan perokok pada setiap waktu tt.

(b) Hazard perokok pada t=5t = 5:

h(5x=1)=h0(5)×e0.693=0.04×2.0=0.08 per tahunh(5 \mid x=1) = h_0(5) \times e^{0.693} = 0.04 \times 2.0 = 0.08 \text{ per tahun}

(c) Arti proportional hazards: Rasio hazard antara perokok dan bukan perokok adalah konstan = 2.0 untuk semua nilai tt, tidak bergantung pada waktu. Artinya, perokok selalu memiliki risiko kematian sesaat yang 2 kali lebih besar dari bukan perokok, baik di tahun ke-1, ke-5, maupun ke-20 studi.

(d) Survival perokok pada t=5t = 5:

S^(5x=1)=[S^0(5)]eβ^×1=(0.82)e0.693=(0.82)2.0=0.6724\hat{S}(5 \mid x=1) = [\hat{S}_0(5)]^{e^{\hat{\beta} \times 1}} = (0.82)^{e^{0.693}} = (0.82)^{2.0} = 0.6724

5. Verification S^(5x=1)=0.6724<S^0(5)=0.82\hat{S}(5 \mid x=1) = 0.6724 < \hat{S}_0(5) = 0.82 — masuk akal, perokok memiliki survival lebih rendah. ✓ Relasi S(tx)=[S0(t)]eβxS(t \mid x) = [S_0(t)]^{e^{\beta x}} diturunkan dari H(tx)=eβxH0(t)H(t \mid x) = e^{\beta x} H_0(t) dan S=eHS = e^{-H}.

Hasil: (a) HR =2.0= 2.0; (b) h(5perokok)=0.08h(5 \mid \text{perokok}) = 0.08/tahun; (c) risiko perokok selalu 2× bukan perokok di semua waktu; (d) S^(5perokok)=0.6724\hat{S}(5 \mid \text{perokok}) = 0.6724.

Exam Tips — Soal C

Target waktu: 5 menit. Common trap: Mengira S(tx)=S0(t)×eβxS(t \mid x) = S_0(t) \times e^{\beta x} (perkalian linear) — SALAH. Rumus yang benar adalah S(tx)=[S0(t)]eβxS(t \mid x) = [S_0(t)]^{e^{\beta x}} (pangkat). Ini karena H(tx)=eβxH0(t)H(t \mid x) = e^{\beta x} H_0(t) dan S=eHS = e^{-H}. Shortcut: Jika β^=ln2\hat{\beta} = \ln 2, maka eβ^=2e^{\hat{\beta}} = 2 — hazard ratio tepat 2, dan S(tx=1)=[S0(t)]2S(t \mid x=1) = [S_0(t)]^2.


Section 5 — Verifikasi & Sanity Check

Cek Monotonisitas dan Batas Kaplan-Meier

Estimasi Kaplan-Meier harus memenuhi:

1=S^(0)S^(t1)S^(t2)0untuk t1<t21 = \hat{S}(0) \geq \hat{S}(t_1) \geq \hat{S}(t_2) \geq \cdots \geq 0 \quad \text{untuk } t_1 < t_2

Dan S^(t)=S^(t(j))\hat{S}(t) = \hat{S}(t_{(j)}) untuk semua t[t(j),t(j+1))t \in [t_{(j)}, t_{(j+1)}) — nilainya konstan antara dua kematian. Jika ada S^\hat{S} yang naik, ada kesalahan penghitungan njn_j atau urutan kejadian.

Konsistensi Nelson-Aalen dengan Kaplan-Meier

Untuk setiap jj, harus selalu berlaku:

S^KM(t)S^NA(t)karena1djnjedj/nj\hat{S}_{\text{KM}}(t) \leq \hat{S}_{\text{NA}}(t) \quad \text{karena} \quad 1 - \frac{d_j}{n_j} \leq e^{-d_j/n_j}

Jika S^KM>S^NA\hat{S}_{\text{KM}} > \hat{S}_{\text{NA}}, ada kesalahan hitung. Untuk sampel besar, selisihnya mengecil dan keduanya konvergen ke nilai yang sama.

Cek Cox PH — Arah Koefisien
  • β^>0\hat{\beta} > 0 → kovariat meningkatkan hazard (memperburuk survival)
  • β^<0\hat{\beta} < 0 → kovariat menurunkan hazard (memperbaiki survival)
  • β^=0\hat{\beta} = 0 → kovariat tidak mempengaruhi hazard

Selalu verifikasi: apakah arah β^\hat{\beta} konsisten dengan konteks biologi/aktuaria soal?

Metode Alternatif — Kaplan-Meier via Fraksional

Untuk data besar, KM bisa diaproksimasi dengan mengamati proporsi survival secara langsung tanpa membangun tabel baris per baris. Namun untuk ujian dengan data kecil, prosedur tabel penuh selalu lebih aman dan mudah dicek.


Section 6 — Visualisasi Mental

Kaplan-Meier sebagai step function:

Bayangkan sumbu XX adalah waktu (bulan/tahun) dan sumbu YY adalah proporsi survive S^(t)\hat{S}(t):

  • Kurva dimulai dari S^(0)=1.0\hat{S}(0) = 1.0 (semua individu hidup di awal studi).
  • Kurva flat (tidak bergerak) antara dua waktu kematian — tidak ada informasi baru tentang kematian di sana.
  • Kurva turun tiba-tiba (step down) tepat di waktu kematian yang teramati t(j)t_{(j)} — besarnya lompatan adalah (dj/nj)×S^(t(j))(d_j/n_j) \times \hat{S}(t_{(j)}^-).
  • Individu tersensor tidak menyebabkan kurva turun — mereka hanya “menyusutkan” njn_j untuk kematian berikutnya.
  • Tanda ”+” (tick mark) sering ditambahkan di titik sensoran pada kurva untuk menunjukkan lokasi data tersensor.
S(t)
1.0 |****
    |    *                          ← flat antara kematian
    |     **
0.8 |       *
    |        ***
0.6 |           *    +  ← tanda sensor
    |            **
0.4 |              **
    |                *
0.2 |                 **
    |                   *
0.0 |_____________________________ t
    0   3  5 6  8  9  10 12 14
        d  + d  d  +  d  +  d

Nelson-Aalen sebagai step function kumulatif hazard:

Sumbu YY adalah H^(t)\hat{H}(t) — dimulai dari 0 dan naik monoton. Setiap kematian menambah inkremen dj/njd_j/n_j. Semakin besar njn_j relatif terhadap djd_j, semakin kecil “loncatan” naik.

Hubungan Visual ↔ Rumus

Elemen VisualKomponen Rumus
Panjang tiap step turun di KM(dj/nj)×S^(t(j))(d_j/n_j) \times \hat{S}(t_{(j)}^-)
Tinggi flat antara t(j)t_{(j)} dan t(j+1)t_{(j+1)}S^(t(j))\hat{S}(t_{(j)}) — nilai konstan
Lebar step di Nelson-Aalendj/njd_j/n_j — inkremen hazard
Tanda ”+” pada kurvaPosisi sensor kanan — tidak mengubah nilai S^\hat{S}
Kurva KM turun lebih tajam dari NA di sampel kecil1x<ex1 - x < e^{-x} untuk x>0x > 0

Section 7 — Jebakan Umum

Kesalahan Parametrisasi

Salah: Menghitung njn_j sebagai jumlah total individu dikurangi hanya kematian sebelumnya, tanpa memperbarui untuk individu tersensor yang sudah keluar. Benar: nj=nj1dj1cj1n_j = n_{j-1} - d_{j-1} - c_{j-1} di mana cj1c_{j-1} adalah jumlah individu tersensor dalam interval (t(j1),t(j))(t_{(j-1)}, t_{(j)}). Setiap sensor yang keluar antara dua kematian harus dikurangkan dari nn sebelum kematian berikutnya.

Kesalahan Konseptual
  1. Sensoring ≠ Trunkasi: Sensoring terjadi setelah individu masuk ke studi; trunkasi kiri terjadi sebelum individu masuk (yang meninggal sebelum masuk tidak tercatat sama sekali). Keduanya mengurangi njn_j tetapi dengan cara berbeda.
  2. KM bukan rata-rata empiris biasa: S^(t)\hat{S}(t) \neq (jumlah yang hidup melewati tt) / (total individu). Formula rata-rata biasa mengabaikan sensoran dan menghasilkan estimasi bias. KM menggunakan probabilitas kondisional yang benar.
  3. Nelson-Aalen bukan invers Kaplan-Meier: S^NA=eH^\hat{S}_{\text{NA}} = e^{-\hat{H}}, bukan 1/(1+H^)1 / (1 + \hat{H}) atau formula lain. Dan H^NAlnS^KM\hat{H}_{\text{NA}} \neq -\ln \hat{S}_{\text{KM}} secara eksak — hanya asimtotik.
  4. Cox PH bukan model parametrik penuh: Bentuk h0(t)h_0(t) tidak dispesifikasi. Yang diestimasi hanya β\boldsymbol{\beta}, bukan h0(t)h_0(t). Ini membuat Cox lebih fleksibel tapi juga tidak bisa digunakan untuk prediksi absolut tanpa estimasi h0(t)h_0(t) tambahan.
Kesalahan Interpretasi Soal
  • Kata “censored at time cc → individu tersensor kanan; yi=cy_i = c, δi=0\delta_i = 0. Jangan masukkan ke djd_j.
  • Kata “study ends at time TT^* → semua individu yang masih hidup pada TT^* adalah tersensor kanan pada TT^*.
  • Kata “withdrawn from study” atau “lost to follow-up” → tersensor kanan pada waktu penarikan.
  • Kata “hazard ratio” dalam Cox → langsung eβ^e^{\hat{\beta}}; bukan β^\hat{\beta} itu sendiri.
  • Ketika soal meminta S^(t)\hat{S}(t) untuk tt di antara dua waktu kematian → nilai KM sama dengan nilai di waktu kematian sebelumnya (kurva flat).
Red Flags
  • Jika tabel data mengandung tanda ”+” atau “c” di samping waktu → data tersensor, WAJIB gunakan KM atau Nelson-Aalen, bukan proporsi empiris biasa.
  • Jika soal menyebut “ties” (beberapa kematian pada waktu yang sama) → dj>1d_j > 1 pada t(j)t_{(j)} tersebut — pastikan njn_j dihitung dengan benar sebelum ties.
  • Jika diminta membandingkan KM dan Nelson-Aalen → ingat selalu S^KMS^NA\hat{S}_{\text{KM}} \leq \hat{S}_{\text{NA}} dan selisih mengecil untuk nn besar.
  • Jika soal Cox PH memberikan S0(t)S_0(t) dan meminta S(tx)S(t \mid \mathbf{x}) → gunakan S(tx)=[S0(t)]eβxS(t \mid \mathbf{x}) = [S_0(t)]^{e^{\boldsymbol{\beta}^\top \mathbf{x}}}, BUKAN S0(t)×eβxS_0(t) \times e^{\boldsymbol{\beta}^\top \mathbf{x}}.

Section 8 — Ringkasan Eksekutif

Must-Remember
  1. Observasi tersensor: pasangan (yi,δi)(y_i, \delta_i) dengan yi=min(Ti,ci)y_i = \min(T_i, c_i) dan δi=1(Tici)\delta_i = \mathbf{1}(T_i \leq c_i).

  2. Kaplan-Meier (Product-Limit): S^(t)=j:t(j)t(1djnj)\hat{S}(t) = \prod_{j:\, t_{(j)} \leq t} \left(1 - \frac{d_j}{n_j}\right)

  3. Nelson-Aalen (Cumulative Hazard): H^(t)=j:t(j)tdjnj,S^NA(t)=eH^(t)\hat{H}(t) = \sum_{j:\, t_{(j)} \leq t} \frac{d_j}{n_j}, \qquad \hat{S}_{\text{NA}}(t) = e^{-\hat{H}(t)}

  4. Hubungan KM vs NA: S^KM(t)S^NA(t)\hat{S}_{\text{KM}}(t) \leq \hat{S}_{\text{NA}}(t) karena 1xex1 - x \leq e^{-x}.

  5. Cox PH — Hazard Ratio dan Survival: HR=eβ^,S(tx)=[S0(t)]eβx\text{HR} = e^{\hat{\beta}}, \qquad S(t \mid \mathbf{x}) = [S_0(t)]^{e^{\boldsymbol{\beta}^\top \mathbf{x}}}

Kapan Digunakan

  • Data mengandung sensoran (tanda ”+”) dan tidak ada asumsi model parametrik → Kaplan-Meier atau Nelson-Aalen.
  • Soal meminta estimasi cumulative hazardNelson-Aalen langsung, tanpa perlu konversi.
  • Soal meminta perbandingan dua grup survival dengan kovariat → Cox PH (hazard ratio).
  • Data besar, soal meminta aproksimasi varians S^(t)\hat{S}(t)Formula Greenwood.
  • Soal meminta estimasi “smooth” dari densitas tanpa asumsi distribusi → Kernel Density Estimator.

Kapan TIDAK Boleh Digunakan

Quick Decision Tree

graph TD
    A["Data survival tersedia?"] -->|"Ya"| B["Apakah ada observasi tersensor?"]
    A -->|"Tidak"| Z["Gunakan statistik deskriptif biasa"]
    B -->|"Ya"| C["Apakah ada kovariat yang ingin dimodelkan?"]
    B -->|"Tidak"| D["Fungsi survival empiris biasa<br>S_hat(t) = #{Ti > t} / n"]
    C -->|"Ya"| E["Cox Proportional Hazards<br>h(t|x) = h0(t) * exp(beta^T x)<br>HR = exp(beta_hat)"]
    C -->|"Tidak"| F["Pilih estimator non-parametrik"]
    F -->|"Ingin S(t)"| G["Kaplan-Meier<br>S_hat = prod(1 - dj/nj)"]
    F -->|"Ingin H(t)"| H["Nelson-Aalen<br>H_hat = sum(dj/nj)"]
    G --> I["Cek: S_KM <= S_NA selalu"]
    H --> I
    E --> J["Cek arah beta:<br>beta > 0 = hazard naik<br>beta < 0 = hazard turun"]

Follow-up Options
  1. “Berikan contoh soal Kaplan-Meier dengan ties (beberapa kematian di waktu yang sama)”
  2. “Jelaskan hubungan 1.5 Censoring and Non-Parametric Estimation dengan 1.6 Maximum Likelihood Estimation for Survival
  3. “Buat flashcard 1-halaman perbandingan KM vs Nelson-Aalen vs Cox PH”

📖 Ref: London (1997) Bab 6–8; Frees (2010) Bab 14 | 🗓️ 2026-04-19 | #TA1 #NonParametricEstimation #Censoring