Censoring and Non-Parametric Estimation
📊 1.5 — Censoring and Non-Parametric Estimation
Ringkasan Cepat›
Topik: Censoring and Non-Parametric Estimation | Bobot: ~15–25% | Difficulty: Hard Ref: London (1997) Bab 6–8; Frees (2010) Bab 14 | Prereq: 1.1 Survival and Lifetime Variables, 1.2 Survival and Hazard Functions
Section 0 — Pemetaan Topik
| Topik TA1 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Analisis Survival | 1.5 | Mengidentifikasi jenis sensoring; menghitung estimator Kaplan-Meier dan Nelson-Aalen dari data tersensor; memahami Cox PH dan estimator densitas Kernel | 15–25% | Hard | 1.1 Survival and Lifetime Variables, 1.2 Survival and Hazard Functions | 1.4 Parametric Survival Models, 1.6 Maximum Likelihood Estimation for Survival | London (1997) Bab 6–8; Frees (2010) Bab 14 |
Section 1 — Intuisi
Bayangkan sebuah perusahaan asuransi jiwa melakukan studi mortalitas pada 200 nasabahnya yang baru bergabung pada tahun 2015. Mereka ingin membangun tabel mortalitas dari data nyata. Lima tahun kemudian, ketika studi berakhir di tahun 2020, baru 35 nasabah yang meninggal dunia. Sementara 165 lainnya masih hidup saat studi ditutup — dan beberapa lagi keluar di tengah jalan karena pindah perusahaan asuransi atau tidak bisa dihubungi. Pertanyaannya: bagaimana kita bisa mengestimasi distribusi mortalitas dari data yang tidak lengkap seperti ini?
Inilah masalah censoring (penyensoran). Data dikatakan tersensor ketika kita hanya tahu bahwa seseorang masih hidup sampai titik waktu tertentu, tetapi tidak tahu kapan ia akhirnya meninggal — karena studinya berakhir lebih dulu, atau karena individu tersebut keluar dari pengamatan. Jika kita abaikan individu tersensor dan hanya menghitung dari yang meninggal, estimasi kita akan sangat bias — seolah-olah mortalitas jauh lebih tinggi dari kenyataannya. Estimator non-parametrik hadir untuk mengatasi masalah ini: mereka menggunakan semua informasi yang tersedia, termasuk dari individu yang tersensor, dengan cara yang tepat secara statistik.
Estimator Kaplan-Meier adalah yang paling terkenal — ia memperbarui estimasi fungsi survival tepat di setiap waktu kematian yang diamati, dengan memperhitungkan berapa banyak individu yang masih “berisiko” pada saat itu. Nelson-Aalen, saudara kandungnya, bekerja dengan mengakumulasi estimasi hazard rate inkremental. Cox Proportional Hazards melangkah lebih jauh dengan memasukkan kovariat (misalnya jenis kelamin, usia, riwayat penyakit) tanpa perlu mengasumsikan bentuk spesifik dari hazard baseline. Ketiganya adalah alat terpenting dalam survival analysis modern — dan ketiganya diuji dalam TA1.
Section 2 — Definisi Formal
Definisi Matematis — Jenis Sensoring›
Data survival dikatakan tersensor kanan (right-censored) jika yang diketahui hanya untuk suatu waktu sensor , bukan nilai yang sesungguhnya. Observasi ke- direpresentasikan sebagai pasangan di mana:
| Simbol | Makna | Catatan |
|---|---|---|
| Waktu survival sejati individu ke- | Variabel acak, mungkin tidak teramati | |
| Waktu sensor (censoring time) individu ke- | Deterministic atau random | |
| Waktu pengamatan: | Yang benar-benar tercatat | |
| Indikator event: 1 jika meninggal, 0 jika tersensor | Death indicator | |
| Jumlah individu yang berisiko (at risk) sesaat sebelum waktu | Termasuk yang tersensor setelah | |
| Jumlah kematian (deaths) pada waktu | Hanya event yang teramati | |
| Waktu-waktu kematian yang teramati (terurut) | = jumlah waktu kematian unik | |
| Estimasi fungsi survival pada waktu | Kaplan-Meier atau Nelson-Aalen | |
| Estimasi cumulative hazard pada waktu | Nelson-Aalen | |
| Notasi alternatif untuk cumulative hazard | ||
| Hazard rate kondisional pada kovariat | Untuk Cox PH | |
| Baseline hazard (tidak dispesifikasi) | Untuk Cox PH | |
| Vektor koefisien regresi Cox | Diestimasi via partial likelihood |
Rumus Utama
A. Jenis-Jenis Sensoring
Right censoring (tersensor kanan): — individu masih hidup pada akhir studi atau saat keluar dari pengamatan. Paling umum dalam data aktuaria.
Left censoring (tersensor kiri): Event sudah terjadi sebelum pengamatan dimulai — hanya tahu .
Interval censoring (tersensor interval): Hanya diketahui — event terjadi dalam suatu interval waktu.
Left truncation (trunkasi kiri): Individu hanya masuk ke studi jika — seleksi masuk studi bergantung pada masih hidup. Berbeda dari sensoring!
B. Estimator Kaplan-Meier (Product-Limit)
Label: Perkalian probabilitas survive di setiap waktu kematian yang teramati hingga . bersifat step function yang turun tepat di setiap .
Aproksimasi Kaplan-Meier untuk data besar (Greenwood):
Label: Formula Greenwood untuk varians estimator Kaplan-Meier.
C. Estimator Nelson-Aalen
Label: Akumulasi hazard inkremental di setiap waktu kematian hingga .
Konversi Nelson-Aalen ke fungsi survival:
Label: Estimasi fungsi survival berbasis Nelson-Aalen — umumnya sedikit lebih tinggi dari Kaplan-Meier untuk sampel kecil.
D. Model Cox Proportional Hazards
Label: Hazard individu dengan kovariat adalah baseline hazard dikali faktor eksponensial dari kovariat. Bentuk tidak perlu dispesifikasi.
Hazard ratio antara dua individu:
Label: Rasio hazard bersifat konstan sepanjang waktu (asumsi proportional hazards) dan tidak bergantung pada bentuk .
E. Estimator Densitas Kernel
Label: Estimasi densitas non-parametrik dari observasi dengan kernel function dan bandwidth .
Kernel Gaussian (paling umum):
Label: Setiap observasi berkontribusi sebagai “gundukan” normal kecil di sekitar nilainya.
Asumsi Eksplisit
- Non-informatif censoring: Mekanisme sensoring independen dari waktu survival — . Ini asumsi paling kritis; jika dilanggar, semua estimator di atas menjadi bias.
- Independent censoring: Waktu sensor tiap individu tidak bergantung pada status survival individu lain dalam studi.
- Kaplan-Meier: Tidak ada ikatan (ties) antara waktu kematian dan waktu sensor; jika ada ties, individu tersensor dianggap keluar sesaat setelah waktu itu (konvensi umum).
- Cox PH: Proportional hazards — rasio hazard antara dua individu konstan sepanjang waktu. Jika kovariat berinteraksi dengan waktu, asumsi ini dilanggar.
- Kernel density: Bandwidth dipilih tepat — terlalu kecil menghasilkan estimasi noisy (overfit), terlalu besar menghasilkan estimasi yang terlalu halus (underfit).
Section 3 — Jembatan Logika
Dari Definisi ke Rumus — Mengapa Kaplan-Meier Berbentuk Produk?›
Bayangkan kita ingin menghitung secara empiris. Kita bisa memecah peluang ini menjadi rantai peluang kondisional: “survive hingga , lalu survive dari ke , lalu survive dari ke , …” — seperti aturan perkalian dalam 1.1 Survival and Lifetime Variables: . Di setiap waktu kematian , estimasi peluang kematian kondisional adalah (dari orang yang berisiko, meninggal). Peluang kondisional survive di adalah . Produk dari semua faktor ini untuk adalah estimator Kaplan-Meier. Individu tersensor berkontribusi pada untuk semua sebelum waktu sensor mereka — mereka “membantu” menghitung penyebut — tetapi mereka tidak masuk ke karena tidak meninggal pada waktu itu.
Perbedaan Sensoring vs Trunkasi›
- Sensoring kanan: Individu masuk ke studi, lalu hilang sebelum event terjadi. Kita tahu ia hidup sampai waktu sensor . Nilai dengan .
- Trunkasi kiri: Individu hanya masuk ke studi jika ia masih hidup pada waktu . Individu yang meninggal sebelum tidak pernah tercatat sama sekali — ini menyebabkan bias seleksi yang berbeda dari sensoring. Dalam trunkasi kiri, harus dihitung hanya dari individu yang sudah masuk ke studi pada waktu .
- Keduanya perlu penanganan berbeda dalam estimasi .
Derivasi Prosedur Kaplan-Meier Step-by-Step:
Misalkan data survival (waktu, indikator) terurut: .
Langkah 1: Urutkan semua waktu kematian yang teramati secara ascending: .
Langkah 2: Untuk setiap , hitung = jumlah individu yang masih at risk sesaat sebelum :
Individu dengan (sudah tersensor sebelum ) tidak masuk ke .
Langkah 3: Hitung faktor kondisional survive di :
Langkah 4: Estimasi Kaplan-Meier adalah produk kumulatif:
Langkah 5: bersifat step function — nilainya konstan antara dua waktu kematian berturutan, dan turun tiba-tiba tepat di setiap .
Langkah 6 — Perbarui saat ada sensoring antara dua waktu kematian: Jika ada individu tersensor dalam interval , maka .
Dilarang›
- Jangan memasukkan individu tersensor ke dalam . Hanya kematian yang teramati () yang masuk ke . Individu tersensor () hanya berkontribusi ke selama mereka masih dalam studi.
- Jangan membuang (drop) observasi tersensor dari analisis. Membuang mereka menyebabkan estimasi bias ke atas — seolah-olah mortalitas lebih tinggi dari sebenarnya karena hanya tersisa individu yang meninggal.
- Jangan menggunakan estimator Nelson-Aalen dan mengira hasilnya identik dengan Kaplan-Meier. Untuk sampel besar keduanya sangat dekat, tetapi untuk sampel kecil karena untuk .
Section 4 — Contoh Soal
Soal A — Fundamental
Soal: Sebuah studi survival mencatat 8 individu dengan data berikut (dalam bulan). Tanda ”+” menunjukkan tersensor kanan:
Hitunglah estimator Kaplan-Meier untuk semua , dan tentukan nilai .
Solusi Soal A›
Pendekatan: Susun tabel Kaplan-Meier dengan kolom , , , faktor kondisional, dan kumulatif.
1. Identifikasi Variabel
- individu total
- Waktu kematian teramati: (tanpa tanda ”+”) →
- Waktu tersensor: (dengan tanda ”+”)
2. Identifikasi Distribusi / Model Data campuran: 5 event teramati, 3 observasi tersensor kanan. Gunakan Kaplan-Meier — tidak ada asumsi distribusi parametrik.
3. Setup Persamaan
4. Eksekusi Aljabar
Susun tabel prosedur (perbarui saat ada sensoring sebelum ):
| Event sebelum | |||||
|---|---|---|---|---|---|
| — | |||||
| sensor keluar setelah | |||||
| — | |||||
| sensor keluar setelah | |||||
| sensor keluar setelah |
Untuk : tepat pada , sehingga:
5. Verification Cek: turun dari 8 dengan cara: (setelah ) (setelah sensor ) (setelah ) (setelah ) (setelah sensor ) (setelah ) (setelah sensor ) (setelah ). Konsisten. ✓
Hasil: — sekitar 39% dari individu diperkirakan masih hidup melewati 10 bulan.
Exam Tips — Soal A›
Target waktu: 4 menit. Common trap: Lupa mengurangi untuk individu tersensor yang keluar antara dua waktu kematian. Sensor keluar setelah tetapi sebelum , sehingga turun dari 7 menjadi 6 sebelum . Shortcut: Susun timeline semua kejadian (kematian dan sensoran) berurutan, lalu lacak yang tersisa satu per satu.
Soal B — Exam-Typical
Soal: Dengan data yang sama pada Soal A, hitunglah estimator Nelson-Aalen dan estimasi fungsi survival berbasis Nelson-Aalen untuk . Bandingkan dengan Kaplan-Meier.
Solusi Soal B›
Pendekatan: Akumulasikan inkremen di setiap waktu kematian hingga , lalu konversi ke survival via eksponensial negatif.
1. Identifikasi Variabel
- Waktu kematian: ; dan dari tabel Soal A
- Target: dan
2. Identifikasi Distribusi / Model Nelson-Aalen: estimator hazard kumulatif non-parametrik. Tidak memerlukan asumsi distribusi.
3. Setup Persamaan
4. Eksekusi Aljabar
Inkremen hazard hingga :
| kumulatif | ||||
|---|---|---|---|---|
Perbandingan dengan Kaplan-Meier:
5. Verification Secara teoritis: untuk , sehingga setiap faktor , yang berarti — terbukti: . ✓ Untuk sampel kecil (), selisih cukup terlihat. Untuk besar, keduanya akan sangat dekat.
Hasil: ; . Nelson-Aalen memberikan estimasi survival yang sedikit lebih optimis dari Kaplan-Meier pada sampel kecil.
Exam Tips — Soal B›
Target waktu: 3–4 menit. Common trap: Menggunakan yang salah (tidak memperbarui untuk individu tersensor). harus konsisten dengan tabel Kaplan-Meier — gunakan tabel yang sama. Shortcut: Nelson-Aalen = jumlahkan di setiap kematian (jika selalu). Untuk , gunakan .
Soal C — Challenging
Soal: Studi survival pada pasien penyakit jantung mencatat variabel kovariat “merokok” ( jika perokok, jika bukan). Model Cox Proportional Hazards diestimasi menghasilkan untuk variabel merokok.
(a) Tentukan hazard ratio antara perokok dan bukan perokok. (b) Jika hazard baseline pada tahun adalah per tahun, berapa hazard perokok pada ? (c) Jelaskan arti dari asumsi proportional hazards dalam konteks ini. (d) Jika (survival baseline pada ), estimasikan untuk seorang perokok.
Solusi Soal C›
Pendekatan: Gunakan definisi Cox PH: . Untuk survival: .
1. Identifikasi Variabel
- , kovariat (merokok)
- per tahun
- (survival baseline)
2. Identifikasi Distribusi / Model Model Cox PH semi-parametrik: . Bentuk tidak diasumsikan — hanya koefisien yang diestimasi.
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Hazard Ratio:
Perokok memiliki hazard kematian 2 kali lipat dibanding bukan perokok pada setiap waktu .
(b) Hazard perokok pada :
(c) Arti proportional hazards: Rasio hazard antara perokok dan bukan perokok adalah konstan = 2.0 untuk semua nilai , tidak bergantung pada waktu. Artinya, perokok selalu memiliki risiko kematian sesaat yang 2 kali lebih besar dari bukan perokok, baik di tahun ke-1, ke-5, maupun ke-20 studi.
(d) Survival perokok pada :
5. Verification — masuk akal, perokok memiliki survival lebih rendah. ✓ Relasi diturunkan dari dan .
Hasil: (a) HR ; (b) /tahun; (c) risiko perokok selalu 2× bukan perokok di semua waktu; (d) .
Exam Tips — Soal C›
Target waktu: 5 menit. Common trap: Mengira (perkalian linear) — SALAH. Rumus yang benar adalah (pangkat). Ini karena dan . Shortcut: Jika , maka — hazard ratio tepat 2, dan .
Section 5 — Verifikasi & Sanity Check
Cek Monotonisitas dan Batas Kaplan-Meier›
Estimasi Kaplan-Meier harus memenuhi:
Dan untuk semua — nilainya konstan antara dua kematian. Jika ada yang naik, ada kesalahan penghitungan atau urutan kejadian.
Konsistensi Nelson-Aalen dengan Kaplan-Meier›
Untuk setiap , harus selalu berlaku:
Jika , ada kesalahan hitung. Untuk sampel besar, selisihnya mengecil dan keduanya konvergen ke nilai yang sama.
Cek Cox PH — Arah Koefisien›
- → kovariat meningkatkan hazard (memperburuk survival)
- → kovariat menurunkan hazard (memperbaiki survival)
- → kovariat tidak mempengaruhi hazard
Selalu verifikasi: apakah arah konsisten dengan konteks biologi/aktuaria soal?
Metode Alternatif — Kaplan-Meier via Fraksional
Untuk data besar, KM bisa diaproksimasi dengan mengamati proporsi survival secara langsung tanpa membangun tabel baris per baris. Namun untuk ujian dengan data kecil, prosedur tabel penuh selalu lebih aman dan mudah dicek.
Section 6 — Visualisasi Mental
Kaplan-Meier sebagai step function:
Bayangkan sumbu adalah waktu (bulan/tahun) dan sumbu adalah proporsi survive :
- Kurva dimulai dari (semua individu hidup di awal studi).
- Kurva flat (tidak bergerak) antara dua waktu kematian — tidak ada informasi baru tentang kematian di sana.
- Kurva turun tiba-tiba (step down) tepat di waktu kematian yang teramati — besarnya lompatan adalah .
- Individu tersensor tidak menyebabkan kurva turun — mereka hanya “menyusutkan” untuk kematian berikutnya.
- Tanda ”+” (tick mark) sering ditambahkan di titik sensoran pada kurva untuk menunjukkan lokasi data tersensor.
S(t)
1.0 |****
| * ← flat antara kematian
| **
0.8 | *
| ***
0.6 | * + ← tanda sensor
| **
0.4 | **
| *
0.2 | **
| *
0.0 |_____________________________ t
0 3 5 6 8 9 10 12 14
d + d d + d + d
Nelson-Aalen sebagai step function kumulatif hazard:
Sumbu adalah — dimulai dari 0 dan naik monoton. Setiap kematian menambah inkremen . Semakin besar relatif terhadap , semakin kecil “loncatan” naik.
Hubungan Visual ↔ Rumus
| Elemen Visual | Komponen Rumus |
|---|---|
| Panjang tiap step turun di KM | |
| Tinggi flat antara dan | — nilai konstan |
| Lebar step di Nelson-Aalen | — inkremen hazard |
| Tanda ”+” pada kurva | Posisi sensor kanan — tidak mengubah nilai |
| Kurva KM turun lebih tajam dari NA di sampel kecil | untuk |
Section 7 — Jebakan Umum
Kesalahan Parametrisasi›
Salah: Menghitung sebagai jumlah total individu dikurangi hanya kematian sebelumnya, tanpa memperbarui untuk individu tersensor yang sudah keluar. Benar: di mana adalah jumlah individu tersensor dalam interval . Setiap sensor yang keluar antara dua kematian harus dikurangkan dari sebelum kematian berikutnya.
Kesalahan Konseptual›
- Sensoring ≠ Trunkasi: Sensoring terjadi setelah individu masuk ke studi; trunkasi kiri terjadi sebelum individu masuk (yang meninggal sebelum masuk tidak tercatat sama sekali). Keduanya mengurangi tetapi dengan cara berbeda.
- KM bukan rata-rata empiris biasa: (jumlah yang hidup melewati ) / (total individu). Formula rata-rata biasa mengabaikan sensoran dan menghasilkan estimasi bias. KM menggunakan probabilitas kondisional yang benar.
- Nelson-Aalen bukan invers Kaplan-Meier: , bukan atau formula lain. Dan secara eksak — hanya asimtotik.
- Cox PH bukan model parametrik penuh: Bentuk tidak dispesifikasi. Yang diestimasi hanya , bukan . Ini membuat Cox lebih fleksibel tapi juga tidak bisa digunakan untuk prediksi absolut tanpa estimasi tambahan.
Kesalahan Interpretasi Soal›
- Kata “censored at time ” → individu tersensor kanan; , . Jangan masukkan ke .
- Kata “study ends at time ” → semua individu yang masih hidup pada adalah tersensor kanan pada .
- Kata “withdrawn from study” atau “lost to follow-up” → tersensor kanan pada waktu penarikan.
- Kata “hazard ratio” dalam Cox → langsung ; bukan itu sendiri.
- Ketika soal meminta untuk di antara dua waktu kematian → nilai KM sama dengan nilai di waktu kematian sebelumnya (kurva flat).
Red Flags›
- Jika tabel data mengandung tanda ”+” atau “c” di samping waktu → data tersensor, WAJIB gunakan KM atau Nelson-Aalen, bukan proporsi empiris biasa.
- Jika soal menyebut “ties” (beberapa kematian pada waktu yang sama) → pada tersebut — pastikan dihitung dengan benar sebelum ties.
- Jika diminta membandingkan KM dan Nelson-Aalen → ingat selalu dan selisih mengecil untuk besar.
- Jika soal Cox PH memberikan dan meminta → gunakan , BUKAN .
Section 8 — Ringkasan Eksekutif
Must-Remember›
-
Observasi tersensor: pasangan dengan dan .
-
Kaplan-Meier (Product-Limit):
-
Nelson-Aalen (Cumulative Hazard):
-
Hubungan KM vs NA: karena .
-
Cox PH — Hazard Ratio dan Survival:
Kapan Digunakan
- Data mengandung sensoran (tanda ”+”) dan tidak ada asumsi model parametrik → Kaplan-Meier atau Nelson-Aalen.
- Soal meminta estimasi cumulative hazard → Nelson-Aalen langsung, tanpa perlu konversi.
- Soal meminta perbandingan dua grup survival dengan kovariat → Cox PH (hazard ratio).
- Data besar, soal meminta aproksimasi varians → Formula Greenwood.
- Soal meminta estimasi “smooth” dari densitas tanpa asumsi distribusi → Kernel Density Estimator.
Kapan TIDAK Boleh Digunakan
- Jika model distribusi sudah dispesifikasi (Gompertz, Weibull, dll.) → gunakan model parametrik dari 1.4 Parametric Survival Models dan 1.6 Maximum Likelihood Estimation for Survival.
- Jika data tidak tersensor sama sekali → KM mereduksi menjadi fungsi survival empiris biasa — bisa dihitung lebih sederhana.
- Jika soal menyangkut multiple states (hidup/sakit/mati) → beralih ke 2.1 Multiple State and Markov Models.
Quick Decision Tree
graph TD
A["Data survival tersedia?"] -->|"Ya"| B["Apakah ada observasi tersensor?"]
A -->|"Tidak"| Z["Gunakan statistik deskriptif biasa"]
B -->|"Ya"| C["Apakah ada kovariat yang ingin dimodelkan?"]
B -->|"Tidak"| D["Fungsi survival empiris biasa<br>S_hat(t) = #{Ti > t} / n"]
C -->|"Ya"| E["Cox Proportional Hazards<br>h(t|x) = h0(t) * exp(beta^T x)<br>HR = exp(beta_hat)"]
C -->|"Tidak"| F["Pilih estimator non-parametrik"]
F -->|"Ingin S(t)"| G["Kaplan-Meier<br>S_hat = prod(1 - dj/nj)"]
F -->|"Ingin H(t)"| H["Nelson-Aalen<br>H_hat = sum(dj/nj)"]
G --> I["Cek: S_KM <= S_NA selalu"]
H --> I
E --> J["Cek arah beta:<br>beta > 0 = hazard naik<br>beta < 0 = hazard turun"]
Follow-up Options›
- “Berikan contoh soal Kaplan-Meier dengan ties (beberapa kematian di waktu yang sama)”
- “Jelaskan hubungan 1.5 Censoring and Non-Parametric Estimation dengan 1.6 Maximum Likelihood Estimation for Survival”
- “Buat flashcard 1-halaman perbandingan KM vs Nelson-Aalen vs Cox PH”
📖 Ref: London (1997) Bab 6–8; Frees (2010) Bab 14 | 🗓️ 2026-04-19 | #TA1 #NonParametricEstimation #Censoring