Uji Hipotesis
📊 4.8 — Uji Hipotesis
Ringkasan Cepat›
Topik: Uji Hipotesis — Kerangka Umum, Z-test, t-test, -test, F-test | Bobot: ~25–35% | Difficulty: Hard Ref: Hogg-Tanis-Zimm (2015) Bab 6.1–6.5; Hogg-McKean-Craig (2019) Bab 4.4–4.6; Miller et al. (2014) Bab 9.1–9.5; Walpole et al. (2012) Bab 10.1–10.5 | Prereq: 4.1 Penarikan Sampel Acak, 4.2 Distribusi Sampel, 4.3 Teorema Limit Pusat (CLT), 4.7 Interval Kepercayaan
Section 0 — Pemetaan Topik
| Topik CF2 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Topik 4: Inferensi Statistik | 4.8 | Merumuskan dan (satu sisi & dua sisi); mendefinisikan dan menghitung statistik uji , , , ; menentukan wilayah penolakan (rejection region) dari level signifikansi ; menghitung dan menginterpretasikan -value; membedakan Tipe I error (), Tipe II error (), dan daya uji (power ); melaksanakan uji satu sampel untuk ( diketahui/tidak), untuk , uji dua sampel untuk (independen & berpasangan), dan uji untuk ; mengaitkan uji hipotesis dengan interval kepercayaan | 25–35% | Hard | 4.1 Penarikan Sampel Acak, 4.2 Distribusi Sampel, 4.3 Teorema Limit Pusat (CLT), 4.7 Interval Kepercayaan | 4.7 Interval Kepercayaan, 4.9 Uji Goodness-of-Fit, 4.10 Regresi Linear Sederhana | Hogg-Tanis-Zimm (2015) Bab 6.1–6.5; Hogg-McKean-Craig (2019) Bab 4.4–4.6; Miller et al. (2014) Bab 9.1–9.5; Walpole et al. (2012) Bab 10.1–10.5 |
Section 1 — Intuisi
Seorang aktuaris menduga bahwa rata-rata klaim dari polis asuransi jiwa baru lebih rendah dari Rp 150 juta — nilai historis perusahaan. Ia mengambil sampel 40 polis, menghitung juta, dan bertanya: “Apakah perbedaan ini cukup besar untuk menyimpulkan bahwa mean populasi benar-benar berubah, ataukah hanya fluktuasi acak sampel?” Inilah pertanyaan inti uji hipotesis (hypothesis testing): membedakan sinyal nyata dari kebisingan acak (noise).
Kerangka uji hipotesis bekerja dengan logika bukti ex contrario — mirip dengan pembuktian dalam hukum. Kita mulai dengan hipotesis nol yang menyatakan “tidak ada perubahan” atau “tidak ada efek” — anggap ini sebagai “praduga tak bersalah”. Kemudian data memberikan bukti berupa statistik uji. Jika bukti cukup ekstrem (probabilitasnya kecil di bawah ), kita tolak dan menerima hipotesis alternatif . Jika tidak cukup ekstrem, kita gagal menolak — bukan berarti terbukti benar, hanya saja bukti tidak cukup kuat untuk menolaknya.
Dua jenis kesalahan bisa terjadi: Tipe I (menolak yang sebenarnya benar — false positive) dan Tipe II (gagal menolak yang sebenarnya salah — false negative). Level signifikansi adalah batas maksimum yang kita toleransi untuk Tipe I — biasanya 0,01, 0,05, atau 0,10. Daya uji (power) mengukur kemampuan mendeteksi efek nyata. Ada trade-off inheren: untuk ukuran sampel tetap, memperkecil (lebih ketat) akan memperbesar (lebih sering gagal mendeteksi efek nyata). Satu-satunya cara memperkecil keduanya sekaligus adalah memperbesar .
-value adalah probabilitas mendapat statistik uji se-ekstrem atau lebih ekstrem dari yang terobservasi, jika benar. -value kecil berarti data sangat tidak konsisten dengan — semakin kecil -value, semakin kuat bukti melawan . Keputusan: tolak jika .
Section 2 — Definisi Formal
Definisi Matematis›
Hipotesis Statistik: Pernyataan tentang parameter populasi : di mana dan (semua nilai yang mungkin).
Tipe Hipotesis Alternatif:
Statistik Uji (Test Statistic): Fungsi dari data sampel yang digunakan untuk mengambil keputusan. Distribusi di bawah diketahui dan digunakan untuk menentukan wilayah penolakan.
-value:
- Dua sisi:
- Satu sisi kanan:
- Satu sisi kiri:
Variabel & Parameter
| Simbol | Makna | Catatan |
|---|---|---|
| Hipotesis nol | Pernyataan “status quo”; ditolak atau gagal ditolak (tidak pernah “diterima”) | |
| (atau ) | Hipotesis alternatif | Yang ingin dibuktikan; satu sisi atau dua sisi |
| Level signifikansi | ; dipilih sebelum uji | |
| Probabilitas Tipe II error | ; bergantung pada nilai di bawah | |
| Daya uji (power) | Probabilitas mendeteksi efek nyata; idealnya mendekati 1 | |
| Nilai statistik uji terobservasi | Bilangan tetap dihitung dari data; dibandingkan dengan nilai kritis | |
| Nilai kritis ekor kanan | ; contoh: , | |
| Nilai kritis ekor kanan | ||
| Nilai kritis ekor kanan | ||
| Nilai kritis ekor kanan | ||
| Variansi pooled | ; digunakan saat diasumsikan |
Tabel Master: Semua Uji Hipotesis Utama
| Uji | Parameter | Statistik Uji | Distribusi di bawah | Asumsi | |
|---|---|---|---|---|---|
| Z-test satu sampel | diketahui; Normal atau besar | ||||
| t-test satu sampel | tidak diketahui; populasi Normal | ||||
| -test variansi | Populasi Normal | ||||
| t-test dua sampel independen (variansi sama) | Populasi Normal, , independen | ||||
| t-test dua sampel independen (variansi beda) | Welch | Populasi Normal, | |||
| t-test berpasangan | Normal; data berpasangan | ||||
| F-test variansi | Populasi Normal, dua sampel independen |
Wilayah Penolakan per Tipe Alternatif
| Wilayah Penolakan | -value | |
|---|---|---|
| (dua sisi) | ||
| (satu sisi kanan) | ||
| (satu sisi kiri) |
di mana adalah nilai kritis distribusi yang sesuai pada level .
Rumus Utama — Kerangka Pengambilan Keputusan
Label: Kesetaraan Keputusan — tiga cara pengambilan keputusan yang selalu konsisten: via -value, via wilayah penolakan, dan via interval kepercayaan.
Label: Dua Jenis Kesalahan — dikendalikan oleh pemilihan level signifikansi; bergantung pada nilai yang sebenarnya di bawah .
Label: Fungsi Daya Uji — probabilitas mendeteksi bahwa salah ketika nilai parameter sesungguhnya adalah ; fungsi dari , , , dan statistik uji.
Label: Derajat Kebebasan Welch (t-test Dua Sampel Variansi Berbeda) — aproksimasi df untuk uji Welch-Satterthwaite; selalu dibulatkan ke bawah ke integer.
Label: Dualitas Interval Kepercayaan dan Uji Hipotesis — IC dua sisi dan uji dua sisi pada level selalu menghasilkan keputusan yang sama; interval kepercayaan memberikan informasi lebih kaya daripada keputusan biner.
Asumsi Eksplisit
- Z-test: diketahui dan populasi Normal (eksak) atau (aproksimasi CLT). Dalam praktik sangat jarang karena hampir tidak pernah diketahui.
- t-test satu sampel: Populasi Normal dengan tidak diketahui. Robust terhadap deviasi ringan dari normalitas untuk .
- t-test dua sampel pooled: Kedua populasi Normal dengan variansi sama (); dua sampel independen. Sebaiknya lakukan F-test terlebih dahulu untuk memeriksa asumsi variansi sama.
- t-test berpasangan: Perbedaan harus Normal (atau cukup besar); data harus berpasangan secara natural (pengukuran sebelum-sesudah, atau pasangan yang cocok).
- -test variansi: Populasi Normal — uji ini sangat tidak robust terhadap deviasi normalitas; bahkan deviasi ringan dapat memengaruhi validitasnya secara signifikan.
- F-test variansi: Kedua populasi Normal, dua sampel independen — seperti -test, sangat sensitif terhadap asumsi normalitas.
Section 3 — Jembatan Logika
Dari Definisi ke Rumus›
Mengapa statistik uji terdistribusi seperti yang dinyatakan di bawah ?
Untuk Z-test: jika benar dan , maka:
Untuk t-test: mengganti dengan menghasilkan (Fisher’s Theorem). Distribusi- berlaku eksak untuk populasi Normal; untuk populasi non-Normal dengan besar, CLT memastikan mendekati .
Untuk -test: dari Fisher’s Theorem, . Jika benar: .
Untuk F-test: . Jika benar, faktor hilang dan .
Lima Langkah Baku Uji Hipotesis›
Setiap soal uji hipotesis harus diselesaikan dengan urutan langkah yang sama:
Langkah 1 — Rumuskan Hipotesis: Nyatakan dan secara eksplisit dalam bentuk parameter (, , dsb.), bukan dalam kata-kata saja. Tentukan apakah uji satu sisi atau dua sisi berdasarkan konteks soal.
Langkah 2 — Pilih Statistik Uji dan Distribusinya di bawah : Identifikasi uji yang sesuai dari tabel master (Z, , , ). Sebutkan distribusi di bawah beserta derajat kebebasannya.
Langkah 3 — Tentukan Wilayah Penolakan atau Nilai Kritis: Dari level signifikansi dan distribusi di langkah 2, tentukan nilai kritis atau . Wilayah penolakan bergantung pada arah .
Langkah 4 — Hitung Statistik Uji dari Data: Substitusikan nilai sampel (, , , dsb.) ke formula statistik uji. Ini menghasilkan satu bilangan .
Langkah 5 — Ambil Keputusan dan Interpretasikan: Bandingkan dengan nilai kritis (atau hitung -value). Nyatakan keputusan dalam konteks masalah asli — bukan hanya “tolak” atau “gagal tolak” secara abstrak.
Derivasi Daya Uji untuk Z-test Satu Sisi:
Untuk uji satu sisi kanan dengan statistik :
Wilayah penolakan: , ekuivalen dengan .
Daya pada nilai alternatif :
Substitusi :
Untuk dua sisi (), aproksimasi yang biasa digunakan:
Ukuran Sampel untuk Daya Target:
Untuk mencapai pada uji satu sisi:
Untuk uji dua sisi, ganti dengan .
Hubungan IC dengan Uji Hipotesis (Dualitas):
IC dua sisi untuk : .
Tolak pada level berada di luar IC .
Dualitas ini berarti IC memberikan semua informasi yang diberikan uji hipotesis ditambah ukuran efek — IC selalu lebih informatif dari sekadar keputusan biner.
Dilarang›
- Dilarang menyimpulkan ” terbukti benar” atau ” diterima” ketika gagal menolak . Ketidakmampuan menolak tidak berarti benar — hanya berarti bukti tidak cukup kuat. Frasa yang benar: “gagal menolak ” atau “tidak cukup bukti untuk menolak ”.
- Dilarang mengubah level signifikansi setelah melihat data. harus dipilih sebelum pengumpulan data. Menyesuaikan agar keputusan sesuai harapan adalah manipulasi statistik (p-hacking).
- Dilarang menginterpretasikan -value sebagai probabilitas bahwa benar. -value adalah — bukan . Keduanya sangat berbeda (Teorema Bayes diperlukan untuk yang kedua).
Section 4 — Contoh Soal
Soal A — Fundamental
Sebuah perusahaan asuransi mengklaim bahwa rata-rata waktu penyelesaian klaim adalah hari. Seorang regulator mengambil sampel acak klaim dan memperoleh hari dan hari. Asumsikan waktu penyelesaian berdistribusi Normal.
(a) Rumuskan dan untuk menguji apakah rata-rata berbeda dari 14 hari. Tentukan level signifikansi . (b) Identifikasi statistik uji yang sesuai beserta distribusinya di bawah . Jelaskan mengapa -test, bukan -test. (c) Hitung nilai statistik uji dan tentukan wilayah penolakan. (d) Hitung -value dan ambil keputusan. (e) Bangun IC untuk dan verifikasi konsistensinya dengan keputusan uji hipotesis.
Solusi Soal A›
1. Identifikasi Variabel
- ; ; ;
- tidak diketahui; populasi Normal
- df
2. Identifikasi Distribusi / Model tidak diketahui → t-test satu sampel. Statistik di bawah .
3. Setup Persamaan
Lima langkah baku:
4. Eksekusi Aljabar
(a) Hipotesis:
(b) Statistik uji dan justifikasi:
Gunakan t-test karena tidak diketahui dan diestimasi dengan . Jika digunakan Z-test, kita perlu (diketahui), yang tidak diberikan dalam soal. Substitusi ke formula Z-test menghasilkan distribusi , bukan Normal standar (Fisher’s Theorem).
(c) Nilai kritis, wilayah penolakan, dan :
Nilai kritis (dua sisi, , df ):
Wilayah penolakan: , yaitu atau .
Hitung :
(d) -value dan keputusan:
Karena uji dua sisi dan :
Dari tabel : dan . Karena berada di antara keduanya:
Lebih tepatnya: .
Keputusan: Karena , gagal menolak .
Juga: — tidak masuk wilayah penolakan.
Interpretasi: Pada level signifikansi 5%, tidak terdapat cukup bukti statistik bahwa rata-rata waktu penyelesaian klaim berbeda dari 14 hari. Namun, -value cukup dekat dengan 0,05 — hasil ini bersifat marginal dan mungkin signifikan pada .
(e) IC 95% dan dualitas:
Verifikasi dualitas: berada di dalam interval → gagal menolak ✓. Konsisten dengan keputusan via -value.
5. Verification
- : hitung ulang ✓
- -value : gagal tolak ; IC: gagal tolak — kedua metode konsisten ✓
- IC mencakup 14: — 14 berada sangat dekat batas bawah, menjelaskan hasil marginal ✓
Exam Tips — Soal A›
Target waktu: 10–12 menit Common trap 1: → gagal tolak. Banyak kandidat salah karena membandingkan dengan (menggunakan nilai kritis Normal, bukan ). Untuk dengan tidak diketahui, selalu gunakan nilai kritis , bukan . Common trap 2: -value untuk uji dua sisi = dua kali probabilitas ekor satu sisi. Jangan lupa faktor 2. Shortcut: IC dan uji hipotesis selalu konsisten — jika IC dua sisi sudah dihitung, cukup periksa apakah ada di dalam IC untuk keputusan tanpa perlu menghitung statistik uji secara terpisah.
Soal B — Exam-Typical
Sebuah perusahaan re-asuransi mengklaim bahwa variansi kerugian klaim dari dua lini bisnis (Lini A: sampel, ; Lini B: sampel, ) adalah sama. Diasumsikan kerugian berdistribusi Normal secara independen.
(a) Lakukan F-test untuk menguji vs pada . (b) Hitung -value (pendekatan via tabel ). (c) Jika kesimpulan dari (a) adalah variansi berbeda, lakukan uji menggunakan t-test Welch. Data tambahan: , . Hitung df Welch (pembulatan ke bawah). (d) Jika sebaliknya variansi sama, hitung statistik uji pooled dan tentukan distribusinya. (e) Sebuah auditor mengambil sampel klaim dari Lini A dan menguji vs pada . Data: . Lakukan uji lengkap.
Solusi Soal B›
1. Identifikasi Variabel
- Lini A: , , ; df
- Lini B: , , ; df
- Kedua populasi Normal, independen
2. Identifikasi Distribusi / Model F-test untuk variansi; t-test (pooled atau Welch) untuk mean tergantung hasil F-test; -test untuk variansi satu sampel.
3. Setup Persamaan
F-test: (peletakan numerator: variansi lebih besar di atas untuk kemudahan)
4. Eksekusi Aljabar
(a) F-test :
vs , .
Letakkan variansi lebih besar di numerator (konvensi umum untuk uji dua sisi):
Nilai kritis (dua sisi, untuk ekor kanan karena ):
Wilayah penolakan (ekor kanan karena diletakkan di numerator): .
Keputusan: → Tolak .
Kesimpulan: Cukup bukti bahwa variansi kedua lini bisnis berbeda pada .
(b) -value F-test:
(karena dua sisi).
Dari tabel: dan . Karena :
Maka . Lebih tepatnya: -value .
(c) t-test Welch ():
Statistik uji:
Derajat kebebasan Welch:
Distribusi: di bawah .
Nilai kritis dua sisi : .
→ Tolak . Cukup bukti .
(d) t-test Pooled ( — skenario alternatif):
Distribusi di bawah : .
(e) -test untuk :
vs , , , .
Langkah 1: , (satu sisi kanan).
Langkah 2: di bawah .
Langkah 3: Nilai kritis (satu sisi kanan): . Wilayah penolakan: .
Langkah 4: .
Langkah 5: → Gagal menolak .
Interpretasi: Tidak cukup bukti bahwa variansi kerugian Lini A melebihi 100 pada level signifikansi 5%.
5. Verification
- — pastikan pembilang adalah variansi lebih besar ✓
- df Welch (dibulatkan dari 23,37 ke bawah) — bukan 24 ✓
- : antara dan → -value → tidak tolak pada ✓
Exam Tips — Soal B›
Target waktu: 16–19 menit Common trap 1 (F-test): Untuk uji dua sisi, nilai kritis adalah (bukan ). Dengan , gunakan . Konvensi meletakkan variansi lebih besar di numerator memungkinkan kita hanya memeriksa ekor kanan. Common trap 2 (Welch df): Selalu bulatkan ke bawah, tidak ke atas dan tidak ke nearest integer. , bukan 24. Common trap 3 (-test): Statistik uji menggunakan (dari ), bukan yang tidak diketahui. Formula: — bagi dengan nilai hipotesis, bukan variansi sampel.
Soal C — Challenging
Suatu studi membandingkan besarnya klaim sebelum dan sesudah implementasi program manajemen risiko baru. Sampel polis yang sama diukur sebelum () dan sesudah () program, dengan data perbedaan (positif = klaim berkurang):
(a) Jelaskan mengapa harus menggunakan t-test berpasangan bukan t-test dua sampel independen. (b) Hitung dan , lalu lakukan uji vs pada . (c) Hitung -value dan buat kesimpulan dalam konteks aktuaria. (d) Bangun IC satu sisi (batas bawah) untuk . (e) Hitung daya uji (power) jika nilai sebenarnya dengan yang dihitung di bagian (b). Gunakan aproksimasi Normal.
Solusi Soal C›
1. Identifikasi Variabel
- pasangan;
- Data:
- df
2. Identifikasi Distribusi / Model t-test berpasangan: perlakukan sebagai satu sampel i.i.d. .
3. Setup Persamaan
di bawah .
4. Eksekusi Aljabar
(a) Justifikasi t-test berpasangan:
Data tidak independen: pengukuran sebelum dan sesudah diambil dari polis yang sama. Setiap pasangan berkorelasi — karakteristik risiko polis memengaruhi keduanya. T-test dua sampel independen mengasumsikan , yang dilanggar di sini. T-test berpasangan menghilangkan variasi antar-polis dengan menganalisis perbedaan , menghasilkan uji yang lebih kuat (powerful).
(b) Hitung , , dan statistik uji:
Hitung :
Statistik uji:
Nilai kritis satu sisi kanan, , df :
→ Tolak .
(c) -value dan kesimpulan:
Satu sisi kanan: .
Dari tabel: dan . Karena :
Lebih tepatnya: -value .
Kesimpulan aktuaria: Pada level signifikansi 5% (bahkan 0,5%), terdapat bukti statistik yang sangat kuat bahwa program manajemen risiko baru berhasil mengurangi besarnya klaim secara rata-rata. Rata-rata pengurangan klaim yang diestimasi adalah Rp 3 juta per polis ().
(d) IC 95% satu sisi (batas bawah) untuk :
IC satu sisi kanan (memberikan batas bawah):
IC: juta rupiah dengan kepercayaan 95%.
Interpretasi: Rata-rata pengurangan klaim akibat program manajemen risiko adalah setidaknya Rp 1,516 juta per polis dengan kepercayaan 95%.
(e) Daya uji pada :
Gunakan aproksimasi Normal untuk daya uji satu sisi kanan.
Dengan dan , standar error .
Nilai kritis dalam skala : .
Daya pada :
Interpretasi: Jika pengurangan rata-rata sesungguhnya adalah Rp 2 juta, uji ini memiliki daya 73,4% untuk mendeteksinya — artinya 26,6% kemungkinan gagal mendeteksi efek nyata (Tipe II error) dengan .
5. Verification
- ; cek: ✓
- : selalu non-negatif; lebih kecil dari range data () ✓
- Daya 73,4% untuk efek dengan : wajar — efek relatif kecil ( SD) dan tidak besar ✓
- IC batas bawah : secara praktis bermakna (pengurangan setidaknya Rp 1,5 juta) ✓
Exam Tips — Soal C›
Target waktu: 18–22 menit Common trap 1: Menggunakan t-test dua sampel independen untuk data berpasangan adalah kesalahan konseptual serius. Kunci identifikasi: “polis yang sama diukur dua kali”, “sebelum-sesudah”, “pasangan yang cocok” (matched pairs) → selalu t-test berpasangan. Common trap 2: Formula lebih cepat dari menghitung satu per satu untuk besar. Hafalkan bentuk komputasi ini. Common trap 3: IC satu sisi memberikan batas bawah (untuk ), bukan interval dua sisi. Gunakan (bukan ) untuk IC satu sisi. Common trap 4: Untuk daya uji, aproksimasi Normal menggunakan — ini menghasilkan aproksimasi, bukan nilai eksak. Nilai eksak memerlukan distribusi non-central yang di luar cakupan CF2.
Section 5 — Verifikasi & Sanity Check
Validasi Pemilihan Uji›
Sebelum menghitung statistik uji apapun, jawab empat pertanyaan ini berurutan:
- Parameter apa yang diuji? , , atau , atau ? ✓
- Berapa sampel? Satu, dua independen, atau dua berpasangan? ✓
- Apakah diketahui? Ya → ; Tidak → (untuk ) ✓
- Apakah populasi Normal atau cukup besar? Ini menentukan apakah distribusi berlaku eksak atau hanya aproksimasi ✓
Validasi Arah Wilayah Penolakan›
- Dua sisi (): tolak jika ; gunakan atau ✓
- Satu sisi kanan (): tolak jika ; gunakan atau ✓
- Satu sisi kiri (): tolak jika ; gunakan atau ✓
- -value untuk dua sisi = dua kali ekor satu sisi ✓
Validasi Derajat Kebebasan›
| Uji | df |
|---|---|
| t satu sampel | |
| t dua sampel pooled | |
| t Welch | (hitung dan bulatkan ke bawah) |
| t berpasangan | (bukan !) |
| variansi | |
| dua sampel |
Validasi Keputusan via Dua Metode›
Selalu verifikasi menggunakan minimal dua cara berbeda:
- Metode wilayah penolakan: vs nilai kritis ✓
- Metode -value: vs ✓
- Metode IC (untuk uji dua sisi): apakah IC ? ✓
Ketiga metode harus menghasilkan keputusan yang sama — jika tidak, ada kesalahan perhitungan.
Metode Alternatif
Menggunakan IC untuk keputusan uji hipotesis: Bangun IC untuk parameter. Tolak jika berada di luar IC. Lebih informatif dari keputusan biner karena menunjukkan range nilai yang kompatibel dengan data.
Menentukan -value dari tabel: Untuk dan df diketahui, lokasikan di antara dua nilai kritis tabel untuk mendapat batas atas dan bawah -value. Contoh: jika dan df , dan serta , maka → .
Section 6 — Visualisasi Mental
Distribusi Sampling di bawah — Kurva Standar:
Bayangkan distribusi di bawah sebagai kurva simetris berpusat di nol (untuk dan ) atau kurva right-skewed berpusat di df (untuk ). Wilayah penolakan adalah ekor-ekor yang diarsir — area total = . Nilai terobservasi adalah satu titik pada kurva ini. Jika titik ini jatuh di wilayah yang diarsir, kita tolak . -value adalah luas area dari ke ekor — semakin kecil area ini, semakin tidak kompatibel data dengan .
Trade-off dan — Dua Kurva:
Bayangkan dua kurva distribusi: satu di bawah (berpusat di ) dan satu di bawah (berpusat di ). Nilai kritis memisahkan dua wilayah. Area di bawah di kanan adalah (Tipe I). Area di bawah di kiri adalah (Tipe II). Menggeser ke kanan (perketat ) otomatis memperbesar area — trade-off ini hanya bisa dipecahkan dengan memperbesar (memisahkan kedua kurva lebih jauh).
Daya Uji sebagai Fungsi dari :
Kurva daya (power curve) dimulai dari saat (daya minimal), meningkat monoton saat bertambah, dan mendekati 1 saat efek sangat besar. Memperbesar mengangkat seluruh kurva ke atas — daya lebih tinggi untuk semua nilai .
Hubungan Visual ↔ Rumus
Wilayah penolakan dua sisi berkorespondensi dengan:
Dualitas IC–uji hipotesis berkorespondensi dengan:
Trade-off - berkorespondensi dengan:
Section 7 — Jebakan Umum
Kesalahan Konseptual›
- “Gagal tolak ” ≠ ” terbukti benar”. Ini adalah kesalahan interpretasi paling fundamental. Kegagalan menolak hanya berarti bukti tidak cukup kuat — bukan konfirmasi . Contoh: uji yang memiliki daya rendah ( kecil) akan sering gagal menolak bahkan ketika salah.
- “-value = probabilitas benar”. -value adalah kondisional: , bukan . Yang kedua memerlukan prior Bayesian — di luar cakupan CF2 tetapi sering disalahpahami.
- Mengubah setelah melihat data (HARKing). dan harus dirumuskan sebelum melihat data. Merumuskan hipotesis setelah melihat hasil (Hypothesizing After Results are Known) menghasilkan inflasi Tipe I error yang serius.
- Menggunakan Z-test saat tidak diketahui. Mensubstitusikan ke formula Z-test tidak menghasilkan distribusi Normal standar — hasilnya adalah distribusi . Untuk besar (), dan hampir identik, tetapi untuk kecil perbedaannya signifikan.
Kesalahan Parametrisasi›
Tabel Kesalahan Derajat Kebebasan:
| Uji | df BENAR | Kesalahan Umum |
|---|---|---|
| t berpasangan, pasangan | (salah anggap dua sampel bebas) | |
| t pooled, dan | atau | |
| variansi | ||
| F-test | ||
| Welch | dibulatkan ke bawah | Dibulatkan ke atas atau ke nearest |
Nilai kritis F-test dua sisi:
- → gunakan (bukan ) karena dua sisi
- Menempatkan variansi lebih besar di numerator → hanya perlu memeriksa ekor kanan
Kesalahan Interpretasi Soal›
- “Apakah ada perbedaan”: uji dua sisi ().
- “Apakah lebih besar/lebih kecil dari”: uji satu sisi ( atau ). Identifikasi arah dari konteks soal.
- “Data berpasangan”: t-test berpasangan. Kunci identifikasi: “sebelum-sesudah”, “polis yang sama”, “pasangan yang cocok”, “pengukuran ganda pada unit yang sama”.
- “Apakah variansi sama”: lakukan F-test terlebih dahulu sebelum t-test dua sampel. Hasil F-test menentukan apakah menggunakan t-pooled atau t-Welch.
- “Level 5%” untuk uji dua sisi: gunakan atau — bukan .
Red Flags›
- ” tidak diketahui”: wajib t-test, bukan Z-test.
- “Sebelum-sesudah” atau “polis yang sama diukur dua kali”: wajib t-test berpasangan; df .
- Soal meminta uji dua variansi: F-test dengan df ; untuk dua sisi gunakan di tabel.
- Soal meminta uji variansi satu sampel: -test dengan .
- -value tetapi “sangat sedikit”: pertimbangkan kekuatan uji — keputusan statistis tidak selalu bermakna praktis. Ukuran efek penting di samping signifikansi.
- Soal menyebutkan “dua populasi Normal independen”: periksa asumsi terlebih dahulu via F-test sebelum memilih antara t-pooled dan t-Welch.
- Soal tentang yang diperlukan untuk daya tertentu: gunakan formula (satu sisi) atau ganti dengan (dua sisi).
Section 8 — Ringkasan Eksekutif
Must-Remember›
-
Lima langkah baku — selalu ikuti urutan ini: Rumuskan / → Pilih statistik uji dan distribusinya → Tentukan nilai kritis → Hitung statistik uji dari data → Keputusan dan interpretasi konteks.
-
Empat uji utama dan statistiknya:
-
Tiga jenis keputusan — selalu konsisten:
-
Error dan daya — trade-off fundamental:
-
Variansi pooled dan derajat kebebasan kritis:
Kapan Digunakan
- Z-test: diketahui (sangat jarang dalam praktik) atau sangat besar () sehingga .
- t-test satu sampel: tidak diketahui; inferensi tentang satu populasi Normal.
- t-test dua sampel (pooled): Dua sampel independen dari populasi Normal dengan variansi sama yang terlebih dahulu diverifikasi via F-test.
- t-test Welch: Dua sampel independen dari populasi Normal dengan variansi berbeda (setelah F-test signifikan).
- t-test berpasangan: Data berpasangan (sebelum-sesudah, atau pasangan yang cocok) — bukan dua sampel independen.
- -test: Inferensi tentang satu populasi Normal.
- F-test: Perbandingan dan dari dua populasi Normal independen; atau sebagai prasyarat sebelum memilih t-pooled vs t-Welch.
Kapan TIDAK Boleh Digunakan
- Jangan Z-test jika tidak diketahui — gunakan t-test.
- Jangan t-pooled tanpa memeriksa asumsi — lakukan F-test terlebih dahulu; jika F-test signifikan, gunakan Welch.
- Jangan t-test dua sampel independen untuk data berpasangan — gunakan t-test berpasangan.
- Jangan atau F-test untuk populasi non-Normal — kedua uji sangat sensitif terhadap asumsi normalitas; bahkan deviasi ringan dapat membuat hasil tidak valid.
- Jangan menyimpulkan “H_0 terbukti” dari kegagalan tolak — kegagalan tolak bukan konfirmasi .
Quick Decision Tree
graph TD
A["Uji Hipotesis — Identifikasi Uji yang Tepat"] --> B["Parameter apa yang diuji?"]
B --> C["Mean mu"]
B --> D["Variansi sigma^2"]
B --> E["Perbandingan dua mean mu1-mu2"]
B --> F["Perbandingan dua variansi sigma1^2/sigma2^2"]
C --> G["Apakah sigma^2 diketahui?"]
G -->|"Ya"| H["Z-test: Z = (X-bar - mu0) / (sigma/sqrt(n))\ndistribusi N(0,1)"]
G -->|"Tidak"| I["t-test: T = (X-bar - mu0) / (S/sqrt(n))\ndistribusi t(n-1)"]
D --> J["Chi-kuadrat test:\nchi^2 = (n-1)S^2/sigma0^2\ndistribusi chi^2(n-1)"]
E --> K["Apakah data berpasangan?"]
K -->|"Ya: sebelum-sesudah\natau matched pairs"| L["t-test berpasangan:\nT = D-bar / (SD/sqrt(n))\ndistribusi t(n-1)"]
K -->|"Tidak: dua sampel independen"| M["Lakukan F-test terlebih dahulu:\napakah sigma1^2 = sigma2^2?"]
M -->|"Gagal tolak H0 F-test:\nsigma1^2 = sigma2^2"| N["t-test pooled:\ndf = n1+n2-2"]
M -->|"Tolak H0 F-test:\nsigma1^2 != sigma2^2"| O["t-test Welch:\ndf = nu* (bulatkan ke bawah)"]
F --> P["F-test:\nF = S1^2/S2^2\ndistribusi F(n1-1, n2-1)\nUji dua sisi: gunakan F_{alpha/2}"]
H --> Q["Arah H1?"]
I --> Q
J --> Q
L --> Q
N --> Q
O --> Q
P --> Q
Q -->|"mu != mu0"| R["Dua sisi:\ntolak jika |T| > c_{alpha/2}\np-value = 2P(T >= |t_obs|)"]
Q -->|"mu > mu0"| S["Satu sisi kanan:\ntolak jika T > c_alpha\np-value = P(T >= t_obs)"]
Q -->|"mu < mu0"| T["Satu sisi kiri:\ntolak jika T < -c_alpha\np-value = P(T <= t_obs)"]
Follow-up Options›
- “Berikan soal variasi: uji hipotesis lengkap dari data mentah — hitung statistik uji, p-value, dan bangun IC untuk kasus t-test dua sampel independen dengan asumsi variansi sama”
- “Jelaskan hubungan 4.8 Uji Hipotesis dengan 4.7 Interval Kepercayaan — turunkan IC dari prosedur inversi uji hipotesis dan tunjukkan dualitas secara matematis”
- “Buat flashcard 1-halaman untuk topik ini — semua formula, nilai kritis standar, dan decision tree dalam satu halaman”
📖 Ref: Hogg-Tanis-Zimm (2015) Bab 6.1–6.5; Hogg-McKean-Craig (2019) Bab 4.4–4.6; Miller et al. (2014) Bab 9.1–9.5; Walpole et al. (2012) Bab 10.1–10.5 | 🗓️ 2026-02-21 | #CF2 #InferensStatistik #UjiHipotesis #ZTest #TTest #ChiKuadrat #FTest #PValue #ErrorTipeI #ErrorTipeII #Power