Multiple Linear Regression Interpretation
📊 3.3 — Multiple Linear Regression Interpretation
Ringkasan Cepat›
Topik: Interpretasi Output Regresi Linier Berganda | Bobot: ~20–25% | Difficulty: Hard Ref: Frees (2010) Bab 3–6 | Prereq: 3.1 Explanatory and Response Variables, 3.2 Simple Linear Regression
Section 0 — Pemetaan Topik
| Topik TA1 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Analisis Regresi | 3.3 | Menginterpretasikan koefisien slope ; uji- dan uji-; dan ; interval kepercayaan prediksi mean dan titik individu | 20–25% | Hard | 3.1 Explanatory and Response Variables, 3.2 Simple Linear Regression | 3.4 Residual Analysis and Model Validation, 3.5 Variable Selection Criteria | Frees (2010) Bab 3–6 |
Section 1 — Intuisi
Bayangkan seorang aktuaris di perusahaan asuransi jiwa yang ingin memodelkan besarnya premi tahunan nasabah. Ia tahu bahwa premi tidak hanya bergantung pada satu faktor — usia saja tidak cukup. Riwayat kesehatan, jenis pekerjaan, dan kebiasaan merokok semuanya berkontribusi. Regresi linier sederhana dari topik sebelumnya hanya mengizinkan satu prediktor, sedangkan kenyataan pricing aktuaria melibatkan banyak variabel sekaligus. Regresi linier berganda (multiple linear regression, MLR) adalah perluasan alaminya: kita membangun satu model yang memperhitungkan semua faktor prediktor secara simultan.
Yang membuat MLR lebih rumit — sekaligus lebih kuat — adalah konsep ceteris paribus. Koefisien slope untuk prediktor tidak lagi berarti “seberapa besar perubahan ketika naik satu satuan” secara sederhana, melainkan “seberapa besar perubahan ketika naik satu satuan dengan semua prediktor lain dipegang konstan”. Ini adalah perbedaan konseptual yang sangat penting: dalam portofolio asuransi, efek usia terhadap klaim dihitung setelah mengendalikan faktor lain seperti jenis kelamin dan riwayat penyakit. Tanpa pemahaman ini, interpretasi koefisien regresi berganda akan keliru.
Selain estimasi koefisien, MLR juga menghasilkan tiga output utama yang harus dikuasai untuk ujian: (1) uji signifikansi — apakah prediktor tertentu benar-benar berkontribusi? (2) ukuran kecocokan — seberapa baik model menjelaskan data? dan (3) prediksi — berapa nilai yang diperkirakan untuk kombinasi prediktor tertentu, lengkap dengan batas kepercayaannya? Ketiga hal ini adalah inti dari topik 3.3.
Section 2 — Definisi Formal
Definisi Matematis›
Model regresi linier berganda dengan prediktor untuk observasi:
dengan . Estimator OLS diperoleh dari minimisasi .
| Simbol | Makna | Catatan |
|---|---|---|
| Nilai respon observasi ke- | Variabel dependen | |
| Nilai prediktor ke- untuk observasi ke- | ||
| Intersep populasi | Nilai ketika semua | |
| Koefisien slope populasi untuk | Efek parsial ceteris paribus | |
| Estimator OLS untuk | Diperoleh dari data sampel | |
| Error acak observasi ke- | , independen | |
| Nilai fitted (prediksi dalam sampel) | ||
| Residual | ||
| Residual Sum of Squares | ; mengukur kecocokan | |
| Total Sum of Squares | ||
| Regression Sum of Squares | ; dijelaskan oleh model | |
| Koefisien determinasi | Proporsi variansi yang dijelaskan model | |
| yang disesuaikan | Mengoreksi penambahan prediktor tidak berguna | |
| Estimasi | = MSE | |
| Standar error estimator | Dari diagonal matriks | |
| Jumlah observasi | Harus | |
| Jumlah prediktor | Tidak termasuk intersep |
Rumus Utama
Dekomposisi jumlah kuadrat:
Label: Total variabilitas = bagian yang dijelaskan model + bagian yang tidak dijelaskan (error).
Koefisien determinasi :
Label: Proporsi variabilitas yang dijelaskan secara linear oleh seluruh prediktor dalam model.
yang disesuaikan:
Label: Mengoreksi untuk jumlah prediktor; bisa turun jika prediktor baru tidak berguna.
Uji- untuk signifikansi koefisien individual ():
Label: Menguji apakah prediktor berkontribusi signifikan setelah mengontrol semua prediktor lain.
Uji- untuk signifikansi model keseluruhan ():
Label: Menguji apakah setidaknya satu prediktor memiliki koefisien tidak nol — uji omnibus.
Interval kepercayaan untuk mean respon :
Label: Interval untuk rata-rata respon pada titik prediktor — lebih sempit.
Interval prediksi untuk titik individu baru pada :
Label: Interval untuk satu observasi baru — selalu lebih lebar dari interval kepercayaan mean karena menambahkan ketidakpastian error individu .
Tabel ANOVA regresi (struktur standar):
| Sumber | SS | df | MS | |
|---|---|---|---|---|
| Regresi | SSR | MSR = SSR/ | MSR/MSE | |
| Error (Residual) | RSS | MSE = RSS/ | — | |
| Total | SST | — | — |
Asumsi Eksplisit
- Linearitas: hubungan antara dan setiap adalah linear (bisa divalidasi dengan residual plot).
- Normalitas error: — diperlukan untuk validitas uji- dan uji- pada sampel kecil.
- Homoskedastisitas: variansi error konstan untuk semua observasi (tidak bergantung pada ).
- Independensi: observasi satu sama lain independen — tidak ada autokorelasi.
- Tidak ada multikolinearitas sempurna: tidak ada prediktor yang merupakan kombinasi linear tepat dari prediktor lain (matriks harus invertible).
Section 3 — Jembatan Logika
Dari Definisi ke Rumus›
Inti dari MLR adalah gagasan OLS (Ordinary Least Squares): pilih sedemikian sehingga jumlah kuadrat residual minimum. Dalam notasi matriks, solusinya adalah . Tapi untuk ujian, yang lebih penting adalah menginterpretasikan output, bukan menghitung dari scratch. Fokuskan energi pada: (1) membaca tabel koefisien dan memahami uji-, (2) membaca tabel ANOVA dan memahami uji-, dan (3) menghitung prediksi beserta interval kepercayaan/prediksinya.
Perbedaan Kritis: Interval Kepercayaan vs Interval Prediksi›
Dua jenis interval yang selalu muncul di soal — jangan tertukar:
Interval Kepercayaan untuk Mean : menjawab pertanyaan “di mana rata-rata populasi berada?”
Interval Prediksi untuk Individu Baru: menjawab “di mana satu observasi baru akan jatuh?”
Satu-satunya perbedaan: faktor tambahan “+1” di bawah akar pada interval prediksi, yang mencerminkan ketidakpastian error individu. Interval prediksi selalu lebih lebar dari interval kepercayaan mean pada titik yang sama.
Derivasi step-by-step: Menghubungkan , -statistik, dan derajat kebebasan:
Langkah 1 — Mulai dari dekomposisi SS.
dengan , , .
Langkah 2 — Definisi dari rasio.
Langkah 3 — Substitusikan ke -statistik.
Langkah 4 — Bentuk akhir: sebagai fungsi dari .
Relasi ini sangat berguna: jika soal memberikan , , dan , kita dapat langsung menghitung tanpa tabel ANOVA.
Langkah 5 — Hubungan dengan .
Perhatikan: menambah prediktor ( naik) selalu meningkatkan , tetapi bisa turun jika kenaikan tidak cukup mengimbangi berkurangnya .
Dilarang›
- Jangan menginterpretasikan tanpa menyebut “dengan prediktor lain dipegang konstan” — dalam MLR, koefisien adalah efek parsial, bukan efek marginal seperti dalam regresi sederhana.
- Jangan menggunakan interval kepercayaan mean untuk prediksi satu individu baru — interval tersebut terlalu sempit dan akan menghasilkan coverage yang terlalu rendah.
- Jangan menyimpulkan signifikansi model hanya dari yang tinggi — model dengan bisa saja tidak signifikan secara statistik jika sangat kecil atau jika prediktor redundan; selalu cek -statistik.
Section 4 — Contoh Soal
Soal A — Fundamental
Output regresi linier berganda berikut diperoleh dari model yang memprediksi total klaim asuransi kesehatan tahunan (juta rupiah) berdasarkan usia (, tahun) dan indeks massa tubuh (, kg/m²), dari observasi.
Tabel Koefisien:
| Variabel | Koefisien | Std. Error | -statistik | -value |
|---|---|---|---|---|
| (Intersep) | ||||
| Usia | ||||
| IMT |
Tabel ANOVA:
| Sumber | SS | df | MS | |
|---|---|---|---|---|
| Regresi | 48{,}60 | 2 | 24{,}30 | 18{,}76 |
| Residual | 35{,}10 | 27 | 1{,}30 | — |
| Total | 83{,}70 | 29 | — | — |
(a) Interpretasikan koefisien .
(b) Hitung dan .
(c) Uji signifikansi keseluruhan model pada .
Solusi Soal A›
Pendekatan: Baca output secara langsung — interpretasi koefisien, hitung dari SS, bandingkan dengan nilai kritis.
1. Identifikasi Variabel
- , (usia, IMT),
- , , ,
2. Identifikasi Model MLR dengan dua prediktor kontinu. SST = SSR + RSS = 48,60 + 35,10 = 83,70 ✓ (konsisten).
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Interpretasi : Dengan IMT dipegang konstan, setiap kenaikan usia sebesar 1 tahun dikaitkan dengan kenaikan rata-rata total klaim sebesar Rp 180.000 per tahun.
(b) dan :
(c) Uji- keseluruhan:
vs minimal satu .
.
Karena , tolak . Model secara keseluruhan signifikan pada .
5. Verification : model menjelaskan 58,1% variabilitas klaim. selalu benar ✓. Uji- signifikan konsisten dengan -value uji- masing-masing prediktor yang keduanya .
Hasil: (a) Klaim naik Rp 180 ribu per tahun usia, ceteris paribus; (b) , ; (c) Tolak , model signifikan.
Exam Tips — Soal A›
Target waktu: 3 menit. Common trap: Menginterpretasikan tanpa menyebut “dengan prediktor lain konstan” — dalam ujian, frasa ini wajib ada untuk mendapat nilai penuh. Shortcut: langsung dari tabel ANOVA tanpa perlu rumus panjang.
Soal B — Exam-Typical
Model regresi linier berganda digunakan untuk memprediksi premi asuransi jiwa tahunan (juta rupiah) berdasarkan usia () dan status merokok (: 1 = perokok, 0 = bukan perokok) dari nasabah. Output ringkas:
dengan , , , , .
(a) Uji apakah status merokok berpengaruh signifikan terhadap premi pada (uji dua arah). Gunakan .
(b) Hitung .
(c) Hitung interval kepercayaan 95% untuk mean premi nasabah berusia 40 tahun yang merupakan perokok, diketahui bahwa .
Solusi Soal B›
Pendekatan: (a) Hitung -statistik dan bandingkan dengan nilai kritis; (b) gunakan rumus ; (c) substitusi ke rumus interval kepercayaan mean.
1. Identifikasi Variabel
- , ,
- ,
- , ,
- Titik prediksi: , ;
2. Identifikasi Model MLR dengan satu prediktor kontinu () dan satu prediktor biner/dummy (). Uji- dua arah untuk .
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Uji- untuk :
Karena , tolak . Status merokok berpengaruh signifikan terhadap premi.
(b) :
(c) Prediksi dan interval kepercayaan mean:
5. Verification masuk akal: nasabah 40 tahun perokok membayar lebih dari rata-rata sampel yang mengandung campuran usia dan status. ✓. Margin interval kepercayaan mean lebih kecil dari ✓ (karena rata-rata lebih presisi dari individu).
Hasil: (a) Tolak , merokok signifikan (); (b) ; (c) CI mean premi = juta.
Exam Tips — Soal B›
Target waktu: 4 menit. Common trap 1: Salah menghitung — ingat . Common trap 2: Menggunakan formula interval prediksi (dengan “+1”) padahal soal meminta interval untuk mean — baca soal dengan seksama. Shortcut: Untuk uji-, jika -value diberikan, cukup bandingkan dengan tanpa perlu menghitung manual.
Soal C — Challenging
Seorang aktuaris membangun model MLR untuk memprediksi loss ratio asuransi kendaraan (, dalam persen) menggunakan tiga prediktor: usia kendaraan (, tahun), kapasitas mesin (, cc/100), dan wilayah (: 1 = perkotaan, 0 = pedesaan). Data: .
Output komputer menghasilkan:
| Variabel | SE | -value | ||
|---|---|---|---|---|
| (Intersep) | 42{,}5 | 4{,}20 | 10{,}12 | |
| (usia) | 1{,}8 | 0{,}72 | 2{,}50 | |
| (mesin) | 0{,}6 | 0{,}38 | 1{,}58 | |
| (wilayah) | 8{,}4 | 2{,}10 | 4{,}00 |
, , .
(a) Tentukan apakah kapasitas mesin () signifikan pada .
(b) Hitung , , dan -statistik. Konfirmasi konsistensi antara dan .
(c) Hitung interval prediksi 95% untuk loss ratio kendaraan baru: usia 5 tahun, kapasitas 20 (cc/100), wilayah perkotaan. Diketahui .
(d) Seorang kolega menyarankan bahwa interval prediksi selalu lebih sempit daripada interval kepercayaan mean. Koreksi pernyataan ini.
Solusi Soal C›
Pendekatan: Kombinasi uji-, hitung dan , hubungkan keduanya, lalu hitung interval prediksi (bukan mean) dengan “+1” di bawah akar.
1. Identifikasi Variabel
- , ,
- , ,
- Titik baru: , , ;
2. Identifikasi Model MLR tiga prediktor, campuran kontinu dan dummy. Uji- dua arah dengan .
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Uji- untuk :
dengan -value .
Gagal tolak . Kapasitas mesin tidak signifikan pada , dengan prediktor lain dalam model.
(b) , , dan :
Dari tabel ANOVA: dan .
Konfirmasi via :
(c) Interval Prediksi 95%:
Untuk , gunakan :
(d) Koreksi pernyataan kolega:
Pernyataan kolega keliru. Interval prediksi untuk individu baru selalu lebih lebar daripada interval kepercayaan mean, karena interval prediksi memiliki faktor tambahan “+1” di bawah akar:
Secara intuitif: prediksi mean hanya perlu menangkap ketidakpastian estimasi parameter , sedangkan prediksi individu harus menambahkan ketidakpastian error dari observasi baru itu sendiri.
5. Verification — kendaraan tua (5 tahun), bermesin besar, di perkotaan: loss ratio tinggi masuk akal. Lebar PI poin persentase — cukup lebar, wajar untuk prediksi individu. jauh di atas nilai kritis → model sangat signifikan.
Hasil: (a) tidak signifikan (); (b) , , , konsisten ✓; (c) PI = ; (d) Interval prediksi selalu lebih lebar dari CI mean.
Exam Tips — Soal C›
Target waktu: 6 menit. Common trap 1: Menggunakan formula CI mean (tanpa “+1”) untuk interval prediksi — baca soal: kata “observasi baru” atau “individu baru” = interval prediksi. Common trap 2: Lupa , bukan sebaliknya. Shortcut: Konfirmasi via adalah cara cepat cross-check tabel ANOVA — hasilnya harus sama dalam dua desimal.
Section 5 — Verifikasi & Sanity Check
Konsistensi Dekomposisi SS›
Selalu verifikasi:
Jika salah satu tidak terpenuhi, ada kesalahan dalam membaca tabel ANOVA. Periksa apakah (jumlah prediktor) dan (jumlah observasi) sudah benar.
Urutan Lebar Interval›
Untuk titik prediktor yang sama, selalu berlaku:
karena untuk semua . Jika hasil kalkulasi menunjukkan PI lebih sempit, pasti ada kesalahan — paling umum: lupa menambahkan “+1” di bawah akar untuk interval prediksi.
Batas dan ›
- selalu — jika tidak, cek rumus.
- bisa negatif jika model sangat buruk (MSE > MST).
- Menambah prediktor: naik atau tetap, bisa naik atau turun.
Metode Alternatif
Menghitung langsung dari (tanpa tabel ANOVA penuh):
Berguna ketika soal hanya memberikan , , dan , tanpa tabel ANOVA. Ingat: adalah jumlah prediktor (tidak termasuk intersep).
Section 6 — Visualisasi Mental
Struktur Tabel ANOVA — Format Standar:
+———————————+—————————+——————+——————————+—————————+
| Sumber | SS | df | MS | F |
+———————————+—————————+——————+——————————+—————————+
| Regresi | SSR | p | SSR/p | MSR/MSE | ← Model menjelaskan ini
| Residual | RSS | n-p-1| RSS/n-p-1| — | ← Yang tidak dijelaskan
| Total | SST | n-1 | — | — | ← Seluruh variabilitas y
+———————————+—————————+——————+——————————+—————————+
SST = SSR + RSS (selalu!)
df: (n-1) = p + (n-p-1) (selalu!)
R² = SSR/SST
F = MSR/MSE
Visualisasi CI Mean vs PI:
← lebar PI →
←lebar CI→
·——·
·——— ———· ← Interval Prediksi (lebih lebar)
·——— ———·
·——— ·—· ·—· ———·
↑ ↑ ↑ ↑
CI kiri CI kanan PI kiri PI kanan
x₀ (titik prediksi)
Kedua interval berpusat di ŷ₀ yang sama.
PI lebih lebar karena mencakup variabilitas
error individu tambahan (faktor +1).
Hubungan Visual ↔ Rumus
| Elemen Visual | Komponen Rumus |
|---|---|
| Baris “Regresi” di tabel ANOVA | SSR, MSR = SSR/ |
| Baris “Residual” di tabel ANOVA | RSS, MSE = RSS/ = |
| Tinggi seluruh tabel SS | SST = |
| Lebar PI vs CI | Faktor “+1” pada interval prediksi |
| Kolom -statistik output regresi |
Section 7 — Jebakan Umum
Kesalahan Parametrisasi›
Derajat kebebasan yang salah adalah kesalahan paling umum:
- (jumlah prediktor, tidak termasuk intersep )
- (bukan !)
- Uji- koefisien:
Contoh salah: Model dengan dan prediktor → ← SALAH
Contoh benar: ← BENAR (kurangi 1 untuk intersep)
Kesalahan Konseptual›
- Interpretasi koefisien tanpa “ceteris paribus”: Dalam MLR, adalah efek parsial — selalu sertakan frasa “dengan prediktor lain dipegang konstan” dalam interpretasi.
- Uji- signifikan berarti semua prediktor signifikan: Keliru! Uji- hanya menyatakan minimal satu prediktor signifikan. Setiap prediktor harus diuji dengan uji- individual.
- tinggi berarti model baik: tidak menjamin model valid — bisa terjadi overfitting, multikolinearitas, atau pelanggaran asumsi lain.
- selalu positif: Tidak benar. bisa negatif untuk model yang sangat buruk.
Kesalahan Interpretasi Soal›
- “Interval kepercayaan untuk prediksi” → ambigu! Klarifikasi: apakah untuk mean respon atau individu baru? Jika soal menyebut “observasi/individu baru”, gunakan interval prediksi (dengan “+1”).
- “Prediktor tidak signifikan” ≠ “prediktor tidak berpengaruh dalam realita” — hanya berarti data tidak cukup untuk mendeteksi efeknya secara statistik pada level signifikansi yang digunakan.
- -value “0{,}000” di output komputer bukan berarti persis nol — artinya , dan selalu tolak untuk atau .
Red Flags›
- Jika → pasti ada kesalahan kalkulasi atau pembacaan tabel.
- Jika uji- tidak signifikan tetapi ada uji- individual yang signifikan → periksa multikolinearitas.
- Jika soal memberikan → soal pasti meminta CI mean atau PI (bukan uji- biasa).
- Kata “kendaraan/nasabah baru yang tidak ada dalam data” → interval prediksi (PI), bukan CI mean.
Section 8 — Ringkasan Eksekutif
Must-Remember›
-
Dekomposisi SS dan :
-
yang disesuaikan:
-
Uji- koefisien individual (, ):
-
Uji- model keseluruhan (), relasi dengan :
-
CI mean vs PI (perbedaan kunci — faktor “+1”):
Kapan Digunakan
- Soal memberikan tabel output regresi (koefisien, SE, , -value) dan meminta interpretasi.
- Soal memberikan tabel ANOVA regresi dan meminta , , atau uji-.
- Soal meminta prediksi nilai untuk kombinasi prediktor tertentu beserta intervalnya.
- Soal meminta uji signifikansi prediktor individual maupun model keseluruhan.
- Soal menyebutkan lebih dari satu prediktor dalam model regresi.
Kapan TIDAK Boleh Digunakan
- Hanya satu prediktor → topik 3.2 Simple Linear Regression (rumus lebih sederhana, ).
- Residual menunjukkan pola sistematis → asumsi linearitas/homoskedastisitas dilanggar → lihat 3.4 Residual Analysis and Model Validation dulu.
- Soal bertanya tentang pemilihan variabel terbaik → 3.5 Variable Selection Criteria (AIC, BIC, Mallow’s ).
Quick Decision Tree
graph TD
A["Ada output regresi dengan p > 1 prediktor?"] -->|"Ya"| B["Apa yang ditanya soal?"]
A -->|"Tidak, p=1"| Z["Topik 3.2: Simple Linear Regression"]
B -->|"Interpretasi koefisien"| C["Sebutkan: naik 1 satuan x_j,<br>y naik beta_j, ceteris paribus"]
B -->|"Signifikansi prediktor"| D["Uji-t: t = beta_hat / SE<br>df = n - p - 1"]
B -->|"Signifikansi model"| E["Uji-F: F = MSR/MSE<br>atau F = R2/p / (1-R2)/(n-p-1)"]
B -->|"Goodness of fit"| F["R2 = SSR/SST<br>R2_adj koreksi untuk p"]
B -->|"Prediksi + interval"| G["Hitung y_hat_0 terlebih dulu"]
G -->|"Interval untuk mean respon"| H["CI: y_hat +/- t * s * sqrt(xT(XTX)^-1 x)"]
G -->|"Interval untuk individu baru"| I["PI: y_hat +/- t * s * sqrt(1 + xT(XTX)^-1 x)"]
Follow-up Options›
- “Berikan contoh soal variasi 3.3 Multiple Linear Regression Interpretation dengan variabel dummy dan interpretasi interaksi”
- “Jelaskan hubungan 3.3 Multiple Linear Regression Interpretation dengan 3.4 Residual Analysis and Model Validation”
- “Buat flashcard 1-halaman untuk topik 3.3 ini”
📖 Ref: Frees (2010), Regression Modeling with Actuarial and Financial Applications, Bab 3–6 | 🗓️ 2026-04-19 | #TA1 #Regresi #RegresiLinearBerganda