AktuNotes
← Kembali
TA1 · Materi 3.3

Multiple Linear Regression Interpretation

Hard Bobot: 20–25% Frees (2010), Regression Modeling with Actuarial and Financial Applications, Bab 3–6
TA1RegresiRegresiLinearBergandaInferensiaStatistikGoodnessOfFitPrediksi

📊 3.3 — Multiple Linear Regression Interpretation

Ringkasan Cepat

Topik: Interpretasi Output Regresi Linier Berganda | Bobot: ~20–25% | Difficulty: Hard Ref: Frees (2010) Bab 3–6 | Prereq: 3.1 Explanatory and Response Variables, 3.2 Simple Linear Regression


Section 0 — Pemetaan Topik

Topik TA1Sub-topik IDSkill DiujiBobotDifficultyPrerequisiteConnected TopicsReferensi
Analisis Regresi3.3Menginterpretasikan koefisien slope β^j\hat{\beta}_j; uji-tt dan uji-FF; R2R^2 dan Radj2R^2_{\text{adj}}; interval kepercayaan prediksi mean E(yx)E(y\|x) dan titik individu20–25%Hard3.1 Explanatory and Response Variables, 3.2 Simple Linear Regression3.4 Residual Analysis and Model Validation, 3.5 Variable Selection CriteriaFrees (2010) Bab 3–6

Section 1 — Intuisi

Bayangkan seorang aktuaris di perusahaan asuransi jiwa yang ingin memodelkan besarnya premi tahunan nasabah. Ia tahu bahwa premi tidak hanya bergantung pada satu faktor — usia saja tidak cukup. Riwayat kesehatan, jenis pekerjaan, dan kebiasaan merokok semuanya berkontribusi. Regresi linier sederhana dari topik sebelumnya hanya mengizinkan satu prediktor, sedangkan kenyataan pricing aktuaria melibatkan banyak variabel sekaligus. Regresi linier berganda (multiple linear regression, MLR) adalah perluasan alaminya: kita membangun satu model yang memperhitungkan semua faktor prediktor secara simultan.

Yang membuat MLR lebih rumit — sekaligus lebih kuat — adalah konsep ceteris paribus. Koefisien slope β^j\hat{\beta}_j untuk prediktor xjx_j tidak lagi berarti “seberapa besar perubahan yy ketika xjx_j naik satu satuan” secara sederhana, melainkan “seberapa besar perubahan yy ketika xjx_j naik satu satuan dengan semua prediktor lain dipegang konstan”. Ini adalah perbedaan konseptual yang sangat penting: dalam portofolio asuransi, efek usia terhadap klaim dihitung setelah mengendalikan faktor lain seperti jenis kelamin dan riwayat penyakit. Tanpa pemahaman ini, interpretasi koefisien regresi berganda akan keliru.

Selain estimasi koefisien, MLR juga menghasilkan tiga output utama yang harus dikuasai untuk ujian: (1) uji signifikansi — apakah prediktor tertentu benar-benar berkontribusi? (2) ukuran kecocokan — seberapa baik model menjelaskan data? dan (3) prediksi — berapa nilai yy yang diperkirakan untuk kombinasi prediktor tertentu, lengkap dengan batas kepercayaannya? Ketiga hal ini adalah inti dari topik 3.3.


Section 2 — Definisi Formal

Definisi Matematis

Model regresi linier berganda dengan pp prediktor untuk nn observasi:

yi=β0+β1xi1+β2xi2++βpxip+εi,i=1,2,,ny_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \varepsilon_i, \quad i = 1, 2, \ldots, n

dengan εiiidN(0,σ2)\varepsilon_i \overset{\text{iid}}{\sim} N(0, \sigma^2). Estimator OLS diperoleh dari minimisasi RSS=i=1n(yiy^i)2\text{RSS} = \sum_{i=1}^n (y_i - \hat{y}_i)^2.

SimbolMaknaCatatan
yiy_iNilai respon observasi ke-iiVariabel dependen
xijx_{ij}Nilai prediktor ke-jj untuk observasi ke-iij=1,,pj = 1, \ldots, p
β0\beta_0Intersep populasiNilai E(y)E(y) ketika semua xj=0x_j = 0
βj\beta_jKoefisien slope populasi untuk xjx_jEfek parsial ceteris paribus
β^j\hat{\beta}_jEstimator OLS untuk βj\beta_jDiperoleh dari data sampel
εi\varepsilon_iError acak observasi ke-iiεiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2), independen
y^i\hat{y}_iNilai fitted (prediksi dalam sampel)y^i=β^0+β^1xi1++β^pxip\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip}
eie_iResidualei=yiy^ie_i = y_i - \hat{y}_i
RSS\text{RSS}Residual Sum of Squaresei2\sum e_i^2; mengukur kecocokan
SST\text{SST}Total Sum of Squares(yiyˉ)2\sum (y_i - \bar{y})^2
SSR\text{SSR}Regression Sum of SquaresSSTRSS\text{SST} - \text{RSS}; dijelaskan oleh model
R2R^2Koefisien determinasiProporsi variansi yy yang dijelaskan model
Radj2R^2_{\text{adj}}R2R^2 yang disesuaikanMengoreksi penambahan prediktor tidak berguna
s2s^2Estimasi σ2\sigma^2s2=RSS/(np1)s^2 = \text{RSS}/(n-p-1) = MSE
SE(β^j)\text{SE}(\hat{\beta}_j)Standar error estimator β^j\hat{\beta}_jDari diagonal matriks (XTX)1s2(X^TX)^{-1} s^2
nnJumlah observasiHarus >p+1> p+1
ppJumlah prediktorTidak termasuk intersep

Rumus Utama

Dekomposisi jumlah kuadrat:

SST(yiyˉ)2=SSR(y^iyˉ)2+RSS(yiy^i)2\underbrace{\text{SST}}_{\sum(y_i - \bar{y})^2} = \underbrace{\text{SSR}}_{\sum(\hat{y}_i - \bar{y})^2} + \underbrace{\text{RSS}}_{\sum(y_i - \hat{y}_i)^2}

Label: Total variabilitas yy = bagian yang dijelaskan model + bagian yang tidak dijelaskan (error).

Koefisien determinasi R2R^2:

R2=SSRSST=1RSSSST,0R21R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{RSS}}{\text{SST}}, \quad 0 \leq R^2 \leq 1

Label: Proporsi variabilitas yy yang dijelaskan secara linear oleh seluruh prediktor dalam model.

R2R^2 yang disesuaikan:

Radj2=1RSS/(np1)SST/(n1)=1(1R2)n1np1R^2_{\text{adj}} = 1 - \frac{\text{RSS}/(n-p-1)}{\text{SST}/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-p-1}

Label: Mengoreksi R2R^2 untuk jumlah prediktor; bisa turun jika prediktor baru tidak berguna.

Uji-tt untuk signifikansi koefisien individual (H0:βj=0H_0: \beta_j = 0):

tj=β^jSE(β^j)tnp1di bawah H0t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \sim t_{n-p-1} \quad \text{di bawah } H_0

Label: Menguji apakah prediktor xjx_j berkontribusi signifikan setelah mengontrol semua prediktor lain.

Uji-FF untuk signifikansi model keseluruhan (H0:β1=β2==βp=0H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0):

F=SSR/pRSS/(np1)=MSRMSEFp,np1di bawah H0F = \frac{\text{SSR}/p}{\text{RSS}/(n-p-1)} = \frac{\text{MSR}}{\text{MSE}} \sim F_{p,\, n-p-1} \quad \text{di bawah } H_0

Label: Menguji apakah setidaknya satu prediktor memiliki koefisien tidak nol — uji omnibus.

Interval kepercayaan untuk mean respon E(yx0)=x0TβE(y \mid \mathbf{x}_0) = \mathbf{x}_0^T \boldsymbol{\beta}:

y^0±tα/2,np1sx0T(XTX)1x0\hat{y}_0 \pm t_{\alpha/2,\, n-p-1} \cdot s \sqrt{\mathbf{x}_0^T (X^T X)^{-1} \mathbf{x}_0}

Label: Interval untuk rata-rata respon pada titik prediktor x0\mathbf{x}_0 — lebih sempit.

Interval prediksi untuk titik individu baru ynewy_{\text{new}} pada x0\mathbf{x}_0:

y^0±tα/2,np1s1+x0T(XTX)1x0\hat{y}_0 \pm t_{\alpha/2,\, n-p-1} \cdot s \sqrt{1 + \mathbf{x}_0^T (X^T X)^{-1} \mathbf{x}_0}

Label: Interval untuk satu observasi baru — selalu lebih lebar dari interval kepercayaan mean karena menambahkan ketidakpastian error individu σ2\sigma^2.

Tabel ANOVA regresi (struktur standar):

SumberSSdfMSFF
RegresiSSRppMSR = SSR/ppMSR/MSE
Error (Residual)RSSnp1n-p-1MSE = RSS/(np1)(n-p-1)
TotalSSTn1n-1

Asumsi Eksplisit

  1. Linearitas: hubungan antara E(y)E(y) dan setiap xjx_j adalah linear (bisa divalidasi dengan residual plot).
  2. Normalitas error: εiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2) — diperlukan untuk validitas uji-tt dan uji-FF pada sampel kecil.
  3. Homoskedastisitas: variansi error σ2\sigma^2 konstan untuk semua observasi (tidak bergantung pada y^i\hat{y}_i).
  4. Independensi: observasi satu sama lain independen — tidak ada autokorelasi.
  5. Tidak ada multikolinearitas sempurna: tidak ada prediktor yang merupakan kombinasi linear tepat dari prediktor lain (matriks XTXX^TX harus invertible).

Section 3 — Jembatan Logika

Dari Definisi ke Rumus

Inti dari MLR adalah gagasan OLS (Ordinary Least Squares): pilih β^\hat{\boldsymbol{\beta}} sedemikian sehingga jumlah kuadrat residual RSS=(yiy^i)2\text{RSS} = \sum (y_i - \hat{y}_i)^2 minimum. Dalam notasi matriks, solusinya adalah β^=(XTX)1XTy\hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \mathbf{y}. Tapi untuk ujian, yang lebih penting adalah menginterpretasikan output, bukan menghitung β^\hat{\boldsymbol{\beta}} dari scratch. Fokuskan energi pada: (1) membaca tabel koefisien dan memahami uji-tt, (2) membaca tabel ANOVA dan memahami uji-FF, dan (3) menghitung prediksi beserta interval kepercayaan/prediksinya.

Perbedaan Kritis: Interval Kepercayaan vs Interval Prediksi

Dua jenis interval yang selalu muncul di soal — jangan tertukar:

Interval Kepercayaan untuk Mean E(yx0)E(y \mid \mathbf{x}_0): menjawab pertanyaan “di mana rata-rata populasi berada?”

y^0±tα/2sx0T(XTX)1x0\hat{y}_0 \pm t_{\alpha/2} \cdot s \sqrt{\mathbf{x}_0^T (X^T X)^{-1} \mathbf{x}_0}

Interval Prediksi untuk Individu Baru: menjawab “di mana satu observasi baru akan jatuh?”

y^0±tα/2s1+x0T(XTX)1x0\hat{y}_0 \pm t_{\alpha/2} \cdot s \sqrt{1 + \mathbf{x}_0^T (X^T X)^{-1} \mathbf{x}_0}

Satu-satunya perbedaan: faktor tambahan “+1” di bawah akar pada interval prediksi, yang mencerminkan ketidakpastian error individu. Interval prediksi selalu lebih lebar dari interval kepercayaan mean pada titik x0\mathbf{x}_0 yang sama.

Derivasi step-by-step: Menghubungkan R2R^2, FF-statistik, dan derajat kebebasan:

Langkah 1 — Mulai dari dekomposisi SS.

SST=SSR+RSS\text{SST} = \text{SSR} + \text{RSS}

dengan dfSST=n1\text{df}_{\text{SST}} = n-1, dfSSR=p\text{df}_{\text{SSR}} = p, dfRSS=np1\text{df}_{\text{RSS}} = n-p-1.

Langkah 2 — Definisi R2R^2 dari rasio.

R2=SSRSSTSSR=R2SST,RSS=(1R2)SSTR^2 = \frac{\text{SSR}}{\text{SST}} \Longrightarrow \text{SSR} = R^2 \cdot \text{SST}, \quad \text{RSS} = (1-R^2)\cdot\text{SST}

Langkah 3 — Substitusikan ke FF-statistik.

F=SSR/pRSS/(np1)=R2/p(1R2)/(np1)F = \frac{\text{SSR}/p}{\text{RSS}/(n-p-1)} = \frac{R^2/p}{(1-R^2)/(n-p-1)}

Langkah 4 — Bentuk akhir: FF sebagai fungsi dari R2R^2.

F=R21R2np1pF = \frac{R^2}{1-R^2} \cdot \frac{n-p-1}{p}

Relasi ini sangat berguna: jika soal memberikan R2R^2, nn, dan pp, kita dapat langsung menghitung FF tanpa tabel ANOVA.

Langkah 5 — Hubungan Radj2R^2_{\text{adj}} dengan R2R^2.

Radj2=1(1R2)(n1)np1R^2_{\text{adj}} = 1 - \frac{(1-R^2)(n-1)}{n-p-1}

Perhatikan: menambah prediktor (pp naik) selalu meningkatkan R2R^2, tetapi Radj2R^2_{\text{adj}} bisa turun jika kenaikan R2R^2 tidak cukup mengimbangi berkurangnya dfRSSdf_{\text{RSS}}.

Dilarang
  1. Jangan menginterpretasikan β^j\hat{\beta}_j tanpa menyebut “dengan prediktor lain dipegang konstan” — dalam MLR, koefisien adalah efek parsial, bukan efek marginal seperti dalam regresi sederhana.
  2. Jangan menggunakan interval kepercayaan mean untuk prediksi satu individu baru — interval tersebut terlalu sempit dan akan menghasilkan coverage yang terlalu rendah.
  3. Jangan menyimpulkan signifikansi model hanya dari R2R^2 yang tinggi — model dengan R2=0,95R^2 = 0{,}95 bisa saja tidak signifikan secara statistik jika nn sangat kecil atau jika prediktor redundan; selalu cek FF-statistik.

Section 4 — Contoh Soal

Soal A — Fundamental

Output regresi linier berganda berikut diperoleh dari model yang memprediksi total klaim asuransi kesehatan tahunan (juta rupiah) berdasarkan usia (x1x_1, tahun) dan indeks massa tubuh (x2x_2, kg/m²), dari n=30n = 30 observasi.

Tabel Koefisien:

VariabelKoefisienStd. Errortt-statistikpp-value
(Intersep)5,200-5{,}2002,4102{,}4102,158-2{,}1580,0400{,}040
Usia x1x_10,1800{,}1800,0450{,}0454,0004{,}0000,0000{,}000
IMT x2x_20,2500{,}2500,1100{,}1102,2732{,}2730,0310{,}031

Tabel ANOVA:

SumberSSdfMSFF
Regresi48{,}60224{,}3018{,}76
Residual35{,}10271{,}30
Total83{,}7029

(a) Interpretasikan koefisien β^1=0,180\hat{\beta}_1 = 0{,}180.

(b) Hitung R2R^2 dan Radj2R^2_{\text{adj}}.

(c) Uji signifikansi keseluruhan model pada α=5%\alpha = 5\%.

Solusi Soal A

Pendekatan: Baca output secara langsung — interpretasi koefisien, hitung R2R^2 dari SS, bandingkan FF dengan nilai kritis.

1. Identifikasi Variabel

  • n=30n = 30, p=2p = 2 (usia, IMT), dfres=27df_{\text{res}} = 27
  • β^1=0,180\hat{\beta}_1 = 0{,}180, SSR=48,60\text{SSR} = 48{,}60, RSS=35,10\text{RSS} = 35{,}10, SST=83,70\text{SST} = 83{,}70
  • Fobs=18,76F_{\text{obs}} = 18{,}76

2. Identifikasi Model MLR dengan dua prediktor kontinu. SST = SSR + RSS = 48,60 + 35,10 = 83,70 ✓ (konsisten).

3. Setup Persamaan

R2=SSRSST,Radj2=1RSS/(np1)SST/(n1)R^2 = \frac{\text{SSR}}{\text{SST}}, \quad R^2_{\text{adj}} = 1 - \frac{\text{RSS}/(n-p-1)}{\text{SST}/(n-1)}

4. Eksekusi Aljabar

(a) Interpretasi β^1=0,180\hat{\beta}_1 = 0{,}180: Dengan IMT dipegang konstan, setiap kenaikan usia sebesar 1 tahun dikaitkan dengan kenaikan rata-rata total klaim sebesar Rp 180.000 per tahun.

(b) R2R^2 dan Radj2R^2_{\text{adj}}:

R2=48,6083,70=0,5806R^2 = \frac{48{,}60}{83{,}70} = 0{,}5806 Radj2=135,10/2783,70/29=11,3002,886=10,4504=0,5496R^2_{\text{adj}} = 1 - \frac{35{,}10/27}{83{,}70/29} = 1 - \frac{1{,}300}{2{,}886} = 1 - 0{,}4504 = 0{,}5496

(c) Uji-FF keseluruhan:

H0:β1=β2=0H_0: \beta_1 = \beta_2 = 0 vs H1:H_1: minimal satu βj0\beta_j \neq 0.

Fkritis=F0,05;2,273,35F_{\text{kritis}} = F_{0{,}05;\, 2,\, 27} \approx 3{,}35.

Karena Fobs=18,76>3,35F_{\text{obs}} = 18{,}76 > 3{,}35, tolak H0H_0. Model secara keseluruhan signifikan pada α=5%\alpha = 5\%.

5. Verification R2=0,581R^2 = 0{,}581: model menjelaskan 58,1% variabilitas klaim. Radj2<R2R^2_{\text{adj}} < R^2 selalu benar ✓. Uji-FF signifikan konsisten dengan pp-value uji-tt masing-masing prediktor yang keduanya <0,05< 0{,}05.

Hasil: (a) Klaim naik Rp 180 ribu per tahun usia, ceteris paribus; (b) R2=0,581R^2 = 0{,}581, Radj2=0,550R^2_{\text{adj}} = 0{,}550; (c) Tolak H0H_0, model signifikan.

Exam Tips — Soal A

Target waktu: 3 menit. Common trap: Menginterpretasikan β^1\hat{\beta}_1 tanpa menyebut “dengan prediktor lain konstan” — dalam ujian, frasa ini wajib ada untuk mendapat nilai penuh. Shortcut: R2=SSR/SSTR^2 = \text{SSR}/\text{SST} langsung dari tabel ANOVA tanpa perlu rumus panjang.


Soal B — Exam-Typical

Model regresi linier berganda digunakan untuk memprediksi premi asuransi jiwa tahunan (juta rupiah) berdasarkan usia (x1x_1) dan status merokok (x2x_2: 1 = perokok, 0 = bukan perokok) dari n=50n = 50 nasabah. Output ringkas:

y^=2,40+0,15x1+3,20x2\hat{y} = -2{,}40 + 0{,}15\,x_1 + 3{,}20\,x_2

dengan s=1,80s = 1{,}80, SE(β^1)=0,032\text{SE}(\hat{\beta}_1) = 0{,}032, SE(β^2)=0,620\text{SE}(\hat{\beta}_2) = 0{,}620, SST=410,50\text{SST} = 410{,}50, R2=0,724R^2 = 0{,}724.

(a) Uji apakah status merokok berpengaruh signifikan terhadap premi pada α=5%\alpha = 5\% (uji dua arah). Gunakan t0,025;47=2,012t_{0{,}025;\,47} = 2{,}012.

(b) Hitung Radj2R^2_{\text{adj}}.

(c) Hitung interval kepercayaan 95% untuk mean premi nasabah berusia 40 tahun yang merupakan perokok, diketahui bahwa x0T(XTX)1x0=0,0520\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0 = 0{,}0520.

Solusi Soal B

Pendekatan: (a) Hitung tt-statistik dan bandingkan dengan nilai kritis; (b) gunakan rumus Radj2R^2_{\text{adj}}; (c) substitusi ke rumus interval kepercayaan mean.

1. Identifikasi Variabel

  • n=50n = 50, p=2p = 2, dfres=47df_{\text{res}} = 47
  • β^2=3,20\hat{\beta}_2 = 3{,}20, SE(β^2)=0,620\text{SE}(\hat{\beta}_2) = 0{,}620
  • s=1,80s = 1{,}80, R2=0,724R^2 = 0{,}724, SST=410,50\text{SST} = 410{,}50
  • Titik prediksi: x1=40x_1 = 40, x2=1x_2 = 1; x0T(XTX)1x0=0,0520\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0 = 0{,}0520

2. Identifikasi Model MLR dengan satu prediktor kontinu (x1x_1) dan satu prediktor biner/dummy (x2x_2). Uji-tt dua arah untuk β2\beta_2.

3. Setup Persamaan

t2=β^2SE(β^2),y^0±tα/2sx0T(XTX)1x0t_2 = \frac{\hat{\beta}_2}{\text{SE}(\hat{\beta}_2)}, \quad \hat{y}_0 \pm t_{\alpha/2} \cdot s\sqrt{\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0}

4. Eksekusi Aljabar

(a) Uji-tt untuk β2\beta_2:

t2=3,200,620=5,161t_2 = \frac{3{,}20}{0{,}620} = 5{,}161

Karena t2=5,161>t0,025;47=2,012|t_2| = 5{,}161 > t_{0{,}025;\,47} = 2{,}012, tolak H0:β2=0H_0: \beta_2 = 0. Status merokok berpengaruh signifikan terhadap premi.

(b) Radj2R^2_{\text{adj}}:

Radj2=1(10,724)5015021=10,276×4947=10,276×1,04255R^2_{\text{adj}} = 1 - (1 - 0{,}724)\frac{50-1}{50-2-1} = 1 - 0{,}276 \times \frac{49}{47} = 1 - 0{,}276 \times 1{,}04255 Radj2=10,28774=0,712R^2_{\text{adj}} = 1 - 0{,}28774 = 0{,}712

(c) Prediksi dan interval kepercayaan mean:

y^0=2,40+0,15(40)+3,20(1)=2,40+6,00+3,20=6,80 juta\hat{y}_0 = -2{,}40 + 0{,}15(40) + 3{,}20(1) = -2{,}40 + 6{,}00 + 3{,}20 = 6{,}80 \text{ juta} Margin=t0,025;47×s×0,0520=2,012×1,80×0,22804=0,825 juta\text{Margin} = t_{0{,}025;\,47} \times s \times \sqrt{0{,}0520} = 2{,}012 \times 1{,}80 \times 0{,}22804 = 0{,}825 \text{ juta} CI95%:6,80±0,825(5,975;  7,625) juta rupiah\text{CI}_{95\%}: \quad 6{,}80 \pm 0{,}825 \quad \Rightarrow \quad (5{,}975;\; 7{,}625) \text{ juta rupiah}

5. Verification y^0=6,80\hat{y}_0 = 6{,}80 masuk akal: nasabah 40 tahun perokok membayar lebih dari rata-rata sampel yang mengandung campuran usia dan status. Radj2=0,712<R2=0,724R^2_{\text{adj}} = 0{,}712 < R^2 = 0{,}724 ✓. Margin interval kepercayaan mean lebih kecil dari s=1,80s = 1{,}80 ✓ (karena rata-rata lebih presisi dari individu).

Hasil: (a) Tolak H0H_0, merokok signifikan (t=5,161t = 5{,}161); (b) Radj2=0,712R^2_{\text{adj}} = 0{,}712; (c) CI mean premi = (5,975;  7,625)(5{,}975;\; 7{,}625) juta.

Exam Tips — Soal B

Target waktu: 4 menit. Common trap 1: Salah menghitung 0,0520\sqrt{0{,}0520} — ingat 0,05200,2280\sqrt{0{,}0520} \approx 0{,}2280. Common trap 2: Menggunakan formula interval prediksi (dengan “+1”) padahal soal meminta interval untuk mean — baca soal dengan seksama. Shortcut: Untuk uji-tt, jika pp-value diberikan, cukup bandingkan dengan α\alpha tanpa perlu menghitung tt manual.


Soal C — Challenging

Seorang aktuaris membangun model MLR untuk memprediksi loss ratio asuransi kendaraan (yy, dalam persen) menggunakan tiga prediktor: usia kendaraan (x1x_1, tahun), kapasitas mesin (x2x_2, cc/100), dan wilayah (x3x_3: 1 = perkotaan, 0 = pedesaan). Data: n=45n = 45.

Output komputer menghasilkan:

y^=42,5+1,8x1+0,6x2+8,4x3\hat{y} = 42{,}5 + 1{,}8\,x_1 + 0{,}6\,x_2 + 8{,}4\,x_3
Variabelβ^\hat{\beta}SEttpp-value
(Intersep)42{,}54{,}2010{,}12<0,001<0{,}001
x1x_1 (usia)1{,}80{,}722{,}500,0160{,}016
x2x_2 (mesin)0{,}60{,}381{,}580,1220{,}122
x3x_3 (wilayah)8{,}42{,}104{,}00<0,001<0{,}001

SST=3820,0\text{SST} = 3820{,}0, RSS=980,5\text{RSS} = 980{,}5, s=4,95s = 4{,}95.

(a) Tentukan apakah kapasitas mesin (x2x_2) signifikan pada α=5%\alpha = 5\%.

(b) Hitung R2R^2, Radj2R^2_{\text{adj}}, dan FF-statistik. Konfirmasi konsistensi antara R2R^2 dan FF.

(c) Hitung interval prediksi 95% untuk loss ratio kendaraan baru: usia 5 tahun, kapasitas 20 (cc/100), wilayah perkotaan. Diketahui x0T(XTX)1x0=0,0840\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0 = 0{,}0840.

(d) Seorang kolega menyarankan bahwa interval prediksi selalu lebih sempit daripada interval kepercayaan mean. Koreksi pernyataan ini.

Solusi Soal C

Pendekatan: Kombinasi uji-tt, hitung R2R^2 dan FF, hubungkan keduanya, lalu hitung interval prediksi (bukan mean) dengan “+1” di bawah akar.

1. Identifikasi Variabel

  • n=45n = 45, p=3p = 3, dfres=4531=41df_{\text{res}} = 45 - 3 - 1 = 41
  • SST=3820,0\text{SST} = 3820{,}0, RSS=980,5\text{RSS} = 980{,}5, SSR=3820,0980,5=2839,5\text{SSR} = 3820{,}0 - 980{,}5 = 2839{,}5
  • Titik baru: x1=5x_1=5, x2=20x_2=20, x3=1x_3=1; x0T(XTX)1x0=0,0840\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0 = 0{,}0840

2. Identifikasi Model MLR tiga prediktor, campuran kontinu dan dummy. Uji-tt dua arah dengan df=41df = 41.

3. Setup Persamaan

R2=SSRSST,F=R2/(1R2)np1p,y^0±tα/2s1+x0T(XTX)1x0R^2 = \frac{\text{SSR}}{\text{SST}}, \quad F = \frac{R^2/(1-R^2)} \cdot \frac{n-p-1}{p}, \quad \hat{y}_0 \pm t_{\alpha/2} \cdot s\sqrt{1 + \mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0}

4. Eksekusi Aljabar

(a) Uji-tt untuk x2x_2:

t2=1,58t_2 = 1{,}58 dengan pp-value =0,122>α=0,05= 0{,}122 > \alpha = 0{,}05.

Gagal tolak H0:β2=0H_0: \beta_2 = 0. Kapasitas mesin tidak signifikan pada α=5%\alpha = 5\%, dengan prediktor lain dalam model.

(b) R2R^2, Radj2R^2_{\text{adj}}, dan FF:

R2=2839,53820,0=0,7433R^2 = \frac{2839{,}5}{3820{,}0} = 0{,}7433 Radj2=1980,5/413820,0/44=123,91586,818=10,2754=0,7246R^2_{\text{adj}} = 1 - \frac{980{,}5/41}{3820{,}0/44} = 1 - \frac{23{,}915}{86{,}818} = 1 - 0{,}2754 = 0{,}7246

Dari tabel ANOVA: MSR=2839,5/3=946,5\text{MSR} = 2839{,}5/3 = 946{,}5 dan MSE=980,5/41=23,915\text{MSE} = 980{,}5/41 = 23{,}915.

F=946,523,915=39,58F = \frac{946{,}5}{23{,}915} = 39{,}58

Konfirmasi via R2R^2:

F=0,743310,7433×413=0,74330,2567×13,667=2,895×13,667=39,5739,58F = \frac{0{,}7433}{1 - 0{,}7433} \times \frac{41}{3} = \frac{0{,}7433}{0{,}2567} \times 13{,}667 = 2{,}895 \times 13{,}667 = 39{,}57 \approx 39{,}58 \quad \checkmark

(c) Interval Prediksi 95%:

y^0=42,5+1,8(5)+0,6(20)+8,4(1)=42,5+9,0+12,0+8,4=71,9%\hat{y}_0 = 42{,}5 + 1{,}8(5) + 0{,}6(20) + 8{,}4(1) = 42{,}5 + 9{,}0 + 12{,}0 + 8{,}4 = 71{,}9\% 1+0,0840=1,0840=1,04115\sqrt{1 + 0{,}0840} = \sqrt{1{,}0840} = 1{,}04115

Untuk df=41df = 41, gunakan t0,025;412,020t_{0{,}025;\,41} \approx 2{,}020:

Margin=2,020×4,95×1,04115=2,020×5,154=10,41\text{Margin} = 2{,}020 \times 4{,}95 \times 1{,}04115 = 2{,}020 \times 5{,}154 = 10{,}41 PI95%:71,9±10,41(61,49%;  82,31%)\text{PI}_{95\%}: \quad 71{,}9 \pm 10{,}41 \quad \Rightarrow \quad (61{,}49\%;\; 82{,}31\%)

(d) Koreksi pernyataan kolega:

Pernyataan kolega keliru. Interval prediksi untuk individu baru selalu lebih lebar daripada interval kepercayaan mean, karena interval prediksi memiliki faktor tambahan “+1” di bawah akar:

s1+x0T(XTX)1x0>sx0T(XTX)1x0s\sqrt{1 + \mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0} > s\sqrt{\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0}

Secara intuitif: prediksi mean hanya perlu menangkap ketidakpastian estimasi parameter β^\hat{\boldsymbol{\beta}}, sedangkan prediksi individu harus menambahkan ketidakpastian error εnewN(0,σ2)\varepsilon_{\text{new}} \sim N(0, \sigma^2) dari observasi baru itu sendiri.

5. Verification y^0=71,9%\hat{y}_0 = 71{,}9\% — kendaraan tua (5 tahun), bermesin besar, di perkotaan: loss ratio tinggi masuk akal. Lebar PI 20,8\approx 20{,}8 poin persentase — cukup lebar, wajar untuk prediksi individu. F=39,58F = 39{,}58 jauh di atas nilai kritis F0,05;3,412,84F_{0{,}05;\,3,\,41} \approx 2{,}84 → model sangat signifikan.

Hasil: (a) x2x_2 tidak signifikan (p=0,122p=0{,}122); (b) R2=0,743R^2=0{,}743, Radj2=0,725R^2_{\text{adj}}=0{,}725, F=39,58F=39{,}58, konsisten ✓; (c) PI = (61,5%;  82,3%)(61{,}5\%;\; 82{,}3\%); (d) Interval prediksi selalu lebih lebar dari CI mean.

Exam Tips — Soal C

Target waktu: 6 menit. Common trap 1: Menggunakan formula CI mean (tanpa “+1”) untuk interval prediksi — baca soal: kata “observasi baru” atau “individu baru” = interval prediksi. Common trap 2: Lupa SSR=SSTRSS\text{SSR} = \text{SST} - \text{RSS}, bukan sebaliknya. Shortcut: Konfirmasi FF via R2R^2 adalah cara cepat cross-check tabel ANOVA — hasilnya harus sama dalam dua desimal.


Section 5 — Verifikasi & Sanity Check

Konsistensi Dekomposisi SS

Selalu verifikasi:

SST=SSR+RSS,dfSST=dfSSR+dfRSS,yaitu(n1)=p+(np1)\text{SST} = \text{SSR} + \text{RSS}, \quad df_{\text{SST}} = df_{\text{SSR}} + df_{\text{RSS}}, \quad \text{yaitu} \quad (n-1) = p + (n-p-1)

Jika salah satu tidak terpenuhi, ada kesalahan dalam membaca tabel ANOVA. Periksa apakah pp (jumlah prediktor) dan nn (jumlah observasi) sudah benar.

Urutan Lebar Interval

Untuk titik prediktor x0\mathbf{x}_0 yang sama, selalu berlaku:

Lebar PI>Lebar CI mean\text{Lebar PI} > \text{Lebar CI mean}

karena 1+c>c\sqrt{1 + c} > \sqrt{c} untuk semua c>0c > 0. Jika hasil kalkulasi menunjukkan PI lebih sempit, pasti ada kesalahan — paling umum: lupa menambahkan “+1” di bawah akar untuk interval prediksi.

Batas R2R^2 dan Radj2R^2_{\text{adj}}
  • Radj2R2R^2_{\text{adj}} \leq R^2 selalu — jika tidak, cek rumus.
  • Radj2R^2_{\text{adj}} bisa negatif jika model sangat buruk (MSE > MST).
  • Menambah prediktor: R2R^2 naik atau tetap, Radj2R^2_{\text{adj}} bisa naik atau turun.

Metode Alternatif

Menghitung FF langsung dari R2R^2 (tanpa tabel ANOVA penuh):

F=R2/p(1R2)/(np1)F = \frac{R^2/p}{(1-R^2)/(n-p-1)}

Berguna ketika soal hanya memberikan R2R^2, nn, dan pp, tanpa tabel ANOVA. Ingat: pp adalah jumlah prediktor (tidak termasuk intersep).


Section 6 — Visualisasi Mental

Struktur Tabel ANOVA — Format Standar:

+———————————+—————————+——————+——————————+—————————+
| Sumber    |   SS    |  df  |    MS    |    F    |
+———————————+—————————+——————+——————————+—————————+
| Regresi   |   SSR   |  p   | SSR/p    | MSR/MSE |  ← Model menjelaskan ini
| Residual  |   RSS   | n-p-1| RSS/n-p-1|   —     |  ← Yang tidak dijelaskan
| Total     |   SST   |  n-1 |    —     |   —     |  ← Seluruh variabilitas y
+———————————+—————————+——————+——————————+—————————+

SST = SSR + RSS  (selalu!)
df:  (n-1) = p + (n-p-1)  (selalu!)
R² = SSR/SST
F  = MSR/MSE

Visualisasi CI Mean vs PI:

                    ← lebar PI →
        ←lebar CI→
              ·——·
          ·———    ———·          ← Interval Prediksi (lebih lebar)
      ·———                ———·
  ·———  ·—·                ·—·  ———·
        ↑   ↑            ↑   ↑
    CI kiri CI kanan  PI kiri PI kanan

         x₀ (titik prediksi)

Kedua interval berpusat di ŷ₀ yang sama.
PI lebih lebar karena mencakup variabilitas
error individu tambahan (faktor +1).

Hubungan Visual ↔ Rumus

Elemen VisualKomponen Rumus
Baris “Regresi” di tabel ANOVASSR, MSR = SSR/pp
Baris “Residual” di tabel ANOVARSS, MSE = RSS/(np1)(n-p-1) = s2s^2
Tinggi seluruh tabel SSSST = (yiyˉ)2\sum(y_i - \bar{y})^2
Lebar PI vs CIFaktor “+1” pada interval prediksi
Kolom tt-statistik output regresiβ^j/SE(β^j)\hat{\beta}_j / \text{SE}(\hat{\beta}_j)

Section 7 — Jebakan Umum

Kesalahan Parametrisasi

Derajat kebebasan yang salah adalah kesalahan paling umum:

  • dfSSR=pdf_{\text{SSR}} = p (jumlah prediktor, tidak termasuk intersep β0\beta_0)
  • dfRSS=np1df_{\text{RSS}} = n - p - 1 (bukan npn - p!)
  • Uji-tt koefisien: df=np1df = n - p - 1

Contoh salah: Model dengan n=30n=30 dan p=3p=3 prediktor → dfres=303=27df_{\text{res}} = 30 - 3 = 27 ← SALAH

Contoh benar: dfres=3031=26df_{\text{res}} = 30 - 3 - 1 = 26 ← BENAR (kurangi 1 untuk intersep)

Kesalahan Konseptual
  1. Interpretasi koefisien tanpa “ceteris paribus”: Dalam MLR, β^j\hat{\beta}_j adalah efek parsial — selalu sertakan frasa “dengan prediktor lain dipegang konstan” dalam interpretasi.
  2. Uji-FF signifikan berarti semua prediktor signifikan: Keliru! Uji-FF hanya menyatakan minimal satu prediktor signifikan. Setiap prediktor harus diuji dengan uji-tt individual.
  3. R2R^2 tinggi berarti model baik: R2=0,95R^2 = 0{,}95 tidak menjamin model valid — bisa terjadi overfitting, multikolinearitas, atau pelanggaran asumsi lain.
  4. Radj2R^2_{\text{adj}} selalu positif: Tidak benar. Radj2R^2_{\text{adj}} bisa negatif untuk model yang sangat buruk.
Kesalahan Interpretasi Soal
  • “Interval kepercayaan untuk prediksi” → ambigu! Klarifikasi: apakah untuk mean respon atau individu baru? Jika soal menyebut “observasi/individu baru”, gunakan interval prediksi (dengan “+1”).
  • “Prediktor tidak signifikan” ≠ “prediktor tidak berpengaruh dalam realita” — hanya berarti data tidak cukup untuk mendeteksi efeknya secara statistik pada level signifikansi yang digunakan.
  • pp-value “0{,}000” di output komputer bukan berarti persis nol — artinya p<0,001p < 0{,}001, dan selalu tolak H0H_0 untuk α=0,05\alpha = 0{,}05 atau 0,010{,}01.
Red Flags
  • Jika Radj2>R2R^2_{\text{adj}} > R^2 → pasti ada kesalahan kalkulasi atau pembacaan tabel.
  • Jika uji-FF tidak signifikan tetapi ada uji-tt individual yang signifikan → periksa multikolinearitas.
  • Jika soal memberikan x0T(XTX)1x0\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0 → soal pasti meminta CI mean atau PI (bukan uji-tt biasa).
  • Kata “kendaraan/nasabah baru yang tidak ada dalam data” → interval prediksi (PI), bukan CI mean.

Section 8 — Ringkasan Eksekutif

Must-Remember
  1. Dekomposisi SS dan R2R^2: SST=SSR+RSS,R2=SSRSST=1RSSSST\text{SST} = \text{SSR} + \text{RSS}, \quad R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{RSS}}{\text{SST}}

  2. R2R^2 yang disesuaikan: Radj2=1(1R2)n1np1R^2_{\text{adj}} = 1 - (1-R^2)\frac{n-1}{n-p-1}

  3. Uji-tt koefisien individual (H0:βj=0H_0: \beta_j = 0, df=np1df = n-p-1): tj=β^jSE(β^j)t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)}

  4. Uji-FF model keseluruhan (df=p,np1df = p,\, n-p-1), relasi dengan R2R^2: F=R2/p(1R2)/(np1)F = \frac{R^2/p}{(1-R^2)/(n-p-1)}

  5. CI mean vs PI (perbedaan kunci — faktor “+1”): CI mean:y^0±tα/2sx0T(XTX)1x0\text{CI mean:} \quad \hat{y}_0 \pm t_{\alpha/2} \cdot s\sqrt{\mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0} PI individu:y^0±tα/2s1+x0T(XTX)1x0\text{PI individu:} \quad \hat{y}_0 \pm t_{\alpha/2} \cdot s\sqrt{1 + \mathbf{x}_0^T(X^TX)^{-1}\mathbf{x}_0}

Kapan Digunakan

  • Soal memberikan tabel output regresi (koefisien, SE, tt, pp-value) dan meminta interpretasi.
  • Soal memberikan tabel ANOVA regresi dan meminta R2R^2, Radj2R^2_{\text{adj}}, atau uji-FF.
  • Soal meminta prediksi nilai yy untuk kombinasi prediktor tertentu beserta intervalnya.
  • Soal meminta uji signifikansi prediktor individual maupun model keseluruhan.
  • Soal menyebutkan lebih dari satu prediktor dalam model regresi.

Kapan TIDAK Boleh Digunakan

Quick Decision Tree

graph TD
    A["Ada output regresi dengan p > 1 prediktor?"] -->|"Ya"| B["Apa yang ditanya soal?"]
    A -->|"Tidak, p=1"| Z["Topik 3.2: Simple Linear Regression"]
    B -->|"Interpretasi koefisien"| C["Sebutkan: naik 1 satuan x_j,<br>y naik beta_j, ceteris paribus"]
    B -->|"Signifikansi prediktor"| D["Uji-t: t = beta_hat / SE<br>df = n - p - 1"]
    B -->|"Signifikansi model"| E["Uji-F: F = MSR/MSE<br>atau F = R2/p / (1-R2)/(n-p-1)"]
    B -->|"Goodness of fit"| F["R2 = SSR/SST<br>R2_adj koreksi untuk p"]
    B -->|"Prediksi + interval"| G["Hitung y_hat_0 terlebih dulu"]
    G -->|"Interval untuk mean respon"| H["CI: y_hat +/- t * s * sqrt(xT(XTX)^-1 x)"]
    G -->|"Interval untuk individu baru"| I["PI: y_hat +/- t * s * sqrt(1 + xT(XTX)^-1 x)"]

Follow-up Options
  1. “Berikan contoh soal variasi 3.3 Multiple Linear Regression Interpretation dengan variabel dummy dan interpretasi interaksi”
  2. “Jelaskan hubungan 3.3 Multiple Linear Regression Interpretation dengan 3.4 Residual Analysis and Model Validation
  3. “Buat flashcard 1-halaman untuk topik 3.3 ini”

📖 Ref: Frees (2010), Regression Modeling with Actuarial and Financial Applications, Bab 3–6 | 🗓️ 2026-04-19 | #TA1 #Regresi #RegresiLinearBerganda