AktuNotes
← Kembali
TA1 · Materi 3.2

Simple Linear Regression

Calculation-Intensive Bobot: 20–25% Frees, E. W. (2010). Regression Modeling with Actuarial and Financial Applications, Bab 1–3
TA1RegresiSimpleLinearRegressionOLSLeastSquares

📊 3.2 — Simple Linear Regression

Ringkasan Cepat

Topik: Simple Linear Regression | Bobot: ~20–25% | Difficulty: Calculation-Intensive Ref: Frees (2010) Bab 1–3 | Prereq: 3.1 Explanatory and Response Variables


Section 0 — Pemetaan Topik

Topik TA1Sub-topik IDSkill DiujiBobotDifficultyPrerequisiteConnected TopicsReferensi
Analisis Regresi3.2Menghitung estimasi OLS untuk slope β^1\hat{\beta}_1 dan intercept β^0\hat{\beta}_0; interpretasi koefisien; interval kepercayaan20–25%Calculation-Intensive3.1 Explanatory and Response Variables3.3 Multiple Linear Regression Interpretation, 3.4 Residual Analysis and Model Validation, 3.5 Variable Selection CriteriaFrees (2010) Bab 1–3

Section 1 — Intuisi

Bayangkan seorang aktuaris di perusahaan asuransi umum sedang diminta manajemen untuk menjelaskan mengapa premi asuransi kendaraan bervariasi antar nasabah. Dari jutaan data historis, terlihat jelas bahwa nasabah yang lebih tua cenderung mengajukan klaim lebih sedikit, dan nasabah dengan nilai kendaraan lebih tinggi cenderung mengajukan klaim lebih besar. Pertanyaannya: berapa tepatnya kenaikan premi yang wajar untuk setiap kenaikan satu juta rupiah nilai kendaraan? Tanpa alat statistik yang tepat, jawaban ini hanya opini — dengan regresi linier sederhana, jawabannya menjadi angka yang dapat dipertahankan secara ilmiah.

Regresi linier sederhana adalah cara paling elegan untuk meringkas hubungan antara dua variabel numerik menjadi sebuah garis lurus. Idenya sangat sederhana: dari sekumpulan titik data yang tersebar, kita cari garis yang “paling dekat” dengan semua titik tersebut secara bersamaan. “Paling dekat” didefinisikan dengan cara yang cerdas — bukan jarak biasa, melainkan meminimalkan kuadrat selisih vertikal antara titik data dan garis. Inilah yang disebut metode Ordinary Least Squares (OLS), dan hasilnya adalah dua angka sederhana: kemiringan (slope) dan titik potong (intercept) garis terbaik tersebut.

Yang membuat regresi linier sederhana sangat berguna dalam aktuaria adalah kemampuannya untuk memberikan jawaban yang dapat ditindaklanjuti. Slope memberitahu kita: “Untuk setiap kenaikan satu unit pada variabel penjelas, berapa rata-rata perubahan pada variabel respon?” Jawaban ini — jika asumsi modelnya terpenuhi — bukan sekadar korelasi, melainkan sebuah hubungan kuantitatif yang dapat digunakan untuk proyeksi, penetapan premi, dan pengambilan keputusan bisnis berbasis data.


Section 2 — Definisi Formal

Definisi Matematis — Model Regresi Linier Sederhana

Model populasi regresi linier sederhana dinyatakan sebagai:

Yi=β0+β1xi+εi,i=1,2,,nY_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i = 1, 2, \ldots, n

di mana εiiidN(0,σ2)\varepsilon_i \overset{\text{iid}}{\sim} N(0, \sigma^2). Model ini menyatakan bahwa nilai respon YiY_i adalah fungsi linier deterministik dari xix_i ditambah komponen acak (error) εi\varepsilon_i.

Tabel Variabel & Parameter

SimbolMaknaCatatan
YiY_iVariabel respon (dependen) untuk observasi ke-iiVariabel acak
xix_iVariabel prediktor (independen/penjelas) untuk observasi ke-iiDianggap non-stokastik (tetap)
β0\beta_0Intercept populasi — nilai ekspektasi YY ketika x=0x = 0Parameter tidak diketahui
β1\beta_1Slope populasi — perubahan rata-rata YY per unit kenaikan xxParameter tidak diketahui
εi\varepsilon_iError acak (residual populasi)E[εi]=0E[\varepsilon_i] = 0, Var(εi)=σ2\text{Var}(\varepsilon_i) = \sigma^2
β^0\hat{\beta}_0Estimator OLS untuk interceptDihitung dari data sampel
β^1\hat{\beta}_1Estimator OLS untuk slopeDihitung dari data sampel
Y^i\hat{Y}_iNilai fitted (prediksi) untuk observasi ke-iiY^i=β^0+β^1xi\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i
eie_iResidual sampelei=YiY^ie_i = Y_i - \hat{Y}_i
xˉ,Yˉ\bar{x}, \bar{Y}Rata-rata sampel dari xx dan YYxˉ=1nxi\bar{x} = \frac{1}{n}\sum x_i, Yˉ=1nYi\bar{Y} = \frac{1}{n}\sum Y_i
SxxS_{xx}Sum of squares untuk xxSxx=(xixˉ)2S_{xx} = \sum(x_i - \bar{x})^2
SxyS_{xy}Sum of cross-productsSxy=(xixˉ)(YiYˉ)S_{xy} = \sum(x_i - \bar{x})(Y_i - \bar{Y})
SyyS_{yy}Sum of squares untuk YYSyy=(YiYˉ)2S_{yy} = \sum(Y_i - \bar{Y})^2
σ2\sigma^2Varians error populasiDiestimasi oleh s2=MSEs^2 = \text{MSE}
nnJumlah observasi

Rumus Utama

1. Estimator OLS — Slope:

β^1=SxySxx=i=1n(xixˉ)(YiYˉ)i=1n(xixˉ)2\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (x_i - \bar{x})(Y_i - \bar{Y})}{\sum_{i=1}^n (x_i - \bar{x})^2}

Label: Slope OLS = kovarians sampel (xyxy) dibagi varians sampel (xx). Mengukur sensitivitas rata-rata YY terhadap perubahan xx.

2. Estimator OLS — Intercept:

β^0=Yˉβ^1xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x}

Label: Garis regresi selalu melewati titik (xˉ,Yˉ)(\bar{x}, \bar{Y}). Intercept adalah implikasi dari constraint ini.

3. Sum of Squares — Definisi Ringkas:

Sxx=xi2nxˉ2,Sxy=xiYinxˉYˉ,Syy=Yi2nYˉ2S_{xx} = \sum x_i^2 - n\bar{x}^2, \quad S_{xy} = \sum x_i Y_i - n\bar{x}\bar{Y}, \quad S_{yy} = \sum Y_i^2 - n\bar{Y}^2

Label: Rumus komputasi yang menghindari rounding error — selalu gunakan ini saat menghitung dengan kalkulator.

4. Mean Square Error (estimator σ2\sigma^2):

s2=MSE=SSEn2=i=1nei2n2=Syyβ^1Sxyn2s^2 = \text{MSE} = \frac{\text{SSE}}{n-2} = \frac{\sum_{i=1}^n e_i^2}{n-2} = \frac{S_{yy} - \hat{\beta}_1 S_{xy}}{n-2}

Label: Dibagi n2n-2 (bukan nn) karena dua parameter (β0,β1\beta_0, \beta_1) diestimasi. SSE = Syyβ^1SxyS_{yy} - \hat{\beta}_1 S_{xy}.

5. Standard Error Estimator Slope:

SE(β^1)=sSxx\text{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}}

Label: Presisi estimasi slope meningkat jika: ss kecil (data tidak terlalu tersebar) atau SxxS_{xx} besar (variasi xx lebar).

6. Standard Error Estimator Intercept:

SE(β^0)=s1n+xˉ2Sxx\text{SE}(\hat{\beta}_0) = s\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}}

Label: SE intercept bergantung pada xˉ\bar{x} — semakin jauh xˉ\bar{x} dari nol, semakin besar ketidakpastian intercept.

7. Interval Kepercayaan untuk β1\beta_1 (dan β0\beta_0):

β^1±tα/2,n2SE(β^1)\hat{\beta}_1 \pm t_{\alpha/2,\, n-2} \cdot \text{SE}(\hat{\beta}_1)

Label: Distribusi-tt dengan n2n-2 derajat bebas. Untuk nn besar, tα/2,n21.96t_{\alpha/2, n-2} \approx 1.96 (95%).

8. Nilai Fitted dan Residual:

Y^i=β^0+β^1xi,ei=YiY^i\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i, \qquad e_i = Y_i - \hat{Y}_i

Label: Residual eie_i adalah estimasi dari error εi\varepsilon_i. Selalu berlaku ei=0\sum e_i = 0 dan xiei=0\sum x_i e_i = 0.

Asumsi Eksplisit

  1. Linearitas: Hubungan antara E[Yx]E[Y \mid x] dan xx adalah linear: E[Yixi]=β0+β1xiE[Y_i \mid x_i] = \beta_0 + \beta_1 x_i.
  2. Independensi: Error εi\varepsilon_i saling independen satu sama lain (tidak ada autokorelasi).
  3. Homoskedastisitas: Varians error konstan untuk semua nilai xx: Var(εi)=σ2\text{Var}(\varepsilon_i) = \sigma^2 (tidak bergantung pada xix_i).
  4. Normalitas: εiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2) — diperlukan untuk inferensial (uji-tt, interval kepercayaan).
  5. Prediktor non-stokastik (atau fixed): Nilai xix_i dianggap tetap (bukan variabel acak), atau jika acak, independen dari εi\varepsilon_i.

Section 3 — Jembatan Logika

Dari Definisi ke Rumus

Mengapa kita meminimalkan kuadrat residual, bukan nilai absolutnya? Ada tiga alasan kuat: (1) fungsi kuadrat mudah didiferensialkan — solusi analitik tertutup (closed-form) tersedia; (2) kuadrat memberi penalti lebih besar pada residual besar, sehingga estimator sensitif terhadap outlier (yang justru penting untuk dideteksi); (3) dalam kondisi asumsi normalitas, estimator OLS identik dengan estimator MLE — OLS dan MLE memberikan jawaban yang sama. Dua persamaan normal yang diturunkan dari kondisi first-order OLS secara langsung menghasilkan formula β^1=Sxy/Sxx\hat{\beta}_1 = S_{xy}/S_{xx} dan β^0=Yˉβ^1xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x}.

Constraint Geometri Garis Regresi

Garis regresi OLS selalu melewati titik sentroid data (xˉ,Yˉ)(\bar{x}, \bar{Y}). Ini bukan kebetulan — ini adalah konsekuensi langsung dari persamaan normal pertama: ei=0\sum e_i = 0. Implikasinya: jika kita tahu β^1\hat{\beta}_1 dan mengetahui xˉ,Yˉ\bar{x}, \bar{Y}, maka β^0\hat{\beta}_0 terdefinisi secara unik. Dalam soal ujian, ini sering digunakan sebagai shortcut: “garis regresi melewati (xˉ,Yˉ\bar{x}, \bar{Y}), jadi substitusi untuk cek jawaban”.

Derivasi Step-by-Step: Estimator OLS dari Minimisasi SSE

Langkah 1 — Definisi Fungsi Objektif

Kita ingin meminimalkan Sum of Squared Errors (SSE) terhadap parameter β0\beta_0 dan β1\beta_1:

SSE(β0,β1)=i=1n(Yiβ0β1xi)2\text{SSE}(\beta_0, \beta_1) = \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 x_i)^2

Langkah 2 — Kondisi First-Order: Turunan terhadap β0\beta_0

SSEβ0=2i=1n(Yiβ0β1xi)=0\frac{\partial \text{SSE}}{\partial \beta_0} = -2\sum_{i=1}^n (Y_i - \beta_0 - \beta_1 x_i) = 0

Sederhanakan:

Yi=nβ0+β1xiYˉ=β0+β1xˉ(Persamaan Normal 1)\sum Y_i = n\beta_0 + \beta_1 \sum x_i \quad \Longrightarrow \quad \bar{Y} = \beta_0 + \beta_1 \bar{x} \tag{Persamaan Normal 1}

Langkah 3 — Kondisi First-Order: Turunan terhadap β1\beta_1

SSEβ1=2i=1nxi(Yiβ0β1xi)=0\frac{\partial \text{SSE}}{\partial \beta_1} = -2\sum_{i=1}^n x_i(Y_i - \beta_0 - \beta_1 x_i) = 0

Sederhanakan:

xiYi=β0xi+β1xi2(Persamaan Normal 2)\sum x_i Y_i = \beta_0 \sum x_i + \beta_1 \sum x_i^2 \tag{Persamaan Normal 2}

Langkah 4 — Eliminasi β0\beta_0

Dari Persamaan Normal 1: β^0=Yˉβ^1xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x}.

Substitusikan ke Persamaan Normal 2:

xiYi=(Yˉβ^1xˉ)xi+β^1xi2\sum x_i Y_i = (\bar{Y} - \hat{\beta}_1 \bar{x})\sum x_i + \hat{\beta}_1 \sum x_i^2 xiYiYˉxi=β^1(xi2xˉxi)\sum x_i Y_i - \bar{Y}\sum x_i = \hat{\beta}_1\left(\sum x_i^2 - \bar{x}\sum x_i\right)

Langkah 5 — Sederhanakan ke Bentuk Sxy/SxxS_{xy}/S_{xx}

Perhatikan:

xiYiYˉxi=xiYinxˉYˉ=Sxy\sum x_i Y_i - \bar{Y}\sum x_i = \sum x_i Y_i - n\bar{x}\bar{Y} = S_{xy} xi2xˉxi=xi2nxˉ2=Sxx\sum x_i^2 - \bar{x}\sum x_i = \sum x_i^2 - n\bar{x}^2 = S_{xx}

Maka:

β^1=SxySxx\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}}

dan secara otomatis:

β^0=Yˉβ^1xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{x}

Langkah 6 — Verifikasi Sifat OLS

Estimator OLS memiliki dua properti penting yang dapat diverifikasi:

  • i=1nei=0\sum_{i=1}^n e_i = 0 (residual berjumlah nol)
  • i=1nxiei=0\sum_{i=1}^n x_i e_i = 0 (residual orthogonal terhadap prediktor)

Kedua properti ini adalah konsekuensi langsung dari dua persamaan normal di atas.

Dilarang
  1. Jangan membalik peran xx dan YY dalam rumus: β^1=Sxy/Sxx\hat{\beta}_1 = S_{xy}/S_{xx}, bukan Syx/SyyS_{yx}/S_{yy}. Regresi YY pada xx berbeda dari regresi xx pada YY — keduanya menghasilkan garis yang berbeda kecuali r2=1r^2 = 1.
  2. Jangan menggunakan n1n-1 sebagai pembagi MSE — pembaginya adalah n2n-2 karena dua parameter (β0,β1\beta_0, \beta_1) telah diestimasi dari data, sehingga hanya n2n-2 derajat bebas yang tersisa untuk estimasi σ2\sigma^2.
  3. Jangan menginterpretasikan β^0\hat{\beta}_0 sebagai “nilai YY ketika tidak ada xx” secara sembarangan — intercept hanya bermakna secara praktis jika x=0x = 0 berada dalam atau dekat dengan rentang data. Ekstrapolasi jauh dari rentang data sangat berbahaya.

Section 4 — Contoh Soal

Soal A — Fundamental

Seorang aktuaris mengumpulkan data berikut untuk 5 polis asuransi jiwa, di mana xx = usia tertanggung (tahun) dan YY = premi tahunan (juta rupiah):

iixix_iYiY_i
1253.2
2354.8
3456.1
4557.9
5659.5

Hitung estimator OLS β^0\hat{\beta}_0 dan β^1\hat{\beta}_1, lalu nyatakan persamaan garis regresi.

Solusi Soal A

Pendekatan: Hitung xˉ\bar{x}, Yˉ\bar{Y}, SxxS_{xx}, SxyS_{xy} menggunakan rumus komputasi, lalu terapkan formula OLS langsung.

1. Identifikasi Variabel

  • n=5n = 5
  • xx: usia tertanggung; YY: premi tahunan (juta Rp)
  • Data: (25,3.2),(35,4.8),(45,6.1),(55,7.9),(65,9.5)(25, 3.2), (35, 4.8), (45, 6.1), (55, 7.9), (65, 9.5)

2. Identifikasi Model Regresi linier sederhana: Yi=β0+β1xi+εiY_i = \beta_0 + \beta_1 x_i + \varepsilon_i. Variabel prediktor xx = usia (kontinu, tetap), variabel respon YY = premi (kontinu, acak).

3. Setup Persamaan

β^1=SxySxx=xiYinxˉYˉxi2nxˉ2\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum x_i Y_i - n\bar{x}\bar{Y}}{\sum x_i^2 - n\bar{x}^2}

4. Eksekusi Aljabar

Hitung mean:

xˉ=25+35+45+55+655=2255=45\bar{x} = \frac{25+35+45+55+65}{5} = \frac{225}{5} = 45 Yˉ=3.2+4.8+6.1+7.9+9.55=31.55=6.3\bar{Y} = \frac{3.2+4.8+6.1+7.9+9.5}{5} = \frac{31.5}{5} = 6.3

Hitung jumlahan:

xi2=625+1225+2025+3025+4225=11125\sum x_i^2 = 625 + 1225 + 2025 + 3025 + 4225 = 11125 xiYi=25(3.2)+35(4.8)+45(6.1)+55(7.9)+65(9.5)=80+168+274.5+434.5+617.5=1574.5\sum x_i Y_i = 25(3.2) + 35(4.8) + 45(6.1) + 55(7.9) + 65(9.5) = 80 + 168 + 274.5 + 434.5 + 617.5 = 1574.5

Hitung sum of squares:

Sxx=111255(45)2=1112510125=1000S_{xx} = 11125 - 5(45)^2 = 11125 - 10125 = 1000 Sxy=1574.55(45)(6.3)=1574.51417.5=157S_{xy} = 1574.5 - 5(45)(6.3) = 1574.5 - 1417.5 = 157

Estimator OLS:

β^1=1571000=0.157 juta Rp per tahun usia\hat{\beta}_1 = \frac{157}{1000} = 0.157 \text{ juta Rp per tahun usia} β^0=Yˉβ^1xˉ=6.30.157(45)=6.37.065=0.765 juta Rp\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{x} = 6.3 - 0.157(45) = 6.3 - 7.065 = -0.765 \text{ juta Rp}

5. Verification Cek: garis melewati (xˉ,Yˉ)=(45,6.3)(\bar{x}, \bar{Y}) = (45, 6.3): Y^(45)=0.765+0.157(45)=0.765+7.065=6.3\hat{Y}(45) = -0.765 + 0.157(45) = -0.765 + 7.065 = 6.3 ✓. Interpretasi slope: setiap kenaikan 1 tahun usia, premi rata-rata naik Rp 157.000.

Hasil: β^1=0.157\hat{\beta}_1 = 0.157; β^0=0.765\hat{\beta}_0 = -0.765; Persamaan regresi: Y^=0.765+0.157x\hat{Y} = -0.765 + 0.157x.

Exam Tips — Soal A

Target waktu: 3 menit. Common trap: Menghitung Sxx=(xixˉ)2S_{xx} = \sum(x_i - \bar{x})^2 satu per satu alih-alih rumus komputasi xi2nxˉ2\sum x_i^2 - n\bar{x}^2 — keduanya sama hasilnya, tapi rumus komputasi jauh lebih cepat. Shortcut: Selalu hitung xi2\sum x_i^2, xiYi\sum x_i Y_i, xi\sum x_i, Yi\sum Y_i dalam satu tabel, lalu terapkan rumus sekaligus.


Soal B — Exam-Typical

Dari data 20 polis asuransi kendaraan bermotor, diperoleh ringkasan statistik berikut:

n=20,xˉ=120 (juta Rp, nilai kendaraan),Yˉ=2.4 (juta Rp, premi)n = 20, \quad \bar{x} = 120 \text{ (juta Rp, nilai kendaraan)}, \quad \bar{Y} = 2.4 \text{ (juta Rp, premi)} Sxx=48000,Sxy=1200,Syy=42S_{xx} = 48000, \quad S_{xy} = 1200, \quad S_{yy} = 42

(a) Hitung β^0\hat{\beta}_0, β^1\hat{\beta}_1, dan SSE. (b) Hitung s2s^2 (MSE) dan SE(β^1)\text{SE}(\hat{\beta}_1). (c) Hitung interval kepercayaan 95% untuk β1\beta_1.

Solusi Soal B

Pendekatan: Data sudah dalam bentuk ringkasan (sufficient statistics). Terapkan formula langsung menggunakan SxxS_{xx}, SxyS_{xy}, SyyS_{yy}. Untuk CI, gunakan distribusi-tt dengan df=n2=18df = n-2 = 18.

1. Identifikasi Variabel

  • n=20n = 20, df=18df = 18
  • xˉ=120\bar{x} = 120 juta Rp (nilai kendaraan), Yˉ=2.4\bar{Y} = 2.4 juta Rp (premi)
  • Sxx=48000S_{xx} = 48000, Sxy=1200S_{xy} = 1200, Syy=42S_{yy} = 42

2. Identifikasi Model SLR: premi (YY) sebagai fungsi linear nilai kendaraan (xx). Data ringkasan sufficient untuk semua kalkulasi.

3. Setup Persamaan

β^1=SxySxx,β^0=Yˉβ^1xˉ\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{x} SSE=Syyβ^1Sxy,s2=SSEn2\text{SSE} = S_{yy} - \hat{\beta}_1 S_{xy}, \quad s^2 = \frac{\text{SSE}}{n-2}

4. Eksekusi Aljabar

(a) Koefisien regresi:

β^1=120048000=0.025 juta Rp premi per juta Rp nilai kendaraan\hat{\beta}_1 = \frac{1200}{48000} = 0.025 \text{ juta Rp premi per juta Rp nilai kendaraan} β^0=2.40.025(120)=2.43.0=0.6 juta Rp\hat{\beta}_0 = 2.4 - 0.025(120) = 2.4 - 3.0 = -0.6 \text{ juta Rp} SSE=42(0.025)(1200)=4230=12\text{SSE} = 42 - (0.025)(1200) = 42 - 30 = 12

(b) Estimasi varians dan SE slope:

s2=1218=0.6667,s=0.6667=0.8165s^2 = \frac{12}{18} = 0.6667, \quad s = \sqrt{0.6667} = 0.8165 SE(β^1)=sSxx=0.816548000=0.8165219.09=0.003727\text{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}} = \frac{0.8165}{\sqrt{48000}} = \frac{0.8165}{219.09} = 0.003727

(c) Interval kepercayaan 95% untuk β1\beta_1, df=18df = 18:

Nilai kritis: t0.025,18=2.101t_{0.025, 18} = 2.101 (dari tabel-tt).

β^1±t0.025,18SE(β^1)=0.025±2.101×0.003727\hat{\beta}_1 \pm t_{0.025,18} \cdot \text{SE}(\hat{\beta}_1) = 0.025 \pm 2.101 \times 0.003727 =0.025±0.007830=(0.01717, 0.03283)= 0.025 \pm 0.007830 = (0.01717,\ 0.03283)

5. Verification CI tidak mencakup 0, sehingga β1\beta_1 signifikan berbeda dari nol pada tingkat 5% — sesuai ekspektasi bahwa nilai kendaraan mempengaruhi premi. Lebar CI (0.016\approx 0.016) relatif sempit dibanding β^1=0.025\hat{\beta}_1 = 0.025, menunjukkan estimasi cukup presisi.

Hasil: β^1=0.025\hat{\beta}_1 = 0.025; β^0=0.6\hat{\beta}_0 = -0.6; SSE = 12; s2=0.667s^2 = 0.667; SE(β^1\hat{\beta}_1) = 0.003727; CI 95%: (0.0172, 0.0328)(0.0172,\ 0.0328).

Exam Tips — Soal B

Target waktu: 4 menit. Common trap: Menggunakan df=n1df = n-1 untuk tabel-tt, atau lupa mengakarkuadratkan s2s^2 sebelum menghitung SE. Shortcut: Rumus SSE = Syyβ^1SxyS_{yy} - \hat{\beta}_1 \cdot S_{xy} jauh lebih cepat daripada menghitung ei2\sum e_i^2 satu per satu. Hafal ini.


Soal C — Challenging

Dari studi klaim asuransi jiwa kumpulan, diperoleh data berikut untuk 8 perusahaan:

iixix_i (ribuan karyawan)YiY_i (total klaim, miliar Rp)
121.8
253.9
386.5
4129.2
51512.1
61814.8
72218.0
82520.5

(a) Hitung β^0\hat{\beta}_0, β^1\hat{\beta}_1, dan persamaan regresi. (b) Hitung SSE, s2s^2, dan SE(β^1\hat{\beta}_1). (c) Uji hipotesis H0:β1=0H_0: \beta_1 = 0 vs H1:β10H_1: \beta_1 \neq 0 pada α=0.05\alpha = 0.05. Nyatakan kesimpulan. (d) Prediksi total klaim untuk perusahaan dengan 10 ribu karyawan, dan berikan interpretasinya.

Solusi Soal C

Pendekatan: Bangun tabel komputasi untuk xi\sum x_i, Yi\sum Y_i, xi2\sum x_i^2, xiYi\sum x_iY_i, Yi2\sum Y_i^2 dalam satu langkah. Kemudian terapkan semua formula secara berurutan.

1. Identifikasi Variabel

  • n=8n = 8, df=6df = 6
  • xx: jumlah karyawan (ribuan); YY: total klaim (miliar Rp)
  • Data: (2,1.8),(5,3.9),(8,6.5),(12,9.2),(15,12.1),(18,14.8),(22,18.0),(25,20.5)(2,1.8), (5,3.9), (8,6.5), (12,9.2), (15,12.1), (18,14.8), (22,18.0), (25,20.5)

2. Identifikasi Model SLR: total klaim sebagai fungsi linear jumlah karyawan. Konteks: perusahaan dengan lebih banyak karyawan diasumsikan memiliki total klaim lebih tinggi secara proporsional.

3. Setup Persamaan

Tabel komputasi:

β^1=xiYinxˉYˉxi2nxˉ2,tstat=β^10SE(β^1)\hat{\beta}_1 = \frac{\sum x_i Y_i - n\bar{x}\bar{Y}}{\sum x_i^2 - n\bar{x}^2}, \quad t_{\text{stat}} = \frac{\hat{\beta}_1 - 0}{\text{SE}(\hat{\beta}_1)}

4. Eksekusi Aljabar

Hitung jumlahan:

xi=2+5+8+12+15+18+22+25=107\sum x_i = 2+5+8+12+15+18+22+25 = 107 Yi=1.8+3.9+6.5+9.2+12.1+14.8+18.0+20.5=86.8\sum Y_i = 1.8+3.9+6.5+9.2+12.1+14.8+18.0+20.5 = 86.8 xˉ=1078=13.375,Yˉ=86.88=10.85\bar{x} = \frac{107}{8} = 13.375, \quad \bar{Y} = \frac{86.8}{8} = 10.85 xi2=4+25+64+144+225+324+484+625=1895\sum x_i^2 = 4+25+64+144+225+324+484+625 = 1895 xiYi=3.6+19.5+52+110.4+181.5+266.4+396+512.5=1541.9\sum x_i Y_i = 3.6+19.5+52+110.4+181.5+266.4+396+512.5 = 1541.9 Yi2=3.24+15.21+42.25+84.64+146.41+219.04+324+420.25=1255.04\sum Y_i^2 = 3.24+15.21+42.25+84.64+146.41+219.04+324+420.25 = 1255.04

Sum of squares:

Sxx=18958(13.375)2=18951430.45=464.55S_{xx} = 1895 - 8(13.375)^2 = 1895 - 1430.45 = 464.55 Sxy=1541.98(13.375)(10.85)=1541.91161.35=380.55S_{xy} = 1541.9 - 8(13.375)(10.85) = 1541.9 - 1161.35 = 380.55 Syy=1255.048(10.85)2=1255.04941.78=313.26S_{yy} = 1255.04 - 8(10.85)^2 = 1255.04 - 941.78 = 313.26

(a) Koefisien:

β^1=380.55464.55=0.8191 miliar Rp per ribu karyawan\hat{\beta}_1 = \frac{380.55}{464.55} = 0.8191 \text{ miliar Rp per ribu karyawan} β^0=10.850.8191(13.375)=10.8510.955=0.105 miliar Rp\hat{\beta}_0 = 10.85 - 0.8191(13.375) = 10.85 - 10.955 = -0.105 \text{ miliar Rp}

Persamaan: Y^=0.105+0.8191x\hat{Y} = -0.105 + 0.8191x

(b) SSE dan s:

SSE=Syyβ^1Sxy=313.260.8191(380.55)=313.26311.73=1.53\text{SSE} = S_{yy} - \hat{\beta}_1 S_{xy} = 313.26 - 0.8191(380.55) = 313.26 - 311.73 = 1.53 s2=1.536=0.255,s=0.5050s^2 = \frac{1.53}{6} = 0.255, \quad s = 0.5050 SE(β^1)=0.5050464.55=0.505021.553=0.02343\text{SE}(\hat{\beta}_1) = \frac{0.5050}{\sqrt{464.55}} = \frac{0.5050}{21.553} = 0.02343

(c) Uji-tt:

tstat=0.81910.02343=34.96t_{\text{stat}} = \frac{0.8191}{0.02343} = 34.96

Nilai kritis t0.025,6=2.447t_{0.025, 6} = 2.447. Karena tstat=34.962.447|t_{\text{stat}}| = 34.96 \gg 2.447, tolak H0H_0. Slope signifikan secara statistik — jumlah karyawan merupakan prediktor yang signifikan untuk total klaim.

(d) Prediksi untuk x=10x^* = 10 ribu karyawan:

Y^(10)=0.105+0.8191(10)=0.105+8.191=8.086 miliar Rp\hat{Y}(10) = -0.105 + 0.8191(10) = -0.105 + 8.191 = 8.086 \text{ miliar Rp}

Interpretasi: perusahaan dengan 10.000 karyawan diprediksi akan memiliki total klaim asuransi jiwa sebesar Rp 8,086 miliar per tahun. Nilai x=10x^* = 10 berada dalam rentang data (2,25)(2, 25), sehingga prediksi ini merupakan interpolasi yang valid.

5. Verification Cek fitted value di sentroid: Y^(13.375)=0.105+0.8191(13.375)=10.85=Yˉ\hat{Y}(13.375) = -0.105 + 0.8191(13.375) = 10.85 = \bar{Y} ✓. SSE sangat kecil dibanding SyyS_{yy} (1.53 vs 313.26), artinya model menjelaskan hampir 99.5% variasi dalam YY — konsisten dengan tt-statistik yang sangat besar.

Hasil: β^1=0.8191\hat{\beta}_1 = 0.8191; β^0=0.105\hat{\beta}_0 = -0.105; SSE = 1.53; s=0.505s = 0.505; SE(β^1\hat{\beta}_1) = 0.02343; t=34.96tkritist = 34.96 \gg t_{kritis}, tolak H0H_0; prediksi 10 ribu karyawan = Rp 8.086 miliar.

Exam Tips — Soal C

Target waktu: 6 menit. Common trap: Rounding terlalu awal pada xˉ\bar{x} atau Yˉ\bar{Y} — error kecil di sini akan merambat ke seluruh perhitungan. Simpan desimal penuh sampai jawaban akhir. Shortcut: Hitung seluruh kolom tabel (xi2x_i^2, xiYix_iY_i, Yi2Y_i^2) secara paralel dalam satu ayunan, jangan bolak-balik. Untuk soal prediksi, selalu periksa apakah xx^* berada dalam rentang data (interpolasi valid) atau di luar (ekstrapolasi berisiko).


Section 5 — Verifikasi & Sanity Check

Cek 1 — Garis Regresi Melewati Sentroid

Selalu substitusikan xˉ\bar{x} ke persamaan regresi — hasilnya harus tepat Yˉ\bar{Y}:

Y^(xˉ)=β^0+β^1xˉ=(Yˉβ^1xˉ)+β^1xˉ=Yˉ\hat{Y}(\bar{x}) = \hat{\beta}_0 + \hat{\beta}_1\bar{x} = (\bar{Y} - \hat{\beta}_1\bar{x}) + \hat{\beta}_1\bar{x} = \bar{Y}

Jika tidak sama, ada kesalahan dalam menghitung β^0\hat{\beta}_0.

Cek 2 — SSE via Dua Rumus Berbeda

SSE dapat dihitung dua cara — hasilnya harus sama:

SSE=Syyβ^1Sxy=SyySxy2Sxx\text{SSE} = S_{yy} - \hat{\beta}_1 S_{xy} = S_{yy} - \frac{S_{xy}^2}{S_{xx}}

Cara kedua: SSE=Syy(1r2)\text{SSE} = S_{yy}(1 - r^2) di mana r=Sxy/SxxSyyr = S_{xy}/\sqrt{S_{xx}S_{yy}} adalah koefisien korelasi sampel. Jika r2r^2 mendekati 1, SSE mendekati 0 — fit sangat baik.

Cek 3 — Tanda Slope Konsisten dengan Scatter

Tanda β^1\hat{\beta}_1 harus konsisten dengan arah hubungan:

  • Jika Sxy>0S_{xy} > 0β^1>0\hat{\beta}_1 > 0 → hubungan positif (kedua variabel naik bersama)
  • Jika Sxy<0S_{xy} < 0β^1<0\hat{\beta}_1 < 0 → hubungan negatif (satu naik, lainnya turun)

SxxS_{xx} selalu positif, sehingga tanda β^1\hat{\beta}_1 selalu sama dengan tanda SxyS_{xy}.

Metode Alternatif — Menggunakan Koefisien Korelasi

Slope OLS dapat dinyatakan dalam bentuk korelasi dan standar deviasi:

β^1=rsYsx\hat{\beta}_1 = r \cdot \frac{s_Y}{s_x}

di mana r=Sxy/SxxSyyr = S_{xy}/\sqrt{S_{xx}S_{yy}}, sY=Syy/(n1)s_Y = \sqrt{S_{yy}/(n-1)}, sx=Sxx/(n1)s_x = \sqrt{S_{xx}/(n-1)}.

Ini berguna sebagai cross-check: jika soal memberikan rr, sYs_Y, sxs_x alih-alih Sxy,SxxS_{xy}, S_{xx}, gunakan rumus ini.


Section 6 — Visualisasi Mental

Scatter Plot dan Garis Regresi OLS:

Y (respon)
|                                      ● (x5, Y5)
|                              ●
|                      ●       ← residual e_i = Y_i - Ŷ_i
|              ●  ····/·····················  garis regresi: Ŷ = β̂₀ + β̂₁x
|      ●  ····/
|  ···/    ← intercept β̂₀ (nilai Ŷ saat x=0)
|··/
+-----|-----|-----|-----|------ x (prediktor)
     x1    x2   x3    x4    x5

titik ● = data aktual (x_i, Y_i)
garis ···· = fitted line OLS
jarak vertikal tiap titik ke garis = residual e_i
OLS meminimalkan ∑ e_i²

Interpretasi Geometris:

  • Sumbu X: variabel prediktor xx (kontinu)
  • Sumbu Y: variabel respon YY (kontinu, acak)
  • Garis regresi: miringan β^1\hat{\beta}_1, berpotongan sumbu Y di β^0\hat{\beta}_0
  • Residual eie_i: jarak vertikal (bukan tegak lurus) dari titik ke garis
  • Sentroid (xˉ,Yˉ)(\bar{x}, \bar{Y}): garis selalu melewati titik ini
  • Semakin kecil dispersi residual, semakin baik fit model

Hubungan Visual ↔ Rumus

Elemen VisualKomponen Rumus
Kemiringan garisβ^1=Sxy/Sxx\hat{\beta}_1 = S_{xy}/S_{xx}
Titik potong sumbu Yβ^0=Yˉβ^1xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{x}
Jarak vertikal tiap titik ke garisResidual ei=YiY^ie_i = Y_i - \hat{Y}_i
Total panjang kuadrat residualSSE = ei2\sum e_i^2 yang diminimalkan OLS
Titik sentroid data(xˉ,Yˉ)(\bar{x}, \bar{Y}) — garis selalu melewati sini
Dispersi data sekitar gariss=MSEs = \sqrt{\text{MSE}} — standar deviasi residual

Section 7 — Jebakan Umum

Kesalahan Parametrisasi — Pembagi SSE dan Derajat Bebas

Salah: s2=SSE/(n1)s^2 = \text{SSE}/(n-1) — menggunakan n1n-1 seperti varians sampel biasa. Benar: s2=SSE/(n2)s^2 = \text{SSE}/(n-2) — dua parameter (β0\beta_0 dan β1\beta_1) telah diestimasi. Ingat: Derajat bebas error = nn (jumlah obs) - pp (jumlah parameter termasuk intercept). Untuk SLR: p=2p = 2, sehingga dferror=n2df_{\text{error}} = n - 2.

Kesalahan Konseptual — Empat Miskonsepsi Khas
  1. “Regresi menunjukkan kausalitas” — SALAH. Regresi hanya menunjukkan asosiasi/korelasi. β^10\hat{\beta}_1 \neq 0 tidak berarti xx menyebabkan perubahan YY; diperlukan desain eksperimen atau argumen kausal eksternal.
  2. “Intercept selalu bermakna” — SALAH. Jika x=0x = 0 tidak masuk akal dalam konteks (xx = usia tidak mungkin 0 dalam data aktual), maka β^0\hat{\beta}_0 adalah ekstrapolasi tanpa interpretasi praktis.
  3. “Garis regresi YY pada xx = garis regresi xx pada YY — SALAH. Keduanya berbeda kecuali r2=1r^2 = 1. Regresi xx pada YY meminimalkan horizontal (bukan vertikal) squares.
  4. “SE(β^1\hat{\beta}_1) kecil berarti model bagus” — TIDAK SELALU. SE kecil bisa karena SxxS_{xx} besar (variasi xx lebar), bukan karena fit yang baik. Gunakan R2R^2 atau residual plot untuk menilai kualitas fit.
Kesalahan Interpretasi Soal
  • “Predict YY for x=...x^* = ... — cek apakah xx^* dalam rentang data. Jika di luar, tuliskan peringatan ekstrapolasi.
  • “Estimate the mean response” vs “predict a single observation” — keduanya menggunakan Y^(x)\hat{Y}(x^*) yang sama, tetapi interval kepercayaan untuk prediksi individu lebih lebar (tambah komponen s2s^2).
  • “Test whether xx is a significant predictor” = uji H0:β1=0H_0: \beta_1 = 0 menggunakan tt-statistik, bukan FF-test (keduanya ekuivalen untuk SLR, tetapi soal TA1 biasanya minta tt-test).
  • “Given xi=...\sum x_i = ..., xi2=...\sum x_i^2 = ... — langsung hitung xˉ\bar{x} dan SxxS_{xx} dari sini, jangan reka-reka.
Red Flags — Trigger Prosedur Khusus
  • Soal menyebut “confidence interval for slope” → gunakan tn2t_{n-2}, bukan zz
  • Soal menyebut “test H0:β1=cH_0: \beta_1 = c (bukan c=0c=0) → tstat=(β^1c)/SE(β^1)t_{\text{stat}} = (\hat{\beta}_1 - c)/\text{SE}(\hat{\beta}_1)
  • Soal memberikan rr (koefisien korelasi) dan meminta slope → gunakan β^1=rsY/sx\hat{\beta}_1 = r \cdot s_Y/s_x
  • Soal menyebut “predict for x=...x^* = ... yang jauh dari data → wajib tulis peringatan ekstrapolasi
  • Soal memberikan summary statistics saja (tanpa data mentah) → langsung pakai SxxS_{xx}, SxyS_{xy}, SyyS_{yy} tanpa perlu tabel

Section 8 — Ringkasan Eksekutif

Must-Remember
  1. Estimator slope OLS: β^1=SxySxx=xiYinxˉYˉxi2nxˉ2\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum x_i Y_i - n\bar{x}\bar{Y}}{\sum x_i^2 - n\bar{x}^2}

  2. Estimator intercept OLS — garis melewati sentroid: β^0=Yˉβ^1xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{x}

  3. SSE via sufficient statistics (rumus cepat): SSE=Syyβ^1Sxy=SyySxy2Sxx\text{SSE} = S_{yy} - \hat{\beta}_1 S_{xy} = S_{yy} - \frac{S_{xy}^2}{S_{xx}}

  4. MSE dan SE slope: s2=SSEn2,SE(β^1)=sSxxs^2 = \frac{\text{SSE}}{n-2}, \qquad \text{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}}

  5. Uji-tt untuk slope dan interval kepercayaan: tstat=β^1SE(β^1)tn2(di bawah H0:β1=0)t_{\text{stat}} = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} \sim t_{n-2} \quad \text{(di bawah } H_0: \beta_1 = 0\text{)} CI1α:β^1±tα/2,n2SE(β^1)\text{CI}_{1-\alpha}: \hat{\beta}_1 \pm t_{\alpha/2,\, n-2} \cdot \text{SE}(\hat{\beta}_1)

Kapan Digunakan

  • Ada satu variabel prediktor kontinu (xx) dan satu variabel respon kontinu (YY)
  • Soal meminta estimasi slope/intercept, uji signifikansi β1\beta_1, atau prediksi YY untuk xx tertentu
  • Data tersedia dalam bentuk mentah atau ringkasan sufficient statistics (xi\sum x_i, Yi\sum Y_i, xi2\sum x_i^2, xiYi\sum x_iY_i, Yi2\sum Y_i^2)
  • Konteks aktuaria: pemodelan klaim vs usia, premi vs nilai pertanggungan, frekuensi klaim vs eksposur

Kapan TIDAK Boleh Digunakan

Quick Decision Tree

graph TD
    A["Ada data X dan Y kontinu"] --> B{"Berapa prediktor?"}
    B -->|"Satu prediktor"| C["Simple Linear Regression"]
    B -->|"Lebih dari satu"| D["Gunakan Multiple Regression<br>(Topik 3.3)"]
    C --> E{"Data tersedia?"}
    E -->|"Data mentah"| F["Buat tabel komputasi:<br>hitung sum x, sum Y,<br>sum x2, sum xY, sum Y2"]
    E -->|"Summary statistics"| G["Langsung hitung<br>Sxx, Sxy, Syy"]
    F --> H["Hitung Sxx = sum x2 - n*xbar^2<br>Sxy = sum xY - n*xbar*Ybar"]
    G --> H
    H --> I["beta1_hat = Sxy / Sxx<br>beta0_hat = Ybar - beta1_hat * xbar"]
    I --> J{"Perlu inferensial?"}
    J -->|"Ya"| K["SSE = Syy - beta1_hat * Sxy<br>s2 = SSE / (n-2)<br>SE(beta1) = s / sqrt(Sxx)"]
    J -->|"Hanya prediksi"| L["Yhat(x*) = beta0_hat + beta1_hat * x*<br>Cek: x* dalam rentang data?"]
    K --> M["t-stat = beta1_hat / SE(beta1)<br>Bandingkan dengan t(alpha/2, n-2)"]
    M --> N{"Tolak H0?"}
    N -->|"|t| > t_kritis"| O["Tolak H0: beta1 sig. berbeda dari 0"]
    N -->|"|t| <= t_kritis"| P["Gagal tolak H0:<br>x bukan prediktor signifikan"]

Follow-up Options
  1. “Berikan contoh soal variasi 3.2 Simple Linear Regression dengan transformasi logaritmik”
  2. “Jelaskan hubungan 3.2 Simple Linear Regression dengan 3.3 Multiple Linear Regression Interpretation
  3. “Buat flashcard 1-halaman untuk topik ini”

📖 Ref: Frees (2010) Bab 1–3 | 🗓️ 2026-04-19 | #TA1 #SimpleLinearRegression #OLS