Simple Linear Regression
📊 3.2 — Simple Linear Regression
Ringkasan Cepat›
Topik: Simple Linear Regression | Bobot: ~20–25% | Difficulty: Calculation-Intensive Ref: Frees (2010) Bab 1–3 | Prereq: 3.1 Explanatory and Response Variables
Section 0 — Pemetaan Topik
| Topik TA1 | Sub-topik ID | Skill Diuji | Bobot | Difficulty | Prerequisite | Connected Topics | Referensi |
|---|---|---|---|---|---|---|---|
| Analisis Regresi | 3.2 | Menghitung estimasi OLS untuk slope dan intercept ; interpretasi koefisien; interval kepercayaan | 20–25% | Calculation-Intensive | 3.1 Explanatory and Response Variables | 3.3 Multiple Linear Regression Interpretation, 3.4 Residual Analysis and Model Validation, 3.5 Variable Selection Criteria | Frees (2010) Bab 1–3 |
Section 1 — Intuisi
Bayangkan seorang aktuaris di perusahaan asuransi umum sedang diminta manajemen untuk menjelaskan mengapa premi asuransi kendaraan bervariasi antar nasabah. Dari jutaan data historis, terlihat jelas bahwa nasabah yang lebih tua cenderung mengajukan klaim lebih sedikit, dan nasabah dengan nilai kendaraan lebih tinggi cenderung mengajukan klaim lebih besar. Pertanyaannya: berapa tepatnya kenaikan premi yang wajar untuk setiap kenaikan satu juta rupiah nilai kendaraan? Tanpa alat statistik yang tepat, jawaban ini hanya opini — dengan regresi linier sederhana, jawabannya menjadi angka yang dapat dipertahankan secara ilmiah.
Regresi linier sederhana adalah cara paling elegan untuk meringkas hubungan antara dua variabel numerik menjadi sebuah garis lurus. Idenya sangat sederhana: dari sekumpulan titik data yang tersebar, kita cari garis yang “paling dekat” dengan semua titik tersebut secara bersamaan. “Paling dekat” didefinisikan dengan cara yang cerdas — bukan jarak biasa, melainkan meminimalkan kuadrat selisih vertikal antara titik data dan garis. Inilah yang disebut metode Ordinary Least Squares (OLS), dan hasilnya adalah dua angka sederhana: kemiringan (slope) dan titik potong (intercept) garis terbaik tersebut.
Yang membuat regresi linier sederhana sangat berguna dalam aktuaria adalah kemampuannya untuk memberikan jawaban yang dapat ditindaklanjuti. Slope memberitahu kita: “Untuk setiap kenaikan satu unit pada variabel penjelas, berapa rata-rata perubahan pada variabel respon?” Jawaban ini — jika asumsi modelnya terpenuhi — bukan sekadar korelasi, melainkan sebuah hubungan kuantitatif yang dapat digunakan untuk proyeksi, penetapan premi, dan pengambilan keputusan bisnis berbasis data.
Section 2 — Definisi Formal
Definisi Matematis — Model Regresi Linier Sederhana›
Model populasi regresi linier sederhana dinyatakan sebagai:
di mana . Model ini menyatakan bahwa nilai respon adalah fungsi linier deterministik dari ditambah komponen acak (error) .
Tabel Variabel & Parameter
| Simbol | Makna | Catatan |
|---|---|---|
| Variabel respon (dependen) untuk observasi ke- | Variabel acak | |
| Variabel prediktor (independen/penjelas) untuk observasi ke- | Dianggap non-stokastik (tetap) | |
| Intercept populasi — nilai ekspektasi ketika | Parameter tidak diketahui | |
| Slope populasi — perubahan rata-rata per unit kenaikan | Parameter tidak diketahui | |
| Error acak (residual populasi) | , | |
| Estimator OLS untuk intercept | Dihitung dari data sampel | |
| Estimator OLS untuk slope | Dihitung dari data sampel | |
| Nilai fitted (prediksi) untuk observasi ke- | ||
| Residual sampel | ||
| Rata-rata sampel dari dan | , | |
| Sum of squares untuk | ||
| Sum of cross-products | ||
| Sum of squares untuk | ||
| Varians error populasi | Diestimasi oleh | |
| Jumlah observasi | — |
Rumus Utama
1. Estimator OLS — Slope:
Label: Slope OLS = kovarians sampel () dibagi varians sampel (). Mengukur sensitivitas rata-rata terhadap perubahan .
2. Estimator OLS — Intercept:
Label: Garis regresi selalu melewati titik . Intercept adalah implikasi dari constraint ini.
3. Sum of Squares — Definisi Ringkas:
Label: Rumus komputasi yang menghindari rounding error — selalu gunakan ini saat menghitung dengan kalkulator.
4. Mean Square Error (estimator ):
Label: Dibagi (bukan ) karena dua parameter () diestimasi. SSE = .
5. Standard Error Estimator Slope:
Label: Presisi estimasi slope meningkat jika: kecil (data tidak terlalu tersebar) atau besar (variasi lebar).
6. Standard Error Estimator Intercept:
Label: SE intercept bergantung pada — semakin jauh dari nol, semakin besar ketidakpastian intercept.
7. Interval Kepercayaan untuk (dan ):
Label: Distribusi- dengan derajat bebas. Untuk besar, (95%).
8. Nilai Fitted dan Residual:
Label: Residual adalah estimasi dari error . Selalu berlaku dan .
Asumsi Eksplisit
- Linearitas: Hubungan antara dan adalah linear: .
- Independensi: Error saling independen satu sama lain (tidak ada autokorelasi).
- Homoskedastisitas: Varians error konstan untuk semua nilai : (tidak bergantung pada ).
- Normalitas: — diperlukan untuk inferensial (uji-, interval kepercayaan).
- Prediktor non-stokastik (atau fixed): Nilai dianggap tetap (bukan variabel acak), atau jika acak, independen dari .
Section 3 — Jembatan Logika
Dari Definisi ke Rumus›
Mengapa kita meminimalkan kuadrat residual, bukan nilai absolutnya? Ada tiga alasan kuat: (1) fungsi kuadrat mudah didiferensialkan — solusi analitik tertutup (closed-form) tersedia; (2) kuadrat memberi penalti lebih besar pada residual besar, sehingga estimator sensitif terhadap outlier (yang justru penting untuk dideteksi); (3) dalam kondisi asumsi normalitas, estimator OLS identik dengan estimator MLE — OLS dan MLE memberikan jawaban yang sama. Dua persamaan normal yang diturunkan dari kondisi first-order OLS secara langsung menghasilkan formula dan .
Constraint Geometri Garis Regresi›
Garis regresi OLS selalu melewati titik sentroid data . Ini bukan kebetulan — ini adalah konsekuensi langsung dari persamaan normal pertama: . Implikasinya: jika kita tahu dan mengetahui , maka terdefinisi secara unik. Dalam soal ujian, ini sering digunakan sebagai shortcut: “garis regresi melewati (), jadi substitusi untuk cek jawaban”.
Derivasi Step-by-Step: Estimator OLS dari Minimisasi SSE
Langkah 1 — Definisi Fungsi Objektif
Kita ingin meminimalkan Sum of Squared Errors (SSE) terhadap parameter dan :
Langkah 2 — Kondisi First-Order: Turunan terhadap
Sederhanakan:
Langkah 3 — Kondisi First-Order: Turunan terhadap
Sederhanakan:
Langkah 4 — Eliminasi
Dari Persamaan Normal 1: .
Substitusikan ke Persamaan Normal 2:
Langkah 5 — Sederhanakan ke Bentuk
Perhatikan:
Maka:
dan secara otomatis:
Langkah 6 — Verifikasi Sifat OLS
Estimator OLS memiliki dua properti penting yang dapat diverifikasi:
- (residual berjumlah nol)
- (residual orthogonal terhadap prediktor)
Kedua properti ini adalah konsekuensi langsung dari dua persamaan normal di atas.
Dilarang›
- Jangan membalik peran dan dalam rumus: , bukan . Regresi pada berbeda dari regresi pada — keduanya menghasilkan garis yang berbeda kecuali .
- Jangan menggunakan sebagai pembagi MSE — pembaginya adalah karena dua parameter () telah diestimasi dari data, sehingga hanya derajat bebas yang tersisa untuk estimasi .
- Jangan menginterpretasikan sebagai “nilai ketika tidak ada ” secara sembarangan — intercept hanya bermakna secara praktis jika berada dalam atau dekat dengan rentang data. Ekstrapolasi jauh dari rentang data sangat berbahaya.
Section 4 — Contoh Soal
Soal A — Fundamental
Seorang aktuaris mengumpulkan data berikut untuk 5 polis asuransi jiwa, di mana = usia tertanggung (tahun) dan = premi tahunan (juta rupiah):
| 1 | 25 | 3.2 |
| 2 | 35 | 4.8 |
| 3 | 45 | 6.1 |
| 4 | 55 | 7.9 |
| 5 | 65 | 9.5 |
Hitung estimator OLS dan , lalu nyatakan persamaan garis regresi.
Solusi Soal A›
Pendekatan: Hitung , , , menggunakan rumus komputasi, lalu terapkan formula OLS langsung.
1. Identifikasi Variabel
- : usia tertanggung; : premi tahunan (juta Rp)
- Data:
2. Identifikasi Model Regresi linier sederhana: . Variabel prediktor = usia (kontinu, tetap), variabel respon = premi (kontinu, acak).
3. Setup Persamaan
4. Eksekusi Aljabar
Hitung mean:
Hitung jumlahan:
Hitung sum of squares:
Estimator OLS:
5. Verification Cek: garis melewati : ✓. Interpretasi slope: setiap kenaikan 1 tahun usia, premi rata-rata naik Rp 157.000.
Hasil: ; ; Persamaan regresi: .
Exam Tips — Soal A›
Target waktu: 3 menit. Common trap: Menghitung satu per satu alih-alih rumus komputasi — keduanya sama hasilnya, tapi rumus komputasi jauh lebih cepat. Shortcut: Selalu hitung , , , dalam satu tabel, lalu terapkan rumus sekaligus.
Soal B — Exam-Typical
Dari data 20 polis asuransi kendaraan bermotor, diperoleh ringkasan statistik berikut:
(a) Hitung , , dan SSE. (b) Hitung (MSE) dan . (c) Hitung interval kepercayaan 95% untuk .
Solusi Soal B›
Pendekatan: Data sudah dalam bentuk ringkasan (sufficient statistics). Terapkan formula langsung menggunakan , , . Untuk CI, gunakan distribusi- dengan .
1. Identifikasi Variabel
- ,
- juta Rp (nilai kendaraan), juta Rp (premi)
- , ,
2. Identifikasi Model SLR: premi () sebagai fungsi linear nilai kendaraan (). Data ringkasan sufficient untuk semua kalkulasi.
3. Setup Persamaan
4. Eksekusi Aljabar
(a) Koefisien regresi:
(b) Estimasi varians dan SE slope:
(c) Interval kepercayaan 95% untuk , :
Nilai kritis: (dari tabel-).
5. Verification CI tidak mencakup 0, sehingga signifikan berbeda dari nol pada tingkat 5% — sesuai ekspektasi bahwa nilai kendaraan mempengaruhi premi. Lebar CI () relatif sempit dibanding , menunjukkan estimasi cukup presisi.
Hasil: ; ; SSE = 12; ; SE() = 0.003727; CI 95%: .
Exam Tips — Soal B›
Target waktu: 4 menit. Common trap: Menggunakan untuk tabel-, atau lupa mengakarkuadratkan sebelum menghitung SE. Shortcut: Rumus SSE = jauh lebih cepat daripada menghitung satu per satu. Hafal ini.
Soal C — Challenging
Dari studi klaim asuransi jiwa kumpulan, diperoleh data berikut untuk 8 perusahaan:
| (ribuan karyawan) | (total klaim, miliar Rp) | |
|---|---|---|
| 1 | 2 | 1.8 |
| 2 | 5 | 3.9 |
| 3 | 8 | 6.5 |
| 4 | 12 | 9.2 |
| 5 | 15 | 12.1 |
| 6 | 18 | 14.8 |
| 7 | 22 | 18.0 |
| 8 | 25 | 20.5 |
(a) Hitung , , dan persamaan regresi. (b) Hitung SSE, , dan SE(). (c) Uji hipotesis vs pada . Nyatakan kesimpulan. (d) Prediksi total klaim untuk perusahaan dengan 10 ribu karyawan, dan berikan interpretasinya.
Solusi Soal C›
Pendekatan: Bangun tabel komputasi untuk , , , , dalam satu langkah. Kemudian terapkan semua formula secara berurutan.
1. Identifikasi Variabel
- ,
- : jumlah karyawan (ribuan); : total klaim (miliar Rp)
- Data:
2. Identifikasi Model SLR: total klaim sebagai fungsi linear jumlah karyawan. Konteks: perusahaan dengan lebih banyak karyawan diasumsikan memiliki total klaim lebih tinggi secara proporsional.
3. Setup Persamaan
Tabel komputasi:
4. Eksekusi Aljabar
Hitung jumlahan:
Sum of squares:
(a) Koefisien:
Persamaan:
(b) SSE dan s:
(c) Uji-:
Nilai kritis . Karena , tolak . Slope signifikan secara statistik — jumlah karyawan merupakan prediktor yang signifikan untuk total klaim.
(d) Prediksi untuk ribu karyawan:
Interpretasi: perusahaan dengan 10.000 karyawan diprediksi akan memiliki total klaim asuransi jiwa sebesar Rp 8,086 miliar per tahun. Nilai berada dalam rentang data , sehingga prediksi ini merupakan interpolasi yang valid.
5. Verification Cek fitted value di sentroid: ✓. SSE sangat kecil dibanding (1.53 vs 313.26), artinya model menjelaskan hampir 99.5% variasi dalam — konsisten dengan -statistik yang sangat besar.
Hasil: ; ; SSE = 1.53; ; SE() = 0.02343; , tolak ; prediksi 10 ribu karyawan = Rp 8.086 miliar.
Exam Tips — Soal C›
Target waktu: 6 menit. Common trap: Rounding terlalu awal pada atau — error kecil di sini akan merambat ke seluruh perhitungan. Simpan desimal penuh sampai jawaban akhir. Shortcut: Hitung seluruh kolom tabel (, , ) secara paralel dalam satu ayunan, jangan bolak-balik. Untuk soal prediksi, selalu periksa apakah berada dalam rentang data (interpolasi valid) atau di luar (ekstrapolasi berisiko).
Section 5 — Verifikasi & Sanity Check
Cek 1 — Garis Regresi Melewati Sentroid›
Selalu substitusikan ke persamaan regresi — hasilnya harus tepat :
Jika tidak sama, ada kesalahan dalam menghitung .
Cek 2 — SSE via Dua Rumus Berbeda›
SSE dapat dihitung dua cara — hasilnya harus sama:
Cara kedua: di mana adalah koefisien korelasi sampel. Jika mendekati 1, SSE mendekati 0 — fit sangat baik.
Cek 3 — Tanda Slope Konsisten dengan Scatter›
Tanda harus konsisten dengan arah hubungan:
- Jika → → hubungan positif (kedua variabel naik bersama)
- Jika → → hubungan negatif (satu naik, lainnya turun)
selalu positif, sehingga tanda selalu sama dengan tanda .
Metode Alternatif — Menggunakan Koefisien Korelasi
Slope OLS dapat dinyatakan dalam bentuk korelasi dan standar deviasi:
di mana , , .
Ini berguna sebagai cross-check: jika soal memberikan , , alih-alih , gunakan rumus ini.
Section 6 — Visualisasi Mental
Scatter Plot dan Garis Regresi OLS:
Y (respon)
| ● (x5, Y5)
| ●
| ● ← residual e_i = Y_i - Ŷ_i
| ● ····/····················· garis regresi: Ŷ = β̂₀ + β̂₁x
| ● ····/
| ···/ ← intercept β̂₀ (nilai Ŷ saat x=0)
|··/
+-----|-----|-----|-----|------ x (prediktor)
x1 x2 x3 x4 x5
titik ● = data aktual (x_i, Y_i)
garis ···· = fitted line OLS
jarak vertikal tiap titik ke garis = residual e_i
OLS meminimalkan ∑ e_i²
Interpretasi Geometris:
- Sumbu X: variabel prediktor (kontinu)
- Sumbu Y: variabel respon (kontinu, acak)
- Garis regresi: miringan , berpotongan sumbu Y di
- Residual : jarak vertikal (bukan tegak lurus) dari titik ke garis
- Sentroid : garis selalu melewati titik ini
- Semakin kecil dispersi residual, semakin baik fit model
Hubungan Visual ↔ Rumus
| Elemen Visual | Komponen Rumus |
|---|---|
| Kemiringan garis | |
| Titik potong sumbu Y | |
| Jarak vertikal tiap titik ke garis | Residual |
| Total panjang kuadrat residual | SSE = yang diminimalkan OLS |
| Titik sentroid data | — garis selalu melewati sini |
| Dispersi data sekitar garis | — standar deviasi residual |
Section 7 — Jebakan Umum
Kesalahan Parametrisasi — Pembagi SSE dan Derajat Bebas›
Salah: — menggunakan seperti varians sampel biasa. Benar: — dua parameter ( dan ) telah diestimasi. Ingat: Derajat bebas error = (jumlah obs) (jumlah parameter termasuk intercept). Untuk SLR: , sehingga .
Kesalahan Konseptual — Empat Miskonsepsi Khas›
- “Regresi menunjukkan kausalitas” — SALAH. Regresi hanya menunjukkan asosiasi/korelasi. tidak berarti menyebabkan perubahan ; diperlukan desain eksperimen atau argumen kausal eksternal.
- “Intercept selalu bermakna” — SALAH. Jika tidak masuk akal dalam konteks ( = usia tidak mungkin 0 dalam data aktual), maka adalah ekstrapolasi tanpa interpretasi praktis.
- “Garis regresi pada = garis regresi pada ” — SALAH. Keduanya berbeda kecuali . Regresi pada meminimalkan horizontal (bukan vertikal) squares.
- “SE() kecil berarti model bagus” — TIDAK SELALU. SE kecil bisa karena besar (variasi lebar), bukan karena fit yang baik. Gunakan atau residual plot untuk menilai kualitas fit.
Kesalahan Interpretasi Soal›
- “Predict for ” — cek apakah dalam rentang data. Jika di luar, tuliskan peringatan ekstrapolasi.
- “Estimate the mean response” vs “predict a single observation” — keduanya menggunakan yang sama, tetapi interval kepercayaan untuk prediksi individu lebih lebar (tambah komponen ).
- “Test whether is a significant predictor” = uji menggunakan -statistik, bukan -test (keduanya ekuivalen untuk SLR, tetapi soal TA1 biasanya minta -test).
- “Given , ” — langsung hitung dan dari sini, jangan reka-reka.
Red Flags — Trigger Prosedur Khusus›
- Soal menyebut “confidence interval for slope” → gunakan , bukan
- Soal menyebut “test ” (bukan ) →
- Soal memberikan (koefisien korelasi) dan meminta slope → gunakan
- Soal menyebut “predict for ” yang jauh dari data → wajib tulis peringatan ekstrapolasi
- Soal memberikan summary statistics saja (tanpa data mentah) → langsung pakai , , tanpa perlu tabel
Section 8 — Ringkasan Eksekutif
Must-Remember›
-
Estimator slope OLS:
-
Estimator intercept OLS — garis melewati sentroid:
-
SSE via sufficient statistics (rumus cepat):
-
MSE dan SE slope:
-
Uji- untuk slope dan interval kepercayaan:
Kapan Digunakan
- Ada satu variabel prediktor kontinu () dan satu variabel respon kontinu ()
- Soal meminta estimasi slope/intercept, uji signifikansi , atau prediksi untuk tertentu
- Data tersedia dalam bentuk mentah atau ringkasan sufficient statistics (, , , , )
- Konteks aktuaria: pemodelan klaim vs usia, premi vs nilai pertanggungan, frekuensi klaim vs eksposur
Kapan TIDAK Boleh Digunakan
- Ada lebih dari satu prediktor → gunakan 3.3 Multiple Linear Regression Interpretation
- Variabel respon biner atau cacahan → pertimbangkan 4.2 GLM Concepts and Link Functions (logistik/Poisson regression)
- Hubungan dan jelas non-linear (kurva parabolik, eksponensial) tanpa transformasi terlebih dahulu
- Residual menunjukkan pola sistematis atau heteroskedastisitas → lihat 3.4 Residual Analysis and Model Validation
Quick Decision Tree
graph TD
A["Ada data X dan Y kontinu"] --> B{"Berapa prediktor?"}
B -->|"Satu prediktor"| C["Simple Linear Regression"]
B -->|"Lebih dari satu"| D["Gunakan Multiple Regression<br>(Topik 3.3)"]
C --> E{"Data tersedia?"}
E -->|"Data mentah"| F["Buat tabel komputasi:<br>hitung sum x, sum Y,<br>sum x2, sum xY, sum Y2"]
E -->|"Summary statistics"| G["Langsung hitung<br>Sxx, Sxy, Syy"]
F --> H["Hitung Sxx = sum x2 - n*xbar^2<br>Sxy = sum xY - n*xbar*Ybar"]
G --> H
H --> I["beta1_hat = Sxy / Sxx<br>beta0_hat = Ybar - beta1_hat * xbar"]
I --> J{"Perlu inferensial?"}
J -->|"Ya"| K["SSE = Syy - beta1_hat * Sxy<br>s2 = SSE / (n-2)<br>SE(beta1) = s / sqrt(Sxx)"]
J -->|"Hanya prediksi"| L["Yhat(x*) = beta0_hat + beta1_hat * x*<br>Cek: x* dalam rentang data?"]
K --> M["t-stat = beta1_hat / SE(beta1)<br>Bandingkan dengan t(alpha/2, n-2)"]
M --> N{"Tolak H0?"}
N -->|"|t| > t_kritis"| O["Tolak H0: beta1 sig. berbeda dari 0"]
N -->|"|t| <= t_kritis"| P["Gagal tolak H0:<br>x bukan prediktor signifikan"]
Follow-up Options›
- “Berikan contoh soal variasi 3.2 Simple Linear Regression dengan transformasi logaritmik”
- “Jelaskan hubungan 3.2 Simple Linear Regression dengan 3.3 Multiple Linear Regression Interpretation”
- “Buat flashcard 1-halaman untuk topik ini”
📖 Ref: Frees (2010) Bab 1–3 | 🗓️ 2026-04-19 | #TA1 #SimpleLinearRegression #OLS