Analisis Data Pengguna Asuransi Kesehatan Personal

Ahmad Irfan Luthfi
8 min readDec 3, 2022

(NOTE: Analisis ini dilakukan dalam waktu 1 hari karena beberapa hal, jadi memang masih terlalu simpel)

Layanan asuransi kesehatan adalah salah satu produk asuransi yang dinilai penting dan bermanfaat bagi masyarakat banyak, dimana asuransi kesehatan dapat memberikan jaminan kesehatan atas rawat inap, rawat jalan, pengobatan, dan hal lainnya yang dijamin dalam polis (OJK, Buku Perasuransian seri Peguruan Tinggi).

Salah satu kebiasaan yang mempengaruhi tingkat kesehatan seseorang adalah merokok, dimana GATS menunjukan total jumlah perokok di Indonesia pada 2021 selama survei dilakukan sebanyak 70 juta atau 34,5 persen dari total keseluruhan penduduk (CNN).

Biaya asuransi juga ditentukan oleh berbagai jenis faktor, salah satunya adalah apakah orang tersebut merupakan perokok atau tidak (Sequis). Maka, dibutuhkan analisis terkait data pengguna asuransi terkait apakah perokok benar mempunyai tagihan asuransi yang lebih besar dibandingkan dengan non-perokok.

Dataset

Dataset yang digunakan adalah dataset tagihan kesehatan dengan 1338 baris data yang mempunyai kolom:

  • Umur
  • Jenis kelamin
  • Nilai Body Mass Index (BMI)
  • Banyak anak tertanggung asuransi
  • Merokok atau tidak
  • Nominal tagihan pengguna

Karena untuk kolom nominal tidak ada keterangan lebih, maka diasumsikan bahwa nilai pada kolom ini adalah nilai tagihan per periode (misal: per-bulan) pada mata uang yang seragam (misal: USD($)).

Analisis Deskriptif Statistik

Dengan melakukan analisis statistik menggunakan Python dan berbagai library, didapatkan beberapa informasi:

  • Rata-rata tagihan asuransi yang merokok ($32050) jauh lebih besar dibandingkan dengan yang tidak merokok ($8434).
  • Rata-rata tagihan asuransi untuk pengguna overweight dan obese (BMI>25) ($13946) lebih besar dibandingkan dengan pengguna yang nilai ($10284).
  • Rata-rata BMI pengguna asuransi baik laki-laki dan perempuan termasuk ke kategori obese (BMI>30) (laki-laki: 30.94, perempuan: 30.38).
  • Rata-rata BMI dari pengguna asuransi yang merokok atau tidak hampir sama (30.71 dan 30.65).

Analisis Variabel Kategorik

Dengan melakukan analisis statistik menggunakan Python dan berbagai library, didapatkan beberapa informasi:

  • Dari 50 orang dengan tagihan tertinggi, 58%-nya adalah laki-laki.
  • Distribusi dari tagihan pada tiap daerah (SW, SE, NW dan NE) sejenis.
  • Banyak pengguna asuransi pada tiap daerah hampir sama (SE: 364, SW:325, NW:325, NE:324).
  • Dari 1338 pengguna asuransi yang ada di data, 274 nya adalah perokok. Hal ini menunjukkan bahwa dari sampel tersebut, mayoritas pengguna asuransi adalah yang tidak merokok.
  • 41.97% perokok dari dataset tersebut adalah perempuan.

Analisa Variabel Kontinu

25% dari tagihan asuransi di dataset bernilai lebih dari $16700. Angka ini dapat dijadikan patokan terkait tinggi tidaknya nilai tagihan asuransi, sehingga untuk tagihan asuransi yang lebih dari $16700 di anggap tinggi. Asumsi ini dapat membantu kita untuk mendapatkan dua pertanyaan:

  • Apakah lebih mungkin pengguna yang overweight/obese untuk mendapatkan tagihan yang tinggi dibandingkan dengan pengguna dengan BMI normal?
  • Apakah lebih mungkin pengguna overweight/obese yang merokok untuk mendapatkan tagihan yang tinggi dibandingkan dengan pengguna overweight/obese yang tidak merokok?

Kedua pertanyaan ini dapat dijawab dengan menggunakan Bayes Theorem. Secara singkat, Bayes Theorem adalah suatu teori yang mendeskripsikan peluang/probability suatu event berdasarkan informasi terdahulu mengenai kondisi yang mempengaruhi event tersebut.

P(A|B) pada Bayes Theorem berarti peluang terjadinya A jika diketahui B terjadi. Untuk kasus pertanyaan pertama diatas, maka kasus ini A adalah mendapatkan tagihan yang tinggi, B adalah pengguna overweight/obese. Dengan membandingkan nilai P(A|B) dan P(A|~B), maka kita dapat menjawab kedua pertanyaan diatas.

  • Apakah lebih mungkin pengguna yang overweight/obese untuk mendapatkan tagihan yang tinggi dibandingkan dengan pengguna dengan BMI normal?

Setelah melakukan perhitungan pada dataset menggunakan Python, didapatkan bahwa (dengan A adalah mendapatkan tagihan yang tinggi dan B adalah pengguna overweight/obese):

  • P(A|B) = 0.2594
  • P(A|~B) = 0.2082

Dengan melihat kedua nilai peluang diatas, didapatkan kesimpulan bahwa pengguna yang overweight/obese lebih mungkin mendapatkan tagihan yang tinggi dibandingkan dengan pengguna dengan BMI normal.

  • Apakah lebih mungkin pengguna yang merokok untuk mendapatkan tagihan yang tinggi dibandingkan dengan pengguna yang tidak merokok?

Sama dengan cara sebelumnya, didapatkan bahwa (dengan A adalah mendapatkan tagihan yang tinggi, B adalah pengguna overweight/obese dan C adalah pengguna merokok):

  • P(A|B,C) = 0.9817
  • P(A|B,~C) = 0.7091

Dengan melihat kedua nilai peluang diatas, didapatkan kesimpulan bahwa pengguna overweight/obese yang merokok lebih mungkin mendapatkan tagihan yang tinggi dibandingkan dengan pengguna overweight/obese dengan BMI normal.

Analisa Korelasi Variabel

Analisa yang bisa dilakukan selanjutnya adalah apakah ada keterhubungan variabel lain dengan nominal tagihan.

Plot BMI dengan Tagihan

Dari plot diatas, dapat dilihat bahwa BMI dan Tagihan mempunyai korelasi positif berdasarkan trendline (dengan garis linier) yang naik. Kedua variabel ini juga mempunyai nilai kovarian Cov(BMI, Tagihan)=14647.3. Nilai ini jauh dari nilai 0, menunjukkan bahwa kedua variabel ini mempunyai hubungan. Nilai korelasi dari kedua variable ini Corr(BMI, Tagihan)=0.198, yang senada dengan garis trendline yang positif (terus naik).

Plot Umur dengan Tagihan

Mirip dengan sebelumnya, variabel Umur dan Tagihan mempunyai korelasi positif, dimana setelah melakukan perhitungan Corr(Umur, Tagihan) didapatkan nilai 0.299, lebih besar dibandingkan dengan BMI. Nilai kovarian juga menunjukkan bahwa kedua variabel ini mempunyai hubungan (Cov(Umur, Tagihan)=50874.8).

Pengujian Hipotesis

Pada analisis ini, ada 4 hipotesis yang dapat kita cek untuk mengetahui karakter populasi dari data:

  • Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non-perokok
  • Tagihan kesehatan dari pengguna overweight/obese lebih tinggi dibandingkan pengguna dengan BMI normal
  • Proporsi perokok laki-laki lebih besar daripada perempuan (dari satu populasi perokok)
  • Proporsi perokok laki-laki lebih besar daripada perempuan (dari dua populasi, laki-laki dan perempuan)

Akan dilakukan hypothesis testing untuk menguji masing-masing hipotesis dengan metode yang berbeda-beda. Untuk mayoritas testing pada analisis ini, nilai alpha yang digunakan adalah 0.05.

Hipotesis #1: Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non-perokok

Pada kasus ini, hipotesis yang akan kita uji adalah:

Karena nilai alpha yang digunakan adalah 0.05, maka nilai kritis t-value (t-crit) pada uji ini adalah 1.6459. Didapatkan grafik berikut:

Maka, ada dua cara pengambilan keputusan:

  • Jika nilai p-value kurang dari alpha (0.05), maka kita tolak H0
  • Jika nilai t-value lebih dari nilai kritis (1.64) atau berada di daerah biru, maka kita tolak H0

Menggunakan fungsi dari scipy, yaitu ttest_ind, maka didapatkan nilai t-value: 32.75 dan p-value: 2.94e-103 (mendekati 0). Karena t-value > t-crit dan p-value < alpha, maka kita tolak H0. Berarti, kita dapat mengambil kesimpulan bahwa tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non perokok.

Hipotesis #2: Tagihan kesehatan dengan BMI diatas 25 lebih tinggi daripada tagihan kesehatan dengan BMI dibawah 25

Pada kasus ini, hipotesis yang akan kita uji adalah:

Sama seperti sebelumnya, nilai kritis t-value (t-crit) pada uji ini adalah 1.6459. Pengambilan keputusannya juga sama dengan uji sebelumnya. Pada uji ini, didapatkan nilai t-value: 5.92 dan p-value: 2.63e-9 (mendekati 0). Karena t-value > t-crit dan p-value < alpha, maka kita tolak H0. Berarti, kita dapat mengambil kesimpulan bahwa tagihan kesehatan dengan BMI diatas 25 lebih tinggi daripada tagihan kesehatan dengan BMI dibawah 25.

Hipotesis #3: Proporsi perokok laki-laki lebih besar daripada perempuan (dari populasi perokok)

Permasalahan ini dapat diselesaikan dengan menggunakan uji hipotesis proporsi satu populasi, dengan p adalah proporsi perokok laki-laki dari keseluruhan perokok. Hipotesis yang digunakan adalah:

Kasus ini dapat diselesaikan dengan distribusi-z. Dengan menggunakan rumus untuk distribusi-z dengan menggunakan nilai:

  • Jumlah sampel (n): 274, yaitu jumlah perokok
  • Proporsi laki-laki pada populasi berdasarkan hipotesis (p): 0.5
  • Proporsi laki-laki pada sampel (): 159/274: 0.58

Menggunakan nilai di atas, didapatkan nilai uji statistik: 2.658. Untuk right-tailed test dengan nilai alpha: 0.05, nilai critical z-value yang digunakan untuk tes ini adalah 1.645.

Karena nilai uji statistik > critical z-value (nilai uji statistic berada di daerah biru), maka kita tolak H0. Berdasarkan nilai uji statistik dan critical Z-value kita tolak null hypothesis yang artinya sudah cukup bukti untuk mengatakan bahwa proporsi dari perokok laki-laki lebih dari 50%, yang berarti lebih dari perokok perempuan.

Hipotesis #4: Proporsi perokok laki-laki lebih besar daripada perempuan (dari dua populasi, laki-laki dan perempuan)

Uji hipotesis proporsi dua populasi akan digunakan untuk menguji hipotesis ini, dengan p1 adalah proporsi perokok laki-laki dari keseluruhan populasi laki-laki dan p2 adalah proporsi perokok perempuan dari keseluruhan populasi perempuan.

Hipotesis yang digunakan adalah:

Nilai yang digunakan untuk pengujian hipotesis ini adalah:

  • Jumlah perokok laki-laki adalah 159 dari 676 laki-laki dari sampel.
  • Jumlah perokok perempuan adalah 115 dari 662 perempuan dari sampel.

Kasus ini dapat diselesaikan dengan menggunakan salah satu fungsi dari statsmodels, yaitu proportions_ztest. Dengan menggunakan fungsi tersebut, didapatkan nilai statistik uji: 2.786 dan nilai p-value: 0.0026. Nilai critical z-value pada uji ini adalah 1.645, menggunakan nilai alpha: 0.05.

Karena nilai statistik uji berada pada daerah biru (statistik uji > z-crit), maka kita tolak H0. Berdasarkan nilai uji statistik dan critical Z-value kita tolak null hypothesis yang artinya sudah cukup bukti untuk mengatakan bahwa proporsi perokok laki-laki lebih besar daripada perempuan (dari dua populasi, laki-laki dan perempuan).

Conclusion

Banyak sekali kesimpulan yang bisa kita dapatkan dengan melakukan analisis data ini, mulai dari hasil analisis variabel, analisis korelasi dan kovarian, dan percobaan pengujian hipotesis. Berikut adalah beberapa poin yang dapat kita simpulkan dari analisis diatas:

  • Rata-rata tagihan asuransi yang merokok ($32050) jauh lebih besar dibandingkan dengan yang tidak merokok ($8434).
  • Rata-rata tagihan asuransi untuk pengguna overweight dan obese (BMI>25) ($13946) lebih besar dibandingkan dengan pengguna yang nilai ($10284).
  • Rata-rata BMI pengguna asuransi baik laki-laki dan perempuan termasuk ke kategori obese (BMI>30) (laki-laki: 30.94, perempuan: 30.38).
  • Rata-rata BMI dari pengguna asuransi yang merokok atau tidak hampir sama (30.71 dan 30.65).
  • Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non-perokok
  • Tagihan kesehatan dari pengguna overweight/obese lebih tinggi dibandingkan pengguna dengan BMI normal
  • Proporsi perokok laki-laki lebih besar daripada perempuan (dari satu populasi perokok)
  • Proporsi perokok laki-laki lebih besar daripada perempuan (dari dua populasi, laki-laki dan perempuan)

--

--

Ahmad Irfan Luthfi

AI Engineer at Delameta Bilano, MS Computer Science student at Georgia Tech