Kamis, 03 Desember 2009

MISSING DATA DIISI BUKAN BERARTI MANIPULASI

Naik Gunung Kelud, Agustus 2009 Kediri, Malang


MISSING DATA DIISI
BUKAN BERARTI MANIPULASI


Adalah amat sangat jarang suatu penelitian yang menggunakan metode survei bebas dari “musibah” missing value! Missing value dapat diartikan sebagai data atau informasi yang “hilang” atau tidak tersedia mengenai subjek penelitian pada variabel tertentu akibat faktor non sampling error. Faktor non sampling error yang dimaksud adalah interviewer recording error, respondent inability error, dan respondent unwillingness error. Interviewer recording error terjadi akibat kealpaan petugas pengumpul data (pewawancara), misalnya ada sejumlah pertanyaan yang terlewatkan. Respondent inability error terjadi akibat ketidakmampuan responden dalam memberikan jawaban akurat, misalnya karena tidak memahami pertanyaan, bosan atau kelelahan (respondent fatigue) akhirnya responden mengosongkan sejumlah pertanyaan atau berhenti mengisi kuesioner di tengah jalan. Unwillingness respondent error tejadi karena responden tidak berkenan memberikan jawaban yang akurat, misalnya pertanyaan soal penghasilan, usia, berat badan, pengalaman melakukan pelanggaran hukum, dll. Seperti halnya pada respondent inability error, responden bisa mengosongkan jawaban atau menghentikan proses pengisian kuesioner.
Missing value sebenarnya bukanlah suatu kejadian luar biasa jika jumlah kasus-nya “kecil”. Tapi hingga saat ini belum ada ukuran baku mengenai jumlah kasus missing value pada sebuah survei yang dikategorikan “awas”, misalnya jika telah melebihi 10% dari jumlah sampel. Namun bukan berarti tidak ada sama sekali indikator untuk mendeteksi tingkat bahaya missing value.
Ada dua hal biasanya dijadikan sebagai indikator missing value telah berpotensi “membabak-belurkan” data. Pertama adalah missing value muncul secara berlebihan pada variabel pokok alias variabel kunci yang menjadi bagian dari model penelitian. Kedua adalah missing value membentuk pola tertentu alias tidak random. Untuk indikator pertama dapat dengan mudah dideteksi dengan mengacu pada disain penelitian khususnya kerangka teori/konsep. Indikator kedua agak ruwet karena melibatkan perhitungan statistik, yaitu missing value analysis, pada program SPSS analisis ini tersedia pada menu Analyze.
Lalu apa yang seharusnya dilakukan terhadap missing value? Cara gampangnya tinggal dihapus saja kasus atau variabel yang dijangkiti “wabah” missing value. Kalau cuma 1-2 kasus bolehlah, tapi jika mencapai 50%, atau yang terkena adalah variabel kunci seperti yang disebutkan di atas, mungkin pembumihangusan kasus atau variabel bukanlah tindakan cerdas! Tindakan bijaksana dan ideal yang dapat dilakukan adalah mengkonfirmasi ulang pada responden.
Namun bagaimana jika responden ternyata tidak dapat ditemui atau menolak mentah-mentah karena merasa terganggu? Ada cara lain, yaitu dengan mengisi kasus atau variabel yang mengalami missing value. Bukankah ini tindakan manipulatif, melanggar etika penelitian yaitu aspek scientific misconduct?
Jika dilakukan secara ilmiah, khususnya dengan memperhatikan prinsip-prinsip yang berlaku dalam ilmu statistika maka tindakan mengisi missing value ini tidak melanggar etika penelitian.
Tehnik yang jamak dilakukan adalah mengisi missing value dengan nilai ukuran pemusatan (central tendency measurement) yaitu mean alias rata-rata, median alias nilai tengah, dan modus alias nilai frekuensi tertinggi. Yang paling tenar di antara ketiganya adalah nilai rata-rata. Nilai rata-rata pengisi missing value ini diperoleh dari nilai rata-rata variabel yang mengandung missing value, misalnya rata-rata usia mahasiswa sebuah perguruan tinggi adalah 22,3 dan ada 9 kasus missing value, maka ke-9 missing value tersebut akan digantikan oleh nilai 22,3.
Sesederhana itukah, apakah tidak ada persyaratan sama sekali? Sebenarnya ada namun bukan sesuatu yang mutlak! Sebaiknya sebelum “memanipulasi” data perlu dipastikan bahwa data tersebut diperoleh dari sampel yang ditarik secara random, kemudian sesuaikan nilai ukuran pemusatan dengan ukuran yang digunakan oleh variabel. Ukuran nominal paling tepat menggunakan modus, ukuran ordinal sangat sesuai menggunakan median, dan ukuran interval hingga rasio paling pas menggunakan rata-rata.
Saat ini telah tersedia teknik statistik untuk perlakukan data missing. Teknik yang paling populer adalah model regresi, dengan Multiple Imputation.

Di Posting Oleh : Dorin Mutoif, Poltekkes Depkes Yogyakarta, Jurusan Kesehatan Lingkungan
Jurusan Kesehatan dan Keselamatan Kerja, Universitas Indonesia
Munggu, Petanahan, Kebumen, jawa Tengah

Tidak ada komentar: