Konvergensi, Quick Count dan Statistika yang Menolak Tunduk

Pilpres 2014 ini memang Pilpres yang luar biasa. Ada kemeriahan, ada fitnah dan yang paling membuatku terkesan ada partisipasi publik di dalamnya. Ada orang-orang yang tanpa dibayar sepeserpun dan bahkan mengeluarkan duit mau berkampanye untuk capres idolanya, ada orang yang mau bikin aplikasi untuk menghitung exit poll di luar negeri, ada programmer(bahkan ada beberapa) yang membuat situs yang mengajak masyarakat untuk berpartisipasi mengentry data C1 secara manual untuk mengawal suara di form C1. Luar biasa!

Tapi Pilpres kali ini juga diwarnai pembodohan karena metode hitung cepat ternoda oleh lembaga quick count yang tidak bertanggungjawab telah mencemarkan nama baik ilmu statistik.

Sekarang, ilmu statistik melawan.

Hari ini, dengan bekal data C1 yang dientri oleh ribuan relawan yang bekerja tanpa dibayar, kita akan melawan pembodohan. Kita akan membuat quick count versi kita sendiri.

Latar Belakang

Quick count pada dasarnya adalah penelitian statistik dan semua penelitian punya kewajiban untuk dapat direproduksi ulang oleh pihak lain. Sebuah penelitian yang hasilnya tidak dapat direproduksi bukanlah penelitian yang benar, itu hanyalah sebuah kebetulan.

Jadi, kita hari ini akan belajar untuk mereproduksi sebuah quick count.

Bahan:
1. Data C1 dari berbagai sumber, kali ini kita akan pakai kawal suara. http://kawal-suara.appspot.com/
2. Microsoft Excel atau spreadsheet lainnya. Alternatif lain bisa pakai google spreadsheet atau Open Office Calc. Karena ini akan dirilis di internet saya akan impor perhitungannya ke Google Spreadsheet.
3. Pikiran yang terbuka, bersih dan adil. Seorang peneliti harus adil sejak dari pikiran, harus bersih dari kepentingan dan bisa menerima jika hasil penelitiannya tidak sesuai dengan hipotesis awalnya. Kepentingannya cuma satu, menambah pengetahuan. Hari ini kita akan menjadi seorang peneliti, jadi pikiran yang bersih dan adil ini sangat penting.
4. Google dan koneksi internet. Ini penting untuk mengcrosscheck ilmu yang baru kita dapat. Jangan sampai aku membodohimu. Aku bisa salah, ilmuku bisa ngawur.

Metodologi

Hari ini kita akan menggunakan metodologi yang disebut multi-stage cluster random sampling. Kenapa? Karena lebih simple. Bisa pakai metode yang lain dan akan dibahas sekilas, tapi intinya sama.

Dalam multi-stage cluster random sampling ini kita akan menentukan sebuah jumlah TPS yang akan kita ambil datanya di awal. Kita akan ambil 200 TPS. Kenapa 200, ya simple saja, karena sepertinya itu cukup enak untuk belajar, dan kita cuma perlu ambil minimal 1 sampel dari tiap propinsi dan setiap propinsi terwakili. Kalau anda cuma sanggup 100 ya boleh2 saja, kalau mau 10 ribu juga boleh. Namanya juga belajar. Dari 200 ini kita akan ambil secara proporsional dari setiap cluster, clusternya kali ini adalah propinsi. Jadi misal di aceh punya 1/5 dari jumlah TPS ya kita akan ambil 1/5 x 200 = 40 TPS di Aceh sebagai sample. Ambilnya TPS-nya random. Ini artinya multi-stage cluster random sampling. Tentukan clusternya, ambil random sample dari cluster.

Ada lagi metode yang lain namanya random sampling, dalam random sampling ini tidak ada cluster-cluster. Kita anggap seluruh Indonesia adalah satu kesatuan lalu kita ambil sample sesuai tingkat kepercayaan yang kita mau ambil Menurut perhitungannya untuk 470rb TPS kita harus ambil 16rb-an secara random untuk mendapat tingkat kepercayaan 99%. Cara ini jelas lebih solid, tapi ya aku yang males ambil data dari 16rb TPS.

Dengan cara ini maka perbandingannya kira-kira:
ACEH          9,508        4
JAWA BARAT     75,151     31
JAWA TENGAH     67,850     28
JAWA TIMUR     75,977     32

Lanjut!

Okeh, jadi dari data di atas kita akan ambil acak dari tiap propinsi sesuai TPS jatahnya. Tapi setelah dijumlah, karena ada pembulatan dari proporsi dapatnya cuma 198 TPS, alhasil Bali dan Kalteng ditambah satu dari 2 menjadi 3. Kenapa? Because I said so. Nggak ada alasan ilmiah lain.

Kenapa kok aku percaya diri dengan aturan yang nampaknya iseng tersebut, karena ada prinsip statistik yang namanya Central Limit Theorem. CLT ini bilang bahwa dengan pengacakan yang cukup, maka distribusi sampel akan mendekati rata-rata.

Kok mbulet ya? Pada intinya sih, kalau kita mengacak mendekati benar, hasilnya akan mendekati hasil dengan metodologi yang lebih rigid. Ya melesetnya nggak akan jauh-jauh amat lah. Atau istilah kerennya hasil quick count ini diulang berapa kalipun hasilnya akan konvergen atau mendekati angka yang sama, dalam hal ini sekitar 52-53%-an untuk Jokowi dan 47-48%-an untuk Prabowo Hatta.

Hasilnya bisa diintip di sini.

Hasil akhir quick count ini:
Prabowo-Hatta: 48.18%
Jokowi-JK : 51.82%

Hmmm… Nggak jauh2 amat lah dari QC di Tivi-tivi.

Kesimpulan

Bahwa, statistik ini adalah alat yang sangat bagus untuk digunakan jika penelitinya punya pikiran yang jernih. Kita bisa menghasilkan presentase yang mendekati QC yang lebih rigid metodologinya asal kita mau mematuhi kaidah-kaidah ilmiah yang benar, bahkan melenceng sedikit pun, masih bisa mendarat di sekitaran 2%-an.

Aku ingin menunjukan Quick Count dan statistik bukan sebuah hal yang kompleks dan menakutkan. Tapi sangat sederhana dan kita bisa lakukan sendiri asal ada datanya. Datanya ini yang harus dikumpulkan lembaga QC dengan mendaki gunung, turuni lembah atau bagiku mengopi data TPS satu per satu ke Excel.

Dengan operasi sederhana di Excel, SUM dan DIVIDE kita bisa melakukan quick count kita sendiri.

Jadi, Statistik dan Quick Count itu sederhana, kok. Jangan mau ditakut-takuti dengan statistik oleh para orang yang ngakunya pakar.

 

About dnial

You don't see anything You don't hear anything You don't know anything Move along and pretend nothing happen

Posted on 14 Juli, 2014, in life. Bookmark the permalink. 6 Komentar.

  1. wew, mantab dan… :jempol

    aku pernah denger metode pengambilan sampel yg lebih cocok utk pilpres adalah dari jumlah DPT, bukan jumlah TPS, karena suara diitungnya per orang, bukan per daerah.

    mungkin mau nyoba simulasi juga gimana hasilnya kalo pengambilan sampel dilakukan berdasar jumlah DPT?

  2. Saya hargai usaha dan maksud baiknya. Namun, ada hal yg sangat keliru disini. Populasi TPS yg anda sampel bukan Populasi TPS dalam pilpres. Namun populasi TPS yg sudah dientri di website ini. Saya belum dapat jaminan bahwa pengentrian form C1 dalam web itu dilakukan secara acak. Ini yg anda harus jaminkan terlebih dahulu.

    Terima kasih

  3. Daniel,

    Gw udah nyoba bikin simulasi berdasar yg kamu bikin, tapi di-modifikasi di bagian pengambilan samplingnya, jadi berdasar jumlah DPT (orang), bukan TPS.

    Artinya ada beberapa sampelmu yang aku buang, dan aku tambahin beberapa sampel baru. Beberapa yang mencolok kalo sampel dihitung berdasar DPT :

    1. Jawa Barat kurang 4 sampel kalo dibanding berdasar TPS
    2. DKI kurang 3 sampel kalo dibanding berdasar TPS
    3. Yang lainnya selisih 0-1 sampel, ada sekitar 10 propinsi yg spt ini

    Dan ternyata ini bisa mengubah hasil……

    Di spreadsheet gw, perbandingannya menjadi 50,04% : 49,96%, pemenangnya juga jadi berubah, which is IMHO a huge difference (despite the small difference in percentage)….

    Detailnya ada di sini : https://docs.google.com/spreadsheets/d/1xgzXufs027L2BqPoUDY9ayaj–ouYF8UhUoRYgigHSI/edit?usp=sharing

    So, kesimpulannya, I have to disagree with your statement : “Atau istilah kerennya hasil quick count ini diulang berapa kalipun hasilnya akan konvergen atau mendekati angka yang sama”….

    • kamu pakai asumsi yang membuat pertanyaannya berubah.

      Pertanyaan yang berusaha aku jawab adalah: dengan lebih sedikit sample, apakah kita bisa mereplikasi hasil quick count?

      Pertanyaan yang berusaha kamu jawab adalah: bagaimana jika kita sampling hasil TPS berdasarkan jumlah pemilih?

      Pertanyaan berbeda pakai metodologi yang berbeda tentunya. Nggak bisa pakai cara yang sama.

      Tapi kita harus menjawab pertanyaan ini dulu:
      1. Apakah rasio pemilih terhadap DPT di setiap propinsi sama?
      Jawabannya: Tidak. Aceh punya rasio 1:211, DKI Jakarta 1:411, hampir 2 kali lipatnya. jadi ini harus diperhatikan untuk memproporsionalkan sample.

      2. Darimana data pemilihnya? Apakah bisa diprediksi di awal?
      Jawabannya juga tidak. DPT di banyak kasus tidak mencerminkan jumlah pemilih riil di TPS tersebut. Dan ini efeknya cukup besar.
      Di Jakarta dan Jogja misal, banyak penduduk musiman. Jakarta pekerja dan Mahasiswa, di Jogja Mahasiswa, demikian pula di Depok. Belum lagi menghitung golput yang 20-30% dan tidak tersebar merata.

      Jadi DPT tidak sama dengan data pemilih, data pemilih total baru diketahui setelah semua selesai dihitung. Proporsi yang aku bilang, aku baru tahu setelah data QC 90% masuk di kawalpemilu.org. Lembaga QC tidak bisa memprediksi ini, ini artinya menambah satu lagi variabel yang berpotensi error. Jadi pakai cara yang lebih bisa diprediksi, sampling berdasarkan TPS.

      Kita pakai asumsi kita tidak tahu di awal berapa banyak orang yang akan mencoblos di suatu daerah.

      Cara yang mudah bagaimana?
      1. Ambil sample random satu propinsi, anggap itu adalah perbandingan suara satu propinsi, lalu assign ke total pemilih di daerah itu.
      Misal dari Aceh kita sampling 10 TPS, ternyata dapat presentase Prabowo:Jokowi 57%:43%, kita asumsikan 57% penduduk Aceh milih Prabowo. kalau pemiih di aceh 1.000.000 jiwa kita anggap 570rb pilih Prabowo, 43% pilih Jokowi.
      2. Cara menghitung total pemilih? Ini prediksi lagi, ambil total TPS yang kita sample hitung rasio TPS:pemilih, asumsikan semua di Aceh punya rasio sama. Lalu kalikan rasio pemilih degan jumlah TPS. Jadi misal Aceh punya rasio 1:211 dan ada 8.537 TPS maka prediksi pemilih di Aceh adalah: 1,801,307 pemilih. bagi 2 sesuai proporsi yang kita sampling. sekitar 1juta Prabowo, 800rb jokowi.
      3. Lakukan hal yang sama untuk setiap propinsi.

      Seperti dijelaskan di situ, terlalu bayak prediksi dan asumsi yang harus dimiliki dan membuatnya tidak sesederhana quick count dengan sampling TPS.

      Cara lain?
      Pakai sampling 16 ribu TPS acak untuk dapat 99% confidence rate dengan 1% error margin.

      • Cara lain?
        Pakai sampling 16 ribu TPS acak untuk dapat 99% confidence rate dengan 1% error margin.

        betul, dan ngomong-ngomong batas ‘angka sakti’ ini pula yang memperlihatkan bentuk suara di berbagai upaya crowdsource mulai konvergen setelah melewati 16-17 ribu TPS. walaupun konvergennya ke arah mana, itu masih balik lagi ke sampel. ada variabel seperti infrastruktur dan akses internet di masing-masing daerah, jadi sekalipun sampel dari C1 KPU diacak random, sebelum sampai ke KPU sampelnya bisa jadi sedikit terdistorsi karena faktor teknis seperti ini terutama di awal-awal pengisian, tapi itu juga kayaknya gak signifikan amat, mungkin +- 1%.

        tl;dr: 16 ribu itu memang angka sakti kok. mungkin bisa dicoba bikin script di excelnya buat testing.:mrgreen:

      • hmmmm….

        ok, hasil quick count kan ada dua kubu.

        eksperimen-mu mengambil quick count salah satu kubu sbg referensi.

        eksperimen-ku mengambil quick-count kubu yg lain, yaitu yg ini : http://politik.news.viva.co.id/news/read/520910-ini-metodologi-quick-count-irc-yang-unggulkan-prabowo

        aku manfaatkan sampel yg kamu ambil, dan mengubah seperlunya sesuai metode sampling yg dipakai (aku cuma perlu ambil 11 sampel baru menggantikan 11 sampel lain yg kamu ambil).

        dan kamu benar Dan, hasilnya memang jadi mirip.

        jadi lembaga2 itu memang beda metodologi pengambilan sampling-nya ya?

        pantesan hasilnya bisa beda2…

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: