Rabu, 21 Mei 2008

Analisis Butir Soal

Analisis soal dilakukan untuk mengetahui berfungsi tidaknya sebuah soal. Analisis pada umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitative control) dan analisis kuantitatif (quantitative control). Analisis kualitatif sering pula dinamakan sebagai validitas logis (logical validity) yang dilakukan sebelum soal digunakan. Gunanya untuk melihat berfungsi tidaknya sebuah soal. Analisis soal secara kuantitatif sering pula dinamakan sebagai validitas empiris (empirical validity) yang dilakukan untuk melihat lebih berfungsi tidaknya sebuah soal setelah soal itu diujicobakan kepada sampel yang representatif.

Salah satu tujuan dilakukannya analisis adalah untuk meningkatkan kualitas soal, yaitu apakah suatu soal (1) dapat diterima karena telah didukung oleh data statistic yang memadai, (2) diperbaiki, karena terbukti terdapat beberapa kelemahan, atau bahkan (3) tidak digunakan sama sekali karena terbukti secara empiris tidak berfungsi sama sekali.

Analisis Kualitatif. Yaitu berupa penelaahan yang dimaksudkan untuk menganalisis soal ditinjau dari segi teknis, isi, dan editorial. Analisis secara teknis dimaksudkan sebagai penelaahan soal berdasarkan prinsip-prinsip pengukuran dan format penulisan soal. Analisis secara isi dimaksudkan sebagai penelaahan khusus yang berkaitan dengan kelayakan pengetahuan yang ditanyakan. Analisis secara editorial dimaksudkan sebagai penelaahan yang khususnya berkaitan dengan keseluruhan format dan keajegan editorial dari soal yang satu ke soal yang lainnya.

Analisis kualitatif lainnya dapat juga dikategorikan dari segi materi, konstruksi, dan bahasa. Analisis materi dimaksudkan sebagai penelaahan yang berkaitan dengan substansi keilmuan yang ditanyakan dalam soal serta tingkat kemampuan yang sesuai dengan soal. Analisis konstruksi dimaksudkan sebagai penelaahan yang umumnya berkaitan dengan teknik penulisan soal. Analisis bahasa dimaksudkan sebagai penelaahan soal yang berkaitan dengan penggunaan bahasa Indonesia yang baik dan benar menurut EYD.

Analisis Kuantitatif. Digunakan untuk mengetahui sejauh mana soal dapat membedakan antara peserta tes yang kemampuannya tinggi dalam hal yang didefinisikan oleh kriteria dengan peserta tes yang kemampuannya rendah (melalui analisis statistik).

Analisis soal secara kuantitatif menekankan pada analisis karakteristik internal tes melalui data yang diperoleh secara empiris. Karakteristik internal secara kuantitatif dimaksudkan meliputi parameter soal tingkat kesukaran, daya pembeda, dan reliabilitas. Khusus soal-soal pilihan ganda, dua tambahan parameter yaitu dilihat dari peluang untuk menebak atau menjawab soal dengan benar dan berfungsi tidaknya pilihan jawaban, yaitu penyebaran semua alternatif jawaban dari subyek-subyek yang dites.

Tingkat Kesukaran. Ada beberapa alasan untuk menyatakan tingkat kesukaran soal. Bisa saja tingkat kesukaran soal ditentukan oleh kedalaman soal, kompleksitas, atau hal-hal lain yang berkaitan dengan kemampuan yang diukur oleh soal. Namun demikian, ketika kita mengkaji lebih mendalam terhadap tingkat kesukaran soal, akan sulit menentukan mengapa sebuah soal lebih sukar dibandingkan dengan soal yang lain.

Secara umum, menurut teori klasik, tingkat kesukaran dapat dinyatakan melalui beberapa cara diantaranya (1) proporsi menjawab benar, (2) skala kesukaran linear, (3) indeks Davis, dan (4) skala bivariat. Proporsi jawaban benar (p), yaitu jumlah peserta tes yang menjawab benar pada butir soal yang dianalisis dibandingkan dengan jumlah peserta tes seluruhnya merupakan tingkat kesukaran yang paling umum digunakan.

Intinya, bermutu atau tidaknya butir-butir item tes hasil belajar pertama-tama dapat diketahui dari derajat kesukaran atau taraf kesukaran yang dimiliki oleh masing-masing butir item tersebut. Butir-butir item tes hasil belajar dapat dinyatakan sebagai butir-butir item yang baik, apabila butir-butir item tersebut tidak terlalu sukar dan tidak pula terlalu mudah dengan kata lain derajat kesukaran item itu adalah sedang atau cukup. Angka yang dapat memberikan petunjuk mengenai tingkat kesulitan item itu dikenal dengan istilah difficulty index (angka indeks kesukaran item), yang dalam dunia evaluasi hasil belajar umumnya dilambangkan dengan huruf P, yaitu singkatan dari kata proportion (proporsi = proporsa).

Kategori Tingkat Kesukaran

Nilai p

Kategori

P < 0.3

Sukar

0.3 ≤ p ≤ 0.7

Sedang

P > 0.7

Mudah

 Tindak Lanjut Hasil Analisis

Interpretasi Item

Tindak Lanjut

Sukar

1.        butir item dibuang atau didrop dan tidak dikeluarkan lagi dalam tes-tes hasil belajar yang akan datang

2.        diteliti ulang, dilacak, dan ditelusuri sehingga dapat diketahui faktor yang menyebabkan butir item yang bersangkutan sulit dijawab oleh testee, apakah kalimat soalnya kurang jelas, apakah petunjuk cara mengerjakan soalnya sulit dipahami, ataukah dalam soal tersebut terdapat istilah-istilah yang tidak jelas, dsb. Setelah dilakukan perbaikan, butir-butir item tersebut dikeluarkan lagi dalam tes hasil belajar yang akan datang.

3.        butir-butir yang terlalu sulit dapat digunakan kembali dalam tes (terutama tes seleksi) yang sifatnya sangat ketat.

Sedang

Butir item ini dapat dikeluarkan lagi dalam tes-tes hasil belajar pada waktu-waktu yang akan datang

Mudah

1.        butir item dibuang atau didrop dan tidak dikeluarkan lagi dalam tes-tes hasil belajar yang akan datang

2.        diteliti ulang, dilacak, dan ditelusuri sehingga dapat diketahui faktor yang menyebabkan butir item yang bersangkutan sulit dijawab oleh testee, apakah kalimat soalnya kurang jelas, apakah petunjuk cara mengerjakan solnya sulit dipahami, ataukah dalam soal tersebut terdapat istilah-istilah yang tidak jelas, dsb. Setelah dilakukan perbaikan, butir-butir item tersebut dikeluarkan lagi dalam tes hasil belajar yang akan datang.

3.        butir-butir yang terlalu sulit dapat digunakan kembali dalam tes (terutama tes seleksi) yang sifatnya longgar.

Daya Pembeda. Salah satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat tidaknya suatu soal membedakan kelompok dalam aspek yang diukur sesuai dengan perbedaan yang ada dalam kelompok itu. Indeks yang digunakan dalam membedakan antara peserta tes yang berkemampuan rendah adalah indeks daya pembeda                           (item discrimination). Indeks daya pembeda soal-soal yang ditetapkan dari selisih proporsi yang menjawab dari masing-masing kelompok. Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda soal yaitu daya dalam membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah.

Angka yang menunjukkan besarnya daya pembeda berkisar antara           -1 sampai dengan +1. Tanda negatif menunjukkan bahwa peserta tes yang kemampuannya rendah dapat menjawab benar sedangkan peserta tes yang kemampuannya tinggi menjawab salah. Dengan demikian soal indeks daya pembedanya negatif menunjukkan terbaliknya kualitas peserta.

Indeks diskriminasi item umumnya diberi lambang dengan huruf D (singkatan dari discriminatory power).

Indeks     Dsikriminasi Item (D)

Klasifikasi

Interpretasi

< 0,20

Poor

Butir item yang bersangkutan daya pembedanya lemah sekali (jelek), dianggap tidak memiliki daya pembeda yang baik

0,20 – 0,40

Satisfactory

Butir item yang bersangkutan telah memiliki daya pembeda yang cukup (sedang)

0,40 – 0,70

Good

Butir item yang bersangkutan telah memiliki daya pembeda yang baik

0,70 – 1,00

Excellent

Butir item yang bersangkutan  telah memiliki daya pembeda yang baik sekali

Bertanda negatif (-)

-

Butir item yang bersangkutan daya pembedanya negative sekali (jelek sekali)

Fungsi Distraktor. Pada saat membicarakan tes objektif bentuk multiple choice item tersebut untuk setiap butir item yang dikeluarkan dalam tes hasil belajar telah dilengkapi dengan beberapa kemungkinan jawab, atau yang sering dikenal dengan istilah option atau alternatif.

Option atau alternatif itu jumlahnya berkisar antara 3 sampai dengan 5 buah, dan dari kemungkinan-kemungkinan jawaban yang terpasang pada setiap butir item itu, salah satu diantaranya adalah merupakan jawaban betul (kunci jawaban), sedangkan sisanya adalah merupakan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal dengan istilah distractor (pengecoh).

Menganalisis fungsi distraktor sering dikenal dengan istilah lain, yaitu : menganalisis pola penyebaran jawaban item. Adapun yang dimaksud dengan pola penyebaran jawaban item adalah suatu pola yang dapat menggambarkan bagaimana testee menentukan pilihan jawabnya terhadap kemungkinan-kemungkinan jawab yang telah dipasangkan pada setiap butir item.

Suatu kemungkinan dapat terjadi, yaitu bahwa dari keseluruhan alternatif yang dipasang pada butir item tertentu, sama sekali tidak dipilih oleh testee. Dengan kata lain, testee menyatakan “blangko”. Pernyataan blangko ini sering dikenal dengan istilah omiet dan biasa diberi lambang dengan huruf O.

Distraktor dinyatakan telah dapat menjalankan fungsinya dengan baik apabila distraktor tersebut sekurang-kurangnya sudah dipilih oleh 5 % dari seluruh peserta tes.

Sebagai tindak lanjut atas hasil penganalisaan terhadap fungsi distraktor tersebut maka distraktor yang sudah dapat menjalankan fungsinya dengan baik dapat dipakai lagi pada tes-tes yang akan datang, sedangkan distraktor yang belum dapat berfungsi dengan baik sebaiknya diperbaiki atau diganti dengan distraktor yang lain.

Reliabilitas. Keajegan dan ketidakajegan skor tes merupakan fokus  dari pengkajian tentang reliabilitas. Berikut adalah faktor yang mempengaruhi perolehan skor peserta didik (Thorndike) yang berakibat pada ketidakajegan terhadap skor.

 Faktor yang Mempengaruhi Reliabilitas Skor

1

Karakteristik umum yang permanen peserta tes

a.       kemampuan yang dimiliki peserta didik dalam menghadapi tes

b.      kemampuan umum dan teknik yang digunakan ketika mengambil tes

c.       kemampuan umum untuk memahami petunjuk tes

2

Karakteristik khusus yang permanent peserta tes

a.       kemampuan peserta didik yang berkaitan dengan atribut yang diukur dalam sebuah tes

b.      pengetahuan dan kemampuan khusus yang berkaitan dengan soal

c.       keajegan respon peserta didik terhadap pilihan jawaban (misalnya mereka cenderung memberi jawaban A dari 4 alternatif yang disediakan atau cenderung memilih B dari soal benar salah yang disajikan)

Khusus yang berkaitan dengan soal

a.       pengetahuan khusus yang berkaitan dengan fakta atau konsep khusus

b.      pengetahuan dan kemampuan khusus yang berkaitan dengan soal

3

Karakteristik umum yang temporer seperti :

a.       kesehatan

b.      kelelahan

c.       motivasi

d.      gangguan emosi

e.       kemampuan umum dan teknik yang digunakan ketika mengambil tes

f.        pemahaman mekanisme tes

g.       faktor panas, cahaya, ventilasi, dan lain sebagainya

4

Karakteristik khusus yang temporer seperti :

Khusus yang berkaitan dengan tes secara keseluruhan

a.       pemahaman terhadap petunjuk tes

b.      trik atau teknik-teknik mengatasi tes

c.       pengalaman/latihan menghadapi tes terlebih lagi dalam tes psikomotor

d.      kebiasaan menghadapi sebuah tes

Khusus yang berkaitan dengan soal

a.       fluktuasi ingatan yang dimiliki peserta didik

b.      hal-hal yang berkaitan dengan perhatian dan keakuratan

5

Faktor penyelenggaraan

a.       waktu, bebas dari gangguan, dan petunjuk yang jelas

b.      pengawasan

c.       penskoran

6

Faktor yang tidak pernah diperhitungkan

a.       keberuntungan karena faktor menebak

b.      mengingat soal yang telah dilihatnya

 

*disarikan dari berbagai sumber

44 komentar:

  1. wah, makasih banget artikelnya...

    BalasHapus
  2. iya mba sama2...

    Sebenernya postingannya belum lengkap mba, karena niatnya software buat ngitungnya mau diposting jg... eh gak taunya internetnya gak narik, jadi urung deh...

    Semoga suatu saat dpt terwujud ;D

    BalasHapus
  3. bagus banget mbak tulisannya tentang analisis soal itu, kebetulan saya sedang nyari-nyari informasinya, alhamdulillah nemu juga akhirnya,cuman msh ada yg dibingungin nih, gimana klo soalnya tidak berbentuk multiple choice alias soal uraian, analisisnya gmn ya mbak?

    BalasHapus
  4. Analisanya dengan melakukan pengelompokkan jawaban siswa peritem soal (selain analisa kualitatif). Setelahnya dibandingkan dengan kriteria untuk memberikan grade. Dari situ terlihat, apakah soal tersebut mempunyai daya pembeda dan taraf kesukaran yang baik.

    Untuk pemberian skor dalam soal uraian, lebih mudah dan baik lagi kalau sebelumnya dibuat dulu scoring rubricsnya (kriteria penskoran). Scoring rubrics juga buat meminimalisir subjektivitas mba...

    *mengenai scoring rubrics ada coretan yang lain

    BalasHapus
  5. Terimakasih artikel-nya sangat bermanfaat, saya sedang mengembangkan analisis butir soal berbasis komputer (untuk jenis soal multiple choice).
    Setelah saya pelajari ada beberapa aspek analisis yang tetap harus dilakukan manual. Tapi setidak cukup meringankan guru mengingat analisis butir soal merupakan kewjiban setiap guru yang cukup sulit.

    BalasHapus
  6. Sama2 pak, alhamdulillah jika bisa bermanfaat.

    Saya biasa menggunakan software microcat iteman atau anates pak untuk menganalisis butir soal. Dan setuju spt yg bpk blg, eksekusi akhir tetap di tangan guru.

    Selamat mengembangkan pak, nanti klo sdh jd kirim2 y pak... :)

    BalasHapus
  7. klo iteman bukannya propritary software
    http://www.assess.com/xcart/product.php?productid=23a4
    atau ada yang free?, kalau ada minta infonya dung. sekalian ada beberapa pertanyaan sehubungan keisengan saya buat aplikasi analisa butir soal (sebenrnya onlinetest plus fitur analisis-nya).
    1. apa pembagian kelompok atas (30%, bawah 30% itu sudah baku?
    2. Kalau kita asumsikan kelompok atas 3 orang(10 peserta tes), lalu rangking 3 dan empat nilainya sama, apakah kelompok atas tetap 3?
    terimakasih sebelumnya ..

    BalasHapus
  8. alhamdulillah saya tidak perlu bayar untuk mendapatkannya mas...

    1. Menurut teori yang saya pelajari, bahwa yang mempengaruhi pembagian kelas adalah jumlah respondennya. Jika responden di bawah 100 maka pembagiannya adalah 50 %, tapi kalau di atas 100 dibagi 27 %.
    2. Jumlah yang dipakai tetap sesuai dengan pembagian, seperti yang telah saya tulis di point 1 ;)

    *sebagai tambahan informasi, untuk uji coba instrumen tes idealnya berlaku seperti ini : 1 soal diujicobakan kepada 5 - 10 responden. Jadi, jika soalnya 10, maka sampelnya adalah 5 - 100 responden

    Mohon maaf, jika jawaban saya tidak seperti yg diharapkan :)

    BalasHapus
  9. Oh, gitu ya, kalau 50% dengan rumus DP=2(BA-BB) / n range daya pembeda antara 1.00 s/d -1.00. Lalu kalau soal lebih dari 100 jadi 27% range DP jadi antara 0.54 s/d -0.54 dong?? (dengan asumsi n=seluruh peserta tes). Kecuali n = BA+BB (jadi kelompok tengah tidak dihitung dalam n.
    Oh iya, kalau boleh minta referensi untuk acuan di atas mbak (hehe.. jadi ngerepotin nih..).
    Untuk ketentuan jumlah responden CIIMW maksudnya satu orang mengerjakan 1 butir soal?

    BalasHapus
  10. Analisis, validitas, reliabilitas, dan interpretasi hasil tes : implementasi kurikulum 2004 (Sumarna Surapranata, Remaja Rosdakarya)
    Dasar2 Evaluasi Pendidikan (Suharsimi Arikunto, Bumi Aksara)
    Prinsip2 n teknik evaluasi pengajaran (Ngalim Purwanto, Remaja Rosdakarya)
    dan
    Diktat kuliah dari dosen saya : Prof.Dr. Dali S. Naga... hehehe

    BalasHapus
  11. Kelihatannya belum tamat ya materinya ? Tapi bagaimana pun juga trims buat anda dan saya akan mencoba mengaplikasikannya.

    BalasHapus
  12. yang saya tampilkan di sini memang lebih menganalisa butir soal secara kuantitatif, yang kualitatif dan elektroniknya tidak.

    alhamdulillah jika coretan yang kecil ini bisa bermanfaat... terima kasih sangat ya :)

    BalasHapus
  13. salam kenal mbak, aq mo minta bantuannya untuk analisis menggunakan teori butir soal tu menghitungnya menggunakan rumus yg seperti apa? klo yg klasikal teori untuk menghitung validitas, reliabilitas, daya beda dan tingkat kesulitan soal kan jelas mbak. Klo bsa lewat emaik aq ya mbak agusariawan11@yahoo.com. Sebelumnya terima kasih.

    BalasHapus
  14. iya mas, nanti akan saya kirimkan hal yang mas inginkan. Sami2 dan salam kenal kembali :)

    BalasHapus
  15. bu lussy.. pie kabare!?!? lama tak jumpa ibu ^_^ masih inget aq ta??
    mw tanya nih bu... fungsi distraktor itu ada rumusnya ga yah??! masa dicatetanku tak ada ttg fungsi distraktor?? huft... thx a lot ibu...

    BalasHapus
  16. alhamdulillah apik2 wae... Hehe
    Dirimu gmn kbr? Iya dah lama tak bertemu, beda waktu n ruang edarnya sih.

    Emang wktu itu tdk ngopy materinya y atau apa sdh dilahap virus? :D

    Coba deh baca ulang tulisan di atas. Ada kok bagaimana cara melihat distraktor berfungsi atau tidak.

    Selamat menemukan ya n selamat mengaplikasikannya. Hehe

    BalasHapus
  17. alhamdulillah apik2 wae... Hehe
    Dirimu gmn kbr? Iya dah lama tak bertemu, beda waktu n ruang edarnya sih.

    Emang wktu itu tdk ngopy materinya y atau apa sdh dilahap virus? :D

    Coba deh baca ulang tulisan di atas. Ada kok bagaimana cara melihat distraktor berfungsi atau tidak.

    Selamat menemukan ya n selamat mengaplikasikannya. Hehe

    BalasHapus
  18. memang virus itu jahat bu,, hehe...
    bener, smua data raib di lepi yg lama, ya sudah lah...
    wes tak baca sih, tp kan tak ada rumusnya yg kliatan langsung tuh bu, smua dlm bentuk tulisan..
    jd rumusnya qt yg bentuk sndr tak apa yah?
    bila 5% dari opsi pengecoh dipilih, maka ia adalah distractor, gitu toh??
    heehhehe.. dah smt akhir ttp aja oneng nih aq...
    tetep smangadh mengajar yah bu.. kl jodoh pst ketemu lg qta, amin.... ^_^

    BalasHapus
  19. iya ga, rumusnya memang prosentase itu. Gampangnya, selagi distraktor ada yg milih itu sdh berfungsi. Langkah selanjutnya baru dilihat apakah opsi yg dipilih sdh bs membedakan antara kelompok unggul atau tidak.

    Semoga kita segera ketemu y. Kalo jodoh emang gak kemana, tp kalo gak jodoh terus mau kemana? :D

    Belum selesai laporannya? Hr ini kan terakhir?

    BalasHapus
  20. ga bU, bu ririn ksh kelonggaran waktu smp hari senin, cz qta tlat tw soal perubahan format laporan yg ada.. lgpl sy lg sakit, mknya kerjanya plan2 deh.. heheh

    okeh, makasih ya ibu tas infonya, membantu bgt...

    BalasHapus
  21. mbak, saya lg nyusun skripsi n berniat mencantumkan tulisan mbak ini.
    tp boleh tau gak daftar pustakanya?
    makasih sebelumnya

    BalasHapus
  22. Silahkan saja. Mmg skripsinya ngambil jdl ap?
    Ini slh satu bukunya:
    Sumarna surapranta. Analisis, validitas, reliabilitas, dan interpretasi hasil tes: implementasi kurikulum 2004. Bandung: remaja rosdakarya,2005.

    BalasHapus
  23. Terima kasih untuk artikelnya. It helps me much, thank you very much.

    BalasHapus
  24. bu, gimana c cara download software microcat iteman. kq saya coba susah y??

    BalasHapus
  25. bu ini sumbernya dari mana aja y??? ada dari jurnal penelitian internasional jg gak? makasih:)

    BalasHapus
  26. Tlsn di atas kompilasi dr berbagai buku. Ow dr google... Saya blm pernah donlot dr website sih, alhamdulillah saya dapatkan software tsb krn dikasih. Kalau mau analisis butir soal bisa pakai software anates, jauh lbh mudah dan hslnya sdh trmsk analisa

    BalasHapus
  27. ahhh butuh banget referensi beginian buat skrispiku....boleh diskusi lebih dalam kah tentang analisis soal ?

    BalasHapus
  28. hiks...ym aye ga bisa kebuka...mba, mau tanya..klo analisis kualitatif biasanya pakai kartu telaah soal bukan ? kira2 punya rekomendasi buku sumbernya mba ?haaa..maaf merepotkan....

    BalasHapus
  29. Yops... Ada panduannya u itu. Kebetulan sy ada bukunya

    BalasHapus
  30. haaaah...mau2 mba :D...ga dijual bebas dipasaran ya..hehe

    BalasHapus
  31. Ndak ada di pasar, di mall jg gak ada... Hehe

    Minta alamat lengkapnya aja, nanti saya kirimkan via tiki atw jne. Kirim alamatnya k imel saya aja ke: lussy_79@yahoo.co.id atau sflussy@gmail.com

    BalasHapus
  32. mbakku makasih2...banyak :D...siap daku kirim ya

    BalasHapus
  33. buku apa sih yg ada valid, reliabel, taraf kesukaran n daya pembeda tuk analisis soal uraian? lagi butuh banget ne mbak, alna q lg nyusup skripsi. Trims

    BalasHapus
  34. Sumarna Surapranata. (2005). Analisis, Validitas, Reliabilitas, dan Interpretasi Hasil Tes: Implementasi Kurikulum 2004. Bandung: Remaja Rosdakarya

    BalasHapus

Dilarang keras berkomentar yang mengandung unsur saru dan sarkas