SELAMAT DATANG

Rabu, 23 Mei 2012

Rangkuman Penilaian

RANGKUMAN MATERI PENILIAIAN


    Tingkat Kesukaran
Tingkat kesukaran tes adalah pernyataan tentang seberapa mudah atau seberapa sukar sebuah butir tes itu bagi testee atau siswa terkait. Tingkat kesukaran merupakan salah satu ciri tes yang perlu diperhatikan, karena tingkat kesukaran tes menunjukkan seberapa sukar atau mudahnya butir-butir tes atau tes secara keseluruhan yang telah diselenggarakan. Butir tes yang baik adalah butir yang memiliki tingkat kesukaran yang sedang, yaitu yang dapat dijawab dengan benar oleh sekitar 40 sampai 80 % peserta tes. Sebab butir tes yang hanya dijawab oleh 10 % atau bahkan 90 %, akan sulit dibedakan, manakah kelompok yang benar-benar mampu dan kelompok yang benar-benar kurang mampu dalam menjawab soal.
Butir tes harus diketahui tingkat kesukarannya, karena setiap pembuat tes perlu mengetahui apakah soal itu sukar, sedang atau mudah. Tingkat kesukaran itu dapat dilihat dari jawaban siswa. Semakin sedikit jumlah siswa yang dapat menjawab soal itu dengan benar, berarti soal itu termasuk sukar dan sebaliknya semakin banyak siswa yang dapat menjawab soal itu dengan benar, berarti itu mengindikasikan soal itu tidak sukar atau soal itu mudah.Dalam proses analisis tes, seorang guru hendaknya meninjau ulang validitas dan susunan redaksional butir tes yang dibuatnya. Jika ternyata butir tes/soal tidak valid, maka keputusan yang harus diambil adalah membuang butir tes tersebut. Dan jika butir tes itu valid, maka perlu diadakan revisi terhadap susunan redaksi tes. Valid yang dimaksud di sini adalah, terdapat keterwakilan dan relevansi dengan kemampuan yang harus diukur sesuai GBPP yang diberlakukan.
Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya digunakan butir soal yang memiliki tingkat kesukaran rendah/mudah.

Untuk mengetahui tingkat kesukaran soal bentuk uraian digunakan rumus berikut ini.




Kemudian dilanjutkan dengan proses berikut:




Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu. Klasifikasi tingkat kesukaran soal dapat dicontohkan seperti berikut ini:
    0,00 - 0,30 soal tergolong sukar.
    0,31 - 0,70 soal tergolong sedang.
    0,71 - 1,00 soal tergolong mudah.
Tingkat kesukaran butir soal juga dapat digunakan untuk memprediksi alat ukur itu sendiri (soal) dan kemampuan peserta didik dalam memahami materi yang diajarkan guru. Misalnya satu butir soal termasuk kategori mudah, maka prediksi terhadap informasi ini adalah seperti berikut.
    Pengecoh butir soal itu tidak berfungsi.
Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian besar siswa telah memahami materi yang ditanyakan.Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap informasi ini adalah seperti berikut:
    Butir soal itu "mungkin" salah kunci jawaban.
    Butir soal itu mempunyai 2 atau lebih jawaban yang benar.

    Materi yang ditanyakan belum diajarkan atau belum tuntas pembelajarannya, sehingga kompetensi minimum yang harus dikuasai siswa belum tercapai.Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang diberikan (misalnya meringkas cerita atau mengarang ditanyakan dalam bentuk pilihan ganda).Pernyataan atau kalimat soal terlalu kompleks dan panjang.
Namun, analisis secara klasik ini memang memiliki keterbatasan, yaitu bahwa tingkat kesukaran sangat sulit untuk mengestimasi secara tepat karena estimasi tingkat kesukaran dibiaskan oleh sampel (Haladyna, 1994: 145). Jika sampel berkemampuan tinggi, maka soal akan sangat mudah (TK= >0,90). Jika sampel berkemampuan rendah, maka soal akan sangat sulit (TK = < 0,40). Oleh karena itu memang merupakan kelebihan analisis secara IRT, karena 1RT dapat mengestimasi tingkat kesukaran soal tanpa menentukan siapa peserta tesnya (invariance). Dalam IRT, komposisi sampel dapat mengestimasi parameter dan tingkat kesukaran soal tanpa biasa.

    Daya Beda
Daya beda adalah analisis yang mengungkapkan seberapa besar butir tes dapat membedakan antara siswa kelompok tinggi dengan siswa kelompok rendah. Salah satu ciri butir yang baik adalah yang mampu membedakan antara kelompok atas (yang mampu) dan kelompok bawah (kurang mampu). Karena itu butir tes harus diketahui daya bedanya. Siswa yang termasuk kelompok tinggi adalah siswa yang mempunyai rata-rata skor paling baik. Siswa yang termasuk kelompok rendah adalah siswa yang mempunyai rata-rata skor yang rendah. Kelompok siswa yang pandai sering disebut dengan istilah kelompok Upper, dan kelompok siswa yang kurang pandai sering disebut dengan istilah Lower. Tingkat daya pembeda butir-butir tes dinyatakan dalam skala indeks sebagai berikut:
    Indeks -1,00 berarti butir tes terbalik, siswa kurang pandai dalam kelompok Lower dapat menjawab butir tes dengan sempurna, dan kelompok yang paling pandai dalam Upper tidak ada satupun yang mampu menjawab dengan benar.
    Indeks 0,00 berarti butir tes tidak dapat membedakan siswa yang pandai dengan yang kurang pandai. Atau kemampuan kelompok pandai (Upper) sama dengan kemampuan kelompok kurang pandai (Lower).
    Indeks 1,00 berarti butir tes secara sempurna dapat membedakan siswa berdasarkan tingkat kemampuanya.
Adapun rumus yang digunakan untuk menghitung daya pembeda butir tes adalah :
    DB = U – L
    Nup x skor maks
    DB = Daya Beda
    U = Kelompok Tinggi
    L = Kelompok Rendah
    Nup = Jumlah siswa Upper dan Lower

Langkah-langkah yang dilakukan untuk menganalisis daya pembeda butir tes adalah sebagai berikut:
    Mengurutkan jawaban siswa mulai dari yang tertinggi sampai dengan yang terendah.
    Membagi kelompok Atas dan kelompok Bawah masing-masing 25 % atau 30 % atau 40 %.
    Memberi skor 1 untuk setiap jawaban yang benar dan 0 untuk jawaban yang salah pada tes pilihan ganda. Sedangkan pada tes essay diberikan skor sesuai pada rentangan yang ditentukan.
    Menghitung daya beda dengan rumus yang telah ditentukan.
Langkah-langkah untuk mengkalkulasi daya beda adalah sebagai berikut:
    Susunlah urutan peserta berdasarkan skor  yang diprolehnya, mulai dari skor tertinggi hingga terendah.Bagilah jumlah peserta tes menjadi dua kelompok yang sama jumlahnya. Bila jumlah peserta tes ganjil, maka peserta yang di tengah-tengah tak usah dimasukkan pada satu kelompok yang ada (dikeluarkan). Kelompok pertama dinamakan kelompok prestasi tinggi dan kelompok kedua dinamakan kelompok prestasi rendah.
    Hitunglah jumlah kelompok atas yang menjawab benar terhadap butir soal yang akan dikalkulasikan daya bedanya. Demikian untuk kelompok yang bawah.
    Kalkulasikan proporsi peserta yang menjawab benar terhadap butir soal tersebut untuk masing-masing kelompok.
    Kurangilah proporsi kelompok atas dari kelompok bawah dan diperoleh indeks daya beda soal tersebut.
Untuk mencari indeks daya beda suatu butir soal dilakukan dengan rumus sebagai berikut:
        D= B_(a - B_b )/n
   
Keterangan : D = Indek daya beda
〖                        B〗_a = Jumlah jawaban betul kelompok tinggi
                       B_b= Jumlah jawaban  betul kelompok rendah
                        n = Jumlah subjek kelompok tinggi atau rendah, atau 27,5%
    Butir soal yang baik indek daya bedanya paling tidak harus mencapai 0,25% atau bahkan 0,35% ( Oller, dalam Nurgiyantoro, 1988:130). Butir soal  indek daya bedanya kurang dari 0,25% dianggap tidak layak. Oleh karena itu, soal diganti atau direvisi karena kurang membedakan antara kelompok tinggi dan rendah. Analisis  butir soal esai,untuk tes berbentuk esai, penghitungan dalam tingkat kesulitan dsn indeks daya pembeda, dipergunakan rumus sebagai berikut:
Tingkat Kesulitan (P ) = (Sh +SI –(2N x Skor min⁡))/(2N x ( Skor maks –Skor min⁡)  )
Daya Pembeda (D)     = (Sh -SI )/(N ( Skor maks –Skor min⁡) )    
Keterangan:
Sh            = Jumlah skor butir kelompok  tinggi
Sl             = Jumlah skor butir kelompok rendah
Skor  maks        = Skor maksimal suatu butir soal
Skor min        = Skor minimal suatu butir soal
N            = Jumlah subjek kelompok tinggi atau rendah (27,5%)
    Langkah-langkah yang di tempuh hampir sama dengan butir soal objektif di atas, tetapi pada langkah identifikasi jawaban benar dan salah berbeda. Pada tes objektif  skala yang digunakan 0 atau 1 sedangkan pada esai  1 – 5 atau 1 – 10. Artinya, pada tes esai jawaban benar diskala 1 sampai dengan 5 atau 1 sampai dengan 10 bergantung pada kualitas jawaban siswa terhadap butir soal trrsebut.

    Tingkat penerkaan
Makin kecil tingkat penerkaan, maka makin baik butir soal tersebut. Pengecoh dapat diterima karena sudah baik, ditolak karena tidak baik, dan ditulis kembali karena kurang baik. Kekurangannya itu dapat terletak pada rumusan kalimat. Sebuah distractor (pengecoh) dapat dikatakan berfungsi dengan baik apabila dipilih lebih dari 5 % pengikut tes. Analisis tingkat penerkaan soal tes akan disajikan pada tabel berikut ini.
No    Pilihan dipilih > 5%    Jumlah    Prosentase (%)
1
2
3
4
5    Empat pilihan
Tiga pilihan
Dua pilihan
Satu pilihan
Nol pilihan    17
16
13
3
1    34 %
32 %
26 %
6 %
2 %
    Jumlah    50    100 %

Tabel di atas menggambarkan seberapa tertariknya siswa untuk setiap pilihan. Dari 50 soal 34 % diantaranya semua pilihan berfungsi dengan baik, yaitu yang dipilih lebih dari 50 % siswa. Sedangkan 32 % lainnya hanya 3 pilihan yang diminati oleh siswa. Selanjutnya 26 % dari soal tersebut hanya 2 pilihan yang diminati oleh siswa. Sedangkan 3 butir soal (6 %) hanya satu pilihan yang diminati siswa secara baik. Sisanya satu butir (2 %) tidak satupun pilihan yang diminati siswa. Untuk soal nomor 1, pilihan A dan D tidak berfungsi dengan baik, soal nomor 2 dan 3 pilihan D tidak diminati siswa. Soal nomor 4 pilihan B dan C tidak berfungsi, soal nomor 5 pilihan A tidak berfungsi. Soal nomor 8 dan 9 pilihan D tidak berfungsi, nomor 16 dan 17 pilihan A tidak berfungsi. Nomor 21 pilihan B tidak berfungsi, nomor 22 pilihan C dan D tidak berfungsi. Nomor 24 pilihan C tidak berfungsi, nomor 26 pilihan B tidak berfungsi, nomor 27 pilihan D tidak berfungsi, nomor 35 pilihan A tidak berfungsi. Nomor 42 B tidak berfungsi, nomor 46 B dan D tidak berfungsi, selanjutnya nomor 47 pilihan B juga tidak berfungsi.
Dari 50 butir soal hanya 17 butir (34%) yang berfungsi keempat pilihan (A, B, C, D) dengan baik. Soal itu adalah nomor 19, 25, 27, 28, 29, 31, 32, 33, 34, 36, 37, 41, 43, 44, 45, 49, dan 50. Selanjutnya 16 butir soal (32 %) hanya 3 pilihan yang diminati siswa. Soal-soal itu ialah nomor 2, 3, 6, 8, 12, 13, 16, 17, 20, 23, 30, 35, 38, 39, 42, dan 48. Berikutnya sebanyak 13 butir soal      (26 % ) hanya dua pilihan yang diminati siswa. Soal-soal itu adalah 1, 4, 5, 9, 10, 11, 14, 15, 22, 24, 26, 40 dan 46. Selain itu 3 butir soal (6 %) hanya satu pilihan yang diminati siswa yaitu nomor 18, 21, dan 47. Sisanya 1 butir soal (2%) tidak satupun alternatif pilihan yang diminati oleh siswa yaitu soal nomor 7.
Berfungsi tidaknya pengecoh (distractor) banyak ditentukan oleh cara penyusunan suatu tes, tes pilihan yang disusun tanpa memperhatikan homogen tidaknya alternatif pilihan berpeluang untuk tidak berfungsi distraktor. Alternatif tersebut dapat ditebak tanpa dipikirkan atau tanpa belajar sama sekali. Demikian juga halnya bila kalimat pernyataan atau kalimat pertanyaan memberi petunjuk untuk jawaban yang benar. Panjang pendeknya alternatif pilihan dapat memberi petunjuk kearah kunci jawaban. Alternatif jawaban yang cendrung panjang, cendrung merupakan petunjuk jawaban yang benar. Begitu juga alternatif pilihan yang berbunyi ”semua benar ” merupakan petunjuk jawaban yang benar.

    Validitas
Sifat valid memberikan pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang sesungguhnya dari apa yang kita inginkan. Jika pada suatu kesempatan kita ingin memperoleh tinggi suatu meja, penggaris merupakan alat ukur yang valid, karena dengan alat ini kita akan dapatkan berapa centi meter tinggi meja tersebut. Meteran gulung juga alat yang valid. Salah satu ukuran validitas untuk sebuah kuesioner adalah apa yang disebut sebagai validitas konstruk (construct validity). Dalam pemahaman ini, sebuah kuesioner yang berisi beberapa pertanyaan untuk mengukur suatu hal, dikatakan valid jika setiap butir pertanyaan yang menyusun kuesioner tersebut memiliki keterkaitan yang tinggi. Misalkan saja untuk kuesioner yang digunakan mengukur kesejahteraan keluarga, maka butir-butir penyusunnya semuanya menuju ke satu titik, yaitu pengukuran kesejahteraan.
Validitas menurut gronlund (1985) dapat diartiakn sebagai ketepatan interpretasi yang dihasilkan dari scor tes atau instrument evaluasi. Suatu instrumen evaluasi dikatakan valid, seperti yang dietrangkan oleh Gay (1983) dn johnson and johnson 2002 apabila instrumen yang digunakan dapat mengukur apa yang hendak diukur. Jadi jika tes tersebut adalah tes pencapaian hasil belajar maka hasil tes tersebut apabila di interpestasi secara intesif, hasil yang dicapai mememng benar menunjukkan ranah evaluasi pencapaian hasil evaluasi belajar. Secara garis besar ada 2 macam validitas yaitu :
    Validitas logis
validitas logis mengandung kata “logis” berasal dari kata “logika” yang berarti penalaran. Dengan demikian validitas logis adalah suatu instrumen evaluasi yang menunjuk pada kondisi bagi dsebuah instrumen yang memenuhi persyaratan valid berdasarkan hasil penalaran. Kondisi valid tersebut dipandang terpenuhi karena instrumen yang bersangkutan sudah dirancang dengan baik, mengikuti teori dan ketentuan yang ada. Dengan demikian dapat disimpulkan bahwa validitas logis tidak perlu diuji kondisinya tetapi langsung diperoleh sesudah instrumen tersebut selesai disusun. Sedangkan, untuk macam-macam validitas logis itu ada dua yang dapat dicapai oleh instrumen yaitu:
    Validiatas isi
Yang dimaksud validitas isi adalah derajat dimana sebuah tes evaluasi mengukur cakupan subtansi yang ingin diukur.valididitas isi ini mencakuphal- hal yang berkaitan dengan apakah item – item evaluasi menggambarkan pengukuran dalam cakupan yang ingin diukur.
    Validitas konstruk
Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk sementara. Secara devinitif, konstruk merupakan suatu sifat yang tidak dapat diobservsi tetapi kita dapat merasakan pengaruhnya mellui salah satu atau dua indra kita.
    Validitas empiris
Istilah validitas empiris memuat kata “Empiris” yang artinya “Pengalaman”. Sebuah instrumen dapat dikatakan memiliki validitas empiris apabila sudah diuji dari pengalaman. sebagai contoh sehari-hari seseorang dapat diakui jujur oleh masyarakat apabila dalam pengalaman dapat dibuktikan bahwa orang tersebut jujur. Dari contoh diatas dapat diketahui bahwa validitas empiris tidak dapat diperoleh hanya dengan menyusun instrumen berdasarkan ketentuan seperti halnya validitas logis, akan tetapi harus dibuktikan melalui pengalaman. Ada dua macam validitas empiris, yakni ada dua cara yang dapat dilakukan untuk menguji bahwa sebuah instrumen memng valid yaitu validitas da sekarang dan validitas ramalan atau predeksi.

    Reliabilitas
Reliabilitas didefinisikan sebagai keterandalan alat ukur yang dipakai dalam suatu penelitian. Apakah kita benar-benar dapat mengukur dengan tepat sesuai dengan alat atau instrumen yang dimiliki. Dikenal beberapa jenis reliabilitas, yaitu berikut ini:
    Intercoder dan intracoder, yaitu pemberian kode dari luar dan dari dalam.
    Pretest, yaitu pengujian atau pengukuran perbedaan nilai antara juri-juri pemberi nilai.
    Reliabilitas kategori, yaitu derajat kemampuan pengulangan penempatan data dalam berbagi kategori.
    Reliabilitas suatu tes adalah seberapa besar derajat tes mengukur secara konsisten sasaran yang diukur. Reliabilitas dinyatakan dalam bentuk angka, biasanya sebagai koefisien. Koefisien tinggi berarti reliabilitas tinggi. Reliabilitas dapat dibagi lagi menjadi :
    Reliabilitas Tes Re-Tes
Adalah seberapa besar derajat skor tes konsisten dari waktu ke waktu. Reliabilitas diukur dengan menentukan hubungan antara skor hasil penyajian tes yang sama kepada kelompok yang sama, pada waktu yang berbeda.
    Reliabiltas Belah-Dua
Reliabiltas ini diukur dengan menentukan hubungan antara skor dua paruh yang ekuivalen suatu tes, ang disajikan kepada seluruh kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk mengoreksi koefisien yang didapat.

    Reliabilitas Rasional Ekuivalen
Reliabilitas ini tidak ditentukan menggunakan korelasi tetapi menggunakan estimasi konsistensi internal. Reliabilitas ini diukur menggunakan Kuder-Richardson, biasanya Formula-20 (KR-20) atau Formula-21 (KR-21). Kedua rumus ini hanya dapat dipakai untuk tes yang aitem-aitemnya diskor dikotomi, yaitu benar atau salah, 0 atau 1.
    Reliabilitas Penyekor/Penilai
Adalah reliabilitas dua atau lebih penyekor independen. Reliabilitas ini biasa ditentukan menggunakan teknik korelasi, tetapi juga dapat hanya dinyatakan dalam persentase kesepakatan.



Tugas
PENILAIAN PENGAJARAN BAHASA INDONESIA





Oleh

WAHAR NINA
A2D1 09163

JURUSAN BAHASA DAN SASTRA INDONESIA DAN DAERAH
FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS HALUOLEO
KENDARI
2011

1 komentar: