INTRODUCTION TO CLASICAL AND MODERN TEST TEORY

Chapter Reeport
INTRODUCTION TO CLASICAL AND MODERN TEST TEORY
By: Linda Crocher

Chapter VII
PROCEDURES FOR ESTIMATING RELIABILITY
(Langkah-langkah untuk Menentukan Reliabilitas)

Diajukan Untuk Memenuhi Tugas Mingguan
Mata Kuliah:
TESTING PSIKOLOGIS
Dosen Pembimbing: Prof. H. Furqon, MA., Ph.D.
Dr. Budi Susetyo, M.Pd

Disusun Oleh:
JON EFENDI
NIM. 0908305/S3/BK

SEKOLAH PASCA SARJANA
UNIVERSITAS PENDIDIKAN INDONESIA
BANDUNG
2009
Chapter VII
PROCEDURES FOR ESTIMATING RELIABILITY
(Langkah-langkah untuk Menentukan Reliabilitas)

Dalam bab yang terdahulu adalah suatu model teoritis untuk menandai pengaruh tentang kesalahan acak terhadap tes score. Menurut model clasiscal score yang benar, disamping koefisien keandalan suatu korelasi sejalan dengan rumus Koefisien Keandalan disamping itu telah ditunjukkan juga untuk mengamati perbedaan score yang bisa dihubungkan dengan perbedaan peserta ujian dalam score yang benar. dalam prakteknya, bagaimanapun, pengembangan test tidak bisa dijamin untuk menciptakan pengukuran,dengan sempurna paralel maupun posii perolehan score tes yang benar dari peserta. Kemudian bagaimana mmenentukan koefisien keandalan untuk satu set pengukuran? Jawabannya bahwa suatu koefisien keandalan suatu set score tidak pernah dapat ditentukan secara pasti; bagaimanapun, jadilah diperkirakan untuk contoh individu yang ditentukan untuk menjawab materi test sesuai contoh yang ditentukan. Bukan karena istilah perkiraan tidak mengacu pada pemandangan di data dan pembuatan suatu terkaan tentang keandalan mereka tetapi lebih pada menghitung suatu posisi nilai angka dari suatu contoh obsevations, yang mana suatu perkiraan kwantitas penyelidikan. Penggunaan suatu di atas lambang yang statistik sangat berarti, perbedaan, dan korelasi yang menandakan bahwa jumlah ini dihitung untuk suatu contoh dibanding/bukan hanya mewakili suatu populasi.
Bab ini bertujuan untuk menguraikan prosedur yang biasanya dilakukan untuk memperkirakan keandalan dari suatu tes. Data yang digunakan untuk menaksir koefisien keandalan dapat dikumpulkan dari berbagai prosedur, sedikitnya ada dua sudut pandang tentang bagaimana seseorang memilih metoda yang paling sesuai. Satu pandangan bahwa prosedur yang optimal menghasilkan suatu perkiraan korelasi yang akan diperoleh jika score dengan format tes paralel yang tersedia. Artinya studi keandalan dirancang untuk memperkecil efek nonparallel sebab pengukuran dengan penggunaan pengukuran paralel sepertinya tidak mungkin. Suatu segi pandangan (yang mendasar pada bab ini dan bab berikutnya terhadap teori kemampuan generalisasi) bahwa prosedur yang paling sesuai dapat ditentukan oleh penggunaan test yang diharapkan dalam menentukan suatu prestasi. Pengembangan test dapat dilakukan untuk mengidentifikasi sumber kesalahan pengukuran yang paling merugikan untuk penafsiran suatu score serta bermanfaat dan mendisain suatu studi keandalan yang dapat diteleransi untuk kesalahan serupa selalu terjadi sehingga dampaknya dapat ditaksir.

Prosedur yang menuntut dua administrasi test
Metoda Format Pengubah
Bahwa semua calon untuk masukan ke dalam kesehatan jabatan;pendudukan tertentu harus mengambil suatu pengujian status, yang mana administrasinya dilakukan di bawah kondisi-kondisi yang dikendalikan pada lokasi yang ditentukan. Untuk mengurangi kemungkinan kecurangan, peserta ujian dengan tempat duduk bersebelahan sedangkan format test berbeda mencakup isi yang sama. Yang jelas masing-masing peserta ujian mempunyai hak yang sama untuk mendapatkan skor bahwa skornya tidak akan sangat di/terpengaruh oleh format test yang diambil. Dalam hal ini, terutama kesalahan pengukuran yang berhubungan dengan tes para pemakaian dan perbedaan isi format test. Tentu saja, administrasi dan kesalahan membuat angka, tebakan, dan fluktuasi yang berbeda bagi peserta ujian juga berperan untuk ketetapan suatu prestasi. Ini berhubungan dengan, pengembangan test dalam menentukan koefisien keandalan suatu test dengan menggunakan metoda format pengubah.
Metoda Format Pengubah akan membangun dua format serupa dari suatu test dan mengatur kedua-duanya dalam kelompok yang sama dari peserta ujian. Format tes harus diatur di dalam suatu periode waktu, sehingga peserta ujian tidak akan kelelahan. Pertimbangan dilakukan sebagai menyeimbangkan sehingga separuh peserta ujian secara acak akan membentuk 1, sedangkan lainnya akan mengambil format 2. Koefisien korelasi antara kedua satuan score bertujuan untuk menghitung, biasanya digunakan rumus Pearson atau Product Momen. Koefisien korelasi ini di9sebut juga dengan koefisien kesamaan. Koefisien kesamaan yang lebih tinggi, semakin dapat dipercaya untuk menguji prestasi dari test yang berbeda format.
Test manapun yang mempunyai berbagai format kesamaan yang khas, test prestasi dan keserasian dibangun dengan berbagai format seperti; bidang klinis, bidang pendidikan, atau penggunaan riset peserta tes mempunyai suatu kesempatan untuk mengulang kembali pengujian, dan pemakai test tidak ingin menggunakan materi yang sama, aturan yang mendasari/membuat bahwa nilai bisa diterima untuk keandalan menaksir format pengubah, banyak prestasi distandardisasi tes koefisien berkisar 80s suatu 90s untuk keandalan jenis ini . Sebagai tambahan, nilai-nilai rata-rata, simpangan baku, dan kesalahan pengukuran baku harus dilaporkan untuk masing-masing format, dan ini harus ditafsirkan sebagai perkiraan keandalan

Metode Test-Retest
Beberapa orang melakukan pengujian dari suatu situasi dengan satu format test sudah cukup, tetapi pemakai test tertarik, bagaimana ketetapan peserta ujian bereaksi terhadap ini terbentuk berdasarkan perbedaan waktu. Dalam situasi ini kesalahan pengukuran didasari perhatian utama terhadap fluktuasi dari suatu score yang diperoleh peserta ujian terhadap score yang benar oleh karena perubahan temporer di (dalam) status peserta ujian tersebut. Lagipula, bagaimanapun, kesalahan dalam kaitan dengan administrasi, membuat angka dengan cara menebak oleh penempuh ujian, dan lain fluktuasi temporer di (dalam) perilaku mungkin punya suatu dampak pada score yang diamati. Untuk menaksir dampak seperti (itu) kesalahan pada test menggambarkan (prestasi) keandalan, membangun dan mengecek test dalam suatu kelompok pserta ujian, masa penantian, mengurus kembali test yang sama kepada kelompok yang sama, dan kemudian menghitung koefisien korelasi antara kedua satuan mengukur prestasi. Untuk mengukur Coeeficient Korelasi melalui prosedur test-retest atau disebut dengan koefisien stabilitas.
Bukti derajat tingkat stabilitas di (dalam) score test adalah diinginkan untuk tes itu mungkin (adalah) digunakan untuk penempuh ujian tempat di (dalam) program jangka panjang. Sedikit, bila ada, standard ada untuk menghakimi nilai bisa diterima yang minimum untuk suatu test- keandalan paling membasahi/mencelupkan menaksir. Di antara koefisien test-retest yang paling tinggi melaporkan untuk test [yang] diterbitkan adalah mereka yang perjanjian keserasian [yang] diatur Sebagai contoh, untuk/karena subscales Wechsler Adult Inteligence Scale (WAIS), koefisien dengan nilai-nilai di (dalam) 70s, 80s, dan bahkan rendah 90s telah dilaporkan ( lihat Wechsler, 1958). Keandalan Test-retest untuk kepribadian, [bunga/minat], atau sikap ukuran adalah sering lebih rendah dari [mereka/yang] untuk test aptitude, tetapi instrumen well-constucted [yang] mengukur ciri tergambar jelas boleh masih mempunyai test-retes koefisien di (dalam) the80s. Untuk/Karena examle, interst kejuruan yang kuat Kosong ( 1966 edisi) mempunyai lebah yang dilaporkan untuk mempunyai koefisien keandalan jangka pendek di (dalam) 80s dan koefisien jangka panjang di (dalam) yang lebih rendah 60s, bahkan setelah suatu janga waktu 20 tahun ( Kaplan Dan Saccuzzo, 1982, p. 341)As kita akan melihat diskusi yang berikut, faktor kritis di (dalam) mengevaluasi penting/besar suatu stabilitas perkiraan harus meliputi waktu yang berlalu antar[a] pengujian dan [umur/zaman] penempuh ujian seperti halnya sifat alami ciri yang teoritis [dirinya] sendiri.
Suatu pertanyaan kritis di (dalam) perancangan suatu studi test-retest ini: berapa banyak waktu [perlu] berlalu antar[a] pengujian? Tidak ada jawaban tunggal . Waktunya perio harus cukup panjang untuk mengijinkan efek memori atau praktek untuk [tidak/jangan] memudar tetapi asalkan untuk mengijinkan maturational atau perubahan historis untuk terjadi score penempuh ujian benar. Tujuan di mana tes score (diharapkan) untuk digunakan harus diperhitungkan menunjuk idah [itu]. Sebagai contoh, mempertimbangkan suatu test untuk menilai tingkatan dari suatu psychomotor pengembangan bayi. Ther adalah bahaya [kecil/sedikit] [bahwa/yang] bayi akan ingat tanggapan sebelumnya; ada, bagaimanapun, kemungkinan yang kuat yang waktu menjadi masak akan menyebabkan perubahan di (dalam) capaian jika penundaan antar[a] pengujian adalah juga [panjang/lama]. Lagipula, . seperti (itu) score tidaklah digunakan untuk ramalan [yang] jangka panjang tetapi biasanya digunakan untuk perencanaan [adalah] suatu program [yang] segera [dari;ttg] intervensi psikologis atau medis, yang akan [jadi] dievaluasi kembali [adalah] suatu jangka pendek waktu. Mempertimbangkan semua berbagai hal ini , suatu masa tunggu suatu hari [bagi/kepada] satu minggu boleh jadi sesuai. Di (dalam) contrst, mempertimbangkan suatu orang dewasa inventori [bunga/minat] kejuruan. Orang dewasa adalah sunggung mungkin untuk meyampaikan salam ke sebagian dari tanggapan mereka materi test (di) atas secara relatif periode lame, dan secara hipotetis [bunga/minat] kejuruan harus stabil (di) atas lama waktu memutar [karena;sejak] kebanyakan orang dewasa terlibat dalam jenis yang sama pekerjaan untuk years.Furthermore, score dari . seperti (itu) instrumen digunakan untuk menasehati penempuh ujian tentang akademis atau program latihan kejuruan yang boleh memerlukan beberapa minggu [bagi/kepada] beberapa tahun untuk penyelesaian. Jika minat penempuh ujian, [seperti/ketika] di/terukur oleh instrumen ini, berubah-ubah sangat di dalam waktunya jengkal suatu periode pelatihan khas., informasi ini harus tersedia untuk potensi tes para pemakai. Alll Berbagai hal mempertimbangkan, [itu] tidak akan jadilah tidak beralasan untuk mengijinkan enam bulan [bagi/kepada] dua tahun untuk berlalu ketika pelaksanaan suatu studi test-retest untuk seperti itu suatu instrumen. Apapun juga [yang] waktunya periode antar[a] pengujian, adalah penting untuk mengenali koefisien [yang] test-retest berbeda itu boleh menghasilkan jika periode waktu berbeda di/terpilih.
Penafsiran suatu koefisien stabilitas sebagai suatu perkiraan keandalan menaikkan beberapa pertanyaan menarik. Ketika suatu koefisien rendah diperoleh, mengerjakan ini menunjukkan bahwa test [itu] menyediakan ukuran [yang] tak dapat dipercaya ciri, atau mengerjakan [itu] menyiratkan [bahwa/yang] ciri [dirinya] sendiri adalah tidak stabil? Jika pemakai test percaya bahwa sejumlah ciri penempuh ujian menguasai [perlu] bertukar waktu, assumtion [yang] abasic clasical score benar model telah dilanggar corelation koefisien bukanlah suatu perkiraan keandalan score test sesuai. Suatu isu detik/second adalah apakah suatu perilaku penempuh ujian diubah oleh administrasi test yang pertama sedemikian sehingga test score yang kedua akan mencerminkan efek memori, praktek, pelajaran, kebosanan, sensitisasi, atau konsekwensi [yang] lain pengukuran yang pertama [itu]. Infew [dari;ttg] ini mengeluarkan ia/nya toassume mungkin masuk akal [bahwa/yang] koefisien yang test-retest representsa sedikit banyak(nya) perkiraan [yang] tidak akurat theorietical koefisien keandalan. Meskipun demikian, informasi pada [atas] stabilitas score test adalah kritis untuk menguji pemakai score di (dalam) banyak orang yang praktis menguji situasi.

Test-Retest Dengan Format Berbeda
Keandalan Koefisien boleh juga diperkirakan dengan penggunaan suatu kombinasi yang test-retest dan mengubah metoda format. Dalam hal ini, prosedur adalah adminster membentuk 1 test, masa penantian, dan kemudian mengurus format 2. Jika posible, [itu] adalah diinginkan [bahwa/yang] oeder adminstration format disediakan untuk separuh kelompok [itu]. Corelation Koefisien antara kedua satuan score dikenal sebagai koefisien stabilitas dan kesamaan. Koefisien ini adalah afferected oleh kesalahan pengukuran dalam kaitan dengan sampling isi di (dalam) konstruksi format sama whell seperti ke perubahan di (dalam) capaian individu dari waktu ke waktu dan hampir semua lain jenis kesalahan [yang] previusly uraikan. . seperti (itu) perkiraan keandalan pada umumnya lebih rendah dari baik suatu koefisien kesamaan maupun suatu koefisien stabilitas

Metoda [Yang] menuntut Test tunggal Adminstration
Ada banyak orang menguji situasi ketika suatu singgle format suatu test akan [jadi] diatur hanya sekali ketika [bagi/kepada] suatu kelompok penempuh ujian. Contoh [yang] paling umum itu adalah suatu teacher-made perjanjian kelas Instruktur [yang] pada umumnya menyusun;merias hanya satu format dan mengurus ia/nya [bagi/kepada] semua para siswa. Lagipula, instruktur tidak akan necerssarily harapkan capaian siswa untuk konsisten pada [atas] ini menguji dari waktu ke waktu [karena;sejak] para siswa akan melanjut untuk belajar ( atau melupakan) material pada tingkat tarip berbeda. namun [itu] namun [yang] sungguh sesuai untuk;menjadi tertarik akan exten [itu] [bagi/kepada] yang mana perbedaan score yang diamati untuk penempuh ujian mencerminkan perbedaan score [yang] benar mereka pada [atas] ini menguji pada waktu ini. eperti di paling menguji situasi pemeriksa tidaklah terutama semata terkait dengan bagaimana penempuh ujian mencetak (prestasi) pada [atas] materi ini yang didalam (dirinya): pada umumnya pemeriksa ingin menyamaratakan dari materi [yang] spesifik ini [bagi/kepada] suatu conten daerah posible materi lebih besar yang mungkin telah [diminta;tanya]. satu arah Untuk menaksir bagaimana secara konsisten capaian penempuh ujian pada [atas] test ini dapat disamaratakan kepada daerah materi yang mungkin telah [diminta;tanya] adalah untuk menentukan bagaimana secara konsisten penempuh ujian melakukan ke seberang materi atau subsets ot materi pada [atas] format test tunggal ini. Prosedur merancang untuk menaksir keandalan di (dalam) keadaan ini [disebut/dipanggil] metoda konsistensi internal. Semua penilaian konsistensi yang internal memeriksa prosedur introducted nilai luluh bab ini yang adalah fungsi korelasi antar[a] [yang] dicapai bagian dari suatu perjanjian. Sesungguhnya, beberapa nilai luluh prosedur yang adalah fungsi corelations corelation antar[a] [yang] dicapai membelah dua suatu perjanjian [Itu] adalah layak untuk berpikir tentang corelation antar[a] subsets item [sebagai/ketika] menyediakan informasi beberapa tentang tingkat [bagi/kepada] yang (mana) mereka telah dibangun menurut yang sama spesifications. Jika capaian penempuh ujian adalah konsisten acros subsets materi di dalam suatu test, pemeriksa dapat mempunyai kepercayaan beberapa bahwa . ini capaian akan menyamaratakan [bagi/kepada] lain posible materi di (dalam) daerah isi. Di (dalam) melaksanakan suatu studi konsistensi internal, kita terutama semata memperhatikan kesalahan disebabkan oleh sampling isi, walaupun kesalahan pengukuran oleh karena adminstration salah/cacat dan membuat angka, tebakan, dan fluktuasi [yang] temporer [dari;ttg] capaian individu di dalam pengujian sesi boleh juga mempengaruhi koefisien konsistensi yang internal.
Kapan penempuh ujian melaksanakan consitently ke seberang materi di dalam suatu test, test dikatakan kepada mempunyai homoginitas item. Dalam urutan untuk suatu kelompok materi untuk homogen, mereka harus mengukur jenis yang sama capaian ( atau menghadirkan daerah isi yang sama). Materi harus pula sungguh [baik] [di]tertulis dan bebas dari kekurangan teknis yang boleh menyebabkan penempuh ujian untuk menjawab pada [atas] basis beberapa yang tidak bertalian kepada isi [itu]. Kapan materi pada [atas] test tunggal digambar/ditarik dari area berbeda ( e.g., math, sejarah, dan literatur), penempuh ujian [yang] mungkin tidak akan melaksanakan secara konsisten ke seberang materi ini dan koefisien konsistensi internal akan [jadi] dikurangi. Dengan cara yang sama, jika materi datang dari area tunggal, untuk/karena exaple, sejarah, tetapi beberapa materi menguji (orang) yang lain dan konsep utama didasarkan pada poin-poin kecil tersebut hanya di [dalam] catatan kaki teks, [itu] lagi mungkin konsistensi capaian [yang] internal itu akan [jadi] rendah. Akhirnya, sekalipun semua materi adalah adil wakil;contoh daerah isi, tetapi beberapa dengan kurang baik [di]tertulis sedemikian sehingga penempuh ujian boleh salah menafsir jawaban atau pertanyaan [itu] berdasar pada derajat tingkat bijaksana test mereka” dibanding/bukannya pengetahuan mereka, ini akan lagi menurunkan konsistensi internal. Seperti itu, adalah selalu sesuai untuk menyelidiki konsistensi yang internal suatu test [karena;sejak] koefisien konsistensi yang internal adalah suatu index kedua-duanya homogenitas isi item dan mutu item.
Di (dalam) bagian yang berikut dua kelas metoda [yang] lebar untuk menaksir koefisien keandalan untuk administrasi test [yang] tunggal akan [jadi] diperkenalkan. Yang pertama biasanya ditandai [ketika;seperti] ” split-half” memeriksa prosedur. Kelas metoda yang kedua memerlukan suatu analisa variance-covariance struktur materi resposes. Semua metoda menghasilkan suatu index konsistensi yang internal tanggapan examiness’ kepada materi di dalam format test tunggal.

Methode Split-Half
Gunakan split-half metoda [itu], pengembang test mengurus satu format test [bagi/kepada] suatu kelompok penempuh ujian. [Sebelum/Di depan] membuat angka test, bagaimanapun, pengembang test membagi materi [itu] ke dalam dua subtest, masing-masing separuh panjang perjanjian yang asli Seperti itu, jika suatu 20-item test telah diatur, [itu] akan dibagi inti dua half-test untuk 10 materi masing-masing. Niat adalah untuk menciptakan dua wich half-test adalah [sebagai/ketika/sebab] hampir paralel seperti posible. Empat metoda populer untuk membagi suatu test ke dalam membelah dua untuk:
1. Nugaskan semua item bernomor gasal untuk membentuk 1 dan semua materi even-numbered untuk membentuk 2
2. Golong [order/ pesanan] materi dalam kaitan dengan dificulty tingkatan mereka ( p-values) terbaik pada [atas] reponses penempuh ujian; kemudian menugaskan materi dengan bernomor gasal tergolong untuk membentuk 1 dan mereka yang mempunyai even-numbered tergolong untuk membentuk 2
3. Secara acak menugaskan materi kepada keduanya format half-test
4. Nugaskan materi ke format half-test sedemikian sehingga format adalah ” yang ditarungkan” di (dalam) isi

dua half-test adalah dicapai secara terpisah untuk masing-masing penempuh ujian, dan koefisien korelasi dihitung antar[a] dua satuan ini mencetak (prestasi). Proses ini digambarkan [tabel;meja] 7.1. Secara konseptual koefisien korelasi ini adalah koefisien kesamaan untuk keduanya membelah dua Catatan perjanjian, bagaimanapun, [bahwa/yang] koefisien memperoleh format prosedur ini adalah nampaknya akan suatu meremehkan koefisien keandalan untuk sepanjang menguji ( test lebih panjang biasanya lebih dapat dipercaya dibanding test lebih pendek [karena;sejak] kesalahan pengukuran oleh karena sampling isi dikurangi). Untuk mengalahkan masalah ini, test pengembang dapat mempekerjakan Spearman [itu] Rumusan Nubuatan coklat untuk memperoleh perkiraan yang dikoreksi koefisien keandalan sepanjang perjanjian Ketika berlaku untuk korelasi [itu] antar[a] half-test rumusan ini ditulis seperti:

Rumus (7.1)

[Di mana/jika] pxx’ adalah keandalan memproyeksikan untuk sepanjang test dan PAB adalah korelasi antar[a] [itu] half-tests. Seperti itu, jika korelasi antar[a] dua half-tests tiga masing-masing materi adalah 34, keandalan yang dikoreksi menaksir untuk six-item yang penuh test akan

para pemakai Spearman Warna coklat yang dikoreksi [perlu] catat bahwa prosedur ini didasarkan pada asumsi [itu] [bahwa/yang] half-tests dengan keras paralel. Semakin besar semakin pelanggaran [dari;ttg] asumsi ini, semakin sedikit akurat akan menjadi hasil memperoleh.
Suatu metoda pengubah untuk menaksir keandalan dari score half-test, yang tidak memerlukan penggunaan Spearmen Koreksi coklat, telah diusulkan oleh Rulon ( 1939). Metoda ini melibatkan penggunaan perbedaan mencetak (prestasi) antar[a] half-tests:
D = A – B

[Di mana/jika] Suatu adalah score penempuh ujian pada [atas] lebih dulu half-test dan B adalah score pada [atas] half-test yang kedua . Perbedaan [dari;ttg] score perbedaan ini,………. digunakan sebagai suatu perkiraan……… di [dalam] definitonal rumusan koefisien keandalan sedemikian sehingga;

Rumus (7.3)

Jika perbedaan mencetak (prestasi) untuk masing-masing penempuh ujian di (dalam) [tabel;meja] 7.1 dihitung dan perbedaan [dari;ttg] perbedaan ini ditentukan, kita memperoleh suatu perkiraan keandalan

Walaupun Metoda Rulon’s mungkin yang paling sederhana untuk menggunakan untuk perhitungan tangan, [itu] adalah setara dengan rumusan lain untuk split-half penilaian keandalan [yang] pada umumnya menghubungkan dengan Guttman ( 1945) atau Flanagan ( Batang pembawa, 1942)
Seperti itu, kita sudah melihat bagaimana data memperoleh dari adminstering sekedar menguji sekali ketika dapat dibagi menjadi dua [part;bagian]. Score memperoleh dari dua [part;bagian] itu mungkin (adalah) diperlakukan salah satu dari dua jalan:
1. Korelasi antar[a] half-tests dapat dihitung dan dikoreksi dengan Spearman Rumusan coklat.
2. Score dari keduanya half-tests dapat digunakan Inthe Rulon Atau Guttman Metoda untuk menaksir keandalan sepanjang perjanjian

Bagaimana serupa adalah hasil memperoleh dari Spearman Warna coklat Dan Rulon memeriksa prosedur? Ketika perbedaan keduanya half-tests adalah sama, prosedur menghasilkan perkiraan serupa. Lagipula, Cronbach ( 1951) yang dipertunjukkan bahwa ketika perbandingan simpangan baku keduanya half-tests berada antar[a] 90 and1.1, prosedur menghasilkan hampir hasil yang sama [itu]. [Seperti;Sebagai;Ketika] simpangan baku tumbuh incresingly berlainan, korelasi antar[a] half-tests yang dikoreksi oleh Spearman Teknik secara sistematis lebih besar dari [mereka/yang] memperoleh dari Rumusan Rulon’s.
Satu kelemahan menggunakan split-half memeriksa prosedur dengan baik Spearman Maupun Rulon Analisa adalah bahwa [itu] tidak menghasilkan suatu perkiraan [yang] unik koefisien keandalan test. Ada banyak posible jalan membagi suatu test ke dalam membelah dua. [Sebagai/Ketika/Sebab] Brownell ( 1933) yang dicatat [adalah] suatu awal diskusi [dari;ttg] masalah ini, benar-benar ada ………………. jalan [yang] berbeda membagi test k materi ke dalam membelah dua, dan divisi [yang] berbeda ini dapat mengakibatkan perkiraan keandalan berbeda. [Yang] dengan jelas ini adalah menyebabkan untuk perhatian.

Metoda Dasar pada Kovarians Item
Ketiadaan suatu perkiraan unik untuk konsistensi yang internal tes mencetak (prestasi) dari contoh tunggal penempuh ujian pada [atas] satu kesempatan adalah suatu masalah yang menerima banyak perhatian di [dalam] literatur psychometric 1930s dan 1940s. Kemudian di dalam suatu waktu [yang] pendek/singkat tiga prosedur telah diusulkan yang menaklukkan masalah ini. Walaupun mereka nampak berbeda di luarnya, ke tiga prosedur uraikan hasil di sini hasil serupa. Ke tiga prosedur [yang] digunakan adalah Kuder Richardson 20, Alfa Cronbach’s, dan Analisa perbedaan Hoyt’s. Mereka yang ingin membaca manual test, tinjauan ulang test, atau lain pengembangan test literatur harus mengenali kesamaan [dari;ttg] metoda ini untuk menghindari kebingungan. Kita akan menggunakan istilah alfa koefisien untuk mengacu pada kelas prosedur ini.

Koefisien Alpha. Alfa Koefisien di (dalam) 1951, Cronbach yang precented suatu menyeluruh syntesis dan diskusi berbagai metoda untuk menaksir konsistensi [yang] internal dan berhubungan [mereka/nya] ke genaral rumusan tunggal mengetahui [ketika;seperti] Alfa Cronbach’s. Alfa Koefisien dihitung oleh rumusan.

Rumus (7.4)

[Di mana/jika] k adalah banyaknya materi pada [atas] test,………….. adalah perbedaan item i, dan…………. adalah total perbedaan test. Alfa dapat digunakan untuk perkiraan konsistensi materi yang internal wich dichotomously dicapai atau materi wich mempunyai suatu cakupan luas anak timbangan membuat angka, seperti [mereka/yang] pada [atas] pengujian esei atau inventaris sikap sama. Untuk/Karena exaple, umpamakan bahwa penempuh ujian telah (menjadi) pada [atas] empat materi esei di (dalam) wich yang mungkin scres terbentang dari 0 [bagi/kepada] 10 poin-poin, dan………………., and…………16. Jika total perbedaan score untuk pengujian adalah ……………….= 100,

Untuk menginterpretasikan nilai ini sebagai suatu perkiraan suatu koefisien keandalan, kita harus catat bahwa Penyamaan 7.4 hanya jalan lain untuk menyatakan rumusan [itu] untuk keandalan suatu gabungan, wich telah diperoleh bab 6. dalam konteks administrasi test tunggal, masing-masing item [mendasari/membuat] salah satu [dari] k subtests, dan total score test adalah gabungan [itu]. [Seperti/Ketika] menunjukkan bab 6, jika kita akan berasumsi bahwa semua tiems dengan sempurna paralel subtests, koefisien alfa akan menghadirkan suatu perkiraan [yang] langsung………. untuk/karena total score test. Di (dalam) paling menguji situasi, bagaimanapun, asumsi ini adalah tak dapat dipertahankan, dan demikian kita adalah rescricted [bagi/kepada] berkata yang………………. ( suatu ketidaksamaan juga yang dibahas bab 6). [Dengan] begitu di (dalam) contoh saat ini, [di mana/jika] ………= 80, kita dapat kata[kan al paling sedikit itu 80% tentang total perbedaan score ( atau kovarians yang secara sistematis mempengaruhi capaian ke seberang materi pada [atas] test).

Formula Kuder Richardson
Seperti dicatat lebih awal bab ini, alfa koefisien dapat dihitung oleh beberapa metoda selain dari gneral rumusan memperkenalkan Penyamaan 7.4. Satu yang terbaik mengetahui metoda adalah Kuder Richardson 20. KR 20 kaleng digunakan hanya dengan materi [yang] dicapai. Rumusan ini telah diperoleh oleh KR ( 1937) [seperti/ketika] mereka mencari suatu solusi kepada masalah yang split-half metoda yang digagalkan untuk menghasilkan suatu hasil unik untuk perjanjian [yang] ditentukan Catatan/Kertas Hal menonjol Mereka berisi dua rumusan penilaian, mengetahui ke hari [sebagai/ketika] KR 20 dan KR 21. Nama telah diambil dari langkah-langkah yang dinomori di (dalam) asal usul di (dalam) artikel jurnal [di mana/jika] rumusan telah diperkenalkan. KR 20 rumusan adalah;

KR20 (7.5)

Di mana/jika] k adalah banyaknya materi di (dalam) test,………… adalah total perbedaan test, dan pq adalah perbedaan item i. ( Rumusan ini adalah serupa ke alfa koefisien dengan penggantian………………..) Catat bahwa tambahan/ somasi [itu] menunjukkan bahwa perbedaan dari tiap item harus dihitung dan kemudian perbedaan ini yang dijumlahkan untuk semua materi. Tabel 7.2 menggambarkan perhitungan KR 20 untuk satuan tanggapan item memperkenalkan Tabel 7.1.
Dengan mengira bahwa semua materi adalah kesukaran sama, KR juga memperoleh suatu rumusan lebih sederhana, wich tidak memerlukan menghitung perbedaan item masing-masing. KR 21 rumusan dapat [di]tertulis [ketika;seperti]

Rumus KR21 (7.6)

[Di mana/jika] µ adalah rata-rata total score,…………. adalah total perbedaan score, dan k adalah banyaknya materi pada [atas] perjanjian Tabel 7.2 juga banyak hadiah dan contoh perhitungan KR21. Ketika semua materi adalah kesukaran sama, KR 20 dan KR 21 metoda akan menghasilkan perkiraan keandalan padanan; bagaimanapun, kapan berbagai kesulitan item bertukar-tukar, keandalan menaksir dari KR 20. Karena ini memberi alasan, [itu] tidaklah biasanya dipertimbangkan [yang] bisa diterima untuk suatu tes penerbit atau peneliti untuk melaporkan hanya KR 21 keandalan menaksir untuk satu set score test. Para guru Kelas atau lain praktisi [siapa] yang harus melaksanakan perhitungan mereka dengan hanya pensil dan catatan/kertas atau suatu tangan kalkulator boleh temukan KR [itu] 21 cukup sebagai lower-bound perkiraan koefisien konsistensi yang internal dari tes.

Tabel 7.2 halaman 140

Metode HOYT’S
Bekerja bebas dari Kuder dan Richardson, Hoyt (1941) mengembangkan suatu pendekatan ke arah penilaian keandalan yang juga %hasil-%hasil menghasilkan serupa kepada [mereka/yang] memperoleh alfa koefisien wujud. metoda Hoyt didasarkan pada analisis ragam, [perlakukan/ traktir] orang-orang dan item sebagai sumber variasi. menggunakan notasi analisis ragam standar, ia defided keandalan menaksir seperti(ketika

Rumus (7.7)

Di Mana MSPERSONS adalah istilah rata-rata bujur sangkar untuk orang mengambil dari anlysis dari meja ringkasan perbedaan, dan MSresidual adalah penyiku? lapangan rata-rata t membentuk ragam residual di dalam meja yang sama. Meja 73 adalah anlysis dari meja ringkasan varience untuk item resposes di dalam meja 71 dan menggambarkan kalkulasi koefisien Hoyt. Hoyt berhubungan rumusan nya kepada definisi yang teoritis koefisien reliabily dengan mencatat bahwa MSpersons mewakili; menunjukkan mengamati perbedaan score dan MSresidual mewakili; menunjukkan ragam galat di dalam ungkapan keandalan yang teoritis

Table 7.3 dan rumus hal 141

Karena metoda Hoyt requares pengetahuan tentang suatu prosedur sedikit statistik lebih rumit dibanding rumusan-rumusan order(pesanan untuk menghitung alfa koefisien, pembaca itu boleh bimbang mengapa itu sudah tersebut di sini. Alasan yang utama adalah bahwa/karena anlysis dari perbedaan adalah statisticalprocedure umum yang lebih secara luas tersedia di dalam komputer sofware pakages dibanding dengan memprogram spesifically yang ditulis untuk menghitung alfa oleh metoda lain manapun. Pengetahuan Ini dapat selamatkan usaha-usaha programming untuk pemakai test yang ingin menggunakan pengolahan data terkomputerisasi untuk menaksir keandalan dari suatu himpunan dari item menanggapi.
Seperti dan bantuan kepada pembaca di dalam meringkas pendekatan yang utama kepada penilaian keandalan disscused di dalam bab ini, meja 74 menandai (adanya) sumber dari kesalahan bahwa jenis pengaruh dari perkiraan dan prosedur-prosedur pengumpulan data dan analisa yang sesuai untuk menggunakan karena masing-masing tipe.

Table 7.4 hal 141

Hubungan Alfa ke(pada Split-Half Menaksir

Dengan pengembangan antara 1935 dan 1955 begitu banyak prosedur-prosedur untuk menaksir tes keandalan dari suatu administrasi test, tidaklah mengherankan bahwa pengembang-pengembang test di dalam periode ini adalah sedikit banyak(nya) yang dikacaukan tentang metoda wich untuk menggunakan untuk penilaian konsistensi yang internal atau bagaimana caranya menginterpretasikan perkiraan-perkiraan memperoleh (Lembah dalam, 1950a). Terutama sekali, kemunculan dari alfa dan prosedur-prosedur rekan pendamping nya menyalakan kontroversi sekitar sifat yang paling hakiki keandalan test diri sendiri. Pada suatu pihak, ahli teori seperti Leovinger (1947) berpikir bahwa homogenitas item adalah satu harta tes yang penting hanya tanpa tidak the suatu konsep yang terpisah; jelas dari dugaan tradisional keandalan test, yang yang digambarkan sebagai corelation antara dua wujud paralel (atau membelah dua) dari suatu tes. Kelley (1942) whetherit yang ditanyakan bahkan layak untuk mempertimbangkan; menganggap keandalan dari wujud nya dari suatu perjanjian Sebaliknya, Cureton (1958) dan yang ditunjukkan lain bahwa keandalan bisa dengan baik digambarkan sebagai rasio perbedaan score yang benar kepada mengamati perbedaan score; menurut definisi ini, itu nampak sungguh yang sesuai untuk mempertimbangkan; menganggap keandalan suatu wujud test. Menurut sejarah, segi pandangan yang belakangan berlaku, membantu oleh Cronbach (1951), yang memperjelas hubungan antara koefisien alph dan merobek separuh prosedur-prosedur penilaian. diskusi Nya berisi point-point berikut di penafsiran yang sesuai alfa koefisien.
1. Koefisien alfa dapat digunakan sebagai satu indeks dari consitency yang internal. [ini] merupakan suatu “karakteristik dari suatu test menguasai berdasarkan atas antarkorelasi-antarkorelasi yang positif penyusunan item nya(itu” (Kuder dan Richardson, 1937). Di dalam menginterpretasikan alfa koefisien, para pemakai test perlu ingat bahwa perkiraan ini menyiratkan tidak ada sesuatupun tentang stabilitas ujian mencetak prestasi dari waktu ke waktu atau kesamaan mereka untuk mencetak prestasi di bentuk alternative yang tertentu dari tes.
2. koefisien alfa dapat diperlakukan sebagai batas bawah itu ke(pada suatu koefisien keterandalan yang teoritis, mengetahui sebagai koefisien ketepatan. Jadi; Dengan demikian, itu bukan suatu perkiraan yang langsung dari koefisien keterandalan tetapi lebih satu perkiraan dari batas bawah koefisien itu. Jika kita memperoleh suatu koefisien alph nilai dari 75, itu adalah imposible untuk mengetahui apakah koefisien ketepatan adalah benar-benar yang lebih tinggi dibanding ini, atau berapa banyak yang lebih tinggi mungkin saja.
3. Alfa adalah rata-rata dari semua yang mungkin dipisah separuh koefisien-koefisien yang dihitung dengan metoda Rulon. Tempatkan cara lain, jika suatu koefisien keterandalan diperkirakan oleh ujian secara acak yang dipisah ke dalam dua membelah dua dan menghitung koefisien Rulon, alfa adalah nilai terharapkan perkiraan itu.
4. Satu kesalahan menafsir yang umum alfa koefisien adalah bahwa/karena suatu nilai secara relatif tinggi untuk alfa menunjukkan bahwa item ujian adalah unidimensional (yaitu., kinerja itu di materi ini dapat dijelaskan dalam kaitan dengan?dengan menggunakan istilah suatu faktor dasar). Karena alfa adalah fungsi kovarians-kovarians item, dan kovarians tinggi antara materi dapat hasil dari faktor persekutuan lebih dari satu, alfa harus tidak ditafsirkan sebagai suatu ukuran dari unidimensinalas milik ujian. Untuk examle, score-score kepada materi di satu esei tes di studi-studi scial bisa ditentukan baik melalui penulisan penempuh ujian abilitie dan oleh knwledge mereka dari isi. Jadi; Dengan demikian ujian tidak akan dipertimbangkan unidimensional (mengukur hanya ciri nya), tetapi karena semua item mencetak prestasi diakibatkan oleh dua kemampuan-kemampuan ini, ujian bisa suatu nilai yang tinggi dari alfa koefisien. Alfa dapat ditafsirkan, oleh karena itu, seperti(ketika batas bawah dari proporsi perbedaan di dalam ujian mencetak prestasi yang dijelaskan oleh kinerja item dasar faktor persekutuan. McDonald (1981) sediakan suatu diskusi yang terakhir dari isu ini, mengutip beberapa contoh-contoh dan mengoreksi wich berhubungan dengan ini.
Akhirnya, harus dicatat bahwa alfa koefisien adalah secara umum dapat digunakan untuk setiap situasi di mana keandalan suatu gabungan diperkirakan. Itu bisa, sebagai contoh, diberlakukan bagi menaksir keandalan suatu score yang total berdasar pada jumlahan dari beberapa subtest mencetak prestasi. Di dalam penggunaan yang paling umum dari alfa, masing-masing item diambil sebagai suatu subtest, tetapi kita bisa mempertimbangkan; menganggap kasus soecial di wihich score yang total adalah gabungan dari score-score di dua half-tests (seperti yang yang diciptakan di suatu yang dipisah separuh studi keandalan). Di dalam kasus khusus ini, hanya dua komponen, koefisien itu ditandai sebagai α2 dan serupa kepada keandalan menaksir yang diperoleh oleh Rulon atau metoda Guttman. Catat bahwa hasil-hasil yang diperoleh dengan menggunakan α2 bergantung pada komposisi half-tests keduanya tertentu, dan seperti itu itu hargai tidak harus sama nilai dari alfa koefisien memperoleh ketika masing-masing item diperlakukan sebagai suatu komponen yang terpisah dari test yang total mencetak prestasi gabungan.

Interrater keandalan

Untuk beberapa bentuk dari instrumen hanya satu himpunan dari materi adalah digunakan (eg, daftar perilaku-perilaku di di suatu daftar nama kinerja), obsevations ganda tetapi dikumpulkan untuk masing-masing penempuh ujian oleh mempunyai dua atau lebih raters melengkapi instrumen. Di dalam situasi ini, konsistensi dari obsevation (di) atas raters bisa dari interst. Sampai saat ini, pendekatan paling bermanfaat dan fleksibel untuk menaksir interrater koefisien keterandalan jemu akan aplikasi kemampuan generalisasi, yang dibahas di dalam bab 8.Sebagai tambahan, indeks (jamak) lain dari persetujuan (seperti pecentage dari persetujuan antar raters di kode-kode yang ditugaskan kepada materi atau himpunan-himpunan yang spesifik dari materi) telah ditinjau oleh Frick dan Sammel (1978), hanya indeks (jamak) ini, meskipun [demikian] informatif, secara konseptual yang berbeda dari keandalan menaksir dan harus tidak dipertimbangkan sebagai gantinya untuk keandalan menaksir di dalam gambarkan satu obsevational ninstrument.

faktor-faktor bahwa mempengaruhi koefisien keterandalan

Homogenitas Kelompok

Itu adalah nyata bahwa besaran dari suatu koefisien keterandalan bergantung pada variasi antar individu di kedua-duanya score-score dan kesalahan mereka yang benar mencetak prestasi. dengan begitu, homogenitas kelompok penempuh ujian adalah satu pertimbangan yang penting di dalam pengembangan test dan pemilihan test. Umpamakan bahwa suatu test sudah dikembangkan untuk mengukur math ketertarikan. Jika test ini administreted ke(pada seorang kelompok para siswa dalam satu tanda jasa yang memilih math kelas. Sebagai konsekwensi perbedaan dari antara score penempuh ujian yang benar akan menjadi yang rendah, dengan demikian akan koefisien keterandalan. Jika test sama ini adminstreted ke(pada suatu kelompok ukuran yang serupa yang terdiri atas suatu panampang-lintang semua siswa sekolah menengah, score-score benar akan menjadi lebih mungkin untuk bertukar-tukar. mengira bahwa randon ragam galat akan menjadi konstan untuk dua ini kelompok ukuran sama, koefisien keterandalan itu harus yang lebih tinggi karena kelompok karena perbedaan score mereka yang benar yang kedua perlu meliput amuch lebih besar persen dari perbedaan score yang obseved. Tabel 75 masa kini suatu axample yang hipotetis dari situasi ini, yang menggambarkan bahwa suatu test tidak “yang dapat dipercaya” atau “yang tak dapat dipercaya”. Agak, keandalan adalah suatu harta dari score-score di suatu test untuk tertentu kelompok penempuh ujian. Jadi; Dengan demikian, pemakai test potensial perlu untuk menentukan apakah keandalan menaksir yang dilaporkan di dalam manual-manual test didasarkan pada sebangun contoh-contoh di dalam komposisi dan variabilitas kepada kelompok buat siapa ujian akan digunakan. Jika contoh ujian penerbit lebih heterogen di ciri itu yang sedang di/terukur, suatu pengurangan di dalam keandalan test akan muncul ketika ujian digunakan secara lebih contoh yang homogen. Diantara tanda kurung haruslah dicatat bahwa ketika suatu test adalah terlalu sulit(keras atau terlalu mudah untuk suatu kelompok penempuh ujian, pembatasan cakupan score dan, sebagai konsekwensi, dari perbedaan score yang benar adalah nampaknya akan hasil.

Gulliksen (1950) diperkenalkan suatu ringkasan historis dari diskusi yang psychometric hubungan antara hal tidak sejenis kelompok dan barang kepunyaan nya di keandalan test. Magnusson (1967) yang ditawarkan lebih lanjut rumusan yang berikut untuk meramalkan bagaimana keandalan adalah alterd ketika perbedaan contoh diubah;

Rumus (7.8) hal 144

Di mana ……….adalah perbedaan dari contoh yang baru, ……….adalah perbedaan dari contoh yang asli, ……….adalah keandalan menaksir karena contoh yang asli, dan ……….adalah perkiraan keandalan yang diramalkan untuk contoh yang baru. Adalah penting untuk catat bahwa rumusan ini berasumsi bahwa perbedaan-perbedaan score kesalahan untuk kelompok keduanya bersifat sama dan bahwa berubah di dalam mengamati perbedaan score adalah karena perbedaan-perbedaan di dalam distribusi-distribusi score kelompok yang benar itu. Karena seorang pemakai test tidak pernah dapat yakin tentang asumsi pertemuan ini, kapan pun suatu contoh test pemakai berbeda dengan sangat dari bahwa dilaporkan oleh suatu penerbit test, emperical penyelidikan keandalan untuk contoh yang baru adalah yang sesuai.

Table 7.5

Yang tergantung dari keandalan klasik di perbedaan score yang benar juga menyiratkan koefisien keterandalan itu, seperti yang digambarkan sampai sekarang, sudah membatasi kegunaan di assesing mutu informasi yang disediakan oleh suatu test yang digunakan untuk menyaring atau pemilihan. Di dalam kasus-kasus ini, pemeriksa itu adalah biasanya terkait hanya dengan apakah penempuh ujian mencetak prestasi di atas atau bilow suatu score penggalan yang tertentu. Besaran-besaran dari yang benar dan mengamati perbedaan-perbedaan score (dan perbandingan mereka) mempunyai lebih sedikit keterkaitan untuk pengukuran proses ini. Keandalan untuk test yang digunakan dengan cara ini dibahas di dalam bab 9.

Batas Waktu

Ketika suatu test mempunyai suatu batas waktu yang kaku seperti bahwa some3 penempuh ujian menyelesaikan tetapi yang lain tidak, satu tingkat penempuh ujian yang aktip kerja akan secara sistematis mempengaruhi kinerja nya di semua wujud yang diulangi dari perjanjian Jadi; Dengan demikian, perbedaan di dalam menaksir pekerjaan penempuh ujian yang menjadi bagian dari perbedaan score yang benar. Satu beberapa test (Eg, perhitungan test aptitude atau pertandingan pekerjaan klerk menguji untuk orang dewasa) gol ujian pembangun bisa untuk menilai kemampuan itu untuk melaksanakan tugas-tugas dengan cepat. Satu macam yang lain dari test-test, bagaimanapun, tingkat tanggapan bisa tidak relevan kepada ciri itu yang sedang di/terukur. Di jenis-jenis yang belakangan dari test-test, batas waktu harus cukup panjang untuk mengizinkan membiarkan semua, atau hampir semua, penempuh ujian untuk menyelesaikan. Cara lainnya, perkiraan keandalan bisa secara palsu dipompa oleh karena konsistensi-konsistensi di dalam kinerja disebabkan oleh batas waktu milik ujian, ketika pemeriksa itu terutama tertarik akan derajat tingkat dari konsistensi di dalam kinerja test bahwa mungkin telah mengamati telah semua penempuh ujian menyelesaikan tes. Lebih terperinci diskusi test speededness dan identifikasi suatu test speeded diperkenalkan di Tuhan dan Novick (1968)
Inflasi tiruan perkiraan keandalan akan paling serius karena suatu test speeded jika ganjil bahkan merobek separuh prosedur digunakan. Sungguh-sungguh ketika satu penempuh ujian berlari tidak tepat pada waktunya, kinerja di semua ganjil sisa tidak yang telah selesai dan bahkan materi yang dinomori akan dengan sempurna konsisten, dengan mengabaikan apakah materi itu bersifat homogen di dalam isi. Pendekatan konsistensi yang internal lain akan juga menghasilkan keandalan yang dipompa menaksir untuk sama ini memberi alasan ketika ujian adalah sangat speeded. Jadi; Dengan demikian itu adalah probalas paling sesuai untuk menggunakan test-retest atau metoda wujud setara untuk menaksir keandalan suatu perjanjian speeded Avariation metoda wujud yang setara ke(pada devide materi dari ujian dalam dua memisahkan separuh test dan mengurus masing-masing separuh test secara terpisah dengan adalah batas waktu kepunyaan. Keandalan test penuh panjangnya kemudian adalah yang diperkirakan dengan menggunakan prosedur SpearmanBrown atau Guttman. Meskipun demikian, apapun juga yang metoda digunakan, perkiraan keandalan dari suatu test speeded yang harus ditafsirkan dengan perhatian kapan pun tugas di ujian memerlukan lebih dari yang kemampuan untuk melaksanakan tugas-tugas sederhana mahal harganya tingkat kecepatan.

Panjangnya Tes.
satu aspek dari suatu test yang yakin untuk mempengaruhi kedua-duanya perbedaan score yang benar dan mengamati perbedaan score adalah panjangnya test. Ini adalah apperent jika kita mempertimbangkan; menganggap suatu situasi di mana satu pemeriksa dapat menggunakan suatu test terdiri dari hanya 1 item atau suatu test terdiri dari 10 materi (semua yang didasarkan pada isi yang sama). Sungguh-sungguh, kita akan menempatkan lebih banyak convidence di dalam score dari perjanjian yang lebih panjang Hubungan antara panjangnya test dan keandalan devided di dalam bab 6 di dalam materi dari SpearmanBrown prophescy rumusan:

rumus hal 146

Di mana pjj adalah keandalan suatu subtest, kali 1000 adalah banyaknya subtest di suatu gabungan, dan pxx adalah keandalan gabungan. Jadi; Dengan demikian, adalah keandalan suatu subtest adalah 75, keandalan suatu test membentuk dari lima subtests paralel akan dihitung sebagai.

Bagaimana cara konsep ini berhubungan dengan panjangnya test? Sangat utama kita mempertimbangkan; menganggap ujian yang ada seperti(ketika subtest j dan menaksir keandalan nya (pjj) dengan menggunakan setiap metoda yang sesuai. Wewhen mempertimbangkan; menganggap ujian dari panjangnya yang baru seperti(ketika gabungan, yang berisi subtest j seperti(ketika di unsur; sebagai contoh, jika test j terdiri dari 50 materi dan ujian dari panjangnya yang baru akan terdiri atas 150 materi, test yang baru dipandang sebagai suatu gabungan dari tiga 50-item subtests, atau k=3. Lebih lanjut kali 1000 tidaklah harus satu nilai bilangan bulat; maupun harus kali 100 adalah lebih besar dari 100. Sebagai contoh, barangkali test exiating terdiri dari 100 materi, dan pengembang ujian bimbang bagaimana keandalan akan dimakan karat dengan ujian pemendekan kepada 75 materi. karena kali 1000 adalah faktor dengan mana panjangnya test yang harus dikalikan untuk mendapat panjangnya test baru, 100(k) =atau kali 1000 =75. Jadi; Dengan demikian jika pjj =60, keandalan untuk test yang lebih pendek akan diperkirakan oleh;

rumus hal 146

Ketika panjangnya test adalah untuk ditingkatkan, nilai-nilai dari kali 1000 akan selalu adalah than1 lebih besar; ketika panjangnya test adalah untuk dikurangi, nilai-nilai dari kali 1000 akan lebih sedikit than1. Peningkatan-peningkatan haruslah yang dicatat bahwa di dalam keandalan test memperoleh dari meningkatkan panjangnya test mengikuti hukum tentang penyusutan kembali. Yang sedang, menggandakan panjang suatu test dengan keandalan dari 60 keinginan meningkatkan keandalan itu kepada 75; melipat-tigakan panjang test seperti itu akan keandalan peningkatan kepada 81; tetapi meningkatkan panjangnya ujian kepada 5 kali panjangnya nya yang asli akan hanya mengakibatkan suatu koefisien keterandalan dari 88. Jadi; Dengan demikian, pada beberapa titik, peningkatan-peningkatan yang kecil di dalam keandalan yang diperoleh dengan menambahkan lebih banyak materi mungkin akan tidak membenarkan biaya-biaya yang ditingkatkan dari penulisan item dan menguji waktu. Lebih lanjut, proyeksi SpearmanBrown adalah satu cerminan/pemantulan yang akurat keandalan hanya jika materi-materi menambahkan atau memindahkan bersifat paralel di dalam isi dan kesukaran kepada materi di perjanjian yang asli

Menaksir score benar
Meski nilai dari suatu score penempuh ujian benar yang diberi tidak pernah dapat dengan tepat ditentukan, satu yang diperkirakan dapat diperoleh dari penyamaan kemunduran umum untuk meramalkan suatu nilai dari Y dari suatu nilai yang dikenal X.Ingat bahwa;

Rumus hal 147

jika kita menulis kembali penyamaan 79 di dalam wujud score penyimpangan, di mana t’ = ( T’ – µr) dan x = (X – µx), kita mempunyai

t’ = pxx’(x)

karena setiap perkiraan dari pxx’ data test riil yang yang didasarkan pada hampir selalu adalah kurang dari 100, nilai dari t’ akan kurang dari x.Jadi; Dengan demikian, setiap score benar yang diramalkan untuk suatu individu yang diberi akan selalu adalah semakin dekat kepada kelompok berarti dibanding yang asli mengamati score. Lebih lanjut, semakin kecil koefisien keterandalan ,semakin dekat score benar yang diramalkan individu adalah untuk kelompok berarti. ketika nilai dari pxx’ =0, bagi siapapun T’ = µx’ sebaliknya ketika perkiraan kemampuan kembali mendekati 100 nilai dari T’ dekati nilai dari X.

karena score benar yang diperkirakan dapat dengan mudah dihitung satu pemakai test sekali-kali boleh mendukung penggunaan mereka, ditempat itu bahwa memperkirakan score benar perlu mengakibatkan keputusan lebih yang sesuai tentang penempuh ujian. ini tidak perlu kasus. pada umumnya tidak ada keuntungan di dalam menaksir score benar untuk suatu kelompok penempuh ujian yang adalah kepada yang becompared di suatu norma mengacu dasar. satu instruktur yang komputer-komputer kedua-duanya skor mentah dan score benar diperkirakan untuk para siswa akan menemukan bahwa [alat; makna] dari distribusi-distribusi keduanya adalah sama, dan lebih lanjut, semua penempuh ujian akan score di dalam kelompok yang sama memesan pada kedua distribusi-distribusi. hanya penyimpangan standartd distribusi-distribusi keduanya akan berbeda (dengan penyimpangan patokan score yang benar menjadi lebih kecil).
di dalam situasi-situasi di mana penempuh ujian dialokasikan kepada penempatan-penempatan yang berbeda mendasarkan tentang apakah mereka jatuh di atas atau di bawah satu score penggalan yang absolut, pemakaian score benar yang diperkirakan dapat mempunyai konsekuensi-konsekuensi penting yang harus diuji secara menyeluruh sebelum kebijakan seperti itu diadopsi. pertimbangkan; menganggap kasus di mana penempuh ujian adalah untuk ditempatkan ke dalam program-program khusus atau perbaikan berdasar pada hasil percobaan. siswa yang mencetak prestasi di bawah 80 keinginan ditempatkan di dalam kelas-kelas untuk educable secara mental memperlambat; mereka yang mencetak prestasi di atas 130will adalah plased di dalam kelas-kelas untuk yang dikaruniai; berbakat. umpamakan bahwa joseph mengumpulkan nilai 79 poin-poin di satu skala kecerdasan(inteligen dan karen mengumpulkan nilai 132. Menggunakan skor mentah, kedua-duanya anak-anak akan mengkwalifikasikan para siswa pengecualian dan akan menjadi layak untuk layanan khusus. Menggunakan score benar menaksir, bagaimanapun, ehere 100 adalah kelompok berarti, dan nilai pxx adalah 90. perkiraan score Yusuf yang benar adalah.
Tj’ = 90 (79 – 100) + 100 = 81.1
Dan skor yang benar menurut perkiraan Karen adalah
Tk’ = 90 (132 – 100) = 100 = 128.8
Jadi; Dengan demikian, [bukan/tidak] penempuh ujian akan mutu untuk program yang khusus. Di dalam kontras, mempertimbangkan; menganggap bagaimana hasil-hasil itu akan mengubah jika, daripada kelompok yang total berarti, hanya sub kelompok berarti, hanya bagian jenis cara para siswa di dalam educale yang secara mental diperlambat; kuno kelas digunakan. Jika rata-rata mencetak prestasi untuk kelompok ini adalah 65, score benar yang diperkirakan Yusuf akan menjadi
Tj’ = 90 (79 – 65) + 65 = 77.6
dan atas dasar perkiraan score benar ini, Yusuf akan digolongkan sebagai secara mental diperlambat. Contoh ini menggambarkan pentingnya identifikasi norma yang sesuai menggolongkan jika score yang benar menaksir adalah untuk digunakan untuk pengambilan keputusan tentang individu.

As, suatu aturan yang umum, itu adalah lebih baik untuk menggunakan [alat; makna] kelompok total dibanding bagian jenis berarti. wich didasarkan pada contoh-contoh relatif kecil dan boleh oleh karena itu tidak stabil. Itu adalah praktek yang diragukan dengan pasti untuk menciptakan sub-sub kelompok atas dasar suatu score test dan lalu menggunakan [alat; makna] bagian jenis untuk penilaian score-score yang benar pada test itu atau suatu test yang serupa (seperti yang digambarkan di dalam contoh yang sebelumnya). Penggunaan dari bagian jenis berarti karena penilaian score yang benar adalah mungkin kebanyakan yang dibenarkan ketika sub-sub kelompok dibentuk atas dasar demografis alami(wajar atau variabel-variabel intervi yang bersifat tidak bertalian kepada perjanjian For examlpe, di dalam menaksir benar sejumlah yang hitam, putih, dan syudents hispanic, kita mungkin ingin menggunakan [alat; makna] bagian jenis rasial dibanding kelompok total yang berarti.
Meski di dalam kebanyakan situasi-situasi, penilaian score-score yang benar adalah tak perlu, kita perlu dengan singkat sebutan bahwa di sini adalah beberapa bentuk dari riset atau evaluasi di mana mungkin saja menguntungkan. Suatu masalah bahwa muncul adalah perbandingan penyamaan-penyamaan kemunduran untuk dua atau lebih kelompok-kelompok yang mempunyai nilai-tengah yang berbeda mencetak prestasi di peramal-peramal. Masalah ini boleh terjadi di dalam pemakaian analisa dari kovarians di dalam kelompok kendali yang tidak setara mendisain (Cambell dan Stanley, 1963) dan di dalam item di dalam penyimpangan belajar. Pemakaian score-score yang obseved dapat menciptakan perbedaan-perbedaan kelompok di dalam penyamaan-penyamaan kemunduran bahwa tidak akan muncul jika score-score yang benar ada tersedia. HunterandCohen (1974) sudah menunjukkan yang digunakan dari score-score benar yang diperkirakan dapat mengalahkan masalah ini di dalam regresi linier dan mengurangi nya i8n analisis regresi taklinear.

Keandalan dari Skor Diferen
Ada beberapa occassions di dalam riset, evaluasi, dan hasil diagnosa klinis ketika dua test diatur tetapi variabel dari tertarik akan perbedaan antara ujian mencetak prestasi. Dua contoh yang umum ini semua;
1. satu penilai menginginkan untuk menentukan laba di dalam kinerja untuk masing-masing penempuh ujian dari waktu ke waktu, menggunakan perjanjian yang sama

2. suatu clinician, mengidentifikasi cacat-cacat pelajaran, adalah tertarik akan pertentangan antara kinerja penempuh ujian di dua test yang berbeda atau subtests (misalnya. pengolahan bahasa dan languuage produksi subtest mencetak prestasi)

Di dalam kedua-duanya kasus-kasus, variabel dari bunga(minat adalah suatu score perbedaan, yang digambarkan sebagai;
D = X – Y
Di Mana X adalah score di ukuran yang pertama, dan Y adalah score di . yang kedua. Jika keputusan-keputusan tentang individu adalah untuk didasarkan pada perbedaan mereka mencetak prestasi, (ia) adalah keandalan . ini perbedaan mencetak prestasi bahwa harus diperkirakan.
Rumusan yang tradisional untuk menaksir keandalan perbedaan mencetak prestasi dapat berasal sebagai berikut. Pertama-tama kita harus mengenali bahwa yang mungkin untuk menggambarkan perbedaan antara score-score yang benar di X dan Y seperti.
TD = Tx – TY
Karena kedua-duanya D dan TD bersifat gabungan-gabungan linier dari yang lain score-score, perbedaan-perbedaan mereka dapat dinyatakan sebagai;

Rumus hal 149

Dari keandalan definisi dasar, kita juga mengetahui bahwa ……………….., dan ……………………Kita juga belajar di dalam bab 6 yang ………………………..Membuat penggantian-penggantian pohon ini, kita dapat menyatakan ……..sama sekali dalam kaitan dengan?dengan menggunakan istilah mengamati data score seperti(ketika

Rumus sebelum 7.10

Suatu ungkapan yang teoritis untuk keandalan coefficiant untuk score perbedaan adalah

Rumus 7.10

Oleh membuat penggantian-penggantian yang sesuai untuk …………. dan ……………dan menulis……………….. kita mempunyai

Rumus 7.11

Untuk melihat bagaimana rumusan ini beroperasi, mengira bahwa suatu peneliti merencanakan untuk belajar anak-anak yang memperlihatkan pertentangan-pertentangan antara produksi bahasa dan kemampuan-kemampuan pengolahan bahasa. Data keandalan hipotetis untuk contoh ini diperkenalkan di dalam meja 76. Jika peneliti menemukan bahwa korelasi antara produksi bahasa dan bahasa.
Table 7.6

pengolahan adalah Pxy =70, keandalan differece antara subtest mencetak prestasi akan menjadi

jika, sebaliknya, korelasi antara subtests adalah Pxy =30, keandalan score-score yang berbeda akan menjadi pada hakekatnya yang lebih tinggi:

Jadi; Dengan demikian kita lihat bahwa perbedaan-perbedaan lebih dapat dipercaya akan muncul ketika kita memilih ukuran-ukuran yang adalah masing-masing sangat dapat dipercaya tetapi mempunyai suatu korelasi yang rendah satu sama lain. Ada, bagaimanapun, beberapa kondisi-kondisi wich adalah perkecualian-perkecualian pada aturan umum ini. Sebagai contoh, Zimmerman pesiar Williams (1982) kombinasi demontrated kondisi-kondisi di perbedaan wich mencetak prestasi czn adalah dapat dipercaya ketika mereka dihubungkan ke(pada pretest mencetak prestasi.

Menggunakan kesalahan menaksir di dalam penafsiran score
Menaksir keandalan bisa bermanfaat karena membandingkan dua atau lebih test, tetapi di dalam menginterpretasikan score dari suatu penempuh ujian yang individu, satu indeks dari kesalahan yang diharapkan di dalam score ujian akan lebih bermanfaat. Menurut sejarah sedikitnya tiga jenis dari error, mula-mula yang dikenali oleh Kelley (1972), telah dipertimbangkan relevan kepada penafsiran dari suatu score test penempuh ujian:
1. Pertentangan antara score penempuh ujian yang benar itu dan mengamati score untuk suatu yang diberi menguji.

2. Pertentangan antara score penempuh ujian yang benar itu di test nya dan score yang diramalkan di suatu wujud paralel yang diberi perjanjian itu

3. Pertentangan antara score penempuh ujian yang benar itu dan score benar yang diperkirakan

Jika pemakai ujian adalah conserned sekitar jenis yang pertama dari kesalahan, satu perkiraan dari kesalahan patokan dari pengukuran harus dipekerjakan. Seperti dicatat di dalam bab 6, crepancies antara suatu score penempuh ujian yang khas benar dan mengamati score-score (di) atas satu bilangan takhingga dari yang diulangi menguji. Satu yang diperkirakan untuk kesalahan patokan dari pengukuran dapat ditentukan dari rumusan.

Rumus hal 150

Di mana σx adalah penyimpangan patokan untuk mengamati score-score untuk seluruh kelompok penempuh ujian dan pxx adalah perkiraan keandalan. Meja 77 masa kini satu perhitungan dan penafsiran yang ilustratif dari statistik ini untuk satu penempuh ujian dengan satu mengamati score dari 30.

Penafsiran score yang menggunakan galat baku biasanya memerlukan penetapan dari suatu convidence interval di wich kita mengharapkan score dari bunga(minat untuk jatuh. Di dalam diskusi yang berikut, kita akan menggunakan kesalahan patokan dari pengukuran, tetapi pokok buat menerapkan dengan sama sumur kepada yang lain dua kesalahan mengetik. Ingat dari bab 6 bahwa wujud umum dari selang kepercayaan, menggunakan kesalahan patokan dari pengukuran, adalah X ±1 σE jika kita ingin menjadi 68% yakin bahwa interval berisi score penempuh ujian yang benar itu. Jika kita ingin menjadi 95% yakin bahwa interval berisi score penempuh ujian yang benar itu, Interval itu adalah X ±1,96 σE, atau dengan pembulatan, X ±2 σE.
Tabel 77 menggambarkan pemakaian rumusan ini dan nilai memperoleh daripadanya aplication ke suatu yang diberi penempuh ujian mengamati score di perjanjian tertentu An penafsiran, menggunakan selang kepercayaan ini, adalah juga diperkenalkan untuk penempuh ujian ini. Adalah penting untuk mengenali bahwa untuk 95% dari penempuh ujian yang mengambil?membutuhkan ujian, selang kepercayaan menghasilkan di dalam wujud ini akan berisi score-score mereka yang benar. Oleh karena itu, karena suatu penempuh ujian yang diberi, seperti Charlotte, Ada suatu 95% mengubah bahwa selang kepercayaan menghasilkan di sekitar nya mengamati score akan berisi score benar nya. Bagaimanapun, karena setiap penempuh ujian yang diberi yang kita tidak pernah dapat berkata dengan keyakinan yang absolut yang interval akan berisi score benar. (Charlotte bisa salah satu [dari] 5% score-score yang benar siapa [berada/dusta] di luar interval itu) Lebih lanjut, itu tidak perlu benar bahwa untuk semua penempuh ujian yang dapat mendapatkan tertentu mengamati score (eg, 30) 95% akan sudah score-score benar di dalam interval yang ditetapkan.
Ada saat-saat di dalam test mencetak prestasi penafsiran dengan para siswa, orang tua, atau klien-klien ketika diskusi score penempuh ujian yang benar teoritis itu tidak akan praktis. Mungkin sebagai gantinya kelihatannya nto lebih sebaiknya mendiskusikan score yang penempuh ujian bisa diharapkan untuk mencapai jika wujud yang lain tertentu dari ujian diambil. Dalam hal ini jenis yang kedua dari kesalahan, kesalahan standar dari perkiraan, harus digunakan. Kesalahan patokan dari perkiraan untuk ramalan dari suatu score penempuh ujian di wujud 2 wujud, score yang dikenal di wujud 1 adalah.

Rumus 7.12 hal 151

Lagi; kembali satu contoh dari perhitungan dan penafsiran dari statistik adalah yang diperkenalkan ini di dalam meja 77. Adalah menarik untuk catat bahwa interval yang dihasilkan dengan menggunakan kesalahan patokan dari perkiraan adalah yang lebih luas dibanding interval berdasar pada kesalahan patokan dari pengukuran. Ini adalah logis, bagaimanapun, jika kita ingat bahwa kesalahan dari pengukuran di kedua-duanya test 1 dan menguji 2 keinginan mempengaruhi selang kepercayaan kedua ini.

Jenis yang ketiga dari galat baku, yang yang didasarkan pada pertentangan antara nilai-nilai score benar diramalkan dan nyata, adalah sheldom penafsiran score praktis yang secara yang yang digunakan dan seperti itu tidak akan dibahas di sini. Gulliksen (1950) sajikan suatu rumusan dan asal usul untuk kesalahan standar dari ini pengukuran. Kita mencatat hanya yang selang kepercayaan berdasar pada statistik ini dihasilkan di sekitar score benar yang diramalkan penempuh ujian itu, dibanding mengamati score, dan bersifat lebih kecil dibanding selang kepercayaan berdasar pada yang lain dua jenis dari galat baku. Pembaca yang intersted boleh ingin melihat Cronbach et al.

Masukan Data Reliabilitas
Pengembang ujian mempunyai satu kewajiban tidak hanya untuk menyelidiki keandalan score-score di ujian di bawah berbagai kondisi-kondisi tetapi juga untuk komunikasi;kan informasi ini kepada pemakai potensial dalam satu cara yang informatif. Patokan-patokan bersama-sama mengeluarkan untuk bidang pendidikan dan Psychological tgesting (AERA, APA, dan NCME, 1985) dan pendahulu nya yang segera, menyediakan petunjuk bermanfaat untuk patokan-patokan profesional yang ada untuk mana test developpers perlu melekat. Beberapa poin-poin dari petunjuk ini relevan sampai material di dalam bab 6 dan 7 adalah.

1. Hasilkan dari studi-studi keandalan yang berbeda harus dilaporkan untuk mempertimbangkan sumber yang berbeda dari kesalahan pengukuran yang paling relevan untuk mencetak prestasi penggunaan, Meski itu adalah yang sesuai untuk melaporkan evedence dari konsistensi yang internal untuk satu test unspeeded, bukti seperti itu bukan suatu sebagai gantinya untuk informasi tentang test mencetak prestasi stabilitas.

2. Galat baku dari regu-regu pengukuran dan score untuk selang kepercayaan yang berbeda shouldaccompany masing-masing perkiraan keandalan. Galat baku perlu juga dilaporkan di dalam unit-unit skala untuk masing-masing dari score-score yang berdasarkan norma dinyediakan.

3. perkiraan Keandalan dan galat baku harus dilaporkan karena subtest mencetak prestasi seperti juga test total mencetak prestasi
4. Prosedur-Prosedur dan contoh-contoh yang digunakan di dalam studi-studi keandalan harus cukup describer untuk mengizinkan para pemakai untuk menentukan persamaan antara kondisi-kondisi studi keandalan dan situasi-situasi mereka yang lokal.

5. Ketika suatu test adalah normalnya digunakan untuk populasi tertentu penempuh ujian (eg Mereka yang berada di dalam suatu tingkatan kelas atau mereka yang mempunyai cacat/ rintangan tertentu) rreliabilas menaksir dan galat baku dari pengukuran harus dilaporkan secara terpisah untuk populasi-populasi yang khusus seperti itu.

6. Ketika test mencetak prestasi digunakan terutama untuk gambarkan atau membandingkan kinerja kelompok, keandalan dan galat baku dari pengukuran untuk pengamatan-pengamatan yang dikumpulkan harus dilaporkan.

7. Jika galat baku dari pengukuran diperkirakan dengan menggunakan suatu model seperti model yang binomial, ini harus (dengan) jelas ditandai; jika tidak, para pemakai mungkin akan berasumsi bahwa galat baku yang klasik dari pengukuran sedang dilaporkan.

Ringkasan
Adalah penting bagi pengembang ujian untuk mengidentifikasi jenis-jenis dari error pengukuran yang nampaknya akan dari perhatian yang terbesar untuk menguji para pemakai dan untuk mendisain studi-studi keandalan wich akan mengizinkan[membiarkan penilaian atas barang kepunyaan error pengukuran ini di ujian mencetak prestasi keandalan. Bermacam metoda-metoda bisa digunakan untuk mengumpulkan dan meneliti data di suatu studi keandalan. Dari antara adalah pendekatan yang memerlukan dua administrasi-administrasi test yang terpisah kepada yang sama kelompok penempuh ujian. Approachse ini adalah metoda test-retest, metoda wujud yang lain, dan test-retest, metoda wujud lain. Jenis lain dari studi keandalan melibatkan administrasi suatu wujud dari suatu test ke(pada suatu kelompok penempuh ujian. Analisa dari data dari studi-studi seperti itu hasilkan suatu koefisien dari konsistensi yang internal wich menyediakan dan perkiraan dari bagaimana secara konsisten penempuh ujian melaksanakan ke seberang materi di dalam suatu test selama suatu sesi ujian.
Satu pendekatan kepada penilaian atas konsistensi yang internal untuk secara terpisah mencetak prestasi dua membelah dua tentang suatu test untuk masing-masing penempuh ujian. Half-test Ini mencetak prestasi bisa dihubungkan dan koefisien mengoreksi dengan rumusan SpearmanBrown, atau perbedaan antara separuh test mencetak prestasi bisa dihitung dan keandalan yang diperkirakan dengan menggunakan metoda Rulon. Suatu pembatasan metoda-metoda prosedur-prosedur Split-half yang berbeda adalah bahwa/karena tentang ujian pemisahan menghasilkan keandalan yang berbeda menaksir. Satu pendekatan bahwa mengalahkan masalah ini untuk menentukan rasio jumlahan dari kovarians-kovarians item kepada jumlah keseluruhan mengamati perbedaan score. Tiga rumusan, prinsip yang yang didasarkan pada ini yang semua %hasil hasil-hasil yang sama, adalah; Kuder-Richardson 20, analisis ragam Hoyt, dan alfa Cronbach. Coeeficient alfa adalah rerata dari semua yang dipisah separuh koefisien-koefisien bahwa akan diperoleh jika ujian yang dibagi menjadi semua kombinasi-kombinasi hal-test yang mungkin dan keandalan yang diperkirakan dengan menggunakan prosedur Rulon. Ketika semua materi dapat diasumsikan untuk bersifat sama di dalam kesukaran, KR 21 bisa digunakan sebagai ganti KR 20. KR 21 dapat dihitung dari nilai-tengah, perbedaan, dan banyaknya materi di perjanjian.
Menaksir keandalan dimakan karat oleh beberapa faktor-faktor di dalam situasi ujian. Jika suatu contoh penempuh ujian adalah sangat homogen di ciri itu yang sedang di/terukur, perkiraan relialbilas akan lebih rendah dari jika contoh itu lebih heterogen. Test-test lebih panjang lebih dapat dipercaya dibanding test-test yang lebih pendek yang terdiri atas materi yang serupa, dan pengaruh tentang mengubah panjangnya test dapat diperkirakan dengan menggunakan rumusan nubuatan SpearmanBrown. Speededness boleh artifially memompa koefisien keterandalan test.

dengan satu penempuh ujian mengamati score, kelompok berarti, dan koefisien keterandalan ujian, dimungkinkan untuk menaksir satu score penempuh ujian yang benar pada perjanjian itu Estimated score-score benar bersifat semakin dekat kepada kelompok berarti dibanding skor mentah.

Mencetak prestasi perbedaan ,atau keuntungan mencetak prestasi antara dua ujian, biasanya lebih sedikit yang dapat dipercaya dibanding score-score di yang manapun ujian yang tunggal menyebabkan ketika error dari pengukuran bersifat tidak dihubungkan. Perbedaan yang dapat dipercaya mencetak prestasi dapat diperoleh hanya oleh menggunakan test-test yang sangat dapat dipercaya pada masing-masing kesempatan dan yang mempunyai korelasi-korelasi rendah antara mereka.

Di dalam menginterpretasikan test mencetak prestasi, sedikitnya tiga jenis dari error bisa relevan: kesalahan patokan dari pengukuran, sebagai suatu ukuran dari pertentangan yang mungkin antara benar perorangan dan mengamati score-score; kesalahan patokan dari perkiraan untuk meramalkan mungkin pertentangan antara mengamati score-score di dua yang diulangi menguji saat-saat; dan kesalahan patokan dari score-score benar yang diramalkan untuk pertentangan antara score-score benar yang diperkirakan dan score-score benar nyata. Masing-masing galat baku ini dapat digunakan untuk menghasilkan suatu selang kepercayaan di sekitar sejumlah bunga(minat untuk mengingatkan para pemakai test dari derajat tingkat fluktuasi bahwa boleh jadi diharapkan di score tersebut.

patokan-patokan AERA/APA/NCME untuk ujian psikologis dan bidang pendidikan menyediakan guidlines untuk pengembang-pengembang test di dalam bukti pelaporan di test mencetak prestasi keandalan ke para pemakai test potensial. Setiap pengembang test mempunyai suatu kewajiban yang profesional untuk mengetahui dan mengikuti petunjuk ini di dalam melaksanakan studi-studi keandalan dan melaporkan hasil-hasil mereka.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s


%d blogger menyukai ini: