Top 4 kenmerken van een goede test

Dit artikel werpt licht op de vier belangrijke kenmerken van een goede test. De vier kenmerken zijn: 1. Betrouwbaarheid 2. Geldigheid 3. Objectiviteit 4. Usability.

Karakteristieke # 1. Betrouwbaarheid:

De woordenboekbetekenis van betrouwbaarheid is consistentie, afhankelijkheid of vertrouwen. Dus in de meetbetrouwbaarheid is de consistentie waarmee een test hetzelfde resultaat oplevert bij het meten van wat het meet. Een testscore wordt betrouwbaar genoemd als we reden hebben om te geloven dat de score stabiel en betrouwbaar is. Stabiliteit en betrouwbaarheid zijn afhankelijk van de mate waarin de score een index is van tijdsbetrouwbaarheid 'is vrij van toevalsfouten. Daarom kan betrouwbaarheid worden gedefinieerd als de mate van consistentie tussen twee metingen van hetzelfde.

We hebben bijvoorbeeld een prestatietest op groep A afgenomen en een gemiddelde score van 55 gevonden. Weer na 3 dagen hebben we dezelfde test op groep A toegediend en een gemiddelde score van 55 gevonden. Dit geeft aan dat het meetinstrument (prestatietest) zorgt voor een stabiel of betrouwbaar resultaat. Aan de andere kant, als in de tweede meting de test een gemiddelde score van ongeveer 77 oplevert, kunnen we zeggen dat de testscores niet consistent zijn.

In de woorden van Gronlund en Linn (1995) verwijst "betrouwbaarheid naar de consistentie van metingen-dat wil zeggen, hoe consistente testscores of andere evaluatieresultaten van de ene naar de andere meting zijn."

CV Good (1973) heeft betrouwbaarheid gedefinieerd als de "waardigheid waarmee een meetinstrument iets meet; de mate waarin een test of ander instrument van evaluatiemaatregelen consequent meet, wat deze ook daadwerkelijk meet. "

Volgens Ebel en Frisbie (1991) betekent de term betrouwbaarheid de consistentie waarmee een reeks testscores meten wat ze ook meten. "

Theoretisch wordt betrouwbaarheid gedefinieerd als de verhouding tussen de werkelijke score en de waargenomen score-variantie.

Volgens Davis (1946) "wordt de mate van relatieve precisie van het meten van een set testscores gedefinieerd als betrouwbaarheid."

Aldus beantwoordt betrouwbaarheid aan de volgende vragen:

Gronlund en Linn (1995)

Hoe vergelijkbaar zijn de testscores als de verloren twee keer wordt toegediend?

Hoe vergelijkbaar zijn de testscores als twee equivalente vormen van tests worden toegediend?

In welke mate de scores van een essay-test. Verschillen wanneer het wordt gescoord door verschillende docenten?

Het is niet altijd mogelijk om perfect consistente resultaten te verkrijgen. Omdat er verschillende factoren zijn, zoals lichamelijke gezondheid, geheugen, raden, vermoeidheid, vergeten enz. Die de resultaten van de ene meting naar de andere kunnen beïnvloeden. Deze externe variabelen kunnen een fout in onze testscores introduceren. Deze fout wordt genoemd als meetfouten. Dus terwijl we de betrouwbaarheid van een test bepalen, moeten we rekening houden met de hoeveelheid fouten in de meting.

Aard van betrouwbaarheid:

1. Betrouwbaarheid heeft betrekking op de consistentie van de resultaten die met een instrument zijn verkregen, maar niet op het instrument zelf

2. Betrouwbaarheid verwijst naar een bepaalde interpretatie van testscores. Bijvoorbeeld, een testscore die betrouwbaar is over een bepaalde tijdsperiode is mogelijk niet betrouwbaar van de ene test naar een andere equivalente test. Zodat betrouwbaarheid niet kan worden behandeld als algemene kenmerken.

3. Betrouwbaarheid is een statistisch concept om betrouwbaarheid te bepalen. We beheren een test een of meerdere keren per groep. Vervolgens wordt de consistentie bepaald in termen van verschuivingen in de relatieve positie van een persoon in de groep of de hoeveelheid variatie die wordt verwacht in de score van een individu. Verschuiving van relatieve positie van een individu is gerelateerd door middel van een correlatiecoëfficiënt die 'Betrouwbaarheidscoëfficiënt' wordt genoemd en de hoeveelheid variatie wordt gerapporteerd door 'Standaardafwijking'. Beide processen zijn statistisch.

4. Betrouwbaarheid is noodzakelijk maar geen voldoende voorwaarde voor geldigheid. Een test die niet betrouwbaar is, kan niet geldig zijn. Maar het is niet zo dat een test met hoge betrouwbaarheid hoge geldigheid zal hebben. Omdat een zeer consistente test mogelijk iets anders meet dan wat we willen meten.

Methoden voor het bepalen van de betrouwbaarheid:

Voor de meeste onderwijstests biedt de betrouwbaarheidscoëfficiënt de meest onthullende statistische kwaliteitsindex die gewoonlijk beschikbaar is. Schattingen van de betrouwbaarheid van de test bieden essentiële informatie voor het beoordelen van hun technische kwaliteit en het motiveren van inspanningen om deze te verbeteren. De consistentie van een testscore wordt uitgedrukt in termen van verschuivingen van de relatieve positie van een persoon in de groep of in termen van hoeveelheid variatie in de score van een individu.

Op basis van deze inschatting van betrouwbaarheid vallen in tot twee algemene classificaties:

(ik) Relatieve betrouwbaarheid of betrouwbaarheid coëfficiënt:

In deze methode wordt de betrouwbaarheid uitgedrukt in termen van een correlatiecoëfficiënt die bekend staat als betrouwbaarheidscoëfficiënt. Daarom bepalen we de verschuiving van de relatieve positie van de score van een individu door correlatiecoëfficiënt.

(ii) Absolute betrouwbaarheid of standaardfout van meting:

Bij deze methode wordt de betrouwbaarheid uitgedrukt in de standaard meetfout. Het geeft de hoeveelheid variatie van de score van een individu aan.

Methoden voor het bepalen van de relatieve betrouwbaarheid of betrouwbaarheidcoëfficiënt:

Om de betrouwbaarheidscoëfficiënt te bepalen, moeten we twee reeksen metingen in identieke toestand verkrijgen en vervolgens de twee sets vergelijken. Maar het is slechts een theoretische voorwaarde, omdat het onmogelijk is van onze kant om twee metingen te krijgen op precies twee identieke omstandigheden. Zodat er verschillende methoden zijn ontwikkeld om de relatieve betrouwbaarheid te bepalen.

Ze zijn als volgt (Gronlund en Linn-1995):

(i) Dezelfde testvorm kan tweemaal aan dezelfde groep personen worden toegediend.

(Ii) Twee afzonderlijke maar equivalente vormen van de test kunnen aan dezelfde individuen worden toegediend.

(iii) De testitems van een enkele test zijn verdeeld in twee afzonderlijke sets en de scores van twee sets zijn gecorreleerd.

De methoden zijn vergelijkbaar omdat ze allemaal betrekking hebben op het correleren van twee reeksen gegevens die zijn verkregen uit hetzelfde evaluatie-instrument of uit equivalente vormen van dezelfde procedure. Deze betrouwbaarheidscoëfficiënt moet worden geïnterpreteerd in termen van de soorten consistentie die wordt onderzocht.

Verschillende soorten consistentie worden bepaald door verschillende methoden. Deze zijn als volgt:

1. Consistentie over een bepaalde periode.

2. Consistentie ten opzichte van verschillende instrumentvormen.

3. Consistentie binnen het instrument zelf

Er zijn vier methoden om de betrouwbaarheidscoëfficiënt te bepalen, zoals:

(a) Test-Retest-methode.

(b) Equivalente vormen / parallelle vormen methode.

(D) Rationele equivalentie / Kuder-Richardson-methode.

(а) Test-Retest-methode:

Dit is de eenvoudigste methode om de betrouwbaarheid van de test te bepalen. Om de betrouwbaarheid van deze methode te bepalen, wordt de test in dezelfde groep gegeven en herhaald. Vervolgens wordt de correlatie tussen de eerste reeks scores en de tweede reeks scores verkregen.

Een hoge correlatiecoëfficiënt duidt op een hoge stabiliteit van testscores. In de woorden van Gronlund worden stabiliteitsmetingen in de .80's en .90's vaak gerapporteerd voor gestandaardiseerde tests bij gelegenheden binnen hetzelfde jaar. Maar deze methode heeft enkele ernstige nadelen. Allereerst wat het interval tussen twee administraties zou moeten zijn.

Als het binnen een kort interval wordt toegediend, zeg een dag of twee, dan zal de leerling zijn eerste antwoorden oproepen en zijn tijd aan nieuw materiaal besteden. Het zal neigen om hun score in tweede administraties te verhogen. Als het interval te lang is, zeg een jaar, zal het rijpingseffect de hertestscores beïnvloeden en zal het de neiging hebben de hertestscores te verhogen.

In beide gevallen zal dit de betrouwbaarheid verlagen. Dus wat de tijdsverschil tussen twee administraties zou moeten zijn, hangt grotendeels af van het gebruik en de interpretatie van testscores. Vanwege zijn problemen bij het beheersen van omstandigheden die de scores van hertesten beïnvloeden, wordt het gebruik van de test-hertest-methode bij het schatten van de betrouwbaarheidscoëfficiënt verminderd.

(b) Equivalente formulieren / parallelle formuliermethode:

Betrouwbaarheid van testscores kan worden geschat met behulp van equivalente formulierenmethode. Het is ook bekend als alternatieve vormen of parallelle vormen methode. Wanneer twee equivalente testvormen kunnen worden geconstrueerd, kan de correlatie tussen beide worden genomen als maatstaven voor de zelfcorrelatie van de test. In dit proces worden in een kort tijdsinterval twee parallelle vormen van tests aan dezelfde groep leerlingen toegediend, waarna de scores van beide tests met elkaar in verband worden gebracht. Deze correlatie levert de gelijkwaardigheidsindex op. Meestal zijn in het geval van gestandaardiseerde psychologische en prestatietests de equivalente vormen beschikbaar.

Beide tests die voor toediening worden geselecteerd, moeten qua inhoud, moeilijkheidsgraad, indeling en lengte evenwijdig zijn. Wanneer een tijdsverschil tussen de toedieningen van twee soorten tests wordt verschaft, geeft de coëfficiënt van testscores een mate van betrouwbaarheid en gelijkwaardigheid. Maar het grootste nadeel van deze methode is om twee parallelle vormen van testen te krijgen. Wanneer de tests niet precies gelijk zijn qua inhoud, kunnen moeilijkheden, lengte en vergelijking tussen de scores die uit deze tests zijn verkregen leiden tot onjuiste beslissingen.

(c) Split-Half Methode:

Er zijn ook methoden waarmee betrouwbaarheid kan worden bepaald door een enkele toediening van een enkele test. Een van die methoden is de split-half-methode. In deze methode wordt een test op de gebruikelijke manier aan een groep leerlingen afgenomen. Vervolgens wordt de test verdeeld in twee equivalente waarden en wordt de correlatie voor deze tussentoetsen gevonden.

De gebruikelijke procedure voor het splitsen van de test is om alle oneven genummerde items, dwz 1, 3, 5, enz. In de ene helft en alle even genummerde items, dwz 2, 4, 6, 8 enz. In de andere helft te nemen. Dan zijn scores van beide de helften worden gecorreleerd door de Spearman-Brown-formule te gebruiken.

Door bijvoorbeeld beide helften te correleren, vonden we een coëfficiënt van .70.

Door formule (5.1) te gebruiken, kunnen we de betrouwbaarheidscoëfficiënt op de volledige test krijgen als:

De betrouwbaarheidscoëfficiënt .82 wanneer de correlatiecoëfficiënt tussen de halve test .70 is. Het geeft aan in hoeverre de steekproef van testitems een betrouwbaar monster is van de inhoud die wordt gemeten - interne consistentie.

Gronlund (1995) is van mening dat "gedeelde halfbetrouwbaarheid vaak hoger is dan de betrouwbaarheid van equivalente vormen, omdat de methode met de gesplitste helft gebaseerd is op het toedienen van een enkele testvorm." Deze methode laat het probleem van de equivalente vormenmethode die is geïntroduceerd vanwege verschillen van vorm tot vorm, in aandacht, snelheid van werken, inspanning, vermoeidheid en testinhoud etc.

(d) Rationele equivalente / Kuder-Richardson-methode:

Rationele equivalentie is een andere methode om de betrouwbaarheid te bepalen met behulp van de formule die is ontwikkeld door Kuder en Richardson. Net als de split-half-methode biedt deze methode ook een mate van interne consistentie. Het vereist geen toediening van twee equivalente testvormen noch vereist het om de testen in twee gelijke helften te splitsen. De betrouwbaarheidscoëfficiënt wordt bepaald met behulp van de Kuder-Richardson-formule-20, die als volgt leest.

Deze methode biedt informatie over de mate waarin de items in de test vergelijkbare kenmerken meten. Hoewel de eenvoud van het toepassen van deze methode het wijdverspreid heeft gemaakt, heeft het nog steeds enkele beperkingen.

1. Kuder-Richardson methode en split-half methode zijn niet geschikt voor snelheidstests.

2. Zowel de methode van Kuder-Richardson als de gespleten helft meten niet de consistentie van de pupilrespons van dag tot dag.

3. De Kuder-Richardson-methode is omslachtig om te berekenen, tenzij er al informatie beschikbaar is over het percentage passeren.

Methoden voor het bepalen van de absolute betrouwbaarheid of standaard meetfouten:

Als we een test steeds opnieuw zullen uitvoeren, zullen we enige variatie in scores vinden. Omdat de behaalde score een index is van de echte score van de examinandus plus: meetfouten. HE Garrett (1985) heeft een echte score gedefinieerd als "een maatstaf die zou worden verkregen door het gemiddelde van een oneindig groot aantal metingen van een bepaald individu te nemen op vergelijkbare tests onder vergelijkbare omstandigheden. Een echte score kan natuurlijk niet experimenteel worden bepaald " .

Als de testscores een groot foutcomponent bevatten, is de betrouwbaarheid ervan laag en als deze een klein aantal fouten bevat, is de betrouwbaarheid hoog. Dus de mate waarin een echte score groter is, kan een fout in de verkregen scores worden aangegeven door de betrouwbaarheidscoëfficiënt.

Deze relatie tussen echte score, behaalde scores en de fout kan als volgt wiskundig worden uitgedrukt:

We kunnen de standaardfout van de meting (SE) achterhalen wanneer de betrouwbaarheidscoëfficiënt en de standaarddeviatie van de verdeling worden gegeven.

De formule (Garrett-1985) om de standaard meetfout te berekenen is als volgt:

Bijvoorbeeld, in een groep van 200 middelbare scholieren is de betrouwbaarheidscoëfficiënt van een prestatietest in de wiskunde .70, gemiddelde = 65 en o = 20. Lipu behaalt een score van 60. Wat is de ZO van deze score.

Door de waarde in formule (5.3) te zetten:

Dus de echte score van Lipu is 60 ± 10, 95, oftewel 70, 50 tot 49, 05.

Geen verkregen score vertelt ons wat de echte score is, maar de kennis van de SE geeft het verschil aan tussen de behaalde score en de echte score. Wanneer de SE klein is, geeft dit aan dat de werkelijke score dichter bij de verkregen score ligt en geeft deze ook aan of het verschil tussen de scores van twee individuen reëel verschil of verschil is als gevolg van meetfouten.

Factoren die van invloed zijn op de betrouwbaarheid:

Er zijn een aantal factoren die van invloed zijn op de betrouwbaarheid. Zodat wanneer we de scores interpreteren en gebruiken we voorzichtig moeten zijn en die factoren moeten manipuleren door middel van testvoorbereiding en -administratie.

De belangrijkste factoren die van invloed zijn op de betrouwbaarheid van tests, scores kunnen worden onderverdeeld in drie rubrieken:

1. Factoren met betrekking tot de test.

2. Factoren gerelateerd aan de testee.

3. Factoren die verband houden met de testprocedure.

1. Factoren met betrekking tot de test:

(а) duur van de test:

De Spearman Brown-formule geeft aan hoe langer de test is, hoe hoger de betrouwbaarheid. Omdat een langere test voldoende voorbeelden van het gedrag zal opleveren. Een andere oorzaak is dat de gokfactor geneigd is om te worden geneutraliseerd in een langere test.

Bijvoorbeeld als we één berekening zullen geven om het numerieke vermogen van de studenten te meten. Degenen die correct hebben berekend, zijn perfect in numerieke vaardigheid. Degenen die faalden zijn complete mislukkingen. Als de berekening moeilijk is, zullen de meeste studenten falen. Als het gemakkelijk is, zullen de meeste studenten het correct berekenen. Dus die score voor één item geeft nooit een betrouwbaar resultaat.

(b) Inhoud van de test:

Volgens Guilford verhoogt homogeniteit van testinhoud ook de betrouwbaarheid van testscores. Een test van 50 items op Vedic Civilization levert betrouwbaardere scores op dan een test van 50 items over de Indiase geschiedenis. Volgens Ebel (1991) is het onderwerp in sommige vakken, zoals wiskunde en vreemde talen, strakker georganiseerd, met een grotere onderlinge afhankelijkheid van feiten, principes, vaardigheden en prestaties, dan in de literatuur of geschiedenis. " Dus deze inhoudhomogeniteit is ook een factor die resulteert in hoge betrouwbaarheid.

(c) Kenmerken van artikelen:

De moeilijkheidsgraad en duidelijkheid van de uitdrukking van een testitem beïnvloeden ook de betrouwbaarheid van testscores. Als testonderdelen te gemakkelijk of moeilijk zijn voor de groepsleden, zal dit de neiging hebben om scores van lage betrouwbaarheid te produceren. Omdat beide tests een beperkte spreiding van scores hebben.

(d) Verspreiding van scores:

Volgens Gronlund en Minn (1995) "als andere dingen gelijk zijn, zal de spreiding van scores groter zijn naarmate de betrouwbaarheid hoger zal zijn." Wanneer de spreiding van de scores groot is, is er een grotere kans dat een persoon in dezelfde positie blijft. relatieve positie in een groep van het ene testen naar het andere. We kunnen stellen dat meetfouten minder invloed hebben op de relatieve positie van het individu wanneer de spreiding van scores groot is.

In Groep A hebben studenten bijvoorbeeld cijfers van 30 tot 80 behaald en in Groep B hebben studenten cijfers gehaald van 65 tot 75. Als we de tests tweede keer in Groep A zullen afnemen, kunnen de testscores van individuen variëren met verschillende punten, met zeer weinig verschuivingen in de relatieve positie van de groepsleden. Het is omdat de spreiding van scores in Groep A groot is.

Aan de andere kant hebben de scores in Groep B meer kans om van positie te veranderen bij een tweede toediening van de test. Aangezien de spreiding van scores slechts 10 punten is van de hoogste score tot de laagste score, kan een verandering van enkele punten radicale verschuivingen in de relatieve positie van individuen veroorzaken. Dus hoe groter de spreiding meer is de betrouwbaarheid.

2. Factoren gerelateerd aan de testee:

Variabiliteit in prestatie, testongelijkheid van de individuen en motivatie van de studenten beïnvloeden ook de betrouwbaarheid van testscores.

Hieronder volgen enkele van de belangrijke factoren bij de testee die van invloed zijn op de betrouwbaarheid van de test:

(a) Heterogeniteit van de groep:

Wanneer de groep een homogene groep is, is de spreiding van de testscores waarschijnlijk minder en wanneer de geteste groep een heterogene groep is, zal de verspreiding van scores waarschijnlijk meer zijn. Daarom is de betrouwbaarheidscoëfficiënt voor een heterogene groep meer dan een homogene groep.

(b) Getrouwheid van de studenten:

Ervaring met testen heeft ook invloed op de betrouwbaarheid van testscores. Praktijk van de studenten bij het nemen van geavanceerde tests verhoogt de betrouwbaarheid van de test. Maar wanneer in een groep alle studenten niet hetzelfde niveau van testongelijkheid hebben, leidt dit tot grotere meetfouten.

(c) Motivatie van de studenten:

Wanneer de studenten niet gemotiveerd zijn om de test te doen, zullen ze niet hun beste prestatie vertegenwoordigen. Dit drukt de testscores.

3. Factoren met betrekking tot de testprocedure:

Omdat de testgerelateerde factoren en testee-gerelateerde factoren de betrouwbaarheid van testscores beïnvloeden, beïnvloeden ook de factoren die verband houden met de testprocedure ook de testscores. Als de testgebruikers deze factoren kunnen beheersen, kunnen ze de consistentie van de testscores vergroten.

(a) Tijdlimiet van de test:

Volgens Ebel en Frisbie (1991) "zullen scores van een test die wordt gegeven onder zeer snelle omstandigheden gewoonlijk een hogere interne betrouwbaarheidscoëfficiënt vertonen dan scores verkregen van dezelfde test die aan dezelfde groep wordt gegeven onder ruimere tijdslimieten." wanneer de studenten meer tijd krijgen om de test te doen, kunnen ze meer raden, wat de testscores kan verhogen. Daarom kunnen we door het versnellen van een test de betrouwbaarheid van de test verhogen.

(b) Valsspelen kans gegeven aan de studenten:

Valsspelen door de studenten tijdens de testadministratie leidt tot meetfouten. Sommige studenten kunnen een correct antwoord geven door het te kopiëren van spiekbriefjes of door te luisteren naar andere studenten zonder het juiste antwoord te kennen. Dit zal leiden tot een hogere score van die studenten dan ze eigenlijk verdienen. Dit maakt de geobserveerde score van cheaters hoger dan hun werkelijke score.

Hoe hoger moet de betrouwbaarheid zijn?

Uiteraard zijn evaluatie-apparaten nooit volkomen betrouwbaar. Hoe onbetrouwbaar een test kan zijn en nog steeds bruikbaar, hangt vooral af van de fijnheid van de gewenste discriminatie van de testscores. (Remmers, 1967) De mate van betrouwbaarheidscoëfficiënt hangt af van de aard van de test, de grootte en variabiliteit van de groep, het doel waarvoor de test werd toegediend en de methode die werd gebruikt voor het schatten van de betrouwbaarheid. Een test met lage betrouwbaarheid kan een hogere geldigheid hebben en kan daarom worden gebruikt. Maar in de woorden van Remmers (1967) 'De meeste gestandaardiseerde tests die voor schoolgebruik worden gepubliceerd, hebben betrouwbaarheidscoëfficiënten van ten minste 80 in de populatie waarvoor ze zijn ontworpen.

Wanneer men een gestandaardiseerde test kiest voor het interpreteren van de resultaten, volstaat het niet om alleen naar de numerieke waarde van de betrouwbaarheidsraming te kijken, maar moet men ook rekening houden met hoe die schatting werd verkregen. Gronlund (1976) heeft opgemerkt over het belang van methoden voor het schatten van betrouwbaarheid.

Volgens hem geeft "de methode met de gespleten helft de grootste numerieke waarden aan de betrouwbaarheidscoëfficiënt. Equivalentevormen methode en test hertest hebben de neiging om een lagere numerieke waarde te geven aan de betrouwbaarheidscoëfficiënt. Meestal bieden deze twee methoden een gemiddelde tot grote betrouwbaarheidscoëfficiënt. Equivalente vormen methode levert meestal de kleinste betrouwbaarheidscoëfficiënt voor een bepaalde test. "

Daarom kan worden gezegd dat de leraar een gestandaardiseerde test moet zoeken waarvan de betrouwbaarheid zo hoog mogelijk is. Maar hij moet deze betrouwbaarheidscoëfficiënt interpreteren in het licht van de groepen leerlingen waarop deze is gebaseerd, de variabiliteit van deze groep en methoden voor het schatten van betrouwbaarheid.

Karakteristiek # 2. Geldigheid:

"Bij het selecteren of construeren van een evaluatie-instrument is de belangrijkste vraag; In welke mate dienen de resultaten voor het specifieke gebruik waarvoor ze zijn bedoeld? Dit is de essentie van geldigheid. " -GRONLUND

Geldigheid is het belangrijkste kenmerk van een evaluatieprogramma, want tenzij een test geldig is, heeft deze geen nuttige functie. Psychologen, opvoeders, begeleiders gebruiken testresultaten voor verschillende doeleinden. Vanzelfsprekend kan geen doel worden bereikt, zelfs niet gedeeltelijk, als de tests niet voldoende hoog zijn. Geldigheid betekent waarheidsgetrouwheid van een test. Het betekent in hoeverre de test dat meet, wat de testfabrikant van plan is te meten.

Het omvat twee aspecten:

Wat wordt gemeten en hoe consistent wordt het gemeten. Het is geen testkenmerk, maar verwijst naar de betekenis van de testscores en de manier waarop we de scores gebruiken om beslissingen te nemen. Het volgen van definities door experts geeft een duidelijk beeld van de validiteit.

Gronlund en Linn (1995) - "Validiteit verwijst naar de geschiktheid van de interpretatie gemaakt van testscores en andere evaluatieresultaten met betrekking tot een bepaald gebruik."

Ebel en Frisbie (1991) - "De geldigheid van de term, toegepast op een reeks testscores, verwijst naar de consistentie (nauwkeurigheid) waarmee de scores een bepaald cognitief vermogen van belang meten."

CV Good (1973) -In het woordenboek van het onderwijs wordt validiteit gedefinieerd als de "mate waarin een test of ander meetinstrument voldoet aan het doel waarvoor het wordt gebruikt."

Anne Anastasi (1969) schrijft: "De geldigheid van een test is wat de test meet en hoe goed deze test."

Volgens Davis (1964) is validiteit de mate waarin de rangorde van de scores van examinandi voor wie een toets geschikt is, dezelfde is als de rangorde van dezelfde examinandi in de eigenschap of kenmerk dat de test wordt gebruikt om te meten . Deze eigenschap of eigenschap wordt het criterium genoemd. Aangezien een test voor veel verschillende doeleinden kan worden gebruikt, volgt hieruit dat deze vele validiteiten kan hebben die overeenkomen met elk criterium. "

Freeman (1962) definieert, "een index van geldigheid laat zien in welke mate een test meet wat hij beweert te meten in vergelijking met geaccepteerde criteria."

Lindquist (1942) heeft gezegd, "de geldigheid van een test kan worden gedefinieerd als de nauwkeurigheid waarmee het meet wat het is bedoeld om te meten, of als de mate waarin het onfeilbaarheid benadert bij het meten van wat het beweert te meten."

Uit de bovenstaande definities is het duidelijk dat de geldigheid van een evaluatie-inrichting de mate is waarin het meet wat het is bedoeld om te meten. Geldigheid houdt altijd verband met het specifieke gebruik van de resultaten en de degelijkheid van onze voorgestelde interpretatie.

Het is ook niet noodzakelijk dat een betrouwbare test ook geldig kan zijn. Stel bijvoorbeeld dat een klok tien minuten vooruit is gezet. Als de klok een goed stuk is, zal de tijd die het ons vertelt betrouwbaar zijn. Omdat het een constant resultaat geeft. Maar het zal niet geldig zijn zoals beoordeeld op 'Standaardtijd'. Dit geeft aan "het concept dat betrouwbaarheid een noodzakelijke maar niet een voldoende voorwaarde voor geldigheid is".

Aard van de geldigheid:

1. Geldigheid verwijst naar de geschiktheid van de testresultaten, maar niet naar het instrument zelf.

2. Geldigheid bestaat niet op een alles-of-niets-basis, maar het is een kwestie van graad.

3. Tests zijn niet voor alle doeleinden geldig. Geldigheid is altijd specifiek voor een bepaalde interpretatie. De resultaten van een woordenschatproef kunnen bijvoorbeeld zeer valide zijn om de woordenschat te testen, maar zijn mogelijk niet zo waardevol om het compositievermogen van de student te testen.

4. Geldigheid is niet van verschillende typen. Het is een unitair concept. Het is gebaseerd op verschillende soorten bewijsmateriaal.

Factoren die van invloed zijn op de geldigheid:

Net als betrouwbaarheid zijn er ook verschillende factoren die de geldigheid van testscores beïnvloeden. Er zijn enkele factoren waarover we alert zijn en gemakkelijk kunnen vermijden. Maar er zijn enkele factoren waarover we onwetend zijn en het maakt de testresultaten ongeldig, voor het bedoelde gebruik.

Sommige van deze factoren zijn als volgt:

1. Factoren in de test:

(i) Onduidelijke aanwijzingen voor de studenten om de test te beantwoorden.

(ii) Moeilijkheden van de leesvocabulaire en zinsstructuur.

(iii) Te gemakkelijke of te moeilijke testitems.

(iv) Dubbelzinnige uitspraken in de testitems.

(v) Ongeschikte testitems voor het meten van een bepaald resultaat.

(Vi) Ontoereikende tijd om de test af te leggen.

(vii) Duur van de test is te kort.

(viii) Testitems niet gerangschikt in volgorde van moeilijkheid.

(ix) Identificeerbaar antwoordenpatroon.

Factoren in testadministratie en scoren:

(i) Oneerlijke hulp aan individuele studenten, die om hulp vragen,

(ii) Vreemdgaan van de leerlingen tijdens het testen.

(iii) Onbetrouwbare scoring van antwoorden van het type essay.

(iv) Onvoldoende tijd om de test te voltooien.

(v) Nadelige fysieke en psychische toestand op het moment van testen.

Factoren gerelateerd aan Testee:

(i) Angst van de studenten testen.

(ii) Fysieke en psychologische toestand van de leerling,

(iii) Responsenset - een consistente neiging om een bepaald patroon te volgen bij het beantwoorden van de items.

Kenmerk # 3. Objectiviteit:

Objectiviteit is een belangrijk kenmerk van een goede test. Het beïnvloedt zowel de geldigheid als de betrouwbaarheid van testscores. De objectiviteit van een meetinstrument klaagt over de mate waarin verschillende personen die de antwoordbon scoren hetzelfde resultaat behalen. CV Good (1973) definieert objectiviteit in testen als "de mate waarin het instrument vrij is van persoonlijke fouten (persoonlijke vooringenomenheid), dat is subjectiviteit van de kant van de scorer".

Gronlund en Linn (1995) stelt: "Objectiviteit van een test verwijst naar de mate waarin gelijkaardige competente scores dezelfde resultaten behalen. Dus een test wordt als objectief beschouwd wanneer deze de eliminatie van de persoonlijke mening van de scorer en een vooringenomen oordeel uitsluit. In deze context zijn er twee aspecten van objectiviteit die bij het samenstellen van een test in gedachten moeten worden gehouden. "

(i) Objectiviteit bij het scoren.

(ii) Objectiviteit bij de interpretatie van testitems door de testee.

(i) Objectiviteit van scoren:

Objectiviteit van scoren betekent dat dezelfde persoon of verschillende personen die de test scoren op elk moment hetzelfde resultaat bereiken zonder kans op fouten. Een test die objectief moet zijn, moet dus zo worden geformuleerd dat alleen een correct antwoord kan worden gegeven. Met andere woorden, het persoonlijke oordeel van de persoon die het antwoordscript scoort mag geen factor zijn die de testscores beïnvloedt. Zodat het resultaat van een test op een eenvoudige en nauwkeurige manier kan worden verkregen als de scoreprocedure objectief is. De scoreprocedure moet zodanig zijn dat er geen twijfel over bestaat of een item goed of fout is of gedeeltelijk of gedeeltelijk fout.

(ii) Objectiviteit van testitems:

Met item-objectiviteit bedoelen we dat het item een duidelijk enkel antwoord moet oproepen. Goed geconstrueerde testitems moeten leiden tot één en enige interpretatie door studenten die het betreffende materiaal kennen. Dit betekent dat de testitems vrij van dubbelzinnigheid moeten zijn. Een bepaald testitem moet hetzelfde betekenen voor alle studenten die de testfabrikant van plan is te vragen. Dubbele betekeniszinnen, items met meer dan één correct antwoord moeten niet in de test worden opgenomen omdat het de test subjectief maakt.

Kenmerk # 4. bruikbaarheid:

Bruikbaarheid is een ander belangrijk kenmerk van meetinstrumenten. Omdat praktische overwegingen van de evaluatie-instrumenten niet kunnen worden verwaarloosd. De test moet praktische waarde hebben vanuit het oogpunt van tijd, economie en administratie. Dit kan worden aangeduid als bruikbaarheid.

Dus tijdens het bouwen of selecteren van een test moet rekening worden gehouden met de volgende praktische aspecten:

(i) Eenvoudig beheer:

Het betekent dat de test eenvoudig moet worden beheerd, zodat de algemene klasleraren deze kunnen gebruiken. Daarom moeten eenvoudige en duidelijke richtlijnen worden gegeven. De test moet heel weinig subtests bevatten. De timing van de test moet niet te moeilijk zijn.

(ii) Tijd nodig voor administratie:

Er dient een passende tijdslimiet te worden vastgesteld voor het afleggen van de test. Als we ruimschoots de tijd nemen om de test af te leggen, zullen we de test korter maken dan de betrouwbaarheid van de test zal verminderen. Gronlund en Linn (1995) zijn van mening dat "ergens tussen 20 en 60 minuten testtijd voor elke afzonderlijke score die door een gepubliceerde test wordt opgeleverd waarschijnlijk een redelijk goede gids is".

(iii) Eenvoudig interpreteren en toepassen:

Een ander belangrijk aspect van testscores is de interpretatie van testscores en de toepassing van testresultaten. Als de resultaten verkeerd worden geïnterpreteerd, is het schadelijk aan de andere kant als het niet wordt toegepast, dan is het nutteloos.

(iv) Beschikbaarheid van equivalente formulieren:

Gelijkwaardige formulieren testen helpen om de dubieuze testscores te verifiëren. Het helpt ook om de factor geheugen te elimineren terwijl leerlingen op hetzelfde leergebied opnieuw worden getest. Daarom moeten equivalente vormen van dezelfde test qua inhoud, moeilijkheidsgraad en andere kenmerken beschikbaar zijn.

(v) Kosten van testen:

Een test moet economisch zijn vanuit voorbereiding, administratie en scoringsstandpunt.