Karakteristieken van Rater: Betrouwbaarheid en voorspelbaarheid van beoordelingen door Rater

Tot nu toe hebben we de feitelijke beoordelaars zelf en hun belang voor het beoordelingsproces voor prestaties genegeerd. Hoewel is aangegeven dat beoordelaars onderhevig zijn aan vele soorten "fouten" bij het maken van beoordelingen en dat beoordelingsschalen moeten worden ontworpen om deze fouten te minimaliseren, zijn de kenmerken van de individuele beoordelaars niet onderzocht wat hun effect op het ratingproces is.

Betrouwbaarheid en voorspelbaarheid van beoordelingen door Rater:

Het probleem van de karakteristieken van beoordelaars heeft de afgelopen jaren veel aandacht gekregen. Buckner (1959) heeft de relatie onderzocht tussen hoe goed de beoordelaars het eens zijn en de mate waarin men ratings kan voorspellen met een andere variabele. Anders gezegd, Buckner stelde de vraag: "Doe zeer betrouwbare beoordelingen, impliceer dat ik een criterium heb dat makkelijker te voorspellen zal zijn?" Het antwoord bleek nee te zijn. Buckner verdeelde zijn tarieven in vier groepen, afhankelijk van hoe goed de juryleden overeenkwamen hun beoordelingen toe te kennen.

Groep 1: Rechters waren het in hoge mate eens met deze cijfers

Groep 2: Rechters waren het gematigd eens over deze percentages

Groep 3: Rechters waren het er niet mee eens

Groep 4: Rechters waren het helemaal niet eens met deze tarieven

Vervolgens ging hij door met het valideren van twee tests door testresultaten te correleren met beoordeling - dit werd voor elke groep afzonderlijk gedaan. Hij vond geen systematische relatie tussen de omvang van zijn verkregen validiteit als een functie van de groep waarmee hij werkte. Windle en Dingman (1960) bekritiseerden de interpretatie van Buckner en deden een tweede onderzoek waarin ze de resultaten in tabel 7.4 vonden.

Let op de relatieve magnitudes van de geldigheidscoëfficiënten weergegeven in Tabel 7.4. Hoe betrouwbaarder de beoordelaars hoe hoger de validiteit. Evenzo geldt hoe betrouwbaarder de beoordelingen, hoe hoger de geldigheidsduur.

Daarom kan men logischerwijs resultaten verwachten die meer lijken op die van Windle en Dingman dan die van Buckner. Men moet echter ook in gedachten houden dat hoge betrouwbaarheid slechts een noodzakelijke voorwaarde is voor hoge geldigheid - het is geen voldoende voorwaarde.

Wiley onderzocht in een reeks van onderzoeken de consistentie van rater oordelen in de tijd met betrekking tot hoe goed ze het eens zijn met eerdere oordelen door dezelfde beoordelaar (Wiley 1963; Wiley en Jenkins, 1963) en hoe goed ze het eens zijn met een groepscomposiet waardering (Wiley en Jenkins, 1964). Over het algemeen werd geconstateerd dat de beoordelingen binnen een periode van tien maanden consistent waren.

Bovendien ontdekte hij dat de beoordelaars die zeer nauw met de groepscomposiet in een initiële beoordelingstaak overeenkwamen, ook de beoordelaars waren die het meest overeenstemming bereikten met de groepscompositie over een andere ratingtaak een maand later. Hij suggereert dat deze kennis kan worden gebruikt om beoordelaars te selecteren die echt representatief zijn voor de gemiddelde consensus van een grotere groep beoordelaars.

Helaas is het probleem van het al dan niet beoordelen van mensen die het eens zijn met de groepscomposiet de beste beoordelaars om te vragen niet zelf is vastgesteld. Er is echter een logica in de stelling dat als het mogelijk is om een samengestelde rating te krijgen met een klein aantal beoordelaars die de compositie benadert die met een groter aantal is verkregen, je zeker tijd en geld kunt besparen.

Tal van andere beoordelaarskarakteristieken blijken een rol te spelen bij prestatiebeoordelingen die worden verkregen door beoordelingen. Christal en Madden (1960) hebben aangetoond dat een belangrijke overweging de mate is waarin een beoordelaar bekend is met de bezetting die hij beoordeelt, een bevinding die wordt ondersteund door aanvullende studies van Madden (1960a 1961). Evenzo hebben Wiley, Harber en Giorgia (1959a, 1959b) aangetoond dat de invloed van gegeneraliseerde ratertendensen merkbaar is in hun effect op ratings.

Rating-schaal Formaat en prestatiebeoordeling Oordeel:

Madden heeft een aantal studies gerapporteerd over de invloed van de ratingschaal zelf. In één onderzoek (Madden, 1960b) ontdekte hij dat de betrouwbaarheid en het beoordelingsgemak van de beoordeling niet werden beïnvloed door het gebruik of gebrek aan gebruik van voorbeelden bij het definiëren van de beoordelingsschaal, maar dat of de schaal werd gedefinieerd in tegenstelling tot niet gedefinieerde didactiek invloed op de betrouwbaarheid en het gebruiksgemak.

In een daaropvolgende studie bestudeerden Madden en Bourdon (1964) het effect van zeven verschillende indelingen op beoordelingsschaal op de beoordelingen van 15 verschillende beroepen op 9 verschillende functiefactoren. Hoewel de resultaten enigszins gecompliceerd van aard waren, gaven de resultaten duidelijk aan dat de classificatie die aan een beroep was toegewezen, afhankelijk was van zowel de functiefactor als het specifieke formaat op ratingschaal dat werd gebruikt.