Psychologische tests in industrieën: kenmerken, typen en normen

Alleen het samenstellen van een reeks vragen levert geen psychologische test op. Een test kan het beste worden gedefinieerd als het meten van een gestandaardiseerde steekproef van menselijk gedrag. Als zodanig moet het aan bepaalde basisvereisten voldoen. Ten eerste moet de gedragssteekproef zowel groot genoeg zijn als voldoende representatief voor de gedragscategorie die we meten om ons in staat te stellen te generaliseren en te voorspellen uit de testresultaten.

Ten tweede, door te eisen dat de test wordt gestandaardiseerd, bedoelen we dat de reeks vragen of taken uniform moet worden beheerd wanneer onderwerpen de test krijgen. Ten slotte moeten alle psychologische tests de vereiste kenmerken hebben van geldigheid, betrouwbaarheid en normen.

Het samenbrengen van een reeks vragen, ongeacht of het psychologische onderwerpen betreft, brengt hen niet op het niveau van psychologisch testen. Veel krantenkolommen en populaire boeken over het gezelschapsspel 88 bieden bijvoorbeeld een reeks vragen; de persoon scoort de antwoorden en beoordeelt zichzelf als "uitstekend", "goed", "slecht" of "vreselijk". Dit zijn geen psychologische tests; het zijn slechts een heleboel vragen.

Natuurlijk heeft een persoon vaak een overweldigende nieuwsgierigheid om iets stiekem te ontdekken, en dus is het zelftestplan erg populair. Het onderwerp van deze tests heeft meestal een grote aantrekkingskracht. Een kolom kan u bijvoorbeeld vragen om te bepalen of u een uitstekende echtgenoot bent door een paar vragen te beantwoorden. Een persoon kan ondoorgrondelijke wijsheid hebben, maar de enige manier waarop hij een test kan ontwikkelen om dergelijke eigenschappen te meten, is een reeks vragen te hebben die op een manier zijn beantwoord door succesvolle echtgenoten (wie ze ook zijn) en op een aanzienlijk andere manier door onsuccesvolle echtgenoten.

Testnormen:

Het onderwerp van de testnormen is van groot belang en heeft aanvullende verduidelijking nodig. Normen moeten worden ontwikkeld als een referentiebron voor alle tests die bij de selectie worden gebruikt. Een norm is een standaard van referentie; het stelt iemand in staat om de betekenis van een testscore te begrijpen. Afhankelijk van de test kan een onbewerkte score op verschillende manieren worden gerapporteerd: de totale tijd om de test te voltooien, het aantal items dat correct is of het aantal items dat is geprobeerd, zijn enkele van de onbewerkte scores die zijn verkregen tijdens tests.

Eigenlijk is de onbewerkte score alleen op een psychologische test meestal een betekenisloze figuur. Bijvoorbeeld, bij één test kan een score van 240 seconden slecht zijn, terwijl bij een andere test een score van 75 seconden uitzonderlijk kan zijn. Het probleem is nog ingewikkelder wanneer een score van 180 seconden moet worden vergeleken met een score van 95 items correct. Zonder het gebruik van een norm zouden dergelijke vergelijkingen onmogelijk zijn; in het beste geval zouden ze lijken op een poging om appels en perziken te vergelijken.

De twee meest gebruikte normenystemen zijn percentielen en standaardscores. Beide metingen geven indirect informatie over de testprestaties van de individuen ten opzichte van een bekende populatie. Ze tonen ook de relatieve positie van één persoon in de groep ten opzichte van de groep als geheel.

Op een test om de stenografische capaciteit te meten, kan de onbewerkte score van een persoon 105 woorden per minuut zijn met één fout in de transcriptie. Tenzij we informatie hadden over het snelheidsbereik op basis van veel mensen, konden we niet weten of deze snelheid goed of slecht was. Als deze test echter aan 155 betaalde stenografen is gegeven en de score van deze persoon haar in het 90e percentiel plaatst, zouden we in staat zijn om haar bekwaamheid om stenografie af te nemen als "uitzonderlijk" te schatten, omdat ze meer dan 9 van de 10 meisjes overschrijdt. steno snelheid.

Als dezelfde persoon typen met een snelheid van 45 woorden per minuut, en als deze score "gelijk is aan het 20e percentiel, kunnen we concluderen dat 8 van de 10 gebruikte stenografen snellere typisten zijn. Eigenlijk kunnen dan snelheid en typsnelheid worden vergeleken met steno. Op basis van de beschikbare normen kunnen we de prestaties van dit meisje op deze twee tests rechtstreeks vergelijken, en onze conclusie dat ze erg goed is in dicteren maar niet goed is in typen, is gerechtvaardigd. Of ze wordt aangenomen, hangt af van de behoeften van de baan; het is zeer waarschijnlijk dat zij haar typsnelheid zou moeten verbeteren voordat plaatsing op een baan mogelijk zou zijn.

Voor sommige administratieve klussen is snelheid van groot belang, maar in andere is nauwkeurigheid belangrijker. Bijvoorbeeld, snelheid in plaats van nauwkeurigheid kan worden gezocht voor het adresseren van circulaires. Aan de andere kant is extreme nauwkeurigheid noodzakelijk voor het indienen van belangrijke documenten. Soms zijn afzonderlijke normen voor snelheid en nauwkeurigheid nodig, evenals normen op basis van een combinatie van de twee maatregelen.

Bij het vaststellen van normen moet specifieke informatie beschikbaar zijn, niet alleen over de omvang van de gemeten groep, maar ook over feiten zoals leeftijd, of de groep betaald werk heeft, of het een universiteitsbevolking is, en of het bestaat uit een normale niet-geselecteerde bemonstering.

Een persoon die in het 70e percentiel van een normale populatie test op een intelligentietest, kan bijvoorbeeld worden beschouwd als iemand met een bovengemiddelde intelligentie. Zijn waarschijnlijk succes in een Grade een college of graduate school zou echter twijfelachtig zijn. Met andere woorden, een norm is alleen zinvol als de kenmerken van de populatie waarop deze is gebaseerd bekend zijn.

Soorten tests:

Psychologische tests kunnen worden ingedeeld in verschillende groepen, afhankelijk van het specifieke doel van het classificatiesysteem. Alvorens verder te gaan, kan het waardevol zijn om enkele van deze classificatiesystemen in overweging te nemen.

Type Gedrag gemeten:

Waarschijnlijk is het meest gebruikte classificatiesysteem gebaseerd op het type gedrag dat de te meten strekking test. We vinden dus testen aangewezen als intelligentietests, persoonlijkheidstests, rentetests, zichttests, muziektests, kunsttests, mechanische tests, verbale tests, enz., Waarbij elke groep redelijk gedragsspecifiek is.

Prestatie en Aptitude Tests:

Zeer vaak zullen auteurs een onderscheid maken tussen tests van geschiktheid en prestatietests. De eerste is vermoedelijk een maatstaf voor het potentieel van een persoon in een bepaald gebied, terwijl de laatste een maat is voor iemands huidige vaardigheid of bekwaamheid op het moment van testen. Aangezien dezelfde test vaak kan worden beschouwd als zowel een prestatietest als een proeve van bekwaamheid, afhankelijk van het gebruik, is dit classificatiesysteem vaak een fuzzy.

Dus met veel testen kan men:

(1) Meet de hoeveelheid huidige vaardigheden, en

(2) Gebruik de huidige score om toekomstige prestaties te voorspellen.

Testen van papier-en-potlood en prestatietests:

Veel tests zijn van het papier-en-potlood-ras:

De testee ontvangt eenvoudigweg een testdocument of een gedrukt boekje met de testvragen en hij legt zijn antwoorden op een schriftelijke manier vast op het antwoordblad dat gewoonlijk wordt verstrekt. Veel andere tests vereisen echter geen schriftelijke reactie, maar hebben betrekking op een soort manipulatie-activiteit zoals het hanteren van pinnen of blokken of het samenstellen van mechanische objecten. Deze laatste tests worden prestatietests genoemd.

Snelheid en vermogenstests:

Sommige tests zijn zo geconstrueerd dat elk item zeer eenvoudig is - het is de taak om zo veel mogelijk items in korte tijd te voltooien. Wanneer de testprestaties voornamelijk zijn gebaseerd op de snelheid waarmee men werkt, wordt de test een snelheidstest genoemd. Het andere uiterste zou een test zijn waarbij de items moeilijk waren en de persoon zoveel tijd kreeg als nodig was om de items te voltooien. In dergelijke tests is de score van een persoon uitsluitend gebaseerd op zijn vermogen om de vragen correct te beantwoorden, ongeacht hoe lang (uiteraard binnen de rede) dit duurt. Dit type test wordt een vermogenstest genoemd.

Individuele en groepstests:

Er zijn een aantal tests die zijn ontworpen om individueel te worden toegediend; dat wil zeggen, ze kunnen niet gelijktijdig aan twee of meer mensen door één examinator worden gegeven. Een voorbeeld is de Stanford-Binet Intelligence Scale. Heel vaak worden individuele tests gebruikt voor klinische evaluatie. Groepstests zijn tests die door veel mensen tegelijkertijd kunnen worden uitgevoerd. Voor industriële testen hebben groepstests in het algemeen de voorkeur omdat ze goedkoper in het gebruik zijn.

Taal- en niet-taaltests:

Soms is het belangrijk om onderscheid te maken tussen die tests die een kennis van een bepaalde taal vereisen (zoals Engels) om de testinstructies of de testitems zelf te begrijpen. Al dergelijke tests worden taaltests genoemd omdat de prestaties afhankelijk zijn van de taalvaardigheid van de testee, ongeacht het type vaardigheid dat de test moet meten.

In sommige gevallen is het wenselijk of noodzakelijk om de taalvoorkeur van een test te vermijden. Om bijvoorbeeld het mechanische vermogen van mensen die ongeletterd zijn te testen met behulp van een test die schriftelijke instructies bevat, zou vrij ongepast zijn. Om dit probleem op te lossen, zijn tests uitgevoerd in bepaalde gebieden die taalvrije tests zijn. Ze vereisen geen taalvaardigheid van de kant van de testee. Dit worden niet-taaltests genoemd.

Tests versus andere selectie-apparaten:

In dit artikel gaat onze aandacht uitsluitend uit naar het onderzoeken van psychologische tests. Tests zijn echter zeker niet het enige voorspellende hulpmiddel dat de psycholoog in een selectiesituatie gebruikt. Andere standaard selectiehulpmiddelen zijn aanbevelingsbrieven, sollicitatiebrieven en interviews. Uitgebreide selectieprogramma's zullen deze naast tests gebruiken als onderdeel van het totale selectieproces.

Een studie in controverse:

Misschien illustreert geen enkele test de controversiële problemen bij industrieel testen beter dan de activiteitsvectoranalyse. Een korte bespreking van de controverse rond dit beoordelingsapparaat zou enkele van deze problemen moeten illustreren. Locke en Hulin (1962) hebben een uitgebreid overzicht gegeven van het gebruik van deze test als industrieel selectie-apparaat. Ze evalueerden in totaal 18 onderzoeken, waarvan 17 relevant waren voor de waarde van AVA in de industrie. Het merendeel van deze onderzoeken was echter van het concurrent-validiteitstype waarin de AVA werd gegeven om werknemers te presenteren.

Locke en Hulin meldden dat er bewijs was dat het verschil kon maken tussen:

1. Managers en productiemedewerkers

2. Leidinggevenden en een gemengde werkgroep

3. Zeven verschillende beroepsgroepen, variërend van machinisten tot bedrijfsvoorzitters

4. Goede en arme werknemers in verschillende beroepen

In alle huidige werknemersstudies werden echter validiteiten verkregen door een sleutel te ontwikkelen op basis van die steekproef en vervolgens de sleutel terug te zetten op de steekproef waarop de sleutel werd ontwikkeld, een procedure die bekend staat als "fold-back" -validatie. Zelden werd geprobeerd om het noodzakelijke proces van kruisvalidatie uit te voeren op een andere groep huidige werknemers. Locke en Hulin geloven dat de auteurs van de AVA-onderzoeken maar al te vaak de geaccepteerde limieten hebben overschreden bij het bespreken van de waarde van hun bevindingen, waardoor de lezer vaak de indruk had dat de validiteit een indicatie was van de voorspellende kracht van de test.

Slechts één onderzoek, naar de mening van Locke en Hulin, gebruikte een echt voorspellende geldigheidsprocedure waarbij een eerder ontwikkelde scoringssleutel werd gegeven voorafgaand aan het dienstverband en later werd gecontroleerd op geldigheid. In dit geval werd geen geldigheid verkregen.

Het lijkt erop dat een beslissing dat de AVA voorspellende waarde heeft, op zijn minst moet worden uitgesteld tot er meer substantieel bewijs beschikbaar is. Het gaat hier echter niet alleen om de werkelijke waarde van de test, maar ook om de discrepantie tussen de beweringen over de waarde ervan en de feitelijke empirische bevindingen. Locke en Hulin staan niet alleen in het nemen van de AVA op basis van een verkeerde voorstelling van onderzoeksresultaten. Dunnette en Kirchner (1962) hebben krachtig geprotesteerd tegen de "gekleurde" rapportage van AVA-gegevens door Meranda en Clarke (1959).

Bennett is in zijn bespreking van het AVA for Euros 'The Fifth Mental Measurement Yearbook (1959) ook tamelijk onzorgvuldig en zegt: "De mumbo-jumbo van naar verluidt verfijnde statistische procedures is geen substituut voor aangetoonde geldigheid." De geïnteresseerde lezer kan genieten van de Dunnette en Kirchner artikel (1962) en het overeenkomstige antwoord van Meranda en Clarke in dezelfde uitgave van Journal of Applied Psychology.

Overzicht van persoonlijkheidstesten in de industrie:

Ghiselli en Barthol (1953) hebben 113 onderzoeken bestudeerd die betrekking hebben op de validiteit van persoonlijkheidsinventarissen bij selectie van werknemers. Hun resultaten zijn samengevat in Tabel 4.3. Zij concluderen dat scores op persoonlijkheidsinventariseringen onder bepaalde omstandigheden beter correleren met de vaardigheid in een breder scala aan banen dan verwacht. De auteurs erkennen zowel de potentiële waarde van persoonlijkheidstests in de industrie als de behoefte aan een enorme toename en verbetering van onderzoek en ontwikkeling.