5 Theoretische studies over industrieel testen

Enkele van de vele studies die zijn uitgevoerd, zullen vrij volledig worden gerapporteerd om de systematische discipline te illustreren die nodig is bij het gebruik van tests voor industriële doeleinden. Geen van deze studies moet worden beschouwd als een illustratie van de ideale testsituatie; elk werd uitgevoerd binnen de beperkingen opgelegd door de specifieke industriële situatie, maar elk probeerde, in de mate mogelijk, om te voldoen aan de starre normen van onderzoek.

1. Blum-studie:

Een onderzoek naar het gebruik van handigheidstests voor het selecteren van fabrieksarbeiders werd uitgevoerd door Blum (1940). De eerste stap in het onderzoek was het zoeken naar een taakanalyse van de verschillende soorten werk die in de fabriek werden uitgevoerd. Dit bracht de volgende belangrijke functievereisten aan het licht: fijne vingerbewegingen, de manipulatie van een pincet en het vermogen om delicate en soms ingewikkelde taken over lange perioden te blijven uitvoeren zonder dat de spanning of onaangepastheid toeneemt.

Een beoordeling van het beschikbare testmateriaal toonde aan dat, gezien de eis van de fabriek voor een korte testperiode, de Johnson O'Connor-vingerhandigheid en pincetvaardigheidstest waarschijnlijk de beste zouden zijn. Voorafgaand aan het testen van het testprogramma werden echter de verschillende beschikbare succescriteria onderzocht en werden drie maatregelen verkregen: lengte van het dienstverband, salarisratio en voormanagersratings.

Het criterium van de duur van de tewerkstelling was verdeeld in vier categorieën. De eerste was de groep "minder dan een week". Het merendeel van de werknemers in deze categorie vertrok of werd binnen een week ontslagen vanwege een slechte baanbekwaamheid. Vanuit het oogpunt van dit criterium was deze groep de armste.

De tweede categorie was de groep "één week tot vier maanden". Het management geloofde dat de taak binnen vier maanden adequaat kon worden geleerd. Degenen die het in deze periode niet konden leren, werden ontslagen of afgetreden. Vanuit het oogpunt van het management was zo'n medewerker inefficiënt; volgens de werknemer kon hij niet genoeg verdienen. In elk geval was de arbeidsrelatie verbroken.

De derde categorie was de groep "vier maanden tot een jaar". Deze werknemers werden door het management als matig succesvol beschouwd. De vierde en laatste categorie was de groep 'één jaar of langer'. Deze werknemers werden als het meest succesvol beschouwd; de trainingskosten voor hen waren het laagst en de groep had de hoogste productie.

Het tweede criterium was de salarisratio. Aangezien alle werknemers stukloon hanteerden, waren de inkomsten een directe weerspiegeling van de productie. Het gebruikte cijfer was het gemiddelde van de wekelijkse inkomsten over een periode van drie maanden. Deze tijd werd als lang genoeg beschouwd om kleine pieken of kleine zaken in het bedrijf en kleine problemen bij de productie te compenseren. Het feitelijke criterium werd uitgedrukt in de vorm van een index, waarbij de X dollar inkomsten per week gelijk waren aan een basis van 100.

Het derde criterium was de beoordeling van werknemers door de ploegbazen. Elke voorman werd gevraagd om een algemene beoordeling te geven op basis van zijn mening over het nut en de efficiëntie van de werknemer. In overeenstemming met deze beoordeling werd elke medewerker geclassificeerd als uitstekend, goed, gemiddeld, slecht of onbevredigend.

Er werden vijf metingen van de testprestaties vastgesteld. Twee waren gebaseerd op snelheid (totale tijd vereist om elke test uit te voeren). Een andere maatstaf was de beoordeling van de kwalitatieve prestaties van het onderwerp op elke test. Aangezien dit betekenis toevoegt aan elke objectieve score zoals totale tijd of voltooide items, zal dit in detail worden beschreven in de hoop het gebruik van een dergelijke meettechniek te stimuleren.

De kwalitatieve beoordeling is de algemene schatting van de testprestaties door de onderzoeker. Het bevat hoe goed het onderwerp de richtingen volgt, de spanning tijdens de test en de methode die wordt gebruikt om de uitvoering te voltooien. Een beoordelingsschaal van "goed", "gemiddeld" en "slecht" werd gebruikt voor de volgende kwaliteiten: nauwkeurigheid van selectie, pinnen, positionering van pinnen, plaatsing van pinnen, handtremor, condities van bord, tempo, positie en bewegingen van arm en lichaamshouding.

Het feit dat er sprake is van een aanzienlijke spreiding in kwalitatieve prestatieverhoudingen wordt geïllustreerd door de bevindingen in dit specifieke onderzoek zoals weergegeven in Tabel 4.4.

Deze meting van testprestaties resulteert in een algemene beoordeling door de examinator van de wijze van het onderwerp tijdens de test. De meeste prestatietests en vele potlood- en papierproeven lenen zich gemakkelijk voor een dergelijke beoordeling. Deze beoordelingen zijn nuttig bij het overwegen van een persoon voor het huren. De vijfde meting was een vergelijking van de tijd die nodig was om de tweede helft van de vingerhandigheidstest uit te voeren en de tijd die nodig was voor de eerste helft. Er werd aangenomen dat het verschil tussen de totale tijden op elke helft het vermogen zou kunnen meten om de snelheid te verbeteren en daarom nuttig zou kunnen zijn als een indicator van de mate van verbetering van de baan.

In deze studie werden 258 proefpersonen gebruikt. Van dit aantal waren er 137 geteste personen, 84 werden zonder testen verwezen en vormden een controlegroep en 37 werden gebruikt in de pilotstudie die aan het hoofdonderzoek voorafging. Deze laatste groep werd ook beschouwd als een follow-upgroep. Alle testen werden uitgevoerd onder gunstige omgevingscondities, dat wil zeggen in een testkamer; en alle proefpersonen wisten dat ze een test aflegden voor gebruik door een specifieke horlogefabriek voor sollicitatiedoeleinden.

De gegevens werden op drie manieren intensief geanalyseerd. Eerst werden de kenmerken van de verschillende criteria en hun onderlinge relaties bestudeerd. Ten tweede werden de kenmerken van de verschillende indicatoren en hun onderlinge relaties bestudeerd. Ten derde werd de relatie tussen de succescriteria en de testresultaten geanalyseerd; dit was de cruciale stap.

De correlaties tussen de criteria gaven aan dat elk een relatief ander aspect van succes op het werk meet. De correlatie tussen de beoordelingen van de voormannen en de salarisratio was bijvoorbeeld +0, 13. De correlatie tussen de duur van de tewerkstelling en die van de ploegbazen was + 0, 25. De correlatie tussen de salarisratio en de duur van het dienstverband was het hoogst, + 0, 44.

Vier van de vijf metingen van testprestaties - de tijdsscores en de kwalitatieve prestaties van beide tests - werden als betrouwbaar vastgesteld; maar één maatregel, verbetering, werd niet vastgesteld als betrouwbaar. Bij vergelijking van elke onderlinge correlatie van elk van de vijf metingen bleek dat ze allemaal laag waren. Acht waren minder dan +0, 20, en één was slechts iets hoger.

De enige hoge intercorrelatie was de kwaliteitsbeoordeling en de totale duur van de pincetbehandeltest; dit was +0, 71. Kwaliteitsbeoordelingen kunnen echter over het algemeen niet als nauw gerelateerd aan snelheid worden beschouwd, omdat de correlatie tussen de kwaliteitsbeoordeling van de vingerhandigheidstest en de totale tijd voor die test slechts + 0, 13 was. Lage correlaties tussen testmetingen en lage intercorrelaties tussen taakcriteria zijn eigenlijk gunstiger dan hoge intercorrelaties. Wanneer dergelijke correlaties hoog zijn, is hun voorspellende waarde beperkt omdat iedereen hetzelfde zal voorspellen. Om dezelfde reden, als alle taakcriteria sterk gecorreleerd zijn, zullen ze allemaal hetzelfde meten in plaats van verschillende aspecten van succes.

De totale tijd score op de vinger- en pincet handvaardigheidstest had over het algemeen de hoogste voorspellingswaarde van de criteria voor taaksucces. Kwaliteitsclassificaties op testprestaties waren in sommige gevallen waardevol voor voorspelling, maar verbetering van de tweede helft van de vingervaardigheidstest was niet voorspellend voor een van de criteria.

Enkele van de specifieke bevindingen zijn als volgt (Blum, 1940):

1. Kwaliteitscijfers tijdens het testen op vingergevoeligheid waren niet indicatief voor de duur van het dienstverband. Maar die met "gemiddelde of onder" classificaties op de de handigheidstest van de pincet werden gevonden in de kortere categorieën van werkgelegenheid. Eenenzestig procent van de groep die dergelijke beoordelingen ontving, was na vier maanden niet meer werkzaam en slechts 27 procent van degenen die 'bovengemiddelde' beoordelingen ontvingen, zijn binnen deze periode vertrokken of werden ontslagen. Het verschil was statistisch significant. Wanneer de kwaliteitsbeoordelingen voor beide tests werden gecombineerd en verdeeld op basis van de duur van de tewerkstelling, bestonden er geen statistisch significante verschillen tussen de beoordelingen met een hoge en de laagste score in de testprestaties.

2. Er werden lage correlaties gerapporteerd tussen de kwaliteitsbeoordelingen voor zowel de behendigheidstest als de salarisratio's. De correlaties waren + 0, 17 ± 0, 11 voor de vingervaardigheidstest en salarisverhoudingen, +0, 15 ± 0, 11 voor de tweezer-handvaardigheidstest en salarisverhoudingen, en + 0, 05 ± 0, 12 voor de gecombineerde kwaliteitsbeoordelingen en salarisverhoudingen.

3. Kwaliteitsclassificaties op de vingertest waren gerelateerd aan de beoordeling door de ploegbazen van de werkprestaties met een coëfficiënt van de onvoorziene factor van + 0, 50. De C voor beoordelingen van tweezer-kwaliteit en voormannen was + 0, 24. Een coëfficiënt van contingentie van + 0, 30 werd verkregen wanneer de scores van voormannen werden gecorreleerd met de gecombineerde kwaliteitsbeoordelingen voor beide tests. (Maximum C = + 0.86.)

4. Verbetering van de tweede helft van de vingervaardigheidstest was niet voorspellend voor de duur van de tewerkstelling.

5. Verbetering gecorreleerd met salarisratio - 0, 06 ± 0, 13. Dit is de enige vergelijking van het hele onderzoek dat een negatieve maar onbetrouwbare relatie tussen testindicatoren en de criteria voor bekwaamheid vertoonde.

6. Van de werknemers die de "A" -beoordelingen van de opzichters ontvingen, toonde 100 procent verbetering ten opzichte van de tweede helft van de vingerhandigheidstest. Van de werknemers die "D" -beoordelingen ontvingen, verbeterde slechts 50 procent. Vierentachtig procent van degenen die B-beoordelingen ontvingen, verbeterde en 61 procent van degenen die een 'C'-beoordeling kregen, verbeterde. Het procentuele verschil tussen degenen die de "A" - en "D" -beoordelingen hebben gekregen, is niet statistisch betrouwbaar, mogelijk vanwege het beperkte aantal onderwerpen.

7. Tijdscores voor zowel de vinger- als de pincetbehandeltesten waren gemiddeld sneller, naarmate de duur van de tewerkstelling toenam. Het verschil voor de gemiddelde tijd op de vingerhandigheidstest tussen de "minder dan 7 dagen" en de "meer dan 1 jaar" groepen was statistisch significant. In dezelfde vergelijking op de handigheidstest van de pincet was het verschil D / σ 2, 5. Het combineren van de vinger- en pincetten met de behendigheid van de pincetten verhoogde de statistische betrouwbaarheid van het verschil niet en het verschil tussen D / σ tussen de groepen "minder dan 7 dagen" en "meer dan 1 jaar" was 2, 3.

8. De correlatie tussen vingervaardigheidstijdscore en salarisratio was + 0, 26 ± 0, 10; tussen tweezer behendigheid tijd score en salarisratio was het +0.32 ± 0.10; en tussen de gecombineerde testtijden en de salarisratio was het + 0, 39 ± 0, 09.

9.De "bovengemiddelde" groep volgens de beoordeling van de opzichters was 5 seconden sneller op de vingertint-test en 9 seconden sneller op de pincet-handigheidstest dan de "gemiddelde en lagere" groep. Het verschil voor de gecombineerde testscores tussen de twee groepen was 12 seconden in het voordeel van degenen die bovengemiddelde beoordelingen ontvingen. Deze verschillen waren niet statistisch betrouwbaar.

10. De praktische waarde van de kritische scores (tijdscore van 5 minuten, 30 seconden of meer op de handigheidstest van de pincet en 7 minuten, 30 seconden op de vingerhandigheidstest) die in de pilotstudie werden gesuggereerd (Candee en Blum, 1937) ) is duidelijk aangegeven in dit onderzoek. Deze scores onderscheiden werknemers in de horlogefabriek met een aanzienlijke mate van nauwkeurigheid volgens de vaardigheidscriteria.

11. Een vergelijking op basis van de duur van de tewerkstelling toonde aan dat 7 procent van de groep die "beide tests had doorstaan" binnen een week vertrok, terwijl 23 procent van de groep "geen test" en 24 procent van de groep werknemers die "faalden" of beide tests "waren na een week werkloos. De verschillen in de percentages tussen de eerste en de laatste twee waren statistisch significant met kritieke verhoudingen van 3, 2 en 3, 4. De grootste mogelijkheid van langdurig werk werd gevonden in de groep die "beide tests goedkeurde." Van deze groep bleef 72 procent vier maanden of langer. Dit percentage was significant verschillend van dat van de "geen test" -groep (D / σ verschil van 3, 1) ', en van die van de groep die "één of beide tests mislukte" (D / σ verschil van 4+).

12. Een vergelijking naar salarisverhoudingen gaf aan dat de groep die "beide tests heeft doorstaan" het meeste geld verdiende. De inkomsten van deze groep verschilden statistisch van de inkomsten van de groep die "één of beide tests mislukte." De groep "geen test" was superieur in de salarisratio van de groep die "beide of beide tests niet had doorstaan." De groep die " geslaagd voor beide tests "was niet significant beter dan de groep" geen test ".

13. Een vergelijking volgens de ratings van voormannen toonde slechts een trend. De groep die "beide tests heeft doorstaan" werd door de ploegbazen in 34 procent van de gevallen als "beter dan gemiddeld" beoordeeld. De groep die "één van beide of beide tests mislukte" werd beoordeeld als "bovengemiddeld" in 25 procent van de gevallen. Dit verschil was niet statistisch betrouwbaar. Geen onderscheid tussen de groep "geen test" en de groep "geslaagd voor beide tests" is mogelijk op basis van de cijfers van de ploegbazen.

14. Een follow-up van de onderwerpen in de pilotstudie ondersteunt de bevindingen van het huidige onderzoek dat tijdscores op de tests indicatoren van bekwaamheid zijn. Twee jaar voorafgaand aan de "follow-up" werden 20 arbeiders door opzichters als superieur en 17 als middelmatige werknemers in de horlogefabriek geselecteerd. Deze groepen waren oorspronkelijk significant verschillend in hun testscores op zowel de vingertest als de pincettest.

Aanzienlijke verschillen werden later verkregen tussen deze a priori groepen in termen van:

(a) Percentage ontslag en

(b) Salarisratio.

Alvorens een beoordeling van andere studies te presenteren, is het wenselijk om de balans op te maken van de gevolgen van dergelijk onderzoek. De bovenstaande studie was geen "ideale" studie. Vanwege fabrieksomstandigheden was het onmogelijk om gewenste wetenschappelijke controles te gebruiken. Zo zouden groepen van gelijke grootte in de verschillende categorieën gemakkelijker in een laboratorium kunnen worden gerangschikt dan in de fabriek.

De eisen van het onderzoek moeten vaak in overeenstemming zijn met de heersende omstandigheden, maar alleen voor wat planning en methodologie betreft. De verklaring geldt niet voor onderzoeksconclusies, omdat deze onafhankelijk van de plantomstandigheden moeten worden gerapporteerd en zich strikt moeten houden aan de verkregen gegevens.

De industrieel psycholoog is gerechtigd laboratoriumonderzoek alleen te verrichten als voorbereiding op het onderzoek waarin de industriële situatie noodzakelijkerwijs het 'laboratorium' wordt. Laboratoriumconclusies kunnen niet worden gegeneraliseerd en toegepast op het industriële toneel zonder ze op alle mogelijke manieren te controleren.

Of het probleem tests voor selectie betreft of een ander doel, de industriële psycholoog moet vaak procedures aanpassen en een flexibiliteit demonstreren op een manier die vanuit wetenschappelijk oogpunt onorthodox is. Als hij in sommige gevallen bijvoorbeeld geen starre controles nalaat, kan hij worden gedwongen om het hele probleem op te geven. Voor de industriële psycholoog is de minste van de twee kwaden het verrichten van onderzoek in de industrie onder de beste omstandigheden die de industrie kan bieden.

Een verdere illustratie van dit punt betreft de wenselijkheid van het hebben van grote aantallen onderwerpen voor een experiment. Een industriële organisatie is echter vaak niet in de positie om op grote schaal aan te nemen. In dit geval is het beter om het aantal proefpersonen op te offeren in plaats van het hele onderzoek.

Dit principe houdt niet in dat een vorm van onderzoek dat eufemistisch 'gericht onderzoek' wordt genoemd, moet worden getolereerd. Onderzoeksrapporten moeten overeenkomen met de conclusies op basis van de verkregen feiten. Een industriële psycholoog die geen negatieve bevindingen rapporteert omdat dit gebrek aan respect zou veroorzaken en zou kunnen leiden tot zijn ontslag, is net zo fout als de bedrijfsleider die wil dat het onderzoek zijn verkoopideeën ondersteunt en daarom het onderzoek en de bevindingen "aanstuurt".

De zojuist besproken punten zijn belangrijk en dienen als een middel om niet alleen testonderzoek, maar ook andere soorten onderzoek in het veld te evalueren. Hiertoe zullen enkele aanvullende studies over testselectie worden beschreven.

2. Ghiselli-onderzoek:

In zijn onderzoek naar tests voor het selecteren van inspecteur-packers, gebruikte Ghiselli (1942) een batterij van verschillende tests bij een groep van 26 vrouwelijke werknemers die als inspecteur-verpakkers in een farmaceutisch concern werkzaam waren. Er waren vijf hoofdtaken in deze functie: het vullen van containers, het plaatsen van stoppers, het onderzoeken van de inhoud met het oog, het labelen van de containers en het verpakken.

Het werk, hoewel routine, is uiterst belangrijk, want de aanwezigheid van vreemd materiaal of onjuiste labels kan resulteren in een ernstige ziekte of zelfs de dood voor iemand die toevallig het verkeerde product heeft verkocht. Het criterium van taakefficiëntie was de combinatie van beoordelingen door de voorschoolse dienst en de supervisor.

De functieanalyse gaf aan dat de belangrijkste capaciteiten die in de voorlopige batterij met tests moeten worden gemeten, waren:

1. Behendigheid van vingers, handen en arras

2. Oog-hand coördinatie

3. Schatting van de grootte en vorm van objecten

4. Mogelijkheid om verschil in details waar te nemen

Hiertoe werd een batterij van zes tests aan de werknemers toegediend. Het bleek dat de gemiddelde prestaties van de inspecteur-packers veel beter waren dan die van monsters van een volwassen populatie in de Minnesota Placing and Turning-tests en de Paper Form Board-test. Hoewel deze informatie nuttig is, is selectie alleen verantwoord als er een relatie blijkt te bestaan tussen testprestaties en taakprestaties.

Zo'n relatie wordt een geldigheidscoëfficiënt genoemd. De Minnesota Paper Form Board-test bleek nauwer te correleren met het criterium dan enige andere test in de batterij; deze test correleerde met de omvang van +0, 57. De Pegboard-test correleerde met het criterium tot -0, 50 en de Draaitest tot -0, 40. De andere tests hadden lagere correlaties met het criterium.

Deze studie heeft, zoals eerder gemeld, tekortkomingen. Het criterium van bekwaamheid was een beoordeling door meerderen; maar omdat het kennelijk het enige beschikbare criterium was, moest het worden gebruikt of hadden geen tests kunnen worden geëvalueerd. Te vaak in de industrie vormen dergelijke beoordelingen het enige beschikbare criterium.

Het aantal onderwerpen, 26, is klein; maar als we ons herinneren dat dit een groot aantal mensen is die dezelfde taak uitvoeren, kan het als een bevredigend staal worden beschouwd. Het onderzoek levert geen bewijs op over het succes van zijn aanbevelingen die zijn aangenomen voor toekomstig gebruik; dergelijke informatie, evenals aanbevolen kritische scores, is vaak nuttig bij het evalueren van het gebruik van tests.

3. Hay-studie:

Edwin N. Hay (1943) kon met behulp van een reeks tests 91 procent van de betere boekhoudmachinebedrijven en 72 procent van de minder bevredigende operators voorspellen. Voordat deze resultaten werden vastgesteld, werden alle procedures voor testonderzoek en -ontwikkeling gevolgd. Deze omvatten taakanalyses, het opstellen van geschikte taakcriteria, een voorlopige selectie van de testbatterij en statistisch onderzoek. Pas na vele jaren was het mogelijk om de betreffende testaccu aan te bevelen als succesvol voor voorspellingsdoeleinden.

Uit de functieanalyses bleek dat de openstaande vereiste voor machineboekhouding een bimanuele vaardigheid is. Een gedetailleerde analyse van tijd en beweging liet zien dat er 5 verschillende operaties waren die in 18 bewegingen konden worden opgesplitst. De gemiddelde tijd voor de vijf bewerkingen - het selecteren van de grootboekkaart, het invoegen van de grootboekkaart, het ophalen van het vorige saldo, het controleren van de hoeveelheid na controle en het retourneren van de kaart - was 6.8 seconden.

Bij de meeste van deze operaties werden de ogen en beide handen gebruikt. Snelheid en nauwkeurigheid waren vereist voor de succesvolle uitvoering van deze taak. Het verschil tussen het vermogen van het beste en het vermogen van de armste operators was groter dan 2 op 1; dat wil zeggen, de beste operators hebben meer dan tweemaal het werk gedaan door de armste operators.

De gebruikte tests waren onder meer de Otis Intelligence-test, de Minnesota Clerical-test, de Ziegler Rate of Manipulation-tests en andere tests van administratieve vaardigheden zoals archiveren en naamsbesteding. In totaal werden 22 tests toegediend. Hoewel zes van de hand-, arm- en vingervaardigheid varieerden, vertoonde geen van deze zes een aanzienlijke relatie met het criterium "snelheid van detachering.

De Otis testen echter de Minnesota Clerical Test-Numbers en de alfanumerieke reeks correleerde +0, 50 of hoger met dit criterium. De meervoudige correlatietechniek gaf aan dat de Otis-test en de Minnesota Clerical een correlatie van + 0-65 met het criterium hadden. De hoogste meervoudige correlatie tussen de testbatterij en het criterium was +0, 71 en omvatte de Otis, de Minnesota Numbers, de alfanumerieke reeks en de friteuse naamvinden.

Hay's studie is waardevol vanuit vele gezichtspunten. Het bewijs gepresenteerd in de follow-up geeft aan dat in dit geval de tests werkten. Tabel 4.5 toont de gestage verbetering van de gemiddelde productie van boekhouders sinds selectie op basis van testen werd geïntroduceerd.

4. Sartain-onderzoek:

AQ Sartain (1945) beheerde een batterij van zeven tests aan een groep van 47 medewerkers op de inspectieafdeling van een vliegtuigfabriek. Het criterium werd bepaald door de beoordelingen van de instructeurs in een opfriscursus die aan inspecteurs werd gegeven. De instructeurs waren ook bekend met de prestaties van deze werknemers tegen hun ratings, ongetwijfeld weerspiegeld deze kennis.

De testbatterij omvatte de MacQuarrie, de Otis, de Cardall-test van het Praktische Oordeel, de Minnesota Paper Form Board, de Industrial Classification Training Test, de Bennett Test of Mechanical Comprehension en de O'Rourke Test of Mechanical Aptitude. De meervoudige correlatie van deze hele batterij met het criterium was +0, 787.

Drie van de tests, de MacQuarrie, de Cardall en de Minnesota Paper Form Board, leverden echter evenveel resultaten op, waarbij de meervoudige correlatie +0.780 was. Omdat het verschil tussen deze twee correlaties verwaarloosbaar is, zou het raadzaam zijn om deze drie tests te gebruiken in plaats van alle zeven.

5. Shuman-studie:

John T. Shuman (1945) diende een reeks testen toe aan een groep werknemers en sollicitanten voor verschillende functies bij de Lycoming Division van de Aviation Corporation. De tests omvatten de Otis, het Minnesota Paper Form Board, de Bennett Test of Mechanical Comprehension, de O'Rourke Test of Mechanical Aptitude, en de Minnesota Vocational Test for Clerical Workers.

De geteste medewerkers waren onder meer inspecteurs, motortesters, machinebedieners, voormannen en baankopers. Shuman meldt dat de gemiddelde verbetering bij het selecteren van uitstekende werkers 18 procent was met de Bennett-test, 15 procent met de Otis en 13 procent met de Minnesota Paper Form Board. De kritische scores die deze verbetering mogelijk maakten, betekenden de eliminatie van één op de vier geteste personen.

De Bennett-test in vergelijking met het criterium (beoordelingen) bleek sterk gecorreleerd te zijn met de taak van jobsetter, met een correlatie van +0, 73. De Minnesota Paper Form Board correleerde +0.59 met deze zelfde taak. De Otis-test had de hoogste correlatie met de taak van het motortester, +0, 57. Shuman ontdekte dat de tests in zijn batterij beter correleerden met taken waarvoor vaardigheden nodig zijn, zoals het werken aan machineprecisieonderdelen of het testen van vliegtuigmotoren, in plaats van louter handmatige vaardigheden.

Hij geloofde dat tests nuttiger kunnen zijn bij het toewijzen van werknemers aan functieniveaus dan aan specifieke taken. Een incidentele bevinding, maar een die vermelding verdient, is het feit dat één test moest worden geschrapt vanwege onvrede bij de proefpersonen. Dit was de O'Rourke-test van Mechanical Ability, die te lang was en vrijwel nutteloos bleek te zijn voor vrouwelijke aanvragers, van wie velen het niet eens probeerden te nemen. Dit benadrukt dat een testbatterij gunstig moet worden ontvangen door aanvragers als er enige waarde aan de resultaten moet worden gehecht.

Samenvatting van voorbeelden:

Veel andere studies zijn even effectief als de weinige hierboven beschreven. Andere voorbeelden zouden dit echter alleen maar benadrukken. Het gebruik van psychologische tests in de industrie vereist onderzoek en ontwikkeling in het licht van het specifieke probleem en de specifieke plant. Het feit dat dit werk al eerder is gedaan, maakt het niet overbodig. Het betekent eerder dat de kansen op succes elke keer worden verbeterd. Het essentiële punt is dat testresultaten moeten worden gecorreleerd met jobsucces; ze kunnen nooit als vanzelfsprekend worden beschouwd.