Voorspelling van banenucces (met diagram en statistieken)

Voorspelling van het succes van een baan houdt in het bepalen van de mate waarin de voorspeller is gerelateerd aan het criterium. Stel dat iemand geïnteresseerd was in het opzetten van een selectieprogramma om nieuwe dossierklerken in te huren. Veronderstel verder dat besloten was om een ​​papieren-en-potloodtest van administratieve geschiktheid te gebruiken als een potentiële voorspeller van de efficiëntie van de dossierklerk, en dat de efficiëntie bepaald moest worden door beoordelingen van supervisors. Tabel 2.3 toont enkele hypothetische gegevens voor deze veronderstelde situatie, waarbij scores worden gegeven voor twaalf dossierklerken op zowel de administratieve test als de efficiëntiecriteriummaat in figuur 2.5 een grafiek van de gegevens in tabel 2.3.

Merk op dat er een systematische trend lijkt te zijn. Over het algemeen geldt dat hoe hoger iemand scoorde op de schooltest, hoe hoger ze scoort op de mate van beroepsbekwaamheid. We kunnen daarom afleiden dat er een duidelijk verband bestaat tussen de testprestaties (de voorspeller) en de beroepsbekwaamheid (het criterium). We kunnen ook afleiden dat als we mensen selecteren die hoger scoren op de test, we meer geneigd zijn om mensen in te huren die meer bekwaam zijn dan wanneer we mensen inhuren onafhankelijk van de testscore.

Het vaststellen van de mate van relatie:

De mate van relatie tussen twee variabelen kan worden gedefinieerd als de mate waarin deze twee variabelen op systematische wijze samen variëren. De meer technische term hiervoor is de mate van covariantie tussen variabelen. Een formele maat voor de mate van covariantie tussen twee sets scores wordt geleverd door een statistiek die bekend staat als de coëfficiënt van correlatie. Wanneer twee sets scores sterk verwant zijn, zeggen we dat ze sterk gecorreleerd zijn. De meest gebruikelijke maat voor correlatie is de Pearson Product Moment Correlation Coefficient die wordt aangeduid met het symbool r.

Als maat voor de relatie varieert r tussen + 1, 00 en -1, 00. Als r + 1, 00 is, zijn de twee sets scores positief en perfect gerelateerd aan elkaar. Als r -1.00 is, zijn de twee sets scores negatief en perfect gerelateerd aan elkaar. Wanneer r = 0.00, hebben de twee sets scores helemaal geen relatie met elkaar. Figuur 2.6 toont grafieken van verschillende grootten van r.

Bij het voorspellen van het succes van een baan is het teken van de correlatiecoëfficiënt niet belangrijk, maar de omvang wel. Hoe groter de absolute grootte van r, des te beter de voorspelling van criteriumscores op basis van informatie verkregen uit de voorspeller.

Om de redenatie van correlatie te begrijpen kan het nuttig zijn om een ​​picturale representatie van covariantie en zijn relatie tot r te beschouwen. Elke reeks scores heeft een zekere mate van variatie - in feite, zoals we al hebben gezien, volgen de scores van mensen op veel kenmerken een normale verdeling met een klein aantal zeer hoge scores, een klein aantal zeer lage scores en de meeste van de scores die zich in het midden van de verdeling voordoen.

Stel dat we deze variantie voorstellen in een reeks criteriumscores zoals hierboven weergegeven, waarbij het totale gebied is gedefinieerd als zijnde 1, 00. We kunnen dit doen omdat het mogelijk is om elke reeks onbewerkte scores te transformeren zodat hun variantie gelijk wordt aan 1, 00 met behulp van wat bekend staat als az-score-transformatie.

Evenzo, stel dat we een reeks voorspellingsscores hebben die ook variëren en normaal verdeeld zijn, en opnieuw wordt het gebied gedefinieerd als gelijk aan de hoeveelheid 1.00. We kunnen nu r geometrisch weergeven als gerelateerd aan de mate van overlap (covariantie) van de twee sets scores.

Een meer precieze definitie van r als een statistiek is dat het de verhouding is tussen de hoeveelheid covariantie tussen twee variabelen en de vierkantswortel van het product van de respectieve varianties (soms een geometrisch gemiddelde genoemd) die als volgt kan worden weergegeven:

Terugkerend naar de gegevens gegeven in Tabel 2.3, is het mogelijk om de correlatie tussen deze twee sets scores te berekenen met behulp van de formule

De lezer wordt geadviseerd dat r niet kan worden geïnterpreteerd als een percentage. Als r = 0, 50 betekent dit niet dat 50 procent van de variantie in het criterium voorspelbaar is uit de selectievariabele. Het kwadraat van r kan echter zo worden geïnterpreteerd. Een correlatie van 0, 50 geeft in het kwadraat r 2 = 0, 25, wat kan worden geïnterpreteerd als het percentage van variantie in het criterium dat wordt voorspeld door de selectievariabele.

De statistiek r 2 wordt soms de determinatiecoëfficiënt genoemd omdat deze de hoeveelheid variantie in één variabele vertegenwoordigt die kan worden "bepaald" door de scores op een tweede variabele te kennen. Figuur 2.7 toont de relatie tussen r (de mate van relatie) en r 2 . Merk op dat het mogelijk is r's te verkrijgen van vrij aanzienlijke omvang en nog steeds slechts een klein deel van de criteriumvariantie vertegenwoordigt.

regressie:

Zoals we hebben gezien, meet de correlatiecoëfficiënt r de mate van relatie tussen twee variabelen. Op zichzelf biedt het ons echter geen procedure waarmee we een reeks scores uit een andere reeks kunnen voorspellen. De techniek waarmee dit gebeurt, wordt regressie-analyse genoemd. Regressie kan als volgt worden beschouwd als gerelateerd aan correlatie: Correlatie meet de grootte of de mate van relatie tussen twee variabelen, terwijl regressie een beschrijving geeft van het type relatie tussen variabelen die op hun beurt kunnen worden gebruikt om voorspellingen te doen.

Om regressie te illustreren, beschouw de scores die zijn weergegeven in figuur 2.8a. Vanzelfsprekend bestaat er in dit geval een substantiële positieve relatie tussen de voorspeller en het criterium. Helaas geeft figuur 2.8a ons geen enkele informatie over de exacte relatie anders dan het feit dat deze lineair is (r meet altijd alleen de mate van lineaire, in tegenstelling tot kromlijnige relatie, tussen twee variabelen). Als we criteriumscores van een selectie-apparaat willen voorspellen, is het duidelijk dat we de waargenomen relatie tussen voorspeller en criterium specifieker moeten beschrijven.

Dit wordt bereikt door de lijn of functie te vinden die de gegevenspunten het beste beschrijft. Dit wordt een "lijn van beste fit" genoemd om de gegevens te passen. Omdat we aannemen dat de relatie lineair is (we hebben r gebruikt om de grootte ervan te meten), moet het type lijn dat we gebruiken recht zijn, dat wil zeggen dat er geen gebogen lijnen zijn toegestaan. Deze best passende rechte lijn wordt de regressielijn genoemd en kan worden gebruikt om het criterium van de voorspeller te voorspellen.

Figuur 2.8b toont twee verschillende lijnen van beste passing die kunnen worden verkregen als we twee verschillende personen hebben gevraagd om de gegevens te onderzoeken en vervolgens een lijn trekken door de punten die naar hun mening het beste de trend of relatie tussen de variabelen beschrijven. Hoewel de algemene trend vergelijkbaar is, vinden we dat de twee mensen het niet helemaal eens zijn in hun schatting van de relatie.

Deze onenigheid zou op zijn beurt resulteren in onenigheid in de voorspelde criteriumscore afhankelijk van welke geschatte regressielijn werd gebruikt. Gezien een sollicitant met een score x op het selectie-instrument, zouden we een criteriumscore van y 1 voor deze kandidaat voorspellen als we de regressielijn van de eerste persoon zouden gebruiken; als we de regressielijn van de tweede persoon zouden gebruiken, zouden we y 2 voorspellen als de meest waarschijnlijke criteriumscore. Welke regressie is correct?

Dit is een moeilijke vraag om te beantwoorden, tenzij er een basis is om te beslissen wat een "beste fit" eigenlijk is. Gelukkig zijn statistici het er over het algemeen over eens dat een best passende lijn er een is die de punten doorloopt, zodat deze de som van de gekwadrateerde afstanden (in de y-dimensie) van de punten van de lijn minimaliseert, zoals weergegeven in figuur 2.9.

Een regel die tot het minimaliseren van Σd 2 leidt, wordt een regressielijn met de "minste vierkanten" genoemd. Dergelijke regressielijnen zijn wiskundig direct gerelateerd aan r. Als u de methode met de kleinste kwadraten gebruikt om onze voorspellingslijn te verkrijgen, zorgt u ervoor dat verschillende mensen op dezelfde regel terechtkomen (ervan uitgaande dat ze geen fouten maken in de berekening). Evenzo zal de voorspelde criteriumscore voor een bepaalde x-waarde niet variëren afhankelijk van wie past op de voorspellingslijn (zie figuur 2.8c).

Op dit punt kan de lezer vragen: "Waarom moeten we criteriumscores voorspellen wanneer we ze al hebben?" Het antwoord is vrij eenvoudig. De eerste meting van de mate van de relatie tussen de voorspeller en het criterium vereist duidelijk beide sets scores, anders kon de relatie niet zijn vastgesteld. Mocht het selectiehulpmiddel nuttig blijken, dan kan het worden gebruikt met alle nieuwe aanvragers voor wie er een voorspellende score kan zijn, maar voor wie een criteriumscore niet bestaat.

Ons doel is om de prestatiecriteria van toekomstige aanvragers te voorspellen. Als een nieuwe aanvrager hoog scoort op een test die een hoge positieve relatie bleek te hebben met het criterium, dan zouden we verwachten dat hij een grote kans heeft om een ​​succesvolle huur te blijken te zijn.