Correlatie: maatregelen, berekening en methode

Na het lezen van dit artikel leert u over: - 1. Correlatiemetingen 2. Berekening van correlatie 3. Methoden.

Maatregelen van correlatie:

Karl Pearson's correlatiecoëfficiënt (individuele waarnemingen) :

Om de mate of mate van correlatie en richting van correlatie te berekenen, is de methode van Karl Pearson het meest bevredigend.

Symbolisch is de formulering als onder:

waarbij dx de afwijking is van verschillende items van de eerste variabele van een aangenomen gemiddelde en dy, de overeenkomstige afwijkingen van de tweede variabele ten opzichte van het veronderstelde gemiddelde en N het aantal paren van items.

De toepassing van de formule wordt uitgelegd aan de hand van de volgende hypothetische gegevens:

Berekening van co-efficiënt van correlatie in een continue serie:

In het geval van een continue reeks worden de gegevens geclassificeerd in een bidirectionele frequentietabel. De berekening van de correlatiecoëfficiënt met betrekking tot gegroepeerde gegevens is gebaseerd op de aanname dat elk artikel dat binnen een bepaald klasseninterval valt, geacht wordt precies op de middenwaarde van die klasse te vallen.

Ter illustratie, we zullen de coëfficiënt of correlatie berekenen met betrekking tot de volgende gegevens:

De formule voor de berekening van de correlatiecoëfficiënt zal in dit geval de volgende vorm aannemen:

De enige verandering in de bovenstaande formule in vergelijking met de vorige is de introductie van f die staat voor frequentie.

Als we de formule toepassen op de tabel 18.50 krijgen we:

Rank Difference-methode van correlatie:

Wanneer de directe meting van het bestudeerde fenomeen niet mogelijk is, bijvoorbeeld van kenmerken zoals efficiëntie, eerlijkheid, intelligentie, enz., Wordt een rangschikkingsmethode toegepast om de mate van correlatie te achterhalen.

De formule voor het berekenen van rangcorrelatie is:

waarin R coëfficiënt van rangcorrelatie tussen gepaarde rangen aangeeft, D de verschillen aangeeft tussen de gepaarde rangen en N staat voor het aantal paren.

We zullen, met behulp van het volgende voorbeeld, de toepassing van de bovenstaande formule illustreren:

Berekening van de coëfficiënt van correlatie door middel van rangverschilmethode :

(Wanneer er twee of meer items van dezelfde waarde zijn) :

Als er meer dan één artikel met dezelfde waarde is, wordt een gemeenschappelijke rang gegeven aan dergelijke items. Deze rang is het gemiddelde van de rangen die deze items zouden hebben gekregen, als er een klein verschil was in hun waarden. Stel dat de cijfers van vijf studenten respectievelijk 70, 66, 66, 65, 63 zijn.

Als deze punten in afnemende volgorde zijn gerangschikt, krijgt de figuur 70 de eerste rang, 66 de tweede rang, 65 de derde en 63, de vierde rang. Omdat de twee studenten in het voorbeeld een gelijke score hebben, is hun rangorde 2. Nu krijgen ze de gemiddelde rangorde van die rangen die deze studenten zouden hebben gekregen als ze enigszins van elkaar verschilden.

In deze veronderstelling zou de rangorde van beide items 2 + 3/2 zijn. dat wil zeggen, 2.5 en de rang van het volgende item (65) zou 4. zijn. De correlatiecoëfficiënt zou dus een correctie nodig hebben omdat de bovenstaande formule [R = 1.6D 2 / N (N 2 -1] is gebaseerd op de veronderstelling dat de rangen van verschillende items verschillend zijn.

Als er meer dan één artikel met dezelfde waarde is, wordt een correctiefactor 1/12 (t 3 -t) toegevoegd aan de waarde van zd 2, waarbij t. staat voor het aantal items waarvan de rangen gebruikelijk zijn. Deze correctiefactor wordt zo vaak toegevoegd als het aantal items met dezelfde rangorde voorkomt.

Dit wordt uitgelegd in het volgende voorbeeld:

Analyse van gegevens en interpretatie

Voorbeeld:

Bereken de correlatiecoëfficiënt uit de volgende gegevens:

In de bovenstaande dataset van de X-serie komt het nummer 60 drie keer voor. De rangorde van alle drie items is 5, wat het gemiddelde is van 4, 5 en 6, de rangorde die deze items zouden hebben vastgelegd als ze enigszins van elkaar verschilden. Andere nummers 68 in de X-serie en 70 in de Y-serie zijn twee keer voorgekomen. Hun rangen zijn respectievelijk 2, 5 en 1, 5.

Dus:

De gewijzigde formule voor correlatiecoëfficiënten zou dus zijn:

waarbij n staat voor het aantal herhaalde items. Met betrekking tot het bovenstaande voorbeeld zal de formule zijn:

Een waarschuwing met betrekking tot de betekenis en implicatie van een coëfficiënt van correlatie is behoorlijk gerechtvaardigd. De correlatiecoëfficiënt, op zich een zeer bruikbare schatting van de relatie, mag niet worden opgevat als een absoluut bewijs van associatie tussen relevante variabelen, aangezien de interpretatie ervan in grote mate afhangt van de grootte van de steekproef die voor de studie is geselecteerd, zoals ook over de aard van de verzamelde gegevens.

Een ogenschijnlijk hoge correlatiecoëfficiënt, bijvoorbeeld van 0, 80 (+), kan echt heel misleidend zijn als de standaardfout die indicatief is voor de fluctuatie van het monster relatief groot is, of om een ​​tegengesteld voorbeeld te geven, kan een schijnbaar lage coëfficiënt van bijvoorbeeld 0, 45 (+) suggereren dat de relatie tussen de variabelen weliswaar kan worden genegeerd, maar op het vlak van de werkelijkheid kan deze indicatie opnieuw onjuist zijn, omdat de correlatiecoëfficiënt voor bepaalde variabelen doorgaans zo laag kan zijn dat de bovenstaande correlatiecoëfficiënt, dat wil zeggen 0, 45 in vergelijking, zou vereisen om relatief vrij hoog te worden beschouwd voor de klasse van gegevens in kwestie.

Statistische conventies besluiten echter dat de correlatiecoëfficiënt van 1 tot 0, 7 (+) wordt genomen als een indicatie van 'hoge' of significante correlatie, die varieert van 0, 7 tot 0, 4 (+) als substantieel, die tussen 0, 4 en 0, 2 (+ ) zo laag en dat onder 0, 2 (+) zo verwaarloosbaar.

Er moet ook worden benadrukt dat een hoge correlatie tussen twee variabelen op zich geen bewijs vormt dat ze terloops verband houden. Een significante correlatie tussen variabelen - bijvoorbeeld tussen het inkomen en de grootte van het gezin of de grootte van een onderwijsinstelling en de prestaties van de studenten - biedt nauwelijks aanwijzingen voor een toevallige relatie die onder hen bestaat.

Stel dat we zouden vaststellen dat een hoger inkomen omgekeerd gecorreleerd is met het aantal problemen (kinderen), dat wil zeggen, hoe hoger het inkomen van de ouders, hoe minder hun aantal problemen (de correlatiecoëfficiënt is, bijvoorbeeld, 0, 8, wat statistisch vrij hoog is), we zullen ongelijk hebben en ongegrond als we zeggen dat een hoger inkomen de oorzaak is van lagere vruchtbaarheid.

Eerder werd al opgemerkt dat een inferentie van causaliteit alleen gerechtvaardigd is als drie soorten bewijs, gelijktijdige variatie, tijdvolgorde en eliminatie van een andere variabele als bepalende voorwaarde voor het veronderstelde effect kunnen worden verzekerd.

In het onderhavige geval kan het volgende gevolgtrekkingen mogelijk worden getrokken met volledige inachtneming van de uitgesproken correlatie die duidelijk is tussen de variabelen inkomen en aantal kinderen:

(a) De ene kan de andere veroorzaken,

(b) Beide variabelen kunnen de effecten van een andere oorzaak of oorzaken zijn, en

(c) De associatie kan een louter toeval zijn. Causale gevolgtrekkingen kunnen uiteraard zeer zeker worden vastgesteld in een experimentele situatie.

We hebben dit overwogen bij het omgaan met experimentele ontwerpen. In de sociale wetenschappen is het erg moeilijk om experimenten op te zetten, dus de onderzoeken moeten niet-experimenteel zijn. Analytische procedures zijn echter bedacht om conclusies te trekken over de causale relatie in niet-experimentele studies.

De sociaal onderzoeker is vrij vaak geïnteresseerd in het schatten van de mate van associatie tussen attributen, dat wil zeggen, tussen variabelen die kwalitatief worden gedefinieerd; hij zou bijvoorbeeld de mate van associatie tussen de seksuele eigenschap en politieke voorkeur of tussen geboorte en houding ten opzichte van een bepaald sociaal probleem willen weten.

Kortom, het probleem van associatie is er een van correlatie, maar de associatie tussen attributen kan niet gemakkelijk vatbaar worden voor wiskundige behandeling zoals in het geval van de kwantitatieve maten van variabelen. Een maat voor een dergelijke associatie tussen attributen is de coëfficiënt van relatieve voorspelbaarheid (RP), die in feite een kwalitatieve correlatiecoëfficiënt is.