Maatregelen van dispersie

Na het lezen van dit artikel zul je meer te weten komen over de verschillende maten van dispersie die worden gebruikt in sociaal onderzoek.

In sociaal onderzoek willen we vaak de mate van homogeniteit en heterogeniteit van respondenten weten met betrekking tot een bepaald kenmerk. Elke set sociale gegevens heeft waarden die de heterogeniteit kunnen kenmerken. De verzameling sociale gegevens wordt meestal gekenmerkt door de heterogeniteit van waarden.

In feite is de mate waarin ze heterogeen zijn of onderling verschillen, van fundamenteel belang in statistieken. Maatregelen van centrale tendentie beschrijven één belangrijk kenmerk van een reeks gegevens typisch, maar ze vertellen ons niets over dit andere basiskenmerk.

Daarom hebben we manieren nodig om heterogeniteit te meten - de mate waarin gegevens worden verspreid. De maatregelen die deze beschrijving bieden, worden maten van dispersie of variabiliteit genoemd. De volgende drie distributies getoond in Fig. 18.4 illustreren het belang van het meten van de spreiding van statistische gegevens.

Verdeling van de gemiddelde waarden voor monsters van verschillende formaten :

Het is te zien dat het rekenkundig gemiddelde van alle drie curven in de bovenstaande figuur hetzelfde is, maar de verdeling van waarden zoals weergegeven door curve A vertoont minder variabiliteit (dispersie) dan die weergegeven door curve B, terwijl curve B minder variabiliteit heeft in vergelijking met die getoond door curve C.

Als we alleen de mate van centrale neiging van distributies beschouwen, zullen we een belangrijk verschil tussen de drie curven missen. Om een ​​beter begrip van het patroon van de gegevens te krijgen, moeten we ook de maat van de verspreiding of variabiliteit ervan krijgen, nu gaan we kijken naar verschillende maten van dispersie.

bereik:

Het bereik wordt gedefinieerd als het verschil tussen de hoogste en laagste waarden: wiskundig,

R (bereik) = M n - M L

waarbij M n en M l staan ​​voor de hoogste en de laagste waarde. Dus voor de gegevensverzameling: 10, 22, 20, 14 en 14 zou het bereik het verschil zijn tussen 22 en 10, dat wil zeggen 12. In het geval van gegroepeerde gegevens, nemen we het bereik als het verschil tussen de middelpunten van het extreme klassen. Dus als het middelpunt van het laagste interval 150 is en dat van het hoogste 850 is, zal het bereik 700 zijn.

Het enige voordeel van bereik, welke dispersiemaat zelden wordt gebruikt, is dat het gemakkelijk kan worden berekend en gemakkelijk kan worden begrepen. Ondanks dit voordeel is het over het algemeen geen erg bruikbare maatstaf voor verspreiding; Het belangrijkste nadeel is dat het ons niets vertelt over de spreiding van waarden die tussen deze twee uitersten liggen.

Semi-invoer kwartiel of kwartielafwijking:

Een andere maat voor dispersie is het semi-inter-kwartiel-bereik, algemeen bekend als Kwartielafwijking. Quartiles zijn de punten die de array of reeks van waarden verdelen in vier gelijke delen die elk 25 procent van de items in de distributie bevatten. De kwartielen zijn dan de hoogste waarden in elk van deze vier delen. Inter-kwartiel bereik is het verschil tussen de waarden van eerste en derde kwartielen.

Dus, waar en Q 1 en Q 3 staan ​​voor eerste en derde kwartielen, wordt het semi-inter-kwartiel bereik of de kwartielafwijking gegeven door formule = Q 3 -Q 1/2

Berekening van kwartielafwijking:

Kwartielafwijking is een absolute maat voor spreiding. Als de kwartielafwijking moet worden gebruikt om de dispersies van reeksen te vergelijken, is het noodzakelijk om de absolute maat te converteren naar een coëfficiënt van kwartielafwijking.

Gemiddelde afwijking :

Bereik en kwartielafwijkingen hebben ernstige nadelen, dat wil zeggen, ze worden berekend door slechts twee waarden van een reeks in beschouwing te nemen. Deze twee maten van spreiding zijn dus niet gebaseerd op alle waarnemingen van de reeks. Als gevolg hiervan wordt de samenstelling van de serie volledig genegeerd. Om dit defect te voorkomen, kan de dispersie worden berekend rekening houdend met alle waarnemingen van de serie met betrekking tot een centrale waarde.

De methode voor het berekenen van dispersie wordt de methode van middelingsafwijkingen (gemiddelde afwijking) genoemd. Zoals de naam duidelijk aangeeft, is het het rekenkundig gemiddelde van de afwijkingen van verschillende items van een maat voor de centrale tendens.

Zoals we wel weten, is de som van afwijkingen van een centrale waarde altijd nul. Dit suggereert dat om een ​​gemiddelde afwijking te verkrijgen (ongeveer het gemiddelde of een van de centrale waarden), we op een of andere manier alle negatieve signalen moeten verwijderen. Dit wordt gedaan door tekens te negeren en de absolute waarde van de verschillen te nemen.

In ons hypothetische voorbeeld is het gemiddelde van het getal 12, 14, 15, 16 en 18 gelijk aan 15. Dit impliceert dat verschil van 15 van elk van deze getallen, de tekens altijd negerend en dan de resultaten toe te voegen, we krijgen het totaal afwijking.

Door hem te delen door 5 krijgen we:

= 1.6 (waarbij | d | staat voor de som van absolute afwijkingen).

We kunnen dus zeggen dat de scores gemiddeld met 1, 6 verschillen van het gemiddelde.

Berekening van de gemiddelde afwijking in niet-gegroepeerde datum (individuele waarnemingen):

Berekening van de gemiddelde afwijking in de continue serie:

Coëfficiënt van gemiddelde afwijking :

Om de gemiddelde afwijking van reeksen te vergelijken, wordt de coëfficiënt van gemiddelde afwijking of relatieve gemiddelde afwijking berekend. Dit wordt verkregen door de gemiddelde afwijking te delen door de maat van de centrale tendens waaruit de afwijkingen zijn berekend. Dus,

Gemiddelde coëfficiënt. Afwijking / X

Als we deze formule toepassen op het vorige voorbeeld, hebben we

Coëfficiënt van de gemiddelde afwijking = 148/400 = 0, 37

Standaarddeviatie :

De meest bruikbare en vaak gebruikte maat voor dispersie is de standaarddeviatie of wortel-gemiddelde vierkante afwijking ten opzichte van het gemiddelde. De standaarddeviatie wordt gedefinieerd als de vierkantswortel van het rekenkundig gemiddelde van het kwadraat van de afwijkingen ten opzichte van het gemiddelde. Symbolisch,

σ = √Σd 2 / N

waarbij σ (Griekse letter Sigma) staat voor de standaarddeviatie, Σd 2 voor de som van het kwadraat van de afwijkingen gemeten van het gemiddelde en N voor het aantal items.

Berekening van standaarddeviatie in een reeks individuele waarnemingen:

Short-Cut Methode:

Berekening van standaardafwijking in discrete series :

In een discrete reeks worden de afwijkingen van een aangenomen gemiddelde eerst berekend en vermenigvuldigd met de respectieve frequenties van items. De afwijkingen worden gekwadrateerd en vermenigvuldigd met de respectieve frequenties van de items. Deze producten worden getotaliseerd en gedeeld door het totaal van de frequenties. De standaardafwijking wordt berekend met de volgende formule:

De volgende illustratie zou de formule verklaren:

Berekening van standaarddeviatie in een continue serie :

In een continue reeks worden de klassenintervallen weergegeven door hun middelpunten. Meestal zijn de klassenintervallen echter even groot en dus worden de afwijkingen van het veronderstelde gemiddelde uitgedrukt in klasse-intervaleenheden. Als alternatief worden stapafwijkingen bereikt door de afwijkingen te delen door de grootte van het klasse-interval.

Dus, de formule voor het berekenen van standaarddeviatie is geschreven als onder:

waarbij ik staat voor de gemeenschappelijke factor of de grootte van het klasse-interval.

Het volgende voorbeeld illustreert deze formule:

Variatiecoëfficiënt:

De standaarddeviatie vertegenwoordigt de maat van absolute dispersie. Het is ook noodzakelijk om de relatieve spreiding van twee of meer distributies te meten. Wanneer de standaarddeviatie gerelateerd is aan het gemiddelde, meet het de relatieve spreiding. Karl Pearson heeft een eenvoudige maat van relatieve dispersie uitgewerkt, die algemeen bekend staat als de variatiecoëfficiënt.

De variatiecoëfficiënt voor het probleem in tabel 18.47 is: