Korrelation i statistikken

Efter at have læst denne artikel vil du lære om: - 1. Definitioner af korrelation 2. Typer af korrelation 3. Koefficient.

Definitioner af korrelation:

Collins Dictionary of Statistics:

"Indbyrdes afhængighed mellem to eller flere tilfældige variabler. Hvis to variable er sådanne, at når man ændrer sig, gør den anden det på en beslægtet måde, menes at være korreleret. "

Ordbog for Uddannelse, CV Godt:

"Korrelation er tendensen til tilsvarende observationer i to eller flere serier til at variere sammen fra gennemsnittet af deres respektive serier, der skal have tilsvarende relativ position."

AM Tuttle:

"Korrelation er en analyse af medvariationen mellem to eller flere variabler."

Caraxton og Cowden:

"Når forholdet er af kvalitativ karakter, er det omtrentlige statistiske værktøj til at opdage og måle forholdet og udtrykke det i en kort formel kendt som korrelation." På uddannelsesområdet har forskellige pædagoger og psykologer forsøgt at kende omfanget af forholdet mellem evner i forskellige fag.

Ved korrelationsmetoden kan vi være i stand til at studere de forskellige problemer, som involverer forholdet mellem elevernes evner som aritmetik og forståelse mellem bedømmelse på en test af intelligens og kursusgennemsnit, mellem børns højde og vægt mv.

Derfor defineres statistisk korrelation som en grad, hvor de parrede scoringer af to eller flere sæt foranstaltninger er tilbøjelige til at variere sammen. Målet for graden af ​​sammenhæng er udtrykt som en korrelationskoefficient. I uddannelsesmæssig og psykologisk forskning er den samrelationsmæssige analyse meget vigtig.

Følgende er de nogle store felter, hvor den er meget udbredt:

(a) Det bruges til at teste, i hvilket omfang dataene er i overensstemmelse med hypotesen.

(b) Forudsiger en variabel på basis af andre relaterede variabler (r)

(c) At identificere fremmede variabler og isolere deres virkning i et forsøg.

(d) Det bruges til at bestemme pålideligheden og gyldigheden af ​​testresultaterne.

(e) At beregne yderligere statistikker baseret på korrelationskoefficienten.

Typer af korrelation:

For at få en klar forståelse af begrebet korrelation skal vi diskutere forskellige typer af sammenhænge.

I en bivariatfordeling kan forholdene kategoriseres i forskellige typer:

(a) Positiv korrelation

(b) Negativ korrelation

(c) Nul aftale eller intet forhold

(d) Lineær Korrelation

(e) Ikke-lineær eller kurve-lineær korrelation.

(a) Positiv korrelation:

Når stigning eller formindskelse i en variabel medfører tilsvarende stigning eller nedsættelse i den anden variabel, er forholdet siges at være positiv korrelation. Når hver enheds stigning eller formindskelse i en variabel efterfølges af proportional stigning eller fald i den anden variabel, er forholdet perfekt positiv korrelation.

Et positivt forhold varierer fra 0 til +1. Når det er +1, er korrelationen perfekt positiv korrelation.

Antag, at 100 elever har nøjagtig det samme stående i to prøver - de elever, der scorer først i den ene test scoringer først i den anden, er den studerende, der står øverst i den første test, også anden i den anden test. Denne en til en korrespondance gælder hele hele listen.

Så forholdet er perfekt, da den relative stilling af hvert fag er nøjagtig det samme i en test som i den anden, og korrelationskoefficienten er + 1, 00.

Det kan illustreres ved hjælp af følgende eksempel:

Eksempel:

I ovenstående tabel A scores først i Test-1 og også i Test-2. Og ligeledes B sekunder, C tredje, D fjerde og E femte i begge testene. Her bemærkes, at stigningen i karakteren af ​​en elev i et fag svarer til den forholdsmæssige stigning i karakteren i et andet emne. Sådan korrelation kaldes perfekt positiv korrelation.

Hvis stigningen i karakteren af ​​en elev i 1. prøve svarer til stigningen i karakteren i den anden test, men ikke proportionelt, er den positiv korrelation, vi kan illustrere det ved hjælp af følgende grafer:

(b) Negativ korrelation:

Når en høj grad af et træk eller en variabel er forbundet med en lav grad af en anden kaldes negativ korrelation. Hvor stigningen i en variabel resulterer i fald i anden variabel og omvendt, er forholdet siges at være negativ korrelation. Den negative korrelation kan variere fra 0 til -1.

Når hver enhedsforøgelse i en variabel bringer proportional enhed ned i den anden variabel, kaldes forholdet perfekt negativ korrelation, og korrelationskoefficienten er angivet med -1. Vi kan forklare dette ved hjælp af følgende eksempel.

Antag, at 5 studerende A, B, C, D og E har sikret 80, 75, 70, 65 og 60 point. I den anden test har de sikret henholdsvis henholdsvis 40, 45, 50, 55 og 60.

I ovenstående eksempel har studerende A, der har sikret højeste point i Test-1, sikret laveste point i Test-2. Den studerende B, der står næst i Test-1-rækken ved siden af ​​bunden (4.) i Test-2. Her står hver elev så langt fra toppen af ​​listen i Test-1 som fra bunden af ​​listen i Test-2.

Korrespondancen mellem præstation i test-1 og test-2 er derfor regelmæssig og bestemt, men forholdet er omvendt, fordi stigningen i karakterer for et individ i et emne svarer til faldet i karakterer i et andet. Dette forhold er en perfekt negativ korrelation.

Det kan illustreres ved hjælp af følgende grafer:

(c) Nul-aftale eller manglende korrelation:

Når der ikke er et systematisk forhold mellem to sæt scoringer eller variabler i så fald er det kendt som nul-aftale eller ingen korrelation. Det betyder, at der i nulkorrelation er korrespondance mellem de scores, som gruppens medlemmer har foretaget på de to sæt scoringer. Ændringen i en variabel er ikke nogen måde forbundet med ændringen af ​​anden variabel.

For eksempel er skostørrelsen og månedsindkomsten for personer, individets højde og deres intelligens mv slet ikke relateret. Som nulkorrelation indikerer intet sammenhængende forhold, så udtrykkes det af en koefficient på .00. Vi kan også forklare dette koncept ved hjælp af et diagram som vist i figur 12.3.

(d) Lineær korrelation:

Når forholdet mellem to variabler er proportional og det kan beskrives ved en lige linje, kaldes den linjær korrelation. Antag, at der er fem personer, siger A, B, C, D og E. Den månedlige løn for disse personer er Rs. 4000, Rs. 5000, Rs. 6000, Rs. 7000 og Rs. 8000 henholdsvis.

Så deres årlige indkomst vil være 12 gange deres månedsløn. Hvis vi tegner en graf, der viser månedslønnen på 'X'-akse og årlig indkomst i' Y-akse, vil resultatet være en lige linje graf som i figur 12.4-1, 2. Dette forhold kaldes som en lineær korrelation .

(e) Kurve Lineær Korrelation:

Når forholdet mellem variablerne ikke er proportional i hele serien, og det kan beskrives ved en kurvelinie, kaldes den som kurve lineær korrelation. Det er også kendt som ikke-lineær korrelation. For eksempel, for det første med stigning i variabel 'A' øges den anden variabel 'B' op til et bestemt punkt, derefter med en stigning i variabel-A falder variabel-B.

Hvis denne sammenhæng mellem variabel-A og variabel-B plottet til grafen, vil resultatet være en buet linje (figur 12.4-3, 4).

Korrelationskoefficient:

Den statistiske metode, hvori forholdet udtrykkes i en kvantitativ skala, kaldes korrelationskoefficienten. Det er et numerisk indeks, der fortæller os, i hvilket omfang de to variabler er relaterede og i hvilket omfang variationerne i en variabel ændres med variationerne i den anden.

"Korrelationskoefficient er et rent antal, der varierer normalt fra +1 til 0 til 1, hvilket angiver graden af ​​forhold, der eksisterer mellem to (eller flere) serier af observationer" - CV God.

Korrelationskoefficienten er udpeget på to måder. I Karl Pearsons produkt-øjeblik udtrykkes det som 'r'. I Spearmans Rankforskelskorrelation udtrykkes det som 'p' (rho). En positiv korrelation indikerer, at stor mængde af en variabel har tendens til at ledsage store mængder af den anden. Så en perfekt positiv korrelation er udtrykt ved en koefficient på 1, 00.

Således ligger en positiv korrelation fra 9, 00 til + 1, 00. En negativ korrelation indikerer, at en lille mængde af den ene variabel har tendens til at ledsage en stor mængde af den anden. Det er en høj grad af et træk kan være forbundet med lav grad af en anden.

En perfekt negativ korrelation er udtrykt ved en koefficient på - 1, 00. En negativ korrelation spænder således fra nul til - 1, 00. Når de to variabler slet ikke er relateret, udtrykkes koefficienten som nul.

Fortolkning af korrelationskoefficienten:

Den r-værdi, vi får, viser kun, at exit er et forhold. Men det angiver ikke, om det er væsentligt eller ej. Derfor tester vi betydningen af ​​r på .05 og .01 niveauet af tillid med hensyn til deres frihedsgrader eller 'df'. I et bivariat forhold tælles df som (N-2).

For eksempel, hvis r = 0, 55 og N = 50 for at fortolke r skal vi indtaste tabellen -C. Her df = (N-2) = (50-2) = 48. Indtastning i tabellen viste vi, at ved df = 50 (nærmere df 48) er værdien ved .05 niveau .273 og ved .01 niveau er .354.

Vores r-værdi 0, 55 er større end begge disse værdier. Derfor er r signifikant både på .05 niveau og .01 niveau. Så hvis r-værdien er større end værdien af ​​et signifikant niveau, vil det være signifikant, og hvis det er mindre end værdien af ​​signifikant niveau, vil det være ubetydeligt.

Egenskaber af r:

1. Hvis et konstant tal tilføjes til en eller begge variabler, forbliver korrelationskoefficienten uændret.

2. Hvis et konstant tal trækkes fra en eller begge variablerne, forbliver korrelationskoefficienten uændret.

3. Hvis et konstant tal multipliceres med en eller begge variablerne, forbliver korrelationskoefficienten uændret.

4. Hvis både variablerne og den ene er divideret med et konstant tal, forbliver korrelationskoefficienten uændret.

Anvendelse af korrelationskoefficient (r):

1. For at finde ud af graden af ​​forhold eller interafhængighed mellem to variabler anvendes r.

2. For at forudsige den afhængige variabel fra den uafhængige variabel r anvendes.

3. For at bestemme pålideligheden af ​​et testresultat anvendes r.

4. For at bestemme testresultatets gyldighed anvendes r.

5. At træffe beslutninger i uddannelses- og erhvervsvejledning er brugt.

6. For at beregne andre statistikker som faktoranalyse er regression forudsigelse og multipel korrelation mv r nødvendig.

Beregning af korrelationskoefficient:

Der er to metoder til beregning af korrelationskoefficienten fra en bivariatfordeling.

1. Spearmans Rank Difference Metode:

Korrelationskoefficienten er værdifuld for uddannelse og psykologi som et mål for forholdet mellem testresultater og andre præstationsmålinger. Men i mange situationer har vi ikke scoringer. Vi skal arbejde med data, hvor forskelle i en given attribut kun kan udtrykkes af rækker eller ved at klassificere en person i flere beskrivende kategorier.

Således kan forskelle blandt enkeltpersoner i mange træk udtrykkes ved at rangordne emnerne i rækkefølge efter fortjeneste, når sådanne forskelle ikke kan måles direkte. Ved rangering menes det at placere individerne i rækkefølge efter fortjeneste.

F.eks. Kan personer placeres i rækkefølge efter fortjeneste for ærlighed, atletisk evne, salgsmæssig eller social tilpasning, når det er umuligt at måle disse komplekse adfærd.

Ved beregning af sammenhængen mellem to sæt af rækker er der udarbejdet særlige metoder. Når vi kun har få score (n er for lille) med to sæt, er det tilrådeligt at rangere disse scores og beregne korrelationskoefficienten (ρ) af Pearson's Rank Difference Method.

Forudsætninger for ρ:

Dataene er meget skævt eller er for små.

Når kvantitativ måling ikke er mulig.

Data er fri eller uafhængige af nogle karakteristika ved befolkningsfordelingen

Data er i ordinær skala.

Beregning af ρ:

Eksempel 1:

Find ud af koeffektiviteten af ​​sammenhængen mellem to sæt scoringer efter rangforskel metode.

I det følgende ses markerne for 5 studerende i henholdsvis historie og geografi:

Opløsning:

Trin 1

Placer det første sæt af scoringer, startende fra rang 1 til højeste score og skriv rækken under kolonne R 1 (kol. 4).

Trin 2

Placer det andet sæt scoringer - startende fra Rank-1 til den højeste score og skriv rækken under kolonne R2 (kolonne 5)

Trin 3

Find ud af D ved at fratrække R2 fra R 1 dvs. (R 1 - R 2 ) i kol. 6.

Trin-4

Find ud af D 2 ved at kvadrere D (col-7). Derefter beregne Σ D 2 tilføje værdierne i kol. 7.

Trin-5

Sæt formlen og få resultatet

Så korrelationskoefficienten mellem scoringen af ​​historie og geografi er 0, 43.

Beregning af p, når dataene er i rækker.

Eksempel:

Bestem, i hvilket omfang deres domme var enige.

I en musik konkurrence har to dommere rangeret 8 elever som angivet nedenfor:

Opløsning:

Trin 1:

Da scorerne er i rækker, så find D ved at fratrække rækker af dommer-2 fra rækker af dommer-1.

Trin 2:

Find ud af D 2 og ΣD 2 .

Trin 3:

Sæt værdien i formel og få resultatet.

Så punktet for enighed mellem dommene er 0, 90. Computing p for bundet rækker

Eksempel:

Beregn korrelationskoefficienten mellem scorerne af de to sæt i Rankforskelsmetoden.

Nedenfor gives de 8 studerende på to parallelle tests:

Opløsning:

Trin 1:

Rank scoreene i Test-1. I Test-1 E står først, C står 2., A og F får samme score. Det er klart, at disse to studerende skal fylde 3. og 4. klasse. Så vi rangerer dem begge 3 + 4/2 = 3.5. Næste B står 5. D og G fik samme score. Så deres rækker bliver

og H vil blive rangeret som 8.

Trin 2:

På samme måde som vi har rangeret scorerne i Test-1, rangordner scorerne i Test-2.

Trin 3:

Beregn D, der trækker R2 fra R1

Trin-4:

Beregn D 2 og find ud af Σ D 2

Trin-5:

Sæt formlen og få resultatet

Så korrelationskoefficienten mellem scorerne af to test er 0, 87.

Fordele ved Rank Difference metode:

1. Det giver en hurtig og bekvem måde at estimere korrelation på, når N er lille.

2. Når dataene er i ordinært skala på det tidspunkt, bruger vi rangforskel metode til estimering af korrelation.

Demerits of Rank Difference metode:

1. Rangforskel metode tager hensyn til positioner i serien. Det giver intet tillæg til huller mellem tilstødende scoringer. For eksempel er scorer på tre studerende 90, 89 og 70 i en test. De ville blive rangeret 1, 2 og 3, selvom forskellen mellem 90 og 89 er meget mindre end forskellen mellem 89 og 70.

2. Nøjagtighed kan gå tabt ved oversættelse af scoringer til rækker, især når der er en række bånd.

3. Det er svært at beregne p fra data, når N er stor, sige mere end 30.

2. Karl Pearson's Produkt Moment Metode:

En anden effektiv metode til estimering af korrelationskoefficient er udviklet af Karl Pearson, som er populært kendt som korrelationskoefficient for produkt-moment. Det kaldes Produkt øjeblik, fordi "summen af ​​afvigelserne fra middelværdien (hævet til en vis effekt) og divideret med N kaldes et øjeblik. Når de tilsvarende afvigelser i V og y multipliceres sammen, summeres og divideres med N

udtrykket produktmoment anvendes. "

Symbolisk er produktets momentkoefficient for korrelation betegnet som 'r'.

Korrelationskoefficienten i produktmoment er:

Forudsætninger om produkt-moment korrelation:

1. Normal fordeling:

De variabler, som vi ønsker at beregne korrelationen til, skal normalt fordeles. Antagelsen kan lægges fra stikprøveudtagning.

2. Linearitet i korrelation:

Produktets momentkorrelation kan vises i lige linje, som er kendt som lineær korrelation.

3. Kontinuerlig serie:

Måling af variabler skal være i kontinuerlig skala.

Beregning af produktkorrelation:

Produktets øjeblikkeskoefficient for korrelation kan beregnes i to forskellige situationer:

(a) Når dataene er ugrupperet

(b) Når dataene er grupperet

(a) Beregning af r fra ugrupperede data:

Beregning af korrelationskoefficient i ugrupperede data sker generelt på to måder:

(i) Når der afviges fra midler

(ii) Beregning fra Raw scorer eller Original scores.

(i) Beregning af produktmoment korrelation, når afvigelser tages fra midlerne.

Formlen anvendt til at beregne r fra ugrupperede data, når afvigelser er taget fra middelværdien af ​​de to distributioner X og Y lyder som følger:

Eksempel:

Beregn koefficienten for korrelation af scorerne på 12 elever i en test af engelsk og MIL i produkt moment metode.

Opløsning:

Trin 1

Find gennemsnittet af scoringer i engelsk (X) og middelværdi af scoringer i MIL (Y). Her er M x = 62, 5, M y = 30, 4.

Trin 2

Find afvigelsen (x) for hver score på engelsk test (tabel 12.6, kol-4) og afvigelse (y) for hver score i MIL test (tabel 12.6, kol-5)

Trin 3

Firkantet af alle xs og alle ys og find ud af x 2 og y 2 . Tilføj x 2 s i kol. 6 og y 2 s i kol. 7 og find ud af Σx 2 og Σy 2 .

Trin-4

Multiplicer afvigelserne for X-variabel (kol 4) med afvigelser for Y-variabel (kol. 5) under behørig hensyntagen til algebraiske tegn for at få xy (kol. 8). Tilføj derefter værdierne i kol. 8 og få Σxy.

Trin-5

Sæt værdien i formlen og få resultatet.

Så korrelationskoefficienten mellem scorerne i engelsk og scoringer i MIL af de 12 studerende er 0, 78.

(ii) Beregning af korrelationsproduktmomentskorrelation fra originale scores eller råresultater:

Uden at beregne afvigelserne kan vi også beregne r fra rå scores eller direkte fra originale scores.

I dette tilfælde anvender vi følgende formel:

Eksempel:

Beregn koefficienten for korrelation af de følgende to sæt scoringer opnået fra en test af matematik og videnskab af 10 studerende i produkt øjeblik metode:

Opløsning:

Trin 1

Firkant alle X s og Y s

Trin 2

Find produktet af X og Y ved at multiplicere hver X med tilsvarende Y.

Trin 3

Tilføj X s (kol. 1), Y s (kol. 2), X 2 (kol 3), Y 2 (kol. 4) og XY (kol. 5) for at få ΣX, ΣY, ΣX Henholdsvis 2 ΣY 2 og ΣXY.

Trin-4

Sæt disse værdier i formlen og få resultatet.

Så korrelationskoefficienten mellem de to sæt scorer er 0, 92.

(b) Beregning af r fra grupperede data:

Den metode, vi har diskuteret i ovenstående afsnit, kan anvendes, når N er lille. Men når N er stor, er computering r i den ovennævnte metode arbejdsom og tidskrævende. Vi kan overvinde vanskeligheden ved at arrangere dataene i form af et diagram eller diagram kendt som 'scatter diagram' eller 'scatter gram'. Det er også kendt som tovejs frekvensfordeling eller bivariate frekvensfordeling. Lad os overveje, hvordan man laver et scatterdiagram.

Sådan fremstilles et scatterdiagram:

For eksempel opnåede 50 elever fra 9. klasse på en gymnasium følgende resultater på en gruppe intelligens test (X) og algebra test (Y).

Lad os konstruere et scatterdiagram for disse scoringer.

Lad os tage klasseintervallerne af intelligensstest langs venstre margen, fra top til bund i diagrammet (figur 12.5) og algebra-testintervaller langs toppen af ​​diagrammet fra venstre mod højre.

Antag, at vi vil plotte de første studerende i diagrammet. Den 1. studerende har en intelligens score på 48 og algebraisk score på 173. Her skal vi sætte et tal i cellen svarende til klassens intervaller, 45-49 i intelligens og 170-179 i algebra test.

Ligeledes må vi sætte tal for alle 50 elever i overensstemmelse med de to scoringer, intelligens test og algebra test. Derefter tælles tallene af hver celle og oversættes til nummeret. Derefter vil tallene i hver række tilføjes, og frekvensen for hvert klasseinterval af intelligens test (X variabel) f x vil blive fundet ud.

F.eks. I fig. 12.5 er f x for 1. række 1, 2. række 6, 3. række 7 og ligeledes 8. række 2. På samme måde tilføjes celleantalet af hver søjle og frekvens for hvert klasseinterval af algebra test (Y variabel) f y vil blive bestemt.

F.eks. Er f y for 1. søjle 3, 2. søjle 1, 3. søjle 2 og ligeledes 10 søjle 2. Når alle tallene er blevet opført, tilføjes frekvensen i hver celle og indtastes på diagrammet. Scatterdiagrammet er så en korrelationstabel.

Beregning af 'r' fra korrelationstabel:

Når N er stor eller endog moderat i størrelse, er det nemt at beregne r ved at gruppere dataene ind i en bivariatfrekvensfordeling og beregne r ved at tage afvigelser fra antaget middel i stedet for den faktiske middelværdi.

Formlen til beregning fra grupperede data i antaget middel metode lyder som følger:

Lad os beregne r xy fra korrelationstabellen, der findes fra scatterdiagrammet.

Når korrelationstabellen er udarbejdet, kan vi finde ud af r ved hjælp af formel:

Trin 1

Tilføj frekvenserne af hver kolonne med algebra score og få f y . Tilføj derefter frekvenserne af hver række intelligens test og få f x .

Trin 2

Antag et middel for intelligens test scorerne (som vi har diskuteret i beregning betyder i antaget middel metode) og tegne en dobbelt linje i den kolonne for at gøre det tydeligt.

På samme måde antage et middel for algebra-testresultaterne og tegne en dobbeltlinie i den række for at gøre den tydelig. I dette nuværende problem for efterretningstesten testes midtpunktet for CI 40-44 dvs. 42, og for algebra-test er midtpunktet for CI 140-149 dvs. 144, 5 taget som antaget middel. Nu kan vi tage x 'og y' fra dette punkt som angivet i fig.

Trin 3

Multiplicér x'x med f x og find ud fx ' og på samme måde multiplicere y'en med fy og find out fy '.

Trin-4

Multiplicér fx 'kolonnen med x' kolonne og få fx ' 2 og fy' række med y 'og få fy' 2 .

Trin-5

Den næste opgave er at finde ud af fx'y '. Multiplicér x'en af ​​søjlen med y'en af ​​rækken af ​​en bestemt celle, hvilket giver behørig vægt på de algebraiske tegn. Skriv produktet til øverste hjørne af cellen inden for en beslag.

Multiplicér derefter cellefrekvensen med produktet og få værdien af ​​fx'y 'af den celle og skriv den til den nederste venstre del af cellen.

F.eks. Er frekvensen af ​​celle 20-24 og 180-189 1. Her er x '-4 og y' er +4, produktet af x 'og y' er -16. Ved at multiplicere produktet -16 med cellefrekvens 1 får vi fx'y '= -16 for den celle.

Ligeledes kan vi beregne fx'y'et for alle cellerne. Tilføjelse af værdierne for cellerne radvis kan vi få værdierne for fx'y 'kolonne. Tilføjelse af disse værdier får vi Σfx'y '. For at kontrollere rigtigheden tilføj værdierne for fx'y 'kolonne klogt for at få fx'y' række og tilføje disse værdier, vi kan også få Σfx'y '(se tabel-12.8)

Trin 6

Tilføj værdien af ​​fx ', fx' 2, fy 'og fy' 2 og få henholdsvis Σfx ', Σfx' 2, Σfy 'og Σfy' 2 '.

Trin-7

Sæt værdierne i formlen og få resultatet.