Top 4 Karakteristik af en god test

Denne artikel kaster lys på de fire vigtige egenskaber ved en god test. De fire egenskaber er: 1. Pålidelighed 2. Gyldighed 3. Objektivitet 4. Brugbarhed.

Karakteristisk # 1. Pålidelighed:

Ordbogen betyder pålidelighed er konsistens, afhængighed eller tillid. Så i måling pålidelighed er den sammenhæng, som en test giver det samme resultat til at måle, hvad den måler. En testscore kaldes pålidelig, når vi har grund til at tro at scoren er stabil og tillidsværdig. Stabilitet og tillidsværdighed afhænger af, i hvilken grad scoren er et indeks for tidsikkerhed 'er uden risiko for fejl. Derfor kan pålidelighed defineres som grad af sammenhæng mellem to målinger af samme ting.

For eksempel administrerede vi en præstationsprøve på Group-A og fandt en gennemsnitlig score på 55. Igen efter 3 dage administrerede vi den samme test på Group-A og fandt en gennemsnitlig score på 55. Det indikerer at måleinstrumentet (Achievement test) giver et stabilt eller pålideligt resultat. På den anden side giver testen i den anden måling en gennemsnitlig score omkring 77, så vi kan sige, at testresultatene ikke er konsistente.

I ordene Gronlund og Linn (1995) refererer pålidelighed til målingens sammenhæng - det vil sige, hvor ensartede testresultater eller andre evalueringsresultater er fra en måling til andre. "

CV Good (1973) har defineret pålidelighed som den "værdighed, som en måleenhed måler noget på; i hvilken grad en test eller et andet evalueringsinstrument måler konsekvent, uanset hvad det faktisk måler. "

Ifølge Ebel og Frisbie (1991) betyder begrebet pålidelighed den sammenhæng, som et sæt testresultater måler, hvad de måler. "

Teoretisk er pålidelighed defineret som forholdet mellem den sande score og observeret scorevariance.

Ifølge Davis (1946) er graden af relative præcisioner af måling af et sæt testresultat defineret som pålidelighed. "

Pålideligheden svarer således til følgende spørgsmål:

Gronlund og Linn (1995)

Hvorledes er testresultaterne ens, hvis den tabte administreres to gange?

Hvordan svarer testresultaterne, hvis to tilsvarende former for test indgives?

I hvilket omfang scoringen af ethvert essay test. Afvige når det er scoret af forskellige lærere?

Det er ikke altid muligt at opnå helt ensartede resultater. Fordi der er flere faktorer som fysisk sundhed, hukommelse, gæt, træthed, glemmer osv., Som kan påvirke resultaterne fra en måling til andre. Disse fremmede variabler kan indføre nogle fejl i vores testresultater. Denne fejl kaldes som målefejl. Så samtidig med at der bestemmes pålidelighed af en test, skal vi tage højde for mængden af fejl, der er til stede i måling.

Pålidelighedens art:

1. Pålidelighed refererer til sammenhængen mellem de opnåede resultater med et instrument, men ikke selve instrumentet

2. Pålidelighed refererer til en bestemt fortolkning af testresultater. For eksempel kan en test score, der er pålidelig over en periode, ikke være pålidelig fra en test til en anden tilsvarende test. Så pålideligheden kan ikke behandles som generelle karakteristika.

3. Pålidelighed er et statistisk koncept for at bestemme pålidelighed, vi administrerer en test til en gruppe en eller flere gange. Derefter bestemmes konsistensen i form af forskydninger i den relative position af en person i gruppen eller variationsvariationen, der forventes i individets score. Skiftning af en persons relative stilling er relateret ved hjælp af en korrelationskoefficient, der hedder 'Pålidelighedskoefficient', og mængden af variation er rapporteret af 'Standardfejlmåling'. Begge disse processer er statistiske.

4. Pålidelighed er nødvendig, men ikke en tilstrækkelig betingelse for gyldighed. En test, der ikke er pålidelig, kan ikke være gyldig. Men det er ikke, at en test med høj pålidelighed vil have høj gyldighed. Fordi en meget konsistent test må måle noget andet end det, vi har til hensigt at måle.

Metoder til bestemmelse af pålidelighed:

For de fleste uddannelsesprøver giver pålidelighedskoefficienten det mest afslørende statistiske kvalitetsindeks, der normalt er tilgængeligt. Estimater af testets pålidelighed giver væsentlige oplysninger til vurdering af deres tekniske kvalitet og motiverende indsats for at forbedre dem. Konsistensen af en test score udtrykkes enten i form af forskydninger af en persons relative stilling i gruppen eller i form af variation i en persons score.

På grundlag af denne vurdering af pålidelighed falder ind i to generelle klassifikationer:

(jeg) Relativ pålidelighed eller pålidelighedskoefficient:

I denne metode angives pålideligheden i form af en korrelationskoefficient kendt som pålidelighedskoefficient. Derfor bestemmer vi forskydningen af den relative position af individets score ved korrelationskoefficient.

(ii) Absolut pålidelighed eller standard fejlmåling:

I denne metode er pålideligheden angivet som standardmåling. Det angiver mængden af variation af en persons score.

Metoder til bestemmelse af relativ pålidelighed eller pålidelighed Koefficient:

For at bestemme pålidelighedskoefficienten skal vi opnå to sæt målinger i samme tilstand og derefter sammenligne de to sæt. Men det er kun en teoretisk betingelse, for det er umuligt for os at få to målinger på præcis to ens betingelser. Således er der udviklet flere metoder til at bestemme den relative pålidelighed.

De er som følger (Gronlund og Linn-1995):

(i) Samme form for test kan indgives to gange til den samme gruppe individer.

(Ii) To separate, men ækvivalente former for testen kan indgives til de samme individer.

(iii) Prøveelementerne i en enkelt test er opdelt i to separate sæt, og scoren af to sæt er korrelerede.

Metoderne ligner hinanden, idet alle involverer korrelering af to datasæt, opnået enten fra det samme evalueringsinstrument eller fra tilsvarende former af samme procedure. Denne pålidelighedskoefficient skal fortolkes med hensyn til de sammenhængstyper, der undersøges.

Forskellige typer af konsistens bestemmes ved forskellige metoder. Disse er som følger:

1. Konsistens over en periode.

2. Konsistens over forskellige former for instrument.

3. Konsistens inden for selve instrumentet

Der er fire metoder til at bestemme pålidelighedskoefficienten, såsom:

(a) Test-Retest-metode.

(b) Ækvivalente former / Parallelle former metode.

(D) Rational Equivalence / Kuder-Richardson metode.

(а) Test-Retest Metode:

Dette er den enkleste metode til bestemmelse af testens pålidelighed. For at bestemme pålideligheden i denne metode gives testen og gentages på samme gruppe. Så opnås korrelationen mellem det første sæt af scoringer og andet sæt scoringer.

En høj koefficient for korrelation indikerer høj stabilitet af testresultater. I ordene fra Gronlund rapporteres stabilitetsforanstaltninger i .80'erne og .90'erne almindeligvis for standardiserede prøver ved flere lejligheder inden for samme år. Men denne metode lider af nogle alvorlige ulemper. Først og fremmest hvad skal intervallet mellem to administrationer være.

Hvis det administreres inden for et kort interval, siger en dag eller to, så vil eleverne huske deres første svar og bruge deres tid på nyt materiale. Det vil have tendens til at øge deres score i anden administration. Hvis intervallet er for langt, siger et år, vil modningseffekten påvirke de retest scoringer, og det vil have tendens til at øge de retest scoringer.

I begge tilfælde vil det have en tendens til at sænke pålideligheden. Så hvad skal tidsgabet mellem to administrationer afhænge i vid udstrækning af brugen og tolkningen af testresultater. På grund af dens vanskeligheder med at kontrollere forhold, der påvirker scoringsresultaterne, reduceres brugen af test-retest-metoden ved estimering af pålidelighedskoefficient.

(b) Tilsvarende formularer / Parallelle former:

Pålidelighed af testresultater kan estimeres ved hjælp af tilsvarende formmetode. Det er også ellers kendt som alternative former eller parallelle former metode. Når to tilsvarende former for test kan konstrueres, kan korrelationen mellem de to tages som mål for selvkorrelationen af testen. I denne proces administreres to parallelle former for test til samme gruppe af elever i kort tidsinterval, så scores af begge testene korreleres. Denne sammenhæng giver ækvivalensindekset. Normalt i tilfælde af standardiserede psykologiske og præstationsprøver er de tilsvarende former tilgængelige.

Begge de tests, der vælges til administration, skal være parallelle med hensyn til indhold, vanskeligheder, format og længde. Når tidsgab mellem administrationerne af to former for test er tilvejebragt, giver testresultatets koefficient et mål for pålidelighed og ækvivalens. Men den største ulempe ved denne metode er at få to parallelle former for test. Når testene ikke er nøjagtigt ens i forhold til indhold, vanskeligheder, længde og sammenligning mellem score opnået fra disse tests kan føre til fejlagtige beslutninger.

(c) Split-Half Method:

Der findes også metoder, hvorved pålideligheden kan bestemmes ved en enkelt indgivelse af en enkelt test. En sådan metode er split-halv metode. Ved denne metode administreres en prøve til en gruppe elever på sædvanlig måde. Derefter er testen opdelt i to ækvivalente værdier, og korrelation for disse halvtest er fundet.

Den almindelige procedure for opdeling af testen er at tage alle ulige nummererede punkter dvs. 1, 3, 5 osv. I en halv og alle lige nummererede punkter, dvs. 2, 4, 6, 8 osv. I den anden halvdel. Så scoringer af begge Halverne korreleres ved anvendelse af Spearman-Brown-formlen.

For eksempel ved at korrelere begge halvdelene fandt vi en koefficient på .70.

Ved at bruge formel (5.1) kan vi få pålidelighedskoefficienten på fuld test som:

Pålidelighedskoefficienten 0, 82, når koefficienten for korrelation mellem halvtest er 0, 70. Det angiver, i hvilket omfang prøven af testemner er pålidelig prøve af indholdet, der måles-intern konsistens.

Gronlund (1995) er af den opfattelse, at "split half reliabilities tendens til at være højere end tilsvarende form reliabilities fordi den delte halv metode er baseret på administration af en enkelt test form." Denne metode over-kommer problemet med tilsvarende former metode indført på grund af forskelle fra form til form, opmærksomhed, arbejdshastighed, indsats, træthed og testindhold mv.

(d) Rationel ækvivalent / Kuder Richardson Metode:

Rationel ækvivalens er en anden metode til bestemmelse af pålidelighed ved anvendelse af formel udviklet af Kuder og Richardson. Ligesom split-halve metode giver denne metode også en måling af intern konsistens. Det kræver heller ikke administration af to tilsvarende former for test, og det kræves heller ikke at dele testene i to lige store halvdele. Pålidelighedskoefficienten bestemmes ved anvendelse af Kuder-Richardson formel-20, som læses som dette.

Denne metode giver information om, i hvilken grad målerne i testen måler lignende egenskaber. Selvom enkelheden ved at anvende denne metode har gjort det bredt spredt, har det nogle begrænsninger.

1. Kuder-Richardson metode og split-half metode er ikke egnet til hastighedstest.

2. Både Kuder-Richardson og split half-metoden måler ikke sammenhængen mellem elevens respons fra dag til dag.

3. Kuder-Richardson-metoden er besværlig at beregne, medmindre der allerede foreligger oplysninger om andelen af passagen.

Metoder til bestemmelse af absolut pålidelighed eller standardmålinger:

Hvis vi skal administrere en prøve igen og igen, finder vi en vis variation i scoringer. Fordi den opnåede score er et indeks for eksaminandens sande score plus: fejlmålinger. HE Garrett (1985) har defineret en sand score som "en foranstaltning, der ville opnås ved at tage middelværdien af et uendeligt stort antal målinger af et givet individ på lignende tests under lignende betingelser. En sand score kan ikke selvfølgelig bestemmes eksperimentelt " .

Hvis testresultatene indeholder en stor fejlkomponent, er dens pålidelighed lav, og hvis den indeholder lidt fejl, er dens pålidelighed høj. Således kan omfanget af en sand score overstige, fejl i de opnåede resultater kan angives ved hjælp af pålidelighedskoefficient.

Dette forhold mellem ægte score, opnåede score og fejlen kan udtrykkes matematisk som følger:

Vi kan finde ud af standard fejlmåling (SE), når pålidelighedskoefficienten og standardafvigelsen af fordelingen er angivet.

Formlen (Garrett-1985) til beregning af standardfejl i måling er som følger:

For eksempel i en gruppe på 200 gymnasieelever er pålidelighedskoefficienten for en præstationsprøve i matematik 0, 70, middel = 65 og o = 20. Lipu opnår en score på 60. Hvad er SE af denne score.

Ved at sætte værdien i formel (5.3):

Så den sande score af Lipu er 60 ± 10, 95 dvs. 70, 50 til 49, 05.

Ingen opnået score fortæller os, hvad den sande score er, men kendskabet til SE angiver forskellen mellem den opnåede score og den sande score. Når SE er lille, indikerer det, at den sande score er tættere på den opnåede score, og det angiver også, om forskellen mellem scorer af to individer er reel forskel eller forskel på grund af fejlmålinger.

Faktorer der påvirker pålidelighed:

Der er en række faktorer, der påvirker pålidelighedsforanstaltningerne. Så når vi fortolker og bruger scorerne, må vi være forsigtige og manipulere disse faktorer gennem testforberedelse og administration.

De vigtigste faktorer, der påvirker pålideligheden af testen, kan scorer kategoriseres i tre overskrifter:

1. Faktorer relateret til test.

2. Faktorer relateret til test.

3. Faktorer relateret til testproceduren.

1. Faktorer relateret til test:

(a) Testens længde:

Spearman Brown formel viser jo længere testen er, desto højere er pålideligheden. Fordi en længere test vil give en passende prøve af adfærd. En anden årsag er, at gætterfaktoren er tilbøjelig til at blive neutraliseret i en længere test.

For eksempel, hvis vi skal give en beregning til måling af elevernes numeriske evner. Dem, der har beregnet korrekt, er perfekte i numerisk evne dem, der mislykkedes, er fuldstændige fejl. Hvis beregningen er en vanskelig, så vil de fleste af eleverne mislykkes. Hvis det er let, så vil de fleste elever beregne det korrekt. Så den enkelte varescore giver aldrig et pålideligt resultat.

b) Indholdets indhold:

Ifølge Guilford øger homogeniteten af testindhold også pålideligheden af testresultater. En test af 50 genstande på vedisk civilisation vil give mere pålidelige resultater end en test på 50 elementer på indisk historie. Ifølge Ebel (1991) er emne i nogle kurser som matematik og fremmedsprog mere tæt organiseret med større indbyrdes afhængighed af fakta, principper evner og præstationer end i faglitteraturen eller historien. " Så denne indholdshomogenitet er også en faktor, der resulterer i høj pålidelighed.

(c) Karakteristika for emner:

Sværhedsniveauet og klarheden af ekspression af en testemne påvirker også pålideligheden af testresultater. Hvis testemner er for nemme eller vanskelige for gruppens medlemmer, vil det have tendens til at producere scoringer med lav pålidelighed. Fordi begge prøver har en begrænset spredning af scoringer.

(d) Sporspredning:

Ifølge Gronlund og Minn (1995) "jo større spredning af scoringer er jo højere estimatet af pålidelighed vil være." Når han spredes af scorer er store, er der større chance for, at en person forbliver i samme relativ position i en gruppe fra en test til en anden. Vi kan sige, at målefejl påvirker mindre til den relative stilling af den enkelte, når spredningen af scoringer er stor.

For eksempel i gruppe A har eleverne sikret varemærker fra 30 til 80 og i gruppe B-studerende har sikret karakterer fra 65 til 75. Hvis vi skal administrere prøverne anden gang i gruppe A, kan testresultaterne af personer variere med flere punkter, med meget lidt forskydning i gruppemedlemmernes relative stilling. Det skyldes, at spredningen af point i gruppe A er stor.

På den anden side er scorerne i gruppe B mere tilbøjelige til at skifte positioner ved en anden administration af testen. Da spredningen af scoringer er kun 10 point fra højeste score til laveste score, så ændring af få punkter kan bringe radikale skift i relative stilling for enkeltpersoner. Således spredes mere spændingen.

2. Faktorer relateret til testen:

Variabilitet i præstation, individuel testkundskab, og motivation af eleverne påvirker også testresultaternes pålidelighed.

Følgende er nogle af de vigtige faktorer med testen, der påvirker testens pålidelighed:

(a) Heterogenitet af gruppen:

Når gruppen er en homogen gruppe, er spredningen af testresultaterne sandsynligvis mindre, og når gruppen testet er en heterogen gruppe, er spredningen af scoringer sandsynligvis mere. Derfor er pålidelighedskoefficienten for en heterogen gruppe mere end homogen gruppe.

(b) Studerendes testprincipper:

Erfaring med testoptagelse påvirker også pålideligheden af testresultater. Øvelse af eleverne i at tage avancerede tests øger testens pålidelighed. Men når de i en gruppe ikke har samme niveau af testvished, så fører det til større målefejl.

c) Motivation af eleverne:

Når eleverne ikke er motiverede til at tage testen, vil de ikke repræsentere deres bedste præstation. Dette undertrykker testresultaterne.

3. Faktorer relateret til testproceduren:

Da de testrelaterede faktorer og testrelaterede faktorer påvirker testresultaternes pålidelighed, påvirker også de faktorer, der er relateret til testproceduren, testresultatene. Hvis testbrugerne kan kontrollere disse faktorer, kan de øge konsistensen af testresultaterne.

(a) Prøvetid:

Ifølge Ebel og Frisbie (1991) vil "scoringer fra en test givet under højhastighedstilstande normalt vise en højere intern konsistens pålidelighedskoefficient, end det ville opnås for scoringer fra den samme test givet til den samme gruppe under mere generøse tidsgrænser." Når eleverne får mere tid til at tage testen, kan de gætte mere, hvilket kan øge testresultaterne. Derfor kan vi ved at fremskynde en test øge testens pålidelighed.

(b) Svindelmulighed givet til eleverne:

Fusk af eleverne under testadministrationen fører til målefejl. Nogle studerende kan give det korrekte svar ved at kopiere det fra snydeark eller lytte fra andre studerende uden at vide det korrekte svar. Dette vil medføre en højere score for de studerende end de rent faktisk fortjener. Dette vil gøre den observerede score af cheaters højere end deres sande score.

Hvor højere skal pålidelighed være?

Selvfølgelig er evalueringsenheder aldrig helt pålidelige. Hvor upålidelig en test kan være og stadig er nyttig, afhænger primært af den fineste diskrimination, der ønskes af testresultaterne. (Remmere 1967) Graden af pålidelighedskoefficient afhænger af testens art, størrelsen og variabiliteten af gruppen, formålet for testen og den metode, der anvendes til estimering af pålidelighed. En test med lav pålidelighed kan have højere gyldighed og kan derfor bruges. Men i ordene fra Remmers (1967) 'De fleste standardiserede test, der er offentliggjort til skolebrug, har pålidelighedskoefficienter på mindst 0, 80 i den befolkning, som de er designet til.

Når man vælger en standardiseret test for tolkning af resultaterne, er det ikke tilstrækkeligt kun at se på den numeriske værdi af pålidelighedsoverslag, man skal også tage højde for, hvordan dette skøn blev opnået. Gronlund (1976) har bemærket betydningen af metoder til estimering af pålidelighed.

Ifølge ham "giver split-half-metoden de største numeriske værdier for pålidelighedskoefficienten. Ækvivalente former metode og test retest tendens til at give lavere numerisk værdi til pålidelighedskoefficienten. Typisk giver disse to metoder middel til stor pålidelighedskoefficient. Metode med ækvivalente former giver typisk den mindste pålidelighedskoefficient for en given test. "

Derfor kan det siges, at læreren skal søge en standardiseret test, hvis pålidelighed er så høj som muligt. Men han skal fortolke denne pålidelighedskoefficient i lyset af de elever, som den er baseret på, denne gruppes variabilitet og metoder til vurdering af pålidelighed.

Karakteristisk # 2. Gyldighed:

"Ved valg eller konstruktion af et evalueringsinstrument er det vigtigste spørgsmål; I hvilket omfang vil resultaterne tjene de særlige anvendelser, som de er beregnet til? Dette er kernen i gyldigheden. " -GRONLUND

Gyldighed er det vigtigste karakteristika ved et evalueringsprogram, for medmindre en test er gyldig, tjener det ingen nyttig funktion. Psykologer, undervisere, vejledere bruger testresultater til forskellige formål. Selvfølgelig kan intet formål opfyldes, selv delvis, hvis testene ikke har en tilstrækkelig høj grad af gyldighed. Gyldighed betyder sandhed-fylde af en test. Det betyder, i hvilket omfang testen måler det, hvad testproducenten har til hensigt at måle.

Det omfatter to aspekter:

Hvad måles og hvor konsekvent det måles. Det er ikke en testkarakteristik, men det refererer til betydningen af testresultaterne og de måder, vi bruger scorerne til at træffe beslutninger på. Følgende definitioner fra eksperter giver et klart billede af gyldigheden.

Gronlund og Linn (1995) - "Gyldighed refererer til hensigtsmæssigheden af fortolkningen af testresultater og andre evalueringsresultater med hensyn til en bestemt anvendelse."

Ebel og Frisbie (1991) - "Betegnelsen validitet, når den anvendes på et sæt testresultater, refererer til den konsistens (nøjagtighed), som scorerne måler en bestemt kognitiv evne til at interessere."

CV Good (1973) - I ordbogen for uddannelse defineres validitet som "omfanget, som en test eller andet måleinstrument opfylder formålet med som det bruges til."

Anne Anastasi (1969) skriver "validiteten af en test vedrører hvad testen måler og hvor godt det gør det."

Ifølge Davis (1964) er validiteten omfanget af, hvor rækkefølgen af antallet af eksaminer, for hvem en prøve er hensigtsmæssig, er den samme som rangorden for de samme eksaminer i ejendommen eller karakteristikken, at testen bliver brugt til at måle . Denne egenskab eller karakteristika hedder kriteriet. Da enhver test kan anvendes til mange forskellige formål, følger det, at det kan have mange validiteter, der svarer til hvert kriterium. "

Freeman (1962) definerer, "et validitetsindeks viser, i hvilken grad en test måler, hvad den påtænker at måle, når den sammenlignes med accepterede kriterier."

Lindquist (1942) har sagt, at "testens gyldighed kan defineres som den nøjagtighed, hvormed den måler det, som den skal måle, eller i hvilken grad den nærmer sig ufeilbarlighed ved at måle, hvad den påtænker at måle."

Af ovenstående definitioner er det klart, at validiteten af en evalueringsenhed er i hvilken grad den måler, hvad den er beregnet til at måle. Gyldighed er altid berørt af den specifikke brug af resultaterne og lydigheden af vores foreslåede fortolkning.

Det er heller ikke nødvendigt, at en test, der er pålidelig, også kan være gyldig. Antag for eksempel et ur er sat frem ti minutter. Hvis uret er et godt stykke tid, vil den tid det fortæller os være pålidelig. Fordi det giver et konstant resultat. Men det vil ikke være gyldigt som dømt af 'Standard tid'. Dette indikerer "begrebet, at pålidelighed er en nødvendig, men ikke tilstrækkelig betingelse for validitet."

Gyldighedens art

1. Gyldighed refererer til hensigtsmæssigheden af testresultaterne, men ikke til selve instrumentet.

2. Gyldighed eksisterer ikke på en helt eller anden basis, men det er et spørgsmål om grad.

3. Testene er ikke gyldige til alle formål. Gyldighed er altid specifik for en bestemt fortolkning. For eksempel kan resultaterne af en ordforrådstest være yderst gyldige til at teste ordforråd, men kan ikke være så meget gyldigt for at teste kompositionens evne til den studerende.

4. Gyldighed er ikke af forskellige typer. Det er et ensartet koncept. Det er baseret på forskellige typer beviser.

Faktorer der påvirker gyldigheden:

Ligesom pålideligheden er der også flere faktorer, som påvirker testresultatets gyldighed. Der er nogle faktorer, som vi er opmærksomme på og kan nemt undgå. Men der er nogle faktorer, som vi er uvidende om, og det gør testresultaterne ugyldige til deres tilsigtede anvendelse.

Nogle af disse faktorer er som følger:

1. Faktorer i testen:

(i) Uklare anvisninger til de studerende for at reagere på testen.

(ii) Vanskeligheden af læseprojektet og sætningsstrukturen.

(iii) For nemme eller for vanskelige testemner.

iv) tvetydige udsagn i testemnerne

(v) Uhensigtsmæssige testemner til måling af et bestemt udfald.

(Vi) Mangelfuld tid til at tage testen.

(vii) Testens længde er for kort.

(viii) Testartikler, der ikke er arrangeret i vanskeligheder.

(ix) Identificerbart mønster af svar.

Faktorer i testadministration og scoring:

(i) Uretfærdig hjælp til de enkelte studerende, der beder om hjælp,

(ii) Svindel af eleverne under testning.

(iii) upålidelig scoring af essay type svar

(iv) Utilstrækkelig tid til at afslutte testen.

(v) Uønsket fysisk og psykologisk tilstand ved testningstidspunktet.

Faktorer relateret til Testee:

(i) Test ængstelse hos eleverne.

(ii) Eleverens fysiske og psykologiske tilstand,

(iii) Respons set-en konsekvent tendens til at følge et bestemt mønster i at reagere på emnerne.

Karakteristisk # 3. Objektivitet:

Objektivitet er et vigtigt kendetegn ved en god test. Det påvirker både validitet og pålidelighed af testresultater. Objektivitet af et måleinstrument hæmmer i hvilken grad forskellige personer, der scorer svarkvitteringen, kommer fra samme resultat. CV Good (1973) definerer objektivitet ved test er "i hvilket omfang instrumentet er fri for personlig fejl (personlig bias), det er subjektivitet fra scorerens side".

Gronlund og Linn (1995) udtaler, at "testens objektivitet refererer til, i hvilken grad lige så gode resultater opnår de samme resultater. Så en test anses for objektiv, når det gør det muligt at eliminere scorerens personlige mening og fordomme. I denne sammenhæng er der to aspekter af objektivitet, som man bør huske på, mens man bygger en test. "

(i) Objektivitet i scoring.

ii) Objektivitet i fortolkning af testartikler af testen.

(i) Scoringens objektivitet:

Objektivitet af scoring betyder samme person eller forskellige personer, der scorer testen til enhver tid, kommer til det samme resultat uden mulig risikofejl. En test, der skal være objektiv, skal nødvendigvis være formuleret således, at kun et korrekt svar kan gives til det. Med andre ord bør den personlige bedømmelse af den person, der scorer svarskriftet, ikke være en faktor, der påvirker testresultaterne. Således kan resultatet af en prøve opnås på en enkel og præcis måde, hvis scoringsproceduren er objektiv. Scoreproceduren skal være sådan, at der ikke er nogen tvivl om, hvorvidt en vare er rigtig eller forkert eller delvis ret eller delvist forkert.

(ii) Testelementers objektivitet:

Ved objekt objektivitet mener vi, at varen skal kræve et bestemt enkelt svar. Velopbyggede testemner bør føre sig til en og en enkelt fortolkning af studerende, der kender det involverede materiale. Det betyder, at testemnerne skal være fri for tvetydighed. En given testemne skal betyde det samme for alle de studerende, som testmesteren har til hensigt at spørge. Dobbelthensætninger, der indeholder mere end et korrekt svar, bør ikke medtages i testen, da testen er subjektiv.

Karakteristisk # 4. Brugervenlighed:

Brugbarhed er en anden vigtig egenskab ved måleinstrumenter. Fordi praktiske overvejelser af evalueringsinstrumenterne ikke kan overses. Prøven skal have praktisk værdi fra tid, økonomi og administrationssynspunkt. Dette kan betegnes som brugervenlighed.

Så under konstruktionen eller udvælgelsen af en prøve skal der tages hensyn til følgende praktiske aspekter:

(i) Enkel administration:

Det betyder, at testen skal være nem at administrere, så de generelle klasseværelseslærere kan bruge den. Derfor skal der gives enkle og klare retninger. Prøven skal have meget få delprøver. Tiden for testen bør ikke være for vanskelig.

(ii) Tid til indgivelse:

Den passende tidsfrist for at afprøve bør gives. Hvis vi for at give god tid til at tage testen, skal vi gøre testen kortere end testens pålidelighed reduceres. Gronlund og Linn (1995) er af den opfattelse, at "Nogenstans mellem 20 og 60 minutter af testtid for hver enkelt score opnået ved en offentliggjort test er nok en ret god vejledning".

(iii) Let fortolkning og anvendelse:

Et andet vigtigt aspekt af testresultater er fortolkning af testresultater og anvendelse af testresultater. Hvis resultaterne er fejlagtigt fortolket, er det skadeligt på den anden side, hvis det ikke anvendes, så er det ubrugeligt.

(iv) Tilgængelighed af ækvivalente former:

Ækvivalente former tests hjælper med at kontrollere de tvivlsomme testresultater. Det hjælper også med at eliminere hukommelsesfaktoren, samtidig med at de ældes elever på samme læringsområde. Derfor skal tilsvarende former for samme test med hensyn til indhold, vanskelighedsgrad og andre egenskaber være tilgængelige.

(v) Udgifter til test:

En test skal være økonomisk ud fra forberedelse, administration og scoring synspunkt.