Rater Karakteristik: Rater Pålidelighed og Forudsigelighed af Ratings

Hidtil har vi ignoreret de faktiske ratere selv og deres betydning for præstationsvurderingsprocessen. Selv om det er blevet angivet, at ratifikatorer er underlagt mange forskellige "fejl" ved bedømmelsen, og at vurderingsskalaer skal udformes for at minimere disse fejl, er de individuelle raters egenskaber ikke undersøgt med hensyn til deres virkning på ratingprocessen.

Rater Pålidelighed og forudsigelighed af vurderinger:

Problemet med rater-egenskaber har i de senere år haft stor opmærksomhed. Buckner (1959) har undersøgt forholdet mellem, hvor godt rattere er enige og i hvilken grad man kan forudsige vurderinger med en anden variabel. Angiver en anden måde, spurgte Buckner spørgsmålet "Gør yderst pålidelige vurderinger, betyder at jeg har et kriterium, der bliver lettere at forudsige?" Svaret viste sig at være nej. Buckner delte sine bedømmelser i fire grupper, alt efter hvor godt dommerne var enige om at tildele deres vurderinger.

Gruppe 1: Dommerne var i høj enighed om disse satser

Gruppe 2: Dommerne havde moderat enighed om disse satser

Gruppe 3: Dommerne var i lav enighed om disse satser

Gruppe 4: Dommere var i nul enighed om disse satser

Han fortsatte derefter med at validere to tests ved at korrelere testresultater mod bedømmelse - dette blev gjort for hver gruppe separat. Han fandt ingen systematisk sammenhæng mellem størrelsen af ​​hans opnåede validiteter som en funktion af den gruppe, som han arbejdede med. Windle og Dingman (1960) kritiserede Buckners fortolkning og gjorde en anden undersøgelse, hvor de fandt resultaterne givet i tabel 7.4.

Bemærk de relative størrelser af validitetskoefficienterne, der er vist i tabel 7.4. Jo mere pålidelige, de højere stemmer, jo højere På samme måde jo mere pålidelige vurderinger, jo højere er validiteterne.

Derfor kan man logisk forvente resultater mere som Windle og Dingman end Buckners. Men man skal også huske på, at høj pålidelighed kun er en nødvendig betingelse for høje validiteter - det er ikke en tilstrækkelig betingelse.

Wiley har i en række undersøgelser undersøgt konsistensen af ​​rater-domme over tid med hensyn til, hvor godt de er enige om tidligere domme af samme rater (Wiley 1963, Wiley og Jenkins, 1963) og hvor godt de er enige om en gruppesammensætning rating (Wiley og Jenkins, 1964). Generelt blev det konstateret, at ratifikatorer var konsekvente i deres vurderinger op til en periode på ti måneder.

Desuden fandt han, at de ratere, der var enige om tæt sammen med gruppens sammensatte i en indledende ratingopgave, var også de ratifikatorer, der aftalte det nøjagtigt med gruppekompositten på en anden vurderingsopgave en måned senere. Han foreslår, at denne viden kan bruges til at vælge ratere, som virkelig er repræsentative for den gennemsnitlige konsensus af en større gruppe ratere.

Desværre er problemet med, hvorvidt der er tale om, hvorvidt de er enige med gruppen sammensatte eller ej, de bedste ratere, der skal indhentes, ikke selv blevet bestemt. Imidlertid er der logik på holdningen, at hvis det er muligt at få en sammensat bedømmelse ved hjælp af et lille antal ratere, der vil tilnærme den sammensatte, der opnås ved hjælp af et større antal, kan man sikkert spare tid og penge.

Talrige andre rater karakteristika har vist sig at spille en rolle i performance evalueringer opnået ved ratings. Christal og Madden (1960) har vist, at en vigtig overvejelse er, i hvilken grad en rater er bekendt med den besættelse, han vurderer, et fund støttet af yderligere undersøgelser af Madden (1960a 1961). Tilsvarende har Wiley, Harber og Giorgia (1959a, 1959b) vist, at indflydelsen af ​​generaliserede rater tendenser er synlige i deres virkning ved vurderinger.

Rating-skalaformat og præstationsvurdering dommen:

Madden har rapporteret en række undersøgelser, der beskæftiger sig med indflydelsen af ​​ratingskalaen selv. I en undersøgelse (Madden, 1960b) fandt han, at vurderingens pålidelighed og nemhedsvurdering ikke var påvirket af brugen eller manglen på brug af eksempler til definering af ratingskalaen, men at om skalaen blev defineret i modsætning til ikke defineret did- påvirker pålidelighed og brugervenlighed.

I en efterfølgende undersøgelse studerede Madden og Bourdon (1964) effekten af ​​syv forskellige ratingskalaformater på vurderinger af 15 forskellige erhverv på 9 forskellige jobfaktorer. Resultaterne, selv om det var noget kompliceret i naturen, tydeligt angav, at den bedømmelse, der blev tildelt en besættelse, var afhængig af både den involverede jobfaktor og det særlige ratingskalaformat, der blev anvendt.