Homo paedagogicus (del II): Likvärdighetsproblemet

Del I hittar du här: länk

Problemet med att pedagogisk bedömning tycks vara svår att få likvärdig är väl etablerat i såväl lärares som det kollektiva medvetandet, och är inte sällan ett slagträ i debatten om lärares (brist på) professionalitet (exempel 1, exempel 2, exempel 3) . Men det är inte nytt. När intagningen till läroverken under 1940-talet ändrades så att urval kunde ske enbart på basis av folkskolebetygen blev det uppenbart att man hade ett problem med likvärdigheten i svensk skola. Under denna tid beskrev exempelvis betygskommiténs ordförande Fritz Wigforss betygssituationen i den svenska folkskolan som "bedrövlig" och "kaosartad", och förespråkade ett system i vilket likvärdigheten kunde säkerställas, vilket i praktiken betydde nationellt kontrollerade standardprov. Under resten av 1900-talet kom olika typer av nationellt fastställda prov komma att spela en stor roll, inte minst inom Lärarhögskolans arbete, i nära relation till psykometri och pedagogisk statistik. Själva syftet var att ge läraren en objektiv referenspunkt för sin egen bedömning, för att på så sätt säkra likvärdigheten. Standardproven (som slutade användas 1997) hade också en kalibrerande funktion för att möjliggöra normalfördelade betyg, och skulle även styra betygsättningen i ämnen där det inte gavs centrala prov. I och med att det mål- och kunskapsrelaterade betygsystemet infördes 1994 så förlorade de nationellt fastställda proven sin rent betygsgrundande funktion, och istället lades fokus mer på den ursprungliga funktionen - att vara ett stöd för likvärdig bedömning. Vilket för oss till problemet för handen - de nationella proven verkar nämligen inte alls ha avsedd effekt.

Skillnaderna mellan skolors betygssättning i förhållande till proven [har inte] förändrats över tid. En rad åtgärder har vidtagits både på statlig nivå och av olika huvudmän för att öka samstämmigheten i betygssättningen. Än så länge ser åtgärderna inte ut att ha gett någon effekt när det gäller skillnader mellan skolor, vilket är bekymmersamt. (Skolverket, 2009)

Nationellaprovsprojektet har pågått i ca 20 år, och i stort sett samtliga analyser av hur väl det fyller sin funktion har visat att det inte har någon som egentlig påverkan på likvärdigheten i betygsättningen mellan lärare i landet. Även OECD:s mycket kritiska rapporter om bristerna i det svenska skolväsendet från 2011 och 2013 kritiserar de nationella proven, och poängterar värdet av externa bedömare och institutioner inför vilka lärarna måste vara ansvariga när det gäller betygsättningen.  Sedan Skolinspektionen tagit över tillsynen har man till och med börjat argumentera för att alla former av produktiva prov (uppsatser eller dyl) skall tas bort eftersom bedömningarna av dessa inte är rättssäkra.(Lärarnas nyheter 2012) Skolverket avfärdar den här kritiken med att likvärdigheten visserligen är låg - men att den ändå aldrig, enligt den internationella forskning som finns, kan bli särskilt hög. Skolinspektionen replikerar med att det visserligen må vara fallet - men att detta faktum ändå är orimligt ur ett elevperspektiv. Alltså: vi kan alltså inte bli helt likvärdiga - och så kan vi ju inte ha det!

Vilka psykologiska faktorer bidrar till likvärdighetsproblematiken?

The best way for a profession to ensure its continued autonomy is to adopt methods that ensure the safety and efficacy of its practices. The profession can thereby deter extensive meddling by outsiders. (Carnine 2000)

Skolinspektionen tänker sig att så länge lärare samarbetar kring betygsfrågor så kan detta eventuellt stärka likvärdigheten i betygsättningen. Det låter rimligt, men detta måste helt säkert vara avhängigt hur lärare samarbetar kring betygsfrågor, och hur väl de förstår var olikvärdigheten kommer ifrån - för att kunna förutsäga när den skulle kunna bli ett problem. Det finns alltså dels å ena sidan tankar om att lärare tillsammans kan stärka sin bedömarkompetens, och dels tankar om att bedömarkompetens är direkt beroende av att läraren står under olika typer av extern kontroll. Samtidigt som extern kontroll på många sätt kan vara tacksamt, så finns en grundläggande problematik med detta (det som Douglas Carnine kallar "the meddling by outsiders" - när ett yrke överlåter för mycket av ansvaret för det egna uppdraget på externa instanser är risken att man anses vara ett omoget yrke som inte besitter kompetens nog att klara av det uppdrag man blivit tilldelad.

I Skolverkets kritik mot Skolinspektionens omrättning är en av huvudpoängerna att det inte går att visa att Skolinspektionens omrättare har mer "rätt" än de lärare som gjort de ursprungliga bedömningarna. Skolinspektionen menar alltså å sin sida att man borde ta bort uppsatsprov eftersom ”forskning visar att även under mer ideala förhållanden då rättarna intensivt har tränats för att ha en god förmåga att bedöma uppsatser är det svårt att få en så hög samstämmighet att de kan utgöra ett stöd att kunna göra rättsäkra och likvärdiga bedömningar av provresultaten”(Skolinspektionen 2012, tyvärr är Skolinspektionen lite vag gällande exakt vilken forskning de menar utöver Vagle 2005),  Stämmer detta? Utan att veta hur inspektionen tränat sina omläsare så är det förstås omöjligt att säga säkert, och det finns mycket som pekar på att likvärdighet är ett enormt problem, i synnerhet för skriftliga uppgifter (se exempel Russikoff 1994) men klart är att det också finns en mängd studier som antyder att det kan gå att få till en relativt hög likvärdighet i viss typ av bedömningar, exempelvis bedömningen av skriftliga uppgifter (inter-rater validity, dvs. samstämmighet mellan olika bedömare: ca 0,7-0,9) hos tränade läsare som inte läser sina egna elevers texter (Homburg 1984, n=3512), och att just träning i att bedöma anonymiserade uppgifter ger positiva resultat (Attali 2015, Weigle 1994), kanske mer än yrkeserfarenhet (Davis 2015). Om man tänker sig att dessa forskare har rätt - vad är det då som händer när läraren rättar sina egna elever som inte blir ett lika stort problem när omrättare rättar texterna utan att känna till eleverna i fråga? Går det att isolera ”den mänskliga faktorn”?

Tyvärr är validitets- och realibilitetsdiskussionen lite bortglömd - i synnerhet med tanke på hur stor roll man kan anta att bias av olika slag har för såväl konstruktionen av prov och uppgifter som för bedömningen av desamma (Fleming 1999, se också Schoonen 2005 för en intressant studie av betydelsen av själva uppgiftens utformning för hur bedömningen blir). Det finns nämligen en mängd olika ganska väletablerade psykologiska fenomen som man kan anta svarar för åtminstone delar av glappet mellan lärares och omrättares bedömningar. 

I Thinking Fast and Slow beskriver Daniel Kahneman hur den så kallade gloriaeffekten (eng: halo effect) kan påverka lärarens bedömning av elevproducerade svar. Enligt Kahneman så kalibreras lärarens bedömning av elevens svar på det man vet om elevernas tidigare produktion. Ordningsföljden är avgörande; om eleven tidigare presterat bra så är bedömaren mer förlåtande i den aktuella bedömningen, och om de tidigare prestationerna har varit sämre så är läraren mer misstänksam. Detta kan också gälla inom ett enskilt prov - där bedömningen av tidigare svar påverkar den av de senare. Ett flertal studier (exempelvis Malouff et al 2014) har visat att de här effekterna kan ha stor betydelse på lärares bedömningar.

Stereotypisering av olika slag spelar också en viktig roll. Såväl kön som etnicitet anses kunna påverka bedömares bedömningar (Fleming 1999). Detta är tyvärr uppenbart i Skolinspektionens bedömning av nationella prov, där olika former av skillnader i hur elever bedöms på nationella prov finns mellan könen, men också när det gäller etnisk bakgrund. (Skolinspektionen 2012) Elevens utseende i största allmänhet kan också ha en viss påverkan på bedömning, framförallt betygsättning (se exempelvis Dunkake et al 2012, Peters 2015)

Vilka lösningar finns?

På många skolor finns redan lösningar som är tänkt att förbättra det som kallas interrater reliability (att vi sambedömer och jämför lärare emellan för att öka likvärdigheten i kollegiet). Detta kan dock behöva kompletteras med lösningar som förbättrar intrarater reliability - det vill säga att läraren själv är konsekvent i sin bedömning. Såväl Neil D Fleming som Kahneman föreslår att olika former av anonymisering är avgörande för att slippa de olika bias som kan försvåra en likvärdig bedömning. Antagandet, inte helt orimligt, är att om man inte vet vem man rättar är det lättare att fokusera på de faktiska kvaliteterna i arbetet. Många skolor har också infört detta just när det gäller de nationella proven, men dessa utgör ju bara en liten del av det totala bedömningsarbetet - och resten av bedömningarna är då alltså förmodligen föremål för olika former av bias. Det är vanligt att människor tror att just de inte är föremål för bias (den så kallade bias blind spot, se Pronin et al 2002; Pronin et al 2007), men statistiskt får man nog anta att man är ungefär lika bra eller dålig på detta som genomsnittspersonen - och därför kan det finnas en poäng med att anonymisera i större usträckning än bara på de nationella proven. Hur kan man då implementera anonymisering i det dagliga arbetet - och utan att tumma för mycket på process och framåtsyftande feedback?

Att anonymisera elevuppsatser i den egna undervisningen är ganska okomplicerat - även om det inte direkt är förenligt med processkrivande (man får väl alternera mellan processkrivande och anonyma uppsatser) - men hur gör man med andra typer av uppgifter? En modell som jag själv har arbetat med (framförallt inom Hi1b) är att använda Socrative för att ta in elevsvar på olika former av frågor - dels istället för handuppräckning, men också för lite mer avancerade former av analys som mer kan likna vanliga provfrågor. Socrative har funktioner för anonymisering, men de funkar ju inte om man i slutet av bedömningsprocessen behöver ha fram namnet på vederbörande - så eleven måste förstås mata in sitt namn för att jag skall kunna identifiera hen i slutänden. Istället får man göra anonymiseringen manuellt, och här kan man få stor hjälp av hur Socratives rapporter är utformade. När eleverna svarat kan läraren ladda ned deras svar som en excelfil där deras svar (inklusive deras namn) ligger i olika kolumner i ett kalkylark. Om man som lärare då väljer att dölja "namnkolumnen" (högerklicka och välj ”dölj” eller ”göm”) så är hela klassens svar med ens anonymiserade. På det här sättet kan man undvika delar av de bias som beskrivs ovan, men man blir inte av med den eventuella haloeffekten inom ett prov, där lärarens bedömning av senare provfrågor för en individ påverkas av de tidigare svaren. Men även här är Socratives rapporter hjälpsamma. Om man följer råden från exempelvis Kahneman (2010) eller Archer & McCarthy (1988) och gör sin bedömning en fråga, här kolumn, i taget (jag upplever att det är enklast här att ange sin bedömning för den del av kunskapskraven som testas i form av att man ger cellen där elevens svar står en färg, exempelvis ljusgrön för ”översiktligt” och mörkgrön för ”utförligt och nyanserat”), och sedan gömmer varje bedömd kolumn så fort den är klar, har du som lärare snart ingen aning om hur du bedömde den enskilda elevens svar på förra frågan. När alla kolumner är bedömda plockar du fram hela kalkylarket utom namnkolumnen och försöker göra en mer holistisk bedömning (om det behövs), för att sedan till sist plocka fram elevens namn, och klippa in deras svar inkl. bedömningen i deras portfolio eller lärlogg.

Exempel på anonymiserade bedömda frågor i en Socrative-rapport

Exempel på anonymiserade bedömda frågor i en Socrative-rapport

Min upplevelse är att detta sätt att arbeta får tre tydliga konsekvenser för mitt arbete. För det första upplever jag ofta att mina bedömningar till en början står i konflikt med mina förväntningar av hur vissa elever "borde" prestera. Detta är ett bevis på att det uppenbarligen är viktigt att anonymisera ibland av såväl pedagogiska som rättssäkerhetsskäl. För det andra beskriver jag för eleverna exakt hur processen går till, och de brukar uppskatta att de på det här sättet får en ärlig chans, samtidigt som de upplever att det då inte längre funkar att ”smöra” - vilket brukar öka tilliten till min bedömarkompetens som lärare - särskilt som jag väldigt snabbt får många exempelsvar på olika nivåer som man kan visa eleverna efter genomförda uppgifter. För det tredje, vilket nästan är den största vinsten, så går det oerhört mycket snabbare att rätta på det här sättet, eftersom all min fokus kan läggas på bedömningen av enskilda frågor, och att jag snabbt får syn på vad som utmärker ett svar på respektive kravnivå. Denna sista effekt kan inte nog understrykas - det är inga problem att rätta underlag motsvarande en klassuppsättning prov på 30-40 minuter - och dessutom gör jag allt bedömningsarbete i en enda sittning, oftast i anslutning till lektionen. I de klasser där jag provat detta arbetssätt har jag kunnat samla in underlag åtminstone en gång i veckan under hela läsåret, istället för ett mindre antal mycket större examinationer, och på det sättet jämnat ut min arbetsbörda över läsåret - inga fler högar som skall hem inför helger och lov!

Detta är ett exempel på att man kan såväl effektivisera som höja kvaliteten på det egna arbetet med ganska små justeringar av hur man arbetar - så länge som man erkänner och accepterar att man faktiskt är människa och därmed måste räkna kallt med att man inte alltid kommer att agera helt rationellt. Kan man identifiera de tillfällen där detta kan komma att påverka eleverna, så har man dock goda möjligheter att minimera effekterna av denna sida av den mänskliga faktorn. För alternativet, att försöka vara i allmänhet mindre mänsklig i relationen till sina elever, är ju inte särskilt eftersträvansvärt.

 

Referenser

Archer, J., & McCarthy, B. (1988). Personal biases in student assessment. Educational Research, 30(2), 142-145.

Attali, Y. (2015). A comparison of newly-trained and experienced raters on a standardized writing assessment. Language Testing, 0265532215582283. (n=16)

Camine, D. (2000). Why education experts resist effective practices. Report of the Thomas B. Fordham Foundation. Washington, DC: Thomas B. Fordham Foundation.

Davis, L. (2015). The influence of training and experience on rater performance in scoring spoken language. Language Testing, 0265532215582282. (n=20)

Dunkake, I., Kiechle, T., Klein, M., & Rosar, U. (2012). Schöne Schüler, schöne Noten? Eine empirische Untersuchung zum Einfluss der physischen Attraktivität von Schülern auf die Notenvergabe durch das Lehrpersonal/Good looks, good grades? Zeitschrift für Soziologie, 142-161.

Fleming, N. D. (1999). Biases in marking students’ written work: quality. Assessment matters in higher education: choosing and using diverse approaches, 83, 92.

Homburg, T. J. (1984). Holistic evaluation of ESL compositions: Can it be validated objectively?. TESOL quarterly, 87-107. (n=3512)

Malouff, J. M., Stein, S. J., Bothma, L. N., Coulter, K., & Emmerton, A. J. (2014). Preventing halo bias in grading the work of university students. Cogent Psychology, 1(1), 988937.

OECD (2011). OECD Reviews of Evaluation and Assessment in Education

OECD (2013). Improving Schools in Sweden, An OECD perspective

Peters, C. (2015). Student appearance and academic performance

Pronin, E., Lin, D. Y., & Ross, L. (2002). The bias blind spot: Perceptions of bias in self versus others. Personality and Social Psychology Bulletin, 28(3), 369-381.

Pronin, E., & Kugler, M. B. (2007). Valuing thoughts, ignoring behavior: The introspection illusion as a source of the bias blind spot. Journal of Experimental Social Psychology, 43(4), 565-578.

Schoonen, R. (2005). Generalizability of writing scores: An application of structural equation modeling. Language Testing, 22(1), 1-30.

Skolinspektionen (2012), Lika för alla? Omrättning av nationella prov i grundskolan och gymnasieskolan under tre år

Skolvärlden (2012), Skolverket sågar omrättning av nationella proven (länk)

Weigle, S. C. (1994). Effects of training on raters of ESL compositions. Language Testing, 11(2), 197-223. (n=4)

Vagle, W. (2005). Ungdommers skrivekompetanse. Oslo: Universitetsforlaget.

Lars BjörklundComment