4. Nakijken en beoordelen

1. Het belang van objectieve en betrouwbare cijfers

Het beoordelen van een toets is de vierde stap van de toetscyclus en is afhankelijk van de antwoordsleutel of het beoordelingsformulier dat je al gemaakt hebt bij het construeren van je toets. Intuïtief gaan we er vaak van uit dat beoordelen objectief is en dat het eindcijfer een juiste weerspiegeling is van de prestatie van de student, maar er kunnen gemakkelijk vooroordelen en subjectiviteit insluipen. Daarom is het belangrijk om de vier kwaliteitseisenvoor toetsing (zie stap 1, ontwerpen) in gedachten te houden tijdens het beoordelingsproces.

Validiteit

Zorg ervoor dat je studenten alleen beoordeelt op wat ze tijdens de cursus geleerd hebben, de leerdoelen, met andere woorden. Onbewust wegen we vaak ook andere factoren mee, die studenten oneerlijk kunnen bevoordelen of benadelen. Als studenten bijvoorbeeld een podcast of een posterpresentatie maken en de leerdoelen zijn gericht op inhoud en argumentatie, niet op vorm, dan is het niet eerlijk om hogere cijfers toe te kennen aan werk dat professionele ontwerp- of redactionele vaardigheden vertoont. Controleer ook of je verwachtingen over de geschreven of gesproken taal van studenten realistisch zijn voor het niveau van je cursus.

Betrouwbaarheid

Neem maatregelen om ervoor te zorgen dat je cijfers betrouwbaar zijn, zelfs als er meerdere beoordelaars zijn. Gebruik antwoordsleutels, rubrics of beoordelingsformulieren om het nakijken consistent te houden en organiseer ijksessies. Denk aan mogelijke beoordelaarsfouten bij het nakijken:

Contaminatie-effect: Beoordeling gebruiken voor ander doel dan alleen cijfer geven. Bijv. als beoordelaars een laag cijfer geven om te laten zien dat hun vak moeilijk is.

Halo-/horn-effect: Cijfers naar boven of beneden bijstellen op basis van het gedrag van een student in plaats van hun prestaties (bijv. ‘Deze student doet altijd zo zijn best…’, ‘Het lijkt deze student niets te kunnen schelen…’)

Normverschuiving: Aanpassen op de prestaties van de studenten. Bijv. minder streng nakijken als halverwege blijkt dat veel studenten iets fout hebben.

Restriction-of-range: Niet het hele bereik van een beoordelingsschaal gebruiken (heel gebruikelijk in Nederland): ‘Wij geven nooit een 10’, ‘Een 3 geven is zo gemeen’.

Sequentie-effect: Beoordeling wordt beïnvloed door de volgorde van het nakijken. Als je bijvoorbeeld een goed antwoord ziet na veel foute antwoorden, kun je de neiging hebben om een te hoog cijfer te geven.

Signifisch effect: Niet iedereen let op dezelfde dingen. Bij het beoordelen van schriftelijke opdrachten kun je bijvoorbeeld de nadruk meer leggen op argumentatie, stijl of taal dan een ander.

Bruikbaarheid

Beoordelen moet haalbaar zijn binnen de uren die aan een cursus toegewezen zijn. Een zeer hoge werklast kan leiden tot beoordelingsvermoeidheid en een gebrek aan consistentie. Normaalgesproken wordt met dit aspect al rekening gehouden bij het ontwerpen van toetsing.

Transparantie

Studenten moeten op voorhand weten hoe ze beoordeeld zullen worden (bijvoorbeeld door het delen van rubrics) en achteraf moeten ze inzicht krijgen in hoe hun cijfer is bepaald.

2. Antwoordmodellen, beoordelingsformulieren en rubrics

Idealiter heb je al een antwoordsleutel (voor tentamens, beoordelingsformulier of rubric voor opdrachten, zie hieronder) terwijl je je toetsing construeert (zie stap 2 van de toetscyclus). Het maken van een antwoordsleutel of voorbeeldantwoorden helpt je om na te denken over het antwoord dat je van de studenten verwacht, maar ook over hoeveel punten elk (aspect van het) antwoord waard moet zijn. Het helpt je ook onduidelijkheden in de vraagstelling op te sporen. Zorg ervoor dat de antwoordsleutel zo duidelijk mogelijk is over welke antwoorden als juist of onjuist kunnen worden beschouwd, zodat dit niet tot verschillende interpretaties kan leiden onder beoordelaars. Je antwoordsleutel moet ook aangeven hoeveel punten studenten moeten halen om te slagen voor het tentamen.

Je kunt het beste een beoordelingsformulier of rubric gebruiken als je langere, open vragen of opdrachten gebruikt, zoals een werkstuk, presentatie of creatieve opdracht waarbij er meer dan één juist antwoord is en waarbij je de beoordeling baseert op meer criteria dan alleen de inhoud (bijvoorbeeld structuur en taalgebruik). Dit kan je helpen om studenten duidelijk te maken wat er van hen verwacht wordt. Het is goed om dergelijke formulieren of rubrics van tevoren aan studenten ter beschikking te stellen.

Gesloten vragen

Bij gesloten vragen is het antwoordmodel simpel: daar staat in wat de juiste antwoorden zijn en hoeveel punten er per goed antwoord te verdienen zijn. In dat geval kan er meestal ook met behulp van toetssoftware worden nagekeken (bijvoorbeeld in TestVision of Ans).

Open vragen

Bij open vragen is het antwoordmodel uitgebreider, en neemt het de vorm van een correctievoorschrift, mede om verschillen tussen beoordelaars te beperken. Het helpt ook om bij de inzage aan studenten uit te leggen hoe het cijfer tot stand is gekomen. In het correctievoorschrift staan voorbeeldantwoorden, maar ook hoe de puntenverdeling per vraag werkt. Voor de beoordelaar moet duidelijk zijn hoe om te gaan met gedeeltelijk juiste antwoorden of antwoorden die niet in het antwoordmodel voorkomen. Het correctievoorschrift kan tijdens het nakijken nog worden aangepast als bijvoorbeeld blijkt dat een ander antwoord ook goed gerekend moet worden. Eerder nagekeken werk dient dan opnieuw te worden beoordeeld aan de hand van het aangepaste antwoordmodel. Achteraf moet een student op basis van het antwoordmodel inzicht kunnen krijgen in de beoordeling.

Beoordelingsformulieren

Een beoordelingsformulier helpt je om mondelinge en schriftelijke vaardigheden (zoals papers of presentaties), groepswerk en portfolio’s zo objectief, consistent en transparant mogelijk te beoordelen. Er zijn verschillende soorten beoordelingsformulieren, zoals een checklist of een beoordelingsschaal.
Met een checklist kun je een lijst samenstellen van aspecten waarmee je rekening moet houden bij het beoordelen. Dit is vooral nuttig bij AVV/NAV-opdrachten. Als je daadwerkelijke cijfers wil toekennen, dan werkt een beoordelingsschaal of -formulier beter. Hiermee kun je de criteria waarnaar je kijkt afzetten tegen verschillende niveaus (bijvoorbeeld een 5- of 10-puntsschaal). Je kunt ook een weging toekennen aan elk van de criteria en bepalen of er minimumvereisten zijn voor een voldoende. Een meer gedetailleerde versie hiervan is een rubric, die niet alleen een beschrijving per criterium bevat, maar dit ook verder specificeert per niveau.

Rubrics

Bij het beoordelen van essays, papers en casusvragen kan gebruik gemaakt worden van een rubric. Een rubric is een tabel waarmee je beoordelingen objectief, consistent en transparant kan maken. Er zijn verschillende soorten rubrics. Bij een holistische rubric formuleer je per niveau (bijvoorbeeld goed, voldoende en onvoldoende) een beschrijving van het werk van de student. Bij een analytische rubric splits je de beoordeling op in een aantal criteria (zoals inhoud, structuur en taalgebruik), en formuleer je een beschrijving voor de verschillende tussenniveaus (bijvoorbeeld goed, voldoende en onvoldoende). Daarbij kun je aangeven hoeveel punten er per niveau te verdienen zijn. Dan is er nog een single-point rubric, waarbij je per criterium alleen het voldoendeniveau beschrijft. Links en rechts van deze kolom is ruimte om in te vullen op welke manier het werk van de student onder of boven dit niveau zit.

Bespreek de rubric van tevoren met alle beoordelaars om beoordelaarsverschillen te beperken. Je kan ook een zogenaamde ‘kalibreersessie’ houden waarin je een paar opdrachten samen beoordeelt met de rubric, om te zorgen dat deze op een consistente manier wordt ingevuld. Wil je meer lezen over rubrics? Op deze pagina vind je uitgebreide informatie, voorbeelden en tips voor het maken van een rubric.

3. Cesuur en normeren

Het hoofddoel van toetsing is om te bepalen of studenten de leerdoelen wel of niet beheersen. Bij tentamens werk je daarom met een zak/slaaggrens, ook wel de cesuur genoemd. Ook moet je bepalen hoeveel punten leiden tot een bepaald cijfer: de normering, of score-cijfer transformatie. In Nederland ligt de cesuur meestal op 55% van het totaal aantal punten, maar hier kan in bepaalde gevallen van worden afgeweken. Soms blijkt bijvoorbeeld na afname dat een toets veel te makkelijk of moeilijk was: in zulke situaties kun je (bij voorkeur in overleg met een toetsdeskundige) besluiten om de cesuur aan te passen. Het is van belang dat je aan studenten transparantie biedt over de cesuur en normering. Je hoeft niet de cesuur niet precies van tevoren vast te leggen, maar zorg dat studenten weten wat de procedure is en dat de cesuur soms nog kan worden aangepast op basis van de toetsresultaten. Per faculteit kunnen de regels hierover verschillen. Daarnaast moet je bepalen hoeveel punten leiden tot een bepaald cijfer: de normering oftewel de score-cijfer transformatie. Om dit te vereenvoudigen kan je gebruik maken van een online tool zoals cijfersberekenen.nl.

Er zijn in principe drie manieren om cesuur/normering vast te stellen: de absolute methode, de relatieve methode en er zijn compromismethoden.

Absolute methode

De docent bepaalt vooraf hoeveel van de te behalen punten minimaal gescoord moeten worden voor een voldoende. De rest van de normering wordt vervolgens afgeleid van deze cesuur in relatie tot het maximaal te behalen aantal punten. Het voordeel van deze methode is dat het van tevoren duidelijk is hoeveel punten studenten moeten behalen voor een voldoende, maar het nadeel is dat geen rekening wordt gehouden met de kwaliteit van het tentamen en het onderwijs.

Relatieve methode

Bij de relatieve methode gaat men uit van de scores van alle studenten om de cesuur te bepalen. De maximale en minimale scores in een studentengroep bepalen in dit geval de uiteinden van de beoordelingsschaal. De scores van de overige studenten worden hiertegen afgezet. Het cijfer geeft daarmee aan wat de relatieve positie van een student is ten opzichte van de andere studenten, en niet ten opzichte van de leerstof. De cesuur wordt bij deze methode pas na afloop van de toets bepaald. De methode is ongeschikt voor kleine groepen studenten (minder dan 50) en het percentage gezakten/geslaagden ligt vast – ongeacht de feitelijke toetsresultaten. Zo’n uitgangspunt is in het Nederlandse academische onderwijs niet erg gebruikelijk.

Compromismethoden

Zowel de absolute als de relatieve methode hebben voor- en nadelen. Daarom zijn er verschillende compromismethoden ontwikkeld. Meestal wordt daarbij uitgegaan van een absolute norm, maar deze wordt bijgesteld als bepaalde omstandigheden dat vragen. (bijvoorbeeld een te moeilijk tentamen dat leidt tot te veel gezakte studenten). Een interessante compromis methode is die van Cohen-Schotanus. Deze gaat er van uit dat een maximale score op een tentamen -dus alle vragen goed beantwoord- in de praktijk vaak niet behaald wordt. De gemiddelde score op een tentamen van (bijvoorbeeld) de 5% beste studenten (die dus eigenlijk een 10 zouden moeten krijgen) wordt daarom beschouwd als maximum te behalen punten. Op grond hiervan wordt de cesuur afgeleid. Vraag de toetsdeskundige van jouw faculteit om hulp bij deze methode.

4. Tips voor nakijken en feedback geven

Tips voor efficiënt, effectief en betrouwbaar nakijken
  • Gebruik een rubric of beoordelingsinstrument en stem dit van tevoren af met de verschillende beoordelaars.
  • Kijk anoniem na (geen naam; alleen studentnummer).
  • Kijk na per vraag in plaats van per tentamen. Als er meerdere beoordelaars zijn, kun je de vragen onderling verdelen.
  • Wijzig af en toe de sequentie van de antwoordbladen tijdens het nakijken.
  • Als het om een eindtoets gaat, is uitgebreide feedback niet zinvol. Studenten hebben immers geen gelegenheid hiermee aan de slag te gaan. Cijfers zijn ook feedback.
  • Bepaal van tevoren de maximale tijd die je per vraag of tentamen aan het nakijken wil besteden. Houd je hieraan.
  • Stel nakijken niet uit en plan voldoende tijd, maar kijk niet te lang achter elkaar na. Nakijken is intensief en geconcentreerd werk. Neem regelmatig pauzes.
Tips voor efficiënt feedback geven
  • Bepaal hoeveel tijd je kunt besteden aan het nakijken van elk werkstuk en gebruik een timer.
  • Gebruik een rubric of checklist om studenten algemene feedback te geven.
  • Geef plenair feedback, bijvoorbeeld over veelgemaakte fouten.
  • Geef mondelinge in plaats van schriftelijke feedback. Je kunt gesproken feedback opnemen via Speedgrader in Canvas.
  • Maak een genummerde lijst aan met veelvoorkomende fouten en deel deze met studenten. Gebruik deze nummers in je feedback. Je kunt ook veelvoorkomende opmerkingen kopiëren en plakken.
  • Richt je op maximaal drie langere opmerkingen per student, en geef die aan het eind van het werkstuk. Als je veel meer feedback geeft in de tekst zelf, komt het meestal niet aan.
  • Lees eerst het gehele stuk door voordat je opmerkingen plaatst: hierdoor voorkom je dat je te veel op detailniveau kijkt en de kwaliteit van het werk als geheel uit het oog verliest.

Bij het onderwijsthema Feedback vind je basistheorie, praktische handvatten en timesavers over feedback. Je kunt ook onze e-learning over feedback volgen.

5. Plagiaat en fraude

Plagiaat en fraude zijn een serieuze overtreding van de academische regels. Studenten kunnen hiervoor gestraft worden variërend van schorsing van de cursus tot -in extreme gevallen- schorsing van de opleiding. Maar niet in alle gevallen zijn studenten te kwader trouw. Ze moeten goed geïnstrueerd worden wat in het kader van het vak, de opdracht of de toets precies onder fraude en plagiaat verstaan wordt en waarom het zo belangrijk is je aan die regels te houden.

Docenten die plagiaat of fraude vermoeden moeten dit melden bij de examencommissie (zie de A-Z-lijst op de medewerkerssite van jouw faculteit). Ga niet zelf improviseren. Alle studenten moeten immers gelijk behandeld worden. De examencommissie draagt zorg voor een eerlijke beoordeling en archivering van fraudegevallen. Raadpleeg de ‘Regeling Fraude en Plagiaat Studenten UvA‘ voor meer informatie.

6. Veelgestelde vragen

Een student die tijdens de cursus heel goed werk afleverde, heeft het tentamen niet zo goed gemaakt. Of: een student die tijdens de cursus weinig presteerde, heeft het tentamen heel goed gemaakt. Wat kan er aan de hand zijn?

Hier kunnen veel verschillende redenen voor zijn. Misschien is de ene student sterker in geschreven werk en minder goed in kennis reproduceren of minder bestand tegen tentamenstress. En misschien is de andere student sterker in kennis reproduceren of heeft deze voor het tentamen wél hard gewerkt. Het is belangrijk je bij de beoordeling niet door dit soort zaken te laten beïnvloeden. Daarom is het beter om bij het beoordelen niet te weten om welke student het gaat. Overweeg om anoniem na te kijken om dit soort problemen te voorkom. Gaat het om een vermoeden van fraude of plagiaat, schakel dan de examencommissie in (zie de fraude- en plagiaatregeling UvA).

Een student heeft op een vraag een antwoord gegeven dat niet in overeenstemming is met het antwoordmodel, maar het wel een goed antwoord. Hoe moet ik hiermee om gaan?

In dat geval heeft de student wel een goed antwoord gegeven en moet je het antwoord dus goed rekenen. Pas dan ook het antwoordmodel aan en communiceer dit – indien van toepassing – met de andere beoordelaars. Het kan zijn dat het gegeven antwoord niet in de bestudeerde literatuur is genoemd. Maar als in de vraag niet expliciet om gegevens uit de bestudeerde literatuur wordt gevraagd, moet je in dit geval ook het antwoord goed rekenen. Heb je twijfels, dan kun je de student vragen het antwoord toe te lichten. (Hoe kom je aan dit antwoord? Kun je dit antwoord nog eens herhalen?)

Sommige studenten maken heel veel fouten in het Nederlands/Engels. Mag ik dat in mijn beoordeling mee laten wegen?

Dat kan alleen als taal in de rubric of het beoordelingsmodel is opgenomen. Met andere woorden: je kunt geen punten aftrekken voor taalfouten, als taal niet tot de leerdoelen en beoordelingscriteria van het vak behoort. Het kan natuurlijk wel zijn dat door het taalgebruik het antwoord niet duidelijk is. Dan kun je om die reden het antwoord (gedeeltelijk) fout rekenen. Het is belangrijk om dit soort zaken in je team te bespreken en samen één lijn te trekken.

De Toetscyclus

Ontwerpen Hoe kies ik een toetsvorm die mijn leerdoelen betrouwbaar meet?
Construeren Hoe maak ik goede vragen en opdrachten?
De vorige stap: Afnemen Waar moet ik bij het afnemen van de toets op letten?
Nakijken Hoe kijk ik zo efficiënt mogelijk na?
De volgende stap: Analyseren Hoe kan ik achteraf de kwaliteit van mijn toets beoordelen en verbeteren?
Rapporteren Waar moet ik op letten bij het bekendmaken van cijfers en het geven van feedback?
Evalueren Hoe kan ik mijn toetsing de volgende keer verbeteren?