Als de afname is geweest, is het tijd om te kijken naar de kwaliteit van de toets door middel van een analyse. Bij een digitaal tentamen kan de toetssoftware zelf vaak een belangrijk deel van die analyse uitvoeren (bijvoorbeeld TestVision of Ans Exam). Met de uitslag komt een aantal statistische gegevens mee, waarmee je op het spoor komt of je toetsvragen onduidelijk of onbedoeld te moeilijk waren. Door achteraf verbeteringen aan te brengen, verhoog je de kwaliteit van het tentamen en de betrouwbaarheid van de resultaten. De belangrijkste statistische gegevens op toets- en vraagniveau zijn:

de alpha van de toets geeft een indicatie van de betrouwbaarheid van de toets als geheel;
de p-waarde geeft een indicatie van de moeilijkheid. Je krijgt een p-waarde voor de toets als geheel en per vraag;
de rit-waarde geeft de mate aan waarin een vraag de goed scorende studenten onderscheidt van de slecht scorende studenten.

Als de toets als geheel moeilijker en/of minder betrouwbaar bleek dan gedacht, dan moet je inzoomen op de kwaliteit van de afzonderlijke vragen. Met name als een vraag zowel een lage p-waarde (= moeilijke vraag) als een lage of zelfs negatieve rit-waarde heeft (= goedscorende studenten hebben de vraag verkeerd beantwoord, of laagscorende studenten hebben de vraag juist goed beantwoord), dan is er reden tot zorg. Het zou kunnen dat de vraag niet helder was, dat de stof niet (voldoende) behandeld is, dat de antwoordalternatieven overlappen (bij MC-vragen) of dat het antwoordmodel niet klopt. In zo’n geval kun je bijvoorbeeld een ander antwoord alsnog goedkeuren. Dit komt de betrouwbaarheid van de toets als geheel ten goede.

Wil je meer weten over het analyseren van digitale tentamens? Bekijk dan hier een leidraad van FGW (download .pdf, 164KB) om met de analysegegevens je tentamen te verbeteren. Het TLC heeft ook een uitgebreide E-learning over de analyse van tentamenresultaten ontwikkeld.

Analyse van tentamens op papier

Ook in het geval van een tentamen op papier is een analyse achteraf zinvol. Maak daarvoor in Excel een lijst met de scores per vraag per student. Zo kun je makkelijk de gemiddelde scores per vraag en voor het tentamen als geheel berekenen – dit zegt iets over de moeilijkheid (p-waarde). Het is ook mogelijk om software te gebruiken om een uitgebreidere analyse uit te voeren. Het TLC heeft ook een Excel-template ontwikkeld waarmee de p-waarden, rit-waarden en alpha voor jouw toets kunnen worden berekend. Download hier het template en de user guide (Engels).

Waar moet je op letten?

Percentage geslaagden als geheel
In de eerste plaats is het goed om te kijken naar het percentage geslaagden van het tentamen als geheel. In principe zouden studenten die vanwege hun vooropleiding of laatste examen (propedeuse) geschikt zijn bevonden voor de opleiding hun tentamens moeten kunnen halen. Wanneer dit niet lukt, kunnen de oorzaken worden gezocht in een inadequate voorbereiding van de studenten, maar ook in tekortkomingen in het tentamen of in het onderwijs. Bij meer dan 30% onvoldoendes in de propedeusefase is het zinvol om te kijken of het tentamen niet te moeilijk was of dat de vraagstelling onduidelijk was.

Moeilijkheid van de vragen

Door de gemiddelde score per vraag te berekenen zie je welke vragen makkelijk of juist moeilijk waren. Een toets mag natuurlijk moeilijke vragen bevatten, maar als bijvoorbeeld blijkt dat (ook) goed scorende studenten dezelfde vraag allemaal fout hebben, is er waarschijnlijk iets aan de hand. Het is dan goed om nog eens naar de formulering van de vragen te kijken. Is de vraag voor meerdere uitleg vatbaar, sluit de vraag niet goed aan bij de bestudeerde stof, of zijn er meerdere goede antwoorden mogelijk waarin het antwoordmodel niet voorziet? In dat geval moet het antwoordmodel misschien aangepast worden.

Verschil tussen beoordelaars
Een ander probleem dat uit de analyse naar voren kan komen, zijn verschillen tussen beoordelaars. Dat kan zich voordoen bij de beoordeling van de resultaten van opdrachten, mondelinge toetsen en presentaties, maar ook bij de beoordeling van tentamens waarbij meerdere beoordelaars zijn betrokken. Grote verschillen tussen beoordelaars, met name rond de beslissing of een student is geslaagd of gezakt, moeten natuurlijk voorkomen worden. Door beoordelingen te vergelijken kun je nagaan of dergelijke verschillen zich voordoen. Je kunt beoordelingen vergelijken door te kijken naar de mate waarin de beoordelingen van een specifieke docent afwijken van het gemiddelde.

Een oplossing voor het probleem van verschillen tussen beoordelaars is dat steeds dezelfde beoordelaar een bepaalde vraag nakijkt. Daarmee kunnen verschillen tussen beoordelaars weliswaar niet helemaal voorkomen worden, maar voor studenten is deze manier van werken wel eerlijker. Ook kun je vooraf kalibreren, door met alle beoordelaars eerst gezamenlijk een paar vragen, tentamens of opdrachten na te kijken zodat op dezeflde manier beoordeeld wordt.

Cesuur
Als onvolkomenheden op vraagniveau en verschillen tussen beoordelaars zijn opgelost en nog steeds een groot deel van de studenten de toets onvoldoende heeft gemaakt, kan in laatste instantie bekeken worden of de cesuur wel correct is (de zak-/slaaggrens). Er zijn verschillende methodes om de cesuur aan te passen (zie stap 2 van de toetscyclus, construeren). Ga niet zomaar zelf de cesuur aanpassen. Vraag aan de toetsdeskundige(n) van jouw faculteit om hulp.

Toets te makkelijk?
Uit de resultaten en de analyse kan ook blijken dat de toets niet te moeilijk maar juist te makkelijk was. Als bijvoorbeeld bij een propedeusetentamen met een groot aantal studenten (bijna) alle studenten voor het tentamen geslaagd zijn, is dat misschien het geval. Je kunt dan overwegen om een strengere normering te hanteren of de cesuur onder de loep te nemen. Dit moet je goed aan studenten kunnen verantwoorden. Het is daarom goed studenten van tevoren uit te leggen dat de cesuur aangepast kan worden. Overleg altijd eerst met de toetsdeskundige(n) van jouw faculteit.

Veelgestelde vragen

Het tentamen is heel slecht gemaakt. Kan ik hier nog iets aan veranderen?

Als een tentamen slecht gemaakt is, kunnen docenten de neiging hebben om de studenten de schuld te geven. Ze hebben niet goed genoeg geleerd of niet goed opgelet tijdens de colleges. Maar de oorzaak kan ook liggen in het onderwijs en/of in het tentamen zelf. Kijk in eerste instantie naar de afzonderlijke vragen. Hoe zit het met vragen die slecht zijn gemaakt? Is de formulering daarvan helder? Als ook goede studenten op een bepaalde vraag slecht scoren, kun je kijken of er iets mis is met de formulering van de vraag. Of dat je naar iets hebt gevraagd dat achteraf gezien helemaal niet goed behandeld is. Overweeg om een dergelijke vraag minder streng te beoordelen, meerdere antwoorden goed te keuren, of in laatste instantie de cesuur aan te passen.

Is het normaal dat iedereen een voldoende heeft?

Het kan natuurlijk zijn dat je toevallig een hele goede groep studenten hebt getroffen, maar het is waarschijnlijker dat een tentamen achteraf bezien te makkelijk was. Overweeg om sommige vragen wat strenger te beoordelen of de cesuur aan te passen en zorg er in ieder geval voor dat het tentamen volgend jaar wat meer op niveau is.

Eén vraag van het tentamen is heel slecht gemaakt. Waar ligt dat aan?

Op zich is het heel goed dat een tentamen ook moeilijke vragen bevat. Zo kunnen goede studenten zich onderscheiden. Als blijkt dat ook die de vraag slecht gemaakt hebben, is er misschien iets anders aan de hand. Kijk dan nog eens goed naar de formulering van de vraag. Is die misschien niet helemaal duidelijk? Overweeg om de vraag minder streng te beoordelen of om meerdere antwoorden goed te rekenen.

Soms is er aanleiding om een vraag buiten beschouwing te laten bij het beoordelen van een toets of de vraag voor iedereen goed te rekenen. Dit heeft verschillende gevolgen. Wanneer je een vraag niet meetelt zakt de score van de studenten die de vraag in kwestie juist hebben beantwoord en stijgt de score van de studenten die de vraag onjuist beantwoord hebben. Wanneer je de vraag voor iedereen goed rekent blijft de score van studenten die de vraag juist beantwoord hebben gelijk en stijgt de score van studenten die de vraag onjuist hebben beantwoord. Deze optie heeft voor studenten de minst nadelige gevolgen.

Wij kijken na in een team. Nu blijkt dat de uitslagen van een collega consequent hoger/lager zijn dan bij de andere beoordelaars. Wat kunnen we hieraan doen?

Het is bij meerdere beoordelaars belangrijk om de uitslagen te ‘kalibreren’, d.w.z. met elkaar afstemmen of iedereen consequent beoordeelt. Een manier kan zijn om van tevoren gezamenlijk enkele tentamens of vragen na te kijken om te zien of iedereen op dezelfde beoordeling uitkomt. Mocht dat onverhoopt niet gebeurd zijn en komen afwijkende beoordelingen aan het licht, laat dan enkele tentamens of vragen door een van de andere beoordelaars nakijken en kijk of die op een andere beoordeling uitkomt. Is dat het geval, dan is het goed om alle tentamens of vragen die door de betreffende collega zijn beoordeeld, nog eens te bekijken en de beoordeling aan te passen.

De Toetscyclus

Ontwerpen		Hoe kies ik een toetsvorm die mijn leerdoelen betrouwbaar meet?
Construeren		Hoe maak ik goede vragen en opdrachten?
Afnemen		Waar moet ik bij het afnemen van de toets op letten?
De vorige stap: Nakijken		Hoe kijk ik zo efficiënt mogelijk na?
Analyseren		Hoe kan ik achteraf de kwaliteit van mijn toets beoordelen en verbeteren?
De volgende stap: Rapporteren		Waar moet ik op letten bij het bekendmaken van cijfers en het geven van feedback?
Evalueren		Hoe kan ik mijn toetsing de volgende keer verbeteren?