Para poder dilucidar cuánto es más correcto restar en un tipo test, he realizado una serie de cálculos matemáticos que demuestran que es un error simplemente anular el efecto del azar sobre la nota de un alumno que debe sacar un cero (0), sin pensar en cómo ello repercute en la nota del resto de alumnos con sus posibles situaciones de conocimientos propios y dificultad del test.
En la web: https://www.ciencia-explicada.com/2013/06/cuanto-restan-los-errores-en-examenes.html hacen una demostración de cómo anular el regalo de puntos a los alumnos que deberían sacar un cero cuando contestan al azar, y ciertamente sería correcto en caso de existir solamente dos posibles opciones en la mente del alumno: las de saber o no la respuesta correcta. A este sistema lo llamo de suma cero, por su efecto sobre las respuestas al azar.
La realidad es más compleja, y lo cierto es que muchos alumnos no tienen una memoria fotográfica, pudiendo dudar entre dos o más opciones de las ofrecidas en cada pregunta. En este caso el sistema de suma cero les castigaría la nota en exceso, como vamos a comprobar a continuación, pues en cualquier otro examen de preguntas escritas podrían sacar algo más de puntuación con las respuestas incompletas. Esto último se podría comprobar si se hiciese un test de suma cero y un examen de preguntas cortas a los mismos alumnos y sobre la misma materia.
Otro sistema de puntuación se basa en conocer el grado de seguridad o confianza con que un alumno responde una determinada opción. Este nuevo sistema se llama PBC (Puntuación Basada en Certeza o CBM: Certainty-Based marking) y es explicado en https://docs.moodle.org/all/es/Usando_Puntuaci%C3%B3n_Basada_en_Certeza. Si bien, por su cantidad de parámetros a calcular, requiere la utilización de dispositivos electrónicos para responder y que la aplicación permita preguntar al alumno por el nivel de confianza que le produce su propia respuesta. Las puntuaciones de este sistema PBC debería también revisarse con el criterio de optimización de errores que vamos a aplicar a los test tradicionales.
En los test tradicionales, frente al método de suma cero visto al principio, una forma más adecuada de resolver el problema sobre cuánto hay que restar a las respuestas incorrectas, se basaría en aplicar la técnica de mínimos cuadrados con el criterio de optimización del mínimo error cuadrático: trataremos de minimizar los errores en la puntuación, entendiendo por error a la diferencia entre la nota que debería sacar un alumno atendiendo a sus conocimientos y la nota que realmente saca según la función aplicada a sus respuestas correctas e incorrectas. Vamos a minimizar el sumatorio del cuadrado de tales diferencias, es decir, a minimizar la suma de los cuadrados de los errores.
Con motivo de poder comprobar matemáticamente estas hipótesis, he creado una hoja de cálculo con las distintas opciones de conocimientos que podría tener un alumno:
Alumno que sabe la materia MAL, no la sabe en absoluto: debería sacar un 0.
Alumno que sabe la materia REGULAR, dudando en algún aspecto de cada pregunta: un 5.
Alumno que sabe la materia perfectamente, sin dudas: debería sacar un 10.
A estas tres posibles, se podrían añadir otras como:
Alumno que sabe la materia en parte regular (la mitad) y en parte mal: un 2,5.
Alumno que sabe una parte bien (la mitad) y otra parte regular: sacaría un 7,5.
A estos cinco casos de tipología de alumnos podríamos añadir los listillos que estudien solamente una parte del examen muy bien, dejando sin mirar el resto:
Alumno que estudia solo un 25% de la materia y prueba suerte en el tipo test con el resto: debería sacar 2,5 puntos en el examen.
Aquel que estudia solo el 50% pero lo sabe perfectamente: debería sacar matemáticamente un 5.
Si estudia el 75% de los contenidos, debería sacar un 7,5 de sabérselos perfectamente.
Como ven, la realidad puede ser mucho más variada de lo que en principio parecería, y aun así estas serían solamente las alternativas de conocimiento del alumno, a ello podríamos añadir las alternativas en la dificultad del examen y las posibles opciones por pregunta:
Tres opciones por pregunta. Una de las falsas muy parecida a la correcta.
Tres opciones, con las dos falsas muy parecidas a la correcta. No tengo en cuenta este caso para no alargar el estudio.
Cuatro opciones por pregunta donde una es claramente absurda, de relleno. En este caso lo asemejo a la primera de tres opciones.
Cuatro opciones con una respuesta falsa bastante parecida a la correcta, un leve detalle que precise de un conocimiento exhaustivo de la materia para poder discernir la respuesta correcta de la parecida.
Cuatro opciones con dos respuestas falsas bastante parecidas a la correcta. Este test es más difícil.
Cuatro opciones con tres respuestas falsas bastante parecidas a la correcta. No voy a tener en cuenta esta posibilidad para no alargar en demasía este estudio.
Empecemos por la primera alternativa de examen: tres opciones con una falsa parecida a la correcta, o cuatro con una de las respuestas bastante fácil de descartar. Además voy a suponer que el alumno siempre responde a todas las preguntas, aunque en la realidad habría alumnos menos arriesgados que no responderían las respuestas que dudan para no restar si se equivocan.
Figura 1. Test con 3 opciones. Fuente: elaboración propia.
Si nos fijamos en la serie celeste, la correspondiente a suma cero, las diferencias entre el conocimiento del alumno y su nota conseguida coinciden con 0 cuando el alumno o bien sabe o no sabe la respuesta, pero hay grandes diferencias de nota que llegan al 50% de la misma cuando el alumno duda entre dos opciones. Por esta razón no es adecuado el sistema de suma cero para valorar los test.
Con el objetivo de acercarnos a una mejor valoración de los conocimientos de los alumnos pretendo buscar un equilibrio entre el regalo de nota por acertar al azar y la disminución de nota por dudar en la respuesta. Para ello he querido medir las diferencias (error de la puntuación final) entre la nota que tendría que sacar (primera columna de todo el recuadro) y la nota realmente obtenida en función del tipo de alumno y sus conocimientos. Sumando los cuadrados de tales diferencias tan solo me queda minimizar el resultado jugando con el porcentaje a restar a las opciones incorrectas, con ello pretendo minimizar el error de calificación o diferencia entre la nota merecida y la nota obtenida.
Para el caso de tres opciones por pregunta, es mucho más adecuado restar sobre un tercio (33,33%, ver celdas con fondo amarillo, diferencias al cuadrado de 5,86) que un 50% como se obtuvo en el método de suma cero (diferencias al cuadrado de 9,38). Utilizando la herramienta Solucionador o Solver el óptimo se alcanza restando 34,88% (fondo de color ámbar o salmón).
Para calcular los aciertos en el test de cualquier alumno, en este caso de 3 opciones por pregunta y bajo la hipótesis de no dejar ninguna pregunta sin contestar, cuando el alumno sabe una parte mal (no la sabe) he añadido un tercio (/3) de ese porcentaje como acierto de azar, os dejo aquí la fórmula que he usado para obtener el porcentaje de aciertos:
Figura 2. Fórmulas de aciertos con 3 opciones.
Se puede suponer que cuantas más respuestas se creen seguras por parte del alumno, menos se arriesgará a responder al azar para no perder puntos. Si el mínimo aceptado para hacer media con otras partes del examen fuera un 3 por ejemplo, tampoco les interesará arriesgarse a los que han estudiado poco, ante la posibilidad de que el azar les jugara una mala pasada y se quedaran sin el mínimo por lo que suspenderían el examen completo.
Vamos a hacer ahora el estudio de tener 4 opciones por pregunta, pero vamos a dividirlo en dos tipos de exámenes, uno con una de las respuestas falsas diferenciándose muy poco de la correcta, y otro más complicado con dos respuestas falsas que siembren dudas a no ser que se sepan perfectamente los contenidos de la asignatura.
Figura 3. Test con 4 opciones. Fuente: elaboración propia.
En el caso de tener 4 opciones por pregunta y un examen con la dificultad de tener una respuesta falsa muy parecida a la correcta, la solución que minimizaría la diferencia entre la nota final y los conocimientos del alumno sería de un 19,68% según el solucionador, por lo que restar un quinto (1/5 ó 20%) de nota sería lo más apropiado. Dándose además la circunstancia de que en ese porcentaje las diferencias positivas y negativas de nota respecto a la que debería corresponder se anulan (tanto se regala como se le quita a los alumnos según su tipología), aunque pienso que será más habitual el alumno que duda que aquel que estudia perfectamente solo parte de la asignatura, esto último sería adecuado comprobarlo haciendo un estudio estadístico.
El porcentaje de aciertos se ha modificado dando una probabilidad de 1/4 de acertar en caso de no saber qué responder y un 50% en caso de dudar entre dos opciones (saberlo regular):
Figura 4. Fórmulas de aciertos con 4 opciones.
Veamos ahora el caso de tener 4 opciones donde al menos dos respuestas incorrectas fuesen muy parecidas a la respuesta correcta para personas que han estudiado el tema.
Figura 5. Test con 4 opciones y difícil. Fuente: elaboración propia.
Siguiendo la estrategia de perseguir minimizar los cuadrados de las diferencias de nota, entre la adecuada para los conocimientos del alumno y la obtenida, vemos que se debería restar un 11,47% según el solucionador, un 11,50% para redondear. Pero hay un detalle importante: la mínima suma de diferencias de cuadrados (12,5) es mucho mayor a las obtenidas en los casos anteriores (5,8 con 3 opciones; 4,1 con 4 opciones), lo que acentúa la aleatoriedad de la nota obtenida por los alumnos con unos mismos conocimientos. Por ello desaconsejo crear tipo test especialmente complejos (varias respuestas falsas muy parecidas a la correcta), a no ser que tal materia sea escasa en extensión y muy importante conocerla perfectamente (conceptos básicos de la asignatura).
Las fórmulas para calcular el porcentaje de aciertos de esta última simulación, las dudosas entre tres respuestas tienen un acierto de 1/3 y las dadas al azar tiene 1/4 de aciertos:
Figura 6. Fórmulas de aciertos con 4 opciones y mayor dificultad.
Es importante tener en cuenta algunas consideraciones a la hora de crear un tipo test, incluyendo la extensión de la materia y la importancia de los contenidos a evaluar:
1.- Todas las opciones deberían poder ser ciertas a ojos de una persona que no sabe nada del tema, no deberían existir alternativas claramente absurdas para alguien sin conocimientos. Por ejemplo si es obvio que solo una es cierta (dos respuestas son auto-excluyentes la una de la otra) no se debe aceptar como opción la c) en:
¿Cuánto suman 2+3?
a) 5
b) 7
c) Ambas respuestas son correctas.
2.- Tampoco deberían ser las opciones incorrectas exactamente igual de dudosas para alguien que habiendo estudiado el tema, se le pudieran escapar algunos detalles del mismo. Es decir, una persona que no sepa perfectamente el tema pero que haya estudiado, debería dudar como mucho entre la respuesta correcta y una sola de las incorrectas. El siguiente ejemplo muestra por qué no debería restarse tanto por responder b) como si hubiera sido realizada al azar, pues castigaría en exceso un conocimiento no exhaustivo de la materia ya que la c) es la más correcta:
¿Cuál operación tendría como resultado la unidad?
a) Logaritmo neperiano de e: Ln(e)
b) Raíz cuadrada de 1: √1
c) Ambas respuestas son correctas
3.- En caso de examinar de un temario muy reducido con conceptos especialmente importantes se podría exigir un mínimo de puntos mayor a 5 o crear test más complejos con varias preguntas falsas muy parecidas a la correcta. También podrían hacerse dos exámenes, uno para el contenido especialmente importante y otro para el resto del contenido.
Me gustaría oír vuestras reflexiones sobre este asunto de cara a crear test de calidad que puntúen correctamente los conocimientos de los alumnos.
Nota: todos los cálculos han sido realizados con ayuda de la hoja de cálculo LibreOffice Calc.