¿puede La Inteligencia Artificial Corregir Como Un Profesor?

Este estudio analiza la capacidad de los modelos de inteligencia artificial generativa para evaluar respuestas abiertas en educación universitaria y reproducir los criterios de calificación de un profesor. La investigación se basa en una muestra de 56 respuestas reales de estudiantes de una asignatura de marketing, inicialmente evaluadas por el docente y posteriormente calificadas por tres sistemas de IA (ChatGPT, Gemini y Copilot) bajo dos escenarios: Few-Shot Learning (FSL), con ejemplos de respuestas previamente corregidas por el profesor, y un escenario neutral, sin ejemplos. La concordancia entre las evaluaciones humanas y las generadas por la IA se analizó mediante el coeficiente de correlación de Pearson, el coeficiente de concordancia de Lin (CCC), el error porcentual absoluto medio (MAPE) y ANOVA de un factor. Los resultados muestran que ChatGPT en escenario neutral y Gemini en escenario FSL presentan la mayor proximidad a las calificaciones del profesor, mientras que Copilot presenta mayores desviaciones. Los hallazgos sugieren que la IA puede constituir una herramienta útil de apoyo a la evaluación académica.

Jose Luis Ximenez de Sandoval
Les Roches Global Hospitality Education, Marbella, Spain
Spain

Marius Vlad
Les Roches Global Hospitality Education, Marbella, Spain
Spain

Ekaterina Vlad
Les Roches Global Hospitality Education, Marbella, Spain
Spain