Galería de tesis doctorales

Sociedad de la Información y el Conocimiento

Parameter-free Agglomerative Hierarchical Clustering to Model Learners' Activity in Online Discussion Forums

22/04/2014

Autor: Germán Cobo Rodríguez
Programa: Doctorado de Sociedad de la Información y el Conocimiento
Idioma: inglés
Director/es: Dra. Eugènia Santamaría Pérez y Dr. José Antonio Morán Moreno
Departamento / Instituto: Internet Interdisciplinary Institute (IN3)
Materias: Informática, Educación superior, Universidades
Palabras clave: Clasificación no supervisada (clustering) libre de parámetros, Minería de datos en educación, Modelización del comportamiento del estudiante
Área de conocimiento: Aprendizaje Artificial y Minería de Datos en Educación

+ Enlace al proyecto

Resumen

El análisis de la actividad de los estudiantes en los foros de discusión en línea conlleva un problema de modelización altamente dependiente del contexto, que puede ser planteado desde aproximaciones tanto teóricas como empíricas. Cuando este problema es abordado desde el ámbito de la minería de datos, el enfoque más comúnmente adoptado es el de la clasificación no supervisada (o clustering), lo que da lugar a un escenario de clusterización en el que el número real de clústeres es a priori desconocido. Por lo tanto, esta aproximación revela una cuestión subyacente que no deja de ser uno de los problemas más conocidos del paradigma de la clusterización: la estimación del número de clústeres, habitualmente seleccionado por el usuario conforme a algún tipo de criterio subjetivo que puede implicar fácilmente la aparición de sesgos indeseados en los modelos obtenidos.

Con el objetivo de evitar cualquier intervención del usuario en la etapa de clusterización, en la presente tesis se proponen dos nuevos criterios de unión entre clústeres, que, a su vez, permiten la implementación de un nuevo algoritmo de clusterización jerárquica aglomerativa libre de parámetros. Un completo conjunto de experimentos indica que el nuevo algoritmo de clusterización es capaz de proporcionar soluciones de clusterización óptimas frente a una gran variedad de escenarios de clusterización, puesto que es capaz de lidiar con diferentes clases de datos y de mejorar el rendimiento ofrecido por los algoritmos de clusterización utilizados más ampliamente en la práctica.

Por último, se propone una estrategia de análisis de dos etapas basada en el paradigma de la clusterización subespacial a fin de abordar adecuadamente el problema de la modelización de la participación de los estudiantes en las discusiones asíncronas. Combinada con el nuevo algoritmo de clusterización, la estrategia propuesta demuestra ser capaz de limitar la intervención subjetiva del usuario a las etapas de interpretación del proceso de análisis y de dar lugar a una completa modelización de la actividad que llevan a cabo los estudiantes en los foros de discusión en línea.