Societat de la Informació i el Coneixement

Parameter-free Agglomerative Hierarchical Clustering to Model Learners' Activity in Online Discussion Forums

Doctorat de Societat de la Informació i el Coneixement
22/04/2014

Autor: Germán Cobo Rodríguez
Programa: Doctorat de Societat de la Informació i el Coneixement
Idioma: anglès
Directors: Dra. Eugènia Santamaría Pérez i Dr. José Antonio Morán Moreno
Departament / Institut: Internet Interdisciplinary Institute (IN3)
Matèries: Informàtica, Ensenyament superior, Universitats
Paraules clau: Classificació no supervisada (clustering) lliure de paràmetres, Mineria de dades en educació, Modelització del comportament de l'estudiant
Àrea de coneixement: Aprenentatge Artificial i Mineria de Dades en Educació

+ Enllaç al projecte

Resum

L'anàlisi de l'activitat dels estudiants en els fòrums de discussió en línia implica un problema de modelització altament dependent del context, el qual pot ser plantejat des d'aproximacions tant teòriques com empíriques. Quan aquest problema s'aborda des de l'àmbit de la mineria de dades, l'enfocament adoptat més comunament és el de la classificació no supervisada (o clustering), fet que dóna lloc a un escenari de clusterització en què el nombre real de clústers és a priori desconegut. Per tant, aquesta aproximació revela una qüestió subjacent, la qual no és sinó un dels problemes més coneguts del paradigma de la clusterització: l'estimació del nombre de clústers, habitualment seleccionat per l'usuari d'acord amb algun tipus de criteri subjectiu que pot comportar fàcilment l'aparició de biaixos indesitjats en els models obtinguts.

Amb l'objectiu d'evitar qualsevol intervenció de l'usuari en l'etapa de clusterització, en aquesta tesi es proposen dos nous criteris d'unió entre clústers, els quals, al seu torn, permeten implantar un nou algorisme de clusterització jeràrquica aglomerativa lliure de paràmetres. Un complet conjunt d'experiments indica que el nou algorisme de clusterització és capaç de proporcionar solucions de clusterització òptimes enfront d'una gran varietat d'escenaris de clusterització, atès que és capaç de bregar amb diferents classes de dades i de millorar el rendiment ofert pels algorismes de clusterització emprats més àmpliament a la pràctica.

Finalment, es proposa una estratègia d'anàlisi de dues etapes basada en el paradigma de la clusterització subespacial a fi de tractar adequadament el problema de la modelització de la participació dels estudiants en les discussions asíncrones. Combinada amb el nou algorisme de clusterització, l'estratègia proposada demostra ser capaç de limitar la intervenció subjectiva de l'usuari a les etapes d'interpretació del procés d'anàlisi i de donar lloc a una completa modelització de l'activitat que duen a terme els estudiants en els fòrums de discussió en línia.