SENSEVAL, a computer-based approximation to meaning
Mariona Taulé

 Profesora del Departamento de Lingüística General (Universidad de Barcelona)
 Consultora de los Estudios de Humanidades y Filología (UOC)
mtaule@pcb.ub.es

M. Antònia Martí

 Profesora del Departamento de Lingüística General (Universidad de Barcelona)
amarti@lingua.fil.ub.es


Abstract: In this paper we present an overview of the international exercise SENSEVAL, the basic purpose of which is to organize and run evaluation of Word Sense Disambiguation (WSD) algorithms and systems with respect to different words and languages. In order to do this, we first introduce the main goals and the organization of the SENSEVAL exercise; we follow with the methodology developed, the tasks and the linguistic resources created (corpora and dictionaries); and we finally end with some general reflections about the effects on Linguistics and, concretely, on Lexicography motivated by this methodology. We will base on the resources developed for the Spanish SENSEVAL-2 in order to illustrate this methodology.

Go to the document:   Spanish version / Catalan version 

Digithum / 5
ISSN 1575-2275






Nota1:

Los recursos desarrollados para la realización de SENSEVAL-2 han sido posibles gracias a la colaboración desinteresada de los grupos de investigación del Centro de Lenguaje y Computación de la Universidad de Barcelona (CLiC-UB), del centro de Técnicas y Aplicaciones del Lenguaje y el Habla (TALP) de la Universidad Politécnica de Cataluña (UPC) y del Grupo de Procesamiento de Lenguaje Natural (GPLN) de la Universidad Nacional de Educación a Distancia (UNED). Estos tres grupos se han encargado de la organización del SENSEVAL-2 español.
Nota2:

La organización de SENSEVAL se realiza con la colaboración desinteresada de diferentes grupos de investigación.
Nota3:

El primer ejercicio de SENSEVAL, y de hecho también de su homónimo ROMANSEVAL (Véronis, 1998; Calzolari y Corazzari, 2000), tuvo lugar en 1998, bajo la supervisión del grupo SIGLEX, y culminó en un taller (workshop) en Hertsmonceux Castle, Inglaterra. SIGLEX (Special Interest Group of the Association for Computational Linguistics) provee un marco de referencia para la investigación en lexicografía, semántica léxica computacional y otras áreas afines.
Nota4:

SENSEVAL-2 se organizó en el 2000-2001 con el apoyo de EURALEX, ELSNET, EPSRC y ELRA, y tuvo lugar en Toulouse conjuntamente con el congreso de la ACL-2001.
Nota5:

A partir de ahora se expone la metodología desarrollada y los datos y resultados obtenidos en SENSEVAL-2 porque abarca más lenguas y más tareas. De hecho, la metodología del primer concurso SENSEVAL queda incluida en el segundo.
Nota6:

En Rigau et al. (2001) y en Taulé (2002) se da una descripción completa de los recursos lingüísticos elaborados para SENSEVAL-2.
Nota7:

Este es el caso del SENSEVAL español, que no disponía de un léxico completo y se realizó uno parcial diseñado especialmente para el concurso.
Nota8:

El léxico (o minidiccionario) del SENSEVAL español ha sido elaborado íntegramente por el grupo de lingüistas del Centro de Lenguaje y Computación de la Universidad de Barcelona (CLiC-UB).
Nota9:

El diccionario sólo incluye las 40 palabras seleccionadas para la prueba (18 nombres, 9 adjetivos y 13 verbos).
Nota10:

La categoría léxica (nombre, adjetivo o verbo) se representa con etiquetas parole (Eagles, programa Eureka 1989-1995) abreviadas.
Nota11:

En el modelo de WordNet los conceptos se definen por conjuntos de sinonimia, denominados synsets, conectados entre ellos por relaciones semánticas (hiponimia, hiperonimia, antonimia, meronimia, etc.).
Nota12:

En Vossen (1999) hay una descripción completa de EuroWordNet. Sitio web de EuroWordNet en español, catalán y vasco: <http://nipadio.lsi.upc.es/wei.html>.
Nota13:

En Miller y Fellbaum (1991) hay una descripción completa de WordNet.
Nota14:

Hay casos en los que no es posible proporcionar 15 ocurrencias por sentido por no encontrarse más ejemplos en los corpus a partir de los cuales se obtiene el gold-standard.
Nota15:

El corpus de El Periódico ha sido cedido por el proyecto HERMES (CICYT TIC2000-0335-C03-02).
Nota16:

El corpus Lexesp ha sido proporcionado por el proyecto Lexesp-III (DGICYT APC 99-0105).
Nota17:

Para el análisis morfológico se ha utilizado el analizador morfológico MACO+ (Carmona et al., 1998) y para la desambiguación morfológica el tagger RELAX (Padró, 1998).
Nota18:

Los equipos de desambiguación estaban constituidos por: el equipo de lingüistas de CLiC (UB) y los equipos, integrados básicamente por informáticos, de TALP (UPC) y GPLN (UNED).