L'enginyeria lingüística en la societat de la informació
                                                                                                               



1. Comunicació i llenguatge en el marc de la societat de la informació | 2. Les tecnologies lingüístiques

3. Les tecnologies del text escrit | 4. Les tecnologies de la parla

5. La societat de la informació en el context europeu | 6. Perspectives professionals | 7. Referències

 

3. Les tecnologies del text escrit

En el moment actual, l'accés a la informació ha de ser selectiu i guiat  per objetius; de no ser així, malgrat disposar d'una gran quantitat de dades al nostre abast, no arribaran a convertir-se en informació que poguem integrar com a coneixement. Aquest fet planteja la necessitat de definir mètodes d'emmagatzematge i codificació de la informació per tal que posteriorment pugui ser degudament recuperada.

Actualment, en aquests entorns els documents s'indexen per formes o per paraules-clau, sense tenir en compte les relacions entre les variants flexives dels mots o les relacions de significat. Tant les empreses editorials, en tant que creadores de continguts estructurats (diccionaris i enciclopèdies), com els sistemes de cerca a Internet o la gestió dels grans bancs de dades, requereixen de sistemes que permetin l'accés al contingut des de diferents prespectives segons les necessitats dels usuaris.

El desenvolupament d'aquests sistemes requereix disposar de recursos d'enginyeria lingüística que permetran optimitzar els resultats de les cerques. Les millores es poden produir en diferents sentits:

- permetent expresar les cerques en llenguatge natural i no restingint-les a un metallenguatge, normalment una combinació de paraules-clau i operadors booleans,  que cal aprendre;

- ampliant l'espai de cerca mitjançant l'ampliació de la pregunta de l'usuari incorporant-hi  les seves formes flexives i les paraules semànticament relacionades;

- restringint els documents seleccionats a aquells que realment responen al sentit de les cerques.

Entre els recursos d'enginyeria lingüística, destaquen:

- els analitzadors morfològics, que permeten relacionar les variants flexives d'un mot amb el seu lema i assignen una descripció morfològica a les paraules dels textos;

- els desambiguadors, que davant d'una ambigüitat al nivell morfològic, sintàctic o semàntic, decideixen, en funció de dades estadístiques o en base a regles lingüístiques, quina és la interpretació més correcta;

- els analitzadors sintàctics, que identifiquen els grups de mots que funcionen com un tot, la qual cosa permet identificar les entitats del text;

- les xarxes semàntiques, que organitzen el lèxic segons les seves relacions internes i permeten etiquetar semànticament els textos;

- els corpus etiquetats morfològicament, sintàcticament i semànticament, que s'utilitzen com a fonts d'informació per a l'aprenentatge dels etiquetadors automàtics i com a consulta per a la recerca lingüística. La utilització de corpus està lligada a una sèrie de processos - com la codificació, l'etiquetatge i l'anàlisi lingüística-  i  eines - com ara els programes de concordances - que faciliten el seu ús i  la seva explotació. 

- lexicons computacionals que guien el procés  d'anàlisi i interpretació semàntica del text;

- lexicons multilingües que permeten el procés de traducció automàtica o bé ajuden la traducció manual.

Les técniques associades a la gestió de continguts, utilitzen aquests recursos com a fonts d'informació per al processament de les dades. Les tècniques més significatives són l'extracció d'informació, la recuperació d'informació, la traducció automàtica i la confecció de resums.

L'objectiu últim és que els documents puguin ser indexats per conceptes, que es pugui accedir a la informació mitjançant interaccions en llenguatge natural i que poguem interactuar i recuperar la informació en la llengua que desitgem.

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)