L'enginyeria lingüística en la societat
de la informació
1. Comunicació i llenguatge en el marc de la societat de la informació | 2. Les tecnologies lingüístiques |
3. Les tecnologies del text escrit | 4. Les tecnologies de la parla |
5. La societat de la informació en el context europeu | 6. Perspectives professionals | 7. Referències
3. Les tecnologies del text escrit
En
el moment actual, l'accés a la informació ha de ser selectiu i guiat per
objetius; de no ser així, malgrat disposar d'una gran quantitat de dades al
nostre abast, no arribaran a convertir-se en informació que poguem integrar com
a coneixement. Aquest fet planteja la necessitat de definir mètodes
d'emmagatzematge i codificació de la informació per tal que posteriorment
pugui ser degudament recuperada.
Actualment,
en aquests entorns els documents s'indexen per formes o per paraules-clau, sense
tenir en compte les relacions entre les variants flexives dels mots o les
relacions de significat. Tant les empreses editorials, en tant que creadores de
continguts estructurats (diccionaris i enciclopèdies), com els sistemes de
cerca a Internet o la gestió dels grans bancs de dades, requereixen de sistemes
que permetin l'accés al contingut des de diferents prespectives segons les
necessitats dels usuaris. El
desenvolupament d'aquests sistemes requereix disposar de recursos d'enginyeria
lingüística que permetran optimitzar els resultats de les cerques. Les
millores es poden produir en diferents sentits: -
permetent expresar les cerques en llenguatge natural i no restingint-les a un
metallenguatge, normalment una combinació de paraules-clau i operadors booleans,
que cal aprendre; -
ampliant l'espai de cerca mitjançant l'ampliació de la pregunta de l'usuari
incorporant-hi les seves formes flexives i les paraules semànticament
relacionades; -
restringint els documents seleccionats a aquells que realment responen al sentit
de les cerques. Entre
els recursos d'enginyeria lingüística,
destaquen: -
els analitzadors morfològics, que permeten relacionar les variants flexives
d'un mot amb el seu lema i assignen una descripció morfològica a les paraules
dels textos;
-
els desambiguadors, que davant d'una ambigüitat al nivell morfològic, sintàctic
o semàntic, decideixen, en funció de dades estadístiques o en base a regles
lingüístiques, quina és la interpretació més correcta; -
els analitzadors sintàctics, que identifiquen els grups de mots que funcionen
com un tot, la qual cosa permet identificar les entitats del text; -
les xarxes semàntiques, que organitzen el lèxic segons les seves relacions
internes i permeten etiquetar semànticament els textos; -
els corpus etiquetats morfològicament, sintàcticament i semànticament, que
s'utilitzen com a fonts d'informació per a l'aprenentatge dels etiquetadors
automàtics i com a consulta per a la recerca lingüística. La utilització de
corpus està lligada a una sèrie de processos - com la codificació,
l'etiquetatge i l'anàlisi lingüística- i eines - com ara els
programes de concordances - que faciliten el seu ús i la seva explotació. -
lexicons computacionals que guien el procés d'anàlisi i interpretació
semàntica del text; -
lexicons multilingües que permeten el procés de traducció automàtica o bé
ajuden la traducció manual. Les
técniques associades a la gestió de continguts, utilitzen aquests recursos com
a fonts d'informació per al processament de les dades. Les tècniques més
significatives són l'extracció d'informació,
la recuperació d'informació, la traducció automàtica i la confecció de
resums. L'objectiu
últim és que els documents puguin ser indexats per conceptes, que es pugui
accedir a la informació mitjançant interaccions en llenguatge natural i que
poguem interactuar i recuperar la informació en la llengua que desitgem.
