Oportunitats per a l'enginyeria
lingüística
Oportunitats per a l'enginyeria lingüística
Piek Vossen
Director
tècnic en cap d'Irion Technologies
Piek.Vossen@hum.uva.nl
1. Introducció | 2.
Etapes d'anàlisi, d'emmagatzematge i d'accés a la informació |
3. Índex i cerca | 4.
Classificar i navegar | 5. Extracció de dades i
sistemes pregunta-resposta |
6. Altres
desenvolupaments
Introducció
Fa
deu anys no existia el terme enginyeria lingüística, i fins i tot avui en dia
és un concepte completament nou per molta gent. Ben aviat, però, tothom en
tindrà més que una mera idea: en un futur proper, la major part de la nostra
tecnologia es manejarà a través de l'enginyeria lingüística i fins i tot
s'hi basarà. Igual com el control remot i el ratolí són conceptes bàsics per
a nosaltres, també ho seran els aparells de tractament de la parla i els
assistents intel·ligents de lectura pacient. La meva filla petita amagava el
control remot per fer-se l'ama del televisor; la seva filla haurà d'ordir un
pla diferent, ja que els nous aparells només faran cas de la seva veu, i en
unes hores del dia limitades.
Aquesta
diguem-ne apologia de l'enginyeria lingüística, deu anys abans, hauria
provocat escepticisme, mofa i incredulitat. Que potser es tracta d'un altre
intent desesperat d'atreure subvencions vers un projecte (sense sortida) per
desenvolupar sistemes de comprensió del llenguatge?
Als
anys vuitanta, molts inversors i polítics es van haver de refer després
d'encetar projectes de traducció assistida a llarg termini, l'objectiu dels
quals era traduir un grup d'oracions en un grapat de llengües diferents. Eren
temps en què els lingüistes computacionals participaven tant en exercicis acadèmics
com en formalismes sobre models lingüístics o teories sobre ordinadors, i amb
prou feines es podia parlar d'un ús pràctic aplicable a aquests models, i ni
tan sols de resultats indirectes. Amb el temps es van començar a desenvolupar
algunes aplicacions, com ara els correctors ortogràfics i les eines automàtiques
d'indexació i de resum, però la majoria no implicaven cap enginyeria lingüística.
Molts pensaven (i encara ho fan) que el llenguatge humà és massa confús i
complex, il·lògic, vague, ambigu i implícit per poder ser capturat dins un
model.
Què
ha canviat des d'aleshores? Sens dubte, tot excepte les llengües. En aquests
deu anys hem assistit a una revolució silenciosa, una revolució resultant
d'una altra de molt més sorollosa: Internet. A través d'Internet, els
ordinadors poden accedir a una quantitat de text cada cop més gran en qualsevol
idioma imaginable, i és amb Internet que els enginyers lingüístics, de sobte,
han tingut accés a una quantitat mai vista de dades empíriques. Abans que
aparegués Internet, els lingüistes esmerçaven anys de recerca per elaborar
corpus lingüístics d'una mida mitjana, és a dir, textos seleccionats i
tractats amb cura per tal de donar resposta a unes necessitats lingüístiques
concretes. Ara tenen a la seva disposició, a Internet, textos d'envergadura
molt diversa, no només en anglès, sinó en la majoria d'idiomes del món.
Tanmateix,
no són només les dades les que
estableixen diferències: Internet és tot comunicació i informació. No és un
mer proveïdor de més i més dades, Internet, sinó que també implica una
vertadera necessitat d'informació. Per dir-ho més clarament, hi ha una
necessitat creixent de digerir quantitats immenses d'informació, la major part
emmagatzemada en format text. Si no pots trobar la informació rellevant a
Internet, algú altre ho farà. Per alguns és més que una necessitat: és un
problema d'informació.
De
sobte sorgeix un mercat i una massa crítica de dades, i tothom pot jugar-hi i
desenvolupar solucions. Les solucions, de fet, s'estan desenvolupant i gairebé
a diari en trobem una de nova. Moltes són dolentes i la majoria amb prou feines
recorren a l'enginyeria lingüística, però l'important és que permeten la
creació d'un mercat amb unes bases que es poden aprofitar per desenvolupar
altres aplicacions que utilitzen l'enginyeria lingüística per mostrar el seu
ús. Un programa de recopilació estadística (summarizer)
selecciona frases a partir de la freqüència amb què apareixen les paraules,
cosa que proporciona una qualitat suficient segons el cas. Per tant, no seria
gaire difícil afegir-hi anàlisis lingüístiques i millorar-ne el resultat,
per exemple comptant les paraules lematitzades.