Oportunitats per a l'enginyeria lingüística
                                                                                                               

 

Oportunitats per a l'enginyeria lingüística

Piek Vossen
Director tècnic en cap d'Irion Technologies

Piek.Vossen@hum.uva.nl 



1. Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la informació |
 3. Índex i cerca | 4. Classificar i navegar | 5. Extracció de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

Introducció 

Fa deu anys no existia el terme enginyeria lingüística, i fins i tot avui en dia és un concepte completament nou per molta gent. Ben aviat, però, tothom en tindrà més que una mera idea: en un futur proper, la major part de la nostra tecnologia es manejarà a través de l'enginyeria lingüística i fins i tot s'hi basarà. Igual com el control remot i el ratolí són conceptes bàsics per a nosaltres, també ho seran els aparells de tractament de la parla i els assistents intel·ligents de lectura pacient. La meva filla petita amagava el control remot per fer-se l'ama del televisor; la seva filla haurà d'ordir un pla diferent, ja que els nous aparells només faran cas de la seva veu, i en unes hores del dia limitades. 

Aquesta diguem-ne apologia de l'enginyeria lingüística, deu anys abans, hauria provocat escepticisme, mofa i incredulitat. Que potser es tracta d'un altre intent desesperat d'atreure subvencions vers un projecte (sense sortida) per desenvolupar sistemes de comprensió del llenguatge?

Als anys vuitanta, molts inversors i polítics es van haver de refer després d'encetar projectes de traducció assistida a llarg termini, l'objectiu dels quals era traduir un grup d'oracions en un grapat de llengües diferents. Eren temps en què els lingüistes computacionals participaven tant en exercicis acadèmics com en formalismes sobre models lingüístics o teories sobre ordinadors, i amb prou feines es podia parlar d'un ús pràctic aplicable a aquests models, i ni tan sols de resultats indirectes. Amb el temps es van començar a desenvolupar algunes aplicacions, com ara els correctors ortogràfics i les eines automàtiques d'indexació i de resum, però la majoria no implicaven cap enginyeria lingüística. Molts pensaven (i encara ho fan) que el llenguatge humà és massa confús i complex, il·lògic, vague, ambigu i implícit per poder ser capturat dins un model. 

Què ha canviat des d'aleshores? Sens dubte, tot excepte les llengües. En aquests deu anys hem assistit a una revolució silenciosa, una revolució resultant d'una altra de molt més sorollosa: Internet. A través d'Internet, els ordinadors poden accedir a una quantitat de text cada cop més gran en qualsevol idioma imaginable, i és amb Internet que els enginyers lingüístics, de sobte, han tingut accés a una quantitat mai vista de dades empíriques. Abans que aparegués Internet, els lingüistes esmerçaven anys de recerca per elaborar corpus lingüístics d'una mida mitjana, és a dir, textos seleccionats i tractats amb cura per tal de donar resposta a unes necessitats lingüístiques concretes. Ara tenen a la seva disposició, a Internet, textos d'envergadura molt diversa, no només en anglès, sinó en la majoria d'idiomes del món. 

Tanmateix, no són  només les dades les que estableixen diferències: Internet és tot comunicació i informació. No és un mer proveïdor de més i més dades, Internet, sinó que també implica una vertadera necessitat d'informació. Per dir-ho més clarament, hi ha una necessitat creixent de digerir quantitats immenses d'informació, la major part emmagatzemada en format text. Si no pots trobar la informació rellevant a Internet, algú altre ho farà. Per alguns és més que una necessitat: és un problema d'informació. 

De sobte sorgeix un mercat i una massa crítica de dades, i tothom pot jugar-hi i desenvolupar solucions. Les solucions, de fet, s'estan desenvolupant i gairebé a diari en trobem una de nova. Moltes són dolentes i la majoria amb prou feines recorren a l'enginyeria lingüística, però l'important és que permeten la creació d'un mercat amb unes bases que es poden aprofitar per desenvolupar altres aplicacions que utilitzen l'enginyeria lingüística per mostrar el seu ús. Un programa de recopilació estadística (summarizer) selecciona frases a partir de la freqüència amb què apareixen les paraules, cosa que proporciona una qualitat suficient segons el cas. Per tant, no seria gaire difícil afegir-hi anàlisis lingüístiques i millorar-ne el resultat, per exemple comptant les paraules lematitzades.  

En aquest article espero poder explicar les oportunitats que ofereix l'enginyeria lingüística per desenvolupar productes d'alta qualitat aplicables a la societat de la informació. Així, en l'apartat següent vull proposar un model general que serveixi per tractar les diferents etapes de l'anàlisi, l'emmagatzematge i l'accés a la informació. En els apartats posteriors analitzaré cada una d'aquestes etapes: hi faré referència als sistemes principals i més utilitzats avui en dia, a solucions ràpides i econòmiques que s'avancen a la necessitat humana de tractar la informació o el coneixement d'una manera més convenient i, en la mesura que sigui possible, a sistemes d'enginyeria lingüística caracteritzats per un bon disseny i que es poden fer servir o desenvolupar per millorar i respondre a les expectatives. No es tracta d'una llista exhaustiva de totes les possibilitats i solucions, ni està completament actualitzada ni pretén estar-ho. La tecnologia es desenvolupa ràpidament i qualsevol intent per cobrir un camp determinat ja és directament obsolet a l'hora de publicar-lo. En comptes de tot això, però, voldria ser capaç d'oferir una perspectiva sobre els principals desenvolupaments actuals, i intentar encomanar al lector l'interès pel present i el futur de l'enginyeria lingüística.

dre_a.gif (166 bytes)