Oportunitats per a l'enginyeria lingstica
                                                                                                               

 

Oportunitats per a l'enginyeria lingstica

Piek Vossen
Director tcnic en cap d'Irion Technologies

Piek.Vossen@hum.uva.nl 



1. Introducci | 2. Etapes d'anlisi, d'emmagatzematge i d'accs a la informaci |
 3. ndex i cerca | 4. Classificar i navegar | 5. Extracci de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

Introducci 

Fa deu anys no existia el terme enginyeria lingstica, i fins i tot avui en dia s un concepte completament nou per molta gent. Ben aviat, per, tothom en tindr ms que una mera idea: en un futur proper, la major part de la nostra tecnologia es manejar a travs de l'enginyeria lingstica i fins i tot s'hi basar. Igual com el control remot i el ratol sn conceptes bsics per a nosaltres, tamb ho seran els aparells de tractament de la parla i els assistents intelligents de lectura pacient. La meva filla petita amagava el control remot per fer-se l'ama del televisor; la seva filla haur d'ordir un pla diferent, ja que els nous aparells noms faran cas de la seva veu, i en unes hores del dia limitades. 

Aquesta diguem-ne apologia de l'enginyeria lingstica, deu anys abans, hauria provocat escepticisme, mofa i incredulitat. Que potser es tracta d'un altre intent desesperat d'atreure subvencions vers un projecte (sense sortida) per desenvolupar sistemes de comprensi del llenguatge?

Als anys vuitanta, molts inversors i poltics es van haver de refer desprs d'encetar projectes de traducci assistida a llarg termini, l'objectiu dels quals era traduir un grup d'oracions en un grapat de llenges diferents. Eren temps en qu els lingistes computacionals participaven tant en exercicis acadmics com en formalismes sobre models lingstics o teories sobre ordinadors, i amb prou feines es podia parlar d'un s prctic aplicable a aquests models, i ni tan sols de resultats indirectes. Amb el temps es van comenar a desenvolupar algunes aplicacions, com ara els correctors ortogrfics i les eines automtiques d'indexaci i de resum, per la majoria no implicaven cap enginyeria lingstica. Molts pensaven (i encara ho fan) que el llenguatge hum s massa confs i complex, illgic, vague, ambigu i implcit per poder ser capturat dins un model. 

Qu ha canviat des d'aleshores? Sens dubte, tot excepte les llenges. En aquests deu anys hem assistit a una revoluci silenciosa, una revoluci resultant d'una altra de molt ms sorollosa: Internet. A travs d'Internet, els ordinadors poden accedir a una quantitat de text cada cop ms gran en qualsevol idioma imaginable, i s amb Internet que els enginyers lingstics, de sobte, han tingut accs a una quantitat mai vista de dades empriques. Abans que aparegus Internet, els lingistes esmeraven anys de recerca per elaborar corpus lingstics d'una mida mitjana, s a dir, textos seleccionats i tractats amb cura per tal de donar resposta a unes necessitats lingstiques concretes. Ara tenen a la seva disposici, a Internet, textos d'envergadura molt diversa, no noms en angls, sin en la majoria d'idiomes del mn. 

Tanmateix, no sn  noms les dades les que estableixen diferncies: Internet s tot comunicaci i informaci. No s un mer provedor de ms i ms dades, Internet, sin que tamb implica una vertadera necessitat d'informaci. Per dir-ho ms clarament, hi ha una necessitat creixent de digerir quantitats immenses d'informaci, la major part emmagatzemada en format text. Si no pots trobar la informaci rellevant a Internet, alg altre ho far. Per alguns s ms que una necessitat: s un problema d'informaci. 

De sobte sorgeix un mercat i una massa crtica de dades, i tothom pot jugar-hi i desenvolupar solucions. Les solucions, de fet, s'estan desenvolupant i gaireb a diari en trobem una de nova. Moltes sn dolentes i la majoria amb prou feines recorren a l'enginyeria lingstica, per l'important s que permeten la creaci d'un mercat amb unes bases que es poden aprofitar per desenvolupar altres aplicacions que utilitzen l'enginyeria lingstica per mostrar el seu s. Un programa de recopilaci estadstica (summarizer) selecciona frases a partir de la freqncia amb qu apareixen les paraules, cosa que proporciona una qualitat suficient segons el cas. Per tant, no seria gaire difcil afegir-hi anlisis lingstiques i millorar-ne el resultat, per exemple comptant les paraules lematitzades.  

En aquest article espero poder explicar les oportunitats que ofereix l'enginyeria lingstica per desenvolupar productes d'alta qualitat aplicables a la societat de la informaci. Aix, en l'apartat segent vull proposar un model general que serveixi per tractar les diferents etapes de l'anlisi, l'emmagatzematge i l'accs a la informaci. En els apartats posteriors analitzar cada una d'aquestes etapes: hi far referncia als sistemes principals i ms utilitzats avui en dia, a solucions rpides i econmiques que s'avancen a la necessitat humana de tractar la informaci o el coneixement d'una manera ms convenient i, en la mesura que sigui possible, a sistemes d'enginyeria lingstica caracteritzats per un bon disseny i que es poden fer servir o desenvolupar per millorar i respondre a les expectatives. No es tracta d'una llista exhaustiva de totes les possibilitats i solucions, ni est completament actualitzada ni pretn estar-ho. La tecnologia es desenvolupa rpidament i qualsevol intent per cobrir un camp determinat ja s directament obsolet a l'hora de publicar-lo. En comptes de tot aix, per, voldria ser capa d'oferir una perspectiva sobre els principals desenvolupaments actuals, i intentar encomanar al lector l'inters pel present i el futur de l'enginyeria lingstica.

dre_a.gif (166 bytes)