Oportunitats per a l'enginyeria lingüística
                                                                                                               



1. Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la informació |
 3. Índex i cerca | 4. Classificar i navegar | 5. Extracció de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

2. Etapes d'anàlisi, emmagatzematge i d'accés a la informació

La manera més senzilla d'accedir a Internet és el WWW mateix, teclejant directament una adreça o seguint un enllaç, el qual et porta també a l'adreça que indica. Però Internet només dóna accés a informació, no l'assimila ni prova d'entendre-la. Això fa que la gent encara hagi de llegir-la (si és en format text) per comprovar-ne la rellevància. Com que Internet és tan gran, hi ha canvis constantment i els enllaços fan que et perdis de seguida, amb la qual cosa la gent que només navega es desesperen fàcilment per trobar el que volen (llevat que sàpiguen on és). 

D'alguna manera, els sistemes informàtics poden ajudar els usuaris d'Internet assimilant part de la informació i proporcionant accés a aquesta informació prèviament digerida. S'hi poden aplicar diferents nivells d'anàlisi, que donen lloc a diferents representacions de la informació i que, en conseqüència, proporcionen maneres distintes d'accedir-hi i d'explotar-la. A la Figura 1 es pot observar una representació esquemàtica d'aquestes solucions. Al costat esquerre hi ha un grup de documents HTML que representen la informació a Internet. L'usuari pot accedir directament, a través d'un navegador, als documents individuals, un per un. A banda els HTML, hi ha per descomptat molts altres documents de text representats per DOC, PS o PDF i que no són accessibles amb un navegador. Baixant podem veure diferents maneres de compilar la mateixa informació i de donar accés de manera alternativa. Cap a la dreta trobem una primera fase d'anàlisi que deriva en una representació d'informació compilada, situada al mig. Apilats els uns a sobre dels altres, trobem diferents nivells de sofisticació de la informació compilada (índexs, jerarquies, fets i coneixement), que provenen de diversos processos d'anàlisi (indexació, classificació, extracció de dades i aprenentatge). Al costat dret observem que les vies d'accés a la informació depenen de la sofisticació de l'anàlisi.  

Etapes d'anàlisi

Els índexs són accessibles a través de la recuperació de paraules o motors de cerca. Teclejant unes paraules clau es poden obtenir els documents o pàgines HTML que més coincideixen amb aquestes paraules clau. El resultat és, doncs, una llista jeràrquica de documents o URL. Hi ha diferents maneres de muntar aquests índexs o d'analitzar les paraules clau, de combinar-les i expandir-les, i les tècniques lingüístiques es poden integrar fàcilment amb la tecnologia elemental del motor de cerca. Això es pot fer a una escala bàsica millorant l'anàlisi de la indexació i de la consulta, però també com un afegit en forma de summarizers, a més de millorar el reconeixement de llenguatges, el suport de diversos llenguatges, associant les consultes amb documents en altres llengües... 

Un índex es pot considerar com una simple llista de termes normalitzats, un tipus de llista que pot significar el punt de partida per al desenvolupament d'una jerarquia o un arbre. Una jerarquia és una mena de classificació de dades o de documents per on es pot navegar com si fos un arbre, anant dels conceptes o les classes més generals als més específics (per exemple, d'Sports a Ball Sports o Water Sports). A cada node de l'arbre hi podem trobar un grup de documents que estan relacionats amb el concepte. Hi ha diferents tipus de jerarquies, tal com veurem més endavant: tesaurus, taxonomia, ontologia. Podríem dir que un tesaurus es pot considerar com un raïm més global de paraules, documents o objectes pertanyents a alguna categoria (l'anomenada faceta). En canvi, les taxonomies i les ontologies són jerarquies de tots els objectes possibles i les seves propietats, definides més estrictament. L'enginyeria lingüística resulta útil per associar paraules i expressions a conceptes de l'ontologia, és a dir, trobar el significat correcte de les paraules a més de minimalitzar l'ontologia i relacionar automàticament els documents o termes als nodes de l'ontologia. Les ontologies i les classificacions ja són presents a Internet de moltes maneres, sobretot com a recursos estàtics (per exemple, les classificacions o els catàlegs de productes de Yahoo). 

Una ontologia sempre captura relacions genèriques entre conceptes o classes, però no captura fets específics sobre exemples d'aquests conceptes. Una ontologia pot consignar que una empresaempleats, però un fet consignarà que una empresa concreta té unes persones concretes com a empleats. Tot i que una ontologia pot ajudar en l'extracció de fets (defineix tots els fets possibles), no estipula quin és el cas en un cert moment del temps. Les ontologies són més persistents a través del temps (per exemple, un estat pot tenir president), mentre que els fets es concentren en un moment del temps determinat (Clinton és el president dels EUA). Tant els fets com les ontologies es poden extreure de dades textuals, però el procés d'extracció és molt diferent per cadascun. Les relacions ontològiques poden ser el resultat de l'anàlisi de grans quantitats de dades, en què es poden descobrir alguns models freqüents, mentre que un fet es pot expressar només un cop, i fins i tot en aquest cas pot no ser cert o antiquat.  

El que hi ha de positiu als fets és que pots emmagatzemar-los en una base de dades relacional. Una base de dades relacional és accessible mitjançant consultes SQL. Una consulta SQL consisteix en un comandament i unes referències a ítems en taules, per exemple EXPOSICIÓ+PRODUCTE(AUTOMÒBIL)+TIPUS(ASTROL)+TÉ(COIXÍ DE SEGURETAT). Una consulta SQL resulta complexa de formular i és aleshores que sembla escaient desenvolupar mòduls de Llenguatge Natural cap a SLQ que associïn consultes com ara Té (vostè) una FURGONETA Astrol amb coixins de seguretat?, amb consultes SQL. Les preguntes complexes es poden subdividir en d'altres de més senzilles, cosa que fa possible generar diàlegs planers en els quals pots consignar en primer lloc el que t'interessi i després especificar altres propietats i característiques. El comerç electrònic empeny amb força la representació de fets i les maneres en què s'hi pot accedir. Es tracta d'un petit pas des del catàleg de producte a la base de dades relacional. El comerç electrònic és una aventura mundial: no hi ha limitacions físiques perquè els possibles clients accedeixin a la teva zona. Això requereix que es puguin gestionarr diàlegs o preguntes en diversos idiomes. A més, la qualitat del servei és més important que en els negocis tradicionals, ja que la competència tampoc no es veu limitada per fronteres físiques. La facilitat d'accés i de comunicació representen dues maneres bàsiques de distingir un negoci de la resta; un aspecte que vertebrarà el comerç del futur i, en conseqüència, el desenvolupament de l'enginyeria lingüística. 

L'etapa final tracta les mateixes dades des d'una perspectiva diferent. En lloc d'interactuar directament amb els usuaris que volen accedir a la informació, l'usuari pot tenir un ajudant que operi en lloc seu. Amb la tecnologia agent entrem en una nova dimensió de l'accés a la informació: ara tenim un programari que intenta interpretar la informació. Resulta obvi que aquest programari pot accedir exactament als mateixos índexs, ontologies i fets que els humans (tot i que de manera més consistent i en quantitats més grans), però també cal dir que té molta menys capacitat per discernir què és útil del que no ho és. Els agents necessiten algun tipus d'intel·ligència per poder prendre decisions. Així, un agent o ajudant no només té accés a fets sinó que també ha d'adquirir coneixement. Per exemple, un usuari pot dir-li a l'ajudant que trobi el millor ordinador pel preu més baix; l'agent ha de generar un pla per reunir el coneixement suficient sobre la matèria i d'aquesta manera poder respondre la consulta amb el coneixement informàtic requerit (o, fins i tot, pot arribar a adquirir l'ordinador si és prou fiable). Si tota la informació s'emmagatzemés en format compilat, a un agent no li caldria l'enginyeria lingüística per aprendre. Tanmateix, com que la majoria de la informació està encara en format text, els agents necessiten ser capaços d'entendre tanta llengua com es requereixi. A més, els humans encara han de poder comunicar-se amb els agents, per la qual cosa l'enginyeria lingüística hi ha de ser present al cap i a la fi.

Hi ha encara una altra tendència que afectarà l'accessibilitat de la informació a Internet. i és que s'estan desenvolupant nous llenguatges d'etiquetatge, a banda d'HTML. L'XML (http://www.w3c.org/XML/) és un format més explícit que l'HTML. No només proporciona una representació comuna per a la composició dels documents, sinó que també ho fa amb relació al contingut. L'RDF (www.w3.org/RDF/), l'OIL (http://www.ontoknowledge.org/oil/) i el DAML (http://www.daml.org/) encara van més lluny per definir formalment el contingut mateix. L'RDF (Resource Description Format) integra diverses activitats de l'àmbit de les metadades al web, que inclouen mapes de llocs web, valoració de continguts, definicions stream channel, recopilació de dades amb motor de cerca (examinació de la Xarxa), grups de biblioteques digitals i creació distribuïda. L'RDF utilitza l'XML com a sintaxi d'intercanvi. L'OIL (Ontology Interchange Language) intenta combinar els models se la Xarxa amb representacions d'Estructura i Lògica de Descripció en enfocaments ontològics. L'OIL farà possible treure conclusions sobre el contingut representat en aquest llenguatge. El DAML (Darpa Agent Markup Language) és un formalisme adreçat a ajudar els agents de programari a interactuar entre ells. El llenguatge DAML també és una extensió de l'XML i l'RDF.  

Cada un d'aquests estàndards és necessari per explotar la informació i els recursos als seus respectius nivells d'anàlisi. En part, això convertirà en obsolet l'esquema de difusió de la informació que hem vist més amunt, però al mateix temps demanarà eines que associïn automàticament text o parla amb aquestes representacions. En realitat, els formats en si no restitueixen el text a la fase d'anàlisi de la informació, sinó que es poden considerar com a formalismes de representació per a l'emmagatzematge de la informació analitzada, tal com es pot comprovar al centre de la Figura 1. Així, afectaran sens dubte les diferents maneres d'accedir a aquest coneixement i faran més fàcil desenvolupar programari per accedir a la informació compilada, ja que els desenvolupadors poden anticipar el format comú en què es representarà. 

No continuaré analitzant els desenvolupaments d'aquests sistemes d'etiquetatge. Tampoc no entraré a parlar de panorames futuristes, en els quals trobem agents que fan prospeccions a la Xarxa per trobar coneixement i que formen comunitats per solucionar els problemes. En els apartats següents, em centraré sobretot en els sistemes d'indexació i cerca, de classificació i navegació i finalment de preguntes i respostes. Per a cada un, faré un cop d'ull a les pràctiques habituals avui en dia i n'analitzaré alguns exemples. De més a més, miraré d'apuntar les oportunitats que ofereix l'enginyeria lingüística integral (build-in language technology) i com millorar aquests sistemes.  

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)