Oportunitats per a l'enginyeria lingstica
                                                                                                               



1. Introducci | 2. Etapes d'anlisi, d'emmagatzematge i d'accs a la informaci |
 3. ndex i cerca | 4. Classificar i navegar | 5. Extracci de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

2. Etapes d'anlisi, emmagatzematge i d'accs a la informaci

La manera ms senzilla d'accedir a Internet s el WWW mateix, teclejant directament una adrea o seguint un enlla, el qual et porta tamb a l'adrea que indica. Per Internet noms dna accs a informaci, no l'assimila ni prova d'entendre-la. Aix fa que la gent encara hagi de llegir-la (si s en format text) per comprovar-ne la rellevncia. Com que Internet s tan gran, hi ha canvis constantment i els enllaos fan que et perdis de seguida, amb la qual cosa la gent que noms navega es desesperen fcilment per trobar el que volen (llevat que spiguen on s). 

D'alguna manera, els sistemes informtics poden ajudar els usuaris d'Internet assimilant part de la informaci i proporcionant accs a aquesta informaci prviament digerida. S'hi poden aplicar diferents nivells d'anlisi, que donen lloc a diferents representacions de la informaci i que, en conseqncia, proporcionen maneres distintes d'accedir-hi i d'explotar-la. A la Figura 1 es pot observar una representaci esquemtica d'aquestes solucions. Al costat esquerre hi ha un grup de documents HTML que representen la informaci a Internet. L'usuari pot accedir directament, a travs d'un navegador, als documents individuals, un per un. A banda els HTML, hi ha per descomptat molts altres documents de text representats per DOC, PS o PDF i que no sn accessibles amb un navegador. Baixant podem veure diferents maneres de compilar la mateixa informaci i de donar accs de manera alternativa. Cap a la dreta trobem una primera fase d'anlisi que deriva en una representaci d'informaci compilada, situada al mig. Apilats els uns a sobre dels altres, trobem diferents nivells de sofisticaci de la informaci compilada (ndexs, jerarquies, fets i coneixement), que provenen de diversos processos d'anlisi (indexaci, classificaci, extracci de dades i aprenentatge). Al costat dret observem que les vies d'accs a la informaci depenen de la sofisticaci de l'anlisi.  

Etapes d'anlisi

Els ndexs sn accessibles a travs de la recuperaci de paraules o motors de cerca. Teclejant unes paraules clau es poden obtenir els documents o pgines HTML que ms coincideixen amb aquestes paraules clau. El resultat s, doncs, una llista jerrquica de documents o URL. Hi ha diferents maneres de muntar aquests ndexs o d'analitzar les paraules clau, de combinar-les i expandir-les, i les tcniques lingstiques es poden integrar fcilment amb la tecnologia elemental del motor de cerca. Aix es pot fer a una escala bsica millorant l'anlisi de la indexaci i de la consulta, per tamb com un afegit en forma de summarizers, a ms de millorar el reconeixement de llenguatges, el suport de diversos llenguatges, associant les consultes amb documents en altres llenges... 

Un ndex es pot considerar com una simple llista de termes normalitzats, un tipus de llista que pot significar el punt de partida per al desenvolupament d'una jerarquia o un arbre. Una jerarquia s una mena de classificaci de dades o de documents per on es pot navegar com si fos un arbre, anant dels conceptes o les classes ms generals als ms especfics (per exemple, d'Sports a Ball Sports o Water Sports). A cada node de l'arbre hi podem trobar un grup de documents que estan relacionats amb el concepte. Hi ha diferents tipus de jerarquies, tal com veurem ms endavant: tesaurus, taxonomia, ontologia. Podrem dir que un tesaurus es pot considerar com un ram ms global de paraules, documents o objectes pertanyents a alguna categoria (l'anomenada faceta). En canvi, les taxonomies i les ontologies sn jerarquies de tots els objectes possibles i les seves propietats, definides ms estrictament. L'enginyeria lingstica resulta til per associar paraules i expressions a conceptes de l'ontologia, s a dir, trobar el significat correcte de les paraules a ms de minimalitzar l'ontologia i relacionar automticament els documents o termes als nodes de l'ontologia. Les ontologies i les classificacions ja sn presents a Internet de moltes maneres, sobretot com a recursos esttics (per exemple, les classificacions o els catlegs de productes de Yahoo). 

Una ontologia sempre captura relacions genriques entre conceptes o classes, per no captura fets especfics sobre exemples d'aquests conceptes. Una ontologia pot consignar que una empresa t empleats, per un fet consignar que una empresa concreta t unes persones concretes com a empleats. Tot i que una ontologia pot ajudar en l'extracci de fets (defineix tots els fets possibles), no estipula quin s el cas en un cert moment del temps. Les ontologies sn ms persistents a travs del temps (per exemple, un estat pot tenir president), mentre que els fets es concentren en un moment del temps determinat (Clinton s el president dels EUA). Tant els fets com les ontologies es poden extreure de dades textuals, per el procs d'extracci s molt diferent per cadascun. Les relacions ontolgiques poden ser el resultat de l'anlisi de grans quantitats de dades, en qu es poden descobrir alguns models freqents, mentre que un fet es pot expressar noms un cop, i fins i tot en aquest cas pot no ser cert o antiquat.  

El que hi ha de positiu als fets s que pots emmagatzemar-los en una base de dades relacional. Una base de dades relacional s accessible mitjanant consultes SQL. Una consulta SQL consisteix en un comandament i unes referncies a tems en taules, per exemple EXPOSICI+PRODUCTE(AUTOMBIL)+TIPUS(ASTROL)+T(COIX DE SEGURETAT). Una consulta SQL resulta complexa de formular i s aleshores que sembla escaient desenvolupar mduls de Llenguatge Natural cap a SLQ que associn consultes com ara T (vost) una FURGONETA Astrol amb coixins de seguretat?, amb consultes SQL. Les preguntes complexes es poden subdividir en d'altres de ms senzilles, cosa que fa possible generar dilegs planers en els quals pots consignar en primer lloc el que t'interessi i desprs especificar altres propietats i caracterstiques. El comer electrnic empeny amb fora la representaci de fets i les maneres en qu s'hi pot accedir. Es tracta d'un petit pas des del catleg de producte a la base de dades relacional. El comer electrnic s una aventura mundial: no hi ha limitacions fsiques perqu els possibles clients accedeixin a la teva zona. Aix requereix que es puguin gestionarr dilegs o preguntes en diversos idiomes. A ms, la qualitat del servei s ms important que en els negocis tradicionals, ja que la competncia tampoc no es veu limitada per fronteres fsiques. La facilitat d'accs i de comunicaci representen dues maneres bsiques de distingir un negoci de la resta; un aspecte que vertebrar el comer del futur i, en conseqncia, el desenvolupament de l'enginyeria lingstica. 

L'etapa final tracta les mateixes dades des d'una perspectiva diferent. En lloc d'interactuar directament amb els usuaris que volen accedir a la informaci, l'usuari pot tenir un ajudant que operi en lloc seu. Amb la tecnologia agent entrem en una nova dimensi de l'accs a la informaci: ara tenim un programari que intenta interpretar la informaci. Resulta obvi que aquest programari pot accedir exactament als mateixos ndexs, ontologies i fets que els humans (tot i que de manera ms consistent i en quantitats ms grans), per tamb cal dir que t molta menys capacitat per discernir qu s til del que no ho s. Els agents necessiten algun tipus d'intelligncia per poder prendre decisions. Aix, un agent o ajudant no noms t accs a fets sin que tamb ha d'adquirir coneixement. Per exemple, un usuari pot dir-li a l'ajudant que trobi el millor ordinador pel preu ms baix; l'agent ha de generar un pla per reunir el coneixement suficient sobre la matria i d'aquesta manera poder respondre la consulta amb el coneixement informtic requerit (o, fins i tot, pot arribar a adquirir l'ordinador si s prou fiable). Si tota la informaci s'emmagatzems en format compilat, a un agent no li caldria l'enginyeria lingstica per aprendre. Tanmateix, com que la majoria de la informaci est encara en format text, els agents necessiten ser capaos d'entendre tanta llengua com es requereixi. A ms, els humans encara han de poder comunicar-se amb els agents, per la qual cosa l'enginyeria lingstica hi ha de ser present al cap i a la fi.

Hi ha encara una altra tendncia que afectar l'accessibilitat de la informaci a Internet. i s que s'estan desenvolupant nous llenguatges d'etiquetatge, a banda d'HTML. L'XML (http://www.w3c.org/XML/) s un format ms explcit que l'HTML. No noms proporciona una representaci comuna per a la composici dels documents, sin que tamb ho fa amb relaci al contingut. L'RDF (www.w3.org/RDF/), l'OIL (http://www.ontoknowledge.org/oil/) i el DAML (http://www.daml.org/) encara van ms lluny per definir formalment el contingut mateix. L'RDF (Resource Description Format) integra diverses activitats de l'mbit de les metadades al web, que inclouen mapes de llocs web, valoraci de continguts, definicions stream channel, recopilaci de dades amb motor de cerca (examinaci de la Xarxa), grups de biblioteques digitals i creaci distribuda. L'RDF utilitza l'XML com a sintaxi d'intercanvi. L'OIL (Ontology Interchange Language) intenta combinar els models se la Xarxa amb representacions d'Estructura i Lgica de Descripci en enfocaments ontolgics. L'OIL far possible treure conclusions sobre el contingut representat en aquest llenguatge. El DAML (Darpa Agent Markup Language) s un formalisme adreat a ajudar els agents de programari a interactuar entre ells. El llenguatge DAML tamb s una extensi de l'XML i l'RDF.  

Cada un d'aquests estndards s necessari per explotar la informaci i els recursos als seus respectius nivells d'anlisi. En part, aix convertir en obsolet l'esquema de difusi de la informaci que hem vist ms amunt, per al mateix temps demanar eines que associn automticament text o parla amb aquestes representacions. En realitat, els formats en si no restitueixen el text a la fase d'anlisi de la informaci, sin que es poden considerar com a formalismes de representaci per a l'emmagatzematge de la informaci analitzada, tal com es pot comprovar al centre de la Figura 1. Aix, afectaran sens dubte les diferents maneres d'accedir a aquest coneixement i faran ms fcil desenvolupar programari per accedir a la informaci compilada, ja que els desenvolupadors poden anticipar el format com en qu es representar. 

No continuar analitzant els desenvolupaments d'aquests sistemes d'etiquetatge. Tampoc no entrar a parlar de panorames futuristes, en els quals trobem agents que fan prospeccions a la Xarxa per trobar coneixement i que formen comunitats per solucionar els problemes. En els apartats segents, em centrar sobretot en els sistemes d'indexaci i cerca, de classificaci i navegaci i finalment de preguntes i respostes. Per a cada un, far un cop d'ull a les prctiques habituals avui en dia i n'analitzar alguns exemples. De ms a ms, mirar d'apuntar les oportunitats que ofereix l'enginyeria lingstica integral (build-in language technology) i com millorar aquests sistemes.  

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)