Oportunitats per a l'enginyeria lingüística
                                                                                                               



1. Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la informació |
 3. Índex i cerca | 4. Classificar i navegar | 5. Extracció de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

3. Índex i cerca 

Tothom coneix si fa no fa la primera generació de motors de cerca a Internet, com ara Yahoo (http://www.yahoo.com/) i Alta Vista (http://www.altavista.com/). Aquests motors indexen parts d'Internet i hi proporcionen accés mitjançant la cerca a través d'una paraula clau. L'objectiu d'aquests motors és cobrir la Xarxa i la realitat. Intenten donar accés a tantes pàgines web com poden i alhora miren d'actualitzar aquests enllaços amb regularitat. 

És important de veure el que indexen realment i com associen les paraules als índexs. En la major part dels casos, els títols del web i les pàgines de l'índex s'utilitzen per muntar l'índex, cosa que no permet un accés directe al contingut de les pàgines web o a d'altres pàgines i lògicament tampoc no el permet a les que estan enllaçades a aquestes pàgines. A més, indexen cadenes i no tenen en compte la flexió, la funció gramatical ni l'estructura sintàctica. Per constatar les limitacions d'aquests motors de cerca, farem una ullada als exemples de consulta següents: 

poisonous medication;  poisonous medicine; poisonous medicines;toxic medication; toxicmedicines; medicine for toxication; medicines for toxication;medicines against poisoning; medication for toxication; Help my kids took poison, show me medication?  medicamento tóxico; medicamento intoxicación;medicina ponzoñoso; fármaco tóxico; 

D'aquestes consultes, en podem extreure els punts següents: 

  1. Inclouen les formes del plural i del singular.
  2. Inclouen consultes similars amb sinònims diferents.
  3. Inclouen dues variants composicionals: una en què els medicaments són tòxics (1-5) i una altra en què es busca un medicament contra la intoxicació (6-9).
  4. La consulta es pot fer en diferents llengües.

 A partir d'un motor de cerca, caldria esperar el resultat següent

  1. No té en compte les variants flexives (p. ex., plural i singular) i dóna els mateixos resultats.
  2. No té en compte l'ús dels sinònims i dóna els mateixos resultats.
  3. Té en compte les diferències composicionals i mostra documents diferents per a cada interpretació.
  4. Pot trobar la informació sense tenir en compte la llengua de la consulta.

Si observem els motors de cerca que hi ha a la Xarxa, comprovarem que cap funciona així. He inclòs una llista de resultats de cerca més avall perquè es puguin comparar els resultats. També es pot anar directament als llocs web i fer-lo directament des d'allà: s'hi pot comprovar aleshores que l'ús del singular o del plural, o d'un sinònim, dóna lloc a resultats molt diferents. Cap no és igual als altres. La indexació es basa en cadenes, i no hi té lloc cap normalització, tematització, anàlisi de compostos o anàlisi de derivats. A més, el significat composicional exacte no es té en compte en absolut, i casualment la mateixa paraula apareix com a ítem de l'índex per als mateixos documents, tot i que no sempre és aquest el cas. La relació entre els ítems no es té en compte en absolut: 

WebSamples\Yahoo!_toxic_medication.htm
WebSamples\Yahoo!_poisonous_medicines.htm
WebSamples\Yahoo!_poisonous_medicine.htm
WebSamples\Yahoo!_poisonous_medication.htm
WebSamples\Yahoo!_medicine_for_toxication.htm
WebSamples\Yahoo!_medication_for_toxication.htm
WebSamples\Yahoo!_medication_against_poisoning.htm
WebSamples\AltaVista_toxic_medication.htm
WebSamples\AltaVista_poisonous_medicines.htm
WebSamples\AltaVista_poisonous_medicine.htm
WebSamples\AltaVista_medicine_for_toxication.htm
WebSamples\AltaVista_medicines_for_toxication.htm
WebSamples\AltaVista_medicines_against_poisoning.htm
WebSamples\AltaVista_medication_for_toxication.htm

És clar que, com que la indexació està basada en cadenes, una consulta en espanyol donarà documents en espanyol. Però, llevat que les paraules s'escriguin de la mateixa manera tant en anglès com en espanyol, no es poden obtenir documents en anglès amb una consulta en espanyol: 

WebSamples\AltaVista_medicamento_tóxico.htm
WebSamples\AltaVista_fármaco_tóxico.htm
WebSamples\AltaVista_medicina_ponzoñoso.htm

Hi ha altres motors de cerca que intenten ser una mica més precisos pel que fa a la interpretació de la consulta. Més avall hi ha els resultats que, a partir de les mateixes consultes, es van obtenir d'Oingo i de Google. Oingo mira de presentar categories d'informació, però alhora ofereix l'opció de fer una cerca més estreta del significat dels termes consultats. Els significats provenen de la base de dades Wordnet (http://www.cogsci.princeton.edu/~wn/w3wn.html/), una xarxa semanticolèxica de lliure accés. Conté un fons de conceptes amb relacions semàntiques entre si, a més de les associacions de paraules angleses a aquests conceptes. Els sinònims s'associen als mateixos conceptes i formen els anomenats synset (synonymy set). A Wordnet, medicine i medication són sinònims del mateix concepte, igual com poisonous i toxic. Podríem pensar aleshores que una expansió de les paraules consultades fins als sinònims corresponents implicaria un mateix resultat sense tenir en compte les paraules originals utilitzades en la consulta. 

A la interfície d'Oingo s'han de seleccionar els significats de les paraules consultades manualment. Una vegada s'ha seleccionat el significat, Oingo pot trobar documents en els quals apareix la paraula consultada o un sinònim (per exemple, toxic en lloc de poisonous). Tal com podem comprovar en les pàgines obtingudes, els resultats no són tan espectaculars com es podia preveure. Les llistes resultants encara són molt diferents quan fem servir sinònims en les consultes:

WebSamples\Oingo_toxic_medicine.htm
WebSamples\Oingo_toxic_medication.htm
WebSamples\Oingo_poisonous_medicine.htm
WebSamples\Oingo_poisonous_medication.htm
WebSamples\Oingo_medicine_for_toxication.htm
WebSamples\Oingo_medicines_for_toxication.htm
WebSamples\Oingo_medication_for_toxication.htm
WebSamples\Oingo_medication_against_poisoning.htm

Pel que sembla, l'expansió als sinònims no resulta útil en tots els casos. Segons Voorhees (1999), l'expansió de sinònims amb Wordnet pot tenir fins i tot un efecte negatiu sobre els resultats, sobretot si no se seleccionen els significats. No obstant això pot ser de gran ajuda, tal com es pot comprovar als exemples següents.

Hi ha una diferència essencial entre no seleccionar cap significat per a organ o seleccionar-ne un amb relació a musical ('òrgan musical') o a body part ('part del cos'):

WebSamples\Oingo_organs.htm
WebSamples\Oingo_musical_organs.htm
WebSamples\Oingo_body_organs.htm
 

És una llàstima que s'hagin de seleccionar els significats a mà. No hi ha cap possible desambiguació, i no té gaire sentit desenvolupar un sistema de desambiguació d'aquestes característiques al lloc de consulta, ja que moltes consultes contenen una o dues paraules. Les consultes d'una o dues paraules no proporcionen context suficient per arribar a desambiguar.

Google no té en compte els significats diversos. En comptes d'això, llança una metacerca a diferents motors i hi aplica l'anàlisi del document per trobar els termes de consulta que són molt propers entre si. Igualment, mostra els fragments de text en què coapareixen les paraules; com que la memòria és immensa, encara pot generar molts més resultats.

WebSamples\Google_toxic_medicine.htm
WebSamples\Google_toxic_medication.htm
WebSamples\Google_poisonous_medicine.htm
WebSamples\Google_poisonous_medication.htm
WebSamples\Google_medicine_for_toxication.htm
WebSamples\Google_medicines_for_toxication.htm
WebSamples\Google_medication_for_toxication.htm
WebSamples\Google_medication_against_poisoning.htm

Tal com es pot comprovar, la limitació que suposa el fet que totes dues paraules han de coaparèixer pot conduir a un bon resultat. Sembla que no sempre cal seleccionar un significat concret. Així, Google explota l'alt grau de redundància que caracteritza la informació a Internet: aquesta s'emmagatzema diferents vegades i es formula en molts idiomes i de maneres molt diverses. El canvi que suposa l'emmagatzematge de la informació un sol cop en les mateixes paraules que les de la consulta és molt important. Més que escampar la consulta expandint-la en sinònims o altres expressions, sembla doncs més pràctic restringir-la a les coincidències literals solament. Òbviament, les coses canvien quan l'extracció s'aplica a petits grups de documents o intranets. En aquest cas, la informació pot ser expressada només un cop i en un sol document; aleshores l'expansió de la consulta resulta essencial per garantir-ne la recuperació. 

Tant Google com Oingo intenten donar la impressió de precisió, però encara no posen gaire esment en el sistema de consultes. Així, no tenen en compte la variació fraseològica ni les relacions entre els termes de la consulta, amb la qual cosa resulta impossible tractar les diferències composicionals en el significat. Això no ens ha de sorprendre si ens adonem de les conseqüències d'una tal anàlisi. No només cal conèixer el llenguatge de cada document, sinó que també cal trobar el començament i el final de les frases (tokenització), analitzar gramaticalment les oracions per extreure'n les paraules lematitzades i les estructures composicionals, analitzar els compostos i derivats, detectar les expressions multiparaula, descobrir relacions entre oracions creuades, determinar els significats de les paraules o les expressions, i d'altres. Tot això s'ha de fer per a cada llengua de treball. Els motors de cerca esmentats intenten abastar enormes parts d'Internet i necessiten actualitzar els seus índexs constantment. Una anàlisi lingüística dels documents i les consultes a aquesta escala demanaria un temps de processament enorme.  

També hi ha proveïdors d'informació que procuren facilitar respostes més concretes. AskJeeves ha generat una expectació inusitada amb la il·lusió que podrien manegar vertaderes preguntes en llenguatge natural. Per desgràcia, val a dir que, a aquesta fita, no s'hi arriba a través de l'anàlisi i la comprensió de la pregunta, sinó a través d'una simple cerca de la pregunta en una base de dades on hi ha llistades totes les preguntes amb la resposta. Aquestes preguntes i respostes s'introdueixen manualment a la base de dades. Els resultats de la consulta que hem vist més amunt no són massa espectaculars, però segons com podem quedar-nos-en amb una bona impressió, tal com podem veure amb l'exemple help1 de més avall. La consulta “Help my kids took poison, show me medication?” té com a resultat, en realitat, la reformulació:  What should I do if my child ?. ['Què hauria de fer si el meu fill s'empassés verí?']

WebSamples\AskJeeves_toxic_medicine.htm
WebSamples\AskJeeves_toxic_medication.htm
WebSamples\AskJeeves_poisonous_medication.htm
WebSamples\AskJeeves_medication_for_toxication.htm
WebSamples\AskJeeves _help1.htm
WebSamples\AskJeeves_help2.htm 

No cal dir que aquest punt de vista és limitat. El nombre de preguntes i respostes és infinit i la informació emmagatzemada és difícil de mantenir i de controlar per als humans sense una ajuda addicional. Tan sols és qüestió de sort, el fet que el crit d'auxili coincideixi amb una pregunta prèviament emmagatzemada i que cobreixi el mateix contingut. Tal com es pot comprovar a help2, no sempre tindrem aquesta sort. 

Resulta evident que tots els sistemes principals mostren una presència deficitària de l'enginyeria lingüística i que cap no té un caràcter "d'encreuament entre llengües" (cross-linguistic), és a dir, que pugui fer coincidir una consulta en espanyol amb documents en anglès. Ara per ara hi ha sistemes comercials que s'esforcen per millorar la tecnologia de cerca amb tècniques lingüístiques aplicades a molts idiomes i entre molts idiomes (Irion, Sail Labs, Textwise, Lexiquest). La major part d'aquestes solucions encara estan en fase de desenvolupament amb vista a petites intranets i dominis específics. La seva intenció és aconseguir una precisió més gran, o, en altres paraules, assolir l'objectiu que la resposta sigui entre els 10 primers resultats i que, si és possible, l'oració amb la resposta estigui subratllada al document. Aquests sistemes de recuperació de nova generació també maneguen diferents formes flexives i en alguns casos resolen compostos i expressions multiparaula. A més, el fet que s'apliquen sovint a grups de documents petits i homogenis dóna com a resultat una menor ambigüitat de significat. Per exemple, si els documents tracten de música, aleshores no cal desambiguar la consulta de organ. La paraula només pot coincidir amb un significat de l'índex. Així, la recuperació d'alta precisió transmet la sensació de comprensió, però cal dir que en realitat aquests sistemes no entenen tampoc la pregunta. A part això, les diferències composicionals als exemples de consulta anteriors encara no es poden detectar. A http://dis.tpd.tno.nl/21demomooi/ es pot comprovar el funcionament en directe d'un sistema de demostració que consisteix en una cerca multilingüe per a un grup concret de documents (sobre medi ambient a Europa). El sistema de recuperació TwentyOne, creat per TNO, preveu també les coincidències aproximades (fuzzy-matching), la qual cosa vol dir que els errors ortogràfics, els derivats i els compostos de la consulta poden coincidir amb els termes de l'índex. Per comparar, també es pot fer una ullada a Autonomy, els quals volen donar la imatge bastant explícita que són independents de les llengües i que no utilitzen l'enginyeria lingüística, mentre desenvolupen solucions per petites intranets i portals.  

La recuperació interlingüística (cross-lingual) és factible normalment a través de diccionaris bilingües o d'una xarxa semàntica multilingüe. El projecte EuroWordNet va crear una xarxa d'aquest tipus per a 8 llengües: anglès, espanyol, italià, neerlandès, francès, alemany, txec i estonià, i s'hi afegeixen de tant en tant d'altres idiomes. En el model d'EuroWordNet, els sinònims no només hi estan relacionats amb conceptes en cada idioma sinó també entre els idiomes via l'Índex Interlingual. Amb aquesta base de dades multilingüe wordnet, es pot aplicar una expansió a sinònims dins un mateix idioma (de medicine a medication) però també entre idiomes diferents (de medicine a medicamento i medicina). Les mateixes empreses treballen en aquests moments en la creació de recursos similars, i fins i tot els fan servir.    

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)