Oportunitats per a l'enginyeria lingstica
                                                                                                               



1. Introducci | 2. Etapes d'anlisi, d'emmagatzematge i d'accs a la informaci |
 3. ndex i cerca | 4. Classificar i navegar | 5. Extracci de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

3. ndex i cerca 

Tothom coneix si fa no fa la primera generaci de motors de cerca a Internet, com ara Yahoo (http://www.yahoo.com/) i Alta Vista (http://www.altavista.com/). Aquests motors indexen parts d'Internet i hi proporcionen accs mitjanant la cerca a travs d'una paraula clau. L'objectiu d'aquests motors s cobrir la Xarxa i la realitat. Intenten donar accs a tantes pgines web com poden i alhora miren d'actualitzar aquests enllaos amb regularitat. 

s important de veure el que indexen realment i com associen les paraules als ndexs. En la major part dels casos, els ttols del web i les pgines de l'ndex s'utilitzen per muntar l'ndex, cosa que no permet un accs directe al contingut de les pgines web o a d'altres pgines i lgicament tampoc no el permet a les que estan enllaades a aquestes pgines. A ms, indexen cadenes i no tenen en compte la flexi, la funci gramatical ni l'estructura sintctica. Per constatar les limitacions d'aquests motors de cerca, farem una ullada als exemples de consulta segents: 

poisonous medication;  poisonous medicine; poisonous medicines;toxic medication; toxicmedicines; medicine for toxication; medicines for toxication;medicines against poisoning; medication for toxication; Help my kids took poison, show me medication?  medicamento txico; medicamento intoxicacin;medicina ponzooso; frmaco txico; 

D'aquestes consultes, en podem extreure els punts segents: 

  1. Inclouen les formes del plural i del singular.
  2. Inclouen consultes similars amb sinnims diferents.
  3. Inclouen dues variants composicionals: una en qu els medicaments sn txics (1-5) i una altra en qu es busca un medicament contra la intoxicaci (6-9).
  4. La consulta es pot fer en diferents llenges.

 A partir d'un motor de cerca, caldria esperar el resultat segent

  1. No t en compte les variants flexives (p. ex., plural i singular) i dna els mateixos resultats.
  2. No t en compte l's dels sinnims i dna els mateixos resultats.
  3. T en compte les diferncies composicionals i mostra documents diferents per a cada interpretaci.
  4. Pot trobar la informaci sense tenir en compte la llengua de la consulta.

Si observem els motors de cerca que hi ha a la Xarxa, comprovarem que cap funciona aix. He incls una llista de resultats de cerca ms avall perqu es puguin comparar els resultats. Tamb es pot anar directament als llocs web i fer-lo directament des d'all: s'hi pot comprovar aleshores que l's del singular o del plural, o d'un sinnim, dna lloc a resultats molt diferents. Cap no s igual als altres. La indexaci es basa en cadenes, i no hi t lloc cap normalitzaci, tematitzaci, anlisi de compostos o anlisi de derivats. A ms, el significat composicional exacte no es t en compte en absolut, i casualment la mateixa paraula apareix com a tem de l'ndex per als mateixos documents, tot i que no sempre s aquest el cas. La relaci entre els tems no es t en compte en absolut: 

WebSamples\Yahoo!_toxic_medication.htm
WebSamples\Yahoo!_poisonous_medicines.htm
WebSamples\Yahoo!_poisonous_medicine.htm
WebSamples\Yahoo!_poisonous_medication.htm
WebSamples\Yahoo!_medicine_for_toxication.htm
WebSamples\Yahoo!_medication_for_toxication.htm
WebSamples\Yahoo!_medication_against_poisoning.htm
WebSamples\AltaVista_toxic_medication.htm
WebSamples\AltaVista_poisonous_medicines.htm
WebSamples\AltaVista_poisonous_medicine.htm
WebSamples\AltaVista_medicine_for_toxication.htm
WebSamples\AltaVista_medicines_for_toxication.htm
WebSamples\AltaVista_medicines_against_poisoning.htm
WebSamples\AltaVista_medication_for_toxication.htm

s clar que, com que la indexaci est basada en cadenes, una consulta en espanyol donar documents en espanyol. Per, llevat que les paraules s'escriguin de la mateixa manera tant en angls com en espanyol, no es poden obtenir documents en angls amb una consulta en espanyol: 

WebSamples\AltaVista_medicamento_txico.htm
WebSamples\AltaVista_frmaco_txico.htm
WebSamples\AltaVista_medicina_ponzooso.htm

Hi ha altres motors de cerca que intenten ser una mica ms precisos pel que fa a la interpretaci de la consulta. Ms avall hi ha els resultats que, a partir de les mateixes consultes, es van obtenir d'Oingo i de Google. Oingo mira de presentar categories d'informaci, per alhora ofereix l'opci de fer una cerca ms estreta del significat dels termes consultats. Els significats provenen de la base de dades Wordnet (http://www.cogsci.princeton.edu/~wn/w3wn.html/), una xarxa semanticolxica de lliure accs. Cont un fons de conceptes amb relacions semntiques entre si, a ms de les associacions de paraules angleses a aquests conceptes. Els sinnims s'associen als mateixos conceptes i formen els anomenats synset (synonymy set). A Wordnet, medicine i medication sn sinnims del mateix concepte, igual com poisonous i toxic. Podrem pensar aleshores que una expansi de les paraules consultades fins als sinnims corresponents implicaria un mateix resultat sense tenir en compte les paraules originals utilitzades en la consulta. 

A la interfcie d'Oingo s'han de seleccionar els significats de les paraules consultades manualment. Una vegada s'ha seleccionat el significat, Oingo pot trobar documents en els quals apareix la paraula consultada o un sinnim (per exemple, toxic en lloc de poisonous). Tal com podem comprovar en les pgines obtingudes, els resultats no sn tan espectaculars com es podia preveure. Les llistes resultants encara sn molt diferents quan fem servir sinnims en les consultes:

WebSamples\Oingo_toxic_medicine.htm
WebSamples\Oingo_toxic_medication.htm
WebSamples\Oingo_poisonous_medicine.htm
WebSamples\Oingo_poisonous_medication.htm
WebSamples\Oingo_medicine_for_toxication.htm
WebSamples\Oingo_medicines_for_toxication.htm
WebSamples\Oingo_medication_for_toxication.htm
WebSamples\Oingo_medication_against_poisoning.htm

Pel que sembla, l'expansi als sinnims no resulta til en tots els casos. Segons Voorhees (1999), l'expansi de sinnims amb Wordnet pot tenir fins i tot un efecte negatiu sobre els resultats, sobretot si no se seleccionen els significats. No obstant aix pot ser de gran ajuda, tal com es pot comprovar als exemples segents.

Hi ha una diferncia essencial entre no seleccionar cap significat per a organ o seleccionar-ne un amb relaci a musical ('rgan musical') o a body part ('part del cos'):

WebSamples\Oingo_organs.htm
WebSamples\Oingo_musical_organs.htm
WebSamples\Oingo_body_organs.htm
 

s una llstima que s'hagin de seleccionar els significats a m. No hi ha cap possible desambiguaci, i no t gaire sentit desenvolupar un sistema de desambiguaci d'aquestes caracterstiques al lloc de consulta, ja que moltes consultes contenen una o dues paraules. Les consultes d'una o dues paraules no proporcionen context suficient per arribar a desambiguar.

Google no t en compte els significats diversos. En comptes d'aix, llana una metacerca a diferents motors i hi aplica l'anlisi del document per trobar els termes de consulta que sn molt propers entre si. Igualment, mostra els fragments de text en qu coapareixen les paraules; com que la memria s immensa, encara pot generar molts ms resultats.

WebSamples\Google_toxic_medicine.htm
WebSamples\Google_toxic_medication.htm
WebSamples\Google_poisonous_medicine.htm
WebSamples\Google_poisonous_medication.htm
WebSamples\Google_medicine_for_toxication.htm
WebSamples\Google_medicines_for_toxication.htm
WebSamples\Google_medication_for_toxication.htm
WebSamples\Google_medication_against_poisoning.htm

Tal com es pot comprovar, la limitaci que suposa el fet que totes dues paraules han de coaparixer pot conduir a un bon resultat. Sembla que no sempre cal seleccionar un significat concret. Aix, Google explota l'alt grau de redundncia que caracteritza la informaci a Internet: aquesta s'emmagatzema diferents vegades i es formula en molts idiomes i de maneres molt diverses. El canvi que suposa l'emmagatzematge de la informaci un sol cop en les mateixes paraules que les de la consulta s molt important. Ms que escampar la consulta expandint-la en sinnims o altres expressions, sembla doncs ms prctic restringir-la a les coincidncies literals solament. bviament, les coses canvien quan l'extracci s'aplica a petits grups de documents o intranets. En aquest cas, la informaci pot ser expressada noms un cop i en un sol document; aleshores l'expansi de la consulta resulta essencial per garantir-ne la recuperaci. 

Tant Google com Oingo intenten donar la impressi de precisi, per encara no posen gaire esment en el sistema de consultes. Aix, no tenen en compte la variaci fraseolgica ni les relacions entre els termes de la consulta, amb la qual cosa resulta impossible tractar les diferncies composicionals en el significat. Aix no ens ha de sorprendre si ens adonem de les conseqncies d'una tal anlisi. No noms cal conixer el llenguatge de cada document, sin que tamb cal trobar el comenament i el final de les frases (tokenitzaci), analitzar gramaticalment les oracions per extreure'n les paraules lematitzades i les estructures composicionals, analitzar els compostos i derivats, detectar les expressions multiparaula, descobrir relacions entre oracions creuades, determinar els significats de les paraules o les expressions, i d'altres. Tot aix s'ha de fer per a cada llengua de treball. Els motors de cerca esmentats intenten abastar enormes parts d'Internet i necessiten actualitzar els seus ndexs constantment. Una anlisi lingstica dels documents i les consultes a aquesta escala demanaria un temps de processament enorme.  

Tamb hi ha provedors d'informaci que procuren facilitar respostes ms concretes. AskJeeves ha generat una expectaci inusitada amb la illusi que podrien manegar vertaderes preguntes en llenguatge natural. Per desgrcia, val a dir que, a aquesta fita, no s'hi arriba a travs de l'anlisi i la comprensi de la pregunta, sin a travs d'una simple cerca de la pregunta en una base de dades on hi ha llistades totes les preguntes amb la resposta. Aquestes preguntes i respostes s'introdueixen manualment a la base de dades. Els resultats de la consulta que hem vist ms amunt no sn massa espectaculars, per segons com podem quedar-nos-en amb una bona impressi, tal com podem veure amb l'exemple help1 de ms avall. La consulta Help my kids took poison, show me medication? t com a resultat, en realitat, la reformulaci:  What should I do if my child ?. ['Qu hauria de fer si el meu fill s'empasss ver?']

WebSamples\AskJeeves_toxic_medicine.htm
WebSamples\AskJeeves_toxic_medication.htm
WebSamples\AskJeeves_poisonous_medication.htm
WebSamples\AskJeeves_medication_for_toxication.htm
WebSamples\AskJeeves _help1.htm
WebSamples\AskJeeves_help2.htm 

No cal dir que aquest punt de vista s limitat. El nombre de preguntes i respostes s infinit i la informaci emmagatzemada s difcil de mantenir i de controlar per als humans sense una ajuda addicional. Tan sols s qesti de sort, el fet que el crit d'auxili coincideixi amb una pregunta prviament emmagatzemada i que cobreixi el mateix contingut. Tal com es pot comprovar a help2, no sempre tindrem aquesta sort. 

Resulta evident que tots els sistemes principals mostren una presncia deficitria de l'enginyeria lingstica i que cap no t un carcter "d'encreuament entre llenges" (cross-linguistic), s a dir, que pugui fer coincidir una consulta en espanyol amb documents en angls. Ara per ara hi ha sistemes comercials que s'esforcen per millorar la tecnologia de cerca amb tcniques lingstiques aplicades a molts idiomes i entre molts idiomes (Irion, Sail Labs, Textwise, Lexiquest). La major part d'aquestes solucions encara estan en fase de desenvolupament amb vista a petites intranets i dominis especfics. La seva intenci s aconseguir una precisi ms gran, o, en altres paraules, assolir l'objectiu que la resposta sigui entre els 10 primers resultats i que, si s possible, l'oraci amb la resposta estigui subratllada al document. Aquests sistemes de recuperaci de nova generaci tamb maneguen diferents formes flexives i en alguns casos resolen compostos i expressions multiparaula. A ms, el fet que s'apliquen sovint a grups de documents petits i homogenis dna com a resultat una menor ambigitat de significat. Per exemple, si els documents tracten de msica, aleshores no cal desambiguar la consulta de organ. La paraula noms pot coincidir amb un significat de l'ndex. Aix, la recuperaci d'alta precisi transmet la sensaci de comprensi, per cal dir que en realitat aquests sistemes no entenen tampoc la pregunta. A part aix, les diferncies composicionals als exemples de consulta anteriors encara no es poden detectar. A http://dis.tpd.tno.nl/21demomooi/ es pot comprovar el funcionament en directe d'un sistema de demostraci que consisteix en una cerca multilinge per a un grup concret de documents (sobre medi ambient a Europa). El sistema de recuperaci TwentyOne, creat per TNO, preveu tamb les coincidncies aproximades (fuzzy-matching), la qual cosa vol dir que els errors ortogrfics, els derivats i els compostos de la consulta poden coincidir amb els termes de l'ndex. Per comparar, tamb es pot fer una ullada a Autonomy, els quals volen donar la imatge bastant explcita que sn independents de les llenges i que no utilitzen l'enginyeria lingstica, mentre desenvolupen solucions per petites intranets i portals.  

La recuperaci interlingstica (cross-lingual) s factible normalment a travs de diccionaris bilinges o d'una xarxa semntica multilinge. El projecte EuroWordNet va crear una xarxa d'aquest tipus per a 8 llenges: angls, espanyol, itali, neerlands, francs, alemany, txec i estoni, i s'hi afegeixen de tant en tant d'altres idiomes. En el model d'EuroWordNet, els sinnims no noms hi estan relacionats amb conceptes en cada idioma sin tamb entre els idiomes via l'ndex Interlingual. Amb aquesta base de dades multilinge wordnet, es pot aplicar una expansi a sinnims dins un mateix idioma (de medicine a medication) per tamb entre idiomes diferents (de medicine a medicamento i medicina). Les mateixes empreses treballen en aquests moments en la creaci de recursos similars, i fins i tot els fan servir.    

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)