Oportunitats per a l'enginyeria
lingüística
1.
Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la
informació |
3. Índex i cerca | 4.
Classificar i navegar | 5. Extracció de dades i
sistemes pregunta-resposta |
6. Altres desenvolupaments
3. Índex i cerca
Tothom coneix si
fa no fa la primera generació de motors de cerca a Internet, com ara Yahoo (http://www.yahoo.com/)
i Alta Vista (http://www.altavista.com/).
Aquests motors indexen parts d'Internet i hi proporcionen accés mitjançant la
cerca a través d'una paraula clau. L'objectiu d'aquests motors és cobrir la
Xarxa i la realitat. Intenten donar accés a tantes pàgines web com poden i
alhora miren d'actualitzar aquests enllaços amb regularitat.
És important de
veure el que indexen realment i com associen les paraules als índexs. En la
major part dels casos, els títols del web i les pàgines de l'índex
s'utilitzen per muntar l'índex, cosa que no permet un accés directe al
contingut de les pàgines web o a d'altres pàgines i lògicament tampoc no el
permet a les que estan enllaçades a aquestes pàgines. A més, indexen cadenes
i no tenen en compte la flexió, la funció gramatical ni l'estructura sintàctica.
Per constatar les limitacions d'aquests motors de cerca, farem una ullada als
exemples de consulta següents:
poisonous
medication;
poisonous medicine;
poisonous medicines;toxic
medication; toxicmedicines;
medicine for toxication;
medicines for toxication;medicines
against poisoning; medication
for toxication;
Help my kids took poison, show
me medication?
medicamento tóxico;
medicamento intoxicación;medicina
ponzoñoso;
fármaco tóxico;
D'aquestes
consultes, en podem extreure els punts següents:
A partir d'un motor de cerca, caldria esperar el resultat següent
Si observem els
motors de cerca que hi ha a la Xarxa, comprovarem que cap funciona així. He
inclòs una llista de resultats de cerca més avall perquè es puguin comparar
els resultats. També es pot anar directament als llocs web i fer-lo directament
des d'allà: s'hi pot comprovar aleshores que l'ús del singular o del plural, o
d'un sinònim, dóna lloc a resultats molt diferents. Cap no és igual als
altres. La indexació es basa en cadenes, i no hi té lloc cap normalització,
tematització, anàlisi de compostos o anàlisi de derivats. A més, el
significat composicional exacte no es té en compte en absolut, i casualment la
mateixa paraula apareix com a ítem de l'índex per als mateixos documents, tot
i que no sempre és aquest el cas. La relació entre els ítems no es té en
compte en absolut:
WebSamples\Yahoo!_toxic_medication.htm
WebSamples\Yahoo!_poisonous_medicines.htm
WebSamples\Yahoo!_poisonous_medicine.htm
WebSamples\Yahoo!_poisonous_medication.htm
WebSamples\Yahoo!_medicine_for_toxication.htm
WebSamples\Yahoo!_medication_for_toxication.htm
WebSamples\Yahoo!_medication_against_poisoning.htm
WebSamples\AltaVista_toxic_medication.htm
WebSamples\AltaVista_poisonous_medicines.htm
WebSamples\AltaVista_poisonous_medicine.htm
WebSamples\AltaVista_medicine_for_toxication.htm
WebSamples\AltaVista_medicines_for_toxication.htm
WebSamples\AltaVista_medicines_against_poisoning.htm
WebSamples\AltaVista_medication_for_toxication.htm
És
clar que, com que la indexació està basada en cadenes, una consulta en
espanyol donarà documents en espanyol. Però, llevat que les paraules
s'escriguin de la mateixa manera tant en anglès com en espanyol, no es poden
obtenir documents en anglès amb una consulta en espanyol:
WebSamples\AltaVista_medicamento_tóxico.htm
WebSamples\AltaVista_fármaco_tóxico.htm
WebSamples\AltaVista_medicina_ponzoñoso.htm
Hi
ha altres motors de cerca que intenten ser una mica més precisos pel que fa a
la interpretació de la consulta. Més avall hi ha els resultats que, a partir
de les mateixes consultes, es van obtenir d'Oingo i de Google. Oingo mira de
presentar categories d'informació, però alhora ofereix l'opció de fer una
cerca més estreta del significat dels termes consultats. Els significats
provenen de la base de dades Wordnet (http://www.cogsci.princeton.edu/~wn/w3wn.html/),
una xarxa semanticolèxica de lliure accés. Conté un fons de conceptes amb
relacions semàntiques entre si, a més de les associacions de paraules angleses
a aquests conceptes. Els sinònims s'associen als mateixos conceptes i formen
els anomenats synset (synonymy set). A
Wordnet, medicine i medication
són sinònims del mateix concepte, igual com poisonous
i toxic. Podríem pensar aleshores que
una expansió de les paraules consultades fins als sinònims corresponents
implicaria un mateix resultat sense tenir en compte les paraules originals
utilitzades en la consulta.
A
la interfície d'Oingo s'han de seleccionar els significats de les paraules
consultades manualment. Una vegada s'ha seleccionat el significat, Oingo pot
trobar documents en els quals apareix la paraula consultada o un sinònim (per
exemple, toxic en lloc de poisonous).
Tal com podem comprovar en les pàgines obtingudes, els resultats no són tan
espectaculars com es podia preveure. Les llistes resultants encara són molt
diferents quan fem servir sinònims en les consultes:
WebSamples\Oingo_toxic_medicine.htm
WebSamples\Oingo_toxic_medication.htm
WebSamples\Oingo_poisonous_medicine.htm
WebSamples\Oingo_poisonous_medication.htm
WebSamples\Oingo_medicine_for_toxication.htm
WebSamples\Oingo_medicines_for_toxication.htm
WebSamples\Oingo_medication_for_toxication.htm
WebSamples\Oingo_medication_against_poisoning.htm
Pel
que sembla, l'expansió als sinònims no resulta útil en tots els casos. Segons
Voorhees
(1999), l'expansió de sinònims amb Wordnet pot tenir fins i tot un efecte
negatiu sobre els resultats, sobretot si no se seleccionen els significats. No
obstant això pot ser de gran ajuda, tal com es pot comprovar als exemples següents.
Hi
ha una diferència essencial entre no seleccionar cap significat per a organ
o seleccionar-ne un amb relació a musical
('òrgan musical') o a body part ('part del cos'):
WebSamples\Oingo_organs.htm
WebSamples\Oingo_musical_organs.htm
WebSamples\Oingo_body_organs.htm
És
una llàstima que s'hagin de seleccionar els significats a mà. No hi ha cap
possible desambiguació, i no té gaire sentit desenvolupar un sistema de
desambiguació d'aquestes característiques al lloc de consulta, ja que moltes
consultes contenen una o dues paraules. Les consultes d'una o dues paraules no
proporcionen context suficient per arribar a desambiguar.
Google
no té en compte els significats diversos. En comptes d'això, llança una
metacerca a diferents motors i hi aplica l'anàlisi del document per trobar els
termes de consulta que són molt propers entre si. Igualment, mostra els
fragments de text en què coapareixen les paraules; com que la memòria és
immensa, encara pot generar molts més resultats.
WebSamples\Google_toxic_medicine.htm
WebSamples\Google_toxic_medication.htm
WebSamples\Google_poisonous_medicine.htm
WebSamples\Google_poisonous_medication.htm
WebSamples\Google_medicine_for_toxication.htm
WebSamples\Google_medicines_for_toxication.htm
WebSamples\Google_medication_for_toxication.htm
WebSamples\Google_medication_against_poisoning.htm
Tal
com es pot comprovar, la limitació que suposa el fet que totes dues paraules
han de coaparèixer pot conduir a un bon resultat. Sembla que no sempre cal
seleccionar un significat concret. Així, Google explota l'alt grau de redundància
que caracteritza la informació a Internet: aquesta s'emmagatzema diferents
vegades i es formula en molts idiomes i de maneres molt diverses. El canvi que
suposa l'emmagatzematge de la informació un sol cop en les mateixes paraules
que les de la consulta és molt important. Més que escampar la consulta
expandint-la en sinònims o altres expressions, sembla doncs més pràctic
restringir-la a les coincidències literals solament. Òbviament, les coses
canvien quan l'extracció s'aplica a petits grups de documents o intranets. En
aquest cas, la informació pot ser expressada només un cop i en un sol document;
aleshores l'expansió de la consulta resulta essencial per garantir-ne la
recuperació.
Tant Google com Oingo intenten donar la impressió de precisió, però encara no posen gaire esment en el sistema de consultes. Així, no tenen en compte la variació fraseològica ni les relacions entre els termes de la consulta, amb la qual cosa resulta impossible tractar les diferències composicionals en el significat. Això no ens ha de sorprendre si ens adonem de les conseqüències d'una tal anàlisi. No només cal conèixer el llenguatge de cada document, sinó que també cal trobar el començament i el final de les frases (tokenització), analitzar gramaticalment les oracions per extreure'n les paraules lematitzades i les estructures composicionals, analitzar els compostos i derivats, detectar les expressions multiparaula, descobrir relacions entre oracions creuades, determinar els significats de les paraules o les expressions, i d'altres. Tot això s'ha de fer per a cada llengua de treball. Els motors de cerca esmentats intenten abastar enormes parts d'Internet i necessiten actualitzar els seus índexs constantment. Una anàlisi lingüística dels documents i les consultes a aquesta escala demanaria un temps de processament enorme.
També
hi ha proveïdors d'informació que procuren facilitar respostes més concretes.
AskJeeves ha generat una expectació inusitada amb la il·lusió que podrien
manegar vertaderes preguntes en llenguatge natural. Per desgràcia, val a dir
que, a aquesta fita, no s'hi arriba a través de l'anàlisi i la comprensió de
la pregunta, sinó a través d'una simple cerca de la pregunta en una base de
dades on hi ha llistades totes les preguntes amb la resposta. Aquestes preguntes
i respostes s'introdueixen manualment a la base de dades. Els resultats de la
consulta que hem vist més amunt no són massa espectaculars, però segons com
podem quedar-nos-en amb una bona impressió, tal com podem veure amb l'exemple help1 de més avall. La consulta “Help my kids took poison, show
me medication?” té com a resultat, en realitat, la reformulació:
What should I do if my child ?. ['Què hauria de fer si el meu fill s'empassés verí?']
WebSamples\AskJeeves_toxic_medicine.htm
WebSamples\AskJeeves_toxic_medication.htm
WebSamples\AskJeeves_poisonous_medication.htm
WebSamples\AskJeeves_medication_for_toxication.htm
WebSamples\AskJeeves _help1.htm
WebSamples\AskJeeves_help2.htm
No
cal dir que aquest punt de vista és limitat. El nombre de preguntes i respostes
és infinit i la informació emmagatzemada és difícil de mantenir i de
controlar per als humans sense una ajuda addicional. Tan sols és qüestió de
sort, el fet que el crit d'auxili coincideixi amb una pregunta prèviament
emmagatzemada i que cobreixi el mateix contingut. Tal com es pot comprovar a help2,
no sempre tindrem aquesta sort.
Resulta evident
que tots els sistemes principals mostren una presència deficitària de
l'enginyeria lingüística i que cap no té un caràcter "d'encreuament
entre llengües" (cross-linguistic),
és a dir, que pugui fer coincidir una consulta en espanyol amb documents en
anglès. Ara per ara hi ha sistemes comercials que s'esforcen per millorar la
tecnologia de cerca amb tècniques lingüístiques aplicades a molts idiomes i
entre molts idiomes (Irion, Sail
Labs, Textwise, Lexiquest).
La major part d'aquestes solucions encara estan en fase de desenvolupament amb
vista a petites intranets i dominis específics. La seva intenció és
aconseguir una precisió més gran, o, en altres paraules, assolir l'objectiu
que la resposta sigui entre els 10 primers resultats i que, si és possible,
l'oració amb la resposta estigui subratllada al document. Aquests sistemes de
recuperació de nova generació també maneguen diferents formes flexives i en
alguns casos resolen compostos i expressions multiparaula. A més, el fet que
s'apliquen sovint a grups de documents petits i homogenis dóna com a resultat
una menor ambigüitat de significat. Per exemple, si els documents tracten de música,
aleshores no cal desambiguar la consulta de organ.
La paraula només pot coincidir amb un significat de l'índex. Així, la
recuperació d'alta precisió transmet la sensació de comprensió, però cal
dir que en realitat aquests sistemes no entenen tampoc la pregunta. A part això,
les diferències composicionals als exemples de consulta anteriors encara no es
poden detectar. A http://dis.tpd.tno.nl/21demomooi/
es pot comprovar el funcionament en directe d'un sistema de demostració que
consisteix en una cerca multilingüe per a un grup concret de documents (sobre
medi ambient a Europa). El sistema de recuperació TwentyOne, creat per TNO,
preveu també les coincidències aproximades (fuzzy-matching),
la qual cosa vol dir que els errors ortogràfics, els derivats i els compostos
de la consulta poden coincidir amb els termes de l'índex. Per comparar, també
es pot fer una ullada a Autonomy,
els quals volen donar la imatge bastant explícita que són independents de les
llengües i que no utilitzen l'enginyeria lingüística, mentre desenvolupen
solucions per petites intranets i portals.
La recuperació
interlingüística (cross-lingual) és
factible normalment a través de diccionaris bilingües o d'una xarxa semàntica
multilingüe. El projecte EuroWordNet
va crear una xarxa d'aquest tipus per a 8 llengües: anglès, espanyol, italià,
neerlandès, francès, alemany, txec i estonià, i s'hi afegeixen de tant en
tant d'altres idiomes. En el model d'EuroWordNet, els sinònims no només hi
estan relacionats amb conceptes en cada idioma sinó també entre els idiomes
via l'Índex Interlingual. Amb aquesta base de dades multilingüe wordnet,
es pot aplicar una expansió a sinònims dins un mateix idioma (de medicine
a medication) però també entre
idiomes diferents (de medicine a medicamento
i medicina). Les mateixes empreses treballen en aquests moments en la
creació de recursos similars, i fins i tot els fan servir.