Oportunitats per a l'enginyeria lingüística
                                                                                                               



1. Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la informació |
 3. Índex i cerca | 4. Classificar i navegar | 5. Extracció de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

4. Classificar i navegar 

Un dels desavantatges que tenen els motors de cerca és que mai no donen una idea clara del que realment existeix a la Xarxa. Una llista de resultats pot mostrar els documents que s'acosten a la consulta, però mai no se sap el que hi ha a banda d'això, i a més tampoc no es poden saber quins documents hi ha en el fons. Pel que fa a tot Internet això és possible perquè si fa no fa conté tot, però amb relació a petits grups de documents val la pena classificar la informació i presentar-la mitjançant arbres de categories. Yahoo va ser el primer gran motor de cerca que va utilitzar també categories que funcionen com a temes principals, dins dels quals es pot cercar més informació. Un altre exemple obvi és la versió electrònica de les Pàgines Grogues (http://www.yellowpages.com.au/). Les classificacions de Yahoo i les Pàgines Grogues s'elaboren manualment; la cobertura és necessàriament limitada i per tant no serveix per aclarir el que s'hi pot trobar. 

Altres empreses creen sistemes que categoritzen automàticament documents. Adams (2001) estableix una distinció entre 3 tecnologies de classificació: 

  1. Classificació per exemples: l'usuari elabora un conjunt de patrons representatius (training set) assignant manualment documents a categories. Els nous documents es classifiquen d'acord amb la seva similitud amb el training set. Empreses: Mohomine, Inxight, Autonomy.
  2. Classificació estadística per extracció de paraula clau: es fan servir tècniques lingüístiques per extreure paraules clau i s'agrupen els documents que contenen paraules clau similars. Empreses: Semio, Cartia
  3. Basada en regles: regles explícites que capturen criteris a partir de quins documents es classifiquen com A o com B. Empreses: Verity.

En contrast amb la recuperació de documents per consulta, la classificació purament estadística i la classificació per exemples sembla que funcionen força bé sense la participació de l'enginyeria lingüística. Un document conté normalment text suficient per determinar la similitud amb un altre document. La variació resultant en paraules es pot constatar tot al llarg del document i les paraules generals i no concretes es poden deixar de banda ja que apareixen a tots els documents. 

L'extracció de paraules clau resulta més pràctica amb una anàlisi lingüística, i algunes de les empreses esmentades recolzen força en l'extracció de les paraules clau més destacades amb vista a la classificació. En general, es pot afirmar que cada cop es necessiten més anàlisis lingüístiques com més petits són els documents. Per exemple, la classificació o filtratge de correu electrònic o URL resulta més difícil sense aplicar-hi una associació semàntica o lingüística. S'ha de reconèixer el tema a partir d'una sola línia temàtica. La classificació només és possible si els significats individuals estan relacionats amb dominis i aquests significats es poden seleccionar amb un mètode de desambiguació. 

Un problema específic que sorgeix a l'hora de classificar documents és el mètode d'accés i visualització. Una manera habitual de visualitzar la classificació és l'arbre, però es tracta d'estructures que poden esdevenir massa grans i complexes, cosa que n'obstaculitza l'ús. Per fer-hi front de manera dinàmica, actualment es treballa en diverses solucions tecnològiques. Els enllaços següents mostren alguns bons exemples dinàmics de tot plegat: 

Reuters: http://reuters.medialab.nl/aqua.htm
WebBrain
: http://www.webbrain.com/open_IE.htm
Inxight
: http://www.inxight.com/products_wb/tree_studio/tree_studio_demos.html 

Un desavantatge inherent a tota classificació és que obliga l'usuari a accedir a informació des d'un punt de vista concret. Si la classificació és gran i complexa, l'usuari s'hi pot perdre. Pot estar buscant una distinció errònia (que no estigui feta o que la informació desitjada estigui classificada de manera diferent), o buscant la distinció correcta en el lloc equivocat. Per solucionar això, o bé l'usuari ha de poder ser capaç d'organitzar la classificació d'acord amb el seus gustos, o bé es pot complementar la classificació amb una opció de cerca. En el primer cas, ha de ser possible extreure múltiples vistes d'associacions de classificacions i aleshores l'usuari en pot seleccionar una. L'estructura subjacent pot incloure múltiples classificacions dels mateixos documents i múltiples relacions entre classes. De manera alternativa, un usuari pot introduir-hi una classe, que es pot redireccionar a una categorització en ús. En aquest cas, hi ha un índex a part de paraules a categories.

Hi ha algunes iniciatives per desenvolupar representacions estandarditzades de la mateixa informació en maneres diverses. Les anomenades associacions de Temes s'utilitzen per mostrar la mateixa informació des de qualsevol perspectiva. Se'n pot trobar més informació a: http://www.gca.org/papers/xmleurope2000/papers/s22-04.html. El programari de visualització es pot crear sobre la base d'aquest model. 

Hem vist productes que classifiquen documents. La classificació d'un document no és realment una ontologia. Hi ha, però, altres maneres semblants d'estructurar la informació. Així, dins el comerç electrònic, moltes empreses posen a l'abast catàlegs dels seus productes, i aquests catàlegs també es poden considerar com una mena de classificació, tot i que no necessàriament associada amb documents. Ara, automatitzar l'elaboració de catàlegs és molt difícil, ja que, sovint, les descripcions dels productes són curtes i les categories no es deriven sempre de les descripcions. També cal tenir en compte que alguns catàlegs contenen milions de productes i la seva accessibilitat presenta molts problemes. A més, les empreses poden demanar que es determini la manera exacta com s'organitzarà la classificació. Comparats amb la informació en documents, els catàlegs són més pobres però alhora més sistemàtics: cobreixen normalment només uns pocs tipus de conceptes amb un nombre limitat de propietats o característiques. Una manera òbvia de tractar els catàlegs és convertir-los en bases de dades relacionals. Tot plegat ho analitzarem en l'apartat següent.    

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)