Oportunitats per a l'enginyeria lingstica
                                                                                                               



1. Introducci | 2. Etapes d'anlisi, d'emmagatzematge i d'accs a la informaci |
 3. ndex i cerca | 4. Classificar i navegar | 5. Extracci de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

4. Classificar i navegar 

Un dels desavantatges que tenen els motors de cerca s que mai no donen una idea clara del que realment existeix a la Xarxa. Una llista de resultats pot mostrar els documents que s'acosten a la consulta, per mai no se sap el que hi ha a banda d'aix, i a ms tampoc no es poden saber quins documents hi ha en el fons. Pel que fa a tot Internet aix s possible perqu si fa no fa cont tot, per amb relaci a petits grups de documents val la pena classificar la informaci i presentar-la mitjanant arbres de categories. Yahoo va ser el primer gran motor de cerca que va utilitzar tamb categories que funcionen com a temes principals, dins dels quals es pot cercar ms informaci. Un altre exemple obvi s la versi electrnica de les Pgines Grogues (http://www.yellowpages.com.au/). Les classificacions de Yahoo i les Pgines Grogues s'elaboren manualment; la cobertura s necessriament limitada i per tant no serveix per aclarir el que s'hi pot trobar. 

Altres empreses creen sistemes que categoritzen automticament documents. Adams (2001) estableix una distinci entre 3 tecnologies de classificaci: 

  1. Classificaci per exemples: l'usuari elabora un conjunt de patrons representatius (training set) assignant manualment documents a categories. Els nous documents es classifiquen d'acord amb la seva similitud amb el training set. Empreses: Mohomine, Inxight, Autonomy.
  2. Classificaci estadstica per extracci de paraula clau: es fan servir tcniques lingstiques per extreure paraules clau i s'agrupen els documents que contenen paraules clau similars. Empreses: Semio, Cartia
  3. Basada en regles: regles explcites que capturen criteris a partir de quins documents es classifiquen com A o com B. Empreses: Verity.

En contrast amb la recuperaci de documents per consulta, la classificaci purament estadstica i la classificaci per exemples sembla que funcionen fora b sense la participaci de l'enginyeria lingstica. Un document cont normalment text suficient per determinar la similitud amb un altre document. La variaci resultant en paraules es pot constatar tot al llarg del document i les paraules generals i no concretes es poden deixar de banda ja que apareixen a tots els documents. 

L'extracci de paraules clau resulta ms prctica amb una anlisi lingstica, i algunes de les empreses esmentades recolzen fora en l'extracci de les paraules clau ms destacades amb vista a la classificaci. En general, es pot afirmar que cada cop es necessiten ms anlisis lingstiques com ms petits sn els documents. Per exemple, la classificaci o filtratge de correu electrnic o URL resulta ms difcil sense aplicar-hi una associaci semntica o lingstica. S'ha de reconixer el tema a partir d'una sola lnia temtica. La classificaci noms s possible si els significats individuals estan relacionats amb dominis i aquests significats es poden seleccionar amb un mtode de desambiguaci. 

Un problema especfic que sorgeix a l'hora de classificar documents s el mtode d'accs i visualitzaci. Una manera habitual de visualitzar la classificaci s l'arbre, per es tracta d'estructures que poden esdevenir massa grans i complexes, cosa que n'obstaculitza l's. Per fer-hi front de manera dinmica, actualment es treballa en diverses solucions tecnolgiques. Els enllaos segents mostren alguns bons exemples dinmics de tot plegat: 

Reuters: http://reuters.medialab.nl/aqua.htm
WebBrain
: http://www.webbrain.com/open_IE.htm
Inxight
: http://www.inxight.com/products_wb/tree_studio/tree_studio_demos.html 

Un desavantatge inherent a tota classificaci s que obliga l'usuari a accedir a informaci des d'un punt de vista concret. Si la classificaci s gran i complexa, l'usuari s'hi pot perdre. Pot estar buscant una distinci errnia (que no estigui feta o que la informaci desitjada estigui classificada de manera diferent), o buscant la distinci correcta en el lloc equivocat. Per solucionar aix, o b l'usuari ha de poder ser capa d'organitzar la classificaci d'acord amb el seus gustos, o b es pot complementar la classificaci amb una opci de cerca. En el primer cas, ha de ser possible extreure mltiples vistes d'associacions de classificacions i aleshores l'usuari en pot seleccionar una. L'estructura subjacent pot incloure mltiples classificacions dels mateixos documents i mltiples relacions entre classes. De manera alternativa, un usuari pot introduir-hi una classe, que es pot redireccionar a una categoritzaci en s. En aquest cas, hi ha un ndex a part de paraules a categories.

Hi ha algunes iniciatives per desenvolupar representacions estandarditzades de la mateixa informaci en maneres diverses. Les anomenades associacions de Temes s'utilitzen per mostrar la mateixa informaci des de qualsevol perspectiva. Se'n pot trobar ms informaci a: http://www.gca.org/papers/xmleurope2000/papers/s22-04.html. El programari de visualitzaci es pot crear sobre la base d'aquest model. 

Hem vist productes que classifiquen documents. La classificaci d'un document no s realment una ontologia. Hi ha, per, altres maneres semblants d'estructurar la informaci. Aix, dins el comer electrnic, moltes empreses posen a l'abast catlegs dels seus productes, i aquests catlegs tamb es poden considerar com una mena de classificaci, tot i que no necessriament associada amb documents. Ara, automatitzar l'elaboraci de catlegs s molt difcil, ja que, sovint, les descripcions dels productes sn curtes i les categories no es deriven sempre de les descripcions. Tamb cal tenir en compte que alguns catlegs contenen milions de productes i la seva accessibilitat presenta molts problemes. A ms, les empreses poden demanar que es determini la manera exacta com s'organitzar la classificaci. Comparats amb la informaci en documents, els catlegs sn ms pobres per alhora ms sistemtics: cobreixen normalment noms uns pocs tipus de conceptes amb un nombre limitat de propietats o caracterstiques. Una manera bvia de tractar els catlegs s convertir-los en bases de dades relacionals. Tot plegat ho analitzarem en l'apartat segent.    

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)