Oportunitats per a l'enginyeria
lingüística
1.
Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la
informació |
3. Índex i cerca | 4.
Classificar i navegar | 5. Extracció de dades i
sistemes pregunta-resposta |
6. Altres desenvolupaments
4. Classificar i navegar
Un dels
desavantatges que tenen els motors de cerca és que mai no donen una idea clara
del que realment existeix a la Xarxa. Una llista de resultats pot mostrar els
documents que s'acosten a la consulta, però mai no se sap el que hi ha a banda
d'això, i a més tampoc no es poden saber quins documents hi ha en el fons. Pel
que fa a tot Internet això és possible perquè si fa no fa conté tot, però
amb relació a petits grups de documents val la pena classificar la informació
i presentar-la mitjançant arbres de categories. Yahoo
va ser el primer gran motor de cerca que va utilitzar també categories que
funcionen com a temes principals, dins dels quals es pot cercar més informació.
Un altre exemple obvi és la versió electrònica de les Pàgines Grogues (http://www.yellowpages.com.au/).
Les classificacions de Yahoo i les Pàgines
Grogues s'elaboren manualment; la cobertura és necessàriament limitada i
per tant no serveix per aclarir el que s'hi pot trobar.
Altres empreses
creen sistemes que categoritzen automàticament documents. Adams
(2001) estableix una distinció entre 3 tecnologies de classificació:
En contrast amb
la recuperació de documents per consulta, la classificació purament estadística
i la classificació per exemples sembla que funcionen força bé sense la
participació de l'enginyeria lingüística. Un document conté normalment text
suficient per determinar la similitud amb un altre document. La variació
resultant en paraules es pot constatar tot al llarg del document i les paraules
generals i no concretes es poden deixar de banda ja que apareixen a tots els
documents.
L'extracció de
paraules clau resulta més pràctica amb una anàlisi lingüística, i algunes
de les empreses esmentades recolzen força en l'extracció de les paraules clau
més destacades amb vista a la classificació. En general, es pot afirmar que
cada cop es necessiten més anàlisis lingüístiques com més petits són els
documents. Per exemple, la classificació o filtratge de correu electrònic o
URL resulta més difícil sense aplicar-hi una associació semàntica o lingüística.
S'ha de reconèixer el tema a partir d'una sola línia temàtica. La
classificació només és possible si els significats individuals estan
relacionats amb dominis i aquests significats es poden seleccionar amb un mètode
de desambiguació.
Un problema específic
que sorgeix a l'hora de classificar documents és el mètode d'accés i
visualització. Una manera habitual de visualitzar la classificació és l'arbre,
però es tracta d'estructures que poden esdevenir massa grans i complexes, cosa
que n'obstaculitza l'ús. Per fer-hi front de manera dinàmica, actualment es
treballa en diverses solucions tecnològiques. Els enllaços següents mostren
alguns bons exemples dinàmics de tot plegat:
Reuters:
http://reuters.medialab.nl/aqua.htm
WebBrain: http://www.webbrain.com/open_IE.htm
Inxight: http://www.inxight.com/products_wb/tree_studio/tree_studio_demos.html
Un desavantatge
inherent a tota classificació és que obliga l'usuari a accedir a informació
des d'un punt de vista concret. Si la classificació és gran i complexa,
l'usuari s'hi pot perdre. Pot estar buscant una distinció errònia (que no
estigui feta o que la informació desitjada estigui classificada de manera
diferent), o buscant la distinció correcta en el lloc equivocat. Per solucionar
això, o bé l'usuari ha de poder ser capaç d'organitzar la classificació
d'acord amb el seus gustos, o bé es pot complementar la classificació amb una
opció de cerca. En el primer cas, ha de ser possible extreure múltiples vistes
d'associacions de classificacions i aleshores l'usuari en pot seleccionar una.
L'estructura subjacent pot incloure múltiples classificacions dels mateixos
documents i múltiples relacions entre classes. De manera alternativa, un usuari
pot introduir-hi una classe, que es pot redireccionar a una categorització en
ús. En aquest cas, hi ha un índex a part de paraules a categories.
Hi ha algunes
iniciatives per desenvolupar representacions estandarditzades de la mateixa
informació en maneres diverses. Les anomenades associacions de Temes
s'utilitzen per mostrar la mateixa informació des de qualsevol perspectiva.
Se'n pot trobar més informació a: http://www.gca.org/papers/xmleurope2000/papers/s22-04.html.
El programari de visualització es pot crear sobre la base d'aquest model.
Hem vist
productes que classifiquen documents. La classificació d'un document no és
realment una ontologia. Hi ha, però, altres maneres semblants d'estructurar la
informació. Així, dins el comerç electrònic, moltes empreses posen a l'abast
catàlegs dels seus productes, i aquests catàlegs també es poden considerar
com una mena de classificació, tot i que no necessàriament associada amb
documents. Ara, automatitzar l'elaboració de catàlegs és molt difícil, ja
que, sovint, les descripcions dels productes són curtes i les categories no es
deriven sempre de les descripcions. També cal tenir en compte que alguns catàlegs
contenen milions de productes i la seva accessibilitat presenta molts problemes.
A més, les empreses poden demanar que es determini la manera exacta com
s'organitzarà la classificació. Comparats amb la informació en documents, els
catàlegs són més pobres però alhora més sistemàtics: cobreixen normalment
només uns pocs tipus de conceptes amb un nombre limitat de propietats o
característiques. Una manera òbvia de tractar els catàlegs és convertir-los
en bases de dades relacionals. Tot plegat ho analitzarem en l'apartat següent.