Oportunitats per a l'enginyeria
lingüística
1.
Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la
informació |
3. Índex i cerca | 4.
Classificar i navegar | 5. Extracció de dades i
sistemes pregunta-resposta |
6. Altres desenvolupaments
2. Etapes d'anàlisi, emmagatzematge i d'accés a la informació
La manera més
senzilla d'accedir a Internet és el WWW mateix, teclejant directament una adreça
o seguint un enllaç, el qual et porta també a l'adreça que indica. Però
Internet només dóna accés a
informació, no l'assimila ni prova
d'entendre-la. Això fa que la gent
encara hagi de llegir-la (si és en format text) per comprovar-ne la rellevància.
Com que Internet és tan gran, hi ha canvis constantment i els enllaços fan que
et perdis de seguida, amb la qual cosa la gent que només navega es desesperen fàcilment
per trobar el que volen (llevat que sàpiguen on és).
D'alguna manera,
els sistemes informàtics poden ajudar els usuaris d'Internet assimilant part de
la informació i proporcionant accés a aquesta informació prèviament
digerida. S'hi poden aplicar diferents nivells d'anàlisi, que donen lloc a
diferents representacions de la informació i que, en conseqüència,
proporcionen maneres distintes d'accedir-hi i d'explotar-la. A la Figura 1 es
pot observar una representació esquemàtica d'aquestes solucions. Al costat
esquerre hi ha un grup de documents HTML que representen la informació a
Internet. L'usuari pot accedir directament, a través d'un navegador, als
documents individuals, un per un. A banda els HTML, hi ha per descomptat molts
altres documents de text representats per DOC, PS o PDF i que no són
accessibles amb un navegador. Baixant podem veure diferents maneres de compilar
la mateixa informació i de donar accés de manera alternativa. Cap a la dreta
trobem una primera fase d'anàlisi que deriva en una representació d'informació
compilada, situada al mig. Apilats els uns a sobre dels altres, trobem diferents
nivells de sofisticació de la informació compilada (índexs,
jerarquies, fets i coneixement), que
provenen de diversos processos d'anàlisi (indexació,
classificació, extracció de dades i aprenentatge).
Al costat dret observem que les vies d'accés a la informació depenen de la
sofisticació de l'anàlisi.
![]() |
| Etapes d'anàlisi |
Els
índexs són accessibles a través de la recuperació de paraules o motors de cerca. Teclejant unes paraules clau es poden obtenir els
documents o pàgines HTML que més coincideixen amb aquestes paraules clau. El
resultat és, doncs, una llista jeràrquica de documents o URL. Hi ha diferents
maneres de muntar aquests índexs o d'analitzar les paraules clau, de
combinar-les i expandir-les, i les tècniques lingüístiques es poden integrar
fàcilment amb la tecnologia elemental del motor de cerca. Això es pot fer a
una escala bàsica millorant l'anàlisi de la indexació i de la consulta, però
també com un afegit en forma de summarizers,
a més de millorar el reconeixement de llenguatges, el suport de diversos
llenguatges, associant les consultes amb documents en altres llengües...
Un
índex es pot considerar com una simple llista de termes normalitzats, un tipus
de llista que pot significar el punt de partida per al desenvolupament d'una
jerarquia o un arbre. Una jerarquia és una mena de classificació de dades o de
documents per on es pot navegar com si
fos un arbre, anant dels conceptes o les classes més generals als més
específics (per exemple, d'Sports a Ball
Sports o Water Sports). A cada node de l'arbre hi podem trobar un grup de
documents que estan relacionats amb el concepte. Hi ha diferents tipus de
jerarquies, tal com veurem més endavant: tesaurus, taxonomia, ontologia. Podríem
dir que un tesaurus es pot considerar com un raïm més global de paraules,
documents o objectes pertanyents a alguna categoria (l'anomenada faceta). En
canvi, les taxonomies i les ontologies són jerarquies de tots els objectes
possibles i les seves propietats, definides més estrictament. L'enginyeria lingüística
resulta útil per associar paraules i expressions a conceptes de l'ontologia, és
a dir, trobar el significat correcte de les paraules a més de minimalitzar
l'ontologia i relacionar automàticament els documents o termes als nodes de
l'ontologia. Les ontologies i les classificacions ja són presents a Internet de
moltes maneres, sobretot com a recursos estàtics (per exemple, les
classificacions o els catàlegs de productes de Yahoo).
Una
ontologia sempre captura relacions genèriques entre conceptes o classes, però
no captura fets específics sobre exemples d'aquests conceptes. Una ontologia
pot consignar que una empresa té empleats, però un fet consignarà que una empresa concreta
té unes persones concretes com a
empleats. Tot i que una ontologia pot ajudar en l'extracció de fets (defineix
tots els fets possibles), no estipula quin és el cas en un cert moment del
temps. Les ontologies són més persistents a través del temps (per exemple, un estat pot tenir president), mentre que els fets es concentren en
un moment del temps determinat (Clinton és
el president dels EUA). Tant els fets com les ontologies es poden extreure
de dades textuals, però el procés d'extracció és molt diferent per cadascun.
Les relacions ontològiques poden ser el resultat de l'anàlisi de grans
quantitats de dades, en què es poden descobrir alguns models freqüents, mentre
que un fet es pot expressar només un cop, i fins i tot en aquest cas pot no ser
cert o antiquat.
El
que hi ha de positiu als fets és que pots emmagatzemar-los en una base de dades
relacional. Una base de dades relacional és accessible mitjançant consultes
SQL. Una consulta SQL consisteix en un comandament i unes referències a ítems
en taules, per exemple EXPOSICIÓ+PRODUCTE(AUTOMÒBIL)+TIPUS(ASTROL)+TÉ(COIXÍ
DE SEGURETAT). Una consulta SQL resulta complexa de formular i és aleshores que
sembla escaient desenvolupar mòduls de Llenguatge Natural cap a SLQ que associïn
consultes com ara Té (vostè) una
FURGONETA Astrol amb coixins de seguretat?, amb consultes SQL. Les preguntes
complexes es poden subdividir en d'altres de més senzilles, cosa que fa
possible generar diàlegs planers en els quals pots consignar en primer lloc el
que t'interessi i després especificar altres propietats i característiques. El
comerç electrònic empeny amb força la representació de fets i les maneres en
què s'hi pot accedir. Es tracta d'un petit pas des del catàleg de producte a
la base de dades relacional. El comerç electrònic és una aventura mundial: no
hi ha limitacions físiques perquè els possibles clients accedeixin a la teva
zona. Això requereix que es puguin gestionarr diàlegs o preguntes en diversos
idiomes. A més, la qualitat del servei és més important que en els negocis
tradicionals, ja que la competència tampoc no es veu limitada per fronteres físiques.
La facilitat d'accés i de comunicació representen dues maneres bàsiques de
distingir un negoci de la resta; un aspecte que vertebrarà el comerç del futur
i, en conseqüència, el desenvolupament de l'enginyeria lingüística.
L'etapa final tracta les mateixes dades des d'una perspectiva diferent. En lloc d'interactuar directament amb els usuaris que volen accedir a la informació, l'usuari pot tenir un ajudant que operi en lloc seu. Amb la tecnologia agent entrem en una nova dimensió de l'accés a la informació: ara tenim un programari que intenta interpretar la informació. Resulta obvi que aquest programari pot accedir exactament als mateixos índexs, ontologies i fets que els humans (tot i que de manera més consistent i en quantitats més grans), però també cal dir que té molta menys capacitat per discernir què és útil del que no ho és. Els agents necessiten algun tipus d'intel·ligència per poder prendre decisions. Així, un agent o ajudant no només té accés a fets sinó que també ha d'adquirir coneixement. Per exemple, un usuari pot dir-li a l'ajudant que trobi el millor ordinador pel preu més baix; l'agent ha de generar un pla per reunir el coneixement suficient sobre la matèria i d'aquesta manera poder respondre la consulta amb el coneixement informàtic requerit (o, fins i tot, pot arribar a adquirir l'ordinador si és prou fiable). Si tota la informació s'emmagatzemés en format compilat, a un agent no li caldria l'enginyeria lingüística per aprendre. Tanmateix, com que la majoria de la informació està encara en format text, els agents necessiten ser capaços d'entendre tanta llengua com es requereixi. A més, els humans encara han de poder comunicar-se amb els agents, per la qual cosa l'enginyeria lingüística hi ha de ser present al cap i a la fi.
Hi
ha encara una altra tendència que afectarà l'accessibilitat de la informació
a Internet. i és que s'estan desenvolupant nous llenguatges d'etiquetatge, a
banda d'HTML. L'XML (http://www.w3c.org/XML/)
és un format més explícit que l'HTML. No només proporciona una representació
comuna per a la composició dels documents, sinó que també ho fa amb relació
al contingut. L'RDF (www.w3.org/RDF/),
l'OIL (http://www.ontoknowledge.org/oil/)
i el DAML (http://www.daml.org/) encara van més
lluny per definir formalment el contingut mateix. L'RDF (Resource
Description Format) integra diverses activitats de l'àmbit de les metadades
al web, que inclouen mapes de llocs web, valoració de continguts, definicions stream channel, recopilació de dades amb motor de cerca (examinació
de la Xarxa), grups de biblioteques digitals i creació
distribuïda. L'RDF utilitza l'XML com a
sintaxi d'intercanvi. L'OIL (Ontology
Interchange Language) intenta combinar els models se la Xarxa amb
representacions d'Estructura i Lògica de Descripció en enfocaments ontològics.
L'OIL farà possible treure conclusions sobre el contingut representat en aquest
llenguatge. El DAML (Darpa Agent Markup
Language) és un formalisme adreçat a ajudar els agents de programari a
interactuar entre ells. El llenguatge DAML també és una extensió de l'XML i
l'RDF.
Cada
un d'aquests estàndards és necessari per explotar la informació i els
recursos als seus respectius nivells d'anàlisi. En part, això convertirà en
obsolet l'esquema de difusió de la informació que hem vist més amunt, però
al mateix temps demanarà eines que associïn automàticament text o parla amb
aquestes representacions. En realitat, els formats en si no restitueixen el text
a la fase d'anàlisi de la informació, sinó que es poden considerar com a
formalismes de representació per a l'emmagatzematge de la informació
analitzada, tal com es pot comprovar al centre de la Figura 1. Així, afectaran
sens dubte les diferents maneres d'accedir a aquest coneixement i faran més fàcil
desenvolupar programari per accedir a la informació compilada, ja que els
desenvolupadors poden anticipar el format comú en què es representarà.
No
continuaré analitzant els desenvolupaments d'aquests sistemes d'etiquetatge.
Tampoc no entraré a parlar de panorames futuristes, en els quals trobem agents
que fan prospeccions a la Xarxa per trobar coneixement i que formen comunitats
per solucionar els problemes. En els apartats següents, em centraré sobretot
en els sistemes d'indexació i cerca, de classificació i navegació i finalment
de preguntes i respostes. Per a cada un, faré un cop d'ull a les pràctiques
habituals avui en dia i n'analitzaré alguns exemples. De més a més, miraré
d'apuntar les oportunitats que ofereix l'enginyeria lingüística integral (build-in
language technology) i com millorar aquests sistemes.