Oportunitats per a l'enginyeria
lingüística
1.
Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la
informació |
3. Índex i cerca | 4.
Classificar i navegar | 5. Extracció de dades i
sistemes pregunta-resposta |
6. Altres desenvolupaments
5. Extracció de dades i sistemes de pregunta-resposta
Un
catàleg pot estar dissenyat d'acord amb una estructura jeràrquica, igual com
una classificació, però les jerarquies, en el cas del catàleg, resulten menys
complexes i intenses. El més interessant dels catàlegs són les característiques
que defineixen els productes. Així, sovint podem observar als llocs web de
comerç electrònic descripcions de les característiques (preus, data de lliurament,
colors, mides, quantitat) i un
nombre limitat d'opcions. Aquesta estructura permet ser emmagatzemada en una
base de dades relacional, amb la qual cosa, un cop emmagatzemada, hi podem fer
preguntes molt específiques sobre productes amb unes característiques
concretes. Es tracta doncs d'una informació tant ontològica com factual, i són
les limitacions ontològiques les que dictaminen les propietats o les característiques
del producte o el tipus de producte. En darrer terme, aquest és el model que
mostrarà la base de dades. Tot plegat, els mateixos productes (números de sèrie)
i el seu estatus (les propietats en si) es poden considerar com els fets que
s'expressen a les taules d'una base de dades.
Moltes
empreses desenvolupen en aquests moments sistemes per emmagatzemar "coneixement"
sofisticat en bases de dades amb la idea de proporcionar accés a aquest
coneixement. En tant que la informació hi és present en forma de documents, la
informació general i el suport de productes s'hi poden aplicar a través de la
indexació i la classificació, tal com s'ha descrit més amunt. Això, però,
no condueix al coneixement específic: per tal d'obtenir un coneixement més
detallat, hi ha empreses que emmagatzemen preguntes i respostes específiques en
bases de dades. D'aquesta manera, ofereixen solucions a problemes concrets.
Diferents tipus de coneixement es munten de diferents maneres. No els analitzaré
tots, però sí que n'esmentaré exemples per donar-ne una perspectiva general.
![]() |
| Relacions a ClearForest |
Dos
exemples d'aquesta mena d'empreses es poden trobar a:
ServiceWare (http://www.serviceware.com/)
Demo: http://www.serviceware.com/solutions/essdemo.asp
Primus (http://www.primus.com/)
Demo: http://www.primus.com/search.asp
El
fet que aquestes empreses es dediquen sobretot a tecnologia relacionada amb l'àmbit
de preguntes i respostes dóna la impressió que automatitzen l'explotació de
coneixement. Tanmateix, la seva tasca consisteix bàsicament en retallar els
costos de les empreses amb una automatització intel·ligent d'alguns dels seus
serveis de suport.
No
cal dir que algunes d'aquestes empreses no confien necessàriament en
l'enginyeria lingüística, però no s'esdevé el mateix amb les empreses que es
dediquen a extreure coneixement a partir de dades estructurades (bases de dades)
i no estructurades (text) proporcionades pels clients. El procés clau és
l'extracció de la informació, la qual es basa en part en l'enginyeria lingüística
i en part en el coneixement del domini. El coneixement de domini funciona com
una ontologia que limita la possible informació cercada. L'enginyeria lingüística
s'utilitza per extreure informació del text que coincideix amb aquesta
ontologia. Així, el procés consisteix bàsicament en el farciment de
plantilles, en què l'ontologia defineix les possibles plantilles i l'anàlisi
textual en dóna com a resultat el farciment. Com que l'ontologia és petita i
explícita, la part de comprensió del llenguatge pot extreure'n dades fiables.
Només interpretarà expressions i frases que tinguin sentit dins el marc
interpretatiu de l'ontologia, amb la qual cosa resultarà evident que les diferències
composicionals, com en el cas de poisonous
medicine ('medicament tòxic') i medicine
for poisoning ('medicament contra la intoxicació'), són essencials per a
l'extracció d'informació.
Per
ampliar dades sobre aquests sistemes d'extracció d'informació, podeu consultar
Gaizauskas i Humpreys (1997).
Com
a exemples de sistemes comercials que es dediquen sobretot a l'extracció
d'informació podem esmentar:
ClearForest (http://www.clearforest.com/)
Totes dues empreses utilitzen tècniques lingüístiques per interpretar el text i les frases amb vista a emplenar plantilles sobre productes i extreure ontologies. A la Figura 2 es pot comprovar l'arquitectura que utilitza ClearForest: es fa servir una definició dels conceptes i les relacions en forma de "reglament" per extreure el contingut del text, i els reglaments es munten prèviament per als dominis.
![]() |
| Taxonomia ClearForest |
Els
índexs són accessibles a través de la recuperació de paraules o motors de cerca. Teclejant unes paraules clau es poden obtenir els
documents o pàgines HTML que més coincideixen amb aquestes paraules clau. El
resultat és, doncs, una llista jeràrquica de documents o URL. Hi ha diferents
maneres de muntar aquests índexs o d'analitzar les paraules clau, de
combinar-les i expandir-les, i les tècniques lingüístiques es poden integrar
fàcilment amb la tecnologia elemental del motor de cerca. Això es pot fer a
una escala bàsica millorant l'anàlisi de la indexació i de la consulta, però
també com un afegit en forma de summarizers,
a més de millorar el reconeixement de llenguatges, el suport de diversos
llenguatges, associant les consultes amb documents en altres llengües...
Un
índex es pot considerar com una simple llista de termes normalitzats, un tipus
de llista que pot significar el punt de partida per al desenvolupament d'una
jerarquia o un arbre. Una jerarquia és una mena de classificació de dades o de
documents per on es pot navegar com si
fos un arbre, anant dels conceptes o les classes més generals als més
específics (per exemple, d'Sports a Ball
Sports o Water Sports). A cada node de l'arbre hi podem trobar un grup de
documents que estan relacionats amb el concepte. Hi ha diferents tipus de
jerarquies, tal com veurem més endavant: tesaurus, taxonomia, ontologia. Podríem
dir que un tesaurus es pot considerar com un raïm més global de paraules,
documents o objectes pertanyents a alguna categoria (l'anomenada faceta). En
canvi, les taxonomies i les ontologies són jerarquies de tots els objectes
possibles i les seves propietats, definides més estrictament. L'enginyeria lingüística
resulta útil per associar paraules i expressions a conceptes de l'ontologia, és
a dir, trobar el significat correcte de les paraules a més de minimalitzar
l'ontologia i relacionar automàticament els documents o termes als nodes de
l'ontologia. Les ontologies i les classificacions ja són presents a Internet de
moltes maneres, sobretot com a recursos estàtics (per exemple, les
classificacions o els catàlegs de productes de Yahoo).
Una
ontologia sempre captura relacions genèriques entre conceptes o classes, però
no captura fets específics sobre exemples d'aquests conceptes. Una ontologia
pot consignar que una empresa té empleats, però un fet consignarà que una empresa concreta
té unes persones concretes com a
empleats. Tot i que una ontologia pot ajudar en l'extracció de fets (defineix
tots els fets possibles), no estipula quin és el cas en un cert moment del
temps. Les ontologies són més persistents a través del temps (per exemple, un estat pot tenir president), mentre que els fets es concentren en
un moment del temps determinat (Clinton és
el president dels EUA). Tant els fets com les ontologies es poden extreure
de dades textuals, però el procés d'extracció és molt diferent per cadascun.
Les relacions ontològiques poden ser el resultat de l'anàlisi de grans
quantitats de dades, en què es poden descobrir alguns models freqüents, mentre
que un fet es pot expressar només un cop, i fins i tot en aquest cas pot no ser
cert o antiquat.

Arquitectura
del Sistema iPhrase
La
Figura 3 mostra com s'extreuen taxonomies de documents concrets. En aquest
exemple s'han extret noms de persona; per a cada persona es poden trobar i es
poden expressar dades diferents.
La
Figura 4 mostra el disseny del sistema iPhrase. La base de coneixement de domini
fa el mateix paper que el reglament de ClearForest. A més de la base de
coneixement, iPhrase ofereix una sofisticada interfície lingüística per
analitzar les consultes i associar-les a la base de dades, a més d'un component
de generació de respostes:
Al
lloc d'iPhrase es pot comprovar, mitjançant demostracions, la manera com aquest
sistema proporciona accés a la informació: http://www.iphrase.com/demo.
La seva anàlisi de dades permet tractar preguntes complexes i iteracions de
preguntes com ara:
Quines furgonetes tenen coixí de seguretat?
Disposa l'Astro també d'un lector de CD?
També
poden generar taules amb una perspectiva general que continguin preus i
propietats, i presentar-les als clients que ho demanin. Un cop feta la primera
pregunta, poden oferir una taula amb totes les furgonetes
disponibles equipades amb coixí de
seguretat i especificar altres dades com ara marques i preus. La segona
pregunta s'interpreta aleshores dins el context que s'ha creat per a la primera.
Gràcies a la rica base de dades de què disposa, iPhrase pot tractar la
pregunta al mateix nivell que una consulta SQL.
EasyAsk
és una empresa especialitzada justament en aquest àmbit. Han desenvolupat un
complet sistema de comerç electrònic en el qual les bases de dades relacionals
s'estenen amb un llenguatge natural a la interfície SQL. El sistema funciona
perquè reconeix algunes paraules en la consulta com a ordres SQL i d'altres com
a noms per taules. Una consulta com "Mostra'm totes les furgonetes amb coixí
de seguretat?" es pot tractar perquè Mostra'm és l'ordre i furgonetes
i coixins de seguretat són ítems que
pertanyen a unes taules concretes. El sistema cercarà productes que tinguin
relació amb els dos ítems de la taula i mostrarà una llista o una taula de
resultats. Per tant, la consulta no demana gaire processament per arribar a una
anàlisi de la consulta d'aquestes característiques. N'hi ha prou amb una
senzilla llista d'ordres, noms de taula i alguns sinònims.
Hi
ha una versió demo disponible a http://www.easyask.com/demo/.
Mentre que iPhrase dóna més importància a l'extracció de dades i l'anàlisi
lingüística de les preguntes i respostes, EasyAsk se centra més en una solució
genèrica que es pugui aplicar a qualsevol base de dades relacional. L'avantatge
que representa d'EasyAsk és que resulta senzill d'aplicar a qualsevol base de
dades existent sense que calgui a penes personalitzar-la.
La
propera fase dels sistemes comercials podria ser el desenvolupament de sistemes
de diàleg damunt la base de dades relacional. A començament dels vuitanta es
van desenvolupar diversos sistemes de diàleg (comercials i experimentals), una
bona visió global dels quals es pot trobar a Jönsson (1997). Òbviament, el diàleg
demana uns models i unes tècniques lingüístiques més sofisticats, com ara:
·
Entendre les preguntes
al nivell d'un acte de parla per diferenciar entre peticions,
ordres, aclariments, etc.
·
Analitzar
les referències anafòriques contingudes en les preguntes, com ara Puc
comprar-lo?, on -lo fa referència a una entitat prèvia.
·
Proporcionar
una resposta sobre quines preguntes es poden respondre i quines no: Hi
ha prop una piscina?
·
Proporcionar
una resposta sobre per què una pregunta no ha rebut cap contesta: processament
del llenguatge o adequació del contingut.
·
Fer
servir preguntes aclaridores de manera intel·ligent per resoldre ambigüitats o
limitar la quantitat d'informació que es dóna: una llista de 200 hotels pot
resultar excessiva.
El desenvolupament de bons sistemes de diàleg és difícil i delicat. L'ús dels sistemes que intenten imitar la mímica humana pot esdevenir fàcilment tediós, ja que la gent espera resultats i no vol perdre el temps amb una màquina que no entén les intencions ni els esforços comunicatius de l'usuari. Ara, si les bases de dades relacionals com les que acabem de veure s'estenen més i més en l'àmbit del comerç electrònic, sorgirà una necessitat cada vegada més gran d'accedir-hi amb uns sistemes de diàleg limitats. El sistema iPhrase ja hi treballa i aviat podrem gaudir de més sistemes similars.