Oportunitats per a l'enginyeria lingüística
                                                                                                               



1. Introducció | 2. Etapes d'anàlisi, d'emmagatzematge i d'accés a la informació |
 3. Índex i cerca | 4. Classificar i navegar | 5. Extracció de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

5. Extracció de dades i sistemes de pregunta-resposta

Un catàleg pot estar dissenyat d'acord amb una estructura jeràrquica, igual com una classificació, però les jerarquies, en el cas del catàleg, resulten menys complexes i intenses. El més interessant dels catàlegs són les característiques que defineixen els productes. Així, sovint podem observar als llocs web de comerç electrònic descripcions de les característiques (preus, data de lliurament, colors, mides, quantitat) i un nombre limitat d'opcions. Aquesta estructura permet ser emmagatzemada en una base de dades relacional, amb la qual cosa, un cop emmagatzemada, hi podem fer preguntes molt específiques sobre productes amb unes característiques concretes. Es tracta doncs d'una informació tant ontològica com factual, i són les limitacions ontològiques les que dictaminen les propietats o les característiques del producte o el tipus de producte. En darrer terme, aquest és el model que mostrarà la base de dades. Tot plegat, els mateixos productes (números de sèrie) i el seu estatus (les propietats en si) es poden considerar com els fets que s'expressen a les taules d'una base de dades. 

Moltes empreses desenvolupen en aquests moments sistemes per emmagatzemar "coneixement" sofisticat en bases de dades amb la idea de proporcionar accés a aquest coneixement. En tant que la informació hi és present en forma de documents, la informació general i el suport de productes s'hi poden aplicar a través de la indexació i la classificació, tal com s'ha descrit més amunt. Això, però, no condueix al coneixement específic: per tal d'obtenir un coneixement més detallat, hi ha empreses que emmagatzemen preguntes i respostes específiques en bases de dades. D'aquesta manera, ofereixen solucions a problemes concrets. Diferents tipus de coneixement es munten de diferents maneres. No els analitzaré tots, però sí que n'esmentaré exemples per donar-ne una perspectiva general.  

Relacions a ClearForest
La solució més senzilla és emmagatzemar o "enllaunar" preguntes i respostes de la manera que ho fa AskJeeves per a la informació general. Hi ha empreses que ho fan a través de l'emmagatzematge de problemes i solucions concrets ja coneguts per a un producte. Aquesta informació, de vegades, s'extrau manualment de documents i manuals, que en alguns casos es basen en el sistema PMF ('preguntes més freqüents'), i d'altres vegades es fa a través del registre de consultes de l'usuari i respostes, o mitjançant algun tipus de diàleg de diagnòstic que extregui coneixement de la resposta a consultes i que generi possibles preguntes relacionades amb aquell coneixement. Com que desenvolupen aquests sistemes per a clients concrets, poden perfectament crear sistemes de suport d'una alta sofisticació per integrar-los en, per exemple, centres d'atenció telefònica o serveis d'assistència tècnica.

Dos exemples d'aquesta mena d'empreses es poden trobar a:  

ServiceWare (http://www.serviceware.com/) 
Demo
: http://www.serviceware.com/solutions/essdemo.asp  

Primus (http://www.primus.com/)  

Demo
: http://www.primus.com/search.asp
 

El fet que aquestes empreses es dediquen sobretot a tecnologia relacionada amb l'àmbit de preguntes i respostes dóna la impressió que automatitzen l'explotació de coneixement. Tanmateix, la seva tasca consisteix bàsicament en retallar els costos de les empreses amb una automatització intel·ligent d'alguns dels seus serveis de suport.  

No cal dir que algunes d'aquestes empreses no confien necessàriament en l'enginyeria lingüística, però no s'esdevé el mateix amb les empreses que es dediquen a extreure coneixement a partir de dades estructurades (bases de dades) i no estructurades (text) proporcionades pels clients. El procés clau és l'extracció de la informació, la qual es basa en part en l'enginyeria lingüística i en part en el coneixement del domini. El coneixement de domini funciona com una ontologia que limita la possible informació cercada. L'enginyeria lingüística s'utilitza per extreure informació del text que coincideix amb aquesta ontologia. Així, el procés consisteix bàsicament en el farciment de plantilles, en què l'ontologia defineix les possibles plantilles i l'anàlisi textual en dóna com a resultat el farciment. Com que l'ontologia és petita i explícita, la part de comprensió del llenguatge pot extreure'n dades fiables. Només interpretarà expressions i frases que tinguin sentit dins el marc interpretatiu de l'ontologia, amb la qual cosa resultarà evident que les diferències composicionals, com en el cas de poisonous medicine ('medicament tòxic') i medicine for poisoning ('medicament contra la intoxicació'), són essencials per a l'extracció d'informació.

Per ampliar dades sobre aquests sistemes d'extracció d'informació, podeu consultar Gaizauskas i Humpreys (1997).  

Com a exemples de sistemes comercials que es dediquen sobretot a l'extracció d'informació podem esmentar:  

iPhrase: http://www.iphrase.com/  
ClearForest (http://www.clearforest.com/)

Totes dues empreses utilitzen tècniques lingüístiques per interpretar el text i les frases amb vista a emplenar plantilles sobre productes i extreure ontologies. A la Figura 2 es pot comprovar l'arquitectura que utilitza ClearForest: es fa servir una definició dels conceptes i les relacions en forma de "reglament" per extreure el contingut del text, i els reglaments es munten prèviament per als dominis.

Taxonomia ClearForest

Els índexs són accessibles a través de la recuperació de paraules o motors de cerca. Teclejant unes paraules clau es poden obtenir els documents o pàgines HTML que més coincideixen amb aquestes paraules clau. El resultat és, doncs, una llista jeràrquica de documents o URL. Hi ha diferents maneres de muntar aquests índexs o d'analitzar les paraules clau, de combinar-les i expandir-les, i les tècniques lingüístiques es poden integrar fàcilment amb la tecnologia elemental del motor de cerca. Això es pot fer a una escala bàsica millorant l'anàlisi de la indexació i de la consulta, però també com un afegit en forma de summarizers, a més de millorar el reconeixement de llenguatges, el suport de diversos llenguatges, associant les consultes amb documents en altres llengües... 

Un índex es pot considerar com una simple llista de termes normalitzats, un tipus de llista que pot significar el punt de partida per al desenvolupament d'una jerarquia o un arbre. Una jerarquia és una mena de classificació de dades o de documents per on es pot navegar com si fos un arbre, anant dels conceptes o les classes més generals als més específics (per exemple, d'Sports a Ball Sports o Water Sports). A cada node de l'arbre hi podem trobar un grup de documents que estan relacionats amb el concepte. Hi ha diferents tipus de jerarquies, tal com veurem més endavant: tesaurus, taxonomia, ontologia. Podríem dir que un tesaurus es pot considerar com un raïm més global de paraules, documents o objectes pertanyents a alguna categoria (l'anomenada faceta). En canvi, les taxonomies i les ontologies són jerarquies de tots els objectes possibles i les seves propietats, definides més estrictament. L'enginyeria lingüística resulta útil per associar paraules i expressions a conceptes de l'ontologia, és a dir, trobar el significat correcte de les paraules a més de minimalitzar l'ontologia i relacionar automàticament els documents o termes als nodes de l'ontologia. Les ontologies i les classificacions ja són presents a Internet de moltes maneres, sobretot com a recursos estàtics (per exemple, les classificacions o els catàlegs de productes de Yahoo). 

Una ontologia sempre captura relacions genèriques entre conceptes o classes, però no captura fets específics sobre exemples d'aquests conceptes. Una ontologia pot consignar que una empresaempleats, però un fet consignarà que una empresa concreta té unes persones concretes com a empleats. Tot i que una ontologia pot ajudar en l'extracció de fets (defineix tots els fets possibles), no estipula quin és el cas en un cert moment del temps. Les ontologies són més persistents a través del temps (per exemple, un estat pot tenir president), mentre que els fets es concentren en un moment del temps determinat (Clinton és el president dels EUA). Tant els fets com les ontologies es poden extreure de dades textuals, però el procés d'extracció és molt diferent per cadascun. Les relacions ontològiques poden ser el resultat de l'anàlisi de grans quantitats de dades, en què es poden descobrir alguns models freqüents, mentre que un fet es pot expressar només un cop, i fins i tot en aquest cas pot no ser cert o antiquat.
Arquitectura del Sistema iPhrase

La Figura 3 mostra com s'extreuen taxonomies de documents concrets. En aquest exemple s'han extret noms de persona; per a cada persona es poden trobar i es poden expressar dades diferents.  

La Figura 4 mostra el disseny del sistema iPhrase. La base de coneixement de domini fa el mateix paper que el reglament de ClearForest. A més de la base de coneixement, iPhrase ofereix una sofisticada interfície lingüística per analitzar les consultes i associar-les a la base de dades, a més d'un component de generació de respostes:

Al lloc d'iPhrase es pot comprovar, mitjançant demostracions, la manera com aquest sistema proporciona accés a la informació: http://www.iphrase.com/demo. La seva anàlisi de dades permet tractar preguntes complexes i iteracions de preguntes com ara: 

Quines furgonetes tenen coixí de seguretat?
Disposa l'Astro també d'un lector de CD?
 

També poden generar taules amb una perspectiva general que continguin preus i propietats, i presentar-les als clients que ho demanin. Un cop feta la primera pregunta, poden oferir una taula amb totes les furgonetes disponibles equipades amb coixí de seguretat i especificar altres dades com ara marques i preus. La segona pregunta s'interpreta aleshores dins el context que s'ha creat per a la primera. Gràcies a la rica base de dades de què disposa, iPhrase pot tractar la pregunta al mateix nivell que una consulta SQL.

 EasyAsk és una empresa especialitzada justament en aquest àmbit. Han desenvolupat un complet sistema de comerç electrònic en el qual les bases de dades relacionals s'estenen amb un llenguatge natural a la interfície SQL. El sistema funciona perquè reconeix algunes paraules en la consulta com a ordres SQL i d'altres com a noms per taules. Una consulta com "Mostra'm totes les furgonetes amb coixí de seguretat?" es pot tractar perquè Mostra'm és l'ordre i furgonetes i coixins de seguretat són ítems que pertanyen a unes taules concretes. El sistema cercarà productes que tinguin relació amb els dos ítems de la taula i mostrarà una llista o una taula de resultats. Per tant, la consulta no demana gaire processament per arribar a una anàlisi de la consulta d'aquestes característiques. N'hi ha prou amb una senzilla llista d'ordres, noms de taula i alguns sinònims.

Hi ha una versió demo disponible a http://www.easyask.com/demo/. Mentre que iPhrase dóna més importància a l'extracció de dades i l'anàlisi lingüística de les preguntes i respostes, EasyAsk se centra més en una solució genèrica que es pugui aplicar a qualsevol base de dades relacional. L'avantatge que representa d'EasyAsk és que resulta senzill d'aplicar a qualsevol base de dades existent sense que calgui a penes personalitzar-la.

La propera fase dels sistemes comercials podria ser el desenvolupament de sistemes de diàleg damunt la base de dades relacional. A començament dels vuitanta es van desenvolupar diversos sistemes de diàleg (comercials i experimentals), una bona visió global dels quals es pot trobar a Jönsson (1997). Òbviament, el diàleg demana uns models i unes tècniques lingüístiques més sofisticats, com ara:

·         Entendre les preguntes al nivell d'un acte de parla per diferenciar entre peticions, ordres, aclariments, etc.

·         Analitzar les referències anafòriques contingudes en les preguntes, com ara Puc comprar-lo?, on -lo fa referència a una entitat prèvia.

·         Proporcionar una resposta sobre quines preguntes es poden respondre i quines no: Hi ha prop una piscina?

·         Proporcionar una resposta sobre per què una pregunta no ha rebut cap contesta: processament del llenguatge o adequació del contingut.

·         Fer servir preguntes aclaridores de manera intel·ligent per resoldre ambigüitats o limitar la quantitat d'informació que es dóna: una llista de 200 hotels pot resultar excessiva.

El desenvolupament de bons sistemes de diàleg és difícil i delicat. L'ús dels sistemes que intenten imitar la mímica humana pot esdevenir fàcilment tediós, ja que la gent espera resultats i no vol perdre el temps amb una màquina que no entén les intencions ni els esforços comunicatius de l'usuari. Ara, si les bases de dades relacionals com les que acabem de veure s'estenen més i més en l'àmbit del comerç electrònic, sorgirà una necessitat cada vegada més gran d'accedir-hi amb uns sistemes de diàleg limitats. El sistema iPhrase ja hi treballa i aviat podrem gaudir de més sistemes similars.

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)