Oportunitats per a l'enginyeria lingstica
                                                                                                               



1. Introducci | 2. Etapes d'anlisi, d'emmagatzematge i d'accs a la informaci |
 3. ndex i cerca | 4. Classificar i navegar | 5. Extracci de dades i sistemes pregunta-resposta |
6. Altres desenvolupaments

 

5. Extracci de dades i sistemes de pregunta-resposta

Un catleg pot estar dissenyat d'acord amb una estructura jerrquica, igual com una classificaci, per les jerarquies, en el cas del catleg, resulten menys complexes i intenses. El ms interessant dels catlegs sn les caracterstiques que defineixen els productes. Aix, sovint podem observar als llocs web de comer electrnic descripcions de les caracterstiques (preus, data de lliurament, colors, mides, quantitat) i un nombre limitat d'opcions. Aquesta estructura permet ser emmagatzemada en una base de dades relacional, amb la qual cosa, un cop emmagatzemada, hi podem fer preguntes molt especfiques sobre productes amb unes caracterstiques concretes. Es tracta doncs d'una informaci tant ontolgica com factual, i sn les limitacions ontolgiques les que dictaminen les propietats o les caracterstiques del producte o el tipus de producte. En darrer terme, aquest s el model que mostrar la base de dades. Tot plegat, els mateixos productes (nmeros de srie) i el seu estatus (les propietats en si) es poden considerar com els fets que s'expressen a les taules d'una base de dades. 

Moltes empreses desenvolupen en aquests moments sistemes per emmagatzemar "coneixement" sofisticat en bases de dades amb la idea de proporcionar accs a aquest coneixement. En tant que la informaci hi s present en forma de documents, la informaci general i el suport de productes s'hi poden aplicar a travs de la indexaci i la classificaci, tal com s'ha descrit ms amunt. Aix, per, no condueix al coneixement especfic: per tal d'obtenir un coneixement ms detallat, hi ha empreses que emmagatzemen preguntes i respostes especfiques en bases de dades. D'aquesta manera, ofereixen solucions a problemes concrets. Diferents tipus de coneixement es munten de diferents maneres. No els analitzar tots, per s que n'esmentar exemples per donar-ne una perspectiva general.  

Relacions a ClearForest
La soluci ms senzilla s emmagatzemar o "enllaunar" preguntes i respostes de la manera que ho fa AskJeeves per a la informaci general. Hi ha empreses que ho fan a travs de l'emmagatzematge de problemes i solucions concrets ja coneguts per a un producte. Aquesta informaci, de vegades, s'extrau manualment de documents i manuals, que en alguns casos es basen en el sistema PMF ('preguntes ms freqents'), i d'altres vegades es fa a travs del registre de consultes de l'usuari i respostes, o mitjanant algun tipus de dileg de diagnstic que extregui coneixement de la resposta a consultes i que generi possibles preguntes relacionades amb aquell coneixement. Com que desenvolupen aquests sistemes per a clients concrets, poden perfectament crear sistemes de suport d'una alta sofisticaci per integrar-los en, per exemple, centres d'atenci telefnica o serveis d'assistncia tcnica.

Dos exemples d'aquesta mena d'empreses es poden trobar a:  

ServiceWare (http://www.serviceware.com/) 
Demo
: http://www.serviceware.com/solutions/essdemo.asp  

Primus (http://www.primus.com/)  

Demo
: http://www.primus.com/search.asp
 

El fet que aquestes empreses es dediquen sobretot a tecnologia relacionada amb l'mbit de preguntes i respostes dna la impressi que automatitzen l'explotaci de coneixement. Tanmateix, la seva tasca consisteix bsicament en retallar els costos de les empreses amb una automatitzaci intelligent d'alguns dels seus serveis de suport.  

No cal dir que algunes d'aquestes empreses no confien necessriament en l'enginyeria lingstica, per no s'esdev el mateix amb les empreses que es dediquen a extreure coneixement a partir de dades estructurades (bases de dades) i no estructurades (text) proporcionades pels clients. El procs clau s l'extracci de la informaci, la qual es basa en part en l'enginyeria lingstica i en part en el coneixement del domini. El coneixement de domini funciona com una ontologia que limita la possible informaci cercada. L'enginyeria lingstica s'utilitza per extreure informaci del text que coincideix amb aquesta ontologia. Aix, el procs consisteix bsicament en el farciment de plantilles, en qu l'ontologia defineix les possibles plantilles i l'anlisi textual en dna com a resultat el farciment. Com que l'ontologia s petita i explcita, la part de comprensi del llenguatge pot extreure'n dades fiables. Noms interpretar expressions i frases que tinguin sentit dins el marc interpretatiu de l'ontologia, amb la qual cosa resultar evident que les diferncies composicionals, com en el cas de poisonous medicine ('medicament txic') i medicine for poisoning ('medicament contra la intoxicaci'), sn essencials per a l'extracci d'informaci.

Per ampliar dades sobre aquests sistemes d'extracci d'informaci, podeu consultar Gaizauskas i Humpreys (1997).  

Com a exemples de sistemes comercials que es dediquen sobretot a l'extracci d'informaci podem esmentar:  

iPhrase: http://www.iphrase.com/  
ClearForest (http://www.clearforest.com/)

Totes dues empreses utilitzen tcniques lingstiques per interpretar el text i les frases amb vista a emplenar plantilles sobre productes i extreure ontologies. A la Figura 2 es pot comprovar l'arquitectura que utilitza ClearForest: es fa servir una definici dels conceptes i les relacions en forma de "reglament" per extreure el contingut del text, i els reglaments es munten prviament per als dominis.

Taxonomia ClearForest

Els ndexs sn accessibles a travs de la recuperaci de paraules o motors de cerca. Teclejant unes paraules clau es poden obtenir els documents o pgines HTML que ms coincideixen amb aquestes paraules clau. El resultat s, doncs, una llista jerrquica de documents o URL. Hi ha diferents maneres de muntar aquests ndexs o d'analitzar les paraules clau, de combinar-les i expandir-les, i les tcniques lingstiques es poden integrar fcilment amb la tecnologia elemental del motor de cerca. Aix es pot fer a una escala bsica millorant l'anlisi de la indexaci i de la consulta, per tamb com un afegit en forma de summarizers, a ms de millorar el reconeixement de llenguatges, el suport de diversos llenguatges, associant les consultes amb documents en altres llenges... 

Un ndex es pot considerar com una simple llista de termes normalitzats, un tipus de llista que pot significar el punt de partida per al desenvolupament d'una jerarquia o un arbre. Una jerarquia s una mena de classificaci de dades o de documents per on es pot navegar com si fos un arbre, anant dels conceptes o les classes ms generals als ms especfics (per exemple, d'Sports a Ball Sports o Water Sports). A cada node de l'arbre hi podem trobar un grup de documents que estan relacionats amb el concepte. Hi ha diferents tipus de jerarquies, tal com veurem ms endavant: tesaurus, taxonomia, ontologia. Podrem dir que un tesaurus es pot considerar com un ram ms global de paraules, documents o objectes pertanyents a alguna categoria (l'anomenada faceta). En canvi, les taxonomies i les ontologies sn jerarquies de tots els objectes possibles i les seves propietats, definides ms estrictament. L'enginyeria lingstica resulta til per associar paraules i expressions a conceptes de l'ontologia, s a dir, trobar el significat correcte de les paraules a ms de minimalitzar l'ontologia i relacionar automticament els documents o termes als nodes de l'ontologia. Les ontologies i les classificacions ja sn presents a Internet de moltes maneres, sobretot com a recursos esttics (per exemple, les classificacions o els catlegs de productes de Yahoo). 

Una ontologia sempre captura relacions genriques entre conceptes o classes, per no captura fets especfics sobre exemples d'aquests conceptes. Una ontologia pot consignar que una empresa t empleats, per un fet consignar que una empresa concreta t unes persones concretes com a empleats. Tot i que una ontologia pot ajudar en l'extracci de fets (defineix tots els fets possibles), no estipula quin s el cas en un cert moment del temps. Les ontologies sn ms persistents a travs del temps (per exemple, un estat pot tenir president), mentre que els fets es concentren en un moment del temps determinat (Clinton s el president dels EUA). Tant els fets com les ontologies es poden extreure de dades textuals, per el procs d'extracci s molt diferent per cadascun. Les relacions ontolgiques poden ser el resultat de l'anlisi de grans quantitats de dades, en qu es poden descobrir alguns models freqents, mentre que un fet es pot expressar noms un cop, i fins i tot en aquest cas pot no ser cert o antiquat.
Arquitectura del Sistema iPhrase

La Figura 3 mostra com s'extreuen taxonomies de documents concrets. En aquest exemple s'han extret noms de persona; per a cada persona es poden trobar i es poden expressar dades diferents.  

La Figura 4 mostra el disseny del sistema iPhrase. La base de coneixement de domini fa el mateix paper que el reglament de ClearForest. A ms de la base de coneixement, iPhrase ofereix una sofisticada interfcie lingstica per analitzar les consultes i associar-les a la base de dades, a ms d'un component de generaci de respostes:

Al lloc d'iPhrase es pot comprovar, mitjanant demostracions, la manera com aquest sistema proporciona accs a la informaci: http://www.iphrase.com/demo. La seva anlisi de dades permet tractar preguntes complexes i iteracions de preguntes com ara: 

Quines furgonetes tenen coix de seguretat?
Disposa l'Astro tamb d'un lector de CD?
 

Tamb poden generar taules amb una perspectiva general que continguin preus i propietats, i presentar-les als clients que ho demanin. Un cop feta la primera pregunta, poden oferir una taula amb totes les furgonetes disponibles equipades amb coix de seguretat i especificar altres dades com ara marques i preus. La segona pregunta s'interpreta aleshores dins el context que s'ha creat per a la primera. Grcies a la rica base de dades de qu disposa, iPhrase pot tractar la pregunta al mateix nivell que una consulta SQL.

 EasyAsk s una empresa especialitzada justament en aquest mbit. Han desenvolupat un complet sistema de comer electrnic en el qual les bases de dades relacionals s'estenen amb un llenguatge natural a la interfcie SQL. El sistema funciona perqu reconeix algunes paraules en la consulta com a ordres SQL i d'altres com a noms per taules. Una consulta com "Mostra'm totes les furgonetes amb coix de seguretat?" es pot tractar perqu Mostra'm s l'ordre i furgonetes i coixins de seguretat sn tems que pertanyen a unes taules concretes. El sistema cercar productes que tinguin relaci amb els dos tems de la taula i mostrar una llista o una taula de resultats. Per tant, la consulta no demana gaire processament per arribar a una anlisi de la consulta d'aquestes caracterstiques. N'hi ha prou amb una senzilla llista d'ordres, noms de taula i alguns sinnims.

Hi ha una versi demo disponible a http://www.easyask.com/demo/. Mentre que iPhrase dna ms importncia a l'extracci de dades i l'anlisi lingstica de les preguntes i respostes, EasyAsk se centra ms en una soluci genrica que es pugui aplicar a qualsevol base de dades relacional. L'avantatge que representa d'EasyAsk s que resulta senzill d'aplicar a qualsevol base de dades existent sense que calgui a penes personalitzar-la.

La propera fase dels sistemes comercials podria ser el desenvolupament de sistemes de dileg damunt la base de dades relacional. A comenament dels vuitanta es van desenvolupar diversos sistemes de dileg (comercials i experimentals), una bona visi global dels quals es pot trobar a Jnsson (1997). bviament, el dileg demana uns models i unes tcniques lingstiques ms sofisticats, com ara:

         Entendre les preguntes al nivell d'un acte de parla per diferenciar entre peticions, ordres, aclariments, etc.

         Analitzar les referncies anafriques contingudes en les preguntes, com ara Puc comprar-lo?, on -lo fa referncia a una entitat prvia.

         Proporcionar una resposta sobre quines preguntes es poden respondre i quines no: Hi ha prop una piscina?

         Proporcionar una resposta sobre per qu una pregunta no ha rebut cap contesta: processament del llenguatge o adequaci del contingut.

         Fer servir preguntes aclaridores de manera intelligent per resoldre ambigitats o limitar la quantitat d'informaci que es dna: una llista de 200 hotels pot resultar excessiva.

El desenvolupament de bons sistemes de dileg s difcil i delicat. L's dels sistemes que intenten imitar la mmica humana pot esdevenir fcilment tedis, ja que la gent espera resultats i no vol perdre el temps amb una mquina que no entn les intencions ni els esforos comunicatius de l'usuari. Ara, si les bases de dades relacionals com les que acabem de veure s'estenen ms i ms en l'mbit del comer electrnic, sorgir una necessitat cada vegada ms gran d'accedir-hi amb uns sistemes de dileg limitats. El sistema iPhrase ja hi treballa i aviat podrem gaudir de ms sistemes similars.

 esq_a.gif (165 bytes)  dre_a.gif (166 bytes)