Inici
Mineria de web

  Taxonomia mineria

  Agents intel·ligents
  Agents i mineria de web
Aplicacions
Conclusions
Mapa del web

La mineria de web

Utilitza tècniques de mineria de dades per a descobrir automàticament i extreure informació dels documents i serveis de la web.

La mineria de web es descompon en les tasques següents:
  • Descobriment de recursos: localitzar documents rellevants o no rellevants de la xarxa. Aquesta és la funció dels índexs buscadors (extreuen contingut basant-se en paraules, zones del document, idioma) i dels índexs temàtics (classifiquen els documents).
  • Extracció d'informació: extreure determinada informació a partir d'un document, independentment del format (HTML, XML, text, ps, PDF, LaTeX, FAQ, etc.).
  • Generalització: descobrir patrons generals a partir de llocs web individuals: agrupament de documents (clustering), associacions entre documents.
  • Anàlisi, validació i interpretació dels patrons.

La mineria de web com a recuperació d'informació (Information Retrieval)

La IR persegueix seleccionar documents rellevants.

Es dispara per consulta (query-triggered).

  • És una visió més clàssica.
  • És l'objectiu de nombroses eines: buscadors i índexs.
  • Les eines són estadístiques clàssiques i ad-hoc.

La mineria de web com a extracció d'informació (Information Extraction)

La IE persegueix extreure fets rellevants a partir dels documents.

Es dispara per dades (data-triggered).

  • És una visió més ambiciosa.
  • Les eines són més generals i d'aprenentatge automàtic.
© MĒ Dolores Vicente Luque. Estudis d'Informaciķ i Documentaciķ de la UOC.
Darrera modificació