|
La mineria de web
Utilitza tècniques
de mineria de dades per a descobrir automàticament i extreure informació
dels documents i serveis de la web.
- La mineria de web
es descompon en les tasques següents:
- Descobriment
de recursos: localitzar documents rellevants o no rellevants de
la xarxa. Aquesta és la funció dels índexs buscadors
(extreuen contingut basant-se en paraules, zones del document, idioma)
i dels índexs temàtics (classifiquen els documents).
- Extracció
d'informació: extreure determinada informació a partir
d'un document, independentment del format (HTML, XML, text, ps,
PDF, LaTeX, FAQ, etc.).
- Generalització:
descobrir patrons generals a partir de llocs web individuals: agrupament
de documents (clustering), associacions entre documents.
- Anàlisi,
validació i interpretació dels patrons.
La mineria de web
com a recuperació d'informació (Information Retrieval)
La IR persegueix seleccionar
documents rellevants.
Es dispara per consulta
(query-triggered).
- És una
visió més clàssica.
- És l'objectiu
de nombroses eines: buscadors i índexs.
- Les eines són
estadístiques clàssiques i ad-hoc.
La mineria de web
com a extracció d'informació (Information Extraction)
La IE persegueix extreure
fets rellevants a partir dels documents.
Es dispara per dades
(data-triggered).
- És una
visió més ambiciosa.
- Les eines són
més generals i d'aprenentatge automàtic.
|