| |
Obiettivi |
|
|
| |
L'obiettivo del corso è quello di fornire un'introduzione ai
concetti fondamentali, ai modelli formali, e alle tecniche per la realizzazione
di sistemi per la ricerca di documenti in forma digitale (altrimenti detti
"motori di ricerca"). Il corso introdurrà inoltre alcune applicazioni
avanzate di questa tecnologia, come la classificazione e il filtraggio
automatici di documenti in forma digitale, e la creazione di giornali
personalizzati.
Il corso fa parte dei minor
-
Basi di dati
-
Sistemi basati sulla conoscenza
-
Multimedia
|
| |
Descrizione |
|
|
| |
I motori di ricerca su WWW, quali AltaVista,
Excite
e Yahoo, sono l'odierna "punta
dell'iceberg"
dell'Information Retrieval, la disciplina che si occupa del progetto
di sistemi per la ricerca di documenti in forma digitale. La caratteristica
fondamentale di questa disciplina è l'impossibilità di
formalizzare
il concetto di "rilevanza di un documento a un bisogno informativo". Il
corso introdurrà quindi un insieme di tecniche per il progetto di
"motori di ricerca", incentrate su modelli quantitativi per la determinazione
del grado, o della probabilità, di rilevanza di un documento a un
bisogno informativo.
|
| |
Programma |
|
|
| |
-
Introduzione (5 ore).
-
Cosa è e cosa non è l'Information Retrieval (IR).
-
Documenti e bisogni informativi, e loro rappresentazione.
-
La non formalizzabilità della rilevanza. Probabilità e
parzialità.
-
Efficienza, efficacia, specificità ed esaustività.
-
Relevance feedback e riformulazione dell'interrogazione.
-
Valutazione dell'efficacia e sperimentazione.
-
Modelli dell'Information Retrieval e relative funzioni di
matching
(7 ore).
-
Il modello Booleano e il modello fuzzy.
-
Il modello vettoriale.
-
ll modello Booleano esteso.
-
I modelli probabilistici.
-
Tecniche di Information Retrieval dipendenti dal mezzo espressivo
(6 ore)
-
Le quattro dimensioni dell'Information Retrieval
-
Tecniche per documenti di tipo testo
-
Linguistica statistica e indicizzazione. Modelli probabilistici
dell'indicizzazione.
-
Uso di stop word removers e stemmers.
-
Uso di thesauri per la risoluzione della sinonimia.
-
Uso di disambiguatori di senso per la risoluzione della polisemia.
-
Temi ``avanzati'' di Information Retrieval (7 ore).
-
Information retrieval in presenza di documenti strutturati.
-
Multimedia information retrieval
-
Information retrieval multilingue
-
Categorizzazione automatica di documenti.
-
Applicazioni della categorizzazione automatica
-
L'approccio induttivo alla categorizzazione automatica
-
Tecniche di riduzione della dimensionalità.
-
Metodi induttivi per la costruzione di categorizzatori.
-
Problematiche di sperimentazione.
-
Categorizzazione automatica di pagine Web
Programma delle esercitazioni (8 ore)
-
Motori di ricerca per WorldWideWeb.
-
L'Information Retrieval e la ricerca di documenti su WWW.
-
Tipologie di motori di ricerca WWW.
-
Anatomia di un motore di ricerca WWW.
-
Problematiche tipiche dei motori di ricerca WWW.
-
HARVEST: Un motore di ricerca WWW public-domain.
-
Descrizione dei componenti di HARVEST.
-
Configurazione dei componenti di HARVEST.
-
Rappresentazione interna dei documenti.
-
Motori di ricerca WWW avanzati.
-
Motori di ricerca WWW e struttura ipertestuale.
-
Motori di ricerca WWW multimediali.
|
| |
Riferimenti bibliografici |
|
|
| |
-
Bibliografia essenziale
-
Fabrizio Sebastiani. Models of information retrieval. Servizio
Editoriale
Universitario, Pisa, 1998.
-
Giuseppe Amato, Pasquale Savino e Fabrizio Sebastiani. Multimedia
information
retrieval. Servizio Editoriale Universitario, Pisa, 1998.
-
Consultazione
-
Ricardo Baeza-Yates e Berthier Ribeiro-Neto. Modern Information
Retrieval.
Addison Wesley, Reading, US, 1999. (Disponibile presso la biblioteca
dell'Istituto
di Elaborazione dell'Informazione del CNR).
-
Karen Sparck Jones e Peter Willett (editors). Readings in Information
Retrieval. Morgan Kaufmann Publishers, San Mateo, US, 1997. (Disponibile
presso la biblioteca del Dipartimento di Informatica e presso la biblioteca
dell'Istituto di Elaborazione dell'Informazione del CNR).
-
Robert R. Korfhage. Information Storage and Retrieval. John Wiley
and Sons, New York, US, 1997. (Disponibile presso la biblioteca del
Dipartimento
di Informatica e presso la biblioteca dell'Istituto di Elaborazione
dell'Informazione
del CNR).
-
Cornelis J. van Rijsbergen. Information retrieval (2nd edition).
Butterworths, London, GB, 1979. Disponibile presso la biblioteca dell'Istituto
di Elaborazione dell'Informazione del CNR e, in forma ipertestuale,
all'indirizzo
http:/
/www.dei.unipd.it/~melo/bible/bible_home_page.html
|
| |
E-mail del docente: fabrizio@iei.pi.cnr.it
Pagina Web del corso: http://faure.iei.pi.cnr.it/~fabrizio/BDR.html
|
|
|