4I095   BDR   1 semestre     home
Basi di Dati e Sistemi Informativi: Recupero di Documenti  
     
  Fabrizio Sebastiani      
   
 
 
Obiettivi
 
   
  L'obiettivo del corso è quello di fornire un'introduzione ai concetti fondamentali, ai modelli formali, e alle tecniche per la realizzazione di sistemi per la ricerca di documenti in forma digitale (altrimenti detti "motori di ricerca"). Il corso introdurrà inoltre alcune applicazioni avanzate di questa tecnologia, come la classificazione e il filtraggio automatici di documenti in forma digitale, e la creazione di giornali personalizzati. Il corso fa parte dei minor
  • Basi di dati
  • Sistemi basati sulla conoscenza
  • Multimedia
   
 
 
Descrizione
 
   
  I motori di ricerca su WWW, quali AltaVista, Excite e Yahoo, sono l'odierna "punta dell'iceberg" dell'Information Retrieval, la disciplina che si occupa del progetto di sistemi per la ricerca di documenti in forma digitale. La caratteristica fondamentale di questa disciplina è l'impossibilità di formalizzare il concetto di "rilevanza di un documento a un bisogno informativo". Il corso introdurrà quindi un insieme di tecniche per il progetto di "motori di ricerca", incentrate su modelli quantitativi per la determinazione del grado, o della probabilità, di rilevanza di un documento a un bisogno informativo.
   
 
 
Programma
 
   
 
  1. Introduzione (5 ore).
    • Cosa è e cosa non è l'Information Retrieval (IR).
    • Documenti e bisogni informativi, e loro rappresentazione.
    • La non formalizzabilità della rilevanza. Probabilità e parzialità.
    • Efficienza, efficacia, specificità ed esaustività.
    • Relevance feedback e riformulazione dell'interrogazione.
    • Valutazione dell'efficacia e sperimentazione.
  2. Modelli dell'Information Retrieval e relative funzioni di matching (7 ore).
    • Il modello Booleano e il modello fuzzy.
    • Il modello vettoriale.
    • ll modello Booleano esteso.
    • I modelli probabilistici.
  3. Tecniche di Information Retrieval dipendenti dal mezzo espressivo (6 ore)
    • Le quattro dimensioni dell'Information Retrieval
    • Tecniche per documenti di tipo testo
      • Linguistica statistica e indicizzazione. Modelli probabilistici dell'indicizzazione.
      • Uso di stop word removers e stemmers.
      • Uso di thesauri per la risoluzione della sinonimia.
      • Uso di disambiguatori di senso per la risoluzione della polisemia.
  4. Temi ``avanzati'' di Information Retrieval (7 ore).
    • Information retrieval in presenza di documenti strutturati.
    • Multimedia information retrieval
    • Information retrieval multilingue
    • Categorizzazione automatica di documenti.
      • Applicazioni della categorizzazione automatica
      • L'approccio induttivo alla categorizzazione automatica
      • Tecniche di riduzione della dimensionalità.
      • Metodi induttivi per la costruzione di categorizzatori.
      • Problematiche di sperimentazione.
      • Categorizzazione automatica di pagine Web


Programma delle esercitazioni (8 ore)

  1. Motori di ricerca per WorldWideWeb.
    • L'Information Retrieval e la ricerca di documenti su WWW.
      • Tipologie di motori di ricerca WWW.
      • Anatomia di un motore di ricerca WWW.
      • Problematiche tipiche dei motori di ricerca WWW.
    • HARVEST: Un motore di ricerca WWW public-domain.
      • Descrizione dei componenti di HARVEST.
      • Configurazione dei componenti di HARVEST.
      • Rappresentazione interna dei documenti.
    • Motori di ricerca WWW avanzati.
      • Motori di ricerca WWW e struttura ipertestuale.
      • Motori di ricerca WWW multimediali.
   
 
 
Riferimenti bibliografici
 
   
 
  • Bibliografia essenziale
    • Fabrizio Sebastiani. Models of information retrieval. Servizio Editoriale Universitario, Pisa, 1998.
    • Giuseppe Amato, Pasquale Savino e Fabrizio Sebastiani. Multimedia information retrieval. Servizio Editoriale Universitario, Pisa, 1998.
  • Consultazione
    • Ricardo Baeza-Yates e Berthier Ribeiro-Neto. Modern Information Retrieval. Addison Wesley, Reading, US, 1999. (Disponibile presso la biblioteca dell'Istituto di Elaborazione dell'Informazione del CNR).
    • Karen Sparck Jones e Peter Willett (editors). Readings in Information Retrieval. Morgan Kaufmann Publishers, San Mateo, US, 1997. (Disponibile presso la biblioteca del Dipartimento di Informatica e presso la biblioteca dell'Istituto di Elaborazione dell'Informazione del CNR).
    • Robert R. Korfhage. Information Storage and Retrieval. John Wiley and Sons, New York, US, 1997. (Disponibile presso la biblioteca del Dipartimento di Informatica e presso la biblioteca dell'Istituto di Elaborazione dell'Informazione del CNR).
    • Cornelis J. van Rijsbergen. Information retrieval (2nd edition). Butterworths, London, GB, 1979. Disponibile presso la biblioteca dell'Istituto di Elaborazione dell'Informazione del CNR e, in forma ipertestuale, all'indirizzo http:/ /www.dei.unipd.it/~melo/bible/bible_home_page.html
   
 
 
E-mail del docente: fabrizio@iei.pi.cnr.it
Pagina Web del corso: http://faure.iei.pi.cnr.it/~fabrizio/BDR.html



   
 
Informazioni a cura della
Segreteria Didattica
Progetto R.O.S.I., pagina generata automaticamente