Università di Pisa – A.A. 2005-2006

Analisi dei dati ed estrazione di conoscenza

Corso di Laurea Specialistica in Informatica per l’Economia e per l’Azienda

Docente: Fosca Giannotti – ISTI – CNR

Tutor di Laboratorio: Mirco Nanni – ISTI – CNR

 

Vai a: Orario, Calendario delle lezioni, Libro di testo, Verifiche anni precedenti

 

News: 

Verbalizzazione esami: prossimo appuntamento utile in occasione dell'appello di luglio (presidente supplente dr. S. Ruggieri), oppure a settembre su appuntamento

 

 

 

 

 

 

 

 

Obiettivo del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza.  Il corso consiste delle seguenti parti:

Una parte preliminare dove si introducono i concetti essenziali del processo di estrazione della conoscenza; la preparazione dei dati e l’esplorazione dei dati.

Una parte centrale dove si introducono le principali tecniche di data mining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;

Una parte più metodologica dove si visiteranno alcune casi di studio nell’ambito del marketing, del rilevamento di frodi e del supporto alla gestione clienti.

Una lezione introdurrà gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Orario:   Lunedì 14-16, Aula A1, Giovedì 16-18 Aula A


Università di Pisa – A.A. 2004-2005

Tecniche di Data Mining

Corso di Laurea Specialistica in Informatica/Tecnologie Informatiche

Docente: Dino Pedreschi Università di Pisa

Tutor di Laboratorio: Mirco Nanni – ISTI – CNR

 

Vai al: Orario, Calendario delle lezioni, Libro di testo, Verifiche anni precedenti

 

News: 

Verbalizzazione esami: prossimo appuntamento utile in occasione dell'appello di luglio (presidente supplente dr. S. Ruggieri), oppure a settembre su appuntamento

 

 

 

 

 

 

 

Obiettivo del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi e il Web mining. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza.  Il corso consiste delle seguenti parti:

Una parte preliminare dove si introducono i concetti essenziali del processo di estrazione della conoscenza; la preparazione dei dati e l’esplorazione dei dati.

Una parte centrale dove si introducono le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si accenneranno gli aspetti formali e implementativi;

Una parte di approfondimento degli algoritmi disponibili per le varie tecniche. Altri tipi di pattern da estrarre. Aspetti di scalabilità degli algoritmi

Una lezione introdurrà gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

L’ultima parte del corso è dedicata a seminari degli studenti su aspetti avanzati

La prima parte del corso sarà effettuata in congiunzione con il corso di “Analisi dei dati ed Estrazione di conoscenza” tenuto dalla prof.ssa  Giannotti nell’ambito del corso di laurea in Informatica per l’Economia e l’Azienda

Orario:   Lunedì 14-16, Aula A1, Giovedì 16-18 Aula A

 


Calendario delle lezioni

1.       Lezione Martedì  Febbraio 14, 14 -16 Aula A1
Cosa è il Data Mining - Motivazioni
Classi di applicazioni
I principali metodi di data mining
Presentazione del corso
Docenti: Giannotti-Pedreschi

2.       Lezione Lunedì  Febbraio 20, 14 -16 Aula A1
I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati, misure di similarità e dissimilarità
Docenti: Giannotti

3.       Lezione Giovedì  Febbraio 23, , 16-18 Aula A
Esplorazione dei dati: dalla statistica descrittiva alla visualizzazione
Docente: Giannotti

4.        Lezione Lunedì Febbraio 27  14 -16 Aula A1
Esplorazione dei dati: OLAP ed analisi multidimensionale
Esercitazione
Docente: Giannotti

5.       Lezione Giovedì  Marzo 2, 14 -16 Aula A
Classificazione con alberi di decisione
,Algoritmo C4.5
 Docente: Pedreschi

6.       Lezione Lunedì  Marzo 6, 14 -16 Aula A1
Valutazione dei modelli,  Classificatori bayesiani
Docente: Pedreschi

7.        Lezione Giovedì  Marzo 9, 16-18 Aula A
Regole Associative: concetti basici ed algoritmo A-Priori
 Docente: Giannotti

8.       Lezione Lunedì  Marzo  13, 14 -16 Aula 1
Classificazione con alberi di decisione
 Esercitazione
Docente: Pedreschi

9.     Lezione Giovedì  Marzo 16, 16-18 Aula A
Classificazione con alberi di decisione
 Esercitazione
Docente: Pedreschi

10.    Lezione Lunedì  Marzo  20, 14 -16 Aula A1
Regole Associative : tassonomie, regole quantitative, regole predittive
Pattern Sequenziali
Docente: Giannotti

11.     Lezione Giovedì  Marzo  23, 16-18 Aula A
Regole Associative : Esercitazione
Docente: Giannotti

12.    Lezione Lunedì  Marzo  27, 14 -16 Aula A1
Clustering
Algoritmo k-means .
Docente: Pedreschi

13.     Lezione Lunedì  Aprile  3, 14 -16 Aula A1
Classificatione e Clustering: Esercitazione
Algoritmo k-means .
Docente: Pedreschi

13.    ADEC-TDM Lezione GIORNO DI RECUPERO DA DEFINIRE

14.    VERIFICA  Giovedì  Aprile  6, 16-18 Aula A
 Docente: Pedreschi. Giannotti

PAUSA PASQUALE

15.    ADEC-TDM Lezione Giovedì  Aprile 20, h 16-18 Aula A
Clustering gerarchico. Pattern sequenziali.
Presentazione seminari e progetti
Docente: Giannotti - Pedreschi

16. ADEC - TDM: Lezione Giovedì  Aprile 27, h 16-18 Aula A
Gestione del processo di KDD con strumenti commerciali e open-source
Assegnazione  Progetti e Seminari 
Docente: Giannotti-Nanni

______________________________________________________

17 ADEC Lezione Giovedì  Maggio  4, h 16-18 Aula ADEC
Caso di studio1: Customer Segmentation 
Docente: Giannotti,Nanni

17 TDM Lezione Giovedì  Maggio  4, h 16-18 Aula TDM
Classificazione: tecniche alternative,
Rule-Based, Support Vector Machine, Ensamble Methods
Regole Associative: algoritmo FP-Growth, Rappresentazioni compatte di pattern frequenti, 
Graph Patterns
Docente: Pedreschi-Bonchi
______________________________________________________

18.  ADEC Lezione Lunedì  Maggio  8, h 14 -16 Aula ADEC
Caso di studio2: Basket Market Analysis nella grande distribuzione
Docente: Giannotti,Nanni

18.  TDM Lezione Lunedì  Maggio  8, h 14 -16 Aula TDM
Esercitazione: Classificazione e Regole Associative
Docente: Pedreschi
______________________________________________________

19.  ADEC  Lezione Giovedì  Maggio  11, h 16-18 Aula  ADEC
Caso di studio3/4: Fraud Detection e Analisi di Redemption
Docente: Giannotti

19.  TDM  Lezione Giovedì  Maggio  11, h 16-18 Aula  TDM
 Altri algoritmi per  Clustering
Docente: Pedreschi
______________________________________________________

20.ADEC  Lezione Lunedì  Maggio  15, h 16-18 Aula 
Caso di studio3/4: Fraud Detection e Analisi di Redemption
Docente: Giannotti

20.TDM  Lezione Giovedì  Maggio  15, h 16-18 Aula  TDM
Altri algoritmi per Frequent Pattern e Constraint-based Mining
Docente: Pedreschi – Bonchi
______________________________________________________

22. TDM SECONDA VERIFICA  LUN Maggio 29, h 14-16 Aula D1


Libro di testo

Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 

Introduction to DATA MINING

Addison Wesley, ISBN 0-321-32136-7, 2006

Sito web del libro di testo, con lucidi, capitoli di prova ed altro materiale didattico


Riferimenti bibliografici

Materiale didattico

I lucidi utilizzati nelle lezioni saranno resi disponibili anche attraverso il sito web del corso: 
http://www-kdd.isti.cnr.it/

 


Verifiche anni precedenti