Università
di Pisa – A.A. 2005-2006
Analisi dei dati ed
estrazione di conoscenza
Corso di Laurea Specialistica in
Informatica
per l’Economia e per l’Azienda
Docente: Fosca Giannotti –
ISTI – CNR
Tutor di Laboratorio: Mirco
Nanni – ISTI – CNR
Vai a: Orario, Calendario delle lezioni, Libro di testo, Verifiche anni precedenti
News:
Appello di luglio: LUN 17 luglio 2006 ore 9-11 aula B1 (scritto)
Presentazione seminari e progetti:
LUN 17 luglio ore 14-18 Aula Seminari Ovest
Appello di settembre: su appuntamento con il docente
Il docente e' assente dal 29 giugno al 31 agosto 2006 per un periodo di studio all'estero.
Verbalizzazione esami: prossimo appuntamento utile in occasione dell'appello di luglio (presidente supplente dr. S. Ruggieri), oppure a settembre su appuntamento
A causa della concomitanza con il referendum costituzionale, l'appello scritto del 26 giugno ore 9:00 è stato spostato alla mattina successiva:
martedì 27 giugno ore 9:00, aula seminari ovest, dipartimento di Informatica
Lucidi lezioni conclusive AEC:
Lucidi lezioni conclusive TDM:
Appelli TDM e AEC - sessione estiva 2006
III appello: LUN 5 giugno 2006 ore 14-16 aula C1 (scritto)
Presentazione seminari e progetti:
MER
7 giugno ore 14-18 Aula Seminari Ovest
GIO 8 giugno ore 14-18 Aula Seminari Ovest
IV appello: LUN 26 giugno 2006 ore 9-11 aula B1 (scritto)
Presentazione seminari e progetti:
LUN 26 giugno ore 14-18 Aula Seminari Ovest
MAR 27 giugno ore 09-18 Aula Seminari Ovest
V appello: LUN 17 luglio 2006 ore 9-11 aula B1 (scritto)
Presentazione seminari e progetti:
LUN 17 luglio ore 14-18 Aula Seminari Ovest
Ogni studente è pregato di inviare una email ai docenti con il proprio nome, cognome, matricola, corso di laurea specialistica
Dino Pedreschi: pedre@di.unipi.it - Fosca Giannotti: fosca.giannotti@isti.cn.it
Sono in linea le verifiche degli anni precedenti
Obiettivo del corso
La
grande
disponibilità di dati provenienti da database relazionali, dal web o da altre
sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una
migliore comprensione ed un più facile utilizzo dei risultati nei processi
decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai
concetti di base del processo di estrazione di
conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi.
Particolare enfasi è dedicata agli aspetti metodologici presentati mediante
alcune classi di applicazioni paradigmatiche quali il
Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi.
Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo
di tecniche inferenza sui dati e dei quali l’analista
deve essere a conoscenza. Il corso
consiste delle seguenti parti:
Una parte preliminare dove
si introducono
i concetti essenziali del processo di estrazione della conoscenza;
la preparazione dei dati e l’esplorazione dei dati.
Una parte centrale dove
si introducono
le principali tecniche di data mining (regole associative, classificazione e
clustering). Di queste tecniche si studieranno gli aspetti formali e
implementativi;
Una parte più metodologica dove si visiteranno
alcune casi di studio nell’ambito del marketing, del
rilevamento di frodi e del supporto alla gestione clienti.
Una lezione introdurrà gli aspetti di privacy ed
etici inerenti all’utilizzo di tecniche inferenza sui
dati e dei quali l’analista deve essere a conoscenza
Orario: Lunedì 14-16, Aula A1, Giovedì 16-18
Aula A
Università
di Pisa – A.A. 2004-2005
Tecniche di Data Mining
Corso di Laurea Specialistica in
Informatica/Tecnologie Informatiche
Docente: Dino Pedreschi – Università di Pisa
Tutor di Laboratorio: Mirco
Nanni – ISTI – CNR
Vai al: Orario, Calendario delle lezioni, Libro di testo, Verifiche anni precedenti
News:
Appello di luglio: LUN 17 luglio 2006 ore 9-11 aula B1 (scritto)
Presentazione seminari e progetti:
LUN 17 luglio ore 14-18 Aula Seminari Ovest
Appello di settembre: su appuntamento con il docente
Il docente e' assente dal 29 giugno al 31 agosto 2006 per un periodo di studio all'estero.
Verbalizzazione esami: prossimo appuntamento utile in occasione dell'appello di luglio (presidente supplente dr. S. Ruggieri), oppure a settembre su appuntamento
Lucidi lezioni conclusive AEC:
Lucidi lezioni conclusive TDM:
Appelli TDM e AEC - sessione estiva 2006
III appello: LUN 5 giugno 2006 ore 14-16 aula C1 (scritto)
Presentazione seminari e progetti:
MER
7 giugno ore 14-18 Aula Seminari Ovest
GIO 8 giugno ore 14-18 Aula Seminari Ovest
IV appello: LUN 26 giugno 2006 ore 9-11 aula B1 (scritto)
Presentazione seminari e progetti:
LUN 26 giugno ore 14-18 Aula Seminari Ovest
MAR 27 giugno ore 09-18 Aula Seminari Ovest
V appello: LUN 17 luglio 2006 ore 9-11 aula B1 (scritto)
Presentazione seminari e progetti:
LUN 17 luglio ore 14-18 Aula Seminari Ovest
Obiettivo del corso
La
grande
disponibilità di dati provenienti da database relazionali, dal web o da altre
sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una
migliore comprensione ed un più facile utilizzo dei risultati nei processi
decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai
concetti di base del processo di estrazione di
conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi.
Particolare enfasi è dedicata agli aspetti metodologici presentati mediante
alcune classi di applicazioni paradigmatiche quali il
Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi e
il Web mining. Infine il corso introduce gli aspetti di privacy ed etici
inerenti all’utilizzo di tecniche inferenza sui dati e
dei quali l’analista deve essere a conoscenza.
Il corso consiste delle seguenti parti:
Una parte preliminare
dove si introducono i concetti essenziali del processo
di estrazione della conoscenza; la preparazione dei dati e l’esplorazione dei
dati.
Una parte centrale dove
si introducono le principali tecniche di datamining (regole
associative, classificazione e clustering). Di queste tecniche si accenneranno
gli aspetti formali e implementativi;
Una parte
di approfondimento degli algoritmi disponibili per le varie
tecniche. Altri tipi di pattern da estrarre. Aspetti
di scalabilità degli algoritmi
Una lezione introdurrà
gli aspetti di privacy ed etici inerenti all’utilizzo di
tecniche inferenza sui dati e dei quali l’analista deve essere a
conoscenza
L’ultima parte del corso
è dedicata a seminari degli studenti su aspetti avanzati
La prima parte del corso
sarà effettuata in congiunzione con il corso di “Analisi dei dati ed Estrazione
di conoscenza” tenuto dalla prof.ssa Giannotti nell’ambito del corso di
laurea in Informatica per l’Economia e l’Azienda
Orario: Lunedì 14-16, Aula A1, Giovedì 16-18
Aula A
1.
Lezione
Martedì Febbraio
14, 14 -16 Aula A1
Cosa è il Data Mining - Motivazioni
Classi di applicazioni
I principali metodi di data mining
Presentazione del corso
Docenti: Giannotti-Pedreschi
2.
Lezione
Lunedì Febbraio
20, 14 -16 Aula A1
I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati, misure
di similarità e dissimilarità
Docenti: Giannotti
3.
Lezione
Giovedì Febbraio
23, , 16-18 Aula A
Esplorazione dei dati: dalla statistica descrittiva alla visualizzazione
Docente: Giannotti
4.
Lezione Lunedì Febbraio 27 14 -16 Aula A1
Esplorazione dei dati: OLAP ed analisi
multidimensionale
Esercitazione
Docente: Giannotti
5.
Lezione
Giovedì Marzo
2, 14 -16 Aula A
Classificazione con alberi di decisione
,Algoritmo C4.5
Docente: Pedreschi
6.
Lezione
Lunedì Marzo 6,
14 -16 Aula A1
Valutazione dei modelli, Classificatori
bayesiani
Docente: Pedreschi
7.
Lezione Giovedì Marzo 9, 16-18 Aula A
Regole Associative: concetti basici ed algoritmo A-Priori
Docente: Giannotti
8.
Lezione
Lunedì Marzo 13, 14 -16 Aula 1
Classificazione con alberi di decisione
Esercitazione
Docente: Pedreschi
9. Lezione Giovedì
Marzo 16, 16-18 Aula A
Classificazione con alberi di decisione
Esercitazione
Docente: Pedreschi
10. Lezione Lunedì Marzo
20, 14 -16 Aula A1
Regole Associative : tassonomie, regole quantitative, regole predittive
Pattern Sequenziali
Docente: Giannotti
11. Lezione Giovedì Marzo 23, 16-18 Aula A
Regole Associative : Esercitazione
Docente: Giannotti
12. Lezione Lunedì Marzo
27, 14 -16 Aula A1
Clustering
Algoritmo k-means .
Docente: Pedreschi
13. Lezione Lunedì Aprile 3, 14 -16 Aula A1
Classificatione e Clustering: Esercitazione
Algoritmo k-means .
Docente: Pedreschi
13. ADEC-TDM Lezione GIORNO DI RECUPERO DA DEFINIRE
14. VERIFICA Giovedì Aprile
6, 16-18 Aula A
Docente: Pedreschi. Giannotti
PAUSA PASQUALE
15. ADEC-TDM Lezione Giovedì Aprile 20, h 16-18 Aula A
Clustering gerarchico. Pattern sequenziali.
Presentazione seminari e progetti
Docente: Giannotti - Pedreschi
16.
ADEC - TDM: Lezione Giovedì Aprile 27, h 16-18 Aula A
Gestione del processo di KDD con strumenti commerciali e open-source
Assegnazione Progetti e Seminari
Docente:
Giannotti-Nanni
______________________________________________________
17 ADEC Lezione Giovedì Maggio
4, h
16-18 Aula ADEC
Caso di studio1: Customer Segmentation
Docente: Giannotti,Nanni
17 TDM Lezione Giovedì Maggio
4, h 16-18 Aula TDM
Classificazione: tecniche alternative,
Rule-Based, Support Vector Machine, Ensamble Methods
Regole Associative: algoritmo FP-Growth, Rappresentazioni compatte di pattern
frequenti,
Graph Patterns
Docente: Pedreschi-Bonchi
______________________________________________________
18. ADEC Lezione Lunedì Maggio
8, h 14 -16 Aula ADEC
Caso di studio2: Basket Market Analysis nella grande distribuzione
Docente: Giannotti,Nanni
18.
TDM Lezione
Lunedì Maggio
8, h
14 -16 Aula TDM
Esercitazione: Classificazione e Regole Associative
Docente: Pedreschi
______________________________________________________
19. ADEC Lezione Giovedì Maggio
11, h 16-18 Aula ADEC
Caso di studio3/4: Fraud Detection e Analisi di Redemption
Docente: Giannotti
19. TDM Lezione Giovedì Maggio
11, h 16-18 Aula TDM
Altri algoritmi per Clustering
Docente: Pedreschi
______________________________________________________
20.ADEC Lezione Lunedì Maggio
15, h 16-18 Aula
Caso di studio3/4: Fraud Detection e Analisi di Redemption
Docente: Giannotti
20.TDM Lezione Giovedì Maggio
15, h 16-18 Aula TDM
Altri algoritmi per Frequent Pattern e Constraint-based Mining
Docente: Pedreschi – Bonchi
______________________________________________________
22. TDM SECONDA VERIFICA LUN Maggio 29, h 14-16 Aula D1
Pang-Ning Tan, Michael Steinbach, Vipin Kumar,
Introduction to DATA MINING,
Addison Wesley, ISBN 0-321-32136-7, 2006
Sito web del libro di testo, con lucidi, capitoli di prova ed altro materiale didattico
Riferimenti bibliografici
Materiale didattico
I lucidi utilizzati nelle lezioni saranno resi
disponibili anche attraverso il sito web del corso:
http://www-kdd.isti.cnr.it/