DATA MINING AND ANALYTICS

Anno accademico e docente
Non hai trovato la Scheda dell'insegnamento riferita all’anno accademico di tuo interesse? Ecco come fare >>
English course description
Anno accademico
2016/2017
Docente
FABRIZIO RIGUZZI
Crediti formativi
6
Periodo didattico
Secondo Semestre
SSD
INF/01

Obiettivi formativi

L'obiettivo principale del corso consiste nel rendere gli studenti in grado di analizzare i dati memorizzati in database con strumenti di crescente complessità sia descrittivi che predittivi.
Le principali conoscenze acquisite sono relative a:
- tecnologie per le datawarehouses,
- data analytics
- knowledge discovery in databases,
- data mining
- machine learning
Le principali abilità (ossia la capacità di applicare le conoscenze acquisite) sono:
- progettazione logica e fisica di una datawarehouse,
- analisi descrittive dei dati,
- analisi predittive dei dati.

Prerequisiti

È necessario avere acquisito e assimilato le seguenti conoscenze (fornite ad esempio dai corsi "Basi di Dati", "Fondamenti di Informatica" e “Fondamenti di Intelligenza Artificiale”):
- modello relazionale dei dati,
- linguaggio SQL di manipolazione e interrogazione dei dati,
- linguaggi di programmazione procedurale (Java, C).
- linguaggi di programmazione logica

Contenuti del corso

Il corso prevede 60 ore di didattica frontale parte in aula e parte in laboratorio.
Introduzione al data mining (7,5 ore): richiami di teoria della probabilità, introduzione all’apprendimento, apprendimento di concetti e ordinamento da generale a specifico
Alberi di decisione (7,5 ore).
Reti bayesiane (7,5 ore): inferenza e apprendimento.
Apprendimento basato sulle istanze e apprendimento di regole proposizionali (7,5 ore).
Reti neurali e metodi kernel (7,5 ore).
Apprendimento di regole del primo ordine (7,5 ore).
Linguaggi logico probabilistici (7,5 ore): inferenza e apprendimento.
Data mining descrittivo (7,5 ore): datawarehouse e OLAP, clustering, regole associative.

Metodi didattici

Il corso è diviso in 60 ore di lezione parte in aula e parte nel laboratorio di informatica.
Le lezioni riguardano gli argomenti del corso e includono esercitazioni guidate al calcolatore.
Le esercitazioni in laboratorio riguardano in particolare l’uso del sistema Weka per risolvere problemi di apprendimento automatico e data mining e l’uso di sistemi per l’induzione di regole.

Modalità di verifica dell'apprendimento

L'obiettivo della prova d'esame consiste nel verificare il livello di raggiungimento degli obiettivi formativi precedentemente indicati.
L'esame consiste di una prova scritta e di una prova teorica.
La prova scritta contiene quattro esercizi: uno sugli alberi di decisione, uno sulle reti bayesiane, uno su linguaggi logico probabilistici e uno su clustering/regole associative. La prova dura due ore. Vale fino a 17 punti. Non è consentito utilizzare PC personali o smart phone. E' consentito usare materiale didattico.
La prova teorica consiste di tre domande sugli argomenti teorici del corso. Vale fino a 15 punti. Non è consentito utilizzare né PC personali o smart phone né materiale didattico.
Il voto finale è data dalla somma dei voti nelle due parti. Per superare l'esame i voti della prova scritta e di quella di teoria devono entrambi essere almeno 9.
Si possono sostenere le due prove in appelli diversi.

Testi di riferimento

Dispense del docente.
Fabrizio Riguzzi, Arianna Fabbri, and Elena Zuffi, “Sistemi informativi”, Collana Progetto Leonardo. Esculapio, 2011
T. M. Mitchell, “Machine Learning”, McGraw-Hill, 1997
Ian Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Second Edition Morgan Kaufmann Publishers, 2005
Luc De Raedt, “Logical and Relational Learning”, Springer, Series: Cognitive Technologies, 2008
Hal Daumé III , A Course in Machine Learning, http://www.ciml.info/
Testi consigliati per approfondimento:
Alessandro Rezzani, “Big Data -Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati”, Apogeo Education, 2013
Matteo Golfarelli, Stefano Rizzi, “Data Warehouse, Teoria e pratica della progettazione”, McGraw-Hill, 2006
Luc De Raedt, Kristian Kersting, Sriraam Natarajan, and David Poole, “Statistical Relational Artificial Intelligence: Logic, Probability, and Computation”, Morgan & Claypool, 2016
Daphne Koller, Nir Friedman, “Probabilistic graphical models: principles and techniques”, MIT Press, 2009
J. Ross Quinlan: “c4.5: Programs for machine learning”, Morgan Kaufmann Publishers, 1992
N. Lavrac and S. Dzeroski, “Inductive Logic Programming Techniques and Applications”, Ellis Horwood, 1994, http://www-ai.ijs.si/SasoDzeroski/ILPBook/