Salta ai contenuti. | Salta alla navigazione

Strumenti personali

DATA MINING AND ANALYTICS

Anno accademico e docente
Non hai trovato la Scheda dell'insegnamento riferita a un anno accademico precedente? Ecco come fare >>
English course description
Anno accademico
2022/2023
Docente
FABRIZIO RIGUZZI
Crediti formativi
6
Periodo didattico
Secondo Semestre
SSD
INF/01

Obiettivi formativi

L'obiettivo principale del corso consiste nel rendere gli studenti in grado di analizzare i dati memorizzati in database con strumenti di crescente complessità sia descrittivi che predittivi.
Le principali conoscenze acquisite sono relative a:
- data analytics
- knowledge discovery in databases,
- data mining
- machine learning
Le principali abilità (ossia la capacità di applicare le conoscenze acquisite) sono:
- analisi descrittive dei dati,
- analisi predittive dei dati.

Prerequisiti

È necessario avere acquisito e assimilato le seguenti conoscenze (fornite ad esempio dai corsi "Basi di Dati", "Fondamenti di Informatica" e “Fondamenti di Intelligenza Artificiale”):
- modello relazionale dei dati,
- linguaggio SQL di manipolazione e interrogazione dei dati,
- linguaggi di programmazione procedurale (Java, C).
- linguaggi di programmazione logica

Contenuti del corso

Il corso prevede 60 ore di didattica frontale parte in aula e parte in laboratorio.
Introduzione al data mining (7,5 ore): richiami di teoria della probabilità, introduzione all’apprendimento, apprendimento di concetti e ordinamento da generale a specifico
Alberi di decisione, apprendimento di regole proposizionali e apprendimento basato sulle istanze (10 ore).
Reti bayesiane (7,5 ore): inferenza e apprendimento.
Metodi kernel, reti neurali e deep learning (15 ore).
Apprendimento di regole del primo ordine (5 ore).
Linguaggi logico probabilistici (7,5 ore): inferenza e apprendimento.
Data mining descrittivo (7,5 ore): clustering, regole associative.

Metodi didattici

Il corso è diviso in 60 ore di lezione parte in aula e parte nel laboratorio di informatica.
Le lezioni riguardano gli argomenti del corso e includono esercitazioni guidate al calcolatore.
Le esercitazioni in laboratorio riguardano in particolare l’uso del sistema Weka per risolvere problemi di apprendimento automatico e data mining e l’uso di sistemi per l’induzione di regole.

Modalità di verifica dell'apprendimento

L'obiettivo della prova d'esame consiste nel verificare il livello di raggiungimento degli obiettivi formativi precedentemente indicati.
L'esame consiste di una prova scritta e di una prova teorica.
La prova scritta contiene quattro esercizi sugli argomenti del corso. La prova dura due ore. Vale fino a 17 punti. E' consentito usare materiale didattico.
La prova teorica consiste di tre domande sugli argomenti teorici del corso. Vale fino a 15 punti. Non è consentito materiale didattico.
Il voto finale è dato dalla somma dei voti nelle due parti. Per superare l'esame i voti della prova scritta e di quella di teoria devono entrambi essere almeno 9.
Si possono sostenere le due prove in appelli diversi.

Testi di riferimento

i testi di riferimento sono:
Dispense del docente
Fabrizio Riguzzi, “Foundations of Probabilistic Logic Programming”. River Publishers 2018.
T. M. Mitchell, “Machine Learning”, McGraw-Hill, 1997
Ian Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Second Edition Morgan Kaufmann Publishers, 2005
Hal Daumé III, A Course in Machine Learning, http://www.ciml.info/
Testi consigliati per approfondimento:
Luc De Raedt, “Logical and Relational Learning”, Springer, Series: Cognitive Technologies, 2008
I. Goodfellow, Y. Bengio, A. Courville, and Y. Bengio. “Deep learning”, volume 1. MIT Press, 2016.
Alessandro Rezzani, “Big Data -Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati”, Apogeo Education, 2013
Matteo Golfarelli, Stefano Rizzi, “Data Warehouse, Teoria e pratica della progettazione”, McGraw-Hill, 2006
Luc De Raedt, Kristian Kersting, Sriraam Natarajan, and David Poole, “Statistical Relational Artificial Intelligence: Logic, Probability, and Computation”, Morgan & Claypool, 2016
Daphne Koller, Nir Friedman, “Probabilistic graphical models: principles and techniques”, MIT Press, 2009
J. Ross Quinlan: “c4.5: Programs for machine learning”, Morgan Kaufmann Publishers, 1992
N. Lavrac and S. Dzeroski, “Inductive Logic Programming Techniques and Applications”, Ellis Horwood, 1994, http://www-ai.ijs.si/SasoDzeroski/ILPBook/