Totale: 24 lezioni da 2 ore (2*24 = 48 ore), corrispondenti a 6 CFU.
30 settembre 2024 (Lezione n° 1 da 2 ore)
- Presentazione del corso
- Introduzione al Data Mining
- Introduzione ai Big Data
- Principio di Bonferroni
- Introduzione agli algoritmi
1° ottobre 2024 (Lezione n° 2 da 2 ore)
- Introduzione alla computazione distribuita e concorrente
- MapReduce e sua implementazione Hadoop: introduzione
- File system distribuito HDFS: files e chunck
- Architettura distribuita multirack
- Gestione dei fallimenti
- MapReduce: progettazione di algoritmi distribuiti
- Map task
- Reduce task
- Backup Tasks
- Combiners
- Funzione di partizione
7 ottobre 2024 (Lezione n° 3 da 2 ore)
- Rappresentazione di matrici sparse
- MapReduce: prodotto matrice vettore
- Introduzione ai grafi
- Rappresentazione di grafi tramite matrici di adiacenza
- MapReduce: cammini di lunghezza 2 in grafi
8 ottobre 2024 (Lezione n° 4 da 2 ore)
- MapReduce: prodotto di matrici in 2 step
- MapReduce: prodotto di matrici in un unico step
- Estensioni di MapReduce: i Workflow
- Spark: RDD, trasformazioni, azioni, Lazy evaluation, Lineage
- MapReduce: cammini di lunghezza 3 in grafi
14 ottobre 2024 (Lezione n° 5 da 2 ore)
- Modello di costo di comunicazione in MapReduce
- Reducer Size e Replication Rate
- Mapping schema: grafo bipartito input/output
- Similarity join con MapReduce
15 ottobre 2024 (Lezione n° 6 da 2 ore)
- Lower bound al replication rate
- Esercizi su MapReduce
- Introduzione a Similar items
- Jaccard similarity
- Shingling di documenti di testo