Περιεχόμενο μαθήματος

Περιεχόμενο μαθήματος

  1. Εισαγωγή στη διαδικασία Data Science
  • Pre-processing, Exploration, Feature selection, Dimensionality reduction, feature extraction and evaluation
  • Supervised Learning (k-nn, regression, logistic regression, decision trees
  • Unsupervised learning (Clustering, K-means, EM, Spectral Clustering)
  1. Εξόρυξη από Κείμενα και τον Παγκ. Ιστο (Text/Web Mining)
  • Text retrieval metrics, Novelty detection, Graph of Words
  • Recommendations/collaborative filtering
  1. Εξόρυξη από Γραφήματα (Graph Mining)
  • Graph Ranking algorithms and evaluation measures
  • Graph clustering and classification
  • Degeneracy (k-core & extensions)
  • Community mining methods & applications in social networks
  1. Bigdata
  • Map reduce - distributed processing, technologies (Hadoop, Map Reduce,  NoSQL storage)

Διδάσκοντες

Διδάσκοντες

Μιχάλης Βαζιργιάννης

Αναπληρωτής Καθηγητής, Τμήμα Πληροφορικής

Επικοινωνια 
Ιστοσελιδα: http://www.db-net.aueb.gr/michalis/
Ιστοσελιδα ερευνητικης ομαδας Εξορυξης Δεδομενων: http://www.db-net.aueb.gr/

Προαπαιτούμενα

Προαπαιτούμενα

  • Για προγραμματισμό: Python, Java,
  • Βάσεις Δεδομένων,
  • Τεχνητή Νοημοσύνη,
  • Αλγόριθμοι.

Ομάδα στόχος

Ομάδα στόχος

Προπτυχιακοί φοιτητές τμήματος Πληροφορικής.

Μαθησιακοί στόχοι

Μαθησιακοί στόχοι

Ο στόχος του μαθήματος είναι η εξοικείωση με τεχνικές / αλγόριθμους ανάλυσης συνόλων δεδομένων και εργαλεία λογισμικού  στον χώρο της εξαγωγής γνώσης και μηχανικής μάθησης. Ειδικότερα εισάγεται η διαδικασία της Επιστήμης Δεδομένων (Data Science) με τα σταδία προεπεξεργασια και εξερεύνηση δεδομένων, επιλογής χαρακτηριστικών/μείωσης διάστασης, επιβλεπομένης/μη επιβλεπομένης μάθησης και αξιολόγησης/επιλογής μοντέλων. Επίσης δίνεται μια εισαγωγή στις απαιτήσεις και τεχνολογίες μεγάλης κλίμακας δεδομένων (Bigdata).

Προτεινόμενα συγγράμματα

Προτεινόμενα συγγράμματα

Μπορείτε να επιλέξετε ένα από τα ακόλουθα βιβλία:

  • Principles of Data Mining , David Hand, Heikki Mannila, and Padhraic Smyth, MIT Press, August 2001.
  • Learning from Data – Y. Abu-Mostafa, M. Magdon-Ismail, Hsuan-Tien Lin, 
  • Doing Data Science, Straight Talk from the Frontline, Cathy O'Neil, Rachel Schutt
  • Pattern Recognition and Machine Learning (Information Science and Statistics) Hardcover – October 1, 2007, Christopher M. Bishop
  • Hadoop: The Definitive Guide, 3rd Edition, T. WhiteSlides

Βιβλιογραφία

Βιβλιογραφία

  • Βιβλία- κείμενα (Text/books)
    • Doing Data Science, Straight Talk from the Frontline, Cathy O'Neil, Rachel Schutt
    • Pattern Recognition and Machine Learning (Information Science and Statistics) Hardcover – October 1, 2007, Christopher M. Bishop
    • Hadoop: The Definitive Guide, 3rd Edition, T. WhiteSlidesΒιβλιογραφία
  • Online readings
    • Scikit-learn: Machine Learning in Python, Fabian Pedregosa, Gaël Varoquaux, Alexandre Gramfort et al., Scikit-learn: Machine Learning in Python 2011 Article, ·The Journal of Machine Learning Research archivVolume 12, 2/1/2011, Pages 2825-2830
    • https://www.kaggle.com/wiki/Tutorials
    • Πηγές στη βιβλιοθήκη του ιδρύματος. Εξόρυξη Γνώσης απο Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό, ΧΑΛΚΙΔΗ ΜΑΡΙΑ, ΒΑΖΙΡΓΙΑΝΝΗΣ ΜΙΧΑΛΗΣ, ISBN: 9604021168
    • Άλλα σχετικά ανοικτά μαθήματα άλλων ιδρυμάτων εσωτερικού ή εξωτερικού:

Μέθοδοι διδασκαλίας

Μέθοδοι διδασκαλίας

  • Διδασκαλία καθ΄ έδρας και συμπληρωματική-ενισχυτική εκπαίδευση μέσω ασύγχρονης πλατφόρμα.
  • Εργαστήριο.

Μέθοδοι αξιολόγησης

Μέθοδοι αξιολόγησης

  • Εξετάσεις
  • Αξιολογηση με βαση αποδοση σε project
  • Επιτρεπόμενο υλικό κατά τις εξετάσεις: 2 φυλλα χειρογραφα
  • Παλαιότερα θέματα εξετάσεων/προόδων: διαθεσιμα

Προτεινόμενα συγγράμματα

Προτεινόμενα συγγράμματα

  • Principles of Data Mining , David Hand, Heikki Mannila, and Padhraic Smyth, MIT Press, August 2001.
  • Learning from Data – Y. Abu-Mostafa, M. Magdon-Ismail, Hsuan-Tien Lin,
  • Doing Data Science, Straight Talk from the Frontline, Cathy O'Neil, Rachel Schutt
  • Pattern Recognition and Machine Learning (Information Science and Statistics) Hardcover – October 1, 2007, Christopher M. Bishop
  • Hadoop: The Definitive Guide, 3rd Edition, T. WhiteSlides