Εξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό - Open Courses (INF108)
Πληροφορίες
Περιεχόμενο μαθήματος
- Εισαγωγή στη διαδικασία Data Science
- Pre-processing, Exploration, Feature selection, Dimensionality reduction, feature extraction and evaluation
- Supervised Learning (k-nn, regression, logistic regression, decision trees
- Unsupervised learning (Clustering, K-means, EM, Spectral Clustering)
- Εξόρυξη από Κείμενα και τον Παγκ. Ιστο (Text/Web Mining)
- Text retrieval metrics, Novelty detection, Graph of Words
- Recommendations/collaborative filtering
- Εξόρυξη από Γραφήματα (Graph Mining)
- Graph Ranking algorithms and evaluation measures
- Graph clustering and classification
- Degeneracy (k-core & extensions)
- Community mining methods & applications in social networks
- Bigdata
- Map reduce - distributed processing, technologies (Hadoop, Map Reduce, NoSQL storage)
Διδάσκοντες
Μιχάλης Βαζιργιάννης
Αναπληρωτής Καθηγητής, Τμήμα Πληροφορικής
Επικοινωνια
Ιστοσελιδα: http://www.db-net.aueb.gr/michalis/
Ιστοσελιδα ερευνητικης ομαδας Εξορυξης Δεδομενων: http://www.db-net.aueb.gr/
Προαπαιτούμενα
- Για προγραμματισμό: Python, Java,
- Βάσεις Δεδομένων,
- Τεχνητή Νοημοσύνη,
- Αλγόριθμοι.
Ομάδα στόχος
Προπτυχιακοί φοιτητές τμήματος Πληροφορικής.
Μαθησιακοί στόχοι
Ο στόχος του μαθήματος είναι η εξοικείωση με τεχνικές / αλγόριθμους ανάλυσης συνόλων δεδομένων και εργαλεία λογισμικού στον χώρο της εξαγωγής γνώσης και μηχανικής μάθησης. Ειδικότερα εισάγεται η διαδικασία της Επιστήμης Δεδομένων (Data Science) με τα σταδία προεπεξεργασια και εξερεύνηση δεδομένων, επιλογής χαρακτηριστικών/μείωσης διάστασης, επιβλεπομένης/μη επιβλεπομένης μάθησης και αξιολόγησης/επιλογής μοντέλων. Επίσης δίνεται μια εισαγωγή στις απαιτήσεις και τεχνολογίες μεγάλης κλίμακας δεδομένων (Bigdata).
Προτεινόμενα συγγράμματα
Μπορείτε να επιλέξετε ένα από τα ακόλουθα βιβλία:
- Principles of Data Mining , David Hand, Heikki Mannila, and Padhraic Smyth, MIT Press, August 2001.
- Learning from Data – Y. Abu-Mostafa, M. Magdon-Ismail, Hsuan-Tien Lin,
- Doing Data Science, Straight Talk from the Frontline, Cathy O'Neil, Rachel Schutt
- Pattern Recognition and Machine Learning (Information Science and Statistics) Hardcover – October 1, 2007, Christopher M. Bishop
- Hadoop: The Definitive Guide, 3rd Edition, T. WhiteSlides
Βιβλιογραφία
- Βιβλία- κείμενα (Text/books)
- Doing Data Science, Straight Talk from the Frontline, Cathy O'Neil, Rachel Schutt
- Pattern Recognition and Machine Learning (Information Science and Statistics) Hardcover – October 1, 2007, Christopher M. Bishop
- Hadoop: The Definitive Guide, 3rd Edition, T. WhiteSlidesΒιβλιογραφία
- Online readings
- Scikit-learn: Machine Learning in Python, Fabian Pedregosa, Gaël Varoquaux, Alexandre Gramfort et al., Scikit-learn: Machine Learning in Python 2011 Article, ·The Journal of Machine Learning Research archivVolume 12, 2/1/2011, Pages 2825-2830
- https://www.kaggle.com/wiki/Tutorials
- Πηγές στη βιβλιοθήκη του ιδρύματος. Εξόρυξη Γνώσης απο Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό, ΧΑΛΚΙΔΗ ΜΑΡΙΑ, ΒΑΖΙΡΓΙΑΝΝΗΣ ΜΙΧΑΛΗΣ, ISBN: 9604021168
- Άλλα σχετικά ανοικτά μαθήματα άλλων ιδρυμάτων εσωτερικού ή εξωτερικού:
- Introduction to Data Science https://www.coursera.org/course/datasci
- Intro to Data Science, Learn What It Takes to Become a Data Scientist
- https://www.udacity.com/course/intro-to-data-science--ud359
- Άρθρα (Articles)
- Βιντεο: https://www.youtube.com/watch?v=dMpdoprDEDI
Μέθοδοι διδασκαλίας
- Διδασκαλία καθ΄ έδρας και συμπληρωματική-ενισχυτική εκπαίδευση μέσω ασύγχρονης πλατφόρμα.
- Εργαστήριο.
Μέθοδοι αξιολόγησης
- Εξετάσεις
- Αξιολογηση με βαση αποδοση σε project
- Επιτρεπόμενο υλικό κατά τις εξετάσεις: 2 φυλλα χειρογραφα
- Παλαιότερα θέματα εξετάσεων/προόδων: διαθεσιμα
Προτεινόμενα συγγράμματα
- Principles of Data Mining , David Hand, Heikki Mannila, and Padhraic Smyth, MIT Press, August 2001.
- Learning from Data – Y. Abu-Mostafa, M. Magdon-Ismail, Hsuan-Tien Lin,
- Doing Data Science, Straight Talk from the Frontline, Cathy O'Neil, Rachel Schutt
- Pattern Recognition and Machine Learning (Information Science and Statistics) Hardcover – October 1, 2007, Christopher M. Bishop
- Hadoop: The Definitive Guide, 3rd Edition, T. WhiteSlides