Παρουσίαση/Προβολή

Συστήματα Ανάκτησης Πληροφοριών 2025-2026
(INF248) - Τώνια Κυριακοπούλου
Περιγραφή Μαθήματος
Καλώς ήρθατε στις ιστοσελίδες του μαθήματος Συστήματα Ανάκτησης Πληροφοριών του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών.
Διδάσκoυσα: Τώνια Κυριακοπούλου
E-mail: tonia@aueb.gr
Τηλέφωνο: 210-8203503
Γραφείο: Κοδριγκτώνος 12, 5ος όροφος
Ηλεκτρονικές ώρες γραφείου: μέσω MS Teams Δευτέρα 16:00-17:00 στον σύνδεσμο εδώ και Τετάρτη 9:00-10:00 στον σύνδεσμο εδώ
Διαλέξεις:
Δευτέρα 11:00 – 13:00, T107
Τετάρτη 11:00 – 13:00, T107
Φροντιστήριο:
Παρασκευή 17:00 – 19:00, CSLAB 1
(μετά από ανακοίνωση!)
Οι φοιτητές θα πρέπει να εγγραφούν στο MS Teams στην Ομάδα "Συστήματα Ανάκτησης Πληροφοριών 2025" με teamcode: hp5att1.
Ημερομηνία δημιουργίας
Πέμπτη, 27 Σεπτεμβρίου 2012
-
Περιεχόμενο μαθήματος
Βασικές έννοιες ανάκτησης πληροφορίας. Εισαγωγή στα ανεστραμμένα ευρετήρια. Μοντέλο ανάκτησης Boole. Ευρετηρίαση. Ιχνηλάτες, προεπεξεργασία κειμένων (tokenization, γλωσσολογική ανάλυση, αποκοπή καταλήξεων, λημματοποίηση). Δομές αναζήτησης σε ανεστραμμένα ευρετήρια, τρόποι επεξεργασίας ερωτημάτων, μέθοδοι εμπλουτισμού και παραλλαγές ανεστραμμένων ευρετηρίων. Αλγόριθμοι κατασκευής ανεστραμμένων ευρετηρίων. Στατιστικά κειμένων και συμπίεση ανεστραμμένων ευρετηρίων. Σταθμισμένη ανάκτηση. Μοντέλο ανάκτησης διανυσματικού χώρου. Αξιολόγηση συστημάτων ανάκτησης. Υπολογισμός βαθμολογιών σε ένα πλήρες σύστημα ανάκτησης. Επανατροφοδότηση με βάση τη συνάφεια των ανακτηθέντων κειμένων. Λανθάνουσα σημασιολογική ευρετηρίαση. Πιθανοτικά συστήματα ανάκτησης. Γλωσσικό μοντέλο ανάκτησης. Μηχανική μάθηση στην ανάκτηση πληροφοριών. Αλγόριθμοι Learning to Rank. Νευρωνικά δίκτυα στην ανάκτηση πληροφοριών. Νέες αναπαραστάσεις (ενθέσεις) λέξεων, ερωτημάτων και κειμένων. Νέοι τρόποι αντίληψης της ομοιότητας ανάλογα με το πρόβλημα (document ranking, query auto‐completion, next query suggestion). Ανάκτηση με χρήση ενθέσεων – dense retrieval. Πολυτροπική (multimodal) ανάκτηση. Retrieval-augmented generation (RAG). Εφαρμογές: Σημασιολογική αναζήτηση και συστήματα ερωταποκρίσεων με μοντέλα BERT. Συστήματα διαλόγων (chatbots) για ανάκτηση πληροφοριών με τη βιβλιοθήκη Hugging Face.
Μέθοδοι διδασκαλίας
Διαλέξεις (2 δίωρες διαλέξεις εβδομαδιαίως), εργαστήρια (1 δίωρο εργαστήριο κάθε δύο εβδομάδες), 1 ομαδική προγραμματιστική εργασία.
Συνιστώμενη βιβλιογραφία
-
C.D. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval, Cambridge UP, 2012. Δείτε τις ιστοσελίδες του βιβλίου εδώ.
-
Ανάκτηση Πληροφορίας, Baeza-Yates Ricardo, Ribeiro-Neto Berthier, Έκδοση: 2η, 2014, ΕΚΔΟΣΕΙΣ Α. ΤΖΙΟΛΑ & ΥΙΟΙ Α.Ε.
-
Διαθέσιμο στο διαδίκτυο το βιβλίο: Search Engines Information Retrieval in Practice, W.B. Croft, D. Metzler, T. Strohman, 2015.
-
Σημειώσεις: θα βρείτε σχετικό υλικό εδώ (σημειώσεις καθ. Θ. Καλαμπούκη)
-
Διαφάνειες Μαθήματος στο eclass
Μέθοδοι αξιολόγησης/βαθμολόγησης
Ο τελικός βαθμός είναι ο σταθμισμένος μέσος όρος του βαθμού της γραπτής εξέτασης (βάρος 70%) και της προγραμματιστικής εργασίας (βάρος 30%) με τον περιορισμό ο βαθμός της γραπτής εξέτασης να είναι μεγαλύτερος ή ίσος του 4. Η βαθμολόγηση της προγραμματιστικής εργασίας περιλαμβάνει ατομική προφορική εξέταση.
Προαπαιτούμενα μαθήματα
Υποχρεωτικό προαπαιτούμενο μάθημα είναι η «Τεχνητή Νοημοσύνη». Όμως, συνιστάται ο φοιτητής να έχει εξεταστεί επιτυχώς στα μαθήματα «Δομές Δεδομένων», «Πιθανότητες» και «Μαθηματικά ΙΙ», καθώς και σε προγραμματιστικά μαθήματα, σε προηγούμενο εξάμηνο.
Μαθησιακά αποτελέσματα
Μετά την επιτυχή ολοκλήρωση του μαθήματος οι φοιτητές θα είναι ικανοί:
- Να περιγράφουν το θεωρητικό υπόβαθρο των βασικών μοντέλων Ανάκτησης Πληροφοριών από συλλογές κειμένων και τον παγκόσμιο ιστό.
- Να αντιμετωπίζουν θέματα που προκύπτουν κατά την προ-επεξεργασία, ευρετηρίαση και αναζήτηση πληροφοριών.
- Να αναλύουν, να συνθέτουν και να υλοποιούν πραγματικά προβλήματα Ανάκτησης Πληροφοριών.
Αναλυτικό πλάνο μαθήματος
Ενότητα 1: Εισαγωγή στις βασικές έννοιες της ανάκτησης πληροφοριών. Ιστορική αναδρομή. Εφαρμογές.
Ενότητα 2: Εισαγωγή στα ανεστραμμένο ευρετήρια. Πώς μπορούμε να τα χρησιμοποιήσουμε στην επεξεργασία και εκτέλεση απλών ερωτημάτων Boole. Boolean μοντέλο ανάκτησης.
Ενότητα 3: Εμβάθυνση στα ανεστραμμένα ευρετήρια και στη διαδικασία ευρετηρίασης. Συλλογή κειμένων προς ευρετηρίαση. Ιχνηλάτες. Επεξεργασία κειμένων (θέματα κωδικοποίησης και γλώσσας, tokenization, γλωσσολογική ανάλυση, αποκοπή κατάληξης, λημματοποίηση, τετριμμένες λέξεις). Μέθοδοι εμπλουτισμού ανεστραμμένων ευρετηρίων για τη βελτίωση της λειτουργικότητας και της ταχύτητας του συστήματος ανάκτησης (δείκτες παράβλεψης, ευρετήρια ζευγών λέξεων, ευρετήρια φράσεων, ευρετήρια θέσεων).
Ενότητα 4: Δομές αναζήτησης σε ανεστραμμένα ευρετήρια (δένδρα αναζήτησης, πίνακες κατακερματισμού), τρόποι επεξεργασίας ερωτημάτων και αντίστοιχες παραλλαγές ανεστραμμένων ευρετηρίων (ευρετήρια αντιμετατιθεμένων όρων, k‐γραμμάτων).
Ενότητα 5: Αλγόριθμοι κατασκευής ανεστραμμένων ευρετηρίων με έμφαση σε αλγορίθμους που παρουσιάζουν σημαντικές δυνατότητες κλιμάκωσης και κατανεμημένης επεξεργασίας, οι οποίοι μπορούν να εφαρμοστούν σε πολύ μεγάλες συλλογές κειμένων (BSBI, SPIMI, MapReduce). Δυναμική (online) ευρετηρίαση.
Ενότητα 6: Στατιστικά των κειμένων (νόμοι των Zipf και Heaps), τεχνικές για τη συμπίεση λεξικών και ανεστραμμένων ευρετηρίων (εμπρόσθια κωδικοποίηση, κωδικοποίηση σταθερού και μεταβλητού μεγέθους, κωδικοποίηση γ).
Ενότητα 7: Σταθμισμένη ανάκτηση (Ranked retrieval). Ανάπτυξη μεθόδων στάθμισης όρων και υπολογισμού βαθμολογιών. Παραμετρικά ευρετήρια και ευρετήρια ζώνης, σταθμισμένη βαθμολόγηση ζώνης με μάθηση βαρών, συχνότητα όρων, tfidf βάρος, κανονικοποίηση. Μοντέλο ανάκτησης διανυσματικού χώρου. Ανεστραμμένο ευρετήριο προσαρμοσμένο σε σταθμισμένη ανάκτηση και στο μοντέλο διανυσματικού χώρου για τον υπολογισμό διανυσματικών βαθμολογιών (term‐at‐a‐time, document‐at‐a‐time).
Ενότητα 8: Αξιολόγηση συστημάτων ανάκτησης πληροφοριών με βάση τη συνάφεια των ανακτημένων κειμένων και σύγκριση των σχετικών επιδόσεων διαφορετικών συστημάτων ανάκτησης σε συλλογές κειμένων.
Ενότητα 9: Ολοκληρωμένο σύστημα ανάκτησης. Σύνθεση από προηγούμενες ενότητες. Συνιστώσες. Υπολογισμός βαθμολογιών σε ένα πλήρες σύστημα ανάκτησης. Παρουσίαση ευρετικών μεθόδων για την επιτάχυνση των υπολογισμών (ανακριβής ανάκτηση κορυφαίων κειμένων, λίστες πρωταθλητών), υλοποίηση ενός ολοκληρωμένου συστήματος ανάκτησης, διάρθρωση συστήματος, ευρετήρια και απαραίτητες δομές.
Ενότητα 10: Σημασιολογικό κενό, μέθοδοι αντιμετώπισης αμφισημίας και πολυσημίας στην ανάκτηση πληροφοριών. Ανάδραση συνάφειας (Relevance feedback), Ψευδο‐ανάδραση συνάφειας. Αλγόριθμος Rocchio. Έμμεση ανάδραση συνάφειας. Διεύρυνση/αναδιατύπωση ερωτήματος (Query expansion/reformulation) με χρήση thesaurus ή WordNet. Λανθάνουσα σημασιολογική ευρετηρίαση.
Ενότητα 11: Πιθανοτικά συστήματα ανάκτησης. Θεωρία πιθανοτήτων για την εκτίμηση της πιθανότητας ενός κειμένου να είναι συναφές με μία πληροφοριακή ανάγκη. Μοντέλο στάθμισης BM25. Γλωσσικό μοντέλο ανάκτησης.
Ενότητα 12: Μηχανική μάθηση στην ανάκτηση πληροφοριών. Εξαγωγή χαρακτηριστικών. Μετρικές αξιολόγησης. Συνδυασμός χαρακτηριστικών για τη βελτιστοποίηση των μετρικών. Αλγόριθμοι Learning to Rank. Αλγόριθμοι μάθησης.
Εφαρμογή 1: LTR στη μηχανή αναζήτησης elasticsearch.
Ενότητα 13: Νευρωνικά δίκτυα στην ανάκτηση πληροφοριών. Νέες αναπαραστάσεις λέξεων, κειμένων και ερωτημάτων (“in‐documents” χαρακτηριστικά, “neighbouring terms w/ distances” χαρακτηριστικά). Νέοι τρόποι αντίληψης της ομοιότητας ανάλογα με το πρόβλημα (document ranking, query auto‐completion, next query suggestion). Ανάκτηση με χρήση ενθέσεων. Dense vectors. Πολυτροπική (multimodal) ανάκτηση. Retrieval-augmented generation (RAG).
Εφαρμογή 2: Σημασιολογική αναζήτηση με μηχανική μάθηση και BERT.
Δημιουργία ανεστραμμένου ευρετηρίου με τη βιβλιοθήκη FAISS. Κωδικοποίηση και αναζήτηση κειμένων με sentence-transformers. Σύστημα ερωταποκρίσεων με προ-εκπαιδευμένα μοντέλα BERT.
Εφαρμογή 3: Σύστημα διαλόγων για ανάκτηση πληροφοριών (chatbot).
Ανάπτυξη chatbot που θα μπορεί να απαντά στις ερωτήσεις του χρήστη, χρησιμοποιώντας τη βιβλιοθήκη Hugging Face NLP. Χρήση DistilBERT transformer και άλλων μοντέλων transformers για τη βελτίωση των αποτελεσμάτων. Ανάπτυξη ενός bot στο Telegram.
Εργαστήρια: Το μάθημα έχει σειρά εργαστηρίων όπου δίνονται πρακτικά παραδείγματα με κώδικα.
Αναζήτηση με SpaCy και scikit-learn: προεπεξεργασία κειμένων με τη βιβλιοθήκη SpaCy (λημματοποίηση, αφαίρεση τετριμμένων λέξεων, tokenization, κλπ.), υπολογισμός TF-IDF σκορ για τους όρους, δημιουργία TF-IDF αναπαράστασης κειμένων/ερωτημάτων, υπολογισμός συνημιτονοειδούς ομοιότητας με το scikit-learn, κατασκευή ανεστραμμένου ευρετηρίου και αναζήτηση σε αυτό.
Δημιουργία μηχανής αναζήτησης με ElasticSearch και BERT: συνδυασμός off-the-self μοντέλων ανάκτησης της ElasticSearch (vector space model, BM25, κλπ.) με σημασιολογική αναζήτηση με χρήση transformers. Δημιουργία και ευρετηρίαση σε ElasticSearch docker container, βελτίωση αποτελεσμάτων με χρήση BERT, χρήση Flask API για την προσαρμογή της μηχανής αναζήτησης στα ενδιαφέροντα του χρήστη.
-