Παρουσίαση/Προβολή

Εικόνα επιλογής

Μετατροπή Κειμένου σε Γράφους Γνώσης [ΨΜΑΕ]

(INF508) -  ΒΑΓΙΑΝΟΣ ΠΕΡΤΣΑΣ

Περιγραφή Μαθήματος

Το μάθημα προσφέρει μια συνολική παρουσίαση των ψηφιακών μεθόδων που χρησιμοποιούνται κατά την μοντελοποίηση και μετατροπή ελεύθερου κειμένου σε Γράφους Γνώσης.

Οι φοιτητές εξοικειώνονται με πρακτικά ζητήματα που άπτονται διαδικασιών όπως: μοντελοποίηση πληροφορίας, χρήση, αξιολόγηση και δημιουργία πληθυσμού οντολογικών μοντέλων, χρήση προγραμματιστικών διεπαφών (API) για επικοινωνία με ψηφιακά αποθετήρια, άντληση και επεξεργασία μεταδεδομένων, τεχνικές εξαγωγής πληροφορίας από ιστοσελίδες (web scraping), προεπεξεργασία και καθαρισμός δεδομένων, τεχνικές επίβλεψης εξ’ αποστάσεως (distance supervision) για γρήγορη δημιουργία επισημειώσεων (δημιουργία και χρήση λιστών ονομάτων, λεξικολογικών και συντακτικών κανόνων), διαδικασία δημιουργίας και αξιολόγησης συνόλων επισημειώσεων, χρήση και αξιολόγηση μοντέλων μηχανικής και βαθιάς μάθησης για κατηγοριοποίηση κειμένου (text classification) και αναγνώριση ονομάτων οντοτήτων (Named Entity Recognition), πρότυπα δημιουργίας τριπλετών (RDF triples) από κείμενο, οπτικοποίηση αποτελεσμάτων (visualizations).

Ημερομηνία δημιουργίας

Δευτέρα, 13 Μαρτίου 2023

  • Μαθησιακοί στόχοι

    Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση:

    • Να σχεδιάζουν αξιολογούν και υλοποιούν σε Python οντολογικά μοντέλα πεδίου
      (domain ontologies).
    • Να χειρίζονται προγραμματιστικές διεπαφές (API) και να αντλούν αυτόματα δεδομένα
      από ψηφιακά αποθετήρια.
    • Να εξάγουν προγραμματιστικά πληροφορίες και δεδομένα από ιστοχώρους.
    • Να χειρίζονται σύνολα δεδομένων (καθαρισμός, επεξεργασία μεταδεδομένων κ.α.)
    • Να εφαρμόζουν μεθόδους εξ’ αποστάσεως επίβλεψης για γρήγορη δημιουργία συνόλων
      επισημειώσεων.
    • Να οργανώνουν, εφαρμόζουν και αξιολογούν διεργασίες επισημείωσης για παραγωγή
      συνόλων δεδομένων εκπαίδευσης / αξιολόγησης αλγορίθμων Μηχανικής Μάθησης.
    • Να χρησιμοποιούν αλγορίθμους Μηχανικής και Βαθιάς Μάθησης για εργασίες όπως
      κατηγοριοποίηση κειμένου και αναγνώριση ονομάτων οντοτήτων.
    • Να οπτικοποιούν τα αποτελέσματα των αλγορίθμων επεξεργασίας κειμένου για ποιοτική
      ανάλυση.
    • Να συνδυάζουν / ομογενοποιούν δεδομένα από διαφορετικές πηγές και να παράγουν
      Γράφους Γνώσης με βάση τα πρότυπα του Σημασιολογικού Ιστού.

    Προαπαιτούμενα

    Οι φοιτητές θα πρέπει να είναι εξοικειωμένοι με την γλώσσα προγραμματισμού Python.

    Στο μάθημα γίνεται εκτενής χρήση βιβλιοθηκών συναρτήσεων όπως RDFLib, BeautifulSoup, του NLP framework SpaCy για υλοποίηση και εφαρμογή των εργαλείων Μηχανικής και Βαθιάς Μάθησης και του εργαλείου Prodigy για δημιουργία συνόλων επισημειώσεων. Παρόλο που θα υπάρξουν κατάλληλες εισαγωγικές ενότητες για τα παραπάνω εργαλεία, οι φοιτητές ενθαρρύνονται (χωρίς να είναι υποχρεωτικό) να αποκτήσουν μια πρώτη εξοικείωση με αυτά,
    μέσα από τις αντίστοιχες ιστοσελίδες τεκμηρίωσης:

    https://spacy.io/
    https://prodi.gy/
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/
    https://rdflib.readthedocs.io/en/stable/

    Το μάθημα εστιάζει σε τρόπους συνδυασμού και εφαρμογή στην πράξη αρκετών μεθόδων και
    εννοιών που αναλύονται εκτενέστερα στα μαθήματα «Υ2. Παράσταση και Οργάνωση Πληροφορίας και Γνώσης» και «Ε1. Γλωσσική Τεχνολογία», η παρακολούθηση των οποίων συνιστάται χωρίς να είναι υποχρεωτική.

    Βιβλιογραφία

    • S. Raschka. Python Machine Learning. UK: Packt Publishing, 2019
    • D. Beckett, ed. RDF/XML Syntax Specification (Revised). W3C Recommendation. February
      10,2004. www.w3.org/TR/rdf‐syntax‐grammar/
    • D. Brickley and R.V. Guha, eds. RDF Vocabulary Description Language 1.0: RDF Schema.
      W3C Recommendation. February 10, 2004. www.w3.org/TR/rdf‐schema/
    • G. Antoniou, P. Groth, F. Harmelen, R. Hoekstra. A Semantic Web Primer. London: MIT
      Press, 2004
    • Pustejovsky, J., and Amber Stubbs. Natural Language Annotation for Machine Learning.
      Sebastopol, CA: O’Reilly Media, 2013.

    Μέθοδοι διδασκαλίας

    Μια διάλεξη τριών ωρών εβδομαδιαίως που συμπεριλαμβάνει και εργαστηριακές ασκήσεις. Τέσσερις εργασίες/ασκήσεις μελέτης που καλύπτουν θέματα πρακτικής εφαρμογής (προς παράδοση).

    Μέθοδοι αξιολόγησης

    Ο τελικός βαθμός συντίθεται από το μέσο όρο των βαθμών για τις επιμέρους προς παράδοση εργασίες (80%) και του βαθμού της συμμετοχής και ανταπόκρισης κατά την παρακολούθηση του μαθήματος (20%).