Υπολογιστική γλωσσολογία και στατιστική στην υπηρεσία των μηχανών αναζήτησης
Της Ζωής Μαρμαρά

“Θα ήταν θαυμάσιο αν μπορούσες να έψαχνες μια φράση και να την έβρισκες μέσα σε ένα video ή σε έναν ήχο. Αλλά δε νομίζω ότι έχουμε φτάσει ακόμα εκεί.”
Αυτά ήταν τα λόγια του Jay Webster, υπεύθυνου του τμήματος τεχνολογίας της Fathom Online και αργότερα προέδρου της εταιρίας. Το 2004, o αμερικανικός παροχέας υπηρεσιών διαδραστικής επικοινωνίας, ανέπτυσσε τις δραστηριότητές του σε νέους τρόπους αξιοποίησης των δυνατοτήτων του Internet, όπως αυτός της αναζήτησης πολυμεσικών δεδομένων και συγκεκριμένα στο video search. Η Streamsage, Inc. , θυγατρική εταιρία της Comcast Cable Communications, είχε αποκτήσει τότε ηγετικό ρόλο στον χώρο της έρευνας, ανάλυσης και ταξινόμισης οπτικοακουστικού περιεχομένου. Η εταιρία, η οποία δραστηριοποιείται στο Internet και την κινητή τηλεφωνία από το 2000, βρίσκόταν πίσω από το γνωστό αμερικανικό site CampaignSearch, το οποίο μπορούσε και ανέτρεχε σε video τηλεοπτικών εμφανίσεων Aμερικανών πολιτικών, όπως π.χ. ο George Bush, αναζητώντας συγκεκριμένες φράσεις, σύμφωνα με τα κριτήρια αναζήτησης κάθε χρήστη. Προς την ίδια κατεύθυνση κινήθηκαν με γοργούς ρυθμούς η Yahoo!, η Hewlett Packard αλλά και η Microsoft, η οποία ζήτησε τις ανεπτυγμένες τεχνικές της εταιρίας Autonomy για την αναζήτηση δεδομένων στο Microsoft MSN. To 2006, η τεχνολογία “Virage” της Autonomy, υιοθετήθηκε από το Microsoft MSN, την AOL και το Lycos. Βασισμένη σε μελέτες ερευνητών του πανεπιστημίου του Cambridge, η λειτουργία του Virage στηριζόταν στη «Θεωρία της πληροφορίας» του Claude Shannon και την «Εντροπία» του.
Ο Shannon, ο επιστήμονας που έκανε πρώτος λόγο για το δυαδικό ψηφίο, ανέδειξε την πληροφορία σε μετρήσιμο μέγεθος και έδωσε τα μαθηματικά εργαλεία που χρησιμοποιούν σήμερα οι μηχανικοί για την μέτρηση της απόδοσης ενός καναλιού πληροφορίας. Η τεχνολογία “Virage” στηρίζεται ακόμα στη στατιστική και τη θεωρία του Gauss. Ένα όμορφο παράδειγμα για τον τρόπο σκέψης των μηχανικών σε παρόμοιες τεχνικές αναζήτησης δίνει o David Barber, θεωρητικός φυσικός και καθηγητής στο πανεπιστήμιο του Εδιμβούργου:
“Είναι σαφές ότι, μόλις δούμε μερικά μόνο παραδείγματα του ύφους γραφής κάποιου, έχουμε μια αρκετά καλή ιδέα για το πώς γράφει τον αριθμό επτά. Μπορεί να μη γράφει πάντα ακριβώς με τον ίδιο τρόπο, αλλά θα είχαμε ενδεχομένως, μικρή δυσκολία στην αναγνώριση του ύφους γραφής του, παρ’ όλο που κάθε αριθμός επτά που γράφει είναι διαφορετικός. Αυτό σημαίνει ότι έχουμε υπό κάποια έννοια, συλλάβει τον τρόπο με τον οποίο ένα πρόσωπο γράφει τον αριθμό επτά – μερικές φορές μπορεί να υπάρξουν δευτερεύουσες αλλαγές, αλλά έχουμε μια αρκετά καλή ιδέα για το πως αυτές παρουσιάζονται. Δεδομένου ότι κάθε αριθμός επτά που κάποιος γράφει είναι διαφορετικός από τον προηγούμενο, έχει περισσότερο νόημα να χρησιμοποιήσουμε τη θεωρία των πιθανοτήτων για να περιγράψουμε πόσο πιθανά είναι ορισμένα δείγματα αριθμών επτά από άλλα. Δηλαδή μπορούμε να πούμε ότι η πιθανότητα κάθε δείγματος είναι p(x).”
Στο παράδειγμα του Barber, η τυχαία μεταβλητή x παίρνει άπειρο μη αριθμήσιμο πλήθος τιμών, συνεπώς καλείται συνεχής τυχαία μεταβλητή. Δεχόμαστε λοιπόν την ύπαρξη μιας συνάρτησης, όπου α) η πιθανότητα να πάρει η Χ μία ορισμένη τιμή είναι μηδέν και β) υπάρχει πιθανότητα η Χ να βρίσκεται μεταξύ δύο διαφορετικών τιμών. Σε αυτή τη διαπίστωση καταλήγει ο Barber και αναφέρεται στη p(x) ως μία συνάρτηση πυκνότητας.
“Ίσως η πυκνότητα πιθανότητας p(x) ενός καμπυλόγραμμου αριθμού επτά να είναι μεγαλύτερη, ενώ τα δείγματα αριθμών επτά με ευθείες μπορεί να έχουν χαμηλή πιθανότητα. Η χρησιμότητα των πιθανοτήτων είναι ότι μας επιτρέπουν να δώσουμε μια εκτίμηση για κάθε έναν από τους άπειρους αριθμούς επτά που θα μπορούσε κάποιος να γράψει.”
Οι τυχαίες μεταβλητές και οι κατανομές πιθανότητας αποτελούν τις θεωρητικές βάσεις στις οποίες στηρίζονται όλες οι μελέτες για την ανάλυση πολύπλοκων αρχείων (π.χ. συμπίεση ήχου, video, εικόνας) και θεμελιώνουν έννοιες πολυπλοκότητας και υπολογισημότητας στα πεδία της κρυπτογραφίας, της ασφάλειας και της ανάκτησης δεδομένων.
Το είδος και η μορφή των πολυμεσικών δεδομένων καθιστά την αρχειοθέτηση και την ανάκτησή τους ιδιαίτερα δύσκολη. Για να κατασκευάσουν ένα μοντέλο αναζήτησης σε αρχεία video και ήχου, πέντε επιστήμονες στηρίχτηκαν στη θεωρία λήψης “στατιστικών” αποφάσεων (Bayesian decision theory), η οποία συνδέεται άμεσα με τις συνεχείς τυχαίες μεταβλητές και το παράδειγμα του Barber.
Oι Thijs Westerveld, Arjen P. de Vries, Alex van Ballegooij, Franciska de Jong και Djoerd Hiemstra στην εργασία τους “A Probabilistic Multimedia Retrieval Model and Its Evaluation” αναλύουν τη μεθοδολογία λήψης πολυτροπικών (multimodal) αποτελεσμάτων στη διαδικασία αναζήτησης. Πολυτροπική είναι η πληροφορία που μπορεί να αποτελείται από εικόνες, σχεδιαγράμματα, κείμενο, video και ήχο – δηλαδή η πληροφορία που παρουσιάζεται με μια μορφή όπου συνδιάζονταν πολλοί σημειωτικοί τρόποι (modes).
Στην εισαγωγή διευκρινίζεται ότι, η αυξημένη δυσκολία προσδιορισμού ενός οπτικού αντικειμένου στο περιεχόμενο ενός video, οδηγεί τους αναλυτές στη χρήση text transcripts, περιγραφών και υποτίτλων, δηλαδή κειμένου. Εξηγείται ότι σε αυτές τις περιπτώσεις το ρίσκο είναι αυξημένο, αφού οι ίδιες λέξεις μπορεί να επαναλαμβάνονται ή άλλες να μην εμφανίζονται καθόλου. Ακολουθούν οι παρουσιάσεις δύο παρόμοιων μοντέλων λήψης αποτελεσμάτων για την αναζήτηση κειμένου και ήχου αλλά και video.
Αν διαβάσατε τα συμπεράσματα της μελέτης, θα είδατε ότι τα μοντέλα που προτείνουν οι Ολλανδοί επιστήμονες μπορούν να χρησιμοποιηθούν στην αναζήτηση πολυμεσικών δεδομένων αλλά στην εφαρμογή τους δίνουν αργά αποτελέσματα και λιγότερο αξιόπιστα – τουλάχιστον όταν δεν έχει γίνει χρήση φίλτρων noise στο video. Είναι ενδιαφέρον όμως, να παρατηρήσει κανείς, ότι τα αποτελέσματα βελτιώνονται με τη χρήση τεχνικών μηχανικής μετάφρασης.
Η υπολογιστική γλωσσολογία, η τεχνητή νοημοσύνη και η στατιστική συμβιώνουν αρμονικά σε έναν συναρπαστικό κόσμο έρευνας, όπως είναι η μελέτη της αρχειοθέτησης και ανάκτησης πολυμεσικών δεδομένων. Πρόσφατα, το γερμανικό Spactor.com (http://www.spactor.com/) έκανε ένα μεγάλο βήμα προς τον τομέα αυτό, αξιοποιώντας real-time τεχνικές μηχανικής μετάφρασης για την αναζήτηση στην τηλεόραση και το ραδιόφωνο. Τη στιγμή που μιλάμε, Γερμανοί χρήστες πραγματοποιούν αναζητήσεις στα περιεχόμενα των εκπομπών εβδομηνταπέντα γερμανικών τηλεοπτικών και ραδιοφωνικών σταθμών την ώρα της απευθείας μετάδοσής τους. Πρόκειται για ένα φιλόδοξο εγχείρημα με μακροπρόθεσμες επιπτώσεις στον τρόπο που έχουμε συνηθίσει να αντιλαμβανόμαστε τα πράγματα γύρω μας – Κι αυτή είναι μόνο η αρχή.
Technorati Tags: data retrieval, στατιστική, Υπολογιστική γλωσσολογία, αναζήτηση, video search



















2 Comments, Comment or Ping
porcupine
Φοβερό κείμενο, εκπληκτικές οι πληροφορίες.
Μπορεί να μη συνδέεται άμεσα, αλλά μου ήρθε αυτόματα η ομάδα ανθρώπων κάτω από τον τίτλο sight.sound.soul, η οποία προσπαθεί να κάνει την τέχνη κατανοητή κι απτή σε όλους τους ανθρώπους ανεξάρτητα της φυσικής τους κατάστασης. Εκεί, με δυο λόγια, ακόμα κι άνθρωποι με προβλήματα στην όραση, την ακοή την κίνηση κλπ. συμμετέχουν και διαμορφώνουν την τέχνη.
Sep 23rd, 2007
bezalel
Γιάννη σ’ ευχαριστώ :) Για το sight.sound.soul έχω ακούσει ξανά. Τον παραλληλισμό τον αντιλαμβάνομαι αμυδρά :) Χεχε. Σπουδαία δουλειά κάνει η ομάδα πάντως… Είδες banner που έχουν;
http://sightsoundsoul.org/about/
Sep 24th, 2007
Reply to “Υπολογιστική γλωσσολογία και στατιστική στην υπηρεσία των μηχανών αναζήτησης”