Πλατφόρμα μεταφράζει τον ήχο κρατώντας τη χροιά του ομιλητή

Κουβέντα on line, φωτογραφία shutterstock

Τι λέει ο Ελληνας που συμμετέχει στο πρότζεκτ

Η Έμιλι είναι Αγγλίδα. Είναι καθηγήτρια και παραδίδει δωρεάν βιντεοσκοπημένα μαθήματα σε φοιτητές και επαγγελματίες από όλον τον κόσμο, μέσω μιας διαδικτυακής εκπαιδευτικής πλατφόρμας.

Η γλώσσα διδασκαλίας είναι τα αγγλικά, αλλά οι μαθητές της δεν τα μιλούν όλοι, αφού βρίσκονται σε διάφορες χώρες του κόσμου, από τη Γαλλία και την Ισπανία μέχρι την Αίγυπτο, τη Ρωσία και το Βιετνάμ. Αρχικά, επιχείρησε να υποτιτλίσει και μετέπειτα να μεταγλωττίσει τα μαθήματά της, αλλά γρήγορα διαπίστωσε ότι η συγκέντρωση όσων παρακολουθούσαν χανόταν εύκολα και στις δύο περιπτώσεις. Στον υποτιτλισμό, επειδή είναι κουραστικό για κάποιον να διαβάζει υπότιτλους, έστω στη μητρική του γλώσσα. Στη μεταγλώττιση πιθανώς επειδή η φωνή στο «ντουμπλάρισμα» δεν είναι τόσο φυσική ή διότι τα χείλη δεν ακολουθούν τη ροή των λέξεων σε μια άλλη γλώσσα, όπως συχνά συμβαίνει με τις μεταγλωττίσεις.

Ποια θα ήταν η λύση σε αυτό το πρόβλημα, ώστε μαθήτριες και μαθητές να μη χάνουν την ευκαιρία για ευκολότερη πρόσβαση στη δωρεάν εκπαίδευση; Η Έμιλι μπορεί να είναι φανταστικό πρόσωπο, αλλά το πρόβλημα με τη μετάφραση εκπαιδευτικού βιντεο-περιεχομένου στο Διαδίκτυο, είναι πραγματικό.

Πλατφόρμα μεταφράζει τον ηχο με τη χροιά της φωνής του ομιλητή

Μια διεθνής ομάδα ερευνητών από τη θυγατρική της Google, «Deepmind», και την ίδια τη Google, στην οποία μετέχει ο νεαρός Θεσσαλονικιός ερευνητής Γιάννης Ασσαέλ, φαίνεται πως έχει τη λύση στο πρόβλημα. Μέσω της τεχνητής νοημοσύνης, κατόρθωσε να «μεταφράζει» τον ήχο και να κρατά τη χροιά της φυσικής φωνής του ομιλητή και ταυτόχρονα να αντιστοιχίζει πλήρως τις λέξεις με τις κινήσεις των χειλιών του (lip-sync), παρότι αυτός μιλάει πλέον σε άλλη γλώσσα, που πιθανώς δεν την έχει ξαναμιλήσει ποτέ!

Στα αγγλικά το 59% του περιεχομένου βίντεο στο Διαδίκτυο, ενώ μόνο το 25% των χρηστών έχει την αγγλική ως πρώτη γλώσσα

Tι λέει ο ελληνας ερευνητής για την πλατφόρμα

«Μόνο το YouTube χρησιμοποιείται από 2 δισεκατομμύρια χρήστες μηνιαίως, οι οποίοι παρακολουθούν πάνω από 1 δισεκατομμύριο ώρες βίντεο. Εμείς στοχεύουμε στο μεγάλο ποσοστό αυτών των βίντεο, που αφορούν σε εκπαιδευτικό περιεχόμενο, καθώς περισσότεροι από τους μισούς χρήστες επισκέπτονται το Youtube για να μάθουν κάτι καινούργιο. Στόχος της έρευνάς μας είναι, χρησιμοποιώντας την τεχνολογία για καλό σκοπό, να αυξήσουμε την προσβασιμότητα οπτικοακουστικού υλικού για όλο τον κόσμο» εξηγεί στο ΑΠΕ-ΜΠΕ ο Γιάννης Ασσαέλ, μέλος της ομάδας της Google Deepmind.

Αυτή τη στιγμή, το 59% του περιεχομένου σε βίντεο στο Διαδίκτυο προσφέρεται στα αγγλικά, όταν μόνο το 1/4 των χρηστών έχουν τα αγγλικά ως πρώτη γλώσσα. Το αποτέλεσμα είναι το περιεχόμενο συχνά να υποτιτλίζεται ή να μεταγλωττίζεται, για να είναι διαθέσιμο σε περισσότερους χρήστες.

Βάσει μελετών όμως, υποστηρίζουν οι ερευνητές της ομάδας, ο υποτιτλισμός μειώνει τα συναισθήματα χωρικής παρουσίας, μεταφοράς και ροής και καθιστά το περιεχόμενο λιγότερο προσβάσιμο στους αρχάριους ακροατές. Η μεταγλώττιση είναι μεν συγκριτικά καλύτερη για αρχάριους ακροατές, αλλά εξακολουθεί να έχει ως αποτέλεσμα την απώλεια σημαντικών πτυχών της δράσης και της προσοχής των χρηστών. Αυτό συμβαίνει επειδή οι κινήσεις του στόματος παίζουν καθοριστικό ρόλο στην κατανόηση της ομιλίας (κάτι που το αντιλαμβανόμαστε αμεσότερα εν μέσω πανδημίας, λόγω του καλυμμένου από μάσκα στόματος των συνομιλητών μας).

Στην πλατφόρμα η μεγαλύτερη πολύγλωσση βάση δεδομένων βίντεο

Όπως εξηγούν οι ερευνητές, αρχικά συλλέχθηκαν 3.700 καθαρές ώρες οπτικοακουστικού υλικού σε 20 γλώσσες από το YouTube, δημιουργώντας τη μεγαλύτερη -μέχρι σήμερα- πολύγλωσση βάση βίντεο. Στη συνέχεια, εκπαίδευσαν το μοντέλο τεχνητής νοημοσύνης πάνω σε αυτό το υλικό για αρκετές μέρες. Για να βελτιστοποιήσουν το αποτέλεσμα χρησιμοποίησαν, τέλος, ένα ολιγόλεπτο βίντεο του ομιλητή στη μητρική του γλώσσα, για καλύτερη αποτύπωση των χαρακτηριστικών του όταν μιλάει.

Το αποτέλεσμα; Ενώ στο αρχικό βίντεο ο ομιλητής μιλάει, πχ, αγγλικά, στο επεξεργασμένο ο εκπαιδευμένος αλγόριθμος τον εμφανίζει να μιλάει ισπανικά, χρησιμοποιώντας την ίδια τη φωνή του και κάνοντας τα χείλη του να κινούνται ακριβώς πάνω στις λέξεις, όπως θα συνέβαινε αν όντως μιλούσε ισπανικά!

Με πολύ απλά λόγια, το σύστημα τεχνητής νοημοσύνης μεταφράζει τον ήχο (κρατώντας τη χροιά του ομιλητή) σε άλλη γλώσσα και ταυτόχρονα δημιουργεί τις κατάλληλες κινήσεις χειλιών που ταιριάζουν στον μεταφρασμένο ήχο. Κι αυτό είναι εφικτό σε 20 γλώσσες.

Εκδημοκρατισμός της πληροφορίας και deepfakes

Σύμφωνα με τους ερευνητές, στόχος της δουλειάς τους είναι ο εκδημοκρατισμός της πληροφορίας και η μείωση των εμποδίων που σχετίζονται με τη γλώσσα στα video media, προς όφελος αρχικά της εκπαίδευσης, με πλείστες όμως εφαρμογές, μεταξύ άλλων στην ψυχαγωγία και το gaming. Δεν υπάρχουν όμως κίνδυνοι σε αυτό, σε μια εποχή που το περιεχόμενο deepfake (παραποιημένα βίντεο), καραδοκεί; Από τη στιγμή που γίνεται τόσο εύκολο ένας αλγόριθμος να χρησιμοποιεί τη χροιά της φωνής και το ίδιο το πρόσωπο του ατόμου, ο καθένας θα μπορούσε να εμφανίζεται να λέει οτιδήποτε, που στην πραγματικότητα ουδέποτε έχει πει…

«Η δουλειά μας δεν αλλάζει το τοπίο ως προς τις μεθόδους που κάνουν εφικτές τέτοιου είδους εφαρμογές. Η δυνατότητα δημιουργίας περιεχομένου deepfake video είναι ήδη προσβάσιμη και η συνεισφορά μας δεν ενισχύει τη δυνατότητα κακόβουλων παραγόντων να δημιουργήσουν τέτοιο περιεχόμενο. Καθώς το δομικό στοιχείο του lip sync στο σύστημά μας δεν διατίθεται σε άλλους προς χρήση και καθώς το όλο σύστημα που αναπτύξαμε πραγματοποιεί μετάφραση, είναι απίθανο να χρησιμοποιηθεί για βλαπτικούς σκοπούς. Επιπρόσθετα, διασφαλίζεται η συναίνεση των ιδιοκτητών των βίντεο, ενώ όλο το περιεχόμενο που δημιουργείται μέσω του συστήματός μας περιέχει ορατά υδατογράμματα, ώστε όσοι το παρακολουθούν να έχουν γνώση κάθε συνθετικού περιεχομένου που παρουσιάζεται» αναφέρουν οι ερευνητές στη δημοσιευμένη εργασία.

Οι γλώσσες της πλατφόρμας

Εκτός από αγγλικά, το σύστημα μεταφράζει επίσης σε ρωσικά, ισπανικά, γαλλικά, γερμανικά, ιταλικά, κορεάτικα, ισπανικά, πολωνικά, τουρκικά, ολλανδικά, ινδονησιακά, βιετναμέζικα, ταϊλανδέζικα, πορτογαλικά (Βραζιλίας), αραβικά (Αιγύπτου), ουκρανικά, ρουμανικά, ινδικά (Hindi) και εβραϊκά.

Πηγή