ΕΠΙΣΤΗΜΗ

Ο σκεπτικισμός για την εξελιγμένη τεχνολογία αναγνώρισης φωνής

ΝΙΚΟΣ ΕΥΣΤΑΘΙΟΥ

Η αναγνώριση φωνής και η συνθετική ομιλία των συσκευών τεχνητής νοημοσύνης είναι μίλια μπροστά στις χώρες της Ανατολικής Ασίας. Στην Κίνα, το 77% των χρηστών κινητών τηλεφώνων χρησιμοποιεί τη σύγχρονη τεχνολογία ήχου.

ΕΤΙΚΕΤΕΣ:

Πριν από δύο χρόνια στο Νταβός της Ελβετίας, η βοηθός τεχνητής νοημοσύνης της IBM, εν ονόματι «Ρέιτσελ», είχε κερδίσει τις εντυπώσεις ενός σοκαρισμένου κοινού με τη δυνατότητά της να συμμετέχει σε πολύπλοκους διαλόγους και να διαβάζει ακόμα και τις εκφράσεις στα πρόσωπα των συνομιλητών της. Κι όμως, με τα σημερινά δεδομένα της βιομηχανίας, η «Ρέιτσελ» αποτελεί ήδη ένα απαρχαιωμένο πρότζεκτ. Το ηχητικό περιεχόμενο έχει αυξηθεί εκθετικά και οι νέες τάσεις στην τεχνολογία αναγνώρισης και ανάλυσης φωνής έχουν βελτιωθεί σε τέτοιο βαθμό που μπορούν πλέον να προβλέψουν τις σκέψεις και τα αιτήματα των χρηστών πριν ακόμη τα προσδιορίσουν οι ίδιοι. Οπως δήλωσε πριν από μερικούς μήνες ο Μπεν Γκόουμς, υπεύθυνος του τμήματος αναζήτησης της Google, «τα ρομπότ και τα αυτόματα αυτοκίνητα κλέβουν τα πρωτοσέλιδα, ωστόσο το μεγάλο άλμα στην τεχνολογία που κρύβεται πίσω από όλα είναι η πρόοδος στις φωνητικές υπηρεσίες».

Η μάχη για την παροχή της βέλτιστης υπηρεσίας ηχητικής αναγνώρισης περιλαμβάνει αμέτρητους φορείς, πρωταγωνιστές ωστόσο είναι αδιαμφισβήτητα η Amazon με την έξυπνη Alexa και η Google με τον εξυπηρετικό Assistant. Οι δύο γίγαντες της τεχνολογίας πλέον συνεργάζονται με δεκάδες κατασκευαστές συσκευών όπως θερμοστάτες, λάμπες και ψυγεία, με στόχο την οικοδόμηση ενός μέλλοντος που ο χρήστης θα επικοινωνεί φωνητικά με το κάθε αντικείμενό του. Η πιο συναρπαστική τελευταία εξέλιξη από την πλευρά της Google είναι η δυνατότητα του αλγορίθμου να αντιλαμβάνεται σε τι αναφέρεται η ερώτηση ενός χρήστη ακόμη και αν ο ίδιος δεν γνωρίζει τους κατάλληλους όρους αναζήτησης – μια τεχνολογία συμφραζόμενης ανάλυσης εξαιρετικά πολύπλοκη, που όμως είναι ήδη διαθέσιμη σε πάνω από 30 γλώσσες συμπεριλαμβανομένων και των ελληνικών.

Ωστόσο, όπως τα περισσότερα σύγχρονα εργαλεία, έτσι και η τεχνολογία αναγνώρισης φωνής αποτελεί στην πραγματικότητα ένα δίκοπο μαχαίρι που ήδη έχει αρχίσει να φανερώνει την άσχημη πλευρά του. Ενα αποκαλυπτικό ρεπορτάζ του περιοδικού Intercept φανερώνει την ανατριχιαστική χρήση της τεχνολογίας αναγνώρισης και ψηφιοποίησης της φωνής από τις αμερικανικές αρχές, οι οποίες χτίζουν ήδη ένα γιγαντιαίο σύστημα ηχητικής παρακολούθησης. «Οι Αρχές με ανάγκασαν να ηχογραφήσω μία σειρά από ηχητικά μηνύματα απαντώντας σε έναν ψηφιακό βοηθό, απειλώντας με πως αν δεν συμφωνήσω να το κάνω θα μου αφαιρούσαν το τηλέφωνό μου», ανέφερε ο Τζον Ντιουκς, έγκλειστος σε φυλακή της Νέας Υόρκης. Την ίδια στιγμή, ο τεχνο-οραματιστής Ελον Μασκ απέσυρε ένα λογισμικό αναγνώρισης και τεχνητής παραγωγής ηχητικού υλικού γιατί ο ίδιος έκρινε πως μπορεί εύκολα να συνδράμει στη στοχοθετημένη παραπληροφόρηση και ανήθικη παρακολούθηση των χρηστών.

Κοινός παρονομαστής σε όλους τους φόβους για το μέλλον της τεχνολογίας ανάλυσης του ήχου είναι η έλλειψη ρυθμίσεων και νομοθετικού πλαισίου. Αυτή εν μέρει ευθύνεται για την ευρέως διαδεδομένη, ελαφρά συνωμοτική πεποίθηση πως τα κινητά τηλέφωνα παρακολουθούν τις συνομιλίες μας και μας προτείνουν σχετικό διαφημιστικό περιεχόμενο στα μέσα κοινωνικής δικτύωσης. Σε μια συνταρακτική συζήτησή μου με τον Κρίστοφερ Ουάιλι, τον άνθρωπο που αποκάλυψε το σκάνδαλο της Cambridge Analytica, στο πλαίσιο του Οικονομικού Φόρουμ των Δελφών, ο σκεπτικισμός αυτός επιβεβαιώθηκε. «Είμαι σίγουρος πως τα κινητά μας τηλέφωνα παρακολουθούν και αναλύουν τις συνομιλίες μας – αλλιώς γιατί το Facebook να επενδύει ανοιχτά στην τεχνολογία αναγνώρισης φωνής;», ανέφερε ο Καναδός whistleblower, προτού προσθέσει με χιούμορ: «Η στρατηγική μου είναι να μπερδεύω τον αλγόριθμο με άσχετες επιτηδευμένες συζητήσεις. Ανακάλυψα πρόσφατα πως ο αλγόριθμος του Facebook με έχει ταξινομήσει ως ανήλικο κορίτσι από την Κορέα, οπότε ξέρουμε πως η τεχνολογία δεν είναι ακόμα αψεγάδιαστη».

Έντυπη

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ