Εσείς τι γνωρίζετε για τα εργαλεία συνθετικής φωνής;

27.05.2023 • 07:25

Υποθέτω ότι οι περισσότεροι από εσάς θα έχετε ακουστά την τηλεφωνική απάτη με το ατύχημα του προσφιλούς προσώπου. Στόχος της συνήθως είναι κάποιος ηλικιωμένος. Χτυπάει το τηλέφωνο και στην άλλη άκρη της γραμμής ακούγεται μια αναστατωμένη φωνή, συνήθως γυναικεία, η οποία επιχειρεί να απευθυνθεί με δραματικό τρόπο στο μητρικό ή το πατρικό ένστικτο του θύματος, λέγοντας ότι η κόρη ή ο γιος έχει εμπλακεί σε ατύχημα και χρειάζεται επειγόντως να κατατεθεί ένα χρηματικό ποσό κάπου, προκειμένου να ξεμπλέξει.

Μέχρι να γίνει ευρύτερα γνωστό το κόλπο, υπήρξαν αρκετοί που έπεσαν στην παγίδα. Σήμερα, αν και συνεχίζονται άοκνα οι προσπάθειες, πολλά υποψήφια θύματα είναι πιο υποψιασμένα. Οι δουλειές, ωστόσο, φαίνεται ότι εξακολουθούν να πηγαίνουν καλά. Σύμφωνα με την Ομοσπονδιακή Επιτροπή Εμπορίου των ΗΠΑ, η πλαστοπροσωπία είναι η πιο συχνή μορφή απάτης στην άλλη άκρη του Ατλαντικού: 2,6 δισ. δολάρια αποσπάστηκαν από ανυποψίαστους πολίτες με τη μέθοδο αυτή, μόνο το 2022.

Ωστόσο, επειδή ο κόσμος προχωρά και προοδεύει, η απάτη ακολουθεί κατά πόδας την τεχνολογική επανάσταση κι εξελίσσεται εξίσου γρήγορα. Στην εποχή της τεχνητής νοημοσύνης, η γνωστή τηλεφωνική απάτη αναβαθμίζεται τεχνολογικά κι αναπόδραστα γίνεται πολύ πιο πειστική – και επικίνδυνη. Τα πρώτα ψήγματα της διαφαινόμενης επιτυχίας της εμφανίστηκαν ήδη στον ανεπτυγμένο κόσμο, επομένως μην πείτε ότι δεν προειδοποιηθήκατε εγκαίρως. Κάποτε πλαστογραφούσαν την υπογραφή σας, σήμερα μπορούν να πλαστογραφήσουν ακόμα και τη φωνή σας. Δυστυχώς, ο συναγερμός αυτός δεν θα είναι αρκετός για να αποτρέψει το κακό. Η τεχνολογία παραγωγής συνθετικών φωνών έρχεται για να μας δημιουργήσει έναν μεγάλο μπελά.

Τους πρώτους μήνες του 2023 ήδη καταγράφονται στις ΗΠΑ πολλά περιστατικά κακόβουλης χρήσης λογισμικών φωνής, όπου τα θύματα δεν ακούν κάποιον άγνωστο να τους μιλάει αναστατωμένος, αλλά το ίδιο το συγγενικό τους πρόσωπο. Αυτό συνέβη στην περίπτωση του Μπέντζαμιν Πέρκινς, στον Καναδά. Όταν η γιαγιά του (το θύμα) σήκωσε το τηλέφωνο, άκουσε τη φωνή του εγγονού της να την εκλιπαρεί να κάνει μια κατάθεση σε κρυπτονόμισμα, γιατί είχε εμπλακεί σε τροχαίο με έναν Αμερικανό διπλωμάτη και χρειαζόταν ένα ποσό για τα δικαστικά έξοδα. Της είπε αναλυτικά τι να κάνει και κάπως έτσι 21 χιλιάδες δολάρια Καναδά έκαναν φτερά από το κομπόδεμα της γιαγιάς προς τον λογαριασμό των απατεώνων.

Τεχνικά, η απάτη αυτή είναι εφικτή εδώ και μία δεκαετία. Εδώ και αρκετά χρόνια υπάρχουν λογισμικά τα οποία μπορούν να κλωνοποιήσουν οποιαδήποτε φωνή και να την κάνουν, μέσω γραπτών εντολών, να πει οτιδήποτε. Το 2017 ο πλανήτης συγκλονίστηκε από ένα Deep Fake βίντεο με την εικόνα του Μπαράκ Ομπάμα. O πρώην πρόεδρος των ΗΠΑ έκανε ένα υποτιθέμενο διάγγελμα, μόνο που στην πραγματικότητα δεν είχε πει ποτέ αυτά τα λόγια. Οι περισσότεροι επικεντρώθηκαν στην εικόνα, αφήνοντας ασχολίαστο το πόσο ακριβής ήταν η αναπαραγωγή της ομιλίας του Ομπάμα. Στην ηχητική μπάντα της Deep Fake εικόνας υπήρχε η Deep Fake φωνή. Το 2019, ο διευθύνων σύμβουλος μιας μεγάλης εταιρείας ενέργειας των ΗΠΑ δέχτηκε τηλεφώνημα από τον πρόεδρό του, ο οποίος του ζήτησε να μεταφέρει επειγόντως ένα ποσό της τάξης των 243 χιλιάδων δολαρίων προς έναν προμηθευτή. Η μεταφορά του ποσού έγινε κι αμέσως μετά ο CEO δέχτηκε νέο τηλεφώνημα προκειμένου να μεταφέρει ένα ακόμα ποσό. Τότε κάτι υποψιάστηκε και κάπως έτσι κατέληξε να πληροφορηθεί ότι δεν είχε μιλήσει ποτέ με τον πρόεδρο της εταιρείας, αλλά με έναν high tech απατεώνα, ο οποίος χρησιμοποίησε ένα λογισμικό κλωνοποίησης φωνών για να τον ξεγελάσει. Αργότερα, θα δήλωνε ότι ήταν βέβαιος ότι στο τηλέφωνο είχε μιλήσει με τον πρόεδρο της εταιρείας, καθώς η φωνή του είχε την ίδια χαρακτηριστική γερμανική προφορά, τον ίδιο οικείο τόνο και την ταχύτητα του λόγου του.

Τους τελευταίους μήνες, η κλωνοποίηση φωνών έχει μετατραπεί σε ένα προσιτό παιχνίδι, που μπορεί να το χρησιμοποιήσει ένας έφηβος στο δωμάτιό του για πλάκα, ένας απατεώνας στην άλλη άκρη του κόσμου θέλοντας να παγιδεύσει ανέξοδα θύματα, εσείς. Η διαδικασία είναι σκανδαλωδώς εύκολη και οι δικλίδες ασφαλείας εν πολλοίς ανύπαρκτες. Οι επιπτώσεις αυτής της τεχνολογικής εξέλιξης μόνο ήσυχο ύπνο δεν μας υπόσχονται.

Εργαλεία συνθετικής φωνής

Πίσω από την τεχνολογία βρίσκονται τα νευρωνικά δίκτυα της επονομαζόμενης παραγωγικής τεχνητής νοημοσύνης. Τρέφουμε έναν αλγόριθμο με παραδείγματα, με φωνητικά αρχεία εν προκειμένω, κι εκείνος, αφού κάνει τα μαγικά του (τα οποία δεν είναι καθόλου μαγικά, αλλά μια διαδικασία που ονομάζεται αυτοενισχυόμενη μάθηση), αναζητά μοτίβα και αλληλουχίες, προβλέποντας το επόμενο λογικό βήμα. Όπως το ChatGPT παράγει κείμενα, απαντώντας στις ερωτήσεις σας κι έχοντας εκπαιδευτεί από δισεκατομμύρια λέξεις, έτσι και τα εργαλεία συνθετικής φωνής μπορούν να αντιγράψουν ή και να δημιουργήσουν εκ νέου μια φωνή. Εκπαιδεύουμε με λίγα λόγια ένα μοντέλο διά του παραδείγματος, ώστε να μας δίνει αυτό που του ζητάμε.

Μέχρι πριν από λίγο καιρό, τα μοντέλα αυτά χρειάζονταν τουλάχιστον τρία λεπτά ηχογραφημένης ομιλίας για να κλωνοποιήσουν μια φωνή. Τώρα, το Vall-E της Microsoft θέλει μόνο τρία δευτερόλεπτα προκειμένου να προβεί σε μια πιστή αναπαραγωγή φωνής. Πρακτικά, αυτό σημαίνει ότι, απαντώντας και μόνο σε μία κλήση, έχετε δώσει στους επίδοξους απατεώνες την πρώτη ύλη για να προχωρήσουν στην εξαπάτησή σας. Η εταιρεία ElevenLabs ζητά επίσης μόνο μερικά δευτερόλεπτα για την κλωνοποίηση φωνής.

Ως πρωτοπόρος στον τομέα του συνθετικού ήχου, η συγκεκριμένη εταιρεία είθισται να οδηγεί τις εξελίξεις. Τον περασμένο Ιανουάριο, διάφορες ομάδες ακροδεξιών δημιούργησαν με τη βοήθεια των εργαλείων της διαδικτυακά βίντεο με συνθετικές φωνές, για να κάνουν θόρυβο. Ανάμεσα σε άλλους, στοχοποίησαν και την ηθοποιό Έμα Γουότσον, την οποία έβαλαν να απαγγέλλει το Ο Αγών μου του Χίτλερ. Φυσικά, η Γουότσον ποτέ δεν έκανε κάτι τέτοιο. Η ElevenLabs μίλησε στο Twitter για «πολλές κακόβουλες χρήσεις» στην πλατφόρμα της, καλώντας τους χρήστες να συμμορφωθούν με τους νέους δεοντολογικούς κανόνες της.

Κάποιες επιχειρήσεις ζητούν από τους χρήστες που θέλουν να κλωνοποιήσουν τη φωνή τους ειδικά διαπιστευτήρια. Πρακτικά όμως, με μια απλή αναζήτηση μπορεί οποιοσδήποτε να βρει ένα εργαλείο με το οποίο θα κλωνοποιήσει τη φωνή του οποιουδήποτε. Αν από την άλλη πλευρά έχετε ανεβάσει έστω και ένα ολιγόλεπτο βίντεο ή ηχητικό στο TikTok ή σε κάποιο άλλο μέσο δικτύωσης, θα πρέπει να ξέρετε ότι μπορεί σήμερα ο οποιοσδήποτε να δημιουργήσει ένα ωραιότατο αντίγραφο της φωνής σας, με το οποίο θα μπορεί να παραπλανήσει τους άλλους. Σε αυτόν τον αιώνα η φωνή παύει να είναι τεκμήριο αξιοπιστίας και αυθεντικότητας. Πού να το φανταζόμασταν ότι, ανεβάζοντας κάποτε ένα αθώο βιντεάκι στο YouTube ή αφήνοντας ένα φωνητικό μήνυμα σε κάποια πλατφόρμα επικοινωνίας, εκπαιδεύαμε ένα μοντέλο τεχνητής νοημοσύνης να μιμείται τη φωνή μας;

Πειστικός ψηφιακός μίμος

Ο δημοσιογράφος Τζόζεφ Κοξ έκανε ένα πείραμα με το εργαλείο της EleveLabs, θέλοντας να δει αν θα μπορούσε να εξαπατήσει την τράπεζα στην οποία διατηρεί λογαριασμό. Όπως και πολλές άλλες τράπεζες, έτσι κι αυτή με την οποία συνεργάζεται, χρησιμοποιεί φωνητικές εντολές αναγνώρισης για την πραγματοποίηση συναλλαγών. Ο Κοξ κλωνοποίησε τη φωνή του ανεβάζοντας 5 λεπτά ηχογραφημένης ομιλίας του (καθώς έχει χιούμορ, διάλεξε να διαβάσει αποσπάσματα του Γενικού Κανονισμού Προστασίας Δεδομένων της ΕΕ) και έχοντας το αποτέλεσμα στα χέρια του, κάλεσε την τράπεζά του για να ρωτήσει το υπόλοιπο του λογαριασμού του. Μετά από κάποιες απόπειρες με τη φωνή-κλώνο, τα κατάφερε. Η εταιρεία μετά τον θόρυβο εισήγαγε κάποια φίλτρα, τα οποία όμως δεν είναι αρκετά. Όσο ο ψηφιακός μίμος των φωνών θα γίνεται όλο και πιο πειστικός, τόσο θα πληθαίνουν όσοι θα τον εκμεταλλεύονται χωρίς να περνούν μέσα από τις δεοντολογικές πρακτικές.

Οι καλλιτέχνες είναι οι πρώτοι επαγγελματίες που νιώθουν τη δυστοπική αύρα των συνθετικών υλικών. Ζωγράφοι, εικονογράφοι, δημοσιογράφοι και συγγραφείς βλέπουν τις δουλειές τους να γίνονται αντικείμενο εκμετάλλευσης, να γίνονται δεδομένα εκπαίδευσης για τα μοντέλα παραγωγικής τεχνητής νοημοσύνης που δημιουργούν συνθετικές εικόνες. Τώρα, ήρθε η σειρά των ηθοποιών. Στις αρχές του έτους, νέοι Αμερικανοί ηθοποιοί άρχισαν να διαμαρτύρονται στο Twitter ότι τα νέα αυτά εργαλεία τεχνητής νοημοσύνης τούς κλέβουν κυριολεκτικά τη φωνή. Χωρίς να δίνουν τη συγκατάθεσή τους, οι ηθοποιοί βλέπουν τις φωνές τους να φιγουράρουν σε «βιβλιοθήκες φωνών» και να προσφέρονται έναντι αμοιβής σε πελάτες που θέλουν να ντύσουν ηχητικά τα κείμενά τους με εκφραστικές φωνές.

Στα τέλη του 2022, η Apple έδωσε στους συγγραφείς που ανεβάζουν βιβλία στην ηλεκτρονική της πλατφόρμα, τη δυνατότητα να χρησιμοποιούν ένα εργαλείο τεχνητής νοημοσύνης, με το οποίο μπορούν να αναθέτουν σε συνθετικές φωνές την απαγγελία των βιβλίων τους. Κι εδώ υπήρξαν κάποιες αντιδράσεις από ηθοποιούς, αλλά βεβαίως η εξέλιξη δεν σταματά. Το τζίνι δεν μπαίνει πίσω στο λυχνάρι.

Οι φωνές μας για πάντα

Βεβαίως, η δυνατότητα της συνθετικής φωνής δεν φέρει μόνο απειλές. Φανταστείτε να έχετε έναν προσωπικό ψηφιακό βοηθό με τη φωνή του Τζορτζ Κλούνεϊ ή τη φωνή της Σκάρλετ Γιόχανσον, ή ακόμα και κάποιου φίλου σας. Σκεφτείτε τα οφέλη που θα έχουν άνθρωποι με παθήσεις που τους έχουν αφαιρέσει τη φωνή. Τώρα έχουν όλοι στη διάθεσή τους ένα αυτοματοποιημένο σύστημα το οποίο μετατρέπει αυτόματα το κείμενο σε ομιλία, όχι με μια ψυχρή ρομποτική φωνή, αλλά με έναν φυσικότατο ανθρώπινο τρόπο και προφορά. Δημιουργοί, καλλιτέχνες και παιδιά έχουν την ευκαιρία να πειραματιστούν και να παίξουν δοκιμάζοντας φωνές, τόνους και συναισθήματα. Άνθρωποι θα κλωνοποιήσουν τις φωνές τους και θα μπορούμε να τους ακούμε ακόμα κι όταν φύγουν από τον μάταιο αυτόν κόσμο. Με την προϋπόθεση ότι οι εταιρείες θα προστατεύουν τα δεδομένα όσων χρησιμοποιούν τα εργαλεία τους, η συνθετικότητα στο πεδίο των φωνών μπορεί να παρέχει κι ένα μεγάλο πλεονέκτημα στην έρευνα.

Είναι αδύνατον αυτή τη στιγμή να φανταστεί κανείς το εύρος των χρήσεων που μπορεί να έχει μια τέτοια τεχνολογία υπέρ της ανθρωπότητας. Ομοίως, κανείς δεν μπορεί να προβλέψει τις κακόβουλες χρήσεις που θα επινοηθούν. Δυστυχώς, η κλωνοποίηση των φωνών έχει δοθεί ελεύθερα προς χρήση χωρίς τις απαραίτητες ρυθμίσεις ασφαλείας. Για άλλη μία φορά, τα αντανακλαστικά μας αποδεικνύονται ελλιπή. Η τεχνολογία προχωράει πιο γρήγορα από τις πολιτικές μας και το μόνο που κάνουμε είναι να συζητάμε φιλολογικά τις ηθικές προεκτάσεις.

Επειδή αυτά τα εργαλεία τελειοποιούνται ανάλογα με τον όγκο της πληροφορίας που τους διατίθεται, καταλαβαίνουμε ότι τα πρόσωπα που έχουν τη μεγαλύτερη έκθεση στα μίντια είναι εκείνα που θα έχουν τους πιο τέλειους κλώνους και τη μεγαλύτερη ανάγκη προστασίας. Την επόμενη φορά, λοιπόν, που θα σηκώσετε το τηλέφωνο και θα ακούσετε μια διάσημη φωνή να σας απευθύνεται, ας είστε πιο καχύποπτοι. Και κυρίως, μην εμπιστεύεστε αμέσως όσους σας καλούν στο τηλέφωνο, ακόμα κι αν είναι το ίδιο το παιδί σας. Ακόμα καλύτερα, σταματήστε να σηκώνετε το τηλέφωνο όταν δεν περιμένετε μια κλήση, για να μη δώσετε ευκαιρίες ηχογράφησης της φωνής σας.

Αυτό κάνει ο καθηγητής ψηφιακής εγκληματολογίας στο Πανεπιστήμιο Μπέρκλεϊ της Καλιφόρνια, Χάνι Φαρίντ. Όπως δήλωσε στο τηλεοπτικό δίκτυο CBS, έχει σταματήσει να απαντά σε κλήσεις αγνώστων, ενώ όταν τον καλούν δικοί του άνθρωποι, έχει φροντίσει να μοιράζονται μεταξύ τους έναν κωδικό ασφαλείας που γνωρίζουν μόνο εκείνοι. Ένα password, με άλλα λόγια, για την εποχή της τεχνητής νοημοσύνης. Πού φτάσαμε, θα σκεφτείτε, να μιλάμε με συνωμοτικές τακτικές και πρωτόκολλα, λες και ζούμε στην εποχή του Ψυχρού Πολέμου. Δυστυχώς, αυτή είναι μία από τις πολλές ανεπιθύμητες παρενέργειες της τεχνητής νοημοσύνης. Τα νέα εργαλεία κλωνοποίησης της φωνής μάς εκθέτουν σε νέες απειλές, υπονομεύουν τη μεταξύ μας εμπιστοσύνη, μας δηλητηριάζουν με ριζική καχυποψία και θέτουν εμπόδια στην επικοινωνία. Η τεχνολογία που θα μας έφερνε πιο κοντά και θα μας απάλλασσε από τα βάσανα και τους περιορισμούς του τόπου και του χρόνου ορθώνει ανάμεσά μας το μεγαλύτερο δυνατό εμπόδιο: την έλλειψη εμπιστοσύνης. Για να την ανακτήσουμε, θα χρειαστεί αρκετή δουλειά σε συλλογικό κι ατομικό επίπεδο. Η χρήση των τεχνολογιών πάντα προϋπέθετε την εμπέδωση της ευθύνης, γι’ αυτό χρειάζεται μεγάλη προσοχή. Όπως έγραψε και η Πέγκι Νούναν της Wall Street Journal, για τις νέες εφαρμογές τεχνητής νοημοσύνης «παίζουμε με το πιο καυτό πράγμα που έχει εμφανιστεί από την εποχή της ανακάλυψης της φωτιάς».

Εσείς τι γνωρίζετε για τα εργαλεία συνθετικής φωνής;-1 — © CSA Images / Getty Images / Ideal Image

→ Ποιος είναι αυτός που τραγουδάει;

Όταν τα λογισμικά κλωνοποίησης φωνών εξελιχθούν σε τέτοιο βαθμό που θα μπορούν να χρησιμοποιούνται συστηματικά από τη βιομηχανία της μουσικής, τότε θα δούμε ακόμα πιο ενδιαφέρουσες και δημιουργικές χρήσεις τους. Οι τραγουδιστές θα έχουν στα χέρια τους ένα κομψό εργαλείο, ένα νέο όργανο στην ουσία, με το οποίο θα δοκιμάζουν άπειρες εκδοχές της φωνής τους χωρίς καν να ανοίξουν το στόμα τους, ενώ οι επίδοξοι απατεώνες θα μπορούν με την κλωνοποιημένη φωνή των σταρ να κυκλοφορούν στην αγορά τραγούδια που πρακτικά δεν τραγούδησαν ποτέ ανθρώπινα χείλη. Το αποτέλεσμα θα ήταν να αναστηθούν ως εκ θαύματος όλες οι μεγάλες φωνές του παρελθόντος. Αν στον 20ό αιώνα ήγειρε ζητήματα αυθεντικότητας το playback, στην αυγή του 21ου αιώνα θα αναρωτιόμαστε όλο και περισσότερο ποιος τραγουδάει: ο καλλιτέχνης ή ο κλώνος του; Επίσης, είναι βέβαιο ότι θα εμφανιστούν καλλιτέχνες με εντελώς συνθετικό προφίλ. Άφωνοι περφόρμερ με υβριδικές φωνές θα εκφέρουν στίχους από κειμενογεννήτριες, πάνω σε μουσική που θα έχει παραχθεί από αλγόριθμους. Ήδη βλέπουμε τα πρώτα κύματα αυτής της σημαίνουσας αλλαγής να πλησιάζουν τα αυτιά μας. Η Καναδή μουσικός Grimes κυκλοφόρησε πρόσφατα μια ιστοσελίδα η οποία περιέχει ένα ανοιχτό λογισμικό κλωνοποίησης της φωνής της και κάλεσε τους θαυμαστές της να ανεβάσουν εκεί τραγούδια με τις δικές τους φωνές. Το καινοτόμο είναι ότι το λογισμικό αντικαθιστά αυτόματα τις φωνές του κοινού με τη φωνή της Grimes. Αν προκύψουν έσοδα από την online κυκλοφορία των τραγουδιών, η τραγουδίστρια δεσμεύεται ότι θα μοιραστεί το 50% των εσόδων με τους θαυμαστές της.

Λάβετε μέρος στη συζήτηση 0 Εγγραφείτε για να διαβάσετε τα σχόλια ή
βρείτε τη συνδρομή που σας ταιριάζει για να σχολιάσετε. Για να σχολιάσετε, επιλέξτε τη συνδρομή που σας ταιριάζει. Παρακαλούμε σχολιάστε με σεβασμό προς την δημοσιογραφική ομάδα και την κοινότητα της «Κ».
Σχολιάζοντας συμφωνείτε με τους όρους χρήσης.

Εγγραφή Συνδρομή

Κάνε συνδρομή με 0,16€/μέρα

Εργαλεία συνθετικής φωνής

Πειστικός ψηφιακός μίμος

Οι φωνές μας για πάντα

→ Ποιος είναι αυτός που τραγουδάει;