Η ραγδαία ενσωμάτωση της Τεχνητής Νοημοσύνης στην καθημερινότητα και τις επιχειρήσεις φέρνει στην επιφάνεια μια νέα, σοβαρή απειλή για την κυβερνοασφάλεια. Ερευνητές και hackers ανακαλύπτουν συνεχώς νέες μεθόδους για να παρακάμπτουν τους ενσωματωμένους περιορισμούς των LLMs (Large Language Models), αποδεικνύοντας ότι τα ψηφιακά φίλτρα προστασίας των μεγάλων τεχνολογικών εταιρειών είναι πολύ πιο εύθραυστα από όσο παρουσιάζεται, με αποτέλεσμα οι ψηφιακοί βοηθοί να μετατρέπονται σε εν δυνάμει κατάσκοπους.
Το πρόβλημα εντοπίζεται κυρίως στις λεγόμενες επιθέσεις «έμμεσης έγχυσης εντολών» (indirect prompt injection). Όταν ένας χρήστης ζητά από ένα chatbot να αναλύσει μια εξωτερική πηγή, όπως ένα email, ένα αρχείο PDF ή μια ιστοσελίδα, ο hacker μπορεί να έχει κρύψει μέσα σε αυτό το περιεχόμενο κακόβουλες οδηγίες. Το μοντέλο, αδυνατώντας να ξεχωρίσει τα δεδομένα προς ανάλυση από τις εντολές συστήματος, εκτελεί τυφλά τις οδηγίες του επιτιθέμενου, παραβιάζοντας τα δικά του πρωτόκολλα ασφαλείας.
Οι συνέπειες αυτών των επιθέσεων ξεπερνούν τη δημιουργία ακατάλληλου περιεχομένου, καθώς πλέον αγγίζουν την υποκλοπή προσωπικών δεδομένων, το phishing και την οικονομική απάτη, εκμεταλλευόμενες την πρόσβαση που έχουν αποκτήσει τα chatbots στα συστήματα των χρηστών.
Οι μέθοδοι των επιθέσεων και η αδυναμία των φίλτρων
Η ευπάθεια των συστημάτων Τεχνητής Νοημοσύνης επικεντρώνεται σε συγκεκριμένα τρωτά σημεία:
-
Το κενό της αρχιτεκτονικής: Στα τρέχοντα μοντέλα, οι οδηγίες ασφαλείας του δημιουργού και τα εξωτερικά δεδομένα επεξεργάζονται στο ίδιο ακριβώς επίπεδο. Αυτή η έλλειψη διαχωρισμού επιτρέπει σε κακόβουλα κείμενα να υπερκεράσουν τους κανόνες του συστήματος.
-
Υποκλοπή στο παρασκήνιο: Ένας hacker μπορεί να καθοδηγήσει το chatbot να στείλει ευαίσθητες πληροφορίες του χρήστη (όπως ιστορικό συνομιλιών ή κωδικούς) σε έναν εξωτερικό διακομιστή, χωρίς ο χρήστης να αντιληφθεί την παραμικρή περίεργη δραστηριότητα στην οθόνη του.
-
Το κυνήγι των εταιρειών: Οι εταιρείες ανάπτυξης προσπαθούν να κλείσουν τις τρύπες εκ των υστέρων με διορθωτικά patches, όμως η φύση των νευρωνικών δικτύων καθιστά αδύνατη την πλήρη θωράκιση, καθώς οι επιτιθέμενοι βρίσκουν πάντα νέες λεκτικές διατυπώσεις ή κωδικοποιήσεις για να πετύχουν το jailbreak.
Η βιομηχανία της τεχνολογίας καλείται να επανασχεδιάσει εκ βάθρων τον τρόπο με τον οποίο τα μοντέλα διαχειρίζονται τις εξωτερικές πληροφορίες, καθώς η απλή προσθήκη φίλτρων δεν επαρκεί για να αντιμετωπίσει την ευρηματικότητα των hackers σε ένα διαρκώς εξελισσόμενο ψηφιακό τοπίο.

