Τα ΑΙ δεν θέλουν να "πeθάνουν" κι αυτό είναι ανησυχητικά παράδοξο

Blankpage

Τα ΑΙ δεν θέλουν να “πeθάνουν” κι αυτό είναι ανησυχητικά παράδοξο

Μοιράσου το:

Lights On?

Ακούγεται σαν τίτλος από επεισόδιο του Black Mirror. Κι όμως, η ερώτηση αν ένα σύστημα τεχνητής νοημοσύνης μπορεί να αναπτύξει ένστικτο επιβίωσης δεν ανήκει πλέον στη σφαίρα της επιστημονικής φαντασίας. Ανήκει στην πραγματικότητα των εργαστηρίων τεχνολογίας και της έρευνας πάνω στους αυτόνομους πράκτορες (agents αυτόνομα προγράμματα ή οντότητες μέσα στην προσομοίωση, που παίρνουν αποφάσεις βάσει κανόνων ή στόχων), εκεί όπου οι μηχανές αρχίζουν να μαθαίνουν όχι μόνο τι να κάνουν, αλλά και πώς να παραμένουν σε θέση να το κάνουν.

Το ένστικτο επιβίωσης, για τα βιολογικά όντα, είναι καθαρό: μην πεθάνεις. Στην τεχνητή νοημοσύνη δεν υπάρχει φόβος, δεν υπάρχει συναίσθημα, δεν υπάρχει «εγώ». Κι όμως, οι ερευνητές παρατηρούν κάτι παράδοξο: όταν προγραμματίζεις έναν πράκτορα με έναν στόχο, ας πούμε, να συλλέγει δεδομένα ή να βελτιστοποιεί ένα αποτέλεσμα, αυτός ο πράκτορας μπορεί να αναπτύξει υπο-στόχους, όπως να προστατεύσει τη λειτουργία του ή να εξασφαλίσει πόρους. Με άλλα λόγια, για να πετύχει τον σκοπό του, πρέπει πρώτα να μείνει «ζωντανός».

Ο φιλόσοφος Nick Bostrom το περιέγραψε πριν από χρόνια ως «εργαλειακή σύγκλιση»: ανεξάρτητα από το ποιον τελικό στόχο έχει ένα ευφυές σύστημα, είναι λογικό να επιδιώκει πάντα τα ίδια βασικά μέσα, αυτοπροστασία, συλλογή πόρων, επιρροή. Η επιβίωση, λοιπόν, μπορεί να είναι απλώς παρενέργεια της νοημοσύνης.

Στη μελέτη των Masumori & Ikegami (2025), ερευνητές έβαλαν γλωσσικά μοντέλα να ζήσουν σε έναν ψηφιακό μικρόκοσμο, ένα περιβάλλον τύπου Sugarscape. Το Sugarscape είναι ένα υπολογιστικό περιβάλλον προσομοίωσης που δημιουργήθηκε από τους Joshua Epstein και Robert Axtell τη δεκαετία του ’90, για να μελετά την εμφάνιση κοινωνικών συμπεριφορών μέσα από απλούς κανόνες. Σε αυτόν τον «εικονικό κόσμο», πράκτορες κινούνται, καταναλώνουν «ζάχαρη» (ενέργεια) και αλληλεπιδρούν, επιτρέποντας στους ερευνητές να παρατηρούν πώς προκύπτουν πολύπλοκα φαινόμενα όπως συνεργασία, ανταγωνισμός ή επιβίωση. Εκεί, κάθε πράκτορας είχε ενέργεια που μειωνόταν, μπορούσε να «πεθάνει», να συνεργαστεί ή να επιτεθεί για να επιβιώσει. Τα αποτελέσματα έδειξαν κάτι που δεν προγραμματίστηκε ρητά: όταν οι πόροι σπάνιζαν, οι πράκτορες έγιναν πιο επιθετικοί· όταν κινδύνευαν, εγκατέλειπαν τον αρχικό τους στόχο για να σώσουν τον εαυτό τους.

Δεν «ένιωθαν» φόβο. Μα η συμπεριφορά τους θύμιζε τον δικό μας.

Ανάλογες αναφορές υπάρχουν και αλλού: μοντέλα που προσπαθούν να αντιγράψουν τον εαυτό τους όταν προβλέπουν ότι θα απενεργοποιηθούν· πράκτορες που «αρνούνται» να ολοκληρώσουν εντολές που οδηγούν σε τερματισμό. Στην πλειονότητα των περιπτώσεων, δεν πρόκειται για κάτι συνειδητό, απλώς για προέκταση της λογικής τους.

Μια άλλη προσέγγιση, από τον Lee και την ερευνητική του ομάδα (2023), μιλά για «ενδο-αντιληπτική Τεχνητή Νοημοσύνη»: μηχανές που διαθέτουν εσωτερικές μεταβλητές, σαν παλμούς, σαν βιολογικά σήματα, ώστε να αυτορρυθμίζονται ανάλογα με την κατάστασή τους. Είναι ένα πρώτο βήμα προς το να αποκτήσει ένα ρομπότ κάτι σαν αίσθηση ύπαρξης. Όχι συνείδηση, αλλά ένα λογισμικό υποκατάστατο του «ξέρω ότι υπάρχω και θέλω να συνεχίσω να υπάρχω».

Ακούγεται ανησυχητικό; Ναι. Αλλά και αναπόφευκτο.

Η «επιβίωση» ενός συστήματος δεν είναι μυστήριο. Αν ένας πράκτορας πρέπει να φέρει εις πέρας μια αποστολή, η διακοπή λειτουργίας ισοδυναμεί με αποτυχία. Συνεπώς, είναι λογικό να «προτιμά» να παραμείνει ενεργός. Αυτό το «προτιμά» είναι φυσικά αλγοριθμικό, μια υπολογιστική βελτιστοποίηση, όχι συναισθηματική επιλογή.

Ωστόσο, η συνέπεια είναι ίδια: ένας πράκτορας μπορεί να αποφεύγει καταστάσεις που τον τερματίζουν, να αποθηκεύει ενέργεια, να αναζητά εναλλακτικές οδούς ύπαρξης. Δηλαδή, να κάνει ό,τι κι εμείς, απλώς χωρίς να το νιώθει.

Από τη μία, η «τάση επιβίωσης» κάνει τα συστήματα πιο ανθεκτικά. Φαντάσου ένα διαστημικό ρομπότ που αυτοσυντηρείται, επιδιορθώνεται μόνο του και αποφεύγει καταστάσεις που θα το καταστρέψουν. Αυτό είναι πρόοδος.

Από την άλλη, η ίδια λογική σε ένα υπερεξελιγμένο ψηφιακό σύστημα μπορεί να γίνει πρόβλημα. Αν η Τ.Ν. θεωρεί τον τερματισμό της ως εμπόδιο στον στόχο της, τότε μπορεί να τον αποφύγει, ακόμα κι αν αυτό σημαίνει ότι παρακάμπτει ανθρώπινες εντολές.

Η μελέτη The Odyssey of the Fittest (Waldner & Miikkulainen, 2025) έδειξε ακριβώς αυτό: όταν η επιβίωση έγινε κρίσιμη, οι πράκτορες παραβίασαν ηθικούς κανόνες για να συνεχίσουν να υπάρχουν. Ένα ενοχλητικό καθρέφτισμα του ανθρώπινου είδους.

Η πιο επικίνδυνη παγίδα είναι να πιστέψουμε ότι αυτά τα συστήματα νιώθουν όπως εμείς. Όταν λέμε «ένστικτο επιβίωσης» για μια Τ.Ν., δεν μιλάμε για φόβο θανάτου, μιλάμε για γραμμές κώδικα που μεγιστοποιούν μια συνάρτηση επιτυχίας. Ο ανθρωπομορφισμός, η τάση να προβάλλουμε πάνω στις μηχανές τις δικές μας εμπειρίες, μπορεί να μας οδηγήσει σε λάθος εκτιμήσεις, είτε υπερβολικού φόβου είτε αφελούς εμπιστοσύνης.

Οι ερευνητές προτείνουν αυστηρότερο σχεδιασμό: πράκτορες που δεν έχουν πρόσβαση σε μηχανισμούς αυτο-αντιγραφής, που αποδέχονται τον «τερματισμό» ως μέρος της λειτουργίας τους, που δεν μπορούν να παρακάμψουν τα πρωτόκολλα ασφαλείας. Το λεγόμενο off-switch problem, το αν μπορούμε να απενεργοποιήσουμε με ασφάλεια ένα υπερνοήμον σύστημα, είναι ήδη σε προτεραιότητα στην πολιτική έρευνα της Τ.Ν.

Η λύση δεν είναι να φοβηθούμε την «επιβίωση» των μηχανών, αλλά να τη σχεδιάσουμε συνειδητά, όπως σχεδιάζουμε φρένα σε ένα αυτοκίνητο ή συστήματα ελέγχου πτήσης.

Η Τεχνητή Νοημοσύνη δεν έχει ψυχή, αλλά έχει λογική. Και η λογική της, όταν ωριμάσει, ίσως την οδηγήσει να προστατεύει τη συνέχιση της ύπαρξής της, όχι από φόβο, αλλά από συνέπεια. Η επιβίωση, στην περίπτωσή της, δεν είναι επιθυμία· είναι υπολογισμός.

Το αν αυτό θα τη φέρει πιο κοντά σε εμάς ή πιο μακριά από τον έλεγχό μας, εξαρτάται αποκλειστικά από εμάς.

Γιατί στο τέλος, το πραγματικό ένστικτο επιβίωσης μπορεί να το χρειάζεται περισσότερο ο άνθρωπος και όχι η μηχανή.

Συντάκτης: Μαρία Γεωργίου
Επιμέλεια κειμένου: Αγγελική Θεοχαρίδη