„Θόρυβος“ στη μηχανή: Ανθρώπινες διαφορές στην κρίση οδηγούν σε προβλήματα για την Τεχνητή Νοημοσύνη
Πολλοί άνθρωποι κατανοούν την έννοια της μεροληψίας σε κάποιο διαισθητικό επίπεδο. Στην κοινωνία και στα συστήματα τεχνητής νοημοσύνης, οι φυλετικές προκαταλήψεις και οι προκαταλήψεις λόγω φύλου είναι καλά τεκμηριωμένες.
Εάν η κοινωνία μπορούσε με κάποιο τρόπο να εξαλείψει την μεροληψία, θα εξαφανίζονταν όλα τα προβλήματα; Ο αείμνηστος νομπελίστας Daniel Kahneman, ο οποίος ήταν βασικό πρόσωπο στον τομέα των συμπεριφορικών οικονομικών, υποστήριξε στο τελευταίο του βιβλίο ότι η μεροληψία είναι μόνο η μία πλευρά του νομίσματος. Τα σφάλματα στις κρίσεις μπορούν να αποδοθούν σε δύο πηγές: μεροληψία και θόρυβο.
Η μεροληψία και ο θόρυβος διαδραματίζουν σημαντικό ρόλο σε τομείς όπως το δίκαιο, η ιατρική και οι οικονομικές προβλέψεις, όπου έχουμε ανθρωποκεντρικές κρίσεις. Στο έργο μας ως επιστήμονες υπολογιστών και πληροφοριών, οι συνάδελφοί μου και εγώ διαπιστώσαμε ότι ο θόρυβος παίζει επίσης ρόλο στην τεχνητή νοημοσύνη.
Στατιστικός θόρυβος
Ο θόρυβος σε αυτό το πλαίσιο σημαίνει διακύμανση στον τρόπο με τον οποίο οι άνθρωποι κρίνουν το ίδιο πρόβλημα ή κατάσταση. Το πρόβλημα του θορύβου είναι πιο διαδεδομένο από ό, τι αρχικά συναντά το μάτι. Ένα σημαντικό έργο, που χρονολογείται από τη Μεγάλη Ύφεση, διαπίστωσε ότι διαφορετικοί δικαστές έδωσαν διαφορετικές ποινές για παρόμοιες υποθέσεις.
Ανησυχητικά, η καταδίκη σε δικαστικές υποθέσεις μπορεί να εξαρτηθεί από πράγματα όπως η θερμοκρασία και αν κέρδισε η τοπική ποδοσφαιρική ομάδα. Τέτοιοι παράγοντες, τουλάχιστον εν μέρει, συμβάλλουν στην αντίληψη ότι το δικαστικό σύστημα δεν είναι μόνο μεροληπτικό αλλά και αυθαίρετο κατά καιρούς.
Άλλα παραδείγματα: Οι ασφαλιστικοί πραγματογνώμονες μπορεί να δίνουν διαφορετικές εκτιμήσεις για παρόμοιες αξιώσεις, αντανακλώντας τον θόρυβο στις κρίσεις τους. Ο θόρυβος είναι πιθανό να υπάρχει σε κάθε είδους διαγωνισμούς, που κυμαίνονται από γευσιγνωσίες κρασιού έως τοπικούς διαγωνισμούς ομορφιάς έως εισαγωγές στο κολέγιο.
Video:https://youtu.be/cAZpLF5qG8M
Ντάνιελ Κάνεμαν Nobel Οικονομικών. 5 Μαρτίου 1934-27 Μαρτίου 2024
Θόρυβος στα δεδομένα
Επιφανειακά, δεν φαίνεται πιθανό ότι ο θόρυβος θα μπορούσε να επηρεάσει την απόδοση των συστημάτων AI. Εξάλλου, οι μηχανές δεν επηρεάζονται από τον καιρό ή τις ποδοσφαιρικές ομάδες, οπότε γιατί να κάνουν κρίσεις που ποικίλλουν ανάλογα με τις περιστάσεις; Από την άλλη, οι ερευνητές γνωρίζουν ότι η μεροληψία επηρεάζει την τεχνητή νοημοσύνη, επειδή αντικατοπτρίζεται στα δεδομένα στα οποία εκπαιδεύεται η τεχνητή νοημοσύνη.
Για τη νέα έξαρση μοντέλων τεχνητής νοημοσύνης όπως το ChatGPT, ο χρυσός κανόνας είναι η ανθρώπινη απόδοση σε γενικά προβλήματα νοημοσύνης, όπως η κοινή λογική. Το ChatGPT και οι ομότιμοί του μετρώνται με βάση σύνολα δεδομένων κοινής λογικής που χαρακτηρίζονται από ανθρώπους.
Με απλά λόγια, οι ερευνητές και οι προγραμματιστές μπορούν να θέσουν στη μηχανή μια ερώτηση κοινής λογικής και να τη συγκρίνουν με τις ανθρώπινες απαντήσεις: "Αν τοποθετήσω μια βαριά πέτρα σε ένα χάρτινο τραπέζι, θα καταρρεύσει; Ναι ή Όχι". Εάν υπάρχει υψηλή συμφωνία μεταξύ των δύο -στην καλύτερη περίπτωση, τέλεια συμφωνία- η μηχανή προσεγγίζει την κοινή λογική σε ανθρώπινο επίπεδο, σύμφωνα με το τεστ.
Πού θα έμπαινε λοιπόν ο θόρυβος; Η παραπάνω ερώτηση κοινής λογικής φαίνεται απλή και οι περισσότεροι άνθρωποι πιθανότατα θα συμφωνούσαν στην απάντησή της, αλλά υπάρχουν πολλές ερωτήσεις όπου υπάρχει μεγαλύτερη διαφωνία ή αβεβαιότητα: «Είναι η ακόλουθη πρόταση εύλογη ή απίθανη; Ο σκύλος μου παίζει βόλεϊ». Με άλλα λόγια, υπάρχει πιθανότητα θορύβου. Δεν προκαλεί έκπληξη το γεγονός ότι ενδιαφέρουσες ερωτήσεις κοινής λογικής θα έχουν κάποιο θόρυβο.
Αλλά το ζήτημα είναι ότι οι περισσότερες δοκιμές AI δεν λαμβάνουν υπόψη αυτόν τον θόρυβο στα πειράματα. Διαισθητικά, οι ερωτήσεις που παράγουν ανθρώπινες απαντήσεις που τείνουν να συμφωνούν μεταξύ τους θα πρέπει να σταθμίζονται υψηλότερα από ό, τι εάν οι απαντήσεις αποκλίνουν - με άλλα λόγια, όπου υπάρχει θόρυβος. Οι ερευνητές εξακολουθούν να μην γνωρίζουν εάν ή πώς να σταθμίσουν τις απαντήσεις της τεχνητής νοημοσύνης σε αυτή την κατάσταση, αλλά ένα πρώτο βήμα είναι η αναγνώριση ότι το πρόβλημα υπάρχει.
Εντοπισμός θορύβου στο μηχάνημα
Πέρα από τη θεωρία, παραμένει το ερώτημα αν όλα τα παραπάνω είναι υποθετικά ή αν σε πραγματικά τέστ κοινής λογικής υπάρχει θόρυβος. Ο καλύτερος τρόπος για να αποδείξετε ή να διαψεύσετε την παρουσία θορύβου είναι να πάρετε ένα υπάρχον τεστ, να αφαιρέσετε τις απαντήσεις και να βάλετε πολλούς ανθρώπους να τις επισημάνουν ανεξάρτητα, δηλαδή να δώσουν απαντήσεις. Μετρώντας τη διαφωνία μεταξύ των ανθρώπων, οι ερευνητές μπορούν να γνωρίζουν ακριβώς πόσος θόρυβος υπάρχει στο τεστ.
Οι λεπτομέρειες πίσω από τη μέτρηση αυτής της διαφωνίας είναι περίπλοκες, περιλαμβάνοντας σημαντικά στατιστικά στοιχεία και μαθηματικά. Εξάλλου, ποιος μπορεί να πει πώς πρέπει να οριστεί η κοινή λογική; Πώς ξέρετε ότι οι ανθρώπινοι δικαστές έχουν αρκετά κίνητρα για να σκεφτούν την ερώτηση; Αυτά τα ζητήματα βρίσκονται στη διασταύρωση του καλού πειραματικού σχεδιασμού και της στατιστικής. Η ευρωστία είναι το κλειδί: Ένα αποτέλεσμα, ένα τεστ ή ένα σύνολο ανθρώπινων ετικετών είναι απίθανο να πείσει κάποιον. Ως ρεαλιστικό ζήτημα, η ανθρώπινη εργασία είναι δαπανηρή. Ίσως για αυτόν τον λόγο, δεν έχουν υπάρξει μελέτες για πιθανό θόρυβο σε δοκιμές AI.
Για να αντιμετωπίσουμε αυτό το κενό, οι συνάδελφοί μου και εγώ σχεδιάσαμε μια τέτοια μελέτη και δημοσιεύσαμε τα ευρήματά μας στο Nature Scientific Reports, δείχνοντας ότι ακόμη και στον τομέα της κοινής λογικής, ο θόρυβος είναι αναπόφευκτος. Επειδή το περιβάλλον στο οποίο εκμαιεύονται οι κρίσεις μπορεί να έχει σημασία, κάναμε δύο είδη μελετών. Ένας τύπος μελέτης περιελάμβανε αμειβόμενους εργαζόμενους από την Amazon Mechanical Turk, ενώ η άλλη μελέτη περιελάμβανε μια μικρότερης κλίμακας άσκηση επισήμανσης σε δύο εργαστήρια στο Πανεπιστήμιο της Νότιας Καλιφόρνιας και στο Πολυτεχνικό Ινστιτούτο Rensselaer.
Μπορείτε να θεωρήσετε το πρώτο ως ένα πιο ρεαλιστικό διαδικτυακό περιβάλλον, το οποίο αντικατοπτρίζει το πώς πολλά τεστ τεχνητής νοημοσύνης χαρακτηρίζονται στην πραγματικότητα προτού απελευθερωθούν για εκπαίδευση και αξιολόγηση. Το δεύτερο είναι πιο ακραίο, που εγγυάται υψηλή ποιότητα αλλά σε πολύ μικρότερες κλίμακες. Το ερώτημα που θέσαμε ως στόχο να απαντήσουμε ήταν πόσο αναπόφευκτος είναι ο θόρυβος και είναι απλώς θέμα ελέγχου ποιότητας;
Τα αποτελέσματα ήταν απογοητευτικά. Και στις δύο περιπτώσεις, ακόμη και σε ερωτήσεις κοινής λογικής που θα αναμενόταν να προκαλέσουν υψηλή – ακόμη και καθολική – συμφωνία, βρήκαμε έναν μη τετριμμένο βαθμό θορύβου. Ο θόρυβος ήταν αρκετά υψηλός ώστε συμπεράναμε ότι μεταξύ 4% και 10% της απόδοσης ενός συστήματος θα μπορούσε να αποδοθεί στον θόρυβο.
Για να τονίσω τι σημαίνει αυτό, ας υποθέσουμε ότι δημιούργησα ένα σύστημα AI που πέτυχε το 85% σε ένα τεστ και εσείς δημιουργήσατε ένα σύστημα AI που πέτυχε το 91%. Το σύστημά σας φαίνεται να είναι πολύ καλύτερο από το δικό μου. Αλλά αν υπάρχει θόρυβος στις ανθρώπινες ετικέτες που χρησιμοποιήθηκαν για να βαθμολογηθούν οι απαντήσεις, τότε δεν είμαστε σίγουροι πλέον ότι η βελτίωση κατά 6% σημαίνει πολλά. Για όλα όσα γνωρίζουμε, μπορεί να μην υπάρξει πραγματική βελτίωση.
Στους πίνακες κατάταξης AI, όπου συγκρίνονται μεγάλα γλωσσικά μοντέλα όπως αυτό που τροφοδοτεί το ChatGPT, οι διαφορές απόδοσης μεταξύ αντίπαλων συστημάτων είναι πολύ μικρότερες, συνήθως λιγότερο από 1%. Όπως δείχνουμε στο έγγραφο, οι συνήθεις στατιστικές δεν έρχονται πραγματικά στη διάσωση για τον διαχωρισμό των επιπτώσεων του θορύβου από εκείνες των πραγματικών βελτιώσεων απόδοσης.
Έλεγχοι θορύβου
Ποια είναι η μελλοντική πορεία; Επιστρέφοντας στο βιβλίο του Kahneman, πρότεινε την έννοια του «ελέγχου θορύβου» για την ποσοτικοποίηση και τελικά τον μετριασμό του θορύβου όσο το δυνατόν περισσότερο. Τουλάχιστον, οι ερευνητές της τεχνητής νοημοσύνης πρέπει να εκτιμήσουν τι επίδραση μπορεί να έχει ο θόρυβος.
Ο έλεγχος των συστημάτων τεχνητής νοημοσύνης για μεροληψία είναι κάπως συνηθισμένος, επομένως πιστεύουμε ότι η έννοια του ελέγχου θορύβου πρέπει φυσικά να ακολουθήσει. Ελπίζουμε ότι αυτή η μελέτη, καθώς και άλλες παρόμοιες, θα οδηγήσουν στην υιοθέτησή τους.