Geoffrey Hinton, καθηγητής στο Πανεπιστήμιο του Τορόντο και συνεργάτης μηχανικός στο Εγκέφαλος Google, δημοσίευσε πρόσφατα μια εργασία για το Εμπρός-Εμπρός αλγόριθμος (FF), μια τεχνική για την εκπαίδευση νευρωνικών δικτύων που χρησιμοποιεί δύο εμπρός περάσματα δεδομένων μέσω του δικτύου, αντί για οπίσθιο πολλαπλασιασμό, για να ενημερώσετε τα βάρη του μοντέλου.

Το κίνητρο του Hinton για τον αλγόριθμο είναι να αντιμετωπίσει ορισμένες από τις ελλείψεις της τυπικής εκπαίδευσης backpropagation που απαιτεί πλήρη γνώση του υπολογισμού στο μπροστινό πέρασμα για τον υπολογισμό των παραγώγων και την αποθήκευση τιμών ενεργοποίησης κατά τη διάρκεια της εκπαίδευσης. Η διορατικότητα του Hinton ήταν να χρησιμοποιήσει δύο εμπρός περάσματα δεδομένων εισόδου — ένα θετικός και ένα αρνητικός— τα οποία έχουν αντίθετες αντικειμενικές συναρτήσεις προς βελτιστοποίηση. Ο Hinton έδειξε ότι τα δίκτυα που εκπαιδεύτηκαν με FF μπορούσαν να εκτελέσουν εργασίες όρασης υπολογιστή (CV) καθώς και εκείνα που εκπαιδεύτηκαν χρησιμοποιώντας backpropagation. Σύμφωνα με τον Hinton,

Ο αλγόριθμος Forward-Forward (FF) είναι συγκρίσιμος σε ταχύτητα με την backpropagation, αλλά έχει το πλεονέκτημα ότι μπορεί να χρησιμοποιηθεί όταν οι ακριβείς λεπτομέρειες του μπροστινού υπολογισμού είναι άγνωστες. Έχει επίσης το πλεονέκτημα ότι μπορεί να μάθει κατά τη διοχέτευση διαδοχικών δεδομένων μέσω ενός νευρωνικού δικτύου χωρίς να αποθηκεύει ποτέ τις νευρικές δραστηριότητες ή να σταματήσει να διαδίδει παράγωγα σφαλμάτων…. Οι δύο τομείς στους οποίους ο αλγόριθμος προς τα εμπρός μπορεί να είναι ανώτερος από την αντίστροφη διάδοση είναι ως μοντέλο μάθησης στον φλοιό και ως τρόπος χρήσης αναλογικού υλικού πολύ χαμηλής ισχύος χωρίς να καταφεύγουμε σε ενισχυτική μάθηση.

Αν και τα τεχνητά νευρωνικά δίκτυα (ΑΝΝ) βασίζονται σε α μαθηματικό μοντέλο του εγκεφάλου, ο τυπικός αλγόριθμος backpropagation που χρησιμοποιείται για την εκπαίδευση αυτών των δικτύων δεν βασίζεται σε καμία γνωστή βιολογική διαδικασία. Εκτός από το ότι είναι βιολογικά απίθανη, η οπισθοδιάδοση έχει επίσης ορισμένα υπολογιστικά μειονεκτήματα όπως σημειώθηκε παραπάνω. Ο Hinton επισημαίνει ότι τα ANN μπορούν να εκπαιδευτούν χρησιμοποιώντας ενισχυτική μάθηση (RL) χωρίς backpropagation, αλλά αυτή η τεχνική «κλιμακώνεται άσχημα… για μεγάλα δίκτυα που περιέχουν πολλά εκατομμύρια ή δισεκατομμύρια παραμέτρους». Το 2021, το InfoQ κάλυψε μια βιολογικά εύλογη εναλλακτική λύση στην οπίσθια διάδοση που ονομάζεται μάθηση συμπερασμάτων μηδενικής απόκλισης (Z-IL) που μπορεί να αναπαράγει με ακρίβεια τα αποτελέσματα της οπισθοδιάδοσης.

Ο αλγόριθμος FF του Hinton αντικαθιστά τα περάσματα προς τα εμπρός προς τα πίσω της προπόνησης οπίσθιας διάδοσης με δύο περάσματα προς τα εμπρός που «λειτουργούν με τον ίδιο τρόπο το ένα με το άλλο». Το πρώτο πάσο προς τα εμπρός λειτουργεί με θετικά δεδομένα από ένα σετ εκπαίδευσης και τα βάρη του δικτύου προσαρμόζονται για να προκαλέσουν αυτή την είσοδο να αυξήσει το επίπεδο ενός επιπέδου καλύτερος αξία. Στο δεύτερο προς τα εμπρός πέρασμα, δίνεται στο δίκτυο ένα παραγόμενο αρνητικό παράδειγμα που δεν λαμβάνεται από το σύνολο δεδομένων. Τα βάρη του δικτύου προσαρμόζονται έτσι ώστε αυτή η είσοδος να μειώνει την ποιότητα ενός επιπέδου.

Ο Hinton χρησιμοποίησε το FF για να εκπαιδεύσει πολλά νευρωνικά δίκτυα για να εκτελούν εργασίες CV στο ΜΝΙΣΤ και  CIFAR σύνολα δεδομένων. Τα δίκτυα ήταν σχετικά μικρά, περιείχαν δύο ή τρία κρυφά συνελικτικά στρώματα και είχαν εκπαιδευτεί για λιγότερες από 100 εποχές. Όταν αξιολογήθηκαν σε σύνολα δεδομένων δοκιμής, τα δίκτυα που εκπαιδεύτηκαν με FF είχαν «λίγο χειρότερη απόδοση» από εκείνα που εκπαιδεύτηκαν χρησιμοποιώντας backpropagation.

Ο Diego Fiori, CTO στο Nebuly, εφάρμοσε τον αλγόριθμο FF του Hinton και συζήτησε τα αποτελέσματά του στο Twitter:

Η εργασία του Hinton πρότεινε 2 διαφορετικούς αλγόριθμους Forward-Forward, τους οποίους ονόμασα Base και Recurrent. Ας δούμε γιατί, παρά το όνομα, ο Base είναι στην πραγματικότητα ο αλγόριθμος με την υψηλότερη απόδοση….ο αλγόριθμος Base FF μπορεί να είναι πολύ πιο αποδοτικός στη μνήμη από τον κλασικό backprop, με εξοικονόμηση μνήμης έως και 45% για δίκτυα βαθιάς εμβέλειας.