GAN - Πώς να μετρήσετε την απόδοση GAN;

Φωτογραφία από τον Dawid Małecki

Στα GAN, η αντικειμενική λειτουργία της γεννήτριας και του διακριτικού συνήθως μετράει πόσο καλά κάνουν σε σχέση με τον αντίπαλο. Για παράδειγμα, μετράμε πόσο καλά η γεννήτρια ξεγελάει το διακριτικό. Δεν είναι καλή μέτρηση για τη μέτρηση της ποιότητας της εικόνας ή της ποικιλομορφίας της. Ως τμήμα της σειράς GAN, εξετάζουμε την Απόσταση Εισαγωγής και την Απόσταση Fréchet Inception για τον τρόπο σύγκρισης των αποτελεσμάτων από διαφορετικά μοντέλα GAN.

Δείκτης αρχής (IS)

Το IS χρησιμοποιεί δύο κριτήρια για τη μέτρηση της απόδοσης του GAN:

  • Η ποιότητα των παραγόμενων εικόνων και
  • την ποικιλομορφία τους.

Η εντροπία μπορεί να θεωρηθεί τυχαία. Εάν η τιμή μιας τυχαίας μεταβλητής x είναι ιδιαίτερα προβλέψιμη, έχει χαμηλή εντροπία. Αντίθετα, εάν είναι εξαιρετικά απρόβλεπτη, η εντροπία είναι υψηλή. Για παράδειγμα, στο παρακάτω σχήμα, έχουμε δύο κατανομές πιθανοτήτων p (x). το p2 έχει μεγαλύτερη εντροπία από το p1 επειδή το p2 έχει μια πιο ομοιόμορφη κατανομή και ως εκ τούτου, λιγότερο προβλέψιμο για το τι είναι x.

Στο GAN, θέλουμε η πιθανότητα P (y | x) να είναι πολύ προβλέψιμη (χαμηλή εντροπία). δηλ. μια εικόνα, θα πρέπει να γνωρίζουμε εύκολα τον τύπο αντικειμένου. Χρησιμοποιούμε λοιπόν ένα δίκτυο Inception για να ταξινομήσουμε τις παραγόμενες εικόνες και να προβλέψουμε P (y | x) - όπου y είναι η ετικέτα και x είναι τα παραγόμενα δεδομένα. Αυτό αντικατοπτρίζει την ποιότητα των εικόνων. Στη συνέχεια πρέπει να μετρήσουμε την ποικιλία των εικόνων.

P (y) είναι η περιθωριακή πιθανότητα που υπολογίζεται ως:

Εάν οι δημιουργούμενες εικόνες είναι διαφορετικές, η κατανομή δεδομένων για το y πρέπει να είναι ομοιόμορφη (υψηλή εντροπία).

Το παρακάτω σχήμα απεικονίζει αυτή την έννοια.

Για να συνδυάσουμε αυτά τα δύο κριτήρια, υπολογίζουμε την KL-απόκλιση τους και χρησιμοποιήστε την παρακάτω εξίσωση για να υπολογίσετε το IS.

Ένα κενό για το IS είναι ότι μπορεί να παραπλανήσει την απόδοση αν παράγει μόνο μία εικόνα ανά κλάση. το p (y) θα εξακολουθεί να είναι ομοιόμορφο αν και η ποικιλομορφία είναι χαμηλή.

Αρχική απόσταση Fréchet (FID)

Στο FID, χρησιμοποιούμε το δίκτυο Inception για να εξαγάγουμε χαρακτηριστικά από ένα ενδιάμεσο στρώμα. Στη συνέχεια μοντελοποιήσαμε την κατανομή δεδομένων για αυτά τα χαρακτηριστικά χρησιμοποιώντας μια πολυπαραγοντική Gaussian κατανομή με μέση τιμή μ και συντεταγμένη Σ. Το FID μεταξύ των πραγματικών εικόνων x και των παραγόμενων εικόνων g υπολογίζεται ως:

όπου Tr συγκεντρώνει όλα τα διαγώνια στοιχεία.

Οι χαμηλότερες τιμές FID σημαίνουν καλύτερη ποιότητα εικόνας και ποικιλία.

Το FID είναι ευαίσθητο στην κατάρρευση της λειτουργίας. Όπως φαίνεται παρακάτω, η απόσταση αυξάνεται με τις προσομοιωμένες λειτουργίες που λείπουν.

Πηγή Μια χαμηλότερη βαθμολογία FID αναγνωρίζει ένα καλύτερο μοντέλο.

Το FID είναι πιο ανθεκτικό στον θόρυβο από το IS. Εάν το μοντέλο παράγει μόνο μία εικόνα ανά κατηγορία, η απόσταση θα είναι υψηλή. Επομένως, το FID είναι μια καλύτερη μέτρηση για την ποικιλία των εικόνων. Το FID έχει κάποια μάλλον υψηλή μεροληψία αλλά χαμηλή διακύμανση. Με τον υπολογισμό του FID μεταξύ ενός συνόλου δεδομένων κατάρτισης και ενός συνόλου δεδομένων δοκιμής, θα πρέπει να αναμένουμε ότι το FID είναι μηδενικό αφού και οι δύο είναι πραγματικές εικόνες. Ωστόσο, η εκτέλεση του τεστ με διαφορετικές παρτίδες δείγματος εκπαίδευσης δεν δείχνει κανένα μηδενικό FID.

Πηγή

Επίσης, τόσο το FID όσο και το IS βασίζονται στην εξαγωγή χαρακτηριστικών (η παρουσία ή η απουσία χαρακτηριστικών). Η γεννήτρια θα έχει την ίδια βαθμολογία εάν δεν διατηρηθεί η χωρική σχέση;

Ακρίβεια, ανάκληση και βαθμολογία F1

Εάν οι παραγόμενες εικόνες μοιάζουν κατά μέσο όρο με τις πραγματικές εικόνες, η ακρίβεια είναι υψηλή. Η υψηλή ανάκληση υποδηλώνει ότι η γεννήτρια μπορεί να παράγει οποιοδήποτε δείγμα βρίσκεται στο σύνολο δεδομένων κατάρτισης. Η βαθμολογία F1 είναι ο αρμονικός μέσος όρος ακρίβειας και ανάκλησης.

Στο ερευνητικό έγγραφο του Google Brain "Τα GANs έχουν δημιουργηθεί ίσα", δημιουργείται ένα πείραμα παιχνιδιών με ένα σύνολο δεδομένων τριγώνων για τη μέτρηση της ακρίβειας και της ανάκλησης διαφορετικών μοντέλων GAN.

Πηγή

Αυτό το σύνολο δεδομένων παιχνιδιών μπορεί να μετρήσει την απόδοση διαφορετικού μοντέλου GAN. Μπορούμε να το χρησιμοποιήσουμε για να μετρήσουμε την αξία των διαφορετικών λειτουργιών κόστους. Για παράδειγμα, η νέα λειτουργία θα είναι καλή για την παραγωγή τριγώνου υψηλής ποιότητας με καλή κάλυψη;

Αναφορά

Βελτιωμένες τεχνικές για την εκπαίδευση των GAN

Τα GAN δημιουργούνται ίσα; Μελέτη μεγάλης κλίμακας

Τα GAN που εκπαιδεύονται από έναν κανόνα ενημέρωσης δύο χρονικών κλιμάκων μετατρέπονται σε μια τοπική ισορροπία Nash