Keras EarlyStopping: quel min_delta et quelle patience utiliser?

Question

Je suis nouveau dans l'apprentissage en profondeur et Keras et l'une des améliorations que j'essaie d'apporter à mon processus de formation de modèle est de faire usage de keras.callbacks.EarlyStopping fonction de rappel.

Sur la base des résultats de la formation de mon modèle, semble-t-il raisonnable d'utiliser les paramètres suivants pour EarlyStopping?

EarlyStopping(monitor='val_loss', min_delta=0.0001, patience=5, verbose=0, mode='auto')

Aussi, pourquoi semble-t-il être arrêté plus tôt qu'il ne le devrait s'il devait attendre 5 époques consécutives où la différence de val_loss est inférieur à un min_delta de 0,0001?

Sortie lors de la formation du modèle LSTM (sans EarlyStop)

Exécute les 100 époques

Epoch 1/100 10200/10200 [==============================] - 133s 12ms/step - loss: 1.1236 - val_loss: 0.6431 Epoch 2/100 10200/10200 [==============================] - 141s 13ms/step - loss: 0.2783 - val_loss: 0.0301 Epoch 3/100 10200/10200 [==============================] - 143s 13ms/step - loss: 0.1131 - val_loss: 0.1716 Epoch 4/100 10200/10200 [==============================] - 145s 13ms/step - loss: 0.0586 - val_loss: 0.3671 Epoch 5/100 10200/10200 [==============================] - 146s 13ms/step - loss: 0.0785 - val_loss: 0.0038 Epoch 6/100 10200/10200 [==============================] - 146s 13ms/step - loss: 0.0549 - val_loss: 0.0041 Epoch 7/100 10200/10200 [==============================] - 147s 13ms/step - loss: 4.7482e-04 - val_loss: 8.9437e-05 Epoch 8/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.5181e-05 - val_loss: 4.7367e-06 Epoch 9/100 10200/10200 [==============================] - 149s 14ms/step - loss: 9.1632e-07 - val_loss: 3.6576e-07 Epoch 10/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.4117e-07 - val_loss: 1.6058e-07 Epoch 11/100 10200/10200 [==============================] - 152s 14ms/step - loss: 1.2024e-07 - val_loss: 1.2804e-07 Epoch 12/100 10200/10200 [==============================] - 150s 14ms/step - loss: 0.0151 - val_loss: 0.4181 Epoch 13/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0701 - val_loss: 0.0057 Epoch 14/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0332 - val_loss: 5.0014e-04 Epoch 15/100 10200/10200 [==============================] - 147s 14ms/step - loss: 0.0367 - val_loss: 0.0020 Epoch 16/100 10200/10200 [==============================] - 151s 14ms/step - loss: 0.0040 - val_loss: 0.0739 Epoch 17/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0282 - val_loss: 6.4996e-05 Epoch 18/100 10200/10200 [==============================] - 147s 13ms/step - loss: 0.0346 - val_loss: 1.6545e-04 Epoch 19/100 10200/10200 [==============================] - 147s 14ms/step - loss: 4.6678e-05 - val_loss: 6.8101e-06 Epoch 20/100 10200/10200 [==============================] - 148s 14ms/step - loss: 1.7270e-06 - val_loss: 6.7108e-07 Epoch 21/100 10200/10200 [==============================] - 147s 14ms/step - loss: 2.4334e-07 - val_loss: 1.5736e-07 Epoch 22/100 10200/10200 [==============================] - 147s 14ms/step - loss: 0.0416 - val_loss: 0.0547 Epoch 23/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0413 - val_loss: 0.0145 Epoch 24/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0045 - val_loss: 1.1096e-04 Epoch 25/100 10200/10200 [==============================] - 149s 14ms/step - loss: 0.0218 - val_loss: 0.0083 Epoch 26/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0029 - val_loss: 5.0954e-05 Epoch 27/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0316 - val_loss: 0.0035 Epoch 28/100 10200/10200 [==============================] - 148s 14ms/step - loss: 0.0032 - val_loss: 0.2343 Epoch 29/100 10200/10200 [==============================] - 149s 14ms/step - loss: 0.0299 - val_loss: 0.0021 Epoch 30/100 10200/10200 [==============================] - 150s 14ms/step - loss: 0.0171 - val_loss: 9.3622e-04 Epoch 31/100 10200/10200 [==============================] - 149s 14ms/step - loss: 0.0167 - val_loss: 0.0023 Epoch 32/100 10200/10200 [==============================] - 148s 14ms/step - loss: 7.3654e-04 - val_loss: 4.1998e-05 Epoch 33/100 10200/10200 [==============================] - 149s 14ms/step - loss: 7.3300e-06 - val_loss: 1.9043e-06 Epoch 34/100 10200/10200 [==============================] - 148s 14ms/step - loss: 6.6648e-07 - val_loss: 2.3814e-07 Epoch 35/100 10200/10200 [==============================] - 147s 14ms/step - loss: 1.5611e-07 - val_loss: 1.3155e-07 Epoch 36/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.2159e-07 - val_loss: 1.2398e-07 Epoch 37/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1940e-07 - val_loss: 1.1977e-07 Epoch 38/100 10200/10200 [==============================] - 150s 14ms/step - loss: 1.1939e-07 - val_loss: 1.1935e-07 Epoch 39/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1935e-07 Epoch 40/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1935e-07 Epoch 41/100 10200/10200 [==============================] - 150s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 42/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 43/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 44/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 45/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 46/100 10200/10200 [==============================] - 151s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 47/100 10200/10200 [==============================] - 151s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07 Epoch 48/100 10200/10200 [==============================] - 151s 14ms/step - loss: 1.1921e-07 - val_loss: 1.1921e-07

Sortie avec EarlyStop

Arrête (trop tôt?) après 11 époques

10200/10200 [==============================] - 134s 12ms/step - loss: 1.2733 - val_loss: 0.9022 Epoch 2/100 10200/10200 [==============================] - 144s 13ms/step - loss: 0.5429 - val_loss: 0.4093 Epoch 3/100 10200/10200 [==============================] - 144s 13ms/step - loss: 0.1644 - val_loss: 0.0552 Epoch 4/100 10200/10200 [==============================] - 144s 13ms/step - loss: 0.0263 - val_loss: 0.9872 Epoch 5/100 10200/10200 [==============================] - 145s 13ms/step - loss: 0.1297 - val_loss: 0.1175 Epoch 6/100 10200/10200 [==============================] - 146s 13ms/step - loss: 0.0287 - val_loss: 0.0136 Epoch 7/100 10200/10200 [==============================] - 145s 13ms/step - loss: 0.0718 - val_loss: 0.0270 Epoch 8/100 10200/10200 [==============================] - 145s 13ms/step - loss: 0.0272 - val_loss: 0.0530 Epoch 9/100 10200/10200 [==============================] - 150s 14ms/step - loss: 3.3879e-04 - val_loss: 0.0575 Epoch 10/100 10200/10200 [==============================] - 146s 13ms/step - loss: 1.6789e-05 - val_loss: 0.0766 Epoch 11/100 10200/10200 [==============================] - 149s 14ms/step - loss: 1.4124e-06 - val_loss: 0.0981 Training stops early here.

 EarlyStopping(monitor='val_loss', min_delta=0, patience=5, verbose=0, mode='min')

Réglage essayé min_delta à 0. Pourquoi s'arrête-t-il alors que val_loss augmenté de 0,0011 à 0,1045?

10200/10200 [==============================] - 140s 13ms/step - loss: 1.1938 - val_loss: 0.5941 Epoch 2/100 10200/10200 [==============================] - 150s 14ms/step - loss: 0.3307 - val_loss: 0.0989 Epoch 3/100 10200/10200 [==============================] - 151s 14ms/step - loss: 0.0946 - val_loss: 0.0213 Epoch 4/100 10200/10200 [==============================] - 149s 14ms/step - loss: 0.0521 - val_loss: 0.0011 Epoch 5/100 10200/10200 [==============================] - 150s 14ms/step - loss: 0.0793 - val_loss: 0.0313 Epoch 6/100 10200/10200 [==============================] - 154s 14ms/step - loss: 0.0367 - val_loss: 0.0369 Epoch 7/100 10200/10200 [==============================] - 154s 14ms/step - loss: 0.0323 - val_loss: 0.0014 Epoch 8/100 10200/10200 [==============================] - 153s 14ms/step - loss: 0.0408 - val_loss: 0.0011 Epoch 9/100 10200/10200 [==============================] - 154s 14ms/step - loss: 0.0379 - val_loss: 0.1045 Training stops early here.

Akash Goyal · Answer

Le rôle de deux paramètres ressort clairement des keras documentation .

min_delta: variation minimale de la quantité surveillée pour être considérée comme une amélioration, c'est-à-dire une variation absolue inférieure à min_delta, ne comptera comme aucune amélioration.

patience: nombre d'époques sans amélioration après quoi l'entraînement sera arrêté.

En fait, il n'y a pas de valeur standard pour ces paramètres. Vous devez analyser les participants (ensemble de données, environnement, type de modèle) du processus de formation pour décider de leurs valeurs.

(1). patience

Ensemble de données - Si l'ensemble de données ne présente pas une si bonne variation pour différentes catégories (exemple - visages de personnes du groupe d'âge 25-30 et 30-35). Le changement de perte serait lent et aléatoire. - Dans de tels cas, il est bon d'avoir une valeur plus élevée pour patience. Et vice-versa pour un ensemble de données correct et clair.
Type de modèle - Lors de la formation d'un modèle GAN, le changement de précision serait faible (cas maximum) et une exécution Epoch consommera une bonne quantité de GPU. Dans de tels cas, il vaut mieux économiser checkpoint files après un nombre spécifique d'époques avec une valeur faible de patience. Et ensuite, utilisez des points de contrôle pour continuer à vous améliorer au besoin. Analysez de manière similaire pour d'autres types de modèles.
Environnement d'exécution - Lors de la formation sur un CPU, une exécution Epoch prendrait beaucoup de temps. Donc, nous préférons une valeur plus petite pour patience. Et peut essayer une plus grande valeur avec le GPU.

(2). min_delta

Pour décider min_delta, exécutez quelques époques et voyez le changement dans la précision des erreurs et de la validation. Selon le taux de changement, il doit être défini. La valeur par défaut 0 fonctionne assez bien dans de nombreux cas.

Simon Batzner · Answer

Vos paramètres sont valides premier choix.

Cependant, comme l'a souligné Akash, cela dépend de l'ensemble de données et de la façon dont vous divisez vos données, par exemple votre schéma de validation croisée. Vous souhaiterez peut-être d'abord observer le comportement de votre erreur de validation pour votre modèle, puis choisir ces paramètres en conséquence.

En ce qui concerne min_delta: J'ai trouvé que 0 ou un choix de << 1 comme le vôtre fonctionne très bien souvent. Encore une fois, regardez à quel point votre erreur change en premier.

Concernant patience: si vous le réglez sur n, vous obtenez bien le modèle n époques après le meilleur modèle. Les choix courants se situent entre 0 et 10, mais encore une fois, cela dépendra de votre ensemble de données et en particulier de la variabilité au sein de l'ensemble de données.

Enfin, EarlyStopping se comporte correctement dans l'exemple que vous avez donné. L'optimum qui a finalement déclenché l'arrêt précoce se trouve à l'époque 4: val_loss: 0,0011. Après cela, la formation trouve 5 pertes de validation supplémentaires qui se situent toutes au-dessus ou sont égales à cet optimum et termine finalement 5 époques plus tard.