ReLu et Dropout dans CNN

Question

J'étudie les réseaux de neurones convolutionnels. Je suis confus à propos de certaines couches de CNN.

Concernant ReLu ... Je sais juste que c'est la somme d'une fonction logistique infinie, mais ReLu ne se connecte à aucune couche supérieure. Pourquoi avons-nous besoin de ReLu et comment cela fonctionne-t-il?

Concernant le décrochage ... Comment fonctionne le décrochage? J'ai écouté une conversation vidéo de G. Hinton. Il a dit qu'il existe une stratégie qui ignore simplement la moitié des nœuds, au hasard, lors de la formation des poids, et réduit de moitié le poids lors de la prévision. Il dit qu'il a été inspiré de forêts aléatoires et fonctionne exactement de la même manière que le calcul de la moyenne géométrique de ces modèles formés au hasard.

Cette stratégie est-elle identique au décrochage?

Quelqu'un peut-il m'aider à résoudre ce problème?

Hungry · Accepted Answer

ReLu: La fonction redresseur est une fonction d'activation f (x) = Max (0, x) qui peut être utilisée par neurones comme toute autre fonction d'activation, un nœud utilisant la fonction d'activation du redresseur est appelé nœud ReLu. La principale raison de son utilisation est due à son efficacité de calcul par rapport à des fonctions d'activation plus conventionnelles telles que la tangente sigmoïde et hyperbolique, sans faire de différence significative dans la précision de la généralisation. La fonction d'activation du redresseur est utilisée à la place d'une fonction d'activation linéaire pour ajouter une non linéarité au réseau, sinon le réseau ne pourrait jamais calculer qu'une fonction linéaire.

Dropout: Oui, la technique décrite est la même que l'abandon. La raison pour laquelle l'ignorance aléatoire des nœuds est utile est qu'elle empêche les interdépendances d'émerger entre les nœuds (c'est-à-dire que les nœuds n'apprennent pas les fonctions qui s'appuient sur les valeurs d'entrée d'un autre nœud), cela permet au réseau d'apprendre davantage une relation plus robuste. La mise en œuvre du décrochage a à peu près le même effet que de prendre la moyenne d'un comité de réseaux, mais le coût est nettement inférieur en termes de temps et de stockage requis.