Qu'est-ce qu'un apprentissage faiblement supervisé (bootstrap)?

Question

Je comprends les différences entre l'apprentissage supervisé et non supervisé:

Apprentissage supervisé est un moyen "d'enseigner" au classificateur, en utilisant des données étiquetées.

Apprentissage non supervisé permet au classificateur "d'apprendre par lui-même", par exemple, en utilisant le clustering.

Mais qu'est-ce que "l'apprentissage faiblement supervisé"? Comment classe-t-il ses exemples?

Jirka · Accepted Answer

Comme plusieurs commentaires ci-dessous le mentionnent, la situation n'est pas aussi simple que je l'avais écrit à l'origine en 2013.

L'opinion généralement acceptée est que

supervision faible - supervision avec des étiquettes bruyantes ( wikipedia )
supervision semi - seul un sous-ensemble de données de formation a des étiquettes ( wikipedia

Il y a aussi des classifications qui correspondent davantage à ma réponse originale, par exemple Zhi-Hua Zhou's 2017 A brief introduction to faiblement supervisé learning considère une supervision faible comme un terme générique pour

supervision incomplète - seul un sous-ensemble de données de formation a des étiquettes (comme ci-dessus)
supervision inexacte - appelée là où les données de formation sont données avec uniquement des étiquettes à grain grossier
supervision inexacte - où les étiquettes données ne sont pas toujours véridiques (supervision faible ci-dessus).

Réponse originale:

En bref: dans un apprentissage faiblement supervisé, vous utilisez une quantité limitée de données étiquetées.

La façon dont vous sélectionnez ces données et ce que vous en faites exactement dépend de la méthode. En général, vous utilisez un nombre limité de données faciles à obtenir et/ou qui font une réelle différence, puis apprenez le reste. Je considère le bootstrap comme une méthode qui peut être utilisée dans un apprentissage faiblement supervisé, mais comme le montre le commentaire de Ben ci-dessous, ce n'est pas une opinion généralement acceptée.

Voir, par exemple dissertation de Chris Bieman en 2007 pour un bon aperçu, il dit ce qui suit à propos de l'amorçage/de l'apprentissage faiblement supervisé:

Le bootstrap, également appelé auto-formation, est une forme d'apprentissage conçue pour utiliser encore moins d'exemples de formation, donc parfois appelée faiblement supervisé. Le bootstrapping commence par quelques exemples de formation, forme un classificateur et utilise des exemples positifs supposés fournis par ce classificateur pour le recyclage. Au fur et à mesure que l'ensemble d'exemples d'apprentissage augmente, le classificateur s'améliore, à condition que trop d'exemples négatifs ne soient pas classés comme positifs, ce qui pourrait entraîner une détérioration des performances.

Par exemple, en cas de balisage d'une partie de la parole, on forme généralement un baliseur HMM (ou à entropie maximale ou autre) sur 10 000 mots, chacun avec son POS. Dans le cas d'un balisage faiblement supervisé, vous pouvez simplement utiliser un très petit corpus de 100 mots. Vous obtenez un tagueur, vous l'utilisez pour baliser un corpus de 1000 mots, vous entraînez un tagueur sur cela et l'utilisez pour baliser un corpus encore plus gros. Évidemment, vous devez être plus intelligent que cela, mais c'est un bon début. (Voir cet article pour un exemple plus avancé d'un tagueur bootstrapé)

Remarque: un apprentissage faiblement supervisé peut également faire référence à un apprentissage avec des étiquettes bruyantes (ces étiquettes peuvent mais ne doivent pas nécessairement être le résultat d'un amorçage)

Tudor Achim · Answer

Supervision faible est une supervision avec des étiquettes bruyantes. Par exemple, l'amorçage, où la procédure d'amorçage peut mal étiqueter certains exemples.
Supervision à distance fait référence à des signaux de formation qui ne marquent pas directement les exemples; par exemple, apprendre des analyseurs sémantiques à partir d'ensembles de données de questions et réponses.
semi-supervisé l'apprentissage, c'est quand vous avez un ensemble de données partiellement étiqueté et partiellement non étiqueté.
Entièrement supervisé l'apprentissage, c'est quand vous avez des étiquettes de vérité au sol pour chaque point de données.

Alexandre Huat · Answer

Cet article [1] définit 3 types typiques de supervision faible:

supervision incomplète , où seul un sous-ensemble de données de formation est donné avec des étiquettes; (c'est la même chose que semi-supervision, je pense)
supervision inexacte , où les données de formation sont données avec uniquement des étiquettes à gros grains;
et supervision inexacte , où les étiquettes données ne sont pas toujours véridiques.

[1] Zhi-Hua Zhou, Une brève introduction à l'apprentissage faiblement supervisé, National Science Review, Volume 5, Numéro 1, janvier 2018, Pages 44-53, https://doi.org/10.1093/nsr/ nwx106

pythiest · Answer

Comme décrit par Jirka, une supervision faible implique une formation initiale (supervisée) sur un petit ensemble de données étiqueté, la prédiction sur un ensemble plus grand et l'incorporation (non supervisée) des instances identifiées positivement (ou de leurs caractéristiques) dans le modèle (soit en se recyclant sur le agrandissement du jeu de données ou par mise à jour directe du modèle). Le processus de mise à jour (non supervisée) est itéré jusqu'à ce qu'un certain objectif soit atteint. Évidemment, cela peut facilement mal tourner si le prédicteur initial donne de nombreux faux positifs, mais il existe certaines situations dans lesquelles l'espace de recherche peut être contraint de sorte que la généralisation obtenue par une supervision faible ne s'exécute pas (souvent) de manière folle ou que la saisie de l'utilisateur puisse être utilisé pour (faiblement) superviser le processus d'apprentissage. Pour fournir un exemple complémentaire, très réussi et non en text-mining, PSI-BLAST affine itérativement un profil de séquence protéique pour identifier des homologues distants. Un bon aperçu de ce qui peut mal tourner avec une telle approche dans ce contexte peut être trouvé dans ce papier .