Comment appliquer l'apprentissage automatique à la correspondance floue

Question

Disons que j'ai un système MDM (Master Data Management), dont la principale application est de détecter et d'empêcher la duplication des enregistrements.

Chaque fois qu'un représentant commercial entre un nouveau client dans le système, ma plateforme MDM vérifie les enregistrements existants, calcule la distance Levenshtein ou Jaccard ou XYZ entre une paire de mots ou de phrases ou d'attributs, prend en compte les poids et les coefficients et génère un score de similitude, etc.

Votre scénario d'appariement flou typique.

Je voudrais savoir s'il est judicieux d'appliquer des techniques d'apprentissage automatique pour optimiser la sortie correspondante, c'est-à-dire trouver des doublons avec une précision maximale.
Et où exactement cela a le plus de sens.

optimiser les poids des attributs?
augmenter la confiance de l'algorithme en prédisant le résultat du match?
apprendre les règles de correspondance que sinon je configurerais dans l'algorithme?
autre chose?

Il y a aussi cette excellente réponse sur le sujet mais je ne sais pas vraiment si le gars a réellement utilisé le ML ou non.

De plus, je crois comprendre que la correspondance floue pondérée est déjà une bonne solution, probablement même d'un point de vue financier, car chaque fois que vous déployez un tel système MDM, vous devez de toute façon faire une analyse et un prétraitement, que ce soit en encodant manuellement les règles de correspondance ou en formant un algorithme ML.

Je ne suis donc pas sûr que l'ajout de ML représenterait une proposition de valeur significative.

Toutes les pensées sont appréciées.

fgregg · Answer

Le principal avantage de l'utilisation du machine learning est le gain de temps.

Il est très probable que, avec suffisamment de temps, vous pourriez remettre des poids de réglage et proposer des règles de correspondance très bonnes pour votre ensemble de données particulier. Une approche d'apprentissage automatique peut avoir du mal à surpasser votre système fait à la main personnalisé pour un ensemble de données particulier.

Cependant, cela prendra probablement des jours pour faire un bon système d'appariement à la main. Si vous utilisez un ML existant pour l'outil de correspondance, comme Dedupe , alors les bons poids et règles peuvent être appris en une heure (y compris le temps de configuration).

Donc, si vous avez déjà construit un système de correspondance qui fonctionne bien avec vos données, cela ne vaut peut-être pas la peine d'étudier ML. Mais, s'il s'agit d'un nouveau projet de données, il le sera presque certainement.