le k- L’algorithme signifie que le clustering est un outil d’exploration de données et d’apprentissage automatique utilisé pour regrouper des observations en groupes d’observations connexes sans aucune connaissance préalable de ces relations. En échantillonnant, l'algorithme tente d'indiquer à quelle catégorie, ou à quel cluster, appartiennent les données, le nombre de clusters étant défini par la valeur k.
le k- L’algorithme means est l’une des techniques de clustering les plus simples et il est couramment utilisé en imagerie médicale, en biométrie et dans des domaines connexes. L'avantage de k- signifie que le regroupement signifie qu'il parle de vos données (en utilisant sa forme non supervisée) plutôt que de devoir renseigner l'algorithme sur les données au début (en utilisant la forme supervisée de l'algorithme).
Il est parfois appelé algorithme de Lloyd, en particulier dans les milieux de l'informatique, car l'algorithme standard a été proposé par Stuart Lloyd pour la première fois en 1957. Le terme "k-means" a été inventé en 1967 par James McQueen.
Fonctionnement de l'algorithme K-Means
le k- means algorithme est un algorithme évolutif qui tire son nom de son mode de fonctionnement. L'algorithme regroupe les observations en k groupes, où k est fourni en tant que paramètre d'entrée. Il assigne ensuite chaque observation à des grappes en fonction de sa proximité avec la moyenne de la grappe. La moyenne de la grappe est ensuite recalculée et le processus recommence. Voici comment fonctionne l’algorithme:
- L'algorithme sélectionne arbitrairement k points en tant que centres de cluster initiaux (les moyens).
- Chaque point du jeu de données est attribué au cluster fermé, en fonction de la distance euclidienne entre chaque point et chaque centre de cluster.
- Chaque centre de cluster est recalculé en tant que moyenne des points de ce cluster.
- Répétez les étapes 2 et 3 jusqu'à ce que les grappes convergent. La convergence peut être définie différemment en fonction de la mise en œuvre, mais cela signifie normalement que les observations ne changent pas de grappes lorsque les étapes 2 et 3 sont répétées ou que les modifications ne font pas une différence significative dans la définition des grappes.
Choisir le nombre de clusters
L’un des principaux inconvénients de k- signifie que le clustering est le fait que vous devez spécifier le nombre de clusters en tant qu'entrée dans l'algorithme. Tel que conçu, l'algorithme n'est pas capable de déterminer le nombre approprié de grappes et dépend de l'utilisateur pour l'identifier à l'avance.
Par exemple, si vous souhaitez regrouper un groupe de personnes en fonction de l'identité de genre binaire, hommes ou femmes, appelez le k- signifie algorithme utilisant l'entrée k = 3 forcer les gens dans trois groupes lorsque seulement deux, ou une entrée de k = 2 fournirait un ajustement plus naturel.
De même, si un groupe d'individus était facilement regroupé en fonction de l'état d'origine et que vous appeliez le k- signifie algorithme avec l'entrée k = 20 les résultats pourraient être trop généralisés pour être efficaces.
C’est pour cette raison que c’est souvent une bonne idée d’expérimenter différentes valeurs de k identifier la valeur qui convient le mieux à vos données. Vous voudrez peut-être aussi explorer l’utilisation d’autres algorithmes d’exploration de données dans votre quête de connaissances apprises par la machine.