Skip to main content

L'utilisation de la classification dans l'exploration de données

Machine Learning Crash Course-2 Hours | Learn Machine Learning | Machine Learning Tutorial | Edureka (Avril 2025)

Machine Learning Crash Course-2 Hours | Learn Machine Learning | Machine Learning Tutorial | Edureka (Avril 2025)
Anonim

La classification est une technique d'exploration de données qui assigne des catégories à une collection de données afin de permettre des prévisions et des analyses plus précises. Aussi appelé parfois appelé un Arbre de décision , la classification est l’une des méthodes destinées à rendre efficace l’analyse de très grands ensembles de données.

Pourquoi la classification?

Les très grandes bases de données deviennent la norme dans le monde actuel des Big Data . Imaginez une base de données avec plusieurs téraoctets de données - un téraoctet est un billion octets de données.

Facebook seul craque 600 téraoctets de nouvelles données chaque jour (à compter de 2014, date de la dernière publication de ces spécifications). Le principal défi du Big Data est de savoir comment le comprendre.

Et le simple problème de volume n'est pas le seul problème: les mégadonnées ont également tendance à être diverses, non structurées et évoluent rapidement. Prenez en compte les données audio et vidéo, les publications sur les réseaux sociaux, les données 3D ou les données géospatiales. Ce type de données n'est pas facilement catégorisé ou organisé.

Pour relever ce défi, une gamme de méthodes automatiques d’extraction d’informations utiles a été mise au point, parmi lesquelles: classification .

Comment fonctionne la classification

Au danger de s’enfoncer trop dans le jargon technologique, discutons du fonctionnement de la classification. L'objectif est de créer un ensemble de règles de classification qui répondent à une question, prennent une décision ou prédisent un comportement. Pour commencer, un ensemble de données d’apprentissage est développé qui contient un certain ensemble d’attributs ainsi que le résultat probable.

Le travail de l'algorithme de classification consiste à découvrir comment cet ensemble d'attributs parvient à sa conclusion.

Scénario: Une société émettrice de cartes de crédit tente peut-être de déterminer quels prospects devraient recevoir une offre de carte de crédit.

Cela pourrait être son ensemble de données de formation:

Données d'entraînement
prénomÂgeLe sexeRevenu annuelOffre de carte de crédit
John Doe25M$39,500Non
Jane Doe56F$125,000Oui

Les colonnes "prédicteur" Âge , Le sexe , et Revenu annuel déterminer la valeur de "l'attribut prédicteur" Offre de carte de crédit . Dans un ensemble d'apprentissage, l'attribut de prédicteur est connu. L'algorithme de classification tente ensuite de déterminer comment la valeur de l'attribut de prédicteur a été atteinte: quelles relations existe-t-il entre les prédicteurs et la décision? Il développera un ensemble de règles de prédiction, généralement une instruction IF / THEN, par exemple:

SI (Âge> 18 OU Âge <75 ans) ET Revenu annuel> 40 000 ALORS Offre de carte de crédit = oui

Évidemment, il s’agit d’un exemple simple, et l’algorithme aurait besoin d’un échantillonnage de données beaucoup plus important que les deux enregistrements présentés ici. En outre, les règles de prévision risquent d'être beaucoup plus complexes, notamment des sous-règles permettant de capturer les détails des attributs.

Ensuite, l'algorithme reçoit un "ensemble de prédiction" de données à analyser, mais cet ensemble n'a pas l'attribut de prédiction (ou la décision):

Données prédictives
prénomÂgeLe sexeRevenu annuelOffre de carte de crédit
Jack Frost42M$88,000
Mary Murray16F$0

Ces données de prédiction aident à estimer la précision des règles de prévision, lesquelles sont ensuite modifiées jusqu'à ce que le développeur considère que les prévisions sont efficaces et utiles.

Exemples quotidiens de classification

La classification, ainsi que d'autres techniques d'exploration de données, est à l'origine d'une grande partie de notre expérience quotidienne en tant que consommateurs.

Les prévisions météorologiques peuvent utiliser la classification pour indiquer si le jour sera pluvieux, ensoleillé ou nuageux. La profession médicale peut analyser les conditions de santé pour prévoir les résultats médicaux. Un type de méthode de classification, Naive Bayesian, utilise la probabilité conditionnelle pour catégoriser les e-mails de spam. De la détection des fraudes aux offres de produits, la classification consiste chaque jour en coulisse à analyser des données et à établir des prévisions.