Math: La nature des données

mercredi 13 mars 2019

Math: La nature des données

Jusqu'à maintenant nous nous somme intéressé comment construire un outil capable de soit prédire des données futurs (avec des modèles de régression) soit prédire l’association de celle ci avec des ensembles divers (classification)

Ces deux types de modèles sont en fait typique de la nature des données manipulées ou de la nature des données de sorties souhaitées, ici respectivement des données quantitatives et qualitatives [1,2].

Quelques explications sont donc nécessaires sur ces termes. Un modèle de machine learning suit généralement deux cycles de vie, une phase d’apprentissage et une phase de prédiction. Ici on ne préjuge pas de la manière dont ces deux cycles vont être mis en oeuvre car il peuvent être exécutés successivement (en mode supervisé) ou conjoint (en mode non supervisé).

Cela dit, quoi qu’il arrive et quel que soit le cycle, alors le modèle va alors prendre un ensemble des données en entrées et restituer une où plusieurs valeurs prédictives.

Les données, qu elles soient des d’entrées ou de sorties, se divisent en deux ensembles, les données que l’on peut mesurer, on les appellera les données quantitatives et les données que l’on peut classer, on les appellera les données qualitatives.

Quantitative

Cet ensemble de données est celui auquel on pense en premier lorsque l’on parle de données, il s’agit des données mesurables qui nous donneront une information de dimensionnement. Elles sont généralement associées à une unité, par exemple la vitesse, le poid ou la longueur.

Il faut distinguer deux sous classes aux données quantitatives, les données données dites continues et les données dites discrètes. Il serait possible d’entrer dans le débat de la frontière entre ces deux ensembles puisque nous manipulons essentiellement des données discrètes du fait de la nature même des outils informatiques, pourtant gardons en tête que celles ci sont et resteront une représentation (ou modèles) de la nature des phénomènes du monde réel et sont donc aussi continues.

Ainsi l’utilisation de données de type continue ou discrète, sera guidé par l’objectif du modèle recherché et implique des outils spécifiques (par exemple pour faire la somme des données d’un signal, on utilisera plus naturellement l'intégrale dans le cas d’une variable continue [3] alors que l’on réalisera plutôt une somme pour des variables discrètes [4])

Qualitative

À l’inverse des données quantitative, les données qualitatives sont des données sans unité [5]. Elles représentent des symboles ou des catégories. Il s’agit généralement d’attribuer des étiquettes à des données quantitatives afin de créer des zones de classifications.

Par exemple on pourra considérer que pour une variable fruit, les classes ananas et pastèques en sont deux qualités possibles. De la même façon on pourra mettre les populations dans des ensembles classiques comme les hommes et les femmes, les jeunes, le vieux, les tranches de revenus, tout cela sont des variables qualitatives [6].

Alors même s’il n’est pas possible de réaliser des opérations arithmétiques sur les variables qualitative, pour certaines d’entre elles il est possible les ordonnées, ainsi, on considérera les données normales et des ordinales, celle que l’on pourra classer dans un certain ordre.

L’exemple typique de données ordinales sont des données de type date [7].

Conclusions

La nature des données est multiple et complexe mais sa prise en considération est indispensable pour la bonne modélisation des modèles de machine learning. Maintenant il restera alors a analyser les données en prenant en compte la nature des données.

Références

[1] https://fr.wikipedia.org/wiki/Donn%C3%A9e_(statistique)

[2] https://blocnotes.iergo.fr/breve/categorielle-quantitative-discrete-ou-continue/

[3] https://fr.wikipedia.org/wiki/Transformation_de_Laplace

[4] https://fr.wikipedia.org/wiki/Transform%C3%A9e_en_Z

[5] https://www.scribbr.fr/memoire/recherche-qualitative-ou-quantitative-quelles-differences/

[6] https://un-est-tout-et-tout-est-un.blogspot.com/2018/07/ai-approche-neuromimetique-la.html

[7] https://openclassrooms.com/fr/courses/4525266-decrivez-et-nettoyez-votre-jeu-de-donnees/4725615-decouvrez-les-4-types-de-variables

Un est tout et tout est un

Thématiques principales

mercredi 13 mars 2019