Thématiques principales

dimanche 14 octobre 2018

Math : Elements de statistique de base

Pourquoi les statistiques


Les statistiques peuvent etre definies comme un sous-domaine des mathématiques dont l’objet est l’étude des données. Elles s’associent généralement d’approches, de méthodes, et de processus de traitement des données permettant de tirer d’une part des informations sur l'état des données mais aussi de permettre la construction de modeles de prediction.

Ainsi dans ce blog, nous cherchons à traiter de sujet propre à l’informatique, à la modélisation et à l’IA et il est évident que la manipulation des données et leur étude est quelque part un incontournable.

Voilà donc pourquoi nous voici avec un article abordant les concepts (de base) des statistiques
Concepts de base

Pour comprendre les statistiques, il faut s'intéresser à la nature des éléments qui en sont l’études: les données.

Les données sont des ensembles de valeurs représentant des informations collectées. Ces valeurs sont de différents types et appartiennent à des ensembles finis ou infinis, bornés ou non bornés.

Ainsi la statistique a pour propos d’identifier et comprendre la manière qu’à une donnée de prendre certaines valeurs plutôt que d’autres et pourquoi, cela amène alors à la notion d'événement et de variables aléatoires.

Variables aléatoires et univers


Une variable statistique est une variable dont l'occurrence suit une loi de probabilité (Rien ne dit de celle-ci qu’elle est uniforme, c’est à dire que ses valeurs sont équiprobables).

L’ensemble des valeurs que peut prendre une variable statistique est appelé univers de la variable.

Elle est dite aléatoire dès le cas où même en connaissant sa loi de probabilité et son univers, il est impossible de prédire une occurrence précise.

Evénement et ensemble des parties


Mathématiquement parlant, l’ensemble les parties d’un ensemble est l’ensemble contenant l’ensemble des combinaisons des éléments de l’ensemble initial y compris l’ensemble lui même et l’ensemble vide.

Ainsi, une variable statistique ayant pour univers un ensemble fini E composé des éléments ei tel que:



Aura pour ensemble des parties P l’ensemble suivant :



En terme d'interprétation, il s’agit en fait de l’ensemble des règles comportementales ou événement probabiliste qu’il est possible de construire sur la base de l’Univers de la variable statistique utilisée.

Par exemple, sur la base d’une variable X ayant pour univers E={0,1}, il sera possible de construire les événements suivant:
  • Obtenir aucune valeur
  • Obtenir la valeur 0
  • Obtenir la valeur 1
  • Obtenir n’importe quelle valeur



Enfin, en associant les éléments de l’Univers de la variable statistique aux éléments de l’ensemble des parties, on peut construire un couple E x P(E) appelé aussi espace probabilisable.

A noter qu’ici le choix de construire l’espace probabilisable sur la base de l’ensemble de partie de U est fondé sur la nature discrète de la variable statistique et sur la capacité de P(E) a être exhaustif. Il est pourtant possible d’utiliser un sous-ensemble de P(E).

A noter également que lorsque la variable statistique est continu, alors l’espace probabilisable pourra être l’association arbitraire de la segmentation de l’univers de la variable avec un ensemble d'événements caractérisant ces segments.

Par exemple si nous considérons une variable statistique telle que la taille d’une population d’individu, l’univers de cette variable pourra être défini comme étant le segment [20,220] cm.

Impossible ici de construire l’ensemble des parties de E. Cependant, nous pouvons définir un espace probabilisable pour la variable X de la façon suivante:
  • si 20<X<100 : individu un enfant
  • si 100<X<150 : individu de petite taille
  • si 150<X<180 : individu moyen
  • si 180<X<220 : individu de grande taille

Le tirage “au hasard” d’un individu pourra alors être caractérisé par un événement particulier (où plusieurs, rien n'empêchant ces derniers de se recouvrir)

Conclusion

Bon ca fait un moment que l’on avait pas traité un peu de mathématique. La dernière fois c’était en parlant des bases mathématiques pour l'IA et la fois précédente lorsque nous avions parlé des Sed et la théorie du contrôle par supervision [2] (qui s'appuie largement sur la théorie des ensemble.

Cette fois, c’est essentiellement pour revenir à quelques concepts clef du traitement de l’information et de l’analyse de données telle que l’on peut le faire une fois encore en IA où dans le Big Data. Il est évident que le sujet n’est pas encore clos et il reste plusieurs articles à écrire afin de couvrir suffisamment de notions pour que nous soyons prêt pour rentrer plus profondément dans ces sujets (que nous manquerons pas de traiter parallèlement malgré tout.

Aucun commentaire:

Enregistrer un commentaire