Un nouveau sujet en statistique avec un gros volume de données.

Aller en bas

Un nouveau sujet en statistique avec un gros volume de données.

Message par Dlzlogic le Mer 20 Déc - 15:23

Bonjour,
http://www.les-mathematiques.net/phorum/read.php?13,1583884
Il est assez rare de pouvoir disposer de données aussi importantes : 4500 individus et 40 variables.
Il apparait que Tom semble se focaliser sur deux paramètres, le moyenne et l'écart-type. Ce sont des paramètres très importants, soit, mais qui n'ont d'intérêt que numérique.
Dans un premier temps, j'éliminerais tous les individus douteux. Etant donné le grand nombre, on ne risque pas de modifier par erreur des éléments intéressants.
La méthode est simple : pour chaque variable et indépendamment des autres, on calcule la moyenne et l'écart type. Il est normal qu'environ 0.7% des écarts à la moyenne soient supérieurs à 3 écart-type. On les élimine purement et simplement. Au passage, on vérifiera la répartition normale des écarts.

Ensuite, il peut être intéressant de chiffrer la relation entre les variables prises 2 par 2. Pour cela, on peut utiliser la méthode de la courbe de Lorenz. Le principe est de comparer la relation entre une variable et une autre, autre dit, si statistiquement une situation pour un individu implique tel résultat. C'est le calcul de l'indice de Gini qui fournit le résultat de la comparaison. Voir http://www.dlzlogic.com/aides/Lorenz_Gini.pdf. Si ces deux variables sont très inter-dépendantes, on peut en oublier une, sans perdre d'information, mais éventuellement on pourra augmenter le poids de celle que l'on conserve.

Au passage, je voudrai préciser que l'utilisation du terme "algorithme" me parait un peu faux. Ce terme a un sens très précis. C'est une liste finie d'opérations logiques pour décrire ou effectuer une action. Le terme "logiciel" me parait plus approprié à ce que semble vouloir faire Tom. Il n'y a pas de liaison directe entre un algorithme et l'informatique.

Tout ceci étant dit, je ne suis pas sûr d'avoir compris si Tom cherche à mettre au point une méthode de classification en utilisant un fichier dont il dispose ou à tirer des informations précises concernant une situation réelle dont le fichier est un échantillon.
Suivant l'un ou l'autre cas, la méthode à suivre sera différente.
Pour être plus clair, dans le premier cas les 40 variables ne seront caractérisées que par leur numéro d'ordre, dans le second cas elles seront caractérisées par leur réalité physique ou intellectuelle, ou les deux.

J'espère qu'il y aura des réactions dans le forum concerné.

Dlzlogic

Messages : 1163
Date d'inscription : 04/07/2017
Age : 73
Localisation : Proville

Voir le profil de l'utilisateur http://www.dlzlogic.com

Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum