Formules de coefficient de corrélation, calcul, interprétation, exemple

Formules de coefficient de corrélation, calcul, interprétation, exemple

Il Coefficient de corrélation Dans les statistiques, c'est un indicateur qui mesure la tendance de deux variables quantitatives x et y pour avoir une relation de linéarité ou de proportionnalité entre eux.

Généralement, les paires de variables x et y sont deux caractéristiques de la même population. Par exemple, X peut être la hauteur d'une personne E et de son poids.

Figure 1. Coefficient de corrélation pour quatre paires de données (x, y). Source: F. Zapata.

Dans ce cas, le coefficient de corrélation indiquerait s'il existe ou non un rapport de proportionnalité entre la taille et le poids d'une population donnée.

Le coefficient de corrélation linéaire de Pearson est indiqué avec la lettre r Les minuscules et ses valeurs minimales et maximales sont respectivement de -1 et +1. 

Une valeur r = +1 indiquerait que l'ensemble des paires (x, y) sont parfaitement alignées et que lorsque x grandira, et se développera dans la même proportion. D'un autre côté, si cela se produit que R = -1, l'ensemble des paires serait également parfaitement aligné, mais dans ce cas, lorsque X se développe et diminue dans la même proportion.

Figure 2. Différentes valeurs du coefficient de corrélation linéaire. Source: Wikimedia Commons.

D'un autre côté, une valeur r = 0 indiquerait qu'il n'y a pas de corrélation linéaire entre les variables x et y. Tandis qu'une valeur de r = +0,8 indiquerait que les paires (x, y) ont tendance à se regrouper d'un côté et une autre d'une certaine ligne.

La formule pour calculer le coefficient de corrélation R est la suivante:

Où le numérateur représente la covariance entre les variables x et y, tandis que le dénominateur est le produit de l'écart type pour la variable x et l'écart type pour la variable et.

Comment calculer le coefficient de corrélation?

Le coefficient de corrélation linéaire est une quantité statistique qui est incorporée dans les calculatrices scientifiques, dans la plupart des feuilles de calcul et des programmes statistiques.

Peut vous servir: paraboloïde hyperbolique: définition, propriétés et exemples

Cependant, il est pratique de savoir comment la formule qui la définit est appliquée, et pour cela, un calcul détaillé sera affiché, effectué sur un petit ensemble de données.

Et comme indiqué dans la section précédente, le coefficient de corrélation est la covariance SXY divisée par le produit de l'écart-type SX pour les variables x et sy pour la variable et.

Covariance et variance

La covariance SXY est:

Sxy = [σ (xi -) (yi -)] / (n -1)

Où la somme va de 1 aux n paires (xi, yi). E sont les bas arithmétiques des données xi e yi respectivement.

Pour sa part, l'écart type pour la variable x est la racine carrée de la variance de l'ensemble de données XI, avec I de 1 à n:

Sx = √ [σ (xi -) ^ 2) / (n -1)]

De même, l'écart type pour la variable et est la racine carrée de la variance de l'ensemble de données YI, avec I de 1 à n:

Sy = √ [σ (yi -)2 ) / (N-1)]

Cas illustratif

Afin de montrer en détail la manière de calculer le coefficient de corrélation, nous prendrons l'ensemble suivant de quatre paires de données 

(X, y): (1, 1); (23); (3, 6) et (4, 7).

Nous calculons d'abord la moyenne arithmétique pour X et Y, comme suit:

= (1 + 2 + 3 + 4) / 4 = 2.5

= (1 + 3 + 6 + 7) / 4 = 4.25

Ensuite, les paramètres restants sont calculés:

Covariance SXY

Sxy = [(1 - 2.5) (1 - 4.25) + (2 - 2.5) (3 - 4.25) + (3 - 2.5) (6 - 4.25) + .. ... .(4 - 2.5) (7 - 4.25)] / (4-1)

Sxy = [(-1.5) (-3.25) + (-0.5) (-1.25) + (0.5) (1.75) + .. . 

Peut vous servir: règles de dérivation (avec des exemples)

.. .(1.5) (2.75)] / (3) = 10.5/3 = 3.5

Écart-type sx

Sx = √ [(-1.5)2 + (-0.5)2 + (0.5)2 + (1.5)2) / (4-1)] = √ [5/3] = 1.29

Écart-type SY

Sx = √ [(-3.25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (4-1)] = 

√ [22.75/3] = 2.75

Coefficient de garde

R = 3.5 / (1.29 * 2.75) = 0.98

Interprétation

Dans l'ensemble de données du cas précédent, il existe une forte corrélation linéaire entre les variables x et y, qui se manifeste à la fois dans le graphique de dispersion (qui peut être vu sur la figure 1) et dans le coefficient de corrélation, qui a jeté une valeur assez proche de l'unité.

Dans la mesure où le coefficient de corrélation est plus proche de 1 ou -1, plus de sens rend le réglage des données à une ligne, le résultat de la régression linéaire.

Régression linéaire

La ligne de régression linéaire est obtenue à partir de Méthode des moindres carrés. dans lequel le paramètre de la ligne de régression est obtenu à partir de la minimisation de la somme du carré de la différence entre la valeur et l'estimé et le Yi des N données.

D'un autre côté, les paramètres A et B de la ligne de régression y = a + bx, obtenu par la méthode des carrés minimaux, sont:

* B = sxy / (sx2) Pour la pente

* A = - b pour l'intersection de la ligne de régression avec l'axe du et et.

Rappelons que SXY est la covariance définie ci-dessus et SX2 C'est la variance ou le carré de l'écart-type précédemment défini. E sont les moyens arithmétiques des données x et et respectivement.

Exemple

Le coefficient de corrélation est utilisé pour déterminer s'il existe une corrélation de type linéaire entre deux variables. Il est applicable lorsque les variables à étudier sont quantitatives et aussi, elles sont censées suivre une distribution de type normal.

Peut vous servir: règle de correspondance d'une fonction

Un exemple illustratif que nous avons ci-dessous: une mesure du degré d'obésité est l'indice de masse corporelle, qui est obtenu en divisant le poids d'une personne en kilogrammes entre la hauteur de la même dans les unités carrées au carré.

Il est souhaité savoir s'il existe une forte corrélation entre l'indice de masse corporelle et la concentration de cholestérol HDL dans le sang, mesuré en millimoles par litre. À cette fin, une étude a été réalisée avec 533 personnes résumées dans le graphique suivant, dans lequel chaque point représente les données d'une personne.

figure 3. Étude IMC et cholestérol HDL chez 533 patients. Source: Institut aragonais des sciences de la santé (IACS).

D'après l'observation minutieuse du graphique, il s'ensuit qu'il existe une certaine tendance linéaire (pas très marquée) entre la concentration de cholestérol HDL et l'indice de masse corporelle. La mesure quantitative de cette tendance est le coefficient de corrélation qui, pour ce cas, s'est avéré r = -0,276.

Les références

  1. González c. Statistiques générales. Récupéré de: Tarwi.La Molina.Édu.pe
  2. IACS. Institut aragonais des sciences de la santé. Récupéré de: ics-aragon.com 
  3. Salazar C. et Castillo S. Principes de base des statistiques. (2018). Récupéré de: dspace.Uce.Édu.CE
  4. Superprof. Coefficient de corrélation. Récupéré de: superprof.est
  5. USAC. Manuel des statistiques descriptives. (2011). Récupéré de: statistiques.ingénierie.USAC.Édu.GT
  6. Wikipédia. Coefficient de corrélation de Pearson. Récupéré de: est.Wikipédia.com.