13 Mar 2021

Mythe #6 : Les données fournissent une représentation parfaite de la réalité

Lorsque nous nous retrouvons devant une feuille de données Excel ou lorsque nous voyons passer certaines données dans les médias, il peut être facile d’assumer que celles-ci sont valides à 100% et qu’elles représentent parfaitement le phénomène décrit. De plus, si ces données proviennent d’un système automatisé, il est encore plus facile de tomber dans ce piège.

En réalité

Cependant, la réalité est beaucoup trop complexe pour être représentée parfaitement dans une feuille de données. Il est certainement possible d’obtenir une bonne idée du phénomène à l’étude, mais il est important de se rappeler qu’il existe toujours un « gap » entre nos données et la réalité. De même, si un système automatisé récolte les données, ce système a nécessairement été construit par des individus ayant des contraintes et des biais qui y sont donc reflétés.

Voici quelques questions pertinentes que l’on devrait toujours se poser avant d’analyser nos données :

  • D’où proviennent nos données ?
  • Qui les a collectées et comment ?
  • Quand ont-elles été collectées ?
  • Qu’est-ce qu’elles indiquent ?
  • Qu’est-ce qu’elles n’indiquent pas ?

 

Par exemple

Par exemple, en regardant ces graphiques tirés de l’excellent livre « Avoiding data pitfalls » de l’auteur Ben Jones, il peut être facile de conclure que le nombre de tremblements de terre est en hausse dans les dernières décennies. Par contre, en creusant un peu plus loin, nous voyons bien que les tremblements de terre de magnitude 7 et plus n’ont pas augmenté selon ces données. De plus, la hausse de ceux de magnitude 6 à 6.9 semble plutôt expliquée par les avancées de notre capacité à les détecter plutôt qu’à une augmentation réelle.

En conclusion

En conclusion, peu importe les données analysées, il est important de garder à l’esprit qu’il existera toujours un « gap » entre celles-ci et la réalité.

 

Charles Michaud

Consultant en intelligence d’affaires