Cet article est paru, initialement, sur le blog cooking-excel : voir l’article original

La loi de Benford est également appelée loi de nombres anormaux. Mais d’où vient cette loi ? Pourquoi est-elle utilisée pour détecter les fraudes fiscales ? Et surtout comment puis-je l’appliquer dans Excel ?

La loi de Benford, énonce que dans une liste de données statistiques, le 1er chiffre non nul le plus fréquent est 1, pour près du tiers des observations. Puis le 2 est lui-même plus fréquent que 3… et la probabilité d’avoir un 9 comme premier chiffre significatif n’est que de 4,6 %.

 

De façon générale, la loi donne la valeur théorique f de la fréquence d’apparition du premier chiffre d’un nombre d d’un résultat de mesure exprimé dans une base b donnée au moyen d’une unité.

Voici une représentation graphique faite avec Excel (formule expliquée plus bas) :

 

Un peu d’histoire

Cette distribution a été observée une première fois en 1881 par l’astronome américain Simon Newcomb après qu’il se fut aperçu de l’usure (et donc de l’utilisation) préférentielle des premières pages sur les dernières pages d’un ouvrage référençant les tables logarithmiques (utilisées à l’époque pour effectuer des calculs). Lorsqu’il réalisa que les premières pages (tables) étaient plus usées que les autres, il en a déduit que ses collègues de l’Université réalisaient des calculs avec des nombres commençant par des chiffres bas de façon beaucoup plus fréquente.

Cette découverte passe complètement inaperçu pendant cinquante-sept ans. C’est Frank Benford (ingénieur chez General Electric), aux alentours de 1938, qui remarqua à son tour cette usure inégale des pages de certains ouvrages, et il constate qu’il arrive aux mêmes résultats après avoir répertorié des dizaines de milliers de données de notre vie quotidienne : longueurs de fleuves, nombre d’habitants et indices de population, numéro dans l’adresse des personnes, taux de mortalité, listes de prix, liste de factures, cours de la bourse, les statistiques de la Ligue américaine de base-ball, Les scores de tournois de tennis, les nombre apparaissant dans des articles d’une revue, nombres premiers, constantes physiques et mathématiques…

La loi de Benford pour détecter les fraudes fiscales

La loi de Benford est aussi utilisée dans différents pays pour détecter les fraudes fiscales.

Dans l’ensemble des données retournées par une déclaration fiscale, si les fréquences d’apparition et ratios des nombres et montants déclarés suivent une loi de Benford, la déclaration est probablement honnête.

Mais si les montants sont choisis et remplis au hasard, une analyse statistique montrera une distribution différente à celle de Benford, il y aurait donc risque de fraude.

Les premiers chiffres significatifs 5 et 6 prédominent nettement dans les données falsifiées : 40 % pour les 5 et plus de 20 % pour les 6.

Dans une étude publiée en 2011, quatre économistes allemands, Bernhard Rauch, Max Göttsche, Gernot Brähler et Stefan Engel ont testé la loi de Benford sur les données comptables produites par les Etats membre de l’Union européenne. Ils montrent que la Grèce est le pays européen qui s’éloigne le plus des prédictions de la loi de Benford. La Belgique est le second pays qui dévie le plus par rapport à cette loi.

Comment représenter la loi de Benford dans Excel ?

Il s’agit, tout simplement, de reprendre la formule écrite par Franck Benford et de l’appliquer dans un tableau.

Vous pouvez voir le résultat dans le tableau ci-dessous. J’ai décomposé chaque partie de la formule afin de simplifier l’ensemble. Le résultat est dans la quatrième colonne. Ainsi vous pouvez vérifier que pour le chiffre 1, la probabilité de le trouver en première position est bien de 30,10%.

Cas pratique

J’ai réalisé le test sur le journal comptable d’une PME française et les résultats sont assez impressionnants. L’objectif est donc de détecter d’éventuelles fraudes au sein de l’entreprise. Vous pouvez également réaliser ce cas avec vos propres données d’entreprises. Nous allons voir étape par étape comment appliquer la loi avec Excel.

La première étape consiste à extraire les données

Dans notre cas, nous avons précisément 124 789 écritures.

Récupérer le chiffre le plus à gauche

Nous allons ajouter une nouvelle colonne afin de récupérer le chiffre le plus à gauche de chaque nombre de la colonne Montant:

Calculer la quantité pour chaque chiffre

Il existe un moyen très simple de calculer le nombre de valeurs: l’utilisation des tableaux croisés dynamiques.

Tout d’abord, il faut sélectionner une cellule du tableau, puis dans le ruban, cliquer sur Insertion > Tableau croisé dynamique.

Sur la fenêtre qui apparaît, il faut simplement cliquer sur OK pour voir apparaître le tableau croisé dynamique vide sur une nouvelle feuille du classeur.

A présent, il faut préparer le tableau croisé dynamique en y insérant les champs suivants dans les zones voulues, comme ci-dessous:

Le résultat doit être le suivant:

Calculer la fréquence

L’objectif étant de comparer la fréquence d’apparition de chaque chiffre par rapport à la loi de Benford, nous allons donc calculer la fréquence, c’est à dire le pourcentage de chaque quantité obtenue par la quantité totale. Il existe une option dans les tableaux croisés dynamiques qui permet de faire cela simplement: Clic-droit sur la colonne « Nombre de 1er chiffre » > Afficher les valeurs > % du total général.

Et vous pouvez voir directement le résultat. Il vous suffit de recopier les valeurs attendues de la loi de Benford à côté pour comparer.

Ainsi vous pouvez voir que les valeurs sont assez proches et que la loi est respectée même si quelques écarts peuvent apparaître sur le chiffre 1 et le chiffre 5. Comme je vous expliquais plus haut, les premiers chiffres significatifs 5 et 6 prédominent nettement dans les données falsifiées : 40 % pour les 5 et plus de 20 % pour les 6. Ce n’est donc pas notre cas ici.

 

Conclusion

Nous venons donc de voir comment fonctionne la Loi de Benford avec un cas pratique d’utilisation dans Excel.
Vous pouvez imaginer que cette Loi pourrait avoir des cas d’utilisations dans des modèles financiers (comme dans notre cas) mais également pour toute autre analyse de données d’entreprise.

 

Pour aller plus loin…

Pour les plus téméraires, voici un lien qui va plus loin sur la loi de Benford en cliquant ICI.