Statistika in računalniki z Benfordovim zakonom kažejo na finančne malverzacije
Matej Huš
13. okt 2011 ob 14:10:32
Statistika in računalniška moč nam omogočata, da analiziramo velike kupe podatkov ter v njih iščemo zakonitosti in vzorce, ki jih z ročnim delom ni bilo mogoče odkriti. Eno izmed najbolj zanimivih odkritij opisuje frekvenco pojavitve posameznih cifer v realnih podatkih. Izkaže se, da v realnih podatkih devet števk (1-9) ni enakomerno zastopanih, ampak njihova pogostnost pada od najpogostejše enice do najredkejše devetice. To opisuje Benfordov zakon, ki ga je leta 1881 odkril astronom Simon Newcomb.
Benfordov zakon pravi, da je prva cifra v realnih podatkih najpogosteje enica (30 odstotkov). Frekvenca ostalih števk nato monotono pada do devetice (4,6 odstotka). Matematični zapis za Befordovo verjetnost pojavitve števke n (1-9) na prvem mestu je:
\log_{10}\left(1+\frac{1}{n}\right) (napaka se odpravlja).
Zakon je mogoče razširiti tudi na neprva mesta v številih, saj tudi za te veljajo specifične, neuniformne porazdelitve. Zanimivo je, da se omenjena zakonitost pojavlja v praktično vseh realnih podatkih: višini gora, dolžini rek, površini držav in tudi celo v finančnih izkazih. Benfordov zakon drži ne glede na mersko enoto ali številski sestav.
Zato se razširjeni Benfordov zakon (na vse števke) rutinsko uporablja pri forenzični analizi finančnih izkazov in bilanc. Utemeljitev je enostavna: kdor prireja podatke, pogosto ne pozna ali pa zaradi zahtevnosti generiranja ustreznih števil ne more upoštevati Benfordove porazdelitve. Če mora na primer direktor predložiti račune za vse izdatke nad 20 evrov in jih zato zaokrožuje navzdol (18, 19 evrov), bo porazdelitev pokazala preveliko število enic, osmic in devetic. Profesionalci so seveda na tekočem s sto let staro statistiko, zato je recimo Bernard Madoff pri potvarjanju podatkov v svoji piramidi upošteval Benfordovo porazdelitev, a ti primeri so redki.
Jialan Wang je izvedel zelo zanimivo raziskavo, ko je preveril ujemanje računovodskih podatkov za ameriška podjetja v sistemu Compustat z Benfordovo porazdelitvijo. Šlo je za 20.000 podjetij. Popolnega ujemanja ni pričakovati, a na dolgi rok se odstopanja iznihajo. Primerjal je standardno deviacijo prijavljenih podatkov od Benfordove napovedi in odkril nekaj zelo zanimivega - odstopanja od leta 1960 večinoma rastejo. To seveda ni dokaz, da podatke potvarjajo, je pa močan indic, da se dogaja nekaj nenavadnega. Razčlenitev po industrijah je pokazala, da je finančna industrija največjo rast odstopanja beležila v letih 1980-1990 in po letu 2007 in res so se tedaj dogajali največji škandali. IT-sektor največjo rast odstopanja beleži med leti 1998-2002, ko se je napihoval in nato razpočil dot-com balonček.