Hoofdstuk 10 Decimale ontwikkeling

Hoofdstuk 10
Decimale ontwikkeling
10.1
Inleiding
Het huidige systeem om getallen te noteren stamt uit de Arabische tijd en staat
bekend als het decimale getalstelsel. Zoals we weten geven de cijfers in een getal
van achter naar voren gelezen het aantal eenheden, tientallen, honderdtallen, etc.
aan dat het getal bevat. Met 657 bedoelen we bijvoorbeeld het getal 6 · 102 +
5 · 10 + 7. Ook hebben we decimale breuken leren kennen op school. Zo geeft
1.2354 de breuk 1 + 2 · 10−1 + 3 · 10−2 + 5 · 10−3 + 4 · 10−4 aan. Merk op dat
ik hier de . gebruik voor het decimale teken in plaats van de decimale komma.
Dat is een gewoonte die aansluit bij de internationale notatie. Ook hebben we
oneindige decimale ontwikkelingen, bijvoorbeeld
π = 3.141592653589793238462643383 . . .
hetgeen correspondeert met een oneindige reeks 3 + 1 · 10−1 + 4 · 10−2 + . . .. Het
aardige is dat we weten dat π oneindig veel decimalen heeft, maar dat we ze nooit
allemaal zullen kennen. Momenteel (2008) zijn door indrukwekkende computerberekeningen de eerste twaalfhonderd miljard decimalen bekend (Kanada et al,
2002). In een filosofische bui zouden we ons kunnen afvragen wat nu twaalfhonderd miljard is in vergelijking met de oneindige oceaan van decimalen die nog
volgt.
De keuze van het basisgetal 10 in onze notatie is wiskundig gezien vrij willekeurig.
Het heeft te maken met praktische overwegingen en het feit dat we op onze vingers
tot tien kunnen tellen. Op computers is het veel prettiger om met binaire getallen
te rekenen. In plaats van het basisgetal 10 neemt men het basisgetal 2 en in plaats
van de cijfers 0, 1, 2, . . . , 9 gebruikt men de cijfers 0, 1. In computergeheugen
worden deze cijfers gerepresenteerd door het feit dat er zich wel of geen elektrische
lading in het geheugenbit bevindt. In het binaire of tweetallige stelsel zien de
getallen 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, . . . er uit als
1, 10, 11, 100, 101, 110, 111, 1000, 1001, 1010, 1011, . . .
75
76
HOOFDSTUK 10. DECIMALE ONTWIKKELING
In de informatica groepeert men de bits van het tweetallig stelsel liever in groepjes van vier en werkt men met het hexadecimale stelsel. Het basisgetal is dan
16 en de cijfers zijn 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F . Het getal 29 ziet er
hexadecimaal uit als 1D.
In principe houdt niets ons tegen om een willekeurig basisgetal B te kiezen en een
verzameling VB van B symbolen om cijfers 0, 1, . . . , B−1 te representeren. Elk geheel getal kan dan gegeven worden door een uitdrukking van de vorm ak . . . a2 a1 a0
met a0 , . . . , ak ∈ VB . We bedoelen daar dan het getal a0 +a1 B +a2 B 2 +. . .+ak B k
mee. Op soortgelijke manier kunnen we ook niet-gehele getallen representeren
door B-tallige ontwikkelingen. Hoewel het goed is van deze mogelijkheid op de
hoogte te zijn, zullen we hier verder niet te veel aandacht aan besteden. De
theorie die in de komende paragrafen aan bod komt zal meestal gaan over het
tientallig stelsel, hoewel voor andere getalstelsels even goed analoge resultaten
gelden.
10.2
Periodieke breuken
Het zal de meesten van ons ook bekend zijn dat de decimale ontwikkeling van
veel breuken een periodiciteit vertoont. Bijvoorbeeld,
1
= 0.142857142857142857142857142857 . . .
7
hetgeen we afkorten met
1
= 0.142857
7
om aan te geven dat het blok 142857 steeds herhaald wordt in de decimale ontwikkeling van 1/7. De verklaring voor deze periodiciteit bestaat uit het feit dat
1
142857
= 6
7
10 − 1
en
1
= 10−6 + 10−12 + 10−18 + · · ·
−1
Dit laatste volgt uit de zogenaamde meetkundige reeks
106
1
= 1 + x + x2 + x3 + · · ·
1−x
welke geldt voor alle x ∈ R met |x| < 1. Vermenigvuldigen we dit aan beide
zijden met x en vullen we vervolgens x = 10−6 in, dan krijgen we bovenstaande
ontwikkeling voor 1/(106 − 1). Vermenigvuldigen we deze reeksontwikkeling ook
nog eens met 142857, dan krijgen we,
1
142857
= 6
= 142857 · 10−6 + 142857 · 10−12 + · · ·
7
10 − 1
10.2. PERIODIEKE BREUKEN
77
Dit impliceert dat 1/7 = 0.142857.
Niet alle decimale ontwikkelingen van breuken zijn periodiek vanaf het decimaalteken. Bijvoorbeeld 18 = 0.125 breekt zelfs af. In dat geval zeggen we toch dat de
decimale ontwikkeling periodiek is omdat we vanaf de decimaal 5 een periodieke
rij nullen hebben, 1/8 = 0.12500000 · · · = 0.1250. Een ander voorbeeld is
373
= 0.88809523809523809 · · · = 0.88809523.
420
De periode 809523 begint hier dus pas na de eerste twee decimalen 8. Het feit dat
decimale ontwikkelingen van een breuk p/q niet meteen vanaf het decimaalteken
periodiek hoeven zijn, heeft te maken met het feit dat ggd(q, 10) > 1 in deze
gevallen. Met andere woorden, q bevat factoren 2 of 5, of beide.
Een decimale ontwikkeling van een re¨eel getal noemen we periodiek als vanaf zekere decimaal de decimalen zich periodiek herhalen. We noemen de ontwikkeling
zuiver periodiek als de periodiciteit vanaf het decimaalteken begint. Onder een
periode van een periodieke ontwikkeling verstaan we de lengte van een blok dat
steeds herhaald wordt. De minimale periode is de kortst mogelijke periode. Zo
heeft de ontwikkeling van 1/7 periode 6, maar 12 is ook een periode omdat het
dubbele blok 142857142857 steeds herhaald wordt. De minimale periode heeft de
eigenschap dat hij iedere andere periode deelt.
Het zal duidelijk zijn dat we dit ook kunnen doen voor andere breuken p/q. Het
idee bestaat eruit dat we p/q herschrijven als een breuk waarvan de noemer de
gedaante 10l − 1 heeft. Dit kan alleen als er een l is, zo dat 10l ≡ 1 (mod q). Het
mooie is dat een dergelijk getal l ons wordt gegeven door de Stelling van Euler
(Stelling 7.2.1) als ggd(10, q) = 1.
Laten we dus beginnen met een breuk p/q met p, q ∈ N en ggd(10, q) = 1. Kies
r zo dat 10r ≡ 1 (mod q) en stel p/q = A + a/q met A ∈ Z≥0 en 0 ≤ a < q. Stel
N = a · (10r − 1)/q. Dan geldt 0 ≤ N < 10r − 1 en
N
p
=A+ r
.
q
10 − 1
Ontwikkel nu 1/(10r − 1) in de reeks 10−r + 10−2r + · · · Na vermenigvuldiging
met N krijgen we,
p
= A + N · 10−r + N · 10−2r + · · ·
q
Het blok cijfers van N wordt dus periodiek herhaald met periode r en we zien
dat p/q zelf een zuiver periodieke ontwikkeling heeft.
Wat gebeurt er als ggd(q, 10) > 1 ? In dat geval bestaat er een macht 10k zo dat de
noemer van 10k p/q geen factoren twee of vijf meer bevat. Volgens het voorgaande
is decimale ontwikkeling van 10k p/q dan zuiver periodiek. Delen we weer door
10k dan verschuiven de decimalen van 10k p/q naar rechts over een afstand k ten
78
HOOFDSTUK 10. DECIMALE ONTWIKKELING
opzichte van het decimaalteken. Als gevolg daarvan hoeft de ontwikkeling van
p/q niet meer zuiver periodiek te zijn, maar is nog wel periodiek.
Stel omgekeerd dat we een zuiver periodieke decimale ontwikkeling voor een getal
α ∈ R>0 hebben met periode l. Dan zijn er A, N ∈ Z≥0 zo dat
α = A + N · 10−l + N · 10−2l + · · ·
Hierbij wordt A gevormd door de cijfers voor het decimaaltekenn en N door de
l cijfers van het periodieke blok. Sommatie van de rechterzijde geeft
α=A+
N
−1
10l
en we zien dat α ∈ Q met een noemer die 10l − 1 deelt. In het bijzonder betekent
dit de noemer van α geen factoren 2 of 5 bevat.
Stel nu dat we een α ∈ R>0 met een periodieke decimale ontwikkeling hebben.
Door vermenigvuldiging met een geschikte macht 10k kunnen we ervoor zorgen
dat 10k α zuiver periodiek is. Uit het voorgaande volgt dat 10k α ∈ Q en dus ook,
α ∈ Q.
Samenvattend hebben we nu de eerste twee onderdelen van de volgende stelling
bewezen.
Stelling 10.2.1 Zij α ∈ R>0 . Dan geldt,
1. De decimale ontwikkeling van α is periodiek ⇐⇒ α ∈ Q
2. De decimale ontwikkeling van α is zuiver periodiek ⇐⇒ α ∈ Q en de
noemer van α bevat geen factoren 2 of 5.
Stel dat α ∈ Q en dat de noemer van de vorm 2a 5b q is met ggd(q, 10) = 1. Dan
is de minimale periode van de decimale ontwikkeling van α gelijk aan ordq (10),
de multiplicatieve orde van de restklasse 10 (mod q).
Om het laatste deel van de stelling in te zien gaan we even terug naar het bewijs
van de voorgaande onderdelen. Zij l de kortste periode en r = ordq (10). Uit het
eerste deel van het bewijs volgt dat r een periode van de ontwikkeling is. Dus
geldt l|r. Uit het tweede deel van het bewijs volgt dat het getal q een deler moet
zijn van 10l − 1. Uit Lemma 7.3.1 volgt dan r|l. We concluderen dat l = r. ✷
We hebben in deze paragraaf alleen het decimale stelsel behandeld. Het zal
duidelijk zijn dat een soortgelijk verhaal ook voor andere getalstelsels gehouden
kan worden.
10.3. NORMALE GETALLEN
10.3
79
Normale getallen
Een aardige vraag om iemands gevoel voor getallen te testen is in hoeveel procent
van de Nederlandse telefoonnummers g´e´en 5 voorkomt. De eerste gedachte die
men zou kunnen hebben is dat er tien mogelijke cijfers zijn, dus 10 procent van
de getallen bevat een 5. Een gok zou dus zijn dat 90 procent van de getallen geen
5 bevat. Klopt dit? Laten we eens iets preciezer kijken. Aangezien het lastig is
alle telefoonboeken door te nemen, kijken we naar het analoge probleem van het
aantal getallen van 9 cijfers die geen 5 bevatten (de nul die aan telefoonnummers
vooraf gaat laten we buiten beschouwing). Het totale aantal getallen van 9 cijfers
is 109 − 108 = 9 · 108 . Het aantal getallen dat geen 5 bevat is 8 · 9 · · · · 9 = 8 · 98 =
344373768. Immers voor het eerste cijfer hebben we de acht mogelijke cijfers
= 0, 5 en voor elk volgende cijfer negen mogelijkheden = 5. Het percentage is
dus 100% × 8 · 98 /(9 · 108 ) = 38.2 . . . %. Dit is veel minder dan onze eerste gissing
van 90%.
Het wordt nog veel erger als we getallen van k cijfers bekijken met k > 9. Het
aantal getallen van k cijfers is gelijk aan 9 · 10k−1 . De verzameling getallen van k
cijfers zonder 5 is gelijk aan 8 · 9k−1 . De verhouding is (8/9)(9/10)k−1 < 0.9k−1 .
Deze fractie gaat naar nul als k naar oneindig gaat. Deze beschouwing motiveert
de volgende stelling.
Stelling 10.3.1 . Kies een decimaal b ∈ {0, 1, . . . , 9}. Zij D(b, N ) het aantal
getallen ≤ N dat geen b in zijn decimale schrijfwijze bevat. Dan geldt,
D(b, N )
=0
N →∞
N
lim
We zeggen dat de verzameling getallen die geen b in hun decimale voorstelling
bevatten, dichtheid nul heeft in N.
Na onze voorbereidingen is de stelling niet moeilijk in te zien. Stel dat N uit
k cijfers bestaat. In het bijzonder impliceert dit dat 10k−1 ≤ N < 10k . Verder
geldt natuurlijk D(b, N ) ≤ D(b, 10k − 1). We weten dat D(b, 10k − 1) gelijk is
aan het aantal getallen van k cijfers waarin de b ontbreekt plus alle getallen van
k − 1 cijfers waarin de b ontbreekt, enzovoorts. Dus,
D(b, 10k − 1) ≤ 9k + 9k−1 + · · · + 9 + 1 = (9k+1 − 1)/8 < 9k+1
Verder weten we ook dat N ≥ 10k−1 . Dus,
D(b, 10k − 1)
9k+1
D(b, N )
≤
≤
N
10k−1
10k−1
Het laatste quotient gaat naar nul als k → ∞. Hieruit volgt onze stelling.
✷
We kunnen zelfs iets verder gaan. Met de functie f (b, n) geven we het aantal
malen dat b als decimaal in n voorkomt gedeeld door het totale aantal decimalen
van n. Dan geldt de volgende stelling.
80
HOOFDSTUK 10. DECIMALE ONTWIKKELING
Stelling 10.3.2 Zij
getallen n ∈ N met
> 0 en b ∈ {0, 1, 2, . . . , 9}. Dan heeft de verzameling
|f (b, n) − 0.1| >
dichtheid 0 in N.
De stelling zegt dus dat, op een verzameling van dichtheid nul na, alle getallen
ongeveer 10% nullen, 10% enen, 10% twee¨en, etc. bevatten. Het bewijs van deze
stelling is niet heel moeilijk maar vereist wel enig technisch rekenwerk. Daarom
geven we hier geen bewijs.
Direct in het verlengde van dit soort problemen ligt het begrip normaal getal.
Beschouw een getal α ∈ R en zijn decimale schrijfwijze. Met C(b, n) geven we
het aantal cijfers b in de eerste n decimalen achter het decimaalteken. We zeggen
dat α normaal is als C(b, n)/n → 0.1 als n → ∞ voor elke b ∈ {0, 1, 2, . . . , 9}.
Het is niet zo moeilijk getallen op te schrijven die niet normaal zijn, bijvoorbeeld
0.1111111 . . .. Het blijkt echter, op grond van soortgelijke telargumenten als
hierboven, dat het merendeel van de re¨ele getallen normaal is.
Stelling 10.3.3 De verzameling normale getallen in het interval [0, 1] heeft maat
1.
We willen hier ook niet ingaan op het begrip (Lebesgue)-maat. Voor onze doeleinden moeten we maar volstaan met de mededeling dat een deelverzameling van
maat 1 in zekere zin ‘bijna’ het hele interval [0, 1]. Hoewel dus bijna alle getallen
normaal zijn is het niet makkelijk voorbeelden te vinden. E´en voorbeeld zou zijn
de repeterende breuk 0.1234567890. Zoals we weten is dit een rationaal getal.
Een niet-rationaal normaal getal opschrijven is lastiger. Een (gekunsteld) voorbeeld is het getal dat we krijgen door achter het decimaalteken de rij natuurlijke
getallen op te schrijven,
0.12345678910111213141516 . . .
Bewijzen dat dit een normaal getal is, is echter niet makkelijk. Probeer het maar!
Van de natuurlijk voorkomende irrationale getallen, zoals, π en e is het absoluut
niet bekend of ze normaal zijn of niet. Waarschijnlijk wel, maar niemand heeft
enig idee hoe dit aangetoond moet worden.
10.4
Kunstjes met decimalen
In veel probleemverzamelingen die over getallen gaan komen we problemen van
de volgende soort tegen. Bestaan er kwadraten waarvan de cijfers alleen uit
nullen en enen bestaan? Kan een getal van de vorm 11111 . . . 111 een zuivere
macht zijn (d.w.z. van de vorm an met n ≥ 2). Zijn er getallen waarvan het
kwadraat van de som van de cijfers gelijk is aan zichzelf, enzovoorts. Dergelijke
10.4. KUNSTJES MET DECIMALEN
81
problemen gaan weliswaar over gehele getallen, maar het is ook duidelijk dat het
antwoord afhangt van de manier waarop ze opgeschreven worden, in dit geval de
decimale representatie. Deze vraagstellingen hebben dus geen betrekking op de
intrinsieke eigenschappen van getallen. Intrinsieke eigenschappen zijn die eigenschappen welke niet afhangen van de manier waarop we een getal opschrijven. In
de getaltheorie is men voornamelijk ge¨ınteresseerd in intrinsieke eigenschappen
en men is niet vaak geneigd om vragen die met decimale representaties te maken
hebben erg serieus te nemen. Met deze waarschuwing in het achterhoofd is het
echter toch vermakelijk om eens naar een paar problemen met decimale cijfers te
kijken.
Bijvoorbeeld de vraag of er kwadraten zijn die alleen enen en nullen in hun
decimale voorstelling hebben. We laten daarbij kwadraten van de vorm 102k
buiten beschouwing. Het lijkt zeer onwaarschijnlijk dat dergelijke kwadraten
bestaan, maar ik geloof niet dat iemand daar enig bewijs voor heeft.
Een andere, heel fraaie, observatie is afkomstig van H.W.Lenstra. Merk namelijk
op dat
122 + 332 = 1233
Het is mogelijk om dit soort voorbeelden op systematische manier te genereren.
Een indrukwekkend voorbeeld,
18261478122 + 38635038882 = 18261478123863503888
Het idee om dergelijke voorbeelden te maken gaat als volgt. Stel we willen twee
getallen a, b van k cijfers zodat a2 +b2 een getal geeft waarvan de cijfers precies die
van a en b achter elkaar gezet zijn. Hiertoe moeten we de vergelijking a2 + b2 =
10k a + b oplossen in natuurlijke getallen < 10k . Vermenigvuldiging met 4 en
kwadraat afsplitsen geeft (10k − 2a)2 + (2b − 1)2 = 102k + 1. We moeten het
getal 102k + 1 dus zien te schrijven als som van twee kwadraten. In Hoofdstuk 12
leren we hoe dat moet. We zien daarbij ook dat we het getal 102k + 1 in factoren
moeten ontbinden. We laten het aan de lezer over om de details hiervan uit te
werken.
Aangemoedigd door dit succes kunnen we ook naar drietallen a, b, c zoeken zo
dat a3 + b3 + c3 gelijk is aan een getal waarvan de cijfers bestaan uit de cijfers
van a, b, c achter elkaar gezet. Een kleine zoekactie met de computer geeft de
voorbeelden
483 + 723 + 153 = 487215
983 + 283 + 273 = 982827
Het is me in dit geval totaal niet duidelijk of er een systematische manier is
om dergelijke voorbeelden te genereren. Voor vierde machten bestaan er ook
dergelijke voorbeelden,
14 + 64 + 34 + 44 = 1634,
94 + 44 + 74 + 44 = 9474
82
HOOFDSTUK 10. DECIMALE ONTWIKKELING
en waarschijnlijk kunnen we zo nog wel een tijdje doorgaan. En wat te zeggen
van zaken als,
17210368 = (1 + 7 + 2 + 1 + 0 + 3 + 6 + 8)5
612220032 = (6 + 1 + 2 + 2 + 2 + 0 + 0 + 3 + 2)7 .
Men ziet dat het makkelijk is om zichzelf te verliezen in dit soort spelletjes. Men
moet daarbij wel steeds bedenken dat dit getallenspelletjes zijn die meestal niet
tot serieuze getaltheorie leiden.
Als laatste noemen we de vraag of een getal waarvan alle cijfers hetzelfde zijn
een zuivere macht kan zijn, dat wil zeggen van de vorm an met n ≥ 2. Een
getal dat uit k cijfers b bestaat heeft de waarde b(10k − 1)/9. We moeten dus de
vergelijking
b(10k − 1) = 9an
in de onbekende gehele getallen a, k, n oplossen voor b = 1, 2, . . . , 9. Het zal
duidelijk zijn dat deze vraag alleen interessant is als ons getal uit minstens twee
cijfers bestaat, dus k ≥ 2, hetgeen we nu maar aannemen. In 1956 toonde Obl´ath
aan dat er geen oplossingen zijn als 1 < b. Het overblijvende geval b = 1 is veel
lastiger en daarvoor lieten Bugeaud en Mignotte zien dat er geen oplossingen zijn
in 1999.
Obl´ath’s methode bestaat eruit dat hij de vergelijking b(10k − 1) = 9an voor
elke specifieke waarde van b beschouwde en deze terugbracht tot een andere diophantische vergelijking welke met technieken uit 1956 op te lossen was. E´en van
de eenvoudigste gevallen is b = 9 en die zullen we hier aanpakken. In dit geval
moeten we 10k − 1 = an oplossen met a, n ≥ 2. Neem eerst n = 2. Omdat a
oneven is geldt a2 ≡ 1 (mod 4). Dus, 10k − 1 ≡ 1 (mod 4), ofwel 10k ≡ 2 (mod 4).
Als k ≥ 2 dan geldt 10k ≡ 0 (mod 4) en hebben we een tegenspraak. Dus k = 1
en de oplossing 9 is evident. Doordat 10k − 1 alleen een kwadraat is als k = 1 is
de vergelijking 10k − 1 = an nu ook meteen voor alle even n opgelost.
Stel nu dat n een oneven getal is. We mogen aannemen dat k ≥ 2. Merk op dat
an + 1
= an−1 − an−2 + · · · − a + 1 ≡ n ≡ 1 (mod 2),
a+1
dus (an + 1)/(a + 1) is oneven. Omdat an + 1 = 10k volgt hieruit dat a + 1
deelbaar is door 2k . In het bijzonder, a ≥ 2k − 1. Gecombineerd met 10k − 1 = an
geeft dit de ongelijkheid n < log(10k − 1)/ log(2k − 1). Omdat k ≥ 2 is de laatste
uitdrukking kleiner of gelijk log(99)/ log(3) < 5. Dus n = 3. Verder geldt dat
a3 + 1 deelbaar is doorv5k . Omdat (a3 + 1)/(a + 1) = a2 − a + 1 voor geen enkele
a deelbaar is door 5 (check a = 0, 1, 2, 3, 4) volgt dat 5k een deler is van a + 1 en
dus a ≥ 5k − 1. Samen met 10k − 1 = a3 geeft dit 10k − 1 ≥ (5k − 1)3 . We zien
gemakkelijk dat dit niet kan als k ≥ 2.
✷
10.5. DE WET VAN BENFORD
10.5
83
De wet van Benford
Deze paragraaf gaat over een opmerkelijke observatie die in 1881 al door de
astronoom S.Newcombe werd gedaan, maar die nu bekend staat als de wet van
Benford. Frank Benford bestudeerde rond 1938 een groot aantal voorbeelden van
teksten en tabellen waarin hij een telling bijhield van het meest significante cijfer
dat in elk getal in de tekst voorkwam. Bijvoorbeeld, voor de getallen 12 en 14.56
is 1 het significante cijfer, voor 0.0023 is dat een 2. Men zou verwachten dat elk
cijfer ongeveer even vaak voorkomt. Het tegendeel bleek echter waar. Benford
merkte op dat in ongeveer 30% van de getallen 1 het meest significante cijfer
is, in 17% van de getallen is dat 2, en voor de overige cijfers vond Benford een
steeds kleiner percentage. Het vermoeden van Benford is dat de fractie van de
getallen in een willekeurige tekst met b als meest significant cijfer gelijk is aan
log10 (b + 1) − log10 (b). Hier is een tabel met deze getallen,
1
b
log10 (b + 1) − log10 b .301
2
.176
3
.125
4
.097
5
.079
6
.067
7
.058
8
.051
9
.046
In deze tabel en in volgende tabellen schrijven we van de decimale getallen alleen
de drie eerste cijfers achter de komma op. Het is aardig om eens wat teksten te
nemen, daaruit de getallen te nemen, en Benford’s telling hierop los te laten. Het
is eenvoudig een computerprogramma hiervoor te maken dat van de significante
cijfers de score bijhoudt. Zie hier bijvoorbeeld de telling in het manuscript van
dit boek op dit moment,waarbij pagina-nummers en andere nummeringen zoals
hoofdstuknummering zijn weggelaten,
1
cijfer
aantal 4709
fractie .420
2
3327
.296
3
1177
.105
4
672
.060
5
330
.029
6
7
259 303
.023 .027
8
209
.018
9
221
.019
Deze verdeling wijkt af van wat we op grond van Benford zouden verwachten,
maar er zit toch een duidelijke tendens in. Er is zelfs een duidelijker voorkeur
voor kleine cijfers. Merkwaardig genoeg blijken andere verzamelingen teksten
over wiskunde, ook die van een aantal collegas van mij, een soortgelijke verdeling
te geven. Misschien zijn wiskunde (LaTeX) teksten niet representatief genoeg.
Als tweede voorbeeld heb ik de adresnummers van de wiskundigen in het bestand
van het Wiskundig Genootschap genomen,
cijfer
1
aantal 499
fractie .296
2
320
.190
3
203
.120
4
173
.102
5
142
.084
6
102
.060
7
102
.060
8
74
.043
9
68
.040
84
HOOFDSTUK 10. DECIMALE ONTWIKKELING
Dit lijkt er wat beter op, per slot van rekening zijn huisnummers wat alledaagser
gegevens dan wiskunde teksten. Als volgende voorbeeld heb ik een deel van de
boekhouding van het Wiskundig Genootschap genomen,
cijfer
1
aantal 479
fractie .304
2
335
.213
3
217
.138
4
130
.082
5
91
.057
6
98
.062
7
88
.055
8
78
.049
9
56
.035
Boekhoudingen zijn blijkbaar ook alledaagse dingen. Tenslotte is hier de statistiek van de file-lengtes in bytes van alle bestanden die in de /usr directory van
ons computersysteem staan.
cijfer
1
aantal 481
fractie .318
2
255
.168
3
175
.115
4
131
.086
5
130
.086
6
111
.073
7
77
.050
8
84
.055
9
68
.045
In al onze bovenstaande voorbeelden komen in ieder geval beduidend meer getallen voor die met 1 beginnen dan de 10% die men a priori zou verwachten.
Toegegeven, het is heel makkelijk om rijen getallen te maken die niet aan Benford’s wet voldoen. Het telefoonboek van Zeist, waar alle nummers met een zes
beginnen geeft uiteraard een ander beeld. Dit soort uitzonderingen maakt het
probleem ook ongrijpbaarder.
Talloze schrijvers, waaronder veel amateurs, hebben geprobeerd om een verklaring
voor dit verschijnsel te geven. Een aantal van hen zijn echter voorbijgegaan aan
de wijsheid dat het binnen de wiskunde zelf niet mogelijk is zo’n verklaring te
geven. Benford’s wet is immers een ervaringsfeit, en wel ´e´en die vaak opgaat, maar
lang niet altijd. Het enige dat we kunnen doen is een plausibele, voor iedereen
acceptabele, hypothese vinden over hoe getallen hun weg in teksten vinden en
vervolgens daaruit Benford’s wet afleiden. Als de hypothese aannemelijker of
eenvoudiger klinkt dan de wet zelf, dan hebben we al een aardige stap gemaakt.
E´en van deze hypothesen is de zogenaamde schalingsinvariantie. Als Benford’s
wet bijvoorbeeld voor boekhoudingen zou opgaan dan mogen we verwachten dat
deze opgaat onafhankelijk van het feit of we onze bedragen opschrijven in Engelse
ponden, Amerikaanse dollars of euro’s. Met andere woorden, als we onze bedragen allen met hetzelfde willekeurig gekozen getal zouden vermenigvuldigen (dus
herschalen), dan moet dezelfde verdeling blijven gelden. Uit deze twee hypothesen, het bestaan van een verdeling en de schaalinvariantie, is het niet moeilijk
aan te tonen dat Benford’s wet geldt.
Men kan hier tegenin brengen dat bijvoorbeeld huisnummers in adressen, ook
´e´en van bovenstaande voorbeelden, helemaal niet herschaald kunnen worden.
Er is dus genoeg stof tot discussie en in de artikelen die ik over dit onderwerp
gezien heb, kon ik nog geen echt bevredigend argument vinden voor de wet van
10.5. DE WET VAN BENFORD
85
Benford. Voor de aardigheid wil ik hier een hypothese naar voren brengen waaruit
Benford’s wet volgt. De lezer is hierbij uitgenodigd de hypothese met argumenten
te ondersteunen of te ontkrachten. De hypothese gaat als volgt. We nemen aan
dat de getallen die in een tekst voorkomen gehele getallen zijn die tussen twee
getallen M en N liggen waarvan
√ we aannemen dat N heel groot is en M beduidend
kleiner, bijvoorbeeld M < N .
Hypothese: De relatieve kans dat een getal uit de tekst gelijk is aan x bedraagt
1/x.
Met relatieve kans bedoelen we dat de kansen om x respectievelijk y tegen te
komen zich verhouden als (1/x) : (1/y). De absolute kans dat zo’n getal gelijk is
aan x bedraagt dan (1/x)/S(M, N ) waarin S(M, N ) = (1/M + 1/(M + 1) + · · · +
1/N ). De som van de absolute kansen moet immers gelijk aan 1 zijn. Nogmaals,
men kan argumenten voor en tegen deze hypothese bedenken. Het enige dat we
hier gaan doen is Benford’s wet eruit afleiden.
Zij Pb de kans dat een getal uit onze tekst met het cijfer b begint. We gaan Pb
berekenen. Voor het gemak nemen we aan dat M = 1 en N = 10k . Het algemene
verhaal gaat in principe op dezelfde manier, het kost alleen wat meer schrijfwerk.
Omdat het hier slechts gaat om de afleiding van een ervaringsfeit uit een dubieuze
hypothese hoeven we ons er verder niet erg druk over te maken. Er geldt nu,
k−1
Pb =
r=0
1
1
1
+
+ ··· +
r
r
b · 10
b · 10 + 1
(b + 1) · 10r − 1
/S(1, 10k ).
Uit de Appendix weten we dat
1
1 1
+ + ··· +
= log(n) − γ + δ(n)
1 2
n−1
waarin δ(n) → 0 als n → ∞. Dit betekent dat
1
1
1
+
+ ··· +
= log((b + 1)10r ) − log(b · 10r ) + (r)
r
r
b · 10
b · 10 + 1
(b + 1) · 10r − 1
= log(1 + 1/b) + (r)
waarin (r) = δ((b + 1)10r ) − δ(b · 10r ). Merk op dat (r) → 0 als r → ∞. Verder
geldt dat
S(1, 10k ) = log(10k ) + δ(10k ).
En dus,
k log(1 + 1/b) + k−1
r=0 (r)
Pb =
k log 10 + δ(10k )
We hadden aangenomen dat N , en dus ook k, heel groot is. Laat daarom k → ∞
om te zien hoe de verdeling er in de limiet uitziet. Voor eindige waarden van k
86
HOOFDSTUK 10. DECIMALE ONTWIKKELING
of N zal de verdeling daar in de buurt komen liggen. Deel teller en noemer in
onze formule voor Pb door k en laat k → ∞. Ten eerste geldt
lim |δ(10k )|/k = 0
k→∞
Ten tweede geldt
k−1
lim
k→∞
(r) /k = 0
r=0
omdat het gemiddelde van een rij getallen die naar nul toe gaat zelf ook naar nul
gaat. In de limiet vinden we uiteindelijk,
Pb =
log(1 + 1/b)
= log10 (1 + 1/b).
log(10)
Dit is precies de verdeling van Benford.
Naast teksten uit de dagelijkse werkelijkheid nam Benford ook een aantal mathematisch geconstrueerde lijsten. Een voorbeeld is de rij machten van twee,
21 , 22 , 23 , . . . , 2r , . . .. Hiervan merkte Benford op dat de significante cijfers zich
nauwkeurig volgens zijn wet gedragen. Omdat het hier echter gaat om een mathematische rij, hebben we er een veel betere grip op en kunnen we Benford’s wet
in dit geval gewoon bewijzen. We hebben hier echter de gelijkverdelingstheorie
modulo 1 voor nodig, waardoor dit bewijs weer buiten het bestek van dit boek
valt.