Hoofdstuk 10 Decimale ontwikkeling 10.1 Inleiding Het huidige systeem om getallen te noteren stamt uit de Arabische tijd en staat bekend als het decimale getalstelsel. Zoals we weten geven de cijfers in een getal van achter naar voren gelezen het aantal eenheden, tientallen, honderdtallen, etc. aan dat het getal bevat. Met 657 bedoelen we bijvoorbeeld het getal 6 · 102 + 5 · 10 + 7. Ook hebben we decimale breuken leren kennen op school. Zo geeft 1.2354 de breuk 1 + 2 · 10−1 + 3 · 10−2 + 5 · 10−3 + 4 · 10−4 aan. Merk op dat ik hier de . gebruik voor het decimale teken in plaats van de decimale komma. Dat is een gewoonte die aansluit bij de internationale notatie. Ook hebben we oneindige decimale ontwikkelingen, bijvoorbeeld π = 3.141592653589793238462643383 . . . hetgeen correspondeert met een oneindige reeks 3 + 1 · 10−1 + 4 · 10−2 + . . .. Het aardige is dat we weten dat π oneindig veel decimalen heeft, maar dat we ze nooit allemaal zullen kennen. Momenteel (2008) zijn door indrukwekkende computerberekeningen de eerste twaalfhonderd miljard decimalen bekend (Kanada et al, 2002). In een filosofische bui zouden we ons kunnen afvragen wat nu twaalfhonderd miljard is in vergelijking met de oneindige oceaan van decimalen die nog volgt. De keuze van het basisgetal 10 in onze notatie is wiskundig gezien vrij willekeurig. Het heeft te maken met praktische overwegingen en het feit dat we op onze vingers tot tien kunnen tellen. Op computers is het veel prettiger om met binaire getallen te rekenen. In plaats van het basisgetal 10 neemt men het basisgetal 2 en in plaats van de cijfers 0, 1, 2, . . . , 9 gebruikt men de cijfers 0, 1. In computergeheugen worden deze cijfers gerepresenteerd door het feit dat er zich wel of geen elektrische lading in het geheugenbit bevindt. In het binaire of tweetallige stelsel zien de getallen 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, . . . er uit als 1, 10, 11, 100, 101, 110, 111, 1000, 1001, 1010, 1011, . . . 75 76 HOOFDSTUK 10. DECIMALE ONTWIKKELING In de informatica groepeert men de bits van het tweetallig stelsel liever in groepjes van vier en werkt men met het hexadecimale stelsel. Het basisgetal is dan 16 en de cijfers zijn 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F . Het getal 29 ziet er hexadecimaal uit als 1D. In principe houdt niets ons tegen om een willekeurig basisgetal B te kiezen en een verzameling VB van B symbolen om cijfers 0, 1, . . . , B−1 te representeren. Elk geheel getal kan dan gegeven worden door een uitdrukking van de vorm ak . . . a2 a1 a0 met a0 , . . . , ak ∈ VB . We bedoelen daar dan het getal a0 +a1 B +a2 B 2 +. . .+ak B k mee. Op soortgelijke manier kunnen we ook niet-gehele getallen representeren door B-tallige ontwikkelingen. Hoewel het goed is van deze mogelijkheid op de hoogte te zijn, zullen we hier verder niet te veel aandacht aan besteden. De theorie die in de komende paragrafen aan bod komt zal meestal gaan over het tientallig stelsel, hoewel voor andere getalstelsels even goed analoge resultaten gelden. 10.2 Periodieke breuken Het zal de meesten van ons ook bekend zijn dat de decimale ontwikkeling van veel breuken een periodiciteit vertoont. Bijvoorbeeld, 1 = 0.142857142857142857142857142857 . . . 7 hetgeen we afkorten met 1 = 0.142857 7 om aan te geven dat het blok 142857 steeds herhaald wordt in de decimale ontwikkeling van 1/7. De verklaring voor deze periodiciteit bestaat uit het feit dat 1 142857 = 6 7 10 − 1 en 1 = 10−6 + 10−12 + 10−18 + · · · −1 Dit laatste volgt uit de zogenaamde meetkundige reeks 106 1 = 1 + x + x2 + x3 + · · · 1−x welke geldt voor alle x ∈ R met |x| < 1. Vermenigvuldigen we dit aan beide zijden met x en vullen we vervolgens x = 10−6 in, dan krijgen we bovenstaande ontwikkeling voor 1/(106 − 1). Vermenigvuldigen we deze reeksontwikkeling ook nog eens met 142857, dan krijgen we, 1 142857 = 6 = 142857 · 10−6 + 142857 · 10−12 + · · · 7 10 − 1 10.2. PERIODIEKE BREUKEN 77 Dit impliceert dat 1/7 = 0.142857. Niet alle decimale ontwikkelingen van breuken zijn periodiek vanaf het decimaalteken. Bijvoorbeeld 18 = 0.125 breekt zelfs af. In dat geval zeggen we toch dat de decimale ontwikkeling periodiek is omdat we vanaf de decimaal 5 een periodieke rij nullen hebben, 1/8 = 0.12500000 · · · = 0.1250. Een ander voorbeeld is 373 = 0.88809523809523809 · · · = 0.88809523. 420 De periode 809523 begint hier dus pas na de eerste twee decimalen 8. Het feit dat decimale ontwikkelingen van een breuk p/q niet meteen vanaf het decimaalteken periodiek hoeven zijn, heeft te maken met het feit dat ggd(q, 10) > 1 in deze gevallen. Met andere woorden, q bevat factoren 2 of 5, of beide. Een decimale ontwikkeling van een re¨eel getal noemen we periodiek als vanaf zekere decimaal de decimalen zich periodiek herhalen. We noemen de ontwikkeling zuiver periodiek als de periodiciteit vanaf het decimaalteken begint. Onder een periode van een periodieke ontwikkeling verstaan we de lengte van een blok dat steeds herhaald wordt. De minimale periode is de kortst mogelijke periode. Zo heeft de ontwikkeling van 1/7 periode 6, maar 12 is ook een periode omdat het dubbele blok 142857142857 steeds herhaald wordt. De minimale periode heeft de eigenschap dat hij iedere andere periode deelt. Het zal duidelijk zijn dat we dit ook kunnen doen voor andere breuken p/q. Het idee bestaat eruit dat we p/q herschrijven als een breuk waarvan de noemer de gedaante 10l − 1 heeft. Dit kan alleen als er een l is, zo dat 10l ≡ 1 (mod q). Het mooie is dat een dergelijk getal l ons wordt gegeven door de Stelling van Euler (Stelling 7.2.1) als ggd(10, q) = 1. Laten we dus beginnen met een breuk p/q met p, q ∈ N en ggd(10, q) = 1. Kies r zo dat 10r ≡ 1 (mod q) en stel p/q = A + a/q met A ∈ Z≥0 en 0 ≤ a < q. Stel N = a · (10r − 1)/q. Dan geldt 0 ≤ N < 10r − 1 en N p =A+ r . q 10 − 1 Ontwikkel nu 1/(10r − 1) in de reeks 10−r + 10−2r + · · · Na vermenigvuldiging met N krijgen we, p = A + N · 10−r + N · 10−2r + · · · q Het blok cijfers van N wordt dus periodiek herhaald met periode r en we zien dat p/q zelf een zuiver periodieke ontwikkeling heeft. Wat gebeurt er als ggd(q, 10) > 1 ? In dat geval bestaat er een macht 10k zo dat de noemer van 10k p/q geen factoren twee of vijf meer bevat. Volgens het voorgaande is decimale ontwikkeling van 10k p/q dan zuiver periodiek. Delen we weer door 10k dan verschuiven de decimalen van 10k p/q naar rechts over een afstand k ten 78 HOOFDSTUK 10. DECIMALE ONTWIKKELING opzichte van het decimaalteken. Als gevolg daarvan hoeft de ontwikkeling van p/q niet meer zuiver periodiek te zijn, maar is nog wel periodiek. Stel omgekeerd dat we een zuiver periodieke decimale ontwikkeling voor een getal α ∈ R>0 hebben met periode l. Dan zijn er A, N ∈ Z≥0 zo dat α = A + N · 10−l + N · 10−2l + · · · Hierbij wordt A gevormd door de cijfers voor het decimaaltekenn en N door de l cijfers van het periodieke blok. Sommatie van de rechterzijde geeft α=A+ N −1 10l en we zien dat α ∈ Q met een noemer die 10l − 1 deelt. In het bijzonder betekent dit de noemer van α geen factoren 2 of 5 bevat. Stel nu dat we een α ∈ R>0 met een periodieke decimale ontwikkeling hebben. Door vermenigvuldiging met een geschikte macht 10k kunnen we ervoor zorgen dat 10k α zuiver periodiek is. Uit het voorgaande volgt dat 10k α ∈ Q en dus ook, α ∈ Q. Samenvattend hebben we nu de eerste twee onderdelen van de volgende stelling bewezen. Stelling 10.2.1 Zij α ∈ R>0 . Dan geldt, 1. De decimale ontwikkeling van α is periodiek ⇐⇒ α ∈ Q 2. De decimale ontwikkeling van α is zuiver periodiek ⇐⇒ α ∈ Q en de noemer van α bevat geen factoren 2 of 5. Stel dat α ∈ Q en dat de noemer van de vorm 2a 5b q is met ggd(q, 10) = 1. Dan is de minimale periode van de decimale ontwikkeling van α gelijk aan ordq (10), de multiplicatieve orde van de restklasse 10 (mod q). Om het laatste deel van de stelling in te zien gaan we even terug naar het bewijs van de voorgaande onderdelen. Zij l de kortste periode en r = ordq (10). Uit het eerste deel van het bewijs volgt dat r een periode van de ontwikkeling is. Dus geldt l|r. Uit het tweede deel van het bewijs volgt dat het getal q een deler moet zijn van 10l − 1. Uit Lemma 7.3.1 volgt dan r|l. We concluderen dat l = r. ✷ We hebben in deze paragraaf alleen het decimale stelsel behandeld. Het zal duidelijk zijn dat een soortgelijk verhaal ook voor andere getalstelsels gehouden kan worden. 10.3. NORMALE GETALLEN 10.3 79 Normale getallen Een aardige vraag om iemands gevoel voor getallen te testen is in hoeveel procent van de Nederlandse telefoonnummers g´e´en 5 voorkomt. De eerste gedachte die men zou kunnen hebben is dat er tien mogelijke cijfers zijn, dus 10 procent van de getallen bevat een 5. Een gok zou dus zijn dat 90 procent van de getallen geen 5 bevat. Klopt dit? Laten we eens iets preciezer kijken. Aangezien het lastig is alle telefoonboeken door te nemen, kijken we naar het analoge probleem van het aantal getallen van 9 cijfers die geen 5 bevatten (de nul die aan telefoonnummers vooraf gaat laten we buiten beschouwing). Het totale aantal getallen van 9 cijfers is 109 − 108 = 9 · 108 . Het aantal getallen dat geen 5 bevat is 8 · 9 · · · · 9 = 8 · 98 = 344373768. Immers voor het eerste cijfer hebben we de acht mogelijke cijfers = 0, 5 en voor elk volgende cijfer negen mogelijkheden = 5. Het percentage is dus 100% × 8 · 98 /(9 · 108 ) = 38.2 . . . %. Dit is veel minder dan onze eerste gissing van 90%. Het wordt nog veel erger als we getallen van k cijfers bekijken met k > 9. Het aantal getallen van k cijfers is gelijk aan 9 · 10k−1 . De verzameling getallen van k cijfers zonder 5 is gelijk aan 8 · 9k−1 . De verhouding is (8/9)(9/10)k−1 < 0.9k−1 . Deze fractie gaat naar nul als k naar oneindig gaat. Deze beschouwing motiveert de volgende stelling. Stelling 10.3.1 . Kies een decimaal b ∈ {0, 1, . . . , 9}. Zij D(b, N ) het aantal getallen ≤ N dat geen b in zijn decimale schrijfwijze bevat. Dan geldt, D(b, N ) =0 N →∞ N lim We zeggen dat de verzameling getallen die geen b in hun decimale voorstelling bevatten, dichtheid nul heeft in N. Na onze voorbereidingen is de stelling niet moeilijk in te zien. Stel dat N uit k cijfers bestaat. In het bijzonder impliceert dit dat 10k−1 ≤ N < 10k . Verder geldt natuurlijk D(b, N ) ≤ D(b, 10k − 1). We weten dat D(b, 10k − 1) gelijk is aan het aantal getallen van k cijfers waarin de b ontbreekt plus alle getallen van k − 1 cijfers waarin de b ontbreekt, enzovoorts. Dus, D(b, 10k − 1) ≤ 9k + 9k−1 + · · · + 9 + 1 = (9k+1 − 1)/8 < 9k+1 Verder weten we ook dat N ≥ 10k−1 . Dus, D(b, 10k − 1) 9k+1 D(b, N ) ≤ ≤ N 10k−1 10k−1 Het laatste quotient gaat naar nul als k → ∞. Hieruit volgt onze stelling. ✷ We kunnen zelfs iets verder gaan. Met de functie f (b, n) geven we het aantal malen dat b als decimaal in n voorkomt gedeeld door het totale aantal decimalen van n. Dan geldt de volgende stelling. 80 HOOFDSTUK 10. DECIMALE ONTWIKKELING Stelling 10.3.2 Zij getallen n ∈ N met > 0 en b ∈ {0, 1, 2, . . . , 9}. Dan heeft de verzameling |f (b, n) − 0.1| > dichtheid 0 in N. De stelling zegt dus dat, op een verzameling van dichtheid nul na, alle getallen ongeveer 10% nullen, 10% enen, 10% twee¨en, etc. bevatten. Het bewijs van deze stelling is niet heel moeilijk maar vereist wel enig technisch rekenwerk. Daarom geven we hier geen bewijs. Direct in het verlengde van dit soort problemen ligt het begrip normaal getal. Beschouw een getal α ∈ R en zijn decimale schrijfwijze. Met C(b, n) geven we het aantal cijfers b in de eerste n decimalen achter het decimaalteken. We zeggen dat α normaal is als C(b, n)/n → 0.1 als n → ∞ voor elke b ∈ {0, 1, 2, . . . , 9}. Het is niet zo moeilijk getallen op te schrijven die niet normaal zijn, bijvoorbeeld 0.1111111 . . .. Het blijkt echter, op grond van soortgelijke telargumenten als hierboven, dat het merendeel van de re¨ele getallen normaal is. Stelling 10.3.3 De verzameling normale getallen in het interval [0, 1] heeft maat 1. We willen hier ook niet ingaan op het begrip (Lebesgue)-maat. Voor onze doeleinden moeten we maar volstaan met de mededeling dat een deelverzameling van maat 1 in zekere zin ‘bijna’ het hele interval [0, 1]. Hoewel dus bijna alle getallen normaal zijn is het niet makkelijk voorbeelden te vinden. E´en voorbeeld zou zijn de repeterende breuk 0.1234567890. Zoals we weten is dit een rationaal getal. Een niet-rationaal normaal getal opschrijven is lastiger. Een (gekunsteld) voorbeeld is het getal dat we krijgen door achter het decimaalteken de rij natuurlijke getallen op te schrijven, 0.12345678910111213141516 . . . Bewijzen dat dit een normaal getal is, is echter niet makkelijk. Probeer het maar! Van de natuurlijk voorkomende irrationale getallen, zoals, π en e is het absoluut niet bekend of ze normaal zijn of niet. Waarschijnlijk wel, maar niemand heeft enig idee hoe dit aangetoond moet worden. 10.4 Kunstjes met decimalen In veel probleemverzamelingen die over getallen gaan komen we problemen van de volgende soort tegen. Bestaan er kwadraten waarvan de cijfers alleen uit nullen en enen bestaan? Kan een getal van de vorm 11111 . . . 111 een zuivere macht zijn (d.w.z. van de vorm an met n ≥ 2). Zijn er getallen waarvan het kwadraat van de som van de cijfers gelijk is aan zichzelf, enzovoorts. Dergelijke 10.4. KUNSTJES MET DECIMALEN 81 problemen gaan weliswaar over gehele getallen, maar het is ook duidelijk dat het antwoord afhangt van de manier waarop ze opgeschreven worden, in dit geval de decimale representatie. Deze vraagstellingen hebben dus geen betrekking op de intrinsieke eigenschappen van getallen. Intrinsieke eigenschappen zijn die eigenschappen welke niet afhangen van de manier waarop we een getal opschrijven. In de getaltheorie is men voornamelijk ge¨ınteresseerd in intrinsieke eigenschappen en men is niet vaak geneigd om vragen die met decimale representaties te maken hebben erg serieus te nemen. Met deze waarschuwing in het achterhoofd is het echter toch vermakelijk om eens naar een paar problemen met decimale cijfers te kijken. Bijvoorbeeld de vraag of er kwadraten zijn die alleen enen en nullen in hun decimale voorstelling hebben. We laten daarbij kwadraten van de vorm 102k buiten beschouwing. Het lijkt zeer onwaarschijnlijk dat dergelijke kwadraten bestaan, maar ik geloof niet dat iemand daar enig bewijs voor heeft. Een andere, heel fraaie, observatie is afkomstig van H.W.Lenstra. Merk namelijk op dat 122 + 332 = 1233 Het is mogelijk om dit soort voorbeelden op systematische manier te genereren. Een indrukwekkend voorbeeld, 18261478122 + 38635038882 = 18261478123863503888 Het idee om dergelijke voorbeelden te maken gaat als volgt. Stel we willen twee getallen a, b van k cijfers zodat a2 +b2 een getal geeft waarvan de cijfers precies die van a en b achter elkaar gezet zijn. Hiertoe moeten we de vergelijking a2 + b2 = 10k a + b oplossen in natuurlijke getallen < 10k . Vermenigvuldiging met 4 en kwadraat afsplitsen geeft (10k − 2a)2 + (2b − 1)2 = 102k + 1. We moeten het getal 102k + 1 dus zien te schrijven als som van twee kwadraten. In Hoofdstuk 12 leren we hoe dat moet. We zien daarbij ook dat we het getal 102k + 1 in factoren moeten ontbinden. We laten het aan de lezer over om de details hiervan uit te werken. Aangemoedigd door dit succes kunnen we ook naar drietallen a, b, c zoeken zo dat a3 + b3 + c3 gelijk is aan een getal waarvan de cijfers bestaan uit de cijfers van a, b, c achter elkaar gezet. Een kleine zoekactie met de computer geeft de voorbeelden 483 + 723 + 153 = 487215 983 + 283 + 273 = 982827 Het is me in dit geval totaal niet duidelijk of er een systematische manier is om dergelijke voorbeelden te genereren. Voor vierde machten bestaan er ook dergelijke voorbeelden, 14 + 64 + 34 + 44 = 1634, 94 + 44 + 74 + 44 = 9474 82 HOOFDSTUK 10. DECIMALE ONTWIKKELING en waarschijnlijk kunnen we zo nog wel een tijdje doorgaan. En wat te zeggen van zaken als, 17210368 = (1 + 7 + 2 + 1 + 0 + 3 + 6 + 8)5 612220032 = (6 + 1 + 2 + 2 + 2 + 0 + 0 + 3 + 2)7 . Men ziet dat het makkelijk is om zichzelf te verliezen in dit soort spelletjes. Men moet daarbij wel steeds bedenken dat dit getallenspelletjes zijn die meestal niet tot serieuze getaltheorie leiden. Als laatste noemen we de vraag of een getal waarvan alle cijfers hetzelfde zijn een zuivere macht kan zijn, dat wil zeggen van de vorm an met n ≥ 2. Een getal dat uit k cijfers b bestaat heeft de waarde b(10k − 1)/9. We moeten dus de vergelijking b(10k − 1) = 9an in de onbekende gehele getallen a, k, n oplossen voor b = 1, 2, . . . , 9. Het zal duidelijk zijn dat deze vraag alleen interessant is als ons getal uit minstens twee cijfers bestaat, dus k ≥ 2, hetgeen we nu maar aannemen. In 1956 toonde Obl´ath aan dat er geen oplossingen zijn als 1 < b. Het overblijvende geval b = 1 is veel lastiger en daarvoor lieten Bugeaud en Mignotte zien dat er geen oplossingen zijn in 1999. Obl´ath’s methode bestaat eruit dat hij de vergelijking b(10k − 1) = 9an voor elke specifieke waarde van b beschouwde en deze terugbracht tot een andere diophantische vergelijking welke met technieken uit 1956 op te lossen was. E´en van de eenvoudigste gevallen is b = 9 en die zullen we hier aanpakken. In dit geval moeten we 10k − 1 = an oplossen met a, n ≥ 2. Neem eerst n = 2. Omdat a oneven is geldt a2 ≡ 1 (mod 4). Dus, 10k − 1 ≡ 1 (mod 4), ofwel 10k ≡ 2 (mod 4). Als k ≥ 2 dan geldt 10k ≡ 0 (mod 4) en hebben we een tegenspraak. Dus k = 1 en de oplossing 9 is evident. Doordat 10k − 1 alleen een kwadraat is als k = 1 is de vergelijking 10k − 1 = an nu ook meteen voor alle even n opgelost. Stel nu dat n een oneven getal is. We mogen aannemen dat k ≥ 2. Merk op dat an + 1 = an−1 − an−2 + · · · − a + 1 ≡ n ≡ 1 (mod 2), a+1 dus (an + 1)/(a + 1) is oneven. Omdat an + 1 = 10k volgt hieruit dat a + 1 deelbaar is door 2k . In het bijzonder, a ≥ 2k − 1. Gecombineerd met 10k − 1 = an geeft dit de ongelijkheid n < log(10k − 1)/ log(2k − 1). Omdat k ≥ 2 is de laatste uitdrukking kleiner of gelijk log(99)/ log(3) < 5. Dus n = 3. Verder geldt dat a3 + 1 deelbaar is doorv5k . Omdat (a3 + 1)/(a + 1) = a2 − a + 1 voor geen enkele a deelbaar is door 5 (check a = 0, 1, 2, 3, 4) volgt dat 5k een deler is van a + 1 en dus a ≥ 5k − 1. Samen met 10k − 1 = a3 geeft dit 10k − 1 ≥ (5k − 1)3 . We zien gemakkelijk dat dit niet kan als k ≥ 2. ✷ 10.5. DE WET VAN BENFORD 10.5 83 De wet van Benford Deze paragraaf gaat over een opmerkelijke observatie die in 1881 al door de astronoom S.Newcombe werd gedaan, maar die nu bekend staat als de wet van Benford. Frank Benford bestudeerde rond 1938 een groot aantal voorbeelden van teksten en tabellen waarin hij een telling bijhield van het meest significante cijfer dat in elk getal in de tekst voorkwam. Bijvoorbeeld, voor de getallen 12 en 14.56 is 1 het significante cijfer, voor 0.0023 is dat een 2. Men zou verwachten dat elk cijfer ongeveer even vaak voorkomt. Het tegendeel bleek echter waar. Benford merkte op dat in ongeveer 30% van de getallen 1 het meest significante cijfer is, in 17% van de getallen is dat 2, en voor de overige cijfers vond Benford een steeds kleiner percentage. Het vermoeden van Benford is dat de fractie van de getallen in een willekeurige tekst met b als meest significant cijfer gelijk is aan log10 (b + 1) − log10 (b). Hier is een tabel met deze getallen, 1 b log10 (b + 1) − log10 b .301 2 .176 3 .125 4 .097 5 .079 6 .067 7 .058 8 .051 9 .046 In deze tabel en in volgende tabellen schrijven we van de decimale getallen alleen de drie eerste cijfers achter de komma op. Het is aardig om eens wat teksten te nemen, daaruit de getallen te nemen, en Benford’s telling hierop los te laten. Het is eenvoudig een computerprogramma hiervoor te maken dat van de significante cijfers de score bijhoudt. Zie hier bijvoorbeeld de telling in het manuscript van dit boek op dit moment,waarbij pagina-nummers en andere nummeringen zoals hoofdstuknummering zijn weggelaten, 1 cijfer aantal 4709 fractie .420 2 3327 .296 3 1177 .105 4 672 .060 5 330 .029 6 7 259 303 .023 .027 8 209 .018 9 221 .019 Deze verdeling wijkt af van wat we op grond van Benford zouden verwachten, maar er zit toch een duidelijke tendens in. Er is zelfs een duidelijker voorkeur voor kleine cijfers. Merkwaardig genoeg blijken andere verzamelingen teksten over wiskunde, ook die van een aantal collegas van mij, een soortgelijke verdeling te geven. Misschien zijn wiskunde (LaTeX) teksten niet representatief genoeg. Als tweede voorbeeld heb ik de adresnummers van de wiskundigen in het bestand van het Wiskundig Genootschap genomen, cijfer 1 aantal 499 fractie .296 2 320 .190 3 203 .120 4 173 .102 5 142 .084 6 102 .060 7 102 .060 8 74 .043 9 68 .040 84 HOOFDSTUK 10. DECIMALE ONTWIKKELING Dit lijkt er wat beter op, per slot van rekening zijn huisnummers wat alledaagser gegevens dan wiskunde teksten. Als volgende voorbeeld heb ik een deel van de boekhouding van het Wiskundig Genootschap genomen, cijfer 1 aantal 479 fractie .304 2 335 .213 3 217 .138 4 130 .082 5 91 .057 6 98 .062 7 88 .055 8 78 .049 9 56 .035 Boekhoudingen zijn blijkbaar ook alledaagse dingen. Tenslotte is hier de statistiek van de file-lengtes in bytes van alle bestanden die in de /usr directory van ons computersysteem staan. cijfer 1 aantal 481 fractie .318 2 255 .168 3 175 .115 4 131 .086 5 130 .086 6 111 .073 7 77 .050 8 84 .055 9 68 .045 In al onze bovenstaande voorbeelden komen in ieder geval beduidend meer getallen voor die met 1 beginnen dan de 10% die men a priori zou verwachten. Toegegeven, het is heel makkelijk om rijen getallen te maken die niet aan Benford’s wet voldoen. Het telefoonboek van Zeist, waar alle nummers met een zes beginnen geeft uiteraard een ander beeld. Dit soort uitzonderingen maakt het probleem ook ongrijpbaarder. Talloze schrijvers, waaronder veel amateurs, hebben geprobeerd om een verklaring voor dit verschijnsel te geven. Een aantal van hen zijn echter voorbijgegaan aan de wijsheid dat het binnen de wiskunde zelf niet mogelijk is zo’n verklaring te geven. Benford’s wet is immers een ervaringsfeit, en wel ´e´en die vaak opgaat, maar lang niet altijd. Het enige dat we kunnen doen is een plausibele, voor iedereen acceptabele, hypothese vinden over hoe getallen hun weg in teksten vinden en vervolgens daaruit Benford’s wet afleiden. Als de hypothese aannemelijker of eenvoudiger klinkt dan de wet zelf, dan hebben we al een aardige stap gemaakt. E´en van deze hypothesen is de zogenaamde schalingsinvariantie. Als Benford’s wet bijvoorbeeld voor boekhoudingen zou opgaan dan mogen we verwachten dat deze opgaat onafhankelijk van het feit of we onze bedragen opschrijven in Engelse ponden, Amerikaanse dollars of euro’s. Met andere woorden, als we onze bedragen allen met hetzelfde willekeurig gekozen getal zouden vermenigvuldigen (dus herschalen), dan moet dezelfde verdeling blijven gelden. Uit deze twee hypothesen, het bestaan van een verdeling en de schaalinvariantie, is het niet moeilijk aan te tonen dat Benford’s wet geldt. Men kan hier tegenin brengen dat bijvoorbeeld huisnummers in adressen, ook ´e´en van bovenstaande voorbeelden, helemaal niet herschaald kunnen worden. Er is dus genoeg stof tot discussie en in de artikelen die ik over dit onderwerp gezien heb, kon ik nog geen echt bevredigend argument vinden voor de wet van 10.5. DE WET VAN BENFORD 85 Benford. Voor de aardigheid wil ik hier een hypothese naar voren brengen waaruit Benford’s wet volgt. De lezer is hierbij uitgenodigd de hypothese met argumenten te ondersteunen of te ontkrachten. De hypothese gaat als volgt. We nemen aan dat de getallen die in een tekst voorkomen gehele getallen zijn die tussen twee getallen M en N liggen waarvan √ we aannemen dat N heel groot is en M beduidend kleiner, bijvoorbeeld M < N . Hypothese: De relatieve kans dat een getal uit de tekst gelijk is aan x bedraagt 1/x. Met relatieve kans bedoelen we dat de kansen om x respectievelijk y tegen te komen zich verhouden als (1/x) : (1/y). De absolute kans dat zo’n getal gelijk is aan x bedraagt dan (1/x)/S(M, N ) waarin S(M, N ) = (1/M + 1/(M + 1) + · · · + 1/N ). De som van de absolute kansen moet immers gelijk aan 1 zijn. Nogmaals, men kan argumenten voor en tegen deze hypothese bedenken. Het enige dat we hier gaan doen is Benford’s wet eruit afleiden. Zij Pb de kans dat een getal uit onze tekst met het cijfer b begint. We gaan Pb berekenen. Voor het gemak nemen we aan dat M = 1 en N = 10k . Het algemene verhaal gaat in principe op dezelfde manier, het kost alleen wat meer schrijfwerk. Omdat het hier slechts gaat om de afleiding van een ervaringsfeit uit een dubieuze hypothese hoeven we ons er verder niet erg druk over te maken. Er geldt nu, k−1 Pb = r=0 1 1 1 + + ··· + r r b · 10 b · 10 + 1 (b + 1) · 10r − 1 /S(1, 10k ). Uit de Appendix weten we dat 1 1 1 + + ··· + = log(n) − γ + δ(n) 1 2 n−1 waarin δ(n) → 0 als n → ∞. Dit betekent dat 1 1 1 + + ··· + = log((b + 1)10r ) − log(b · 10r ) + (r) r r b · 10 b · 10 + 1 (b + 1) · 10r − 1 = log(1 + 1/b) + (r) waarin (r) = δ((b + 1)10r ) − δ(b · 10r ). Merk op dat (r) → 0 als r → ∞. Verder geldt dat S(1, 10k ) = log(10k ) + δ(10k ). En dus, k log(1 + 1/b) + k−1 r=0 (r) Pb = k log 10 + δ(10k ) We hadden aangenomen dat N , en dus ook k, heel groot is. Laat daarom k → ∞ om te zien hoe de verdeling er in de limiet uitziet. Voor eindige waarden van k 86 HOOFDSTUK 10. DECIMALE ONTWIKKELING of N zal de verdeling daar in de buurt komen liggen. Deel teller en noemer in onze formule voor Pb door k en laat k → ∞. Ten eerste geldt lim |δ(10k )|/k = 0 k→∞ Ten tweede geldt k−1 lim k→∞ (r) /k = 0 r=0 omdat het gemiddelde van een rij getallen die naar nul toe gaat zelf ook naar nul gaat. In de limiet vinden we uiteindelijk, Pb = log(1 + 1/b) = log10 (1 + 1/b). log(10) Dit is precies de verdeling van Benford. Naast teksten uit de dagelijkse werkelijkheid nam Benford ook een aantal mathematisch geconstrueerde lijsten. Een voorbeeld is de rij machten van twee, 21 , 22 , 23 , . . . , 2r , . . .. Hiervan merkte Benford op dat de significante cijfers zich nauwkeurig volgens zijn wet gedragen. Omdat het hier echter gaat om een mathematische rij, hebben we er een veel betere grip op en kunnen we Benford’s wet in dit geval gewoon bewijzen. We hebben hier echter de gelijkverdelingstheorie modulo 1 voor nodig, waardoor dit bewijs weer buiten het bestek van dit boek valt.
© Copyright 2024 ExpyDoc