Kan netwerkanalyse tot betere herindelingsvoorstellen leiden? Technische toelichting bij het artikel Algoritmes (bij: paragraaf 3.3 Netwerkanalytische technieken) Zoekstrategieën Hoe worden gemeenten samengevoegd tot gewesten of landsdelen? Voor netwerkanalyse is dat een kwestie van het clusteren van de knooppunten binnen het netwerk. Dat de knooppunten in dit geval uit gemeenten bestaan, en het netwerk uit verplaatsingen tussen die gemeenten, maakt technisch geen verschil. Algoritmes gebruiken verschillende clusteringstechnieken die wij hier onbesproken moeten laten. Belangrijk is de kwaliteit van het resultaat. Hoe ‘weet’ een algoritme of de ene onderverdeling van het netwerk beter is dan de andere? Antwoord: door voor elke gevonden onderverdeling een kwaliteitsscore te berekenen. Hoe gunstiger de score, des te beter de onderverdeling in ‘gemeenschappen’ of clusters. De vijf algoritmes van onze netwerkanalyse gebruiken verschillende soorten kwaliteitsscores. 1. Veel algoritmes gaan af op de modulariteitsscore (modularity). De score Q is het verschil tussen het feitelijke aantal verbindingen tussen knooppunten binnen de gemeenschappen (A) en het aantal verbindingen dat daar alleen al op grond van kans zou zijn geweest (P). Dus: Q = A – P.1 Het aantal kansverbindingen P zou je kunnen vaststellen door alle bestaande verbindingen tijdelijk bij de knooppunten weg te halen en vervolgens willekeurig over het netwerk te verdelen (waarbij ervoor moet worden gezorgd dat elk knooppunt weer hetzelfde aantal verbindingen krijgt als tevoren). Gelukkig kan P ook eenvoudig worden berekend, zonder ingreep in het netwerk zelf. Hoe hoger de modulariteitsscore Q, des te beter de onderverdeling. De algoritmes Louvain, EO en SA maken gebruik van de modulariteitsscore. 2. Algoritme OSLOM laat zich leiden door statistische significantie. Knooppunten die een significante relatie hebben met een gemeenschap, worden aan die gemeenschap toegevoegd. Er kunnen overlappende gemeenschappen ontstaan als knooppunten significante relaties met meer dan één gemeenschap blijken te hebben. 3. De map score (map equation) is de kwaliteitsscore van het algoritme Infomap. In feite de lengte in bits en bytes van een ‘routebeschrijving’ door het netwerk. De naam van het algoritme verraadt een relatie met informatie(theorie) en geografie. Om de onderliggende gedachtegang te begrijpen zou je de gemeenschappen binnen een netwerk kunnen vergelijken met de pleinen van een stad. Een denkbeeldige wandelaar (random walker) loopt een volstrekt willekeurige route langs alle adressen. Pleinen met weinig toegangsstraten zijn ‘blijfpleinen’, omdat onze wandelaar er lang blijft ronddolen voordat hij bij toeval een uitgang treft. Blijfpleinen zijn voor Infomap ‘goede’ pleinen (echte gemeenschappen). Als er veel blijfpleinen zijn, dan komen er in de routebeschrijving van onze wandelaar, naast huisnummers, slechts weinig 1 De hier gegeven formule is een schematische variant. 2 namen van pleinen voor (want daarin worden alleen pleinwisselingen vermeld). Tegenover de blijfpleinen staan de ‘wisselpleinen’ met veel toegangsstraten – ‘slechte’ pleinen, waar onze wandelaar zó weer weg is. Veel wisselpleinen leiden tot een routebeschrijving die, naast huisnummers, uit veel pleinnamen bestaat. Gevolg: een lange beschrijving met veel meer bits en bytes. Omgekeerd geldt ook: hoe korter de beschrijving, des te beter de pleinen. En vertaald naar netwerken: hoe korter de beschrijving, des te beter de onderverdeling (Rosvall and Bergstrom 2008; Rosvall and Bergstrom 2011; Fortunato 2010:53).2 Als geen verbetering van de kwaliteitsscore meer optreedt, presenteren de algoritmes hun uitkomsten. Is dat altijd de beste onderverdeling? Neen. De algoritmes berusten op benaderende zoekstrategieën; je moet daarom altijd rekening houden met statistische en andere fouten. Een complete berekening van de beste onderverdeling is alleen voor heel kleine netwerken mogelijk (in technische termen: de berekening is NP-hard). Bij modulariteitgestuurde algoritmes krijg je bovendien te maken met de resolutielimiet. Resolutielimiet De modulariteitsscore is inzichtelijk, relatief eenvoudig en daardoor populair. Aan modulariteit kleeft echter ook een nadeel: modulariteitgestuurde algoritmes zien kleine (en soms ook grote) gemeenschappen over het hoofd (Fortunato and Barthelemy 2007; Clauset, Moore, and Newman 2008). Wat in dit verband ‘klein’ is hangt af van de omvang of het ‘gewicht’ van het totale netwerk (de gewogen som van alle verbindingen) en van de exacte manier waarop de score wordt berekend. Je kunt bijvoorbeeld bij de berekening van de modulariteitsscore Q = A – P vervangen door Q = rA – P, waarbij de eerste term met een getal r (de resolutieparameter) wordt vermenigvuldigd.3 Hierdoor zoomt het algoritme iets uit of in, waardoor onderverdelingen op een wat hoger (of lager bij r< 1) schaalniveau in beeld komen, terwijl andere uit beeld verdwijnen. Is het aantal gemeenschappen tevoren bekend, dan kan de resolutieparameter dadelijk op een passende waarde worden ingesteld. Maar wat te doen als dit aantal nu juist een open vraag is? De slimme multiresolutie- of mesoscales-benadering kan in dat geval soms een uitweg bieden. Daarbij wordt gebruik gemaakt van de ervaring dat echt bestaande onderverdelingen binnen een netwerk minder gevoelig zijn voor veranderingen van de resolutieparameter dan meer oppervlakkige of toevallige onderverdelingen (Arenas, Fernández, and Gómez 2008; Delvenne, S.N. Yaliraki, and M. Barahona 2009; Lambiotte, Delvenne, and arahona ranell, ómez, and Arenas 2011; Fortunato 2010:38 e.v.). De onderstaande grafieken laten zien hoe dat werkt. 2 Infomap gaat uit van het quasi geografische beginsel dat uniciteit van straatnamen alleen is vereist binnen dezelfde stad, maar niet tussen steden. En in ons voorbeeld: dat op ieder ‘plein’ de huisnummering opnieuw bij 1 begint. Een vorm van efficiëntie bij naamgeving (namespaces) die ook op tal van andere gebieden wordt toegepast. Zie artikel voor literatuurverwijzingen. 3 Het is ook mogelijk de tweede term P met een getal te vermenigvuldigen (Q = A - λP) of andersoortige bewerkingen toe te passen waardoor de resolutie verandert. 3 Grafiek 1 Mesoscales Extremal optimization [EO] Simulated annealing [SA] Op de horizontale as de (oplopende) waarde van de resolutieparameter (bij EO r en bij SA λ) en op de verticale as het aantal gevonden clusters of communities (Ncomm). Voor beide grafieken zijn de algoritmes een groot aantal malen aan het werk gezet bij oplopende waarden van de resolutieparameter. Elk van beide krommen wordt onderbroken door ‘plateaus’ waar het algoritme ondanks oplopende parameterwaarden nog enige tijd blijft vasthouden aan het gevonden aantal gemeenschappen Ncomm. Bij EO blijken de onderverdelingen met 2, 5, 10, 38 en 96 gemeenschappen robuuster dan de rest. Bij SA zijn de corresponderende aantallen 8, 10 en 30.4 4 Zie Tabel 1 van het artikel. In deze tabel worden soms iets andere aantallen genoemd omdat in een latere fase enkele instabiele individuele clusters uit het eindresultaat zijn verwijderd. 4 Robuustheidstoets van de uitkomsten (bij: paragraaf 4.3 Toetsing robuustheid) Naarmate uitkomsten van verschillende algoritmes dichter bij elkaar liggen, is de kans kleiner dat ze het product zijn van ‘toevalligheden’ zoals de specifieke vertekening van een algoritme of statistische fluctuaties. Iets vergelijkbaars geldt voor het geval uitkomsten (van verschillende of dezelfde algoritmes) inpasbaar zijn in één en hetzelfde hiërarchische systeem, waarbij de gevonden gewesten geheel en al binnen de gevonden landsdelen blijken te liggen. Hoge schaalniveaus. Drie algoritmes komen tot een onderverdeling van Nederland in vijf deelgebieden. De kaartbeelden die zij daarbij produceren blijken echter nogal uiteen te lopen. De verschillen zijn gemeten met behulp van de index NVI, een maat voor de ‘informatie-afstand’ tussen twee onderverdelingen.5 Hoe lager de index, hoe kleiner het verschil. De indexwaarden van deze onderverdeling zijn een stuk minder gunstig dan bij een onderverdeling in acht deelgebieden (gemiddelde NVI=0,16 tegen 0,10).6 Daarom bekijken wij hier alleen de laatstgenoemde onderverdeling. Tabel 1 NVI-indexen voor hoge schaalniveaus (8 landsdelen) SA8 EO8 OSLOM13 Louvain8 Infomap8 SA8 0,07 0,11 0,17 0,13 EO8 0,05 0,16 0,12 OSLOM13 0,16 0,09 0,15 Hoe lager de index, hoe kleiner het verschil tussen de algoritmes. SA8 = SA uitdraai met 8 deelgebieden enz. OSLOM13 is door het grotere aantal deelgebieden niet geheel vergelijkbaar. De indexen laten zien dat de resultaten van EO en SA het dichtst bij elkaar liggen (NVI=0,05), op de voet gevolgd door SA en Infomap (zie Tabel 1). De deelgebieden van Louvain wijken wat meer af, behalve van EO (NVI=0,09). De grootste afstand tot de rest vertoont Oslom, maar dat zal ook samenhangen met het afwijkende aantal deelgebieden. Lage schaalniveaus. Bij een indeling in 23 tot 56 gewesten liggen SA en Infomap het dichtst bij elkaar (NVI=0,07); EO en SA (0,13) en EO en Infomap (0,15) verschillen meer van elkaar. Ook hier toont Oslom een nog minder gunstig beeld (0,17 – 0,22), terwijl Louvain hier natuurlijk ontbreekt. Ter vergelijking zijn de NVI-waarden met de COROP-indeling in de tabel opgenomen (zie Tabel 2). 5 Normalized Variation of information Index. NVI is een maat voor de ‘informatie-afstand’ tussen twee onderverdelingen. Een verwante index is de Normalized Mutual information Index (NMI), die voor hetzelfde doel kan worden gebruikt. Zie: Fortunato 2010:77–79; Danon et al. 2005; Meilă 7. Software beschikbaar in Radatools (zie: Netwerkanalytische programmatuur). 6 NVI is een afstandsmaat: hoe lager het getal, des te kleiner de afstand en des te groter de overeenkomst. 5 Tabel 2 NVI-indexen voor lage schaalniveaus Infomap56 SA28 EO38 OSLOM39 COROP40 Infomap23 Infomap56 SA28 EO38 OSLOM39 0,12 0,07 0,14 0,15 0,16 0,13 0,19 0,19 0,17 0,22 0,20 0,20 0,20 0,22 0,27 Hoe lager de index, hoe kleiner het verschil tussen de algoritmes. Hiërarchische samenhangen. Om vast te stellen of de hogere en lagere schaalniveaus sluitende hiërarchische systemen vormen kan de Wallace-index worden gebruikt.7 Bij een zuiver hiërarchische relatie tussen de uitkomsten (de deelgebieden op het lagere schaalniveau zijn volledig inliggend in die van het hoger niveau) is de index gelijk aan 1. Dat is het geval bij Infomap8 en Infomap56. Infomap, SA en EO vertonen sterke (maar buiten het genoemde geval geen perfecte) hiërarchische relaties (zie Tabel 3). Tabel 3 Wallace-index (hoog-laag) Infomap23 Infomap56 SA28 EO38 OSLOM39 Infomap8 0,97 1,00 0,92 0,92 0,83 SA8 0,95 0,98 0,89 0,89 0,82 EO8 0,97 0,97 0,95 0,95 0,82 OSLOM5 0,91 0,94 0,91 0,88 0,84 OSLOM13 0,87 0,92 0,84 0,85 0,78 Hoe hoger de index, hoe beter de hiërarchische relatie. 7 Bij een perfect hiërarchisch systeem mogen twee gemeenten die op een hoger schaalniveau in verschillende landsdelen zijn ondergebracht op een lager schaalniveau niet in hetzelfde gewest terechtkomen. Andersom mag wel. De Wallace-index houdt met deze asymmetrie rekening door twee cijfers te berekenen: van hoog naar laag en van laag naar hoog. Alleen het eerste cijfer is hier van belang. Zie voor de Wallace-index: Fortunato 2010:77–79; Meilă 7:875; voor software zie: Netwerkanalytische programmatuur. 6 Netwerkanalytische programmatuur (bij: paragraaf 3.3 Netwerkanalytische technieken) Algoritmes - Louvain - beschikbaar in de desktopprograma’s ephi en Pajek - Extremal Optimization (EO) - uitvoerbaar bestand binnen Radatools Simulated Annealing (SA) – code AndreaLancichinetti Oslom – code AndreaLancichinetti Infomap – code Mapequation Programmatuur - Gephi (Levallois 2013): https://gephi.org Pajek (De Nooy, Mrvar, and Batagelj 2005): http://pajek.imfm.si/doku.php Radatools: http://deim.urv.cat/~sgomez/radatools.php Code AndreaLancichinetti: https://sites.google.com/site/andrealancichinetti/software Code Mapequation: http://www.mapequation.org/code.html Indexen - NVI, NMI, Wallace-index (Danon et al. 2005; Meilă Radatools 7) – beschikbaar binnen 7 Databestand (bij: paragraaf 3.1 Verplaatsingenonderzoek CBS) Het gebruikte databestand bestaat uit een samenvoeging van de jaren 2010, 2011 en 2012 van het jaarlijks door het CBS uitgevoerde onderzoek naar het verplaatsingsgedrag binnen Nederland. Omwille van de betrouwbaarheid van de resultaten op lagere schaalniveaus worden gegevens over drie jaren gebruikt. Voorafgaand aan de analyse zijn enkele kleine, maar storende onvolkomenheden met betrekking tot vertrek- en/of aankomstgemeenten binnen de deelbestanden 2010 en 2011 zo goed mogelijk gecorrigeerd of verwijderd. De onvolkomenheden zijn doorgegeven aan het CBS. In het deelbestand 2012 zijn ze niet aangetroffen. De bestanden zijn verkregen via Data Archiving and Networking Services (DANS). Gegevens datasets - Onderzoek verplaatsingen in Nederland 2010 – OVIN 2010; Centraal Bureau voor de Statistiek / Rijkswaterstaat; DANS id: 46383 Onderzoek verplaatsingen in Nederland 2011 – OVIN 2011; Centraal Bureau voor de Statistiek / Rijkswaterstaat; DANS id: 50335 Onderzoek verplaatsingen in Nederland 2012 – OVIN 2012; Centraal Bureau voor de Statistiek / Rijkswaterstaat; DANS id: 54132 Verdere informatie: [email protected]
© Copyright 2024 ExpyDoc