Bekijk online

Analyse van de Microbiële Diversiteit in Antarctica
aan de hand van Next Generation Sequencing-data
Hanneloor HEYNDERICKX
Masterproef voorgedragen tot het behalen van de graad van
Master of Science in de Biochemie en de Biotechnologie
Major Microbiële Biotechnologie
Academiejaar 2013-2014
Promotor: Prof. Dr. Anne Willems
Wetenschappelijk begeleider: Bjorn Tytgat
UGent - Vakgroep Biochemie en Microbiologie
Laboratorium voor Microbiologie (LM-UGent)
2
If Antarctica were music it would be Mozart. Art, and it would be
Michelangelo. Literature, and it would be Shakespeare. And yet it is
something even greater; the only place on earth that is still as it should be.
May we never tame it.’
Andrew Denton
‘
6
Voorwoord
Voor u ligt mijn Master Thesis, welke de afsluiting vormt van de opleiding ‘Master of Science
in de Biochemie en de Biotechnologie’. Met dit voorwoord blik ik graag even terug op mijn
studententijd en onderzoeksproces en wil ik de personen bedanken die hebben bijgedragen
tot de totstandkoming van deze Master Thesis.
Ups and downs, dat zijn de woorden die mijn laatste jaar als masterstudent aan de UGent
goed beschrijven. Het was een pittig jaar, waarin hard gewerkt moest worden, maar zeker
ook een leuk jaar vol verrassingen. Nieuwe uitdagingen maakten van het schrijven van deze
masterproef een leerrijke ervaring, die mij bovendien heeft toegestaan een diepgaander
begrip te krijgen in de wereld van de microbiologie.
Zonder de hulp van heel wat mensen zou de realisatie van deze thesis echter niet mogelijk
geweest zijn. Hiervoor wil ik hen graag oprecht bedanken.
Allereerst mijn promotor Professor Dr. Anne Willems, voor de kans om deel uit te maken van
haar onderzoeksteam en voor de begeleiding.
Mijn begeleider Bjorn Tytgat, van wie ik ontzettend veel heb bijgeleerd, verdient een
uitdrukkelijke bedanking. Zijn professionele en persoonlijke steun, hebben ervoor gezorgd dat
ik dit eindwerk kon voltooien.
Dr.Kim Heylen voor het organiseren van enkele tussentijdse evaluaties en besprekingen, die
me meer vertrouwen gaven en mijn kritisch denken verstrekte.
In het bijzonder wil ik Jasmien Vercuysse heel erg bedanken. Toen ik door de bomen het bos
niet meer zag, konden haar interesse en aanmoediging mij steeds terug op weg helpen.
Uiteraard richt ik ook een grote dankjewel aan mijn mams, paps en zus voor het warme nest
en de steun, en aan mijn vriend voor zijn engelengeduld.
Deze thesis luidt tevens het einde van mijn opleiding in. Daar de boog niet altijd gespannen
kan staan, wil ik ook mijn medestudenten bedanken voor alle mooie momenten tijdens en na
de lesuren. Ook mijn vrienden buiten de opleiding, voor de ontspannende pauzes, etentjes en
het doodgewoon samen zijn. Dankzij jullie allen was dit onvergetelijke studententijd!
Hanneloor
11 juni 2014
8
Inhoud
Voorwoord
Lijst met afkortingen
Samenvatting
1
Inleiding............................................................................................................................. 19
1.1
Antarctica................................................................................................................... 19
1.1.1
Ligging................................................................................................................. 19
1.1.2
Landschap ........................................................................................................... 20
1.1.3
Geologie ............................................................................................................. 20
1.1.4
Ecosystemen....................................................................................................... 21
1.2
Technieken voor de studie van microbiële diversiteit .............................................. 23
1.2.1
Cultuurafhankelijke technieken ......................................................................... 24
1.2.2
Cultuur-onafhankelijke technieken .................................................................... 24
1.3
1.2.2.1
Fingerprinting methodes ............................................................................ 25
1.2.2.2
Sanger sequenering .................................................................................... 26
1.2.2.3
454-sequenering of pyrosequenering ........................................................ 27
1.2.2.4
Ion-Torrent sequenering ............................................................................. 28
1.2.2.5
PCR- en Next-generation sequeneringsfouten ........................................... 30
Data analyses ............................................................................................................. 31
1.3.1
Pipelines ............................................................................................................. 32
1.1.1
1.2
Qiime .............................................................................................................. 32
Mothur ............................................................................................................... 33
1.2.1
1.4
Uparse ............................................................................................................. 33
Eerdere diversiteitsstudies in Antarctica................................................................... 33
2
Doel van het project.......................................................................................................... 35
3
Resultaten ......................................................................................................................... 37
3.1 Het effect van verschillende parameters op de data output van twee data analyse
pipelines................................................................................................................................ 37
3.2
Taxonomische identificatie van Antarctische microbiële gemeenschappen ............ 40
3.3
Het effect van verschillende PCR condities op de Ion Torrent PGM data ................ 43
3.3.1
De artificiële gemeenschap: duplicaten en PCR condities ................................. 44
3.3.1.1
Duplicaten van de artificiële gemeenschap ................................................ 44
3.3.1.2
2-staps PCR voor de artificiële gemeenschap ............................................. 44
3.3.1.3
Verlengde elongatietijd voor de artificiële gemeenschap .......................... 45
3.3.2
3.4
3.3.2.1
Triplicaten van het BB115 staal .................................................................. 45
3.3.2.2
2-staps PCR voor het BB115 staal ............................................................... 46
3.3.2.3
Verlengde elongatietijd voor het BB115 staal ............................................ 47
Geografische diversiteit in koude omgevingen ......................................................... 48
3.4.1
5
Een eerste additionele dataset .......................................................................... 49
3.4.1.1
Microbiële diversiteit op (sub-)Antarctische eilanden ............................... 49
3.4.1.2
Vergelijking van de diversiteit met onze data ............................................ 49
3.4.2
4
Het BB115-staal: triplicaten en PCR condities ................................................... 45
Een tweede additionele dataset ........................................................................ 51
3.4.2.1
Microbiële diversiteit in Arctische en Alpiene gletsjers ............................. 51
3.4.2.2
Vergelijking van de diversiteit met onze data ............................................ 52
Discussie ............................................................................................................................ 57
4.1
Vergelijking van de data output van twee data analyse pipelines ............................ 57
4.2
Vergelijking met eerdere publicaties omtrent Antarctische microbiële diversiteit . 58
4.3
Het gebruik van Ion Torrent sequenering voor microbiële diversiteitsstudies ........ 60
4.4
Vergelijking van de geografische biodiversiteit in koude omgevingen ..................... 63
4.5
Conclusie .................................................................................................................... 64
Materiaal en methoden .................................................................................................... 67
5.1
Oorsprong van de stalen ........................................................................................... 67
5.1.1
Roche 454 pyrosequenering .............................................................................. 67
5.1.2
Ion Torrent sequenering .................................................................................... 67
5.1.3
Additionele datasets .......................................................................................... 68
5.2
DNA extractie............................................................................................................. 70
5.3
PCR amplificatie en 16S rRNA-gen sequenering ....................................................... 70
5.3.1
Next-generation sequenering ............................................................................ 70
5.3.2
Roche 454 pyrosequenering .............................................................................. 71
5.3.3
Ion Torrent sequenering .................................................................................... 71
5.4
Sequentie verwerking en analyse .............................................................................. 72
5.4.1
Mothur pipeline ................................................................................................. 72
5.4.1.1
Reduceren van sequeneringsfouten ........................................................... 73
5.4.1.2
Alignering .................................................................................................... 73
5.4.1.3
Screening, filtering en pre-clusteren .......................................................... 73
5.4.1.4
OTU’s clusteren ........................................................................................... 74
5.4.2
Uparse pipeline .................................................................................................. 74
10
5.4.2.1
Reduceren van sequentie fouten................................................................ 74
5.4.2.2
UPARSE-OTU algoritme ............................................................................... 74
6
Referenties ........................................................................................................................ 77
7
Bijlage ................................................................................................................................ 87
7.1
Principes van drie moleculaire methoden................................................................. 87
7.2 Een vergelijking van de data-analyse-outputs op fylumniveau bekomen met Mothur
en Uparse .............................................................................................................................. 88
7.3
Default Uparse pipeline ............................................................................................. 90
7.4
Fusie primers voor Next-Generation Sequencing ..................................................... 91
7.5
DNA extractie protocol .............................................................................................. 92
11
Lijst met afkortingen
AC
ACC
AD
ADRA
ARISA
ATP
Bp-PEG
CE
COMNAP
DGGE
DNA
dNTP
FISH
ITS
LMW RNA
MSA
NGS
OTU
PCR
PFZ
PGM
PHFET
PPi
PYGV
RAPD/DAF
rDNA
RNA
rRNA
SAC
SFF
SSCP
TD-PCR
TGGE
T-refs
T-RFLP
Antarctische Convergentie
Antarctic Circumpolar Current
Antarctische Divergentie
Amplified Ribosomal
Automated Ribosomal Intergenic Spacer Analysis
Adenosine Triphosphate
Bisbenzimide Polyethyleneglycol Electrophoresis
Capillaire Elektroforese
Council Of Managers Of National Antarctic Programs
Denaturing Gradient Gel Electrophoresis
Desoxyribonucleïnezuur
Deoxynucleotidetrifosfaat
Fluorescent In Situ Hydridization
Internal Transcribed Spacer
Low Molecular Weight Ribonucleïnezuur
Meervoudige Alignering
Next-Generation Sequencing
Operationele taxonomische eenheid
Polymerase Chain reaction
Polar Frontal Zone
Personal Genome Machine
PH-Sensitieve Field Effect Transistor
Pyrofosfaat
PEPtone-Yeast-Glucose-Vitamin
Randomly Amplified Polymorphic
Ribosomaal Desoxyribonucleïnezuur
Ribonucleïnezuur
Ribosomaal Ribonucleïnezuur
Sub-Antarctische convergentie
Standaard Flowgram Formaat
Single Stranded Conformation Polymorphism
Touchdown-PCR
Temperature Gradient Gel Electrophoresis
Terminale Restrictie Fragmenten
Terminal Restriction Fragment Length Polymorphism
Samenvatting
Context
Antarctica is een continent gekarakteriseerd door zijn geografische en klimatologische
isolatie. Deze volledige isolatie heeft bijgedragen tot het ontstaan van de extreme condities
op Antarctica zoals koude temperaturen, weinig biologische beschikbaar water, verhoogde
UV-radiatie, osmotische stress en lage nutriënten-concentraties. Organismen die dit continent
bewonen moeten dus in staan zijn om te overleven in deze extreme
omgevingsomstandigheden. Door de ontoegankelijkheid van Antarctica is er relatief weinig
geweten over de diversiteit van de aanwezige micro-organismen. Doorheen de jaren werden
verschillende technieken ontwikkeld om de microbiële diversiteit te ontdekken. De eerste
diversiteitsstudies waren voornamelijk gebaseerd op traditionele methoden zoals
cultuurafhankelijke technieken. Met de komst van de revolutionaire Next-Generation
Sequeneringsmethoden is de kennis over de microbiële diversiteit aanzienlijk toegenomen,
daar deze technieken een verbeterde toegang verlenen tot de zeldzame biosfeer.
Doel
Bidirectionele pyrosequenering van het bacteriële 16S rRNA-gen werd uitgevoerd in negen
stalen van Antarctische microbiële aquatische en terrestrische microbiële matten, die reeds
onderzocht werden met heterotrofe cultivatiestudies. Een vergelijking tussen de
geobserveerde microbiële biodiversiteit enerzijds bekomen met cultivatiestudies en
anderzijds met pyrosequenering werd vervolgens op punt gesteld. Deze
pyrosequeneringsdata werd vervolgens onderworpen aan twee alternatieve data analyse
pipelines, Mothur en Uparse. Na het hanteren van verschillende parameters op beide
pipelines, werden de bekomen data outputs vergeleken in termen van het aantal sequenties,
aantal OTU’s en aantal chimere sequenties. Een vergelijking van twee Next-generation
sequneringsplatforms, Ion Torrent sequenering en Roche 454 pyrosequenering werd
uitgevoerd. Daarbij werd het effect van negen controle stalen, gebaseerd op replicaten en
verschillende PCR condities, uitgetest op de Ion Torrent data. Aan de hand van één
omgevingsstaal en de controlestalen werd nagegaan of beide platformen een vergelijkbare
data output konden bekomen. Tenslotte werd er ook nog onderzoek verricht om een
preliminaire biogeografische diversiteitstudie van koude omgevingen uit te voeren. Hiervoor
werd de Roche 454 data uit het eerste onderzoek vergeleken met twee online beschikbare
additionele datasets, die bestudeerd werden volgens dezelfde methoden als onze data.
Resultaten
Een grotere diversiteit werd waargenomen met pyrosequenering. Echter, enkele bacteriën,
zowel zeldzaam als abundant, die geïdentificeerd werden met cultivatietechnieken werden
niet achterhaald met de pyrosequenerings-techniek. Uparse en Mothur toonden weinig
verschil in de fyla, respectievelijk 37 en 38 fylum. Met Uparse werd een lager aantal OTU’s
(2153) bekomen en groter aantal chimera’s (494) verwijderd. Pyrosequenering toont zich een
beter techniek voor uitvoeren van diversiteitstudies in vergelijking met Ion Torrent
sequenering.
Conclusie
Cultuurafhankelijke technieken en Next-generation sequenering worden het best in
combinatie met elkaar gebruikt voor het bestuderen van de microbiële diversiteit, aangezien
beide technieken hierin complementair zijn. Uparse resulteerde in een hogere accuraatheid
dan Mothur. De Ion Torrent sequenering is niet of nog niet op punt om toegepast te worden
voor diversiteitstudies. Met verbeteringen naar de toekomst toe dient deze techniek zeker
opgevolgd te worden. De voornaamste besluittrekking uit de biogeografische diversiteitstudie
is dat de specificiteit van de microbiële omgeving niet zo sterk is uitgesproken op de hogere
taxonomische niveaus (Fylum tot Familie), maar voornamelijk te zien is op lagere
taxonomische niveaus (genus tot species).
16
Abstract
Context
Antarctica is a continent characterized by its geographical and climatic isolation. This complete
isolation has contributed to the extreme conditions ruling Antarctica, like cold temperatures,
low bioavailability of water, increased UV radiation, osmotic stress and low nutrient
concentrations. Organisms that inhabit this continent need to be able to survive in these
extreme conditions. Because of its inaccessibility relatively little is known about the diversity
of microorganisms on Antarctica. Over the years, various techniques have been developed to
detect this microbial diversity. The first diversity studies were mainly based on traditional
methods such as culture-dependent techniques. With the advent of revolutionary NextGeneration sequencing methods the knowledge about the microbial diversity has increased
significantly, as these techniques provide improved access to the rare biosphere.
Purpose
Bidirectional pyrosequenering of the bacterial 16S rRNA gene was performed in nine samples
of Antarctic microbial aquatic and terrestrial microbial mats, which have already been
examined by heterotrophic cultivatiestudies. A comparison between the observed microbial
biodiversity obtained with cultivation studies on one hand and the observed microbial
biodiversity obtained with pyrosequencing on the other hand was then made. This
pyrosequencingdata was then subjected to two alternative data analysis pipelines, Mother
and Uparse. After the use of different parameters on both pipelines, the obtained data
outputs were compared in terms of the number of sequences, OTU number and number of
chimeric sequences. A comparison of two Next-generation sequencing platforms, Ion Torrent
sequencing and Roche 454 pyrosequenering, was then performed. The effect of nine control
samples, based on replicates and different PCR conditions, was tested on the Ion Torrent data.
On the basis of one area sample and the control samples, examinations were made to
determine whether the two platforms could give us a comparable data output. Finally,
research was conducted to perform a preliminary biogeographic diversity study of cold
environments. For this the Roche 454 data from the first study was compared with two online
available additional data sets, which were examined using the same methods we used to
examine our data.
results
Greater diversity was observed with pyrosequenering. However, some bacteria, both rare and
abundant, which were identified by cultivation techniques were not picked up by the
pyrosequencing technique. Uparse and Mothur showed little difference in the phyla, 37 and
38 phylum respectively. Using Uparse a lower number of OTU (2153) was obtained and a larger
number of chimeras (494) was deleted. Pyrosequenering proves to be a better technique for
performing diversity studies compared to Ion Torrent sequencing
conclusion
Culture-dependent techniques and Next-generation sequencing are best used in combination
to study the microbial diversity, since both techniques complement each other. Uparse proved
out to have a higher accuracy than Mothur. The Ion Torrent sequencing is not, or not yet ready
to be used for diversity studies. With improvements in the making, the development of this
technique should certainly be watched closely. The main conclusion we can take from the
17
biogeographic diversity study is that the specificity of the microbial environment is not as
strongly pronounced at higher taxonomic levels (phylum to family), but is mostly seen at lower
taxonomic levels (genus to species)
18
Inleiding
1 Inleiding
1.1 Antarctica
1.1.1 Ligging
Antarctica is het meest zuidelijke continent op aarde. Het bevindt zich op circa 1000 km ten
zuiden van Zuid-Amerika, circa 4000 km ten zuiden van Afrika en circa 2500 km ten zuiden van
Australië en Nieuw-Zeeland. Antarctica heeft een variërende oppervlaktegrootte door de
aanwezigheid van ijskappen, met een gemiddelde grootte van 14,2 miljoen km² (Eijsden,
2013). Het continent ligt gemiddeld 2250 meter boven de zeespiegel en is daarmee het
hoogste continent op onze planeet. Antarctica is omgeven door drie oceanen: de Stille, de
Atlantische en de Indische Oceaan. Het water dat rond het Antarctische continent ligt wordt
de Zuidelijke Oceaan of de Antarctische Oceaan genoemd. In de Zuidelijke Oceaan loopt er
een zeestroom oostwaarts volledig rond Antarctica (Figuur 1), de Antarctische Circumpolaire
Stroom (Engels: Antarctic Circumpolar Current, ACC) (Nowlin & Klinck, 1986; Tynan, 1998).
Deze stroom wordt ook wel de westenwinddrift genoemd, aangezien het de westenwinden
zijn die het oceaanwater oostwaarts drijven. Deze stroming hindert warm noordelijk
oceaanwater om in de nabijheid van het continent te komen. Onder andere hierdoor behoudt
Antarctica zijn koude klimaat. In de zuidelijke oceanen komen verschillende waterzones voor
die gekenmerkt worden volgens temperatuur, zoutgehalte en leven. Deze waterzones worden
van elkaar gescheiden door de convergenties. Een convergentie in een oceaan is een
zogenaamd grensgebied waarbij twee waterzones elkaar ontmoeten en waarbij de ene
watermassa onder de andere duikt. In de zuidelijke oceanen zijn het de koude Antarctische
wateren die onder de warmere sub-Antarctische wateren zullen duiken, aangezien koud
water dichter en zwaarder is dan warm water. Rond de convergentie bruist het van leven,
doordat het zoöplankton in de koude watermassa niet mee de diepte wil ingaan en door actief
zwemmen aan de oppervlakte blijft. Grote hoeveelheden krill, garnaalachtig invertebraten,
worden hier aangetroffen alsook verschillende zeevogels, dolfijnen en walvissen. De
Antarctische Convergentie(AC) vormt de natuurlijke grens tussen het Antarctisch en het subAntarctisch water. (Wyrtki, 1960; Beintema, 2013). Ten noorden van de sub-Antacrtische
wateren ligt er opnieuw een grensgebied, de sub-Antarctische Convergentie (SAC). Hier zullen
de sub-Antarctische wateren onder de warme subtropische wateren duiken. Deze
subtropsiche wateren worden op hun beurt begrensd door de Subtropsiche Convergentie
(STC). De grensgebieden zijn weergegeven in Figuur 1. De zone tussen de AC en SAC wordt de
Polar Frontal Zone (PFZ) genoemd. Ten noorden van de SAC ligt de sub-Antarctische Zone.
Deze twee geografische zones vormen samen met de AC, de SAC en de STC de subAntarctische regio (Deacon, 1937; Edwards & Emery, 1982; Smith et al, 2013). Convergentie
gaat samen met divergentie, het opwellen van diep water in de oceaan naar boven. Dit diep
water brengt vele voedingstoffen met zich mee en zorgt voor een verhoogde productiviteit
door de voedingstoffen binnen het bereik van het fytoplankton, dat zich in de fotozone
bevindt, te brengen. De Antarctisch divergentie is het dichtst gelokaliseerd bij het continent
daar waar het water van oost naar west beweegt (Wyrtki, 1960).
Inleiding
1.1.2 Landschap
Antarctica is een continent bedekt door ijs. Slechts één tot drie procent van de Antarctische
en sub-Antarctische oppervlakte is ijsvrij (Convey et al, 2008). Het continent kan opgedeeld
worden in drie regio’s. Het grotere Oost-Antarctica word gescheiden van het kleinere WestAntarctica door het 3500 kilometer lange Transantarctisch Gebergte (Behrendt et al, 1991).
Het Antarctisch Schiereiland in het noorden is de derde regio en wordt eerder gezien als een
tweede 1700 km lange bergketen (Figuur 1). Dit Antarctisch Schiereiland is momenteel één
van de snelste opwarmende gebieden op onze planeet (Steig et al, 2009; Clucas et al, 2014).
In het verlengde van het Antarctisch schiereiland en strikt ten zuiden van de AC vinden we in
de Zuidelijke Oceaan de South Shetlandeilanden, de South Sandwicheilanden en de South
Orkney eilanden. In de sub-Antarctische regio bevinden zich de Falklandeilanden, South
Georgia, Prince Edward, Campbell en de Antipodeneilanden.
Figuur 1: Orthogonale kaart van de Zuidpool.
Het Antarctisch continent is opgedeeld in drie delen: Oost- en West-Antarctica, gescheiden
door het Transantarctisch gebergte, en het Antarctisch Schiereiland. Antarctica is
omgeven door drie oceanen: de Stille, Atlantische en Indische Oceaan. De pijlen die van
west naar oost gaan vormen de Antarctic Circumpolar Current (ACC) of de
westenwinddrift, die Antarctica isoleert van de warme wateren uit het noorden. De
convergenties vormen beiden een grens, telkens tussen de koudere wateren van in het
zuiden en de warmere wateren van in het noorden. AC: Antarctische Convergentie, AD:
Antarctische Divergentie, SAC: sub-Antarctische Convergentie.
1.1.3 Geologie
Antarctica maakte deel uit van het supercontinent Gondwana dat gevormd werd tussen
ongeveer 590 en 510 miljoen jaar geleden (Cawood et al, 2009). Samen met twee andere
paleocontinenten (Laurazië en Siberia) werd het supercontinent Pangea gevormd op het einde
20
Inleiding
van het Palaeozoïcum en in het begin van het Mesozoïcum in een periode tussen 320 en 250
miljoen jaar geleden. Door bewegingen van tektonische platen brak het Pangea
supercontinent in het midden-Mesozoicum (200 tot 180 miljoen jaar geleden) uiteen in twee
delen, Laurazië en Gondwana. Laurazië dreef verder uiteen naar het noorden en vormde het
huidige Noord-Amerika, Europa en Azië. Gondwana dreef verder naar het zuiden en splitste
op in het huidige Zuid-Amerika, Afrika, Australië, Nieuw-Zeeland, Arabië, een deel van Indië
en Antarctica . Tijdens het Cambrium (begin Paleozoïcum) bevond een deel van het huidige
West-Antarctica zich in het noordelijk halfrond en lag het huidige Oost-Antarctica aan de
evenaar. Gondwana had toen een mild klimaat. Op het einde van het Devoon (laatPaleozoïcum, 360 Ma) begon ijs zich te vormen en centreerde Gondwana zich rond de
Zuidpool, waar een kouder klimaat heerste. Tijdens het Perm (eind Paleozoïcum) werd de
plantenrijkdom gedomineerd door varenachtige planten, zoals Glossopteris die in moerassen
groeiden. Op het einde van het Perm leidde een voortdurende opwarming tot een droog en
warm klimaat in het grootste deel van Gondwana. Deze opwarming had het smelten van de
polaire ijskappen als gevolg, waardoor een groot deel van het supercontinent woestijngebied
werd. Het klimaat over heel de wereld was tijdens het Mesozoïcum warmer dan ons huidige
klimaat. Hierdoor ontstond een grote variëteit aan fauna en flora op het Gondwana continent
voor miljoenen jaren lang. In het Jura (midden-Mesozoïcum) ging de vorming van het
Antarctisch Schiereiland van start, terwijl eilanden langzaam uit de oceaan rezen.
Verschillende gematigde/tropische plantensoorten (naaldbomen gevolgd door beuken) en
enkele vertebraten (reptielen) waren toen talrijk aanwezig op het Gondwana continent. In de
oceanen errond waren ammonieten algemeen aanwezig. Het was tijdens het Krijt tijdperk dat
het supercontinent uiteen begon te breken. Zuid-Amerika en Afrika dreven uit elkaar 130
miljoen jaar geleden in het vroege Krijt tijdperk. Nieuw-Zeeland werd van Antarctica
gescheiden over een periode van 130 tot 85 miljoen jaar geleden. De scheiding van Australië
en Antarctica begon 80 miljoen jaar geleden (laat-Krijt). De continenten werden 45 Miljoen
jaar geleden volledig van elkaar gescheiden door de opening van de Tasman Gateway (Convey
et al, 2008). Dit liet de zuidelijke oceaanstromingen toe om tussen Australië en Antarctica te
vloeien, waardoor Antarctica een kouder en Australië een droger klimaat kreeg. Deze
klimaatsveranderingen waren te wijten aan het feit dat de oceaanstromingen rondom
Antarctica niet meer rond noord-Australië in de subtropen hoefden te passeren. De
uiteindelijke isolatie van Antarctica gebeurde ongeveer 30 miljoen jaar geleden door het
openen van de Drake Passage, die het Antarctisch Schiereiland scheidde van Zuid-Amerika
(Convey et al, 2008). Dankzij de opening van de Drake Passage werden de koude wateren van
de Zuidelijke Oceaan niet langer gehinderd in hun circumpolaire stroming waardoor de ACC
ontstond. Dit heeft bijgedragen tot het vormen van de vele ijskappen op Antarctica en globale
afkoeling (Hambrey & Barrett, 1993; DeConto & Pollard, 2003; Krzysztof Birkenmajer, 2005;
Livermore et al, 2007).
1.1.4 Ecosystemen
De volledige isolatie van het Antarctische continent heeft bijgedragen tot het ontstaan van de
extreme condities op Antarctica zoals koude temperaturen, weinig biologisch beschikbaar
water, verhoogde UV-radiatie, osmotische stress en lage nutriënten-concentraties. In 1983
werd de laagste temperatuur op aarde gemeten bij het Russische onderzoeksstation Vostok,
namelijk -89.6°C. (http://www.unspecial.org/UNS633/UNS_633_T13.html) Organismen die
21
Inleiding
dit continent bewonen moeten dus in staat zijn om te overleven in deze extreme
omgevingsomstandigheden. Antarctica heeft zowel terrestrische als mariene ecosystemen.
Een ecosysteem berust op de wisselwerking tussen biotische (dieren, planten en bacteriën)
en abiotische (fysische en chemische omgevingen) factoren. De interacties tussen de
organismen binnenin een ecosysteem worden aangeduid als een voedselweb. Een
voedselweb is opgebouwd uit producenten, consumenten en reducenten en beschrijft de
energiestroom van het ene organisme naar het andere. In een ecosysteem zullen de
producenten voedsel halen uit het anorganische materiaal (afkomstig van de abiotische
factoren). De consumenten voeden zich vervolgens met de producenten en/of met andere
organismen. Verder zijn er nog de reducenten die het dood organisch materiaal afbreken tot
mineralen. Door de convergentie en divergentie fenomenen omvatten de wateren rond
Antarctica hoge nutriënten-concentraties die beïnvloed kunnen worden door fysische
factoren zoals de temperatuur, oceaanstromingen, het weer en ijs.
In terrestrisch Antarctische ecosystemen bestaan de producenten (Antarctic marine
ecosystem, 2008) uit ongeveer 300 tot 400 soorten lichenen, meer dan 100 soorten mossen
en levermossen, meer dan 20 soorten macro-fungi, vele soorten algen, autotrofe bacteriën en
slechts twee bloeiende planten: Deschampsia antarctica en Colobanthus quitensis (British
Antarctic Survey, 2010a). De consumenten bestaan uit invertebraten (vb. nematoden, mijten,
spinnen, kevers, heterotroge bacteriën en vliegen) en vogels. De invertebraten komen beperkt
voor op de sub-Antarctische eilanden en vele vogels behoren zowel tot de terrestrische als
mariene ecosystemen. Bacteriën, fungi en wormen behoren hier tot de reducenten. Pinguins
en zeehonden lijken in een eerste opzicht de grootste terrestrische organismen, maar beiden
worden ondersteund door de productiviteit van de Zuidelijke Oceaan en behoren tot het
mariene ecosysteem. Belgica antarctica, een vleugelloze mug (Convey & Block, 1996), heeft
een lengte van twee tot zes mm en is van alle dieren die beperkt zijn tot de terrestrische
ecosystemen het grootst. In tegenstelling tot de meeste ecosystemen op aarde, omvatten de
terrestrische ecosystemen voedselwebstructuren die relatief eenvoudig zijn (Riffenburgh,
2007; Rogers et al, 2012). Aangezien de primaire producenten plantensoorten zijn en soms
bacteriën, afhankelijk van fotosynthese, is de netto primaire productiviteit op het continent
relatief laag. In alle ecosystemen geldt ook nog eens dat er gemiddeld slechts 10 % van de
energie wordt doorgegeven van het ene organisme naar het andere. De totale biomassa van
de consumenten zal dus altijd lager zijn dan de totale biomassa van de producenten. Door de
lage primaire productiviteit van de producenten is de grootte van de voedselwebstructuren in
de terrestrische ecosystemen dus beperkt, waardoor de biodiversiteit laag is (British Antarctic
Survey, 2010b) (Freckman & Virginia, 1997). Lacustriene ecosystemen kunnen opgedeeld
worden in twee voornaamste groepen: ecosystemen geassocieerd met permanent bevroren
meren en ecosystemen geassocieerd met seizoensgebonden bevroren meren. Deze laatste
ecosystemen hebben een hogere productiviteit en bevatten een groter aantal producenten in
vergelijking met de permanent bevroren meren. Het Antarctisch Schiereiland is het warmste
deel van het continent, de ecosystemen die daar aanwezig zijn gaan gepaard met een hogere
productiviteit en een grotere diversiteit. Het is dan ook op het Antarctisch Schiereiland dat de
twee planten Deschampsia antarctica en Colobanthus quitensis en de Belgica antarctica
gevonden worden. De productiviteit op de sub-Antarctische eilanden is nog groter en de
vegetatie uitgebreider dan op het Antarctisch Schiereiland.
22
Inleiding
Alle Antarctische continentale ecosystemen worden gedomineerd door microbiële
organismen die een cruciale rol spelen in hun werking en primaire productie; ze vormen de
basis van het voedselweb, staan grotendeels in voor de biogeochemische cycli en zijn onder
andere betrokken bij bio-erosie (Vincent, 2000). Hoewel deze Antarctische
voedselwebstructuren een lage biodiversiteit hebben, is de populatie densiteit per soort
relatief hoog. De micro-organismen bijvoorbeeld vormen diverse en complexe
gemeenschappen. Dormante micro-organismen, zoals bacteriën, fungi en micro-algen werden
gevonden diep in het ijs en waren nog steeds in staat om te groeien wanneer ze in cultuur
gebracht werden (Bidle et al, 2007).
1.2 Technieken voor de studie van microbiële diversiteit
Ondanks het ecologische en potentieel industriële belang van microbiële gemeenschappen, is
er slechts weinig gekend omtrent de Antarctische microbiële diversiteit (Torre et al, 2003;
Wilmotte et al, 2012; Cowan et al, 2014). Over de jaren heen werden verschillende technieken
ontwikkeld om de microbiële diversiteit te ontdekken (Figuur 2).
Figuur 2: Overzicht van belangrijke ontdekkingen omtrent de micro-organismen en technieken om ze te bestuderen.
23
Inleiding
1.2.1 Cultuurafhankelijke technieken
Op het einde van de 19de eeuw werden traditionele technieken zoals isolatie van bacteriën
uit zuivere culturen en microscopische identificaties gebaseerd op morfologische kenmerken
(pionierswerk van L. Pasteur en R. Koch) ontwikkeld voor het bestuderen van de microbiële
diversiteit. Micro-organismen kunnen gecultiveerd worden op artificiële media die voorzien
zijn van de juiste hoeveelheden nutriënten en onder condities (temperatuur, pH, vochtigheid
ed.) die noodzakelijk zijn voor cellulaire groei en onderhoud van het organisme. De
cultuurmedia imiteren de biochemische omgevingen van de bacteriën zo nauwkeurig
mogelijk. Omwille van de specifieke behoeften van bepaalde bacteriën bestaat er reeds een
grote variëteit aan verschillende cultuurmedia met verschillende doeleinden en toepassingen.
Deze selectieve media worden niet enkel gebruikt voor isolatie en onderhoud van de zuivere
bacterieculturen, maar ook voor de identificatie van bacteriën volgens hun biochemische en
fysiologische eigenschappen.
Microbiële gemeenschappen bestaan uit enkele zeer abundante taxa en een lange staart van
zeldzame taxa. Het isoleren en opkweken van micro-organismen op groeimedia in het
laboratorium laat de identificatie toe van zowel de abundante als zeldzame taxa (Vaz-Moreira
et al, 2011). Deze cultuurafhankelijke technieken worden de dag van vandaag nog steeds
gebruikt, maar geven een beperkte kijk op de microbiële wereld. De exploratie van de
diversiteit met cultuurafhankelijke technieken is gelimiteerd aangezien slechts een klein deel
van de aanwezige organismen/taxa in cultuur te brengen zijn (Amann et al, 1995). Dit kan
aanleiding geven tot verkeerde interpretaties van de ecosystemen. Algemeen wordt aanvaard
dat er minder dan 1% van de micro-organismen in oceanen en bodems in cultuur te brengen
zijn (Eilers et al, 2000; Ward et al, 1990). Om die reden was het noodzakelijk dat technieken
ontwikkeld werden die de studie van de microbiële diversiteit toelieten zonder cultivatie.
1.2.2 Cultuur-onafhankelijke technieken
Cultuur-onafhankelijke technieken of moleculaire technieken zijn gebaseerd op moleculaire
biologie, het bestuderen van de processen die actief zijn in cellen op moleculair niveau. Deze
technieken laten directe isolatie en analyse toe van biomoleculen zoals nucleïnezuren (DNA
en RNA), proteïnen, lipiden en carbohydraten uit de omgeving. Op die manier kan structurele
en functionele informatie bekomen worden over de microbiële gemeenschappen.
Verschillende moleculaire technieken zijn reeds gekend waaronder klonering, Polymerase
Chain Reaction (PCR), Fluorescent In Situ Hybridization (FISH), DNA microarrays en genetische
fingerprinting methodes (Rastogi & Sani, 2011; Rincon-Florez et al, 2013). Deze technieken
worden toegepast in verschillende studievelden zoals metagenomics, metaproteomics,
metatranscriptomics en proteogenomics en zijn belangrijk voor het ontdekken, identificiëren
en karakteriseren van de microbiële diversiteit (Rastogi & Sani, 2011).
De meeste moleculaire technieken zijn PCR-gebaseerd, een techniek die het mogelijk maakt
om meerdere identieke kopijen van een bepaalde DNA-regio te bekomen (amplificatie) door
het herhalend uitvoeren van drie opeenvolgende stappen: denaturatie, hybridisatie van
primers en elongatie (Mullis, 1990). Moleculaire technieken gebaseerd op de amplificatie van
ribosomale sequenties (meestal het Small Subunit (16S) rRNA-gen, maar recent ook Internal
Transcribed Spacer (ITS) regio’s tussen de Small en Large Subunit rRNA-genen) gaven een nieuwe
kijk op de diversiteit en het bestaan van genotypen die nog niet gecultiveerd waren. Sinds midden
24
Inleiding
de jaren 1980 wordt het 16S rRNA-gen gebruikt als fylogenetische merker voor PCR-gebaseerde
moleculaire technieken (Stahl et al, 1985). Alhoewel dit vaak bekritiseerd is geweest omwille van
heterogeniteit tussen meerdere 16S rRNA-operons van hetzelfde genoom (Acinas et al, 2004) of
door het gebrek aan resolutie op soort-niveau (Pontes et al, 2007), wordt het nog altijd gezien als
de gouden standaard voor bacteriële identificatie. Het 16S rRNA-gen heeft een grootte van
ongeveer 1.500 bp en een alternerende structuur bestaande uit enkele sterk geconserveerde
regio’s en negen hypervariabele regio’s (v1-v9) (Armougom & Raoult, 2009). De redenen waarom
het als een gouden standaard gebruikt wordt voor het bestuderen van bacteriële fylogenie en
taxonomie zijn omdat het bijna in alle bacteriën aanwezig is, de functie ervan in de loop van de
tijd niet veranderd is en het gen groot genoeg is om een voldoende hoeveelheid informatie aan te
bieden (Janda & Abbott, 2007; Woese, 1987).
1.2.2.1 Fingerprinting methodes
Om sneller een idee te krijgen van de biodiversiteit en verschuivingen binnen en tussen
ecosystemen kan er een ‘fingerprint’ worden gemaakt van de microbiële gemeenschappen.
Moleculaire fingerprint technieken worden gebruikt voor het identificeren van individuen
gebaseerd op hun eigen DNA profiel. Het DNA wordt gefragmenteerd met behulp van
restrictiesites die aanwezig zijn in het DNA. Elk restrictie digest geeft aanleiding tot een uniek
patroon dat gevisualiseerd kan worden met behulp van gelelektroforese. Dit patroon is beter
gekend als de fingerpint. Denaturing Gradient Gel Electrophoresis (DGGE), Terminal
Restriction Fragment Length Polymorphism (T-RFLP) en Automated Ribosomal Intergenic
Spacer Analysis (ARISA) zijn drie fingerprint methoden die wijdverspreid gebruikt worden voor
de analyse van microbiële gemeenschapsstructuren (Okubo & Sugiyama, 2009) (Bijlage 7.1).
DGGE gaat DNA moleculen scheiden op basis van de GC/AT-inhoud m.b.v. een chemische
gradiënt van denaturerende componenten (ureum en formamide). Tijdens de elektroforese
zullen DNA moleculen met een hogere AT-inhoud sneller dissociëren dan DNA moleculen met
een hogere GC-inhoud. T-RFLP analyseert polymorfe lengtes van terminale restrictie
fragmenten (T-refs) die gegenereerd werden via digestie van PCR-amplicons door restrictie
enzymen. De derde methode, ARISA, maakt gebruik van de hoog variabele ITS regio’s van het
rDNA en discrimineert hun lengte volgens hun migratie afstand. Elk van deze drie technieken
heeft zijn eigen voor- en nadelen. DGGE kan gebruikt worden voor analyse van complexe
gemeenschappen, aangezien de techniek ook de mogelijkheid geeft om een sequentie analyse
uit te voeren via de productie van kloon bibliotheken. In vergelijking met de andere twee
fingerprint technieken heeft DGGE een lagere resolutie. Enkel de dominante populaties die
elk minstens 1% van de totale gemeeschap uitmaken, worden weergegeven met DGGE
(Marzorati et al, 2008; Shade et al, 2012; Speksnijder et al, 2001). T-RFLP is een veelzijdige
methode met een beschikbare database en is geschikt voor de analyse van gemeenschappen
bestaande uit bekende leden of voor specifieke taxonomische groepen met beperkte
diversiteit. Het is echter onmogelijk om de sequenties terug te krijgen eens de techniek is
uitgevoerd en verschillende sequenties die eenzelfde restrictie plaats hebben resulteren in
één piek. ARISA heeft de hoogste resolutie en is geschikt voor de classificatie van
nauwverwante microbiële taxa. Het nadeel van ARISA is een onderschatting van de diversiteit
wanneer ongerelateerde micro-organismen intergenische regio’s bevatten van gelijke lengte
die in het ARISA profiel als één piek worden weergeven (Fisher & Triplett, 1999). Naast deze
drie methoden bestaan er nog verschillende andere methoden van fingerprinting,
25
Inleiding
weergegeven in Tabel 1. De PCR-gebaseerde fingerprint methoden geven in het algemeen een
onderschatting van de diversiteit weer, aangezien bijna alle technieken voornamelijk de
dominante leden van de gemeenschap in complexe omgevingen identificeren (Rincon-Florez
et al, 2013).
Tabel 1: De voor- en nadelen van verschillende fingerprinting technieken die gebruikt worden voor microbiële
diversiteit studies. LMW RNA: low molecular weight RNA, TGGE: temperature gradient gel electrophoresis,
SSCP:single stranden conformation polymorphism, RAPD/DAF: randomly amplified polymorphic DNA/DNA
amplified fingerprinting, Bp-PEG: bisbenzimide polyethyleneglycol electrophoresis, ADRA: amplified ribosomal
DNA restriction analysis. (Schloss et al, 2009)
Techniek
LMW RNA
TGGE
SSCP
RAPD/DAF
Bp-PEG
ADRA
Voordelen
Geen in vitro amplificatie stap nodig.
Identificatie van de leden van de
bacteriële gemeenschap mogelijk.
Identificatie van de leden van de
bacteriële gemeenschap mogelijk.
Geen speciale primer ontwikkeling
nodig.
Eenvoudige methode, geen duur
materiaal vereist.
Geen duur materiaal vereist.
Nadelen
Snelle RNA degradatie, beperkte
fylogenetische informatie en lengte
variatie van het LMW RNA.
Enkel kleine fragmenten (± 550 bp);
dubbele banden en heteroduplexe
moleculen.
Enkel kleine fragmenten (150-400nt);
Problemen met reproduceerbaarheid.
Geeft geen fylogenetische informatie;
problemen met reproduceerbaarheid.
Lage resolutie. De beschikbaarheid en
de prijs van de Bp-PEG kleuring
Het aantal bandjes op de gel is niet
direct gerelateerd aan het aantal
leden van de gemeenschap.
1.2.2.2 Sanger sequenering
Een van de ontwikkelingen die PCR mogelijk maakte, was DNA-sequenering. DNA-sequenering
werd het eerst beschreven in 1977 door (Maxam & Gilbert, 1977)en (Sanger et al, 1977). De
methode van Maxim en Gilbert steunde op chemische degradatie, terwijl de methode van
Sanger gebaseerd was op enzym-polymerisatie. Sanger-sequenering, genoemd naar zijn
uitvinder Frederick Sanger, is beter gekend als de keten-terminerende methode of de
dideoxynucleotide methode. Verbeteringen van de Sanger-sequenering methode hebben tot
de ontwikkeling van de geautomatiseerde capillaire elektroforese (CE) systemen geleid die op
de markt gebracht werden door Applied Biosystems Inc., nu geïntegreerd in Life Technologies,
en door Beckman Coulter Inc (Niedringhaus et al, 2011). Deze technologie wordt
tegenwoordig in labo’s gebruikt over heel de wereld, maar kampt met beperkingen omtrent
de doorvoersnelheid, de snelheid, de resolutie en de schaalbaarheid. De grootste limiterende
factor van de Sanger-techniek is de kost en de tijd, met als gevolg dat de meeste studies slechts
enkele honderden klonen konden sequeneren (Karger & Guttman, 2009). Het sequeneren van
een klein aantal klonen heeft als gevolg dat voornamelijk de dominante componenten van de
microbiële gemeenschap, die de detectie van de laag-abundante micro-organismen
bemoeilijken, opgenomen worden. Deze laag-abundante micro-organismen vormen een zeer
diverse zeldzame biosfeer in bijna alle omgevingen met inbegrip van de bodem (Pedrós-Alió,
26
Inleiding
2012; Sogin et al, 2006). Ze zijn grotendeels ongekend en bieden een potentieel onuitputtelijk
genetisch reservoir aan dat alleen verkend kan worden wanneer de zeldzame bacteriën in
cultuur te brengen zijn of door middel van grootschalige sequeneringstechnieken zoals de
Next-Generation Sequencing (NGS) technieken. De ontwikkeling van de NGS-technieken
overbrugde alle beperkingen van de Sanger-sequenering en ze werden recent van groot
belang voor het bestuderen van zeer diverse microbiële gemeenschappen. De NGSplatformen omvatten massieve parallelle sequenering die de bepaling van genoomsequenties
op grote schaal toelaat (Tucker et al, 2009) en voor een dramatische daling in
sequeneringskosten zorgt (Metzker, 2010). Deze methoden bieden het voordeel dat een
hoger aantal sequenties uit een bredere selectie van stalen kan opgepikt worden in
vergelijking met de kloneringsbibliotheken. In vergelijking met DGGE is het mogelijk om met
de NGS-methoden een hoger aantal taxa per staal te detecteren en zo de zeldzame biosfeer
te bestuderen (Sogin et al, 2006). Twee NGS-platformen, Roche 454 sequenering en Ion
Torrent sequenering, werden gebruikt doorheen dit project voor het bestuderen van de
microbiële gemeenschappen.
1.2.2.3 454-sequenering of pyrosequenering
Roche 454 pyrosequenering (http://www.454.com/) is een ‘sequencing-by-synthesis’
methode waarbij de vier nucleotiden (T, A, C, G) achtereenvolgens in herhalende cycli over
een PicoTiterPlaat vloeien. De plaat bestaat uit meerdere welletjes die elk maximum één bead
bevatten met meerdere kopieën, bekomen door klonale amplificatie m.b.v. emulsie-PCR, van
één uniek enkelstrengig DNA-fragment (Figuur 3). De detectie van een geïncorporeerde
nucleotide gebeurt met een gekoelde charge-coupled device camera en is gebaseerd op de
vrijstelling van pyrofosfaat (PPi) tijdens de nucleotide incorporatie (Huse et al, 2007). Deze
detectie omvat een kettingreactie waarbij vier enzymen betrokken zijn. Het eerste enzym is
polymerase en katalyseert de DNA synthese, waarbij PPi wordt vrijgesteld. Het vrijgestelde
PPi wordt vervolgens omgezet tot ATP door ATP-sulfurylase. De ATP molecule gaat verder
reageren met luciferine, in een luciferase gemedieerde reactie. Hierbij wordt oxyluciferine
gevormd, een bioluminescerende component die zichtbaar licht genereert. Overbodige ATP
moleculen en nucleotiden worden afgebroken door het APYRASE enzym. De intensiteit van
het zichtbaar licht dat geproduceerd wordt, is proportioneel aan het aantal nucleotiden
(Margulies et al, 2005).
Het nieuwste 454-platform (Tabel 2), GS FLX Titanium XL+, geeft leeslengtes van 700 tot 1000
bp (http://454.com/products/gs-flx-system/), die lang genoeg zijn om taxonomische
classificatie tot op het genus niveau toe te laten. De lengte van de reads is afhankelijk van het
aantal flows die worden uitgevoerd. In vergelijking met de andere NGS-platformen zijn de
leeslengtes die door Roche 454 bekomen worden redelijk lang. Samen met een betere
doorvoersnelheid, in vergelijking met de conventionele sequeneringsmethoden, laten deze
leeslengtes het pyrosequeneringsplatform toe zeldzame micro-organismen te detecteren in
microbiële gemeenschappen.
27
Inleiding
Tabel 2: Vergelijkende samenvatting van drie Next-Generation Sequenering platforms. Een vergelijking van
Ion Torrent (PGM 318), Roche 454 (GS FLX XL+) en Illumina (Miseq) hoge doorvoersnelheid platformen. De
specificaties van elk instrument, voorzien door de verkoper, worden weergegeven, waaronder de kost,
snelheid, lengte, accuraatheid, de grootte van de dataset en type primaire fouten.
* 318 chip, Template kit en Sequenering Kit
1.2.2.4 Ion-Torrent sequenering
Ion Torrent sequenering (http://www.iontorrent.com/) is net zoals pyrosequenering een
‘sequencing-by-synthesis’ methode, waarbij de template bibliotheek ook wordt aangemaakt
via klonale amplificatie m.b.v. emulsie-PCR (Figuur 3). De Ion Torrent methode steunt op een
revolutionaire nieuwe techniek: de halfgeleider technologie. Dit is een techniek waarbij de
detectie van een nucleotide incorporatie gebaseerd is op het meten van een pH-verandering.
Aan de basis van elke microwell, waarin zich één DNA-template bevattende bead bevindt,
wordt een ion-chip geplaatst. Het toevoegen van nucleotiden gebeurt via een was-cyclus,
waarbij de nucleotiden die worden toegevoegd op voorhand bepaald zijn en deel uitmaken
van een korte sequentie van nucleotiden. Bij Roche 454 bestaat deze was-cyclus uit vier
nucleotiden: TACG. De eerste generatie van de Ion Torrent Personal Genome Machine (PGM)
steunde ook op een was-cyclus van 4 nucleotide, maar dit werd intussen aangepast waardoor
de huidige PGM platforms een was-cyclus bestaande uit 32 nucleotiden toepassen, genaamd
de Samba (Golan & Medvedev, 2013). Telkens wanneer een nucleotide geïncorporeerd wordt
tijdens de DNA-synthese zal een proton worden vrijgesteld. Met behulp van de ion chip die
pH-sensitieve, field effect transistor (pHFET) sensoren bevat, worden de vrijgestelde protonen
direct gemeten, zonder de vereiste van gelabelde nucleotiden (Merriman et al, 2012;
Rothberg et al, 2011). In vergelijking met de andere NGS-platformen heeft de Ion Torrent
methode enkele voordelen: geen optische detectie, ongemodificeerde dNTP-moleculen,
gebruik makend van de halfgeleider technologie en een reductie in de tijd per run. De Ion
Torrent PGM produceert reads met een lengte van 400 bp in ongeveer zeven uur met een
totale output van maximaal 2 Gb. Ondanks deze voordelen, blijft de sequentie accuraatheid
van de Ion Torrent een grote zorg.
28
Inleiding
Figuur 3: Overzicht Ion Torrent en 454 sequenering. Beide platforms steunen op emulsie PCR voor
DNA amplificatie. Het is een reactiemengsel bestaande uit een olie-waterige emulsie die bead-DNA
complexen inkapselt (één bead per waterdruppel). PCR-amplficatie wordt uitgevoerd binnen deze
druppels om zo beads te creëren die enkele duizenden kopieën bevatten van dezelfde template
sequentie. Tijdens de sequenering bevinden alle beads zich in een welletje waar de nucleotiden
achtereenvolgens zullen passeren. Bij de Ion Torrent wordt een nucleotide incorporatie gemeten door
een pH-verandering als gevolg van de vrijstelling van protonen. De 454-pyrosequenering daarentegen
is gebaseerd op een vier-enzym real-time monitoring DNA-synthese met behulp van
bioluminescentie. Wanneer homopolymere herhalingen van een nucleotide aanwezig zijn (GGG) dan
zal de licht intensiteit sterker zijn (Roche 454) of zullen meerdere waterstof ionen worden vrijgesteld,
leidend tot een hoger elektrisch signaal (Ion Torrent). Dit wordt dan ook geïnterpreteerd als meerdere
identieke nucleotiden die aanwezig zijn in de sequentie. (Churko et al., 2013)
29
Inleiding
1.2.2.5 PCR- en Next-generation sequeneringsfouten
Roche 454 pyrosequenering en Ion Torrent sequenering zijn beide PCR-gebaseerde
technieken. Het grootste aandeel aan fouten in de output van deze technieken – zoals
chimeren – is aan deze stap te wijten. Chimeren zijn hybride sequenties afkomstig van
meerdere ouder-sequenties. Ze worden vaak gevormd wanneer nauw verwante sequenties
samen geamplificeerd worden. Deze sequenties kunnen aanzien worden als nieuwe
organismen waardoor ze leiden tot een overschatting van de diversiteit (Haas et al, 2011). Het
merendeel van de chimere sequenties ontstaan door incomplete elongatiestappen en vele
chimeren worden ook gevormd tijdens de laatste cycli van de PCR reactie. Door het aantal
cycli te reduceren en de elongatietijd te verlengen wordt de vorming van chimeren sterk
gereduceerd (Qiu et al, 2001; Acinas et al, 2005). Andere PCR-gebaseerde fouten zijn de
vorming van dubbelstrengige moleculen door recombinatie van complementaire
enkelstrengige moleculen (heteroduplexen), foutieve nucleotiden incorporaties tijdens DNA
synthese (DNA-polymerasefouten) en een ongelijke voorkeur voor het sequeneren van de ene
sequentie ten opzichte van een andere (preferentiële amplificatie). Heteroduplexen zijn
onvermijdelijk wanneer een mix van homologe genen als PCR-template gebruikt worden (Qiu
et al, 2001). GC-en AT-rijke sequenties zijn de voornaamste bron die tot preferentiële
amplificatie leiden (Walsh et al, 1992). In een studie van (Jaenicke et al, 2011) werd een GCbias geïdentificeerd voor pyrosequeneringsdata, maar niet voor de GS FLX Titanium platforms.
Wat wel werd aangetoond voor het GS FLX en het Titanium platform was een correlatie tussen
de GC-inhoud en de leeslengte. Een significante daling in GC-inhoud werd waargenomen
wanneer de leeslengte een bepaalde lengte overschreed (Jaenicke et al, 2011). Initiële studies
omtrent de Ion Torrent PGM rapporteerden dat er weinig tot geen relatie was tussen de
genoom-coverage en de GC-inhoud. Recent werd er echter beweerd dat er grote genoomcoverage bias was in het geval van AT-rijke sequenties (Quail et al, 2012). In een studie van
(Bragg et al, 2013) werd een hogere error rate waargenomen bij het sequeneren van GC-arme
soorten in vergelijking met GC-rijke soorten. Ook werd er aangetoond dat de Ion Torrent PGM
genoom-coverage biases introduceert in zowel lage als hoge G+C% sequenties.
Elk sequeneringsplatform heeft ook zijn eigen biases en beperking met betrekking tot de
gegenereerde data. Deze omvatten o.a. de leeslengte, de homopolymeerlengte en basecallaccuraatheid. Door deze biases en artefacten kan de diversiteit en abundantie van
merkergenen snel over- of onderschat worden. Roche 454 heeft een gemiddelde error rate
van 1.07% (Gilles et al, 2011) terwijl Ion Torrent een error rate van 2.84% (1.8% met de Samba
flow-cyclus) benadert (Quail et al, 2012; Bragg et al, 2013). Sequeneringsfouten van Roche
454 en Ion Torrent kunnen opgedeeld worden in vier groepen: insertie, deletie, mismatch en
een dubbelzinnige base, N (Huse et al, 2007). De meeste sequentiefouten bij pyrosequenering
gaan gepaard met het sequeneren van homopolymere regio’s (i.e. regio’s bestaande uit
identieke basen). Ook bij Ion Torrent PGM zijn de homopolymeren de dominante fouten en
ze zijn het gevolg van inaccurate flow-waarden. Flow-waarden van langere homopolymeren
(>8 bp) zijn vaak onnauwkeurig en resulteren in hogere homopolymere insertie/deletiefouten (indels) en een lager aantal substitutiefouten (Margulies et al, 2005). Het aantal indelfouten neemt zowel bij Roche 454 als bij Ion Torrent toe wanneer de afstand ten opzichte van
het begin van de read groter wordt (Huse et al, 2007; Bragg et al, 2013). In Ion Torrent
sequenering komen de inserties algemeen meer voor dan deleties, maar bij toenemende
30
Inleiding
homopolymere lengtes wordt deletie de dominantie sequentiefout. In een studie van (Quail
et al, 2012) werd aangetoond dat de Ion Torrent geen reads genereerde voor homopolymeren
>14 bp en een foutief aantal basen introduceert bij homopolymeren >8 bp. Veelvoorkomende
en reproduceerbare homopolymere fouten kunnen resulteren in relatief abundante valse
fylotypes (Kunin et al, 2010). De dubieuze homopolymeren (>8 bp) kunnen verwijderd worden
door het trimmen van de sequenties tijdens de data analyse. Alhoewel alle NGS-methoden
moeite hebben met het sequeneren van deze regio’s, is het problematischer bij de Ion Torrent
en Roche 454 aangezien de nucleotiden geen blokkerende uiteinden hebben. Dit kan leiden
tot het introduceren van volledige homopolymeren in één cyclus (Churko et al, 2013). Een
dubbelzinnige base, N, in de sequentie is een indicatie voor het onvermogen van Roche 454
pyrosequenering om accuraat een base toe te wijzen op die positie in de sequentie. Het aantal
N-fouten kan tot 21% van alle fouten bedragen en kan ook gecorreleerd worden met andere
type fouten (Huse et al, 2007). Het voorkomen van sequentie-specifieke N-fouten met een
gemeenschappelijk sequentiepatroon (een homopolymeer + enkele basen verschillend van de
homopolymeer + N) werd aangetoond. Ook de identiteit van de N base, zijnde de nucleotide
base van de homopolymeer, werd geïdentificeerd (Shin & Park, 2014).
1.3 Data analyses
De ontwikkeling van de hoge-doorvoersnelheids-sequeneringstechnieken ging gepaard met
de ontwikkeling van nieuwe bronnen aan sequentiefouten in vergelijking met de traditionele
dideoxy-cappilaire-sequenering (Huse et al, 2007). Samen met de productie van de grote
hoeveelheid data leidde dit tot de conclusie dat nieuwe bioinformatica tools nodig waren voor
het verwerken en analyseren van de data. (Schloss & Handelsman, 2005) introduceerden in
2005 het Distance-Based OTU en Richness (DOTUR) programma dat sequenties toewijst aan
OTU’s, gebaseerd op de genetische afstanden tussen de sequenties. De afstanden tussen de
sequenties worden berekend aan de hand van het furthest average of het nearest neighbor
algoritme. DOTUR identificeerde ook voormalige inconsistenties en fouten bij het toekennen
van sequenties aan OTU’s. In 2007 introduceerde GS20 pyrosequenering de software CAFIE
(Huse et al, 2007), Carry Forward and Incomplete Extensions. Het CAFIE algoritme gaat reads
inkorten vanaf 3’ uiteinde en stopt dit proces wanneer er minder dan 3% van de overblijvende
flowgram waarden een gemiddelde score bevatten. Daarnaast gaat het ook reads verwijderen
die na trimming (verwijderen van de barcode en primer sequenties) een lengte overhouden
lager dan een vooraf ingestelde cutoff waarde. (Kunin et al, 2010) onderzochten het effect
van sequentiefouten op diversiteitsstudies. Het verwijderen van reads met N-basen of
afwijkende read lengte werd toen gezien als de standaard toepassing, maar bleek
onvoldoende te zijn om accurate diversiteitsstudies uit te voeren met een 97% cluster
threshold. Door verbeteringen in de foutberekeningen voor de pyrosequeneringsdata in 2008,
(Brockman et al, 2008) werd het mogelijk om trimming toepassingen zoals LUCY (Chou &
Holmes, 2001) uit te voeren, die gebaseerd zijn op kwaliteitsscores per nucleotide. In 2009,
werd een nieuw algoritme ontwikkeld, Pyronoise (Quince et al, 2009). De flowgrams die
bekomen worden door Roche 454 pyrosequenering worden geclusterd door gebruik te maken
van een afstandsmaat die sequentieruis modelleert, wat resulteert in accuratere OTU’s. In
2011 werd vervolgens AmpliconNoise, een verdere ontwikkeling van het PyroNoise algoritme,
geïntroduceerd, dat in staat is om de Roche 454 sequentiefouten en de PCR-per-base fouten
31
Inleiding
apart te verwijderen (Quince et al, 2011). Naast algoritmes voor het reduceren van
sequentiefouten werden ook enkele chimera detectie programma’s ontwikkeld zoals
ChimeraSlayer (Haas et al, 2011), Perseus (Quince et al, 2011) en UCHIME (Edgar et al, 2011).
ChimeraSlayer kan gemakkelijk toegepast worden op grote datasets, presteert goed op korte
sequenties en is sensitief voor nauwverwante 16S-genen. Perseus is gebaseerd op twee
nieuwe principes. [1] aangezien de ‘ouders’ van de chimere sequentie op zijn minst één PCR
reactie meer hebben ondergaan, kan er gezocht worden naar sequenties die een gelijke of
een grotere abundantie bevatten dan de chimere sequentie zelf voor het vinden van de
mogelijke ‘ouder’ sequenties. [2] Het verwijderen van de chimeren moet behandeld worden
als een probleem in de classificatie. Perseus heeft een hoge sensitiviteit; het programma vindt
99% van de chimere sequenties terug in een dataset gebaseerd op de twee principes. Het
derde programma, UCHIME, kan chimeras detecteren; enerzijds door gebruik te maken van
een database zonder chimere sequenties en anderzijds de novo door gebruik te maken van
data abundantie. Uchime heeft de hoogste sensitiviteit en behoudt vergelijkbare error rates.
Voor elke sequentie wordt door Uchime bovendien een score bijgehouden waardoor de
gebruiker de sensitiviteit kan inruilen voor specificiteit. Dit door de minimum score threshold
aan te passen die onderscheid maakt tussen de chimere sequenties en de biologische
sequenties.
Ondanks de vele reducties bleven er nog veel artefacten en valse OTU’s bestaan (Schloss et al,
2011). Er was een hoge nood aan nieuwe applicaties die een uitgebreide set van analyses
samen konden laten lopen in één systeem. In 2009 en 2010, werden twee dergelijke systemen
vrijgegeven, respectievelijk Mothur (Schloss et al, 2009) en QIIME (Caporaso et al, 2010).
Beiden pipelines ondersteunen naast een groot aantal geïmplementeerde data analyse
programma’s, een grote variëteit aan statistische en visualisatie tools (Venndiagrammen, heat
mappen) (Schloss et al, 2009; Caporaso et al, 2010). Recent, in 2013, werd een nieuw systeem
geïntroduceerd, de UPARSE pipeline (Edgar, 2013). Vele andere computationele programma’s
staan gratis online ter beschikking voor het analyseren van een dataset (Gogol-Döring & Chen,
2012).
Typische diversiteit data-analyses bevatten een basis workflow die opgedeeld kan worden in
drie stappen. Eerst worden de primers, de barcodes, reads die te kort zijn en sequentiefouten
verwijderd uit de dataset. Vervolgens vindt alignering plaats met behulp van meervoudige
alignering (MSA) of via het berekenen van paarsgewijze afstanden, i.e. het aantal posities
waarin twee sequenties verschillen (Woese, 1987). De derde en laatste stap omvat de
clustering van sequenties in OTU’s volgens een gewenste cutoff waarde (Barriuso et al, 2011).
Elke pipeline personaliseert deze stappen en voegt eventuele additionele stappen toe.
1.3.1 Pipelines
1.1.1 Qiime
Qiime, Quantatative insights into microbial ecologie (http://qiime.sourceforge.net/), is een
open beschikbare software pipeline die gebruikt maakt van de PyCogent toolkit (Knight et al,
2007) voor het verwerken en analyseren van de ruwe sequentie data bekomen na
sequenering. De focus van de Qiime pipeline ligt op downstream analyse.
32
Inleiding
1.2 Mothur
Naast het verwijderen van sequentie fouten, alignering en OTU-clustering voert Mothur
enkele additionele stappen uit, zoals het selecteren van unieke sequenties en preclusteren.
De additionele stappen in Mothur helpen de sequentiefouten zoveel mogelijk te reduceren
alsook de hoeveelheid data die verwerkt moet worden (Schloss, 2010; Schloss et al, 2011).
Een aantal reeds bestaande algoritmes/programma’s werden geïntegreerd in Mothur:
DOTUR, TreeClimber, UniFrac, e.a. (Schloss et al, 2009). Mothur is ook in staat om de α- en βdiversiteit van de data te berekenen. Het identificeren van de rijkdom aan soorten in een
gemeenschap wordt bijvoorbeeld gedaan a.d.h.v. Chao1-curves en rarefaction curves.
1.2.1 Uparse
Uparse (http://drive5.com/uparse/) werkt met kwaliteit gefilterde reads en maakt OTU’s de
novo aan. Voor de clustering van de OTU’s werd een nieuw algoritme geïntroduceerd,
UPARSE-OTU, dat OTU clustering simultaan uitvoert met het verwijderen van chimere
sequenties. Deze stap verbetert de accuraatheid van de pipeline dramatisch. UPARSE-OTU
maakt OTU’s aan met ≤1% incorrecte basen in artificiële microbiële gemeenschapstesten, dit
in vergelijking met algemeen >3% incorrecte basen bij andere methoden. Deze verbeterde
accuraatheid resulteert in veel minder OTU’s, wat beter aanleunt bij het verwachte aantal
soorten in een gemeenschap (Edgar, 2013).
1.4 Eerdere diversiteitsstudies in Antarctica
De Council of Managers of National Antarctic Programs (COMNAP) kondigde op 13 februari
2014 aan dat er 104 faciliteiten aanwezig zijn op Antarctica, die tot 29 Nationale Antarctisch
Programma’s behoren (Afrika[1], Amerika[8], Azië[4], Australië[2] en Europa[14]), momenteel
actief in Antarctica (www.comnap.aq/Information/SitePages/Home.aspx). In de Antarctische
zomer van 2007-2008 werd het eerste “zero emissie” wetenschappelijk station in Antarctica
gebouwd door België. Dit is het tweede Belgische wetenschappelijke station dat gebouwd
werd op Antarctica. De bouw van het eerste station, de Koning Boudewijnbasis, ging van start
op 26 december 1957 op 70°25’33’’ zuiderbreedte en 24°19’0’’ oosterlengte
(http://www.hetlaatstecontinent.be/). Het station sloot definitief haar deuren in 1967. Sinds
15 februari 2009 beschikt België officieel opnieuw over een wetenschappelijk station in
Antarctica, de Prinses Elisabethbasis (http://www.antarcticstation.org/). De onderzoeksbasis
bevindt zich op 71°57’ zuiderbreedte en 23°20’ oosterlengte aan de voet van het SørRondanegebergte (Koningin Maud Land), dichtbij de Utsteinen nunatak in noordoostAntarctica.
In januari 2007 werden tijdens een expeditie stalen verzameld uit de omgeving waar de
huidige Prinses Elisabethbasis gelokaliseerd is. De stalen werden genomen voor de
bouwwerken van de basis van start gingen. Twee van deze stalen (BB50 & BB115) werden
middels cultivatie onderzocht door (Peeters et al, 2011a). De diversiteit van de gecultiveerde
heterotrofe bacteriën uit de twee stalen werd bestudeerd. Voor de cultivatie van de bacteriën
werden vier verschillende groeimedia gebruikt: Marine agar 2216, R2A, 10x verdunde R2A
(R2A/10) en Peptone-Yeast-Glucose-Vitamin (PYGV) medium. Drie verschillende incubatie
condities (20, 15 en 4 °C) werden toegepast onder een aerobe atmosfeer. Zuivere culturen
werden gecryopreserveerd op -80°C met behulp van broth medium en 15% glycerol. Cultivatie
33
Inleiding
en isolatie werden gevolgd door een repetitive element palindromic (rep)-PCR voor het
verwijderen van duplicate isolaten. Vervolgens werd sequenering van het volledige 16S rRNAgen uitgevoerd voor de representatieve van elk rep-type. Dezelfde experimentele set-up
onder aerobe condities werd ook gebruikt voor diversiteitsstudies van twee stalen (TM2 &
TM4) uit het Transantarctisch Gebergte (Peeters et al, 2011b) en vijf stalen uit verschillende
regio’s in Antarctica; het Pourquoi-Pas eiland (PQP), de Syowa Oase (LA3, SK5 & WO10) en de
Schirmacher Oase (SC6) (Peeters & Verleyen, 2012). Op fylum niveau werden er vier
gemeenschappelijke fylotypes teruggevonden in de negen stalen: Actinobacteria,
Bacteroidetes, Proteobacteria, en Firmicutes. Vier van de negen stalen (BB50, BB115, SC6 en
W010) hadden ook het fylum Thermi gemeenschappellijk
34
Doel van het project
2 Doel van het project
Met deze studie werden meerdere doelen voor ogen gehouden. (1) De impact van
verschillende PCR-condities op één van onze datasets onderzoeken. (2) Een vergelijking
maken van de NGS-platforms, IonTorrent en Roche-454. Elk platform heeft zijn eigen biases;
data-outputs van de technieken werden onderling vergeleken gebaseerd op één
omgevingsstaal en negen controle stalen. (3) Een vergelijking maken van de alternatieve
pipelines, Mothur en Uparse. Verschillende parameters (leeslengtes, gebruik van bepaalde
commando’s en volgorde van de verschillende stappen) werden hierbij getest. Door de twee
NGS-platformen en de data output van beide pipelines te vergelijken, zou bepaald worden
welke experimentele set-up tot de meest accurate resultaten leidde. (4) Bijdragen tot het
beter begrijpen van de biogeografie van (sub-) Antarctische micro-organismen, waarover door
de ontoegankelijkheid van Antarctica relatief weinig geweten is. Recent gepubliceerde studies
die gebruik maken van NGS-technieken, lieten ons toe enkele beschikbare datasets te
gebruiken om een preliminaire biogeografische diversiteitsstudie uit te voeren voor koude
omgevingen.
35
Resultaten
3 Resultaten
3.1 Het effect van verschillende parameters op de data output van
twee data analyse pipelines
De stalen (Materiaal en Methode 5.1.1) die gesequeneerd werden met Roche 454
pyrosequenering, werden verder verwerkt en geanalyseerd met de twee pipelines, Mothur en
Uparse. De negen stalen werden gezien als één dataset waarop tijdens de data analyse
verschillende parameters werden uitgevoerd. De verschillende data outputs werden
vervolgens onderling vergeleken op basis van het aantal OTU’s, het aantal sequenties en het
aantal chimera’s. Het totaal aantal sequenties vóór de data analyse was 711073. Het totaal
aantal
sequenties
na
de
analyse
met
de
default
Mothur
pipeline
(http://www.mothur.org/wiki/454_SOP) was 23852 en 21092 na analyse met de default
Uparse pipeline (Bijlage: 7.3).
De default Mothur pipeline kende de 3028 geobserveerde OTU’s toe aan 38 verschillende fyla,
terwijl de default Uparse pipeline 2153 geobserveerde OTU’s toekende aan 37 verschillende
fyla identificeerde. De voornaamste fyla die met beide pipelines geïdentificeerd werden en
die minstens 4% van het totaal aantal OTU’s vertegenwoordigden, waren: Proteobacteria,
Bacteroidetes, Actinobacteria, Chloroflexi, Planctomycetes en Firmicutes (in afnemende
volgorde). Een duidelijk verschil was te zien tussen het aantal geclusterde OTU’s (3028 en
2153) die enerzijds met de Average Neighbor methode (in Mothur) en anderzijds met het
Uparse-OTU algoritme (in Uparse) bekomen werden. In Tabel 9 wordt een overzicht
weergegeven van de verschillende data outputs, omtrent het aantal OTU’s, sequenties en
chimere sequenties die het resultaat zijn van verschillende paramaters uitgetest met de
Mothur en Uparse pipeline op onze Roche 454 data. Een volledig overzicht van data outputs
op fylum niveau is te vinden in de Bijlage 7.2.
Het langste homopolymeer dat voorkwam in de sequenties was 31 bp lang. De default Mothur
pipeline liet homopolymeren van 8 bp toe aangezien de lengte van de homopolymeren die
aanwezig waren in 95.7% van de reads, 6 tot 7 bp was. Het laagste aantal OTU’s werd bekomen
wanneer het maximaal aantal toegelaten homopolymeren op vier werd ingesteld, de
‘Maxhp4’ analyse (Tabel 3). Hierbij bleven er na data analyse een lager aantal sequenties over
die geclassificeerd werden in slechts 31 fyla. Naast de ‘MaxHp4’ analyse gaf de Gotoh
alignering ook een relatief klein aantal OTU’s weer.
Het grootste aantal OTU’s werd bekomen wanneer het trimmen van de sequenties werd
uitgevoerd met behulp van de kwaliteitsscores. Met een gemiddelde Phred score van 25 per
50 bp werden sequenties met een gemiddelde lengte van 265 bp bekomen. Hiermee werden
de sequenties geclusterd in 5383 OTU’s, waarvan er 63% tot de niet-geclassificeerde OTU’s in
vergelijking met ±10% bij de andere Mothur analyses en 10 tot 15% bij de Uparse analyses.
Het aantal niet-geclassificeerde OTU’s in de default Mothur analyse werd gereduceerd met
6.6%, wanneer de classificatie werd uitgevoerd met een gefilterde Greengenes referentietemplate. De classificatie die hierbij plaatsvond was nauwkeuriger waardoor er meer
sequenties geïdentificeerd en geclassificeerd werden tot op het genus niveau.
37
Resultaten
Tabel 3: Een overzicht van de data-analyse-outputs van de Roche 454 dataset bekomen door verschillende
parameters te latenvariëren met Mothur en Uparse. De V1-V3 regio van het 16S rRNA gen van negen stalen uit
verschillende Antarctische regio’s werd gesequeneerd met het Roche 454 FLX + Titanium platform. De ruwe
dataset werd geanalyseerd met Mothur en Uparse en verschillende parameters werden uitgetest. De sequenties
van de negen stalen werden geclusterd in OTU’s met een identiteits-threshold van 97% en ze werden
geclassificeerd met behulp van de Greengenes database.
QS: kwaliteitsscore, Ref_Templ: classificatie van de default analyse met een gefilterde Greengenes referentietemplate, MinL250: minimum leeslengte van 250 bp, B0P0: nul mismatches voor de Barcode- en
Primersequentie: B2P2: twee mismatches voor de Bardcode- en Primersequentie, B0P2: nul mismatches voor
de Barcodesequentie en twee mismatches voor de Primersequentie,
MaxHp4: maximum lengte van
homopolymeren is 4 bp, MaxHp12: maximum lengte van homopolymeren is 12 bp, PreC: de default Mothur
pipeline zonder de precluster-stap, Gotoh: Aligneringsmethode, Elke gap: straft elke aanwezige gap, Geen gap:
negeert de aanwezige gaps, B0P2/qTh_16: een combinatie van B0P2 met een kwalitaitsscore threshold van
minimum Q16, 2_Ch_GoldOtu: twee chimera-stappen waarvan de eerste de Silva Gold database gebruikt en
de tweede de representatieve sequentie van elke OTU.
Het toegelaten aantal mismatches voor de primer- en barcodesequentie is respectievelijk 2
en 1 in de default Mothur pipeline en 2 en 0 in de default Uparse pipeline. Wanneer nul
mismatches werden toegelaten voor zowel de primer- als de barcodesequentie kregen we
voor beide pipelines een kleine vergelijkbare reductie (< 1%) te zien in het totaal aantal OTU’s.
Met Mothur werden ook twee toegelaten mismatches getest voor beide sequenties (B2P2),
wat een stijging van 5.71% van het totaal aantal OTU’s opleverde. Het effect van de toegelaten
mismatches was groter met de barcodesequentie.
Uparse voert twee chimera-stappen uit, één simultaan met de OTU-clustering en één
additionele chimera-stap aan de hand van de Silva Gold referentiedatabase (Quast et al,
2013). Hiermee werden er in de default Uparse pipeline respectievelijk 456 en 38 chimera’s
verwijderd. Deze dubbele chimera-stap werd ook met Mothur uitgeprobeerd. De eerste
chimera-stap, aan de hand van de Silva Gold referentiedatabase, verwijderde 225 chimere
38
Resultaten
sequenties. De tweede chimera-stap, uitgevoerd na de OTU-clustering, was gebaseerd op de
abundantie van de sequenties en verwijderde nog een bijkomende 278 chimere sequenties.
De combinatie van deze twee chimera-stappen (‘2_Ch_GoldOtu’) in Mothur verwijderde het
grootste aantal chimera’s in vergelijking met alle andere analyses; dit is weergegeven in Tabel
3. Verder werd er met Uparse nog gekeken naar de lengte van de reads en het aantal
toegelaten mismatches voor de primer en barcodesequentie (Tabel 3). Een leeslengte van 250
bp enerzijds en nul toegelaten mismatches voor de barcode- en primersequentie anderzijds,
resulteerden beide in een lager aantal OTU’s in vergelijking met de Mothur versie van beide
analyses. Met Uparse werd één fylum meer teruggevonden wanneer een leeslengte van 250
bp werd ingesteld en twee fyla minder wanneer nul mismatches werden toegelaten, ten
opzichte van de Mothur analyses met dezelfde parameterinstelling. Van deze twee analyses
had de leeslengte parameter had het grootste effect op de taxonomische identificatie van de
OTU’s. In beide pipelines werden met deze ingestelde parameters minder chimera’s
gevonden.
Met een combinatie (“Combi” analyse) van verschillende parameters die aanleiding gaven tot
accuratere resultaten, slaagde Mothur erin om het aantal OTU’s te reduceren tot 2937 (Tabel
3). Dit was een verbetering ten opzichte van de andere Mothur data analyses, maar evenaarde
de output van de Uparse pipeline nog steeds niet.
Twee fyla die met de Mothur pipeline geïdentificeerd werden, Caldiserica en WS2, werden
niet waargenomen in de data output van de Uparse pipeline. Omgekeerd identificeerde de
Uparse pipeline het fylum WS6 dat met de Mothur pipeline niet werd teruggevonden. Elk van
deze drie fyla werd vertegenwoordigd door maar één OTU.
Ten slotte werden de data analyses ook uitgevoerd met de reverse primer (Tabel 3). Dit
resulteerde, in vergelijking met de forward primer, in een verlaging van het aantal OTU’s en
het behouden van een groter aantal sequenties na dataverwerking. De Reverse analyse met
Mothur kende de 1990 geobserveerd OTU’s toe aan 37 fyla. Net zoals bij Uparse werd het
fylum Caldiserica hierbij niet teruggevonden, maar wel het fylum WS6. Daarnaast, werd er ook
nog het fylum Lentisphaerae geïdentificeerd, waartoe twee OTU’s behoorden, en verdween
het fylum SR1. De Reverse analyse met de Uparse pipeline observeerde 1530 OTU’s die
geclassificeerd werden als 40 fyla. De nieuwkomers, in vergelijking met de default Uparse
pipeline, waren Hyd24-12, Lentisphaerae, OP3 en WS2. Ook hier verdween het fylum SR1.
Buiten de besproken analyses werden ook andere parameterinstellingen uitgetest. Namelijk
het toelaten van 12 homopolymeren, een data analyse zonder de preclusterstap, variatie van
de verschillende toegelaten gaps, een threshold van Q16 en een maximale leeslengte van 300
bp. MaxHp12, PreC en ‘Elke gap’ resulteerden in een hoger aantal OTU’s met een lager of
gelijk aantal gedetecteerde chimera’s. MaxL300 en ‘Geen gaps’ resulteerden in een lager
aantal OTU’s en een gelijk (Geen gaps) of hoger (MaxL300) aantal gedetecteerde chimera’s.
(Tabel 3)
39
Resultaten
3.2 Taxonomische identificatie
gemeenschappen
van
Antarctische
microbiële
Classificatie van de negen Antarctische stalen (BB115, BB50, LA3, PQP, SC6, SK5, TM2, TM4 en
WO10), bekomen door bidirectionele pyrosequenering van de V1-V3 regio van het 16S rRNAgen, werd uitgevoerd met de Mothur geïmplementeerde versie van de ‘Bayesian classifier’
aan de hand van de referentiebestanden van de Greengenes database. De data analyse werd
voor dit deel van de studie uitgevoerd met de default Mothur pipeline In onderstaande
resultaten worden de niet-geclassificeerde sequenties op elk taxonomisch niveau beschouwd
als één van de fylogenetische groepen wanneer ze daar aanwezig zijn.
De diversiteit van de negen stalen werd onderzocht op verschillende taxonomische niveaus:
fylum, klasse en genus. In totaal werden de 3028 OTU’s toegekend aan 38 fyla, 90 klassen en
227 genera. Op fylumniveau werden er in alle negen stalen zeven gemeenschappelijke
fylogenetische groepen teruggevonden (Figuur 4A), zijnde de Proteobacteria, Bacteroidetes,
Actinobacteria, Chloroflexi, Planctomycetes, Cyanobacteria en Verrucomicrobia. De
Proteobacteria waren het meest voorkomende fylum met 901 verschillende OTU’s (30%),
gevolgd door de Bacteroidetes met 359 verschillende OTU’s (11.9%) en Actinobacteria met
354 verschillende OTU’s (11.7%) (Figuur 4B, 4C & 4D). De Verrucomicrobia daarentegen,
waren het minst abundante van de zeven fyla, met 46 verschillende OTU’s (1.5%). Alhoewel
de Proteobacteria, de Bacteroidetes en de Actinobacteria de helft van het totaal aantal OTU’s
vertegenwoordigen, werd er 56% van de sequenties vertegenwoordigd door de
Proteobacteria (8896 sequenties) en de Cyanobacteria (5210 sequenties). De Cyanobacteria
(99 OTU’s) werden verder onderverdeeld in 12 genera waarvan er drie meer dan 5% van de
OTU’s representeerden binnenin het fylum Cyanobacteria. Deze drie genera zijn Leptolyngbya
(13 OTU’s), Phormidium (9 OTU’s) en Pseudoanabaena (8 OTU’s), waarvan Phormidium tot de
klasse Oscillatoriophycideae behoort en Leptolyngbya en Pseudoanabaena tot de klasse
Synechococcophycideae.
Naast de zeven gemeenschappelijke fyla, zijn er drie fyla die in acht van de negen stalen
voorkomen: Firmicutes (BB50, LA3, PQP, SC6, SK5, TM2, TM4 en WO10), Gemmatimonadetes
(BB115, BB50, LA3, PQP, SC6, TM2, TM4 en WO10) en TM7 (BB115, LA3, PQP, SC6, SK5, TM2,
TM4 en WO10). Bij de twee terrestrische stalen uit de omgeving van de Belgische basis (BB115
& BB50) werd het kandidaat fylum FBP ook teruggevonden als één van dominante fyla met
respectievelijk 12% en 15% van het totaal aantal OTU’s per staal. De stalen met het hoogste
aantal fyla waren SC6 (29), WO10 (28) en TM4 (22) gevolgd door SK5 (19), BB50 (17), TM2
(17), BB115 (15), PQP (15) en LA3 (15). Van de 38 verschillende fyla in totaal waren er 17 die
bestempeld zijn als kandidaat fylum: FBP, TM6, TM7, OP8, OP9, OP11, WS1, WS2, WS3, WS4,
WPS-2, BRC1, NKB19, GNO2, Hyd24-12, SR1 en OD1.
Van het totaal aantal OTU’s waren er 10% die in geen enkel van de reeds bestaande fyla
konden ingedeeld worden en vervolgens als niet-geclassificeerde OTU’s werden aangeduid.
Op fylumniveau waren de niet-geclassificeerde OTU’s het meest dominant in staal WO10 met
13% van het aantal OTU’s aanwezig in dit staal. Echter, op genusniveau waren het aantal nietgeclassificeerde OTU’s het dominantst in staal SK5 met 81 % van het totaal aantal OTU’s
aanwezig in dit staal. Daarvan werd er 55% toegewezen aan de Proteobacteria en
40
Resultaten
A
B
C
D
Figuur 4: Relatieve abundantie van bacteriële fyla en klassen voor de negen stalen die gesequeneerd werden
met Roche 454 pyrosequenering. A) Zeven gemeenschappelijke fyla tussen alle negen stalen, B) de verschillende
klassen die tot het fylum Proteobacteria behoren, C) de verschillende Klassen die tot de Actinobacteria behoren
en D) de verschillende klassen die tot de Bacteroidetes behoren.
Actinobacteria. Het laagste aantal niet-geclassificeerde OTU’s werd gezien in staal PQP en
staal TM2 met beiden 57 % van hun totaal aantal OTU’s.
Op klasse niveau waren er acht gemeenschappelijke fylogenetische groepen, waaronder
Alpha-, Beta- en Gammaproteobacteria, Actinobacteria, Planctomycetes, Cytophagia,
Acidimicrobiia en Flavobacteriia. Zes van de 90 klassen behoorden tot de Proteobacteria:
Alpha-, Beta-, Delta-, Epsilon- en Gammaproteobacteria en TA18 (Figuur 4B). Van deze zes
klassen zijn de Alphaproteobacteria het meest dominant met 488 OTU’s, gevolgd door de
Gammaproteobacteria met 148 OTU’s. Ongeveer 30% van de 90 verschillende klassen werden
toegewezen aan één van de negen stalen.
Geen enkel genus was aanwezig in elk staal, maar één genus werd teruggevonden in acht van
de negen stalen: Rhodobacter, met een totaal van 41 OTU’s en 225 sequenties. Op basis van
de OTU’s was Rhodobacter het meest voorkomende genus samen met Clostridium (40 OTU’s),
41
Resultaten
Hymenobacter (40 OTU’s) en Gemmata (36 OTU’s) die allen meer dan 1% van het totaal aantal
OTU’s vertegenwoordigden. Desondanks was Phormidium, op basis van het aantal sequenties,
het meest vertegenwoordigd met een totaal van 2339 sequenties en 9 OTU’s. Dit genus werd
gevolgd door Ralstonia met 954 sequenties en Clostridium met 586 sequenties. In zeven van
de negen stalen kwamen er vijf van de 227 genera voor, zijnde Gemmata, Leptolyngbya,
Methylibium, Polaromonas en Ralstonia. Op genusniveau waren er in totaal 101 genera
(44.7%) die specifiek tot één van de negen stalen behoorden. Staal TM2 had met 37% het
grootste aantal ‘unieke’ genera. In afnemende volgorde zijn de stalen met het meest
verschillende genera: TM2 (73 genera en 269 OTU’s), WO10 (71 genera en 729 OTU’s), SC6
(69 genera en 532 OTU’s), TM4 (61 genera en 351 OTU’s), SK5 (55 genera en 521 OTU’s), PQP
(52 genera en 245 OTU’s), BB50 (47 genera en 389 OTU’s), BB115 (46 genera en 345 OTU’s)
en LA3 (43 genera en 210 OTU’s).
Om de diversiteit in de stalen te meten werden rarefaction curves gemaakt (Figuur 5). Staal
WO10 vertoonde de grootste diversiteit met 729 OTU’s en 3964 sequenties gevolgd door staal
SC6 met 532 OTU’s en 2167 sequenties. De laagste diversiteit werd aangetroffen in staal LA3
met 210 OTU’s en 1801 sequenties.
Rarefaction
800
BB115
Aantal geobserveerde otus
700
BB50
600
LA3
500
PQP
SC6
400
SK5
300
TM2
200
TM4
100
WO10
0
0
500
1000
1500
2000
2500
3000
3500
4000
Aantal geanalyseerde sequenties
Figuur 5: Rarefaction curves. De curves geven een overzicht weer van de diversiteit in elk van de negen
Antarctische stalen. De diversiteit is gebaseerd op het aantal geobserveerde OTU’s (geclusterd op 97%) en
het aantal geanalyseerde sequenties per staal.
42
Resultaten
3.3 Het effect van verschillende PCR condities op de Ion Torrent PGM
data
Alhoewel meerdere studies reeds hebben aangetoond dat de Ion Torrent PGM error rate
(2.84%) hoger is dan deze van Roche 454 (1.07%) en Illumina (< 0.4%) (Quail et al, 2012; Loman
et al, 2012; Bragg et al, 2013), was het doel van deze studie onder andere om de Ion Torrent
PGM te vergelijken met Roche 454. Vele publicaties omtrent de prestaties van NGStechnieken bestaan al (Loman et al, 2012; Quail et al, 2012; Lam et al, 2012; Eisenstein, 2012),
maar aangezien de Ion Torrent een redelijke nieuwe techniek is die nog niet volledig
ontwikkelt is, wilden we een poging doen om via enkele controle stalen en één omgevingsstaal
na te gaan of de Ion Torrent een vergelijkbare data output, zoals Roche 454 omtrent
microbiële gemeenschappen kon produceren.
De ruwe sequentie data die bekomen werd na sequenering van de 25 stalen (Tabel 7) met het
Ion Torrent PGM platform (chip 318), bestond na de data analyse uit korte reads van lage
kwaliteit. De sequenties werden opgeslaan in een fastq-bestand. Door het fastq.info
commando in Mothur uit te voeren konden de fasta en de qual bestanden onttrokken worden.
Aangezien geen flow bestanden beschikbaar waren, werd het trimmen van de sequenties
uitgevoerd op basis van de kwaliteitsscores. Om sequenties te krijgen van minstens 200 bp
met een base accuraatheid van minimum 95% werden verschillende parameters getest op één
van de artificiële (“mock”) gemeenschappen. De pipeline werd eerst doorlopen met de negen
controle stalen (Tabel 4) om de sequentiekwaliteit, de error rate en het aantal resulterende
OTU’s na te gaan. Aan de hand van deze resultaten werd beslist dat het geen nut had de
volledige dataset te doorlopen.
Tabel 4: Overzicht van de negen controle stalen die gesequeneerd werden met de Ion Torrent PGM.
Mock
Artificiële gemeenschap
bestaande uit 21 bacteriële
stammen, behorend tot 5 fyla.
Mock-rep
Replicaat van het mock-staal.
2-stapsPCR-mock
Een 2-staps PCR reactie in plaats
van 1-stap, uitgevoerd met het
mock-staal.
5-minmock
Een verlengde elongatietijd van 5
min, in plaats van 3 min
standaard elongatietijd.
Uitgevoerd met het mock-staal.
BB115
Terrestrisch staal uit de
omgeving van de Belgische Basis.
Gesequeneerd met zowel Roche
454 als de Ion Torrent.
BB115rep1
Replicaat 1 van het BB115-staal.
BB115rep2
Replicaat 2 van het BB115-staal.
2-stapsPCR-BB115
Een 2-staps PCR reactie in plaats
van 1-stap, uitgevoerd met het
BB115-staal.
5-minBB115
Een verlengde elongatietijd van 5
min, in plaats van 3 min
standaard elongatietijd.
Uitgevoerd met het BB115-staal.
Blanco
Negatieve controle
In het blanco staal werden 11 OTU’s geïdentificeerd die tot de volgende vier fyla behoorden:
Firmicutes (4 OTU’s), Actinobacteria (3 OTU’s), Cyanobacteria (2 OTU’s) en Bacteroidetes (2
OTU’s). Drie overige OTU’s behoorden tot de niet-geclassificeerde Bacteria. Van deze 14 OTU’s
43
Resultaten
werden er 4 ook teruggevonden in andere stalen; Cyanobacteria (2 OTU’s) en Firmicutes (2
OTU’s). De twee OTU’s die tot de Cyanobacteria behoorden werden op genus niveau
geïdentificeerd als Chroococcidiopsis en niet-geclassificeerde Cyanobacteria. De twee OTU’s
die tot de Firmicutes behoorden werden beiden op genus niveau geïdentificeerd als
Staphylococcus.
3.3.1 De artificiële gemeenschap: duplicaten en PCR condities
3.3.1.1 Duplicaten van de artificiële gemeenschap
Het aantal bekomen sequenties voor de twee mock gemeenschappen (mock en mock-rep)
waren respectievelijk 14285 en 17362 die vervolgens werden toegewezen aan 6619 (mock)
en 8190 OTU’s (mock-rep). In vergelijking met de referentie mock-staal die maar 21
verschillende OTU’s had, is dit resultaat verre van accuraat (Figuur 6). De stammen die ter
beschikking stonden voor het maken van het mock-referentiestaal behoorden tot vijf fyla;
Actinobacteria, Bacteroidetes, Thermi, Firmicutes en Proteobacteria. Ze werden zodanig
gekozen dat ze tot verschillende OTU’s behoorden, wat resulteerde in 18 verschillende genera
(Tabel 8). Het aantal bekomen fyla voor beide mock gemeenschappen, gesequeneerd met Ion
Torrent PGM, waren 11 voor het mock-staal en 10 voor het mock-rep-staal (Figuur 6). Naast
de vijf fyla van het referentiestaal waren de fyla Acidobacteria, Armatimonadetes,
Cyanobacteria, FBP en niet-geclassificeerde Bacteria ook aanwezig. Naarmate geclassificeerd
werd op lager niveau (genus) werd het verschil tussen de twee mock gemeenschappen en het
mock-referentiestaal groter. Van de 18 verschillende genera die de mock-stalen zouden
moeten bevatten waren er maar 11 aanwezig in beide stalen: Bacillus, Deinococcus, Devosia,
Flavobacterium, Hymenobacter, Janibacter, Loktanella, Paenibacillus, Polaromonas,
Rhodococcus en Staphylococcus.
In het mock-staal werden er nog 19 andere genera geïdentificeerd en in het mock-rep-staal
15. In beide mock gemeenschappen werd de helft van het aantal OTU’s op genusniveau
ingedeeld als niet-geclassificeerd. Voor het mock-staal behoorden 32% van de nietgeclassificeerde genera tot de Bacteroidetes en 25% tot de niet-geclassificeerde Bacteria. Voor
het mock-rep-staal behoorde 29% tot de niet geclassificeerde Bacteria en 25% tot de
Bacteroidetes.
3.3.1.2 2-staps PCR voor de artificiële gemeenschap
De 2-staps PCR-reactie die uitgevoerd werd met het mock-staal bevatte na sequenering en
data verwerking duidelijk een groter aantal sequenties (71656) en OTU’s (32376) in
vergelijking met de mock duplicaten (Figuur 6). Op fylumniveau werden 17 fylogenetische
groepen geïdentificeerd, waaronder de vijf fyla uit het mock-referentiestaal. Het meest
abundante fylum was Cyanobacteria die 23,5% van het totaal aantal OTU’s voorstelde. Op
klasseniveau waren de Alphaproteobacteria en Actinobacteria de meest dominerende
groepen. De niet-geclassificeerde OTU’s waren zeer abundant aanwezig op alle taxonomische
niveaus, 52%, 77% en 93% op fylum-, klasse- en genusniveau respectievelijk. Op fylumniveau
behoorden de niet-geclassificeerde genera voornamelijk tot de Cyanobacteria (17%) en de
niet-geclassificeerde Bacteria (56%). Voor de genera werden 75 verschillende fylogenetische
44
Resultaten
groepen geobserveerd in plaats van 18 zoals in het referentiestaal, met het genus Phormidium
als dominante groep op basis van het aantal OTU’s.
Van de 18 verschillende genera die normaal zouden geïndentificeerd moeten worden in de
mock-stalen werden er acht teruggevonden in het 2-staps PCR mock-staal: Rhodococcus,
Arthrobacter, Hymenobacter, Deinococcus, Bacillus, Loktanella, Devosia en Polaromonas.
3.3.1.3 Verlengde elongatietijd voor de artificiële gemeenschap
De fylogenetische groepen die geïdentificeerd werden bij een verlengde elongatietijd van vijf
minuten kwamen nauw overeen met de fylogenetische groepen bekomen bij het 2-staps-PCRmock-staal (Figuur 6). Het aantal sequenties en OTU’s lagen lager dan deze bij het 2-stapsPCR-mock-staal, maar waren nog steeds een stuk hoger dan bij de mock duplicaten en het
referentiestaal. Opnieuw werden 17 verschillende fyla geïdentificeerd, vergelijkbaar met het
2-staps-PCR-mock-staal, maar met het fylum Fusobacteria dat de kandidaat divisie OD1
vervangt. De Cyanobacteria blijven het dominerende fylum, gevolgd door Actinobacteria,
Proteobacteria en Bacteroidetes. De dominerende groepen op klasse- en genusniveau zijn
gelijk aan diegene die geïdentificeerd werden in het 2-staps-PCR-mock-staal. Het aantal nietgeclassificeerde OTU’s zijn ook hier sterk abundant op alle taxonomische niveaus.
Van de 73 genera die werden teruggevonden in het 5-min-mock-staal waren er negen
gemeenschappelijk met het mock-referentiestaal: Rhodococcus, Rothia, Hymenobacter,
Deinococcus, Bacillus, Loktanella, Devosia, Brevundimonas en Polaromonas.
Figuur 6: Taxonomische identificatie op fylum niveau van de mock-stalen. De replicaten (Mock en Mock-rep)
en verschillende PCR condities, 2-staps PCR en verlengde elongatietijd van 5 min, werden uitgetest op de
artificiële (“mock”) gemeenschappen. De sequenties, gesequeneerd met de Ion Torrent PGM, werden geclusterd
in OTU’s met een identiteits-threshold van 97% en ze werden geclassificeerd met behulp van de Greengenes
database. Het mock referentiestaal bestaat uit 21 bacteriële stammen die met cultivatie en Roche 454
pyrosequenering reeds teruggevonden zijn.
3.3.2 Het BB115-staal: triplicaten en PCR condities
3.3.2.1 Triplicaten van het BB115 staal
Voor de drie BB115-stalen, namelijk BB115, BB115-rep1 en BB115-rep2, waren het aantal
bekomen sequenties respectievelijk 75910, 66937 en 53681. Deze sequenties werden
45
Resultaten
respectievelijk toegewezen aan 33060, 31352 en 23997 OTU’s. In vergelijking met 20537
sequenties en 345 OTU’s voor staal BB115, bekomen met Roche 454 pyrosequenering,
verschillen de resultaten van de Ion Torrent met twee grootte ordes voor het aantal OTU’s.
Staal BB115 en BB115-rep2 bevatten evenveel fyla, namelijk 17, terwijl staal BB115-rep1 er
19 bevatte en staal BB115 van de Roche 454 analyse 15 (Figuur 7). Het meest abundante fylum
voor de BB115-triplicaten was Cyanobacteria. Samen met de Actinobacteria en Proteobacteria
waren dit de drie meest voorkomende fyla in de BB115 replicaten (> 8% OTU’s per fylum).
Voor staal BB115, gesequeneerd met Roche 454, was Bacteroidetes het meest abundante
fylum. Bacteroidetes, Proteobacteria, Actinobacteria en FBP werden allen met meer dan 8%
OTU’s vertegenwoordigd en vormden in het Roche 454 BB115-staal de meest voorkomende
fyla. Onderling hadden de BB15 replicaten 16 fyla gemeenschappelijk. Het fylum Fusobacteria
kwam enkel voor in stalen BB115 en BB115-rep1, het fylum Nitrospirae enkel in stalen BB115rep1 en -rep2 en tenslotte het fylum WPS-2 enkel in het BB115-rep1-staal. Op fylumniveau
vertonen deze stalen niet zoveel verschil, maar naarmate de stalen geclassificeerd werden op
lager niveau (genus) nam de diversiteit in staal BB115 het meest toe. Het aantal OTU’s die
niet-geclassificeerd werden, zijn zeer abundant aanwezig in de BB115 replicaten. Op
fylumniveau maken ze ±50% uit van alle OTU’s, op klasseniveau ±70% en op genusniveau
±90%.
Van de 46 genera die geobserveerd werden in het Roche 454 BB115-staal werden er 32
teruggevonden in de BB115 replicaten. Daaruit volgt dat er dus 14 genera waren die enkel in
het Roche 454 BB115-staal gevonden werden en 71 genera die uitsluitend tot de BB115
replicaten behoorden. Deze 14 genera en hun aantal OTU’s waren Cryobacterium (1),
Cystobacter (2), Cytophaga (2), Dermacoccus (4), Dokdonella (3), Luteimonas (1), Lysobacter (1),
Methylibium (3), Opitutus (1), Propionicimonas (2), Pseudonocardia (1), Rhodobacter (1), Rhodoferax
(1) en Simplicispira (2).
3.3.2.2 2-staps PCR voor het BB115 staal
De 2-staps PCR-reactie die uitgevoerd werd met het BB115-staal resulteerde in een lager
aantal OTU’s (5776) met een lager aantal sequenties (11301) ten opzichte van de BB115triplicaten (Figuur 7). Er werden negen verschillende fyla geïdentificeerd, waarvan de nietgeclassificeerde OTU’s er één waren. Van de negen fyla werden er zeven teruggevonden in
het Roche 454 BB115-staal, zijnde Proteobacteria, Bacteroidetes, Actinobacteria,
Cyanobacteria, Thermi, FBP en Acidobacteria. In het 2-staps PCR-BB115-staal
vertegenwoordigden Firmicutes en Proteobacteria 55% van het totaal aantal OTU’s. In het
Roche 454 BB115-staal waren het de Bacteroidetes en de Proteobacteria die 55% van de OTU’s
vertegenwoordigden. Het fylum Firmicutes werd dus niet teruggevonden in het Roche 454
BB115-staal.
Op genusniveau vormden de niet-geclassificeerde OTU’s in het 2-staps PCR-BB115-staal de
meest abundante groep (50% van het totaal aantal OTU’s). Deze behoorden voornamelijk tot
de niet-geclassificeerde Bacteria en de Flavobacteriia (Bacteroidetes). Hetzelfde werd gezien
voor het Roche 454 BB115-staal, maar daar behoorden de meeste niet-geclassificeerde OTU’s
tot de Saprospirae (Bacteroidetes) in plaats van de Flavobacteriia. De tweede grootste groep
op genusniveau was het genus Staphylococcus (Firmicutes) voor het 2-staps-PCR-BB15-staal
en het genus Hymenobacter (Bacteroidetes) voor het Roche 454 BB115-staal.
46
Resultaten
Van de 33 genera geobserveerd voor het 2-staps PCR BB115-staal werden er 11 gevonden die
ook aanwezig waren in het Roche 454 BB115-staal (46 genera). Deze 11 fyla waren
Chryseobacterium, Deinococcus, Devosia, Flavobacterium, Hymenobacter, Nocardioides,
Phormidium, Polaromonas, Rhodococcus, Spirosoma en enkele niet-geclassificeerde OTU’s.
3.3.2.3 Verlengde elongatietijd voor het BB115 staal
Net zoals bij de mock-stalen zien we ook hier een grotere overeenkomst tussen het 5-minBB115 staal en het 2-staps PCR-BB115 staal dan met de BB115 replicaten (Figuur 7). Er werden
2 fyla, Chlorobi en Chloroflexi, meer geïdentificeerd in vergelijking met het 2-staps PCR-BB15staal. De dominante groepen op fylum-, klasse- en genusniveau zijn gelijk aan deze
geobserveerd bij het 2-staps PCR-BB115 staal. De niet-geclassificeerde genera behoorden ook
hier voornamelijk tot de niet-geclassificeerde Flavobacteriia en de niet-geclassificeerde
Bacteria. Beide PCR condities lijken dus een gelijkaardig effect te hebben op de data.
In totaal waren er 30 verschillende genera aanwezig in het 5-min-BB115-staal, waarvan er 14
overeenkwamen met het Roche 454 BB115-staal. Hiertoe behoordende 11
gemeenschappelijke fyla die gezien werden bij het 2-staps PCR-BB115 staal en Knoellie,
Pedobacter en Sphingomonas.
Figuur 7: Taxonomische identificatie op fylumniveau van het BB115-staal. De percentages stellen het aantal
OTU’s voor die aanwezig zijn per fylum. Replicaten (BB115, BB115-rep1 en BB115-rep2) en twee PCR condities,
een 2-staps PCR-reactie en een verlengde elongatietijd van 5 min, werden uitgetest op het BB115-staal. Het
BB115-staal is een terrestrische staal afkomstig uit de omgeving van de Belgische Basis in Antarctica (Utsteinen,
Koning Maud Land). Deze data output van deze stalen werd vergeleken met de data output van het BB115-staal
dat gesequeneerd werd met Roche 454 pyrosequenering. Alle sequenties werden geclusterd in OTU’s met een
identiteits-threshold van 97% en werden geclassificeerd met behulp van de Greengenes referentiedatabase.
47
Resultaten
3.4 Geografische diversiteit in koude omgevingen
Om een preliminaire biogeografische diversiteitstudie van koude omgevingen uit te voeren,
werd onze data, de Roche 454 data uit deze studie, vergeleken met twee additionele datasets
die gegenereerd werden volgens dezelfde methoden als onze data. Om een idee te krijgen
over de verschillen en gelijkenissen omtrent de microbiële diversiteit in deze koude
omgevingen, werd elke dataset samen met onze data gealigneerd en verder geanalyseerd. De
gemeenschappelijke OTU’s tussen de koude omgevingen en onze Roche 454 data en hun
voornaamste gemeenschappelijke fyla zijn weergegeven Figuur 8.
Figuur 8: Venn-diagram van de microbiële diversiteit in koude
omgevingen. Het aantal gemeenschappelijke OTU’s tussen de
verschillende koude omgevingen uit de twee additionele datasets
(Yergeau et al, 2012; Edwards et al, 2014) en onze data (De Roche 454
data verwerkt in deze studie). De drie bovenste omgevingen
vertegenwoordigen de microbiële diversiteit in cryoconiet ecosystemen
afkomstig uit gletsjers. De onderste drie omgevingen vertegenwoordigen
de microbiële diversiteit op (sub-)Antarctische eilanden. Het totaal aantal
OTU’s per omgeving is ook weergegeven in het Venn-diagram. De
cirkeldiagrammen stellen de gemeenschappelijke fyla voor tussen de
omgeving in kwestie en onze Roche 454 data.
48
Resultaten
3.4.1 Een eerste additionele dataset
3.4.1.1 Microbiële diversiteit op (sub-)Antarctische eilanden
De eerste additionele dataset was afkomstig van de studie van (Yergeau et al, 2012), waarin
drie (sub-)Antarctische eilanden bestudeerd werden: de Falklandeilanden, het Anchorageeiland en het Signy-eiland. Het aantal sequenties die overbleven na de data analyse waren
29891, 25509 en 36409 voor de Falklandeilanden, het Anchorage-eiland en het Signy-eiland
respectievelijk. Het grootste aantal OTU’s werd teruggevonden in de stalen van de
Falklandeilanden (4920 OTU’s). Het Anchorage-eiland en het Signy-eiland vertoonden min of
meer een gelijk aantal OTU’s, respectievelijk 3591 en 3728. Het aantal verschillende fyla,
klassen en genera waren ook telkens het hoogst voor de Falklandeilanden, gevolgd door het
Anchorage-eiland en dan het Signy-eiland. De Actinobacteria en de Proteobacteria
(voornamelijk de Alphaproteobacteria) domineerden in alle drie de omgevingen.
3.4.1.2 Vergelijking van de diversiteit met onze data
Vergeleken met het totaal aantal OTU’s per omgeving, deelde het Signy eiland 19,7% van hun
OTU’s met onze data. De OTU’s van de Falkland eilanden verschilden het meest van onze data,
slechts 3% van hun totaal aantal OTU’s vertoonden gelijkenis. Het Anchorage eiland viel tussen
beiden met 14% van hun totaal aantal geïdentificeerde OTU’s, gemeenschappelijk met onze
data. In alle drie de omgevingen bestonden de gemeenschappelijke OTU’s voor ±70% uit de
Proteobacteria en de Actinobacteria (Figuur 8). Vervolgens maakten de Acidobacteria 10-15%
uit van de gemeenschappelijke OTU’s en de Chloroflexi 4-8%. De helft van het totaal aantal
verschillende fyla voor elk van de omgevingen werd teruggevonden in onze data. Enkele van
de gemeenschappelijke fyla werden slechts in één van de drie omgevingen gevonden: het
fylum Thermi (Anchorage-eiland) en de fyla Firmicutes en Nitrospirae (Falklandeilanden).
Andere werden dan weer waargenomen op twee van de drie eilanden: de fyla AD3,
Armatimonadetes en TM7 (Anchorage- en Signy-eiland) en het fylum FBP (Falklandeilanden
en het Anchorage-eiland).
Staal WO10 toonde de grootste overeenkomst met elk van de drie omgevingen op basis van
het aantal OTU’s. Wanneer het aantal gemeenschappelijke OTU’s berekend werd voor een
staal, gebaseerd op de diversiteit binnenin dat staal, dan toonde staal TM2 het grootste
percentage gemeenschappelijke OTU’s met elke van de drie (sub-)Antarctische sites. Op basis
van het aantal sequenties toonde staal TM4 de grootste overeenkomst.
Van de 13 (Falklandeilanden), 14 (Anchorage-eiland) en 12 (Signy-eiland) gemeenschappelijke
fyla met onze data waren er acht (Proteobacteria, Actinobacteria, Acidobacteria, Chloroflexi,
Bacteroidetes, Cyanobacteria, Gemmatimonadetes en Planctomycetes) die op alle drie de
eilanden gevonden werden. In de drie omgevingen onderling, zonder vergelijking met onze
data, kwamen er 19 fyla overeen. Op fylumniveau toonden de stalen van het Anchorageeiland de grootste overeenkomst met onze data (14 fyla) en de stalen van het Signy-eiland de
kleinste overeenkomst (12 fyla). Op genusniveau vertonen de stalen van het Signy-eiland met
56 verschillende genera de grootste overeenkomst met onze data en de Falklandeilanden met
27 verschillende genera de kleinste. De Alphaproteobacteria en de Actinobacteria waren de
best vertegenwoordigde fylogenetische groepen op klasseniveau, in alle drie de omgevingen
(Figuur 9B).
49
Resultaten
Enkele niet-geclassificeerde OTU’s waren ook gemeenschappelijk. Op klasseniveau, waren dit
er vier voor de Falklandeilanden die tot het fylum Actinobacteria, Proteobacteria, de
kandidaat fylum FBP en de niet-geclassificeerde Bacteria behoorden. Voor het Signy-eiland
waren er 12 gemeenschappelijke niet-geclassificeerde OTU’s die tot drie verschillende fyla
behoorden: Actinobacteria (7 OTU’s), Chloroflexi (3 OTU’s) en Proteobacteria (2 OTU’s). Ook
voor het Anchorage-eiland werden er 12 niet-geclassificeerde OTU’s gevonden, ze behoorden
tot vier verschillende fyla: Actinobacteria (2 OTU’s), Chloroflexi (3 OTU’s), FBP (6 OTU’s) en de
niet-geclassificeerde Bacteria (1 OTU).
De meest voorkomende genera verschilden van eiland tot eiland. Voor de Falklandeilanden
waren de drie best vertegenwoordigde genera Devosia, Phormidium en Rhodoplanes. Elk van
deze genera werd vertegenwoordigd door minstens twee procent van het totaal aantal
gemeenschappelijke OTU’s per omgeving. Behalve Phormidium die tot de Cyanobacteria
behoort, behoren deze andere genera tot de Alphaproteobacteria. In de stalen van het Signyeiland was er maar één genus dat door twee procent vertegenwoordigd werd in beide
omgevingen, namelijk Rhodoplanes. Drie andere genera die elk met 1% van het totaal aantal
gemeenschappelijke OTU’s per omgeving vertegenwoordigd werden, waren: Arthrospira
(Alphaproteobacteria), Bdellovibrio (Deltaproteobacteria) en Candidatus_Solibacter
(Acidobacteria). Op het Anchorage-eiland werden zeven voornaamste genera geobserveerd
die met minstens 1% van het totaal aantal gemeenschappelijke OTU’s per omgevingen
vertegenwoordigd werden, nl.: Arthrobacter (Actinobacteria), Pseudonocardia
(Actinobacteria), Deinococcus (Thermi), Hymenobacter (Bacteroidetes), Devosia, Rhodoplanes
en Sphingomonas (Alphaproteobacteria). Van deze best vertegenwoordigde genera per
omgeving hadden de drie eilanden één genus gemeenschappelijk, Rhodoplanes. In totaal
hadden de drie eilanden en onze data 11 gemeenschappelijke genera, waarvan er zes tot de
Alphaproteobacteria behoren, drie tot de Actinobacteria, één tot de Gammaproteobacteria
en één tot de Cyanobacteria.
Voor de Falklandeilanden werden er van de 25 fyla, 16 niet gemeenschappelijk gevonden (de
niet-geclassififceerde OTU’s niet meegerekend). Van deze 16 fyla waren er 11 wel aanwezig
in onze data maar met verschillende soorten van diegene die gevonden werden op het eiland.
De kandidaat fyla AD3 en FCPU426, aanwezig op de Falklandeilanden werden niet
teruggevonden in onze data. Het fylum Thermi toonde met vijf genera een grotere diversiteit
te hebben op het Antarctische continent dan op de Falklandeilanden waar maar één genus
gevonden werd. Voor het Anchorage-eiland waren er 10 fyla die niet werden teruggevonden
in onze Roche 454 data. Van die 10 waren er zes fyla die in onze data aanwezig waren, maar
vertegenwoordigd werden door andere soorten. De vier fyla enkel gevonden in de stalen van
het Anchorage-eiland waren Elusimicrobia, Fibrobacteres, GNO2 en Nitrospirae. De
Verrumicrobia waren met zeven genera, waarvan één de niet-geclassificeerde OTU’s omvatte,
meer divers op het Anchorage-eiland dan op het Antarctisch continent waar er slechts vier
genera werden gevonden. Van deze zeven genera werden Prosthecobacter en Chthoniobacter
enkel gevonden op het Anchorage-eiland, terwijl de genera DA101, Luteobacter, Optitutus en
Candidatus_Xiphinematobacter zowel aanwezig waren op het eiland als op het Antarctisch
continent, maar vertegenwoordigd werden door verschillende soorten. Voor het Signy-eiland
waren er 11 fyla niet gemeenschappelijk. Daarvan werden er zes (FBP, Firmicutes, OD1, TM6,
TM7 en WPS-2) teruggevonden in onze data, vertegenwoordigd door andere soorten dan
50
Resultaten
A
B
A
B
A
B
Figuur 9: Verspreiding van de geobserveerde OTU’s over de verschillende Bacteria klassen, die gedefinieerd
werden volgens Greengenes. De geobserveerde OTU’s vertegenwoordigen hier de gemeenschappelijke OTU’s
enerzijds (A) tussen de stalen van de gletsjers uit het Groenland, het Noordpoolgebied en de Alpiene gebieden
(Edwards et al., 2014) en de stalen van onze Roche 454 data en anderzijds (B) tussen de stalen van de Falkland
eilanden, het Anchorage eiland of het Signy eiland (Yergeau et al., 2012) De nummers tussen vierkante haken na
de klassen staan voor het totaal aantal OTU’s die aanwezig zijn in die klasse.
diegene aanwezig op het Signy-eiland. De vijf fyla die afwezig waren in onze data, ten opzichte
van het Signy–eiland waren Elusimicrobia, Fibrobacteres, Nitrospirae en kandidaat fyla WS2
en FCPU426. Het fylum Firmicutes toonde diverser te zijn op het Signy-eiland waar er zes
genera voorkwamen (Sporosarcina, Finegoldia, Peptoniphilus, Desulfosporosinus, Clostridium
en Bacillus) dan op het Antarctisch continent waar slechts één genus aanwezig was.
3.4.2 Een tweede additionele dataset
3.4.2.1 Microbiële diversiteit in Arctische en Alpiene gletsjers
In een tweede additionele dataset uit de studie van (Edwards et al, 2014) werden cryoconiet
ecosystemen bestudeerd in gletsjers afkomstig uit Alpiene gebieden, het Noordpoolgebied en
Groenland. Na data verwerking waren het aantal sequenties per omgeving 14675
51
Resultaten
(Noordpoolgebied), 16487 (Groenland) en 24534 (Alpiene gebieden). Het aantal
geobserveerde OTU’s van alle stalen per omgeving waren 9804 (Noordpoolgebied), 7383
(Groenland) en 10746 (Alpiene gebieden). In Tabel 5 worden het aantal OTU’s alsook het
aantal gemeenschappelijke OTU’s met onze data per gletsjer weergegeven. In het
Noordpoolgebied en Groenland werd het meest aantal OTU’s toegekend aan de
Proteobacteria. In de Alpiene gebieden behoorden het meeste aantal OTU’s tot de
Cyanobacteria. Op klasse niveau waren de Actinobacteria het meest abundant in de eerste
twee omgevingen en de Nostocophycideae in de Alpiene gebieden. Op genus niveau was het
genus Cylindrospermopsis in alle drie de omgevingen dominerend. Deze resultaten nemen de
niet-geclassificeerde OTU’s niet in rekening. Op elk taxonomisch niveau vormden de nietgeclassificeerde OTU’s de grootste groep voor alle drie de omgevingen.
Tabel 5: Overzicht van de verdeling van de OTU’s voor de Arctische en Alpiene
gletsjers. De OTU’s werden gecluster op 97%. Drie gletsjers werden onderzocht in
het Noorpoolgebied en in de Alpiene gebieden waar telkens twee cryoconiet
systemen bestudeerd werden. Het aantal gemeenschappelijke OTU’s van twee
cryoconiet systeem per gletsjer wordt weergeven alsook het totaal aantal
verschillende OTU’s per gletsjer.
ML: Midtre Lovenbreen, AB: Austre Brøggerbreen, VB: Vestre Brøggerbreen, GF:
Gaisbergferner, PF: Pfaffenferner, RF: Rotmoosferner, GR: Groenland (Leverett
Gletsjer)
3.4.2.2 Vergelijking van de diversiteit met onze data
De verzamelde stalen uit de Alpiene gebieden hadden 1.8% van het totaal aantal
geobserveerde OTU’s gemeenschappelijk met onze data. In het Noordpoolgebied was dat
0.7% en in Groenland slechts 0.5%. De gemeenschappelijke OTU’s van alle drie de gebieden
52
Resultaten
samen behoorden voornamelijk tot de Proteobacteria (Figuur 8). De Cyanobacteria vormden
de tweede grootste gemeenschappelijke fylogenetische groep. Het was opnieuw staal WO10
dat de grootste overeenkomst toonde met alledrie de omgevingen, maar wanneer de
diversiteit in elk staal in rekening werd gebracht, toonde het TM4 staal het grootste
percentage gemeenschappelijke OTU’s met elk van de drie koude omgevingen.
De gemeenschappelijke fyla (Figuur 8) aanwezig in elk van de drie omgevingen toonden
onderling ook enkele gelijkenissen. Vijf van de acht in het Noordpoolgebied, zes in Groenland
en 10 in Alpiene gebieden zijn de met onze data gemeenschappelijke fyla die in alledrie de
omgevingen aanwezig waren. De eerste drie, de Proteobacteria, de Cyanobacteria en de
Bacteroidetes werden ook teruggevonden in elke omgeving van de eerste additionele dataset.
De andere twee gemeenschappelijke fyla, Firmicutes en TM7, vertoonden in de eerste
additionele dataset geen overeenkomst met onze Roche 454 data. In de Arctische en Alpiene
gletsjer ecosystemen werden deze wel gemeenschappelijk gevonden met de Roche 454 data.
Alphaproteobacteria was met ±30% in elke omgeving de meest voorkomende klasse, gevolgd
door de Betaproteobacteria (Figuur 9A). Enkele van de gemeenschappelijke OTU’s behoorden
tot de niet-geclassificeerde. Voor het Noordpoolgebied waren er 13 niet-geclassificeerde
OTU’s (op klasseniveau) die tot de Actinobacteria (1 OTU), Bacteroidetes (1 OTU),
Cyanobacteria (5 OTU’s), Firmicutes (3 OTU’s) en de niet-geclassificeerde Bacteria (3 OTU’s)
behoorden. Voor Groenland waren er zeven niet-geclassificeerde OTU’s (op klasseniveau) die
tot de Cyanobacteria (4 OTU’s), Firmicutes (1 OTU) en die niet-geclassificeerde Bacteria (2
OTU’s) behoorden. Voor de Alpiene gebieden werden er 11 niet-geclassificeerde OTU’s
gevonden (op klasseniveau). Deze behoorden tot de Actinobacteria (2 OTU’s), Bacteroidetes
(1 OTU), Cyanobacteria (3 OTU’s), Firmicutes (1 OTU) en de niet-geclassificeerde Bacteria (4
OTU’s).
De stalen uit het Noordpoolgebied waren afkomstig van drie verschillende gletsjers: Midtre
Lovenbreen (ML), Austre Brøggerbreen (AB) en Vestre Brøggerbreen (VB). De geobserveerde
OTU’s uit de cryoconiet ecosystemen van de VB-gletsjer vertoonden op genusniveau de
grootste gelijkenis met de OTU’s geïdentificeerd in de Antarctische microbiële
gemeenschappen in onze studie (Tabel 6). Het meest vertegenwoordigde
gemeenschappelijke genus dat in de drie gletsjers voorkwam was Bosea. Methilibium,
Phormidium, Polaromonas en Zymomonas waren vier andere fylogenetische groepen die met
meer dan 1% van het totaal aantal gemeenschappelijke OTU’s gerepresenteerd werden in
zowel de stalen van de gletsjer ecosystemen als in de stalen van onze Roche 454 data. Deze
vier genera werden vooral teruggevonden in de AB- en VB-gletsjer stalen. In de stalen van de
Leverett gletsjer uit Groenland behoorden Bosea, Methylibium en Polaromonas opnieuw tot
de meest vertegenwoordigde genera samen met het genus Pseudanabaena (Cyanobacteria)
dat met zes OTU’s het dominantste genus was (Tabel 6). In de Alpiene gebieden werden ook
drie gletsjers bestudeerd: Gaisbergferner (GF), Pfaffenferner (PF) en Rotmoosferner (RF). De
PF-gletsjer stalen hadden het grootste aantal gemeenschappelijke OTU’s (Tabel 6), maar
samen met de GF-gletsjer stalen hadden ze een gelijk aantal verschillende genera (14) gemeen
met onze data. Bosea, Methylibium, Phormidium, Polaromonas en Pseudanabaena vormden
hier de meest voorkomende genera, en waren voornamelijk aanwezig in de GF- en PF-gletsjer
stalen.
53
Resultaten
Van de 15 verschillende fyla voor het Noordpoolgebied waren er acht gemeenschappelijk met
onze data en acht specifiek voor het Noordpoolgebied (ten opzichte van onze data). Van de
4947 niet-geclassificeerde Bacteria waren er drie gemeenschappelijk, vandaar de acht/acht
verdeling. In de twee andere omgevingen werden er van de niet-geclassificeerde Bacteria ook
telkens enkele gemeenschappelijk gevonden, maar het grootste deel van deze groep
behoorde tot de omgeving zelf en werd niet gemeenschappelijk gevonden. Ondanks het feit
dat de Actinobacteria, op het aantal niet-geclassificeerde Bacteria na, de meest
vertegenwoordigde klasse is in de gletsjers uit het Noordpoolgebied en Groenland, en de
tweede meest vertegenwoordigde klasse in de gletsjers uit de Alpiene gebieden, vertoonden
ze weinig tot geen gemeenschappelijke OTU’s met onze data. Deze fylogenetische groep
vertegenwoordigde wel de microbiële gemeenschappen uit de (sub-)Antarctische eilanden
met het tweede grootste aantal gemeenschappelijke OTU’s (Figuur 8). De genera die tot de
Acidobacteria behoren, aanwezig in de gletsjer ecosystemen in het Noordpoolgebied zijn
Terriglobus, Edaphobacter, Candidatus_Solibacter en Acidobacterium. Terwijl de genera van
de soorten gevonden op het Antarctisch continent enkel tot het genus Acidobacterium
behoren. Net zoals de Acidobacteria werden de Armatimonadetes, Chloroflexi, Fibrobacteres,
Thermi, Planctomycetes en het kandidaat fylum WPS-2, niet gemeenschappelijk gevonden
met onze data aangezien ze verschillende soorten bevatten. Uit deze zeven fyla was er één,
Fibrobacteres, waarvan er geen soorten teruggevonden werden in de stalen van onze Roche
454 data. Tot de fyla Chloroflexi en Planctomycetes behoorden een groter aantal taxa op
Antarctica. Voor de gletsjer ecosystemen in Groenland waren er 10 van de 16 fyla niet
gemeenschappelijk met onze data. Van die 10 was er opnieuw één fyla waarvoor er geen
soorten geïdentificeerd werden in onze data, namelijk Fibrobacteres. In de stalen van de
Alpiene gebieden werd er in vergelijking met de Antarctische stalen een verschil in genera,
behorend tot fylum Firmicutes, teruggevonden. Het genus Pelosinus en Alicyclobacillus
werden enkel gevonden in de cryoconiet stalen, terwijl de genera Staphylococcus en
Caloramator enkel in de Antarctische stalen werden teruggevonden. In beide omgevingen
waren dan wel de genera Bacillus en Clostridium aanwezig. In de Alpiene gebieden werden de
fyla die niet gemeenschappelijk waren met onze data wel teruggevonden in de Antarctische
stalen maar met verschillende soorten dan diegene aanwezig in de cryocoiniet systemen. Een
fyla, Elusimicrobia, werd enkel waargenomen in de Alpiene gebieden en was volledig afwezig
in onze Roche 454 data.
54
Resultaten
Tabel 6: Overzicht van de gemeenschappelijke OTU’s op genusniveau tussen Antarctische en crycoconiet
stalen, uit Arctische en Alpiene gletsjers. Stalen uit vier cryoconiet ecosystemen van één gletsjer werden
verzameld in Groenland, stalen van telkens twee cryoconiet ecosystemen voor drie gletsjers werden verzameld
in het Noordpoolgebied en Alpiene gebieden. De meest vertegenwoordigde genera per omgeving zijn
benadrukt.
55
Discussie
4 Discussie
4.1 Vergelijking van de data output van twee data analyse pipelines
Sinds 2005, toen Roche 454 zijn eerste NGS-platform op de markt bracht, heeft DNA
sequenering een snelle evolutie gezien. Verschillende NGS-platformen werden ondertussen
uitgebracht die diverse applicaties aanbieden. Ondanks de reductie in kostprijs, de
verbetering in snelheid en de hoge doorvoorsnelheid in vergelijking met de Sanger
sequenering, heeft elk van deze technieken nog te maken met bepaalde sequentiefouten
(Zagordi et al, 2010; Gogol-Döring & Chen, 2012; Bragg et al, 2013; Schloss, 2010). Data
analyse pipelines werden ontwikkeld om zoveel mogelijk PCR-gebaseerde fouten (vb. chimere
sequenties) en sequeneringsfouten (vb. homopolymeren) te identificeren en te verwijderen,
wat resulteert in sequenties met een hogere kwaliteit.
Voor onze default Mothur pipeline werd er gekozen voor de pipeline die beschreven werd in
(Schloss et al, 2011). De studie van Schloss et al. toonde aan dat sequenties korter dan 200
bp, homopolymeren langer dan 8 bp en primer- en barcode-mismatches groter dan
respectievelijk 2 en 1 een lage kwaliteit hadden en de error rate dus vergrootten.
De
Uparse
pipeline
die
online
beschikbaar
is
(http://drive5.com/usearch/manual/uparse_cmds.html), werd aangepast voor onze dataset
en wordt als de default gebruikt. Uparse geeft OTU’s terug met sequenties die ≤1% incorrecte
basen bevatten, wat zich uit in een lager aantal OTU’s (Edgar, 2013). Dit werd in onze
resultaten ook gezien, het aantal OTU’s bekomen met Uparse was 1.4 maal lager dan het
aantal OTU’s die bekomen werden met Mothur.
Twee analyses in Mothur (‘MaxHp4’ en ‘Gotoh’) leken net zoals Uparse een lager aantal OTU’s
weer te geven, maar deze misvatting kan voor beide analyses verklaard worden. Aangezien
de meeste homopolymeren in onze sequenties 7 bp lang waren, was een cutoff van 8 bp goed
gekozen. Door een maximale lengte van 4 bp in te stellen gingen er veel sequenties verloren,
wat een onderschatting van de diversiteit als gevolg had. Omgekeerd, door de maximale
lengte van de homopolymeren te verlengen werden foutieve sequenties behouden, wat vaak
tot een overschatting van de diversiteit leidt (Margulies et al, 2005; Huse et al, 2007). Het laag
aantal OTU’s dat door de Gotoh alignering bekomen werd, was een gevolg van de waarde van
de strafpunten die aan de gaps en de mismatches werden toegekend. De gotoh aligneringsmethode straft verschillend voor het openen van een gap (-2) en voor de extensie van een gap
(-1), in tegenstelling tot de Needleman Wunsh alignering die een gelijke straf toekent voor
beide gebeurtenissen. De beloning voor een match is algemeen +1 en de straf voor een
mismatch -1. Bij de gotoh alignering werd deze laatste parameter aangepast tot -3. De
combinatie van de verschillende straf-waarden resulteerde hier in een strengere alignering,
waardoor er na de screening minder sequenties overbleven (26030 vs. 27412 voor de default
pipeline). Het aantal sequenties die uiteindelijk overbleven voor de OTU clustering waren
23877 (gotoh alignering) en 24995 (default Mothur), wat het verschil in het aantal OTU’s
verklaart.
Om de accuratere resultaten van Uparse te evenaren werd een combinatie van verschillende
parameters getest met de Mothur pipeline: B0P2, een minimum (200 bp) en een maximum
(300 bp) sequentielengte, een qthreshold van 16, twee chimera-stappen en een aangepaste
classificatiestap. Dit gaf voor de Mothur pipeline het laagste aantal OTU’s weer met de meest
57
Discussie
accurate taxonomische classificatie. Ondanks dezelfde hoeveelheid mismatches, vergelijkbare
leeslengtes, dezelfde kwaliteits-threshold en de 2 chimera-stappen bleek Uparse nog steeds
een meer accuraat aantal OTU’s weer te geven.
Wanneer de forward dataset vergeleken werd met de reverse dataset zagen we een groot
verschil. Het aantal verschillende fyla bleef relatief gelijk, maar een sterke reductie in het
aantal OTU’s was opmerkzaam. Er werden ook veel meer chimera verwijderd in vergelijking
met de forward dataset analyses. Een mogelijke verklaring zou gelinkt kunnen worden aan de
homopolymere regio’s. Hoogstwaarschijnlijk komen er minder homopolymeren voor in de
meer geconserveerde 3’ regio, in vergelijking met de 5’ regio van onze doelsequentie.
Aangezien de homopolymeren regio’s de voornaamste sequentiefouten zijn in Roche 454
pyrosequenering heeft dit een groot effect.
4.2 Vergelijking met eerdere publicaties omtrent Antarctische
microbiële diversiteit
Negen stalen van Antarctische microbiële aquatische en terrestrische microbiële matten
werden verzameld en onderzocht om een beter idee te krijgen over de diversiteit en
samenstelling van de gemeenschappen hierin aanwezig. Met behulp van Roche 454
pyrosequencing en de Mothur data analysis pipeline (Schloss et al, 2009) werd de microbiële
diversiteit in deze stalen onderzocht. Er moet ook vermeld worden dat de classificatie in onze
studie werd uitgevoerd met behulp van de Greengenes referentiedatabase
(http://greengenes.lbl.gov/.) die significant groter is dan de RDP referentiedatabase
(Werner et al, 2012).
Een vergelijking van de microbiële diversiteit, gevonden in de negen bestudeerde stalen, met
eerdere cultivatiestudies (Peeters & Verleyen, 2012; Peeters et al, 2011a, 2011b) toonde aan dat
met pyrosequenering een groter deel van de diversiteit in kaart gebracht werd. In de
cultivatiestudies werden alle teruggevonden fylotypes met behulp van de RDP referentie
database toegewezen aan vijf fyla: Actinobacteria, Bacteroidetes, Proteobacteria, Firmicutes
en Thermi. In onze studie werden alle geobserveerde OTU’s, bekomen met Roche 454
pyrosequencing, toegewezen aan 38 fyla waaronder ook één groep van niet-geclassificeerde
sequenties behoort.
Aangezien onze studie niet enkel gefocuseerd was op de heterotrofe bacteriën zoals de
cultivatiestudies, verschilden de voornaamst voorkomende fyla lichtjes van diegene
gerapporteerd in de eerdere studies. Proteobacteria, Bacteroidetes, Actinobacteria,
Chloroflexi, Planctomycetes, Firmicutes en Cyanobacteria werden als de zeven voornaamste
fyla beschouwd in onze studie.
De fototrofe bacteriën behoren tot de Cyanobacteria, Proteobacteria, Chloroflexi, Firmicutes
en Chlorobi (Bryant & Frigaard, 2006). Het dominante fylum van de fotosynthetische bacteria,
gevonden in alle negen stalen, was de Cyanobacteria. Naast de focus op de heterotrofe
bacteriën in de cultivatiestudies, werden ook enkel de aerobe bacteriën geselecteerd. Het
obligaat anaerobe organisme Clostridium werd dan ook in zes van de zeven (PQP, SC6, SK5,
TM2, TM4 en WO10) aquatische microbiële matten gevonden.
58
Discussie
Met de cultivatiestudies werd de aanwezigheid van het fylum Thermi aangetoond in vier
stalen (BB115, BB50, PQP en SC6). Met pyrosequenering slaagden we er niet in Thermi terug
te vinden in staal PQP, maar wel in stalen BB115, BB50, SC6 en SK5. Het Deinococcus genus,
samen met de B-42, R18-435 en Truepera genera werden met Greengenes geclassificeerd
onder het fylum Thermi. Het genus B-42 was aanwezig in de SC6 en SK5 stalen, genera R18435 en Truepera waren aanwezig in het BB50 staal en het genus Deinococcus werd
teruggevonden in de twee terrestrische stalen (BB115 en BB50). De aanwezigheid van het
genus Deinococcus en Truepera in de Antarctische bodem werd eerder al aangetoond (Aislabie
et al, 2006, 2013; Niederberger et al, 2008; Chan et al, 2013).
Door het meten van de diversiteit in alle negen stalen werd er gezien dat enkel de rarefaction
curve van staal TM2 bijna een plateau bereikte; wat inhoudt dat de diversiteit bijna volledig
achterhaald is. Echter, in de andere acht stalen is de diversiteit nog niet volledig ontdekt,
aangezien de rarefaction curves van alle andere stalen blijven stijgen. Het grootste aantal
genera werd dan ook gevonden voor staal TM2. In de studie van (Peeters & Verleyen, 2012)
werd de diversiteit in staal PQP het grootst gevonden. Onze resultaten toonden aan dat van
die vijf stalen staal WO10 de grootste diversiteit had, door het groter aantal OTU’s en
sequenties in vergelijking met staal PQP. Het verschil in beide stalen is voornamelijk te wijten
aan het grote aantal niet-geclassificeerde sequenties.
De zeven stalen die afkomstig waren van aquatische microbiële matten kunnen verder
opgedeeld worden in drie stalen (TM2, LA3 en WO10) afkomstig uit zoutwatermeren en vier
stalen (TM4, PQP, SK5 en SC6) afkomstig uit zoetwatermeren. Diversiteitsstudies van
Antarctische zout- en zoetwatermeren (Sjöling & Cowan, 2003; Bowman et al, 2000a, 2000b;
Jungblut et al, 2005) toonden aan dat de bacteriële diversiteit in de extreme
omgevingsomstandigheden relatief hoog is, maar dat hoe hoger het zoutgehalte van de meren
is, hoe minder divers de bacteriële gemeenschappen zijn. Dit komt omdat in zoutwatermeren
de Cyanobacteria niet enkel de metabolische stress van de lage temperaturen, uitdroging en
hoge UV-radiatie moeten weerstaan, maar ze moeten ook nog in staat zijn om hun
intracellulair osmotisch evenwicht te behouden (Oren, 2012). Niet alle Cyanobacteria kunnen
zoveel stress weerstaan en ondertussen fotosynthese en andere functies uitoefenen; wat
resulteert in een lagere diversiteit in vergelijking met zoetwatermeren.
Peeters, Ertz, and Willems (2011) toonden aan dat de diversiteit van heterotrofe bacteriën
groter was in staal BB50 dan in staal BB115. Hetzelfde werd aangetoond voor staal TM2
(grootste diversiteit) en TM4 volgens een tweede studie van (Peeters et al, 2011b). Alhoewel
onze resultaten niet meer beperkt waren tot de heterotrofe bacteriën, ondersteunen ze beide
bevindingen.
Veel van de verschillen tussen de stalen kunnen eenvoudig verklaard worden door het type
staal dat verzameld werd. Staal LA3 bijvoorbeeld werd genomen in een klein zoutwatermeer
op 0,2 m. Zoals hierboven vermeld werd gaat een zoutwatermeer gepaard met een
gereduceerde diversiteit. Een andere mogelijke verklaring is dat de lage diversiteit te wijten is
aan de diepte van de staalname. Aan het oppervlakte ontvangen de microbiële matten het
meeste licht en de grootste hoeveelheid zuurstof.
59
Discussie
4.3 Het gebruik van Ion Torrent sequenering voor microbiële
diversiteitsstudies
De Ion Torrent techniek werd uitgebracht in 2011 met het Ion Torrent PGM instrument, en
heeft sindsdien al vele verbeteringen en modificaties gekend, zoals vb. de verlenging van de
was-cyclus (Samba), langere leeslengtes, accuratere base toewijzing en verbeterde read
kwalitiet (Merriman et al, 2012; Golan & Medvedev, 2013; Bragg et al, 2013). Ion Torrent
steunt op de halfgeleider technologie voor de detectie van een nucleotide incorporatie tijdens
sequenering. Door gebruik te maken van de vrijstelling van een proton tijdens nucleotide
incorporatie heeft de Ion Torrent een manier gevonden om de duurdere
fotoreceptorsensoren en geassocieerde reagenten te omzeilen en zo de kost van sequenering
verder te reduceren. Ondanks het feit dat de Ion Torrent PGM een hoge doorvoersnelheid, de
kortste run tijd en de laagste prijs heeft (Eisenstein, 2012), is de sequentie accuraatheid nog
steeds een grote zorg. In vergelijking met de andere NGS-technieken zoals Illumina en Roche
454, is de Ion Torrent een recente techniek en heeft deze nog niet te tijd gehad om zich
volledig te ontwikkelen. De dominerende sequentiefouten die gemaakt worden met de PGM
zijn te wijten aan de accuraatheid van base toewijzing. Dit is ook gelinkt aan de problemen die
de PGM vertoont met de homopolymere regio’s, aangezien homopolymeren een gevolg zijn
van inaccurate flow-waarden die resulteren in ofwel een over-representatie (inserties) of een
onder-representatie (deleties) van de homopolymeren.
Negen controle stalen gebaseerd op replicaten en verschillende PCR condities werden
gelopen op de Ion Torrent. Een van de controle stalen (BB115-staal) was een staal dat ook
gesequeneerd werd met Roche 454 in een vorige studie. De Ion Torrent run was echter niet
succesvol en produceerde duizenden reads van lage kwaliteit. Op basis van de kwaliteitsscores
werden de negen controle stalen verder verwerkt en geanalyseerd, wat resulteerde in korte
reads. Het blanco staal dat als negatieve controle werd gebruikt toonde aan dat eventuele
contaminatie had plaatsgevonden, aangezien er in het staal 14 OTU’s werden weergegeven
waarvan er 10 enkel in het blanco staal werden teruggevonden.
De mock-stalen bevestigden zeer sterk dat de Ion Torrent had gefaald aangezien er in beide
stalen ± 15000 verschillende sequenties werden teruggevonden, in plaats van de 21
verschillende sequenties waaruit het mock-staal werd samengesteld. Ook voor het BB115staal werd er veel meer dan het dubbel aantal sequenties teruggevonden met de Ion Torrent.
Dit kan mogelijks het gevolg zijn van de aanwezigheid van polyclonale beads, waarbij
meerdere beads dezelfde DNA template bevatten, wat dan kan resulteren in duplicate
sequenties. Alsook, de Ion Torrent voert twee amplificatie stappen uit, één PCR voor de
template voorbereiding gevolgd door emulsie PCR voor klonale amplificatie, wat een hogere
PCR bias als gevolg heeft (Quail et al, 2012; Bragg et al, 2013).
Wanneer barcode-getagde primers worden gebruikt voor multiplexing, i.e. het sequeneren
van meerdere stalen tegelijkertijd, dan kan dit gepaard gaan met een amplificatie bias. Deze
primers produceren namelijk variabele terminale-restrictiefragment-lengte-polymorfismen.
Om deze variabiliteit te reduceren en een hogere technische reproduceerbaarheid te
bekomen, worden overhangende barcode- en adaptorsequenties beter vermeden. (Berry et
al, 2011) stelde het gebruik van een 2-staps PCR voor, waarmee mogelijks ook
heteroduplexvorming gereduceerd kon worden. Daarbij werd ook aangetoond dat de 2-staps
PCR-reactie tot een hogere species richness en evenness leidt, aangezien in de eerste
60
Discussie
amplificatiestap amplicons geproduceerd worden uit hun genomische context, met behulp
van conventionele primers. Hierdoor zijn templates die geflankeerd zijn door
sequentieregio’s, waarmee de adaptor- en barcodesequenties anders zouden kunnen
reageren, niet meer aanwezig in relevante concentraties tijdens de tweede amplificatiestap.
Dit reduceert de amplificatie bias en laat toe een deel van de sequentie diversiteit die gemist
werd met de 1-staps PCR te onderzoeken (Berry et al, 2011). Onze resultaten toonden aan dat
de 2-staps PCR duidelijk een effect had op de data. Enerzijds werd een groter aantal
sequenties en OTU’s bekomen (mock-stalen) en anderzijds werd een lager aantal sequenties
en OTU’s bekomen (BB115 stalen). In het 2-staps PCR BB115-staal werden er 33 genera
geobserveerd wat meer dan de helft minder is dan de BB115 replicaten, maar ook ongeveer
10 genera minder dan het Roche 454 BB115 staal. Het 2-staps PCR-BB115-staal had ook het
laagste aantal niet-geclassificeerde sequenties op genusniveau. Namelijk 50% in vergelijking
met 60% in het Roche BB115-staal en 90% in de BB115 replicaten. Van die 50% werd het
merendeel geclassificeerd onder de Bacteroidetes, die de meest voorkomende groep was in
het Roche 454 BB115-staal. We zien dus een meer accurater resultaat met de 2-staps PCRreactie in vergelijking met de 1-staps PCR reactie uitgevoerd met de BB115 replicaten. In
vergelijking met het Roche 454 BB115-staal werden er meer sequenties geclassificeerd tot op
het genus niveau. De 2-staps PCR–reactie heeft op het BB115-staal een effect vergelijkbaar
met wat er in de studie van (Berry et al, 2011) werd aangetoond. In het 2-staps PCR mockstaal werden er acht gemeenschappelijk genera gevonden met het zogenaamde
referentiestaal. Daarentegen weken de resultaten van het 2-staps-PCR-mock-staal nog meer
af van de werkelijke samenstelling van de mock gemeenschap dan de resultaten bekomen
met de mock duplicaten.
In een PCR-reactie wordt de frequentie van chimera vorming verhoogd door onder andere
vroegtijdige DNA-template terminatie (Wang & Wang, 1996; Qiu et al, 2001). Een reductie van
de frequentie van chimera vorming kan dus theoretisch simpelweg bekomen worden door
een verlengde elongatietijd toe te passen, van vijf minuten lang in plaats van drie minuten in
deze test. Beide resultaten sloten goed aan bij de resultaten die verkregen werden met de 2staps PCR-reactie voor zowel het mock- als het BB115-staal. Er werd dus opnieuw enerzijds
een verhoging (mock-staal) van het aantal OTU’s en het aantal sequenties geobserveerd en
anderzijds een daling (BB115-staal). Aangezien alle templates de kans krijgen om volledig
opgebouwd te worden zou een betere en accuratere amplificatiestap kunnen plaatsvinden,
wat hier samenhangt met een reductie in het aantal gevormde chimeren.
Mogelijke oorzaken voor de onsuccesvolle Ion Torrent run kunnen ofwel afkomstig zijn van de
PCR-reactie ofwel van de sequeneringsstap. Vele PCR-gerelateerde biases en artefacten zijn
reeds gekend. Selectieve amplificatie, recombinatie wanneer met heterogene templates
gewerkt wordt, inserties, deleties, substituties, introduceren van mismatches door het DNA
polymerase, contaminatie tijdens de DNA-voorbereiding en chimera vorming zijn hiervan
voorbeelden (Suzuki & Giovannoni, 1996; Qiu et al, 2001; Acinas et al, 2005; Lahr & Katz, 2009;
Zagordi et al, 2010; Pinto & Raskin, 2012; Ross et al, 2013). Vele PCR biases komen in hogere
mate voor tijdens de laatste cycli van de reactie en kunnen dus grotendeels gereduceerd
worden door de PCR-reactie vroeger te beëindigen (Kanagawa, 2003). Voor het bekomen van
goede data kwaliteit zijn er twee belangrijke factoren: de DNA zuiverheid (vermijden van
contaminatie) en de template concentratie. Het kan dus gunstig zijn om meerdere
61
Discussie
zuiveringsstappen uit te voeren alvorens sequenering plaatsvindt. Hoewel deze PCR biases en
artefacten een grote invloed kunnen hebben, is de kans klein dat deze de grootste oorzaak
waren voor de vele korte reads en hun de lage kwaliteit geobserveerd in deze studie.
Zoals eerder vermeldt heeft de Ion Torrent PGM problemen met base toewijzing en het
sequeneren van homopolymere regio’s. Het Ion Torrent algoritme voor het toewijzen van een
base is onafhankelijk van vorige of latere flows, het is enkel gebaseerd op de flow in kwestie,
wat nadelig kan zijn want deze naburige flows bevatten ook informatie die kunnen bijdragen
tot een meer accuratere base toewijzing (Golan & Medvedev, 2013). Base toewijzing houdt
in: het omzetten van het signaal dat geproduceerd wordt door het sequeneringsplatform (hier
opeenvolgende pH-veranderingen) in een sequentie van nucleotiden. Dit signaal is vaak
onzuiver, wat kan leiden tot verkeerde base toewijzingen. Deze onzuiverheden zijn het gevolg
van enkele artefacten (Golan & Medvedev, 2013), waaronder; [1] De gehele complexiteit van
het sequeneringsproces wordt niet altijd volledig in kaart gebracht door de sensoren
waardoor de geobserveerde signalen niet altijd perfect zijn, [2] het signaal vervalt over tijd en
[3] sommige template kopijen vallen uit fase terwijl het sequeneringsproces gaande is. Het
signaal dat vervalt over tijd zorgt indirect voor de onzuiverheid van het signaal door een effect
te hebben op de signaal-ruis ratio. DNA-templates vallen uit fase tijdens het
sequeneringsproces, wanneer ze foutief geen nucleotide incorporeren. Dit zorgt ervoor dat
de template het sequeneringsproces niet meer gesynchroniseerd met de andere templates
doorloopt, aangezien de nucleotide incorporatie nu pas zal plaatsvinden in de volgende
nucleotiden flow. Ion Torrent PGM heeft voor dit fase probleem een mogelijke oplossing
gevonden door een was-cyclus van 32-nucleotiden lang te gebruiken in plaats van slechts vier
nucleotiden zoals bij Roche 454. Hierdoor kunnen de templates die een nucleotide
incorporatie gemist hebben de andere templates opnieuw inhalen binnen eenzelfde flow en
opnieuw synchronisatie bekomen. Dit proces zou toelaten om langere accurate reads te
produceren. Een nadeel van deze 32-nucleotiden lange was-cyclus is dat er per flow een lager
aantal nucleotide incorporaties plaatsvinden, wat wil zeggen dat er meer flows nodig zijn om
dezelfde read lengte te bekomen dan wanneer er een was-cyclus van vier nucleotiden werd
gebruikt. Toch worden er na fasecorrectie en normalisatie voor het signaal-ruis ratio nog
onzuivere incorporatie signalen gezien. Ion Torrent rond de onzuivere signalen af naar de
dichtstbijzijnde integer, waardoor foutieve base toewijzingen kunnen ontstaan. Deze
onzuivere signalen leiden tot lage read kwaliteitwaarden. Recent hebben (Golan & Medvedev,
2013) hiervoor het algoritme FlowgramFixer geïntroduceerd wat resulteerde in hogere read
kwaliteitwaarden.
Een mogelijke oorzaak voor de productie van de vele korte reads is te vinden bij de
ampliconlengte. In deze studie werd de 16S rRNA v1-v3 regio geamplificeerd, wat een lengte
van 489 bp genereert. Voor Roche 454 is dit geen probleem aangezien GS FLX Titanium XL+
leeslengtes van 700 tot 1000 bp aankan. Alhoewel de Ion Torrent PGM (chip 318) leeslengtes
van 400 bp aankan, is ons PCR product samen met de adaptor, de barcode en de primer
sequentie groter dan 400 bp. Dit zou kunnen leiden tot problemen in de emulsie PCR en
vervolgens resulteren in kortere reads.
62
Discussie
4.4 Vergelijking van de geografische biodiversiteit in koude
omgevingen
Twee additionele datasets die met dezelfde methoden bestudeerd werden als onze Roche 454
data (negen Antarctische stalen) werden gebruikt om een vergelijking te maken van de
geografische diversiteit van microbiële gemeenschappen in koude omgevingen. De eerste
dataset was afkomstig van een studie van (Yergeau et al, 2007) en bestuurde twee
Antarctische eilanden (het Anchorage- en het Signy-eiland) en één sub-Antarctisch eiland (de
Falklandeilanden). De tweede additionele dataset was afkomstig van een studie van (Edwards
et al, 2014) en bestudeerde cryoconiet ecosystemen in verschillende gletsjer uit het
Noordpoolgebied, Groenland en Alpiene gebieden. Een cryoconiet is een donker microorganisme-mineraal aggregaat. Het wordt gevormd wanneer een donker deeltje op het
ijsoppervlak terecht komt en hier het weerkaatsingsvermogen (albedo) van het ijsoppervlak
reduceert door meer zonnestralen te absorberen dan het ijs rondom. Het ijs gaat vervolgens
lokaal smelten en een gat gevuld met water vormen in het ijs, waarin leven zal ontstaan
(Wharton et al, 1985; Takeuchi et al, 2001; Langford et al, 2010).
De eerste additionele dataset toonde een redelijke grote overeenkomst met de Antarctische
stalen, aangezien deze omgevingen ook nog steeds tot het Antarctisch continent behoren. De
Falklandeilanden en het Anchorage-eiland hebben elk een warmer klimaat ten opzichte van
het Antarctisch continent, door hun geografische ligging, wat een effect heeft op aanwezige
biodiversiteit. Het Signy-eiland ligt ten noorden van het Antarctisch Schiereiland en maakt
deel uit van de South Orkney eilanden. In de wintermaanden wordt het eiland verbonden met
het Antarctische continent door het pakijs van de Weddelzee, wat het Signy-eiland een
continentaal klimaat geeft. Dit verklaard het grootste aantal gemeenschappelijk OTU’s dat
voor het Signy-eiland en Antarctica werd waargenomen. In de tweede dataset werden er voor
elke omgeving veel minder fyla teruggevonden, ondanks dat er een groter aantal OTU’s
aanwezig was. Bijna de helft (48%) van deze OTU’s waren namelijk niet-geclassificeerde
Bacteria. Door het verschil in het aantal gletsjers die bestudeerd werden per omgeving, drie
voor het Noordpoolgebied en de Alpiene gebieden en slechts één voor Groenland, zagen we
een kleiner aantal gemeenschappelijke OTU’s in de stalen afkomstig uit Groenland.
Op fylumniveau werden dezelfde fylogenetische groepen teruggevonden in de drie datasets.
Deze waren Proteobacteria, Cyanobacteria, Actinobacteria, Bacteroidetes, Firmicutes en
Acidobacteria. Hiervan waren de Proteobacteria overal de meest dominante fylogenetische
groep. Dit sluit aan bij bevindingen uit eerdere literatuurstudies omtrent de diversiteit in
koude omgevingen (Margesin et al, 2002; Aislabie et al, 2006; Simon et al, 2009; Edwards et
al, 2013). Vele gemeenschappelijke OTU’s tussen de Arctische en Alpiene gebieden en
Antarctica behoorden tot de Cyanobacteria met als voornaamste klassen:
Synechococcophycideae en Nostocophycideae. De Cyanobacteria zijn er veel sterker aanwezig
in cryoconiet systemen, waar ze voornamelijk instaan voor de primaire productie binnenin het
cryoconiet ecosysteem (Säwström et al, 2002). Daar waar cryoniet gaten in (sub-)Antarctische
gebieden voor lange periodes bedekt worden met ijs (Tranter et al, 2004; Hodson et al, 2008),
worden ze in Arctische en Alpiene gebieden tijdens de zomermaanden namelijk blootgesteld
aan de atmosfeer, wat uitwisseling van gassen, nutriënten en andere biologische factoren
toelaat. Dit verklaart de hogere abundantie van de Cyanobacteria (Hodson et al, 2007).
63
Discussie
Op klasseniveau werden de gemeenschappelijke OTU’s tussen de (sub-)Antarctische eilanden
en het Antarctisch continent voornamelijk toegekend aan twee klassen: Alphaproteobacteria
en Actinobacteria. De gemeenschappelijke OTU’s tussen de Arctische en Alpiene gebieden en
Antarctica behoorden voornamelijk tot de klassen Alphaproteobacteria en
Betaproteobacteria, waarvan al meerdere malen werd aangetoond dat ze de meest
voorkomende klassen zijn in de gletsjer ecosystemen (Margesin et al, 2002; Simon et al, 2009;
Edwards et al, 2011; Wilhelm et al, 2013). Ondanks het feit dat Actinobacteria op basis van
het aantal OTU’s de tweede meest vertegenwoordigde klasse was in de Arctische en Alpiene
gebieden, werden hiervan amper tot geen gemeenschappelijke OTU’s teruggevonden met
onze data. Daarbij kwam ook dat staal SK5, die de grootste diversiteit vertoonde binnenin het
fylum Actinobacteria, slechts 1 OTU gemeenschappelijk had met de Arctische en Alpiene
gebieden. Uit bovenstaande bevindingen kunnen we afleiden dat de Actinobacteria die
aanwezig zijn op de (sub-)Antarctische eilanden en het Antarctische continent op een lager
taxonomisch niveau verschillen van diegene die aanwezig zijn in de Arctische en Alpiene
gebieden. Dit werd voor meerdere fyla (Acidobacteria, Chloroflexi, Thermi, en
Planctomycetes) tussen de Antarctica stalen en de cryoconiet systemen waargenomen.
Het fylum Fibrobacteres, aanwezig in het Noordpoolgebied en Groenland, werd niet
teruggevonden in de stalen afkomstig van Antarctica. Het fylum werd ook teruggevonden op
het Signy-eiland en de Falklandeilanden. Met de falklandeilanden werd het fylum wel
gemeenschappelijk gevonden met Antarctica, specifiek met staal WO10. Tot voor kort werd
het fylum Fibrobacteres enkel teruggevonden in zoogdieren. Ondertussen werd aangetoond
dat dit fylum ook aanwezig is in zoetwater, wat de aanwezigheid van het fylum in de gletsjer
ecosystemen verklaard, maar niet in staal WO10 op Antarctica.
Stalen afkomstig uit het West Ongul eiland (WO10) en het Transantarctisch gebergte (TM2 en
TM4) vertoonden op genusniveau de grootste overeenkomst met de microbiële biodiversiteit
in beide additionele datasets, gebaseerd op het aantal OTU’s. Dit volgt logischerwijs uit feit
dat het staal TM2 het grootste aantal genera bevat, gevolgd door staal WO10.
In eerder onderzoek van (Peeters et al, 2011b; Peeters & Verleyen, 2012) werd aangetoond
dat alle fylotypes die tot het fylum Thermi behoren, van Antarctische oorsprong waren. Op
twee fylotypes na die in kosmopolitische gebieden gevonden werden.
In datzelfde onderzoek is een zeer groot deel van alle fylotypes van het fylum Bacteriodetes
ook in Antarctische gebied gevonden. Uit onze studie blijkt, in tegenstelling tot dit voorgaand
onderzoek, dat verschillende OTU’s behorend tot het fylum Thermi ook in de Alpiene en
bipolaire gebieden voorkomen. Deze vertoonden enkel gemeenschappelijk OTU’s met de
twee terrestrische stalen van Antarctica (BB115 en BB50).
4.5 Conclusie
Voor de data analyse, bekeken we de Mothur en Uparse pipeline van dichterbij. Uit onze
resultaten bleek dat Uparse de meest accurate pipeline was. Dit was voornamelijk te danken
aan het cluster algoritme dat naast OTU clustering al een eerste chimerastap uitvoerde. Met
mothur hebben we geprobeerd deze stap zo goed mogelijk te evenaren door enkele
parameters te wijzigen en de volgorde van de default pipeline te herschikken. Hoewel dit
resulteerde in betere resultaten kwamen deze nog steeds niet in de buurt van de resultaten
64
Discussie
bekomen met Uparse. Mothur laat toe om veel meer verschillende parameters te laten
variëren in vergelijking met Uparse en geeft ook de kans om een uitgebreidere analyse uit te
voeren, waar Uparse enkel een OTU clustering algoritme is. Aangezien Uparse redelijk recent
is, zou het algoritme mettertijd geïntroduceerd kunnen worden in Mothur.
Met Pyrosequenering werd de diversiteit van de microbiële gemeenschappen veel beter in
kaart gebracht in vergelijking met de cultivatiestudies. Een groter aantal fyla en genera
werden ontdekt. De Next-generation sequeneringstechnieken laten toe dat een groter aantal
sequenties uit een bredere selectie van stalen kan opgepikt worden in vergelijking met de
kloonbibliotheken.
Alsook zorgen ze voor een grote reductie van de tijd en
sequeneringskosten. Met de komst van deze revolutionaire Next-Generation
Sequeneringsmethoden is de kennis over de microbiële diversiteit aanzienlijk toegenomen,
daar deze technieken een verbeterde toegang verlenen tot de zeldzame biosfeer. Uit onze
resultaten bleek dat sommige bacteriën, zowel abundant als zeldzaam, niet geïdentificeerd
werden met pyrosequenering, maar wel met de cultivatietechnieken. Omgekeerd werd dit
ook waargenomen. Hieruit kan geconcludeerd worden dat de beste methode om
diversiteitsstudies uit te voeren, een combinatie is van beide methoden aangezien ze
complementair blijken te zijn.
Aangezien de Ion Torrent nog een redelijk recente techniek is, zullen er met de tijd meerdere
algoritmes geproduceerd worden om te corrigeren voor de Ion Torrent sequeneringsfouten
zoals de base toewijzingen en de homopolymere fouten en het verbeteren van de leeslengtes.
Ondertussen werd er door Life Technologies aangekondigd dat de vrijstelling van een nieuwe
chip, Ion Proton II, gepland is voor midden 2014. De Ion Proton II is gebaseerd op een grotere
chip met hogere densiteit voor whole genome sequencing. De output wordt geschat op 100Gb
wat een serieuze verbetering is op de vorige Ion Torrent systemen. Het Ion Proton systeem
zou ook voor een groter aantal applicaties kunnen gebruikt worden waaronder
transciptomics, RNA profilering, sequnering van kleine genomen, ChipSeq en metagenomics.
Uit de biogeografische diversiteitsstudies was af te leiden dat de specificiteit van de microbiële
omgeving niet zo sterk is uitgesproken op de hogere taxonomische niveaus (Fylum tot
Familie), maar voornamelijk te zien is op lagere taxonomische niveaus (genus tot soort).
65
Materiaal en methoden
5 Materiaal en methoden
5.1 Oorsprong van de stalen
5.1.1 Roche 454 pyrosequenering
Negen stalen van verschillende regio’s in Antarctica werden onderzocht (Figuur 10), waarvan
twee uit terrestrische en zeven uit aquatische omgevingen. De twee terrestrische stalen
waren van epilitische oorsprong en werden in januari 2007 verzameld uit de omgeving waar
de huidige Prinses Elisabethbasis zich nu bevindt (Utsteinen, Koningin Maud Land; 71° 57' Z,
23° 20' O). Beide stalen werden ingevroren bewaard tot ze verwerkt werden in België. Staal
BB50 was afkomstig van grind en groene matten, bestaande uit micro-organismen en algen,
aan de zuidkant van de Utsteinen nunatak. Staal BB115 was afkomstig van een zwarte mat op
grind en rots puin van een bevroren meer aan de westkant van de Utsteinen nunatak. De
zeven aquatische stalen waren afkomstig uit verschillende lacustriene leefomgevingen,
verspreid over continentaal Antarctica en het Antarctisch Schiereiland. In januari 2003 werd
één van de zeven stalen (PQP) verzameld uit het Narrows Meer (Pourquoi-Pas Eiland; 67° 41’
Z, 67° 28’ W) en bevroren bewaard tot verdere verwerking. Het PQP staal was afkomstig van
een cyanobacteriële mat met groene algen en diatomeeën. In december 2003 werden de
volgende twee stalen verzameld uit het Transantarctisch Gebergte en ingevroren bewaard in
het veld en tijdens transport naar België via het British Antarctic Survey’s (BAS) Rothera
onderzoeksstation (Antarctisch Schiereiland). Staal TM2 was afkomstig van een
cyanobacteriële mat op de bodem van de Forlidas Poel (Pensacola Gebergte; 51° 16’ W, 82°
27’ Z) en staal TM4 was afkomstig van een cyanobacteriële mat in het Lundström Meer
(Shackleton Gebergte; 29° 29’ W, 80° 27’ Z). De resterende vier van de zeven stalen werden
verzameld in januari 2007. Drie daarvan, LA3 (Langhovde Schiereiland), SK5 (Skarvsness
Schiereiland) en WO10 (West Ongul Eiland), waren afkomstig uit drie meren in Lützow-Holm
Bay, Syowa ( 69° 10’ Z, 37° 30’ O) en één staal SC6 uit de Schirmacher Oase
(70° 45′ Z, 11° 40′ O). Ook deze stalen werden bevroren bewaard tot ze verwerkt werden.
5.1.2 Ion Torrent sequenering
De stalen waren afkomstig van verschillende terrestrische ijsvrije leefomgevingen in het SørRondane Gebergte (72° Z, 24° O) (Figuur 10). Hiertoe behoorden de Pingvinane nunatak, de
Teltet nunatak, Perlebandet nunatak, de Utsteinen nunatak en de Utsteinen bergrug, de
Tanngarden pieken en de Dubois gletsjer. De aanwezige microbiële gemeenschappen hadden
zich ontwikkeld op twee belangrijke gesteenten: gneis en graniet. Stalen werden verzameld
uit verschillende combinaties van de terrestrische leefomgevingen en de onderliggende
gesteenten (epilithisch, endolithisch, edafisch en epifytisch) (Tabel 7). Voor de endolitische
gemeenschappen werden er ook stalen verzameld uit marmer en kwarts. De twee stalen uit
de omgeving van de Belgische basis, BB50 en BB115, werden ook hier aan de dataset
toegevoegd.
67
Materiaal en methoden
Tabel 7: Overzicht van de stalen, hun leefomgeving en locatie. Deze 14 stalen behoren samen met staal BB50
en BB115 tot de dataset die met de Ion Torrent gesequeneerd werd .
Terrestrische
Leefomgeving
Stalen
Op de
Bodemkorst-gemeenschappen gedomineerd door lichenen
[1] Op gneis: PB1109 – Perlebandet
[2] Op graniet: PE1081 – Utsteinen bergrug
[3] Op graniet: PE1082 – Utsteinen bergrug
gemeenschappen
Epilitisch
oppervlakte
van het
gesteente
Bodemkorst-gemeenschappen gedomineerd door cyanobacteriën
[4] Op gneis: PB1103 – Perlebandet nunatak
[5] Op gneis: PE1045 – Teltet nunatak
[6] Op graniet: PE1042 – Pingvinane nunatak
Endolitisch
In het
gesteente
Oppervlakten van gesteenten bedekt met lichenen
[7] Op graniet: UN1102 – Utsteinen nunatak
[8] In graniet: UN1107 – Utsteinen nunatak
 Groene algen met kleine stukken graniet.
[9] In kwarts: PE1026 – Dubois gletsjer
 Staalname van de groene laag op het oppervlakte van het
kwartsgesteente 5 – 10 mm onder het bodemoppervlak.
[10] In marmer: PB1101 – Perlebandet nunatak
 Donkere biofilms, onder het oppervlakte van het marmer
Edafisch
Op en in de
bodem
Epilitisch
Op mossen en
levermossen
gesteente, gedomineerd door Chroococcidiopsos.
[11] Op graniet: PE1039 – Tanngarden pieken
[12] Op gneis: TE1101 – Teltet nunatak
[13] Mos dat op graniet groeit: PE1066 – Utsteinen nunatak
[14] Mos dat op gneis groeit: PB1107 – Perlebandet nunatak
5.1.3 Additionele datasets
Twee additionele datasets werden gebruikt om een preliminaire biogeografische
diversiteitstudie uit te voeren van koude omgevingen. De eerste dataset was afkomstig van
(Yergeau et al, 2012). Stalen van één sub-Antarctische (oktober 2004) (Figuur 11) en twee
Antarctische sites (januari en februari 2007) werden verzameld (Figuur 10): de Falkland
eilanden (sub-Antarctische zone; 51° 76′ Z, 59° 03′ W), de Signy eilanden (South Orkney
eilanden, maritiem Antarctica; 60° 43′ Z, 45° 38′ W) en het Anchorage eiland (dichtbij het BAS
Rothera onderzoeksstation, west-Antarctisch Schiereiland; 67° 34′ Z, 68° 08′ W). De tweede
dataset was afkomstig van (Edwards et al, 2014). Puin van cryoconiet gaten in alpiene en
Arctische gletsjers werden verzameld. De staalname sites in de Alpen bestonden uit drie
gematigde vallei gletsjers in Oostenrijk: de Rotmoosferner en de Gaisbergferner, twee naast
elkaar gelegen gletsjers in de Ötzal Alpen, en de Pfaffenferner in de Stubaier Alpen. De stalen
van de Arctische gletsjers waren enerzijds afkomstig van drie gletsjers die tot Spitsbergen, een
eilandengroep in de Noordelijke IJszee, behoren: Austre Brøggerbreen, Midtre Lovénbreen en
Vestre Brøggerbreen (
Figuur 12) en anderzijds van de Leverett gletsjer in Groenland. Per site werden er telkens twee
stalen verzameld.
68
Materiaal en methoden
Utsteinen
Lunström Meer
nunatak
(Schackleton
Signy-eiland
Gebergte)
Schirmacher
Oase
(South Orkney
Lützow Holm Bay
(“Syowa Oase”)
eilanden)
Forlidas Pond
Pourquoi-Pas
(Pensacola
Gebergte)
Island
Anchorage eiland (nabij
Rothera station)
1000
Figuur 10: Map van Antarctica. De map km
geeft de locaties weer waar de stalen verzameld werden. Zwart: de
locaties voor de stalen die verwerkt werden met Roche 454 pyrosequenering, groen: de locaties voor de stalen
die verwerkt werden met de Ion Torrent en blauw: de locaties van de stalen die verzameld werden door Yergeau
et al. (2012) met uitzondering van de Falklandeilanden die weergegeven worden in Figuur 11. Aangepaste
figuur van J. A. E. Gibson (2007).
Zuid-Amerika
Afrika
Australië
Falkland eilanden
Antarctisch
Schiereiland
Oost-Antarctica
Figuur 11: Map van de Falklandeilanden. De Falklandeilanden (51° 41′ 0″ Z, 59° 10′ 0″ W) zijn sub-Antarctische
eilanden gelegen in zuid-Atlantische Oceaan. Stalen van de Falklandeilanden (51° 76′ Z, 59° 03′ W) werden
verzameld door Yergeau et al. (2012). Aangepaste kaart van http://www.emapsworld.com/
69
Materiaal en methoden
Figuur 12: Map van Spitsbergen of Svalbard gletsjers. De gletsjers die in deze studie besproken worden zijn: AB,
Austre Brøggerbreen; VB, Vestre Brøggerbreen en ML, Midtre Lovénbreen. Figuur overgenomen uit de studie
van Edwards et al. (2013).
5.2 DNA extractie
DNA werd geëxtraheerd uit 5 g staal. Extracellulair DNA werd eerst verwijderd volgens
(Corinaldesi et al, 2005), gevolgd door de DNA extractie volgens (Zwart et al, 1998) (Bijlage:
DNA extractie protocol).
5.3 PCR amplificatie en 16S rRNA-gen sequenering
De PCR amplicon bibliotheken werden aangemaakt met behulp van fusie primers, bestaande
uit een adapter, een barcode en een sequentie specifieke primer (Bijlage: 7.4). De multiplexing
voor pyrosequencing werd uitgevoerd met barcodes voorgesteld door (Parameswaran et al,
2007). Bij de Roche 454 pyrosequenering werd bidirectionele sequenering uitgevoerd en bij
de Ion Torrent enkel forward sequenering. Op beide platforms werden de 16S rRNA V1-V3
regio’s gesequeneerd met behulp van universele bacteriële primers: de forward primer pA (5’AGAGTTTGATCCTGGCTCAG-3’) (Edwards et al, 1989) die de (V1-V3) regio amplificeert vanaf
positie 8-27 en de reverse primer BKL1 (5’-GTATTACCGCGGCTGCTGGCA-3’) die de (V3-V1)
regio amplificeert vanaf positie 536-516.
5.3.1 Next-generation sequenering
Het concept van NGS technologie omvat het identificeren van geïncorporeerde basen tijdens
sequenering via signalen (licht, pH verandering) die uitgezonden worden wanneer elk
fragment opnieuw gesequeneerd wordt van een DNA template. NGS methoden passen dit
proces toe voor miljoenen reacties op een massieve parallelle manier door gebruik te maken
van multiplexing via unieke barcodes voor elk staal. NGS sequenering heeft een hoge
70
Materiaal en methoden
doorvoersnelheid, een hoge snelheid, een goede schaalbaarheid, hogere sensitiviteit en
goede resolutie.
5.3.2 Roche 454 pyrosequenering
PCR-amplificatie werd uitgevoerd met de T1 Thermocycler (Biometra, Duitsland). Elke PCRmix bevatte 1-2 µl template DNA, 2 µl fusie primers (10 µM), 2.5 µl dNTPs (10 mM), 1.5 µl van
een 10x buffer (FastStart High Fidelity PCR systeem, Roche, Zwitserland), 0.25 µl van 5 U/µl
FastStart HiFi Polymerase (Roche FastStart High Fidelity PCR systeem, Roche, Zwitserland) en
werd aangepast tot een eindvolume van 25 µl met steriel HPLC water (Sigma-Aldrich, USA).
De PCR-condities bestonden uit een initiële denaturatie stap van 3 min bij 94°C, 35 cycli van
denaturatie (30 s bij 94°C), hybridisatie (60 s bij 55°C) en elongatie (90 s bij 72°C) en één
elongatie stap van 8 min bij 72°C. De aanwezigheid van PCR-product werd bepaald door
analyse van 5 µl product op een 2% agarose gel, kleuring met ethidium bromide en vergelijking
met een moleculaire gewichtsmerker (Eurogentec, Belgium). PCR-producten werden
opgezuiverd met behulp van een High Pure PCR Product Purification Kit (Roche, Zwitserland).
De kwaliteit van het DNA werd gecontroleerd met een Bioanalyzer (Agilent Technologies, USA)
en de kwantiteit werd bepaald met een Qubit 2.0 Fluorometer (Life Technologies, USA). Finaal
werd pyrosequenering uitgevoerd met een Roche GS FLX Titanium machine aan NXTGNT
(Gent, België) waarbij een Titanium picotiter plaat werd gebruikt met een standaard scheiding
van de plaat in twee regio’s.
5.3.3 Ion Torrent sequenering
De Touch-Down PCR (TD-PCR) werd uitgevoerd met de T1 Thermocycler (Biometra, Duitsland).
Elk PCR mix bevatte 0.5 µl template DNA/tube, 0.5 µl pA primer (10 µM), 0.5 µl BKL1 primer
(10 µM), 2.5 µl NTPs (2 mM), 2.5 µl van een 10x buffer Roche FastStart High Fidelity, Roche,
Zwitserland), 0.1 µl Taq polymerase (Roche FastStart High Fidelity, Roche, Zwitserland) en
werd aangepast tot een eindvolume van 25 µl met steriel water (18.4 µl). De TD-PCR begon
met een initiële denaturatie stap van 3 min bij 94°C, gevolgd door 20 cycli van denaturatie (30
s bij 94°C), hybridisatie voor 1 min bij 65°C→55°C (per cyclus een halve graad omlaag) en
elongatie (3 min bij 72°C). Deze 20 cycli werden gevolgd door 15 cycli van denaturatie (30 s bij
94°C), hybridisatie (1 min bij 55°C) en elongatie (3 min bij 72°C). De TD-PCR werd beëindigd
met een laatste elongatie stap van 10 min bij 72°C. De PCR producten werden gelopen op 1%
agarosegel en vervolgens opgezuiverd met Ampure Beads. De kwaliteitscontrole werd
uitgevoerd met een Bioanalyzer (Agilent Technologies, USA) en de DNA concentratie werd
berekend met een Qubit 2.0 Fluorometer (Life Technologies, USA). Met de Ion Torrent werden
ook negen controles ingesloten: twee replica’s van het B115 staal, één replica van de artificiële
(“mock”) gemeenschap, een blanco staal en twee PCR-tests: enerzijds een 2-staps PCR-reactie
en anderzijds een 1-stap PCR-reactie met een verlengde elongatietijd van 5 min. Hiervoor
werden het BB115-staal en een mock gemeenschap gebruikt. De 2-staps PCR-reactie (Berry et
al, 2011) bestaat uit een eerste PCR-reactie van 20 cycli met gewone primers gevolgd door
een tweede PCR-reactie met fusie primers (adapter, barcode en primer). Het mock staal werd
samengesteld uit 21 verschillende bacteriële stammen die zowel via cultivatie als Roche 454
pyrosequenering teruggevonden zijn (Tabel 8). Deze behoorden tot vijf fyla: Bacteroidetes,
Firmicutes, Proteobacteria, Actinobacteria en Thermi. De Ion Torrent sequenering werd
uitgevoerd met het Ion Torrent Personal Genome Machine® (PGM) Systeem.
71
Materiaal en methoden
Tabel 8: De artificiële ("mock") gemeenschap.
Deze tabel bevat de taxonomische benamingen op fylum en genus niveau van de 21 verschillende bacteriële stammen
waaruit de mock gemeenschap werd samengesteld. Alfa, Beta en Gamma zijn de drie klassen van de Proteobacteria waartoe
zeven van deze genera behoren.
1
3
5
7
9
11
13
15
17
19
21
Fylum
Genus
Actinobacteria
Rhodococcus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Actinobacteria
Arthrobacter
Actinobacteria
Janibacter
Bacteroidetes
Psychroflexus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Thermi
Deinococcus
Thermi
Deinococcus
Firmicutes
Bacillus
Proteobacteria (Alfa)
Loktanella
Proteobacteria (Alfa)
Devosia
Proteobacteria (Beta)
Herbaspirillum
Proteobacteria (Gamma)
Moraxella
2
4
6
8
10
12
14
16
18
20
Fylum
Genus
Actinobacteria
Rothia
Fylum
Genus
Fylum
Genus
Fylum
Genus
Actinobacteria
Arthrobacter
Bacteroidetes
Hymenobacter
Bacteroidetes
Flavobacterium_aquatile
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Fylum
Genus
Thermi
Deinococcus
Firmicutes
Stafylococcus
Firmicutes
Paenibacillus_wynnii_LMG22176
Proteobacteria (Alfa)
Porfyrobacter
Proteobacteria (Alfa)
Brevundimonas
Proteobacteria (Beta)
Polaromonas
5.4 Sequentie verwerking en analyse
Twee verschillende pipelines werden gebruikt voor de dataverwerking en analyse. De
sequenties die gegenereerd werden door het Roche 454 Titanium platform werden
opgeslagen in een standaard flowgram formaat (SFF) bestand. Een SFF-bestand is een binair
bestand dat informatie bevat over de flowgram, de sequenties en de kwaliteit van de
sequenties. De data bekomen door de Ion Torrent PGM werd opgeslagen in een FastQbestand, een alternatief voor een SFF-bestand. Een FastQ-bestand is een tekst bestand dat
gebruikt wordt om sequentie reads in op te slaan samen met hun corresponderende
kwaliteitsscore (Cock et al, 2010).
5.4.1 Mothur pipeline
Dataverwerking en analyse gebeurde met Mothur v.1.33.2 (Schloss et al, 2009) en de Mothur
SOP (http://www.mothur.org/wiki/454_SOP). Een Mothur Batch bestand werd geschreven
waarin de volgende functies werden uitgevoerd: [1] fasta, qual en flow data extraheren in het
geval van het SFF-bestand en fasta en qual data in het geval van het FastQ-bestand; [2]
demultiplexing, barcode en primer sequenties verwijderen, minimum en/of maximum lengte
instellen en sequenties met homopolymeren langer dan een bepaalde cutoff-waarde
72
Materiaal en methoden
verwijderen aan de hand van flowgrams of kwaliteitsscores (trimmen); [3] verwerken van
verbeterde sequenties (inclusief aligneren, screenen, filteren en pre-clusteren); [4] chimera’s
identificeren en verwijderen met behulp van de Uchime implementatie (Edgar et al, 2011); [5]
sequenties verwant met organellen (chloroplast en mitochondrium) identificeren en
verwijderen; [6] een fasta bestand van de opgekuiste sequentie data opslaan met een
corresponderend groeps-bestand dat indicatie geeft van het originele staal voor elke
sequentie; [7] afstandsmatrix aanmaken en sequenties clusteren in OTU’s (met 97% sequentie
similariteit voor de OTU’s); [8] elke sequentie classificeren tot op het genus niveau en deze
taxonomie gebruiken voor het classificeren van de OTU’s; [9] rarefaction curves berekenen
(met 97% sequentie similariteit voor OTU’s).
5.4.1.1 Reduceren van sequeneringsfouten
Bij het trimmen van de sequenties werden meerdere waarden voor de toegelaten mismatches
van de barcode- en primersequenties getest met een maximum van 4 voor beide
componenten. Het maximaal aantal homopolymeren dat werd toegelaten was 8 bp en de
minimum lengte van de sequenties werd op 200 bp ingesteld. Vervolgens werd met het
shhh.flows commando het in Mothur geïmplementeerde Pyronoise algoritme (Quince et al,
2009) uitgevoerd, dat gebruikt maakt van de snelle clusteringsmethoden in Mothur. Hiermee
werden de achtergrond signalen verwijderd van onze sequenties. Wanneer de
kwaliteitsscores gebruikt werden voor het trimmen van de Ion Torrent-data werden
verschillende parameters getest (gemiddelde phred score voor een bepaalde windowsize).
Voor verdere verwerking van de data werd enkel met de unieke sequenties gewerkt waardoor
de dataset een groot deel vereenvoudigd werd.
5.4.1.2 Alignering
Voor de alignering van de sequenties met Mothur werden er eerst octameren gezocht,
vervolgens werd door een Needleman-Wunsch paarsgewijze alignering uitgevoerd tegen een
50.000 kolom brede Silva referentie alignering, gebruik makend van de Mothur NASTalignering (DeSantis et al, 2006; Schloss, 2009). Het gotoh algoritme werd ook getest als
alternatieve aligneringsmethode net zoals de blastn methode voor het vinden van de template
sequentie. Het Needleman algoritme straft een opening en een extensie van een gap
gelijkwaardig, terwijl het gotoh algoritme verschillende waarden gebruikt met als standaard 2 strafpunten voor een gap opening en -1 voor extensie. Het blastn algoritme staat voor
nucleotide-blast waarbij gelijkaardige regio’s gezocht worden tussen twee biologische
sequenties aan de hand van een opgegeven nucleotide query-sequentie en een nucleotide
database. Voor elke dataset werden twee Needleman-Wunsch aligneringen bekomen, één
met en één zonder de pre-cluster stap. Ook werd een gefilterde-template-alignering
uitgevoerd, waarbij de referentie template van de Greengenes database (voor classificatie)
eerst gealigneerd werd met de Silva database en vervolgens gefilterd werd (hard=T).
Classificatie vond dan plaats aan de hand van een gefilterde referentie-template.
5.4.1.3 Screening, filtering en pre-clusteren
Sequenties dit zich buiten de gewenste aligneringsregio bevinden werden verwijderen
(screening). Voor de deze stap werd een criterium van 95% gekozen waarbij de start positie
telkens gedefinieerd werd en de einde positie geoptimaliseerd werd zodanig dat 95% van de
sequenties zich tussen de start en de geoptimaliseerde eindpositie bevindt. Na de screening
73
Materiaal en methoden
werd de aligneringsregio gefilterd en getrimd, zodat alle sequenties in dezelfde regio
overlappen. De filter stap verwijderde elke kolom (vertical=T) waarin een ‘.’ karakter, indicatie
voor de afwezigheid van data in de volledige kolom, gevonden werd (trump=.). De laatste stap
voor het reduceren van de sequentie fouten was het pre-clusteren waarbij sequenties werden
samengevoegd die 2 bp of minder van een meer abundante sequentie verschillen (diffs=2).
Hiervoor gaat het pre-clustering algoritme de sequenties ordenen volgens hun abundantie en
gaat het vervolgens op zoek naar de zeldzamere sequenties die zich binnen een thresholdrange bevinden van een abundantere sequentie. De sequenties die zich binnenin de threshold
bevinden worden dan samengevoegd met de abundantere sequentie. Met de pre-clustering
stap wordt de dataset verder vereenvoudigd, waardoor het berekenen van de afstandsmatrix
veel sneller verloopt (Huse et al, 2010).
5.4.1.4 OTU’s clusteren
De afstandsmatrices werden berekend met drie verschillende behandelingswijzen voor gaps
waarbij ‘één gap’ een string van gaps als één gap ziet, ‘geen gaps’ de aanwezige gaps negeert
en ‘elke gap’ alle aanwezige gaps individueel straft. Een cutoff waarde van 0.15 werd
ingesteld. Dit houdt in dat elke paarsgewijze afstand groter dan 0.15 niet bewaard wordt. Voor
het toewijzen van sequenties aan OTU’s werden drie cluster methodes gebruikt: nearest
neighbor, furthest neighbor en average neighbor. Deze OTU’s worden vervolgens
geclassificeerd met de Mothur versie van het “Bayesian” classificatie algoritme waarbij de
Greengenes referentie bestanden gebruikt worden (Wang et al, 2007).
5.4.2 Uparse pipeline
De UPARSE pipeline is een algoritme dat geïmplementeerd zit in USEARCH v.7. (Edgar, 2013).
UPARSE heeft geen referentie database om de sequenties te aligneren en gaat standaard
OTU’s de novo aanmaken gebaseerd op ≤1% incorrecte basen i.p.v. >3% incorrecte basen (zie
verder: UPARSE-OTU algoritme). Ook voor de Uparse pipeline werd een batch bestand
geschreven: [1] formatering, Uparse vertrekt van reads in een FASTQ formaat, kan geen SFF
bestanden lezen; [2] Kwaliteits-filtering en trimmen van de reads; [3] Dereplicatie; [4]
Verwijderen van singletons (optioneel) en abundantie sortering; [5] Clusteren van de
overblijvende sequenties met het UPARSE-OTU algoritme.
5.4.2.1 Reduceren van sequentie fouten
Voor het verwijderen van de primer en barcode sequenties wordt er gebruik gemaakt van
python scripts. Het reduceren van de sequentie fouten gebeurt bij via kwaliteit filtering.
Verschillende filter opties werden uitgetest: een minimum lengte instellen (vb. -fastq_minlen
200), de sequentie trunceren (vb. -fastq_trunclen 150), reads verwijderen boven een
maximaal aantal verwachte fouten (vb. –fastq_maxee 0.5) en sequenties trunceren op de
eerste positie die een kwaliteitsscore bevat lager dan een bepaalde cutoff-waarde (vb. –
fastq_truncqual 16). Vervolgens werden de sequenties gederepliceerd.
5.4.2.2 UPARSE-OTU algoritme
Het UPARSE-OTU algoritme steunt net als Mothur op UCHIME voor het verwijderen van de
chimera’s en op USEARCH voor sequentie vergelijkingen en om clustering uit te voeren. Het
UPARSE-OTU algoritme is een nieuw ‘gulzig’ algoritme dat een eerste chimera filtering
simultaan uitvoert met de OTU clustering gebaseerd op de abundantie van de sequenties. Een
tweede referentie gebaseerde chimera filtering wordt uitgevoerd na het clusteren van de
74
Materiaal en methoden
OTU’s met behulp van UCHIME. Deze stappen resulteren samen in een verbeterde
accuraatheid. De accuraatheid van een OTU wordt geëvalueerd door de representatieve
sequentie van elk OTU te vergelijken met de dichtste biologische sequentie, waarbij incorrecte
of ontbrekende basen in de OTU sequentie als fouten worden gezien. Een OTU werd als
‘Perfect’ geclassificeerd als deze identiek was aan de biologische sequentie, ‘Goed’ bij ≤1%
fouten, ‘Ruisachtig’ bij >1% tot ≤3% fouten, ‘chimeer’ bij >3% fouten en met hoge
betrouwbaarheid, ‘Contaminant’ bij een hoge identiteit match met een soort die zich niet in
de doelgerichte gemeenschap bevindt en ‘Ander’ bij >3% fouten of als de biologische
sequentie afwezig is van de referentie database. Een singleton is een read met een sequentie
die exact één keer voorkomt. Als sequentiefouten onafhankelijk en willekeurig verspreid zijn
dan is het onwaarschijnlijk dat de sequentie van een slechte read geproduceerd werd door
toeval, waaruit de redenering volgt dat de meeste singletons op zijn minst één sequentiefout
hebben i.p.v. een sequentie te zijn van een zeldzame soort. Wanneer een sequentie van een
read twee of meerdere malen voorkomt is het dan waarschijnlijk een correcte sequentie,
tenzij het een sequentie is die afkomstig is van een chimeer amplicon. Reads die nog steeds
singletons zijn na kwaliteitsfiltering en trimming worden daarom verwijderd, terwijl reads met
een abundantie van twee of meer gebruikt worden als input voor OTU clustering. Alhoewel
het verwijderen van de singletons de sensitiviteit reduceert door het verwijderen van enkele
zeldzame soorten, wordt het toch aangeraden (Edgar, 2013) om de singletons te verwijderen,
omdat vele valse OTU’s op die manier vermeden worden. Net zoals Uparse beschikt Mothur
ook over de optie om singletons te verwijderen.
Om diversiteit berekeningen te vergelijken tussen de verschillende stalen werd een
rarefaction curve en een Chao1 curve gemaakt met Mothur. De resultaten van de Uparse
pipeline werden omgezet naar een shared bestand om verdere analyse omtrent de alfa- en
beta- diversiteit te kunnen uitvoeren met Mothur.
75
Referenties
6 Referenties
Acinas SG, Marcelino LA, Klepac-Ceraj V & Polz MF (2004) Divergence and redundancy of 16S
rRNA sequences in genomes with multiple rrn operons. J. Bacteriol. 186: 2629–2635
Acinas SG, Sarma-Rupavtarm R, Klepac-Ceraj V & Polz MF (2005) PCR-Induced Sequence
Artifacts and Bias: Insights from Comparison of Two 16S rRNA Clone Libraries
Constructed from the Same Sample. Appl. Environ. Microbiol. 71: 8966–8969
Aislabie JM, Chhour K-L, Saul DJ, Miyauchi S, Ayton J, Paetzold RF & Balks MR (2006) Dominant
bacteria in soils of Marble Point and Wright Valley, Victoria Land, Antarctica. Soil Biol.
Biochem. 38: 3041–3056
Aislabie JM, Lau A, Dsouza M, Shepherd C, Rhodes P & Turner SJ (2013) Bacterial composition
of soils of the Lake Wellman area, Darwin Mountains, Antarctica. Extremophiles 17:
775–786
Amann RI, Ludwig W & Schleifer KH (1995) Phylogenetic identification and in situ detection of
individual microbial cells without cultivation. Microbiol. Rev. 59: 143–169
Antarctic
marine
ecosystem
(2008)
Sci.
Hub
Available
http://www.sciencelearn.org.nz/Contexts/Icy-Ecosystems/Science-Ideas-andConcepts/Antarctic-marine-ecosystem [Accessed June 5, 2014]
at:
Armougom F & Raoult D (2009) Exploring Microbial Diversity Using 16S rRNA High-Throughput
Methods. J. Comput. Sci. Syst. Biol. 02: 74–92
Barriuso J, Valverde JR & Mellado RP (2011) Estimation of bacterial diversity using next
generation sequencing of 16S rDNA: a comparison of different workflows. BMC
Bioinformatics 12: 473
Behrendt JC, LeMasurier WE, Cooper AK, Tessensohn F, Tréhu A & Damaske D (1991)
Geophysical studies of the West Antarctic Rift System. Tectonics 10: 1257–1273
Beintema A (2013) Eilanden Atlas Contact, Uitgeverij
Berry D, Mahfoudh KB, Wagner M & Loy A (2011) Barcoded Primers Used in Multiplex
Amplicon Pyrosequencing Bias Amplification. Appl. Environ. Microbiol. 77: 7846–7849
Bidle KD, Lee S, Marchant DR & Falkowski PG (2007) Fossil genes and microbes in the oldest
ice on Earth. Proc. Natl. Acad. Sci. 104: 13455–13460
Bowman JP, McCammon SA, Rea SM & McMeekin TA (2000a) The microbial composition of
three limnologically disparate hypersaline Antarctic lakes. FEMS Microbiol. Lett. 183:
81–88
77
Referenties
Bowman JP, Rea SM, McCammon SA & McMeekin TA (2000b) Diversity and community
structure within anoxic sediment from marine salinity meromictic lakes and a coastal
meromictic marine basin, Vestfold Hilds, Eastern Antarctica. Environ. Microbiol. 2:
227–237
Bragg LM, Stone G, Butler MK, Hugenholtz P & Tyson GW (2013) Shining a light on dark
sequencing: characterising errors in Ion Torrent PGM data. PLoS Comput. Biol. 9:
e1003031
British
Antarctic
Survey
(2010a)
Plants
of
Antarctica.
Available
at:
http://www.antarctica.ac.uk/about_antarctica/wildlife/plants/ [Accessed March 18,
2014]
British
Antarctic Survey (2010b) Land Animals of Antarctica. Available
http://www.antarctica.ac.uk/about_antarctica/wildlife/land_animals/index.php
[Accessed May 13, 2014]
at:
Brockman W, Alvarez P, Young S, Garber M, Giannoukos G, Lee WL, Russ C, Lander ES,
Nusbaum C & Jaffe DB (2008) Quality scores and SNP detection in sequencing-bysynthesis systems. Genome Res.: gr.070227.107
Bryant DA & Frigaard N-U (2006) Prokaryotic photosynthesis and phototrophy illuminated.
Trends Microbiol. 14: 488–496
Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, Fierer N, Peña
AG, Goodrich JK, Gordon JI, Huttley GA, Kelley ST, Knights D, Koenig JE, Ley RE,
Lozupone CA, McDonald D, Muegge BD, Pirrung M, Reeder J, et al (2010) QIIME allows
analysis of high-throughput community sequencing data. Nat. Methods 7: 335–336
Cawood PA, Kröner A, Collins WJ, Kusky TM, Mooney WD & Windley BF (2009) Accretionary
orogens through Earth history. Geol. Soc. Lond. Spec. Publ. 318: 1–36
Chan Y, Nostrand JDV, Zhou J, Pointing SB & Farrell RL (2013) Functional ecology of an Antarctic
Dry Valley. Proc. Natl. Acad. Sci. 110: 8990–8995
Chou H-H & Holmes MH (2001) DNA sequence quality trimming and vector removal.
Bioinformatics 17: 1093–1104
Churko JM, Mantalas GL, Snyder MP & Wu JC (2013) Overview of High Throughput Sequencing
Technologies to Elucidate Molecular Pathways in Cardiovascular Diseases. Circ. Res.
112: 1613–1623
Clucas GV, Dunn MJ, Dyke G, Emslie SD, Naveen R, Polito MJ, Pybus OG, Rogers AD & Hart T
(2014) A reversal of fortunes: climate change ‘winners’ and ‘losers’ in Antarctic
Peninsula penguins. Sci. Rep. 4: 5024
78
Referenties
Cock PJA, Fields CJ, Goto N, Heuer ML & Rice PM (2010) The Sanger FASTQ file format for
sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids
Res. 38: 1767–1771
Convey P, Gibson JAE, Hillenbrand C-D, Hodgson DA, Pugh PJA, Smellie JL & Stevens MI (2008)
Antarctic terrestrial life--challenging the history of the frozen continent? Biol. Rev.
Camb. Philos. Soc. 83: 103–117
Corinaldesi C, Danovaro R & Dell’Anno A (2005) Simultaneous Recovery of Extracellular and
Intracellular DNA Suitable for Molecular Studies from Marine Sediments. Appl.
Environ. Microbiol. 71: 46–50
Cowan DA, Makhalanyane TP, Dennis PG & Hopkins DW (2014) Microbial ecology and
biogeochemistry of continental Antarctic soils. Front. Microbiol. 5: Available at:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3988359/ [Accessed June 4, 2014]
Deacon SGER (1937) The Hydrology of the Southern Ocean Cambridge University Press
DeConto RM & Pollard D (2003) Rapid Cenozoic glaciation of Antarctica induced by declining
atmospheric CO2. Nature 421: 245–249
DeSantis TZ Jr, Hugenholtz P, Keller K, Brodie EL, Larsen N, Piceno YM, Phan R & Andersen GL
(2006) NAST: a multiple sequence alignment server for comparative analysis of 16S
rRNA genes. Nucleic Acids Res. 34: W394–399
Edgar RC (2013) UPARSE: highly accurate OTU sequences from microbial amplicon reads. Nat.
Methods 10: 996–998
Edgar RC, Haas BJ, Clemente JC, Quince C & Knight R (2011) UCHIME improves sensitivity and
speed of chimera detection. Bioinforma. Oxf. Engl. 27: 2194–2200
Edwards A, Anesio AM, Rassner SM, Sattler B, Hubbard B, Perkins WT, Young M & Griffith GW
(2011) Possible interactions between bacterial diversity, microbial activity and
supraglacial hydrology of cryoconite holes in Svalbard. ISME J. 5: 150–160
Edwards A, Mur LAJ, Girdwood SE, Anesio AM, Stibal M, Rassner SME, Hell K, Pachebat JA,
Post B, Bussell JS, Cameron SJS, Griffith GW, Hodson AJ & Sattler B (2014) Coupled
cryoconite ecosystem structure-function relationships are revealed by comparing
bacterial communities in alpine and Arctic glaciers. FEMS Microbiol. Ecol.: n/a–n/a
Edwards A, Rassner SM, Anesio AM, Worgan HJ, Irvine-Fynn TDL, Williams HW, Sattler B &
Griffith GW (2013) Contrasts between the cryoconite and ice-marginal bacterial
communities of
Svalbard
glaciers.
Polar
Res.
32:
Available
at:
http://www.polarresearch.net/index.php/polar/article/view/19468 [Accessed June 5,
2014]
79
Referenties
Edwards R & Emery W (1982) Australasian Southern Ocean frontal stucture during summer
1976-77. Mar. Freshw. Res. 33: 3–22
Edwards U, Rogall T, Blöcker H, Emde M & Böttger EC (1989) Isolation and direct complete
nucleotide determination of entire genes. Characterization of a gene coding for 16S
ribosomal RNA. Nucleic Acids Res. 17: 7843–7853
Eijsden J van (2013) Antarctica en de subantarctische eilanden Uitgeverij Elmar
Eilers H, Pernthaler J, Glöckner FO & Amann R (2000) Culturability and In Situ Abundance of
Pelagic Bacteria from the North Sea. Appl. Environ. Microbiol. 66: 3044–3051
Eisenstein M (2012) The battle for sequencing supremacy. Nat. Biotechnol. 30: 1023–1026
Fisher MM & Triplett EW (1999) Automated approach for ribosomal intergenic spacer analysis
of microbial diversity and its application to freshwater bacterial communities. Appl.
Environ. Microbiol. 65: 4630–4636
Freckman DW & Virginia RA (1997) LOW-DIVERSITY ANTARCTIC SOIL NEMATODE
COMMUNITIES: DISTRIBUTION AND RESPONSE TO DISTURBANCE. Ecology 78: 363–
369
Gilles A, Meglecz E, Pech N, Ferreira S, Malausa T & Martin J-F (2011) Accuracy and quality
assessment of 454 GS-FLX Titanium pyrosequencing. BMC Genomics 12: 245
Gogol-Döring A & Chen W (2012) An overview of the analysis of next generation sequencing
data. Methods Mol. Biol. Clifton NJ 802: 249–257
Golan D & Medvedev P (2013) Using state machines to model the Ion Torrent sequencing
process and to improve read error rates. Bioinformatics 29: i344–i351
Haas BJ, Gevers D, Earl AM, Feldgarden M, Ward DV, Giannoukos G, Ciulla D, Tabbaa D,
Highlander SK, Sodergren E, Methé B, DeSantis TZ, Human Microbiome Consortium,
Petrosino JF, Knight R & Birren BW (2011) Chimeric 16S rRNA sequence formation and
detection in Sanger and 454-pyrosequenced PCR amplicons. Genome Res. 21: 494–504
Hambrey MJ & Barrett PJ (1993) Cenozoic sedimentary and climatic record, Ross Sea region,
Antarctica. In Antarctic Research Series, Kennett JP & Warnke DA (eds) pp 91–124.
Washington,
D.
C.:
American
Geophysical
Union
Available
at:
http://www.agu.org/books/ar/v060/AR060p0091/AR060p0091.shtml [Accessed June
4, 2014]
Hodson A, Anesio AM, Ng F, Watson R, Quirk J, Irvine-Fynn T, Dye A, Clark C, McCloy P, Kohler
J & Sattler B (2007) A glacier respires: Quantifying the distribution and respiration CO2
flux of cryoconite across an entire Arctic supraglacial ecosystem. J. Geophys. Res.
Biogeosciences 112: G04S36
80
Referenties
Hodson A, Anesio AM, Tranter M, Fountain A, Osborn M, Priscu J, Laybourn-Parry J & Sattler
B (2008) GLACIAL ECOSYSTEMS. Ecol. Monogr. 78: 41–67
Huse SM, Huber JA, Morrison HG, Sogin ML & Welch DM (2007) Accuracy and quality of
massively parallel DNA pyrosequencing. Genome Biol. 8: R143
Huse SM, Welch DM, Morrison HG & Sogin ML (2010) Ironing out the wrinkles in the rare
biosphere through improved OTU clustering. Environ. Microbiol. 12: 1889–1898
Jaenicke S, Ander C, Bekel T, Bisdorf R, Droge M, Gartemann K-H, Junemann S, Kaiser O, Krause
L, Tille F, Zakrzewski M, Puhler A, Schluter A & Goesmann A (2011) Comparative and
Joint Analysis of Two Metagenomic Datasets from a Biogas Fermenter Obtained by
454-Pyrosequencing.
PLoS
ONE
6:
Available
at:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3027613/ [Accessed April 28, 2014]
Janda JM & Abbott SL (2007) 16S rRNA Gene Sequencing for Bacterial Identification in the
Diagnostic Laboratory: Pluses, Perils, and Pitfalls. J. Clin. Microbiol. 45: 2761–2764
Jungblut A-D, Hawes I, Mountfort D, Hitzfeld B, Dietrich DR, Burns BP & Neilan BA (2005)
Diversity within cyanobacterial mat communities in variable salinity meltwater ponds
of McMurdo Ice Shelf, Antarctica. Environ. Microbiol. 7: 519–529
Kanagawa T (2003) Bias and artifacts in multitemplate polymerase chain reactions (PCR). J.
Biosci. Bioeng. 96: 317–323
Karger BL & Guttman A (2009) DNA Sequencing by Capillary Electrophoresis. Electrophoresis
30: S196–S202
Knight R, Maxwell P, Birmingham A, Carnes J, Caporaso JG, Easton BC, Eaton M, Hamady M,
Lindsay H, Liu Z, Lozupone C, McDonald D, Robeson M, Sammut R, Smit S, Wakefield
MJ, Widmann J, Wikman S, Wilson S, Ying H, et al (2007) PyCogent: a toolkit for making
sense from sequence. Genome Biol. 8: R171
Krzysztof Birkenmajer AG (2005) First Cenozoic glaciers in West Antarctica. Pol. Polar Res. 26:
3–12
Kunin V, Engelbrektson A, Ochman H & Hugenholtz P (2010) Wrinkles in the rare biosphere:
pyrosequencing errors can lead to artificial inflation of diversity estimates. Environ.
Microbiol. 12: 118–123
Lam HYK, Clark MJ, Chen R, Chen R, Natsoulis G, O’Huallachain M, Dewey FE, Habegger L,
Ashley EA, Gerstein MB, Butte AJ, Ji HP & Snyder M (2012) Performance comparison
of whole-genome sequencing platforms. Nat. Biotechnol. 30: 78–82
Langford H, Hodson A, Banwart S & Bøggild C (2010) The microstructure and biogeochemistry
of Arctic cryoconite granules. Ann. Glaciol. 51: 87–94
81
Referenties
Livermore R, Hillenbrand C-D, Meredith M & Eagles G (2007) Drake Passage and Cenozoic
climate: An open and shut case? Geochem. Geophys. Geosystems 8: Q01005
Loman NJ, Misra RV, Dallman TJ, Constantinidou C, Gharbia SE, Wain J & Pallen MJ (2012)
Performance comparison of benchtop high-throughput sequencing platforms. Nat.
Biotechnol. 30: 434–439
Margesin R, Zacke G & Schinner F (2002) Characterization of Heterotrophic Microorganisms in
Alpine Glacier Cryoconite. Arct. Antarct. Alp. Res. 34: 88
Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J, Braverman MS,
Chen Y-J, Chen Z, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen
S, Ho CH, Ho CH, Irzyk GP, et al (2005) Genome sequencing in microfabricated highdensity picolitre reactors. Nature 437: 376–380
Marzorati M, Wittebolle L, Boon N, Daffonchio D & Verstraete W (2008) How to get more out
of molecular fingerprints: practical tools for microbial ecology. Environ. Microbiol. 10:
1571–1581
Maxam AM & Gilbert W (1977) A new method for sequencing DNA. Proc. Natl. Acad. Sci. U. S.
A. 74: 560–564
Merriman B, Ion Torrent R&D Team & Rothberg JM (2012) Progress in ion torrent
semiconductor chip based sequencing. Electrophoresis 33: 3397–3417
Metzker ML (2010) Sequencing technologies - the next generation. Nat. Rev. Genet. 11: 31–
46
Vaz-Moreira I, Egas C, Nunes OC & Manaia CM (2011) Culture-dependent and cultureindependent diversity surveys target different bacteria: a case study in a freshwater
sample. Antonie Van Leeuwenhoek 100: 245–257
Mullis KB (1990) The unusual origin of the polymerase chain reaction. Sci. Am. 262: 56–61, 64–
5
Niederberger TD, McDonald IR, Hacker AL, Soo RM, Barrett JE, Wall DH & Cary SC (2008)
Microbial community composition in soils of Northern Victoria Land, Antarctica.
Environ. Microbiol. 10: 1713–1724
Niedringhaus TP, Milanova D, Kerby MB, Snyder MP & Barron AE (2011) Landscape of NextGeneration Sequencing Technologies. Anal. Chem. 83: 4327–4341
Nowlin WD & Klinck JM (1986) The physics of the Antarctic Circumpolar Current. Rev. Geophys.
24: 469–491
Okubo A & Sugiyama S (2009) Comparison of molecular fingerprinting methods for analysis of
soil microbial community structure. Ecol. Res. 24: 1399–1405
82
Referenties
Oren A (2012) Salts and Brines. In Ecology of Cyanobacteria II, Whitton BA (ed) pp 401–426.
Springer Netherlands Available at: http://link.springer.com/chapter/10.1007/978-94007-3855-3_15 [Accessed June 10, 2014]
Parameswaran P, Jalili R, Tao L, Shokralla S, Gharizadeh B, Ronaghi M & Fire AZ (2007) A
pyrosequencing-tailored nucleotide barcode design unveils opportunities for largescale sample multiplexing. Nucleic Acids Res. 35: e130
Pedrós-Alió C (2012) The rare bacterial biosphere. Annu. Rev. Mar. Sci. 4: 449–466
Peeters K, Ertz D & Willems A (2011a) Culturable bacterial diversity at the Princess Elisabeth
Station (Utsteinen, Sør Rondane Mountains, East Antarctica) harbours many new taxa.
Syst. Appl. Microbiol. 34: 360–367
Peeters K, Hodgson DA, Convey P & Willems A (2011b) Culturable diversity of heterotrophic
bacteria in Forlidas Pond (Pensacola Mountains) and Lundström Lake (Shackleton
Range), Antarctica. Microb. Ecol. 62: 399–413
Peeters K & Verleyen E (2012) Heterotrophic bacterial diversity in aquatic microbial mat
communities from Antarctica. 35: 543–554
Pontes DS, Lima-Bittencourt CI, Chartone-Souza E & Amaral Nascimento AM (2007) Molecular
approaches: advantages and artifacts in assessing bacterial diversity. J. Ind. Microbiol.
Biotechnol. 34: 463–473
Qiu X, Wu L, Huang H, McDonel PE, Palumbo AV, Tiedje JM & Zhou J (2001) Evaluation of PCRGenerated Chimeras, Mutations, and Heteroduplexes with 16S rRNA Gene-Based
Cloning. Appl. Environ. Microbiol. 67: 880–887
Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, Bertoni A, Swerdlow HP & Gu
Y (2012) A tale of three next generation sequencing platforms: comparison of Ion
Torrent, Pacific Biosciences and Illumina MiSeq sequencers. BMC Genomics 13: 341
Quast C, Pruesse E, Yilmaz P, Gerken J, Schweer T, Yarza P, Peplies J & Glöckner FO (2013) The
SILVA ribosomal RNA gene database project: improved data processing and web-based
tools. Nucleic Acids Res. 41: D590–D596
Quince C, Lanzén A, Curtis TP, Davenport RJ, Hall N, Head IM, Read LF & Sloan WT (2009)
Accurate determination of microbial diversity from 454 pyrosequencing data. Nat.
Methods 6: 639–641
Quince C, Lanzen A, Davenport RJ & Turnbaugh PJ (2011) Removing noise from pyrosequenced
amplicons. BMC Bioinformatics 12: 38
Rastogi G & Sani RK (2011) Molecular Techniques to Assess Microbial Community Structure,
Function, and Dynamics in the Environment. In Microbes and Microbial Technology,
Ahmad I Ahmad F & Pichtel J (eds) pp 29–57. Springer New York Available at:
83
Referenties
http://link.springer.com/chapter/10.1007/978-1-4419-7931-5_2 [Accessed May 13,
2014]
Riffenburgh B (2007) Encyclopedia of the Antarctic Taylor & Francis
Rincon-Florez VA, Carvalhais LC & Schenk PM (2013) Culture-Independent Molecular Tools for
Soil and Rhizosphere Microbiology. Diversity 5: 581–612
Rogers AD, Johnston NM, Murphy EJ & Clarke A (2012) Antarctic Ecosystems: An Extreme
Environment in a Changing World John Wiley & Sons
Rothberg JM, Hinz W, Rearick TM, Schultz J, Mileski W, Davey M, Leamon JH, Johnson K,
Milgrew MJ, Edwards M, Hoon J, Simons JF, Marran D, Myers JW, Davidson JF, Branting
A, Nobile JR, Puc BP, Light D, Clark TA, et al (2011) An integrated semiconductor device
enabling non-optical genome sequencing. Nature 475: 348–352
Sanger F, Nicklen S & Coulson AR (1977) DNA sequencing with chain-terminating inhibitors.
Proc. Natl. Acad. Sci. U. S. A. 74: 5463–5467
Säwström C, Mumford P, Marshall W, Hodson A & Laybourn-Parry J (2002) The microbial
communities and primary productivity of cryoconite holes in an Arctic glacier (Svalbard
79°N). Polar Biol. 25: 591–596
Schloss PD (2009) A High-Throughput DNA Sequence Aligner for Microbial Ecology Studies.
PLoS ONE 4: e8230
Schloss PD (2010) The effects of alignment quality, distance calculation method, sequence
filtering, and region on the analysis of 16S rRNA gene-based studies. PLoS Comput. Biol.
6: e1000844
Schloss PD, Gevers D & Westcott SL (2011) Reducing the effects of PCR amplification and
sequencing artifacts on 16S rRNA-based studies. PloS One 6: e27310
Schloss PD & Handelsman J (2005) Introducing DOTUR, a Computer Program for Defining
Operational Taxonomic Units and Estimating Species Richness. Appl. Environ.
Microbiol. 71: 1501–1506
Schloss PD, Westcott SL, Ryabin T, Hall JR, Hartmann M, Hollister EB, Lesniewski RA, Oakley
BB, Parks DH, Robinson CJ, Sahl JW, Stres B, Thallinger GG, Van Horn DJ & Weber CF
(2009) Introducing mothur: open-source, platform-independent, communitysupported software for describing and comparing microbial communities. Appl.
Environ. Microbiol. 75: 7537–7541
Shade A, Hogan CS, Klimowicz AK, Linske M, McManus PS & Handelsman J (2012) Culturing
captures members of the soil rare biosphere. Environ. Microbiol. 14: 2247–2252
Shin S & Park J (2014) Correction of sequence-dependent ambiguous bases (Ns) from the 454
pyrosequencing system. Nucleic Acids Res.: gku070
84
Referenties
Simon C, Wiezer A, Strittmatter AW & Daniel R (2009) Phylogenetic diversity and metabolic
potential revealed in a glacier ice metagenome. Appl. Environ. Microbiol. 75: 7519–
7526
Sjöling S & Cowan DA (2003) High 16S rDNA bacterial diversity in glacial meltwater lake
sediment, Bratina Island, Antarctica. Extremophiles 7: 275–282
Smith RO, Vennell R, Bostock HC & Williams MJM (2013) Interaction of the subtropical front
with topography around southern New Zealand. Deep Sea Res. Part Oceanogr. Res. 76:
13–26
Sogin ML, Morrison HG, Huber JA, Mark Welch D, Huse SM, Neal PR, Arrieta JM & Herndl GJ
(2006) Microbial diversity in the deep sea and the underexplored ‘rare biosphere’.
Proc. Natl. Acad. Sci. U. S. A. 103: 12115–12120
Speksnijder AG, Kowalchuk GA, De Jong S, Kline E, Stephen JR & Laanbroek HJ (2001)
Microvariation artifacts introduced by PCR and cloning of closely related 16S rRNA
gene sequences. Appl. Environ. Microbiol. 67: 469–472
Stahl DA, Lane DJ, Olsen GJ & Pace NR (1985) Characterization of a Yellowstone hot spring
microbial community by 5S rRNA sequences. Appl. Environ. Microbiol. 49: 1379–1384
Steig EJ, Schneider DP, Rutherford SD, Mann ME, Comiso JC & Shindell DT (2009) Warming of
the Antarctic ice-sheet surface since the 1957 International Geophysical Year. Nature
457: 459–462
Takeuchi N, Kohshima S & Seko K (2001) Structure, Formation, and Darkening Process of
Albedo-Reducing Material (Cryoconite) on a Himalayan Glacier: A Granular Algal Mat
Growing on the Glacier. Arct. Antarct. Alp. Res. 33: 115
Torre JR de la, Goebel BM, Friedmann EI & Pace NR (2003) Microbial Diversity of
Cryptoendolithic Communities from the McMurdo Dry Valleys, Antarctica. Appl.
Environ. Microbiol. 69: 3858–3867
Tranter M, Fountain AG, Fritsen CH, Berry Lyons W, Priscu JC, Statham PJ & Welch KA (2004)
Extreme hydrochemical conditions in natural microcosms entombed within Antarctic
ice. Hydrol. Process. 18: 379–387
Tucker T, Marra M & Friedman JM (2009) Massively parallel sequencing: the next big thing in
genetic medicine. Am. J. Hum. Genet. 85: 142–154
Tynan CT (1998) Ecological importance of the Southern Boundary of the Antarctic Circumpolar
Current. Nature 392: 708–710
Vincent WF (2000) Evolutionary origins of Antarctic microbiota: invasion, selection and
endemism. Antarct. Sci. 12: 374–385
85
Referenties
Walsh PS, Erlich HA & Higuchi R (1992) Preferential PCR amplification of alleles: mechanisms
and solutions. PCR Methods Appl. 1: 241–250
Wang GCY & Wang Y (1996) The frequency of chimeric molecules as a consequence of PCR coamplification of 16S rRNA genes from different bacterial species. Microbiology 142:
1107–1114
Wang Q, Garrity GM, Tiedje JM & Cole JR (2007) Naïve Bayesian Classifier for Rapid Assignment
of rRNA Sequences into the New Bacterial Taxonomy. Appl. Environ. Microbiol. 73:
5261–5267
Ward DM, Weller R & Bateson MM (1990) 16S rRNA sequences reveal numerous uncultured
microorganisms in a natural community. Nature 345: 63–65
Werner JJ, Koren O, Hugenholtz P, DeSantis TZ, Walters WA, Caporaso JG, Angenent LT, Knight
R & Ley RE (2012) Impact of training sets on classification of high-throughput bacterial
16s rRNA gene surveys. ISME J. 6: 94–103
Wharton RA Jr, McKay CP, Simmons GM Jr & Parker BC (1985) Cryoconite holes on glaciers.
Bioscience 35: 499–503
Wilhelm L, Singer GA, Fasching C, Battin TJ & Besemer K (2013) Microbial biodiversity in
glacier-fed streams. ISME J. 7: 1651–1660
Wilmotte A, Willems A, Vyverman W & Verleyen E (2012) Antarctic microbial biodiversity: the
importance of geographical and ecological factors (AMBIO). Available at:
http://www.belspo.be/belspo/ssd/science/Reports/AMBIO%20FinalReport%20ML.p
df
Woese CR (1987) Bacterial evolution. Microbiol. Rev. 51: 221–271
Wyrtki K (1960) The Antarctic Convergence-and Divergence. Nature 187: 581–582
Yergeau E, Bokhorst S, Kang S, Zhou J, Greer CW, Aerts R & Kowalchuk GA (2012) Shifts in soil
microorganisms in response to warming are consistent across a range of Antarctic
environments. ISME J. 6: 692–702
Yergeau E, Newsham KK, Pearce DA & Kowalchuk GA (2007) Patterns of bacterial diversity
across a range of Antarctic terrestrial habitats. Environ. Microbiol. 9: 2670–2682
Zagordi O, Klein R, Daumer M & Beerenwinkel N (2010) Error correction of next-generation
sequencing data and reliable estimation of HIV quasispecies. Nucleic Acids Res. 38:
7400–7409
Zwart G, Hiorns WD, Methé BA, van Agterveld MP, Huismans R, Nold SC, Zehr JP & Laanbroek
HJ (1998) Nearly identical 16S rRNA sequences recovered from lakes in North America
and Europe indicate the existence of clades of globally distributed freshwater bacteria.
Syst. Appl. Microbiol. 21: 546–556
86
Bijlagen
7 Bijlage
7.1 Principes van drie moleculaire methoden
Figuur 13: Principes van drie moleculaire fingerprint methoden. DGGE, Denaturing Gradient Gel
Electrophoresis; ARISA, Automated Ribosomal Intergenic Spacer Analysis en T-RFLP, Terminal
Restriction Fragment Length Polymorphism. Aangepaste figuur van Okubo & Sugiyama, 2009.
87
Bijlagen
7.2 Een vergelijking van de data-analyse-outputs op fylumniveau
bekomen met Mothur en Uparse
Tabel 9: Een overzicht van de data-analyse-outputs van de Roche 454 dataset bekomen door verschillende
parameters te laten variëren met Mothur. De V1-V3 regio van het 16S rRNA gen van negen stalen verschillende
Antarctische regio’s werd gesequeneerd met het Roche 454 FLX + Titanium platform. De ruwe dataset werd
geanalyseerd met Mothur en verschillende parameters werden uitgetest. De sequenties van de negen stalen werden
geclusterd in OTU’s met een identiteits threshold van 97% en ze werden geclassificeerd met behulp van de
Greengenes database.
QS: kwaliteitsscore, Ref_Templ: classificatie van de default analyse met een gefilterde Greengenes
referentie-template, MinL250: minimum leeslengte van 250 bp, B0P0: nul mismatches voor de Barcodeen Primersequentie: B2P2: twee mismatches voor de Bardcode- en Primersequentie, B0P2: nul
mismatches voor de Barcodesequentie en twee mismatches voor de Primersequentie, MaxHp4:
maximum lengte van homopolymeren is 4 bp, MaxHp12: maximum lengte van homopolymeren is 12
bp, PreC: de default Mothur pipeline zonder de precluster-stap, Gotoh: Aligneringsmethode, Elke gap:
straft elke aanwezige gap, Geen gap: negeert de aanwezige gaps, B0P2/qTh_16: een combinatie van
B0P2 met een kwalitaitsscore threshold van minimum Q16, 2_Ch_GoldOtu: twee chimera-stappen
waarvan de eerste de Silva Gold database gebruikt en de tweede de representatieve sequentie van elke
OTU.
88
Bijlagen
Tabel 10: Een vergelijking van de data-analyse-outputs op fylumniveau bekomen met Mothur en Uparse. De
V1-V3 regio van het 16S rRNA-gen van negen stalen uit verschillende Antarctische regio’s werd gesequeneerd
met het Roche 454 FLX + Titanium platform. De ruwe dataset werd geanalyseerd met Mothur en Uparse en
het aantal bekomen OTU’s werden onderling vergeleken. De sequenties van de negen stalen werden
geclusterd in OTU’s met een identiteits-threshold van 97% en ze werden geclassificeerd met behulp van de
Greengenes database.
B0P2/qTh_16/2_ch (Combi): nul mismatches voor de Barcode sequentie en twee mismatches voor de Primer
sequentie (B0P2) gecombineerd met een kwaliteitsscores threshold van minimum Q16 (qTh_16) en 2
Chimera-stappen waarvan de eerste gebruikt maakt van de Silva Gold database en de tweede van de
representatieve sequentie van elke OTU’s, Ref_Templ_combi: classificatie van de default analyse met een
gefilterde Greengenes referentie-template en verdere parameters ingesteld zoals bij combi,
Combi_MaxL300: de combi parameters en een maximum leeslengte van 300 bp, Reverse: data analyse
gebaseerd op de reverse primer, 250 bp: de leeslengte in Uparse werd getrunceerd tot 250 bp en B0P0: nul
mismatches voor de Barcode- en Primersequentie.
89
Bijlagen
7.3 Default Uparse pipeline
#making a fastq file of both Roche 454 pools
cat 1.fastq 2.fastq 7.fastq 8.fastq > pool1.fastq
cat 3.fastq 4.fastq 5.fastq 6.fastq > pool2.fastq
#Removal of barcode/primer sequences
Python ./py/fastq_strip_barcode_relabel2.py ./Roche454/Pool1/pool1.fastq
AGAGTTTGATCCTGGCTCAG ./Roche454/Pool1/barcodes_P_1.fa pool_1_F_ > pool1.fastq
Python ./py/fastq_strip_barcode_relabel2.py ./Roche454/Pool2/pool2.fastq
AGAGTTTGATCCTGGCTCAG ./Roche454/Pool2/barcodes_P_2.fa pool_2_F_ > pool2.fastq
#Sequence statistics
usearch7 -fastq_stats pool1.fastq -log pool1_stats.log
usearch7 -fastq_stats pool2.fastq -log pool2_stats.log
#Quality filtering
usearch7 -fastq_filter pool1.fastq -fastq_truncqual 16 -fastq_trunclen 200 -fastq_maxee 0.5 fastaout pool1_minlen200.fasta
usearch7 -fastq_filter pool2.fastq -fastq_truncqual 16 -fastq_trunclen 200 -fastq_maxee 0.5 fastaout pool2_minlen200.fasta
cat pool1_minlen200.fasta pool2_minlen200.fasta > pooled.fasta
#Dereplication
usearch7 -derep_fulllength pooled.fasta -output pooled_unique.fasta -sizeout
#Size sorting of clusters of unique sequences and singleton removal
usearch7 -sortbysize pooled_unique.fasta -output pooled_sorted.fasta
#OTU clustering and chimera checking
usearch7 -cluster_OTU’s pooled_sorted.fasta -OTU’s pooled_otu.fasta -otu_radius_pct 3
#Additional chimera checking with reference database using Uchime algoritm
usearch7 -uchime_ref pooled_otu.fasta -db ./Roche454/silva.gold.ng.fasta -strand plus nonchimeras uchime.fasta
#Label OTU sequences OTU_1, OTU_2...
python ./py/fasta_number.py uchime.fasta OTU_ > final.fasta
#Mapping of sequences to OTU’s
usearch7 -usearch_global pooled.fasta -db final.fasta -strand plus -id 0.97 -uc prok_map_uc
#making an OTU table
python ./py/uc2otutab.py prok_map_uc > OTU_table.txt
#classification with greengenes
#mothur>> classify.seqs(fasta=prok_final.fasta, template=gg_13_5_99.pds.tax,
taxonomy=gg_13_5_99.fasta, cutoff=80)
90
Bijlagen
7.4 Fusie primers voor Next-Generation Sequencing
Tabel 11: Overzicht fusie primers
Roche 454
Staal
Adapter
Linker
Barcode (10 nt)
Forward primer
BB115
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ATGCCGTTAC
AGAGTTTGATCCTGGCTCAG
BB50
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ATGGCGGTAC
AGAGTTTGATCCTGGCTCAG
LA3
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
AGCTTAGGCT
AGAGTTTGATCCTGGCTCAG
PQP
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TAGCCTAAGC
AGAGTTTGATCCTGGCTCAG
SC6
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
AGCTTGCCAT
AGAGTTTGATCCTGGCTCAG
SK5
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ACGTTCAATG
AGAGTTTGATCCTGGCTCAG
TM2
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ACTGGCGGAT
AGAGTTTGATCCTGGCTCAG
TM4
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ACGTTGAATC
AGAGTTTGATCCTGGCTCAG
WO10
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ATCGGCAAGT
AGAGTTTGATCCTGGCTCAG
Alle 9 stalen
Adapter
Reverse primer
CCTCTCTATGGGCAGTCGGTGAT
GTATTACCGCGGCTGCTGGCA
Ion Torrent
Staal
Adapter
Linker
Barcode (10 nt)
Forward primer
BB50
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ACGAGTGCGT
AGAGTTTGATCCTGGCTCAG
BB115
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ACGCTCGACA
AGAGTTTGATCCTGGCTCAG
PB1109
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
AGACGCACTC
AGAGTTTGATCCTGGCTCAG
PE1081
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
AGCACTGTAG
AGAGTTTGATCCTGGCTCAG
PE1082
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ATCAGACACG
AGAGTTTGATCCTGGCTCAG
PB1103
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ATATCGCGAG
AGAGTTTGATCCTGGCTCAG
PE1045
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
CGTGTCTCTA
AGAGTTTGATCCTGGCTCAG
PE1042
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
CTCGCGTGTC
AGAGTTTGATCCTGGCTCAG
UN1107
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TAGTATCAGC
AGAGTTTGATCCTGGCTCAG
PE1036
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TCTCTATGCG
AGAGTTTGATCCTGGCTCAG
PB1101
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TGATACGTCT
AGAGTTTGATCCTGGCTCAG
PE1039
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TACTGAGCTA
AGAGTTTGATCCTGGCTCAG
TE1101
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
CATAGTAGTG
AGAGTTTGATCCTGGCTCAG
PE1066
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
CGAGAGATAC
AGAGTTTGATCCTGGCTCAG
PB1107
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ATACGACGTA
AGAGTTTGATCCTGGCTCAG
UN1102
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TCACGTACTA
AGAGTTTGATCCTGGCTCAG
mock
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
CGTCTAGTAC
AGAGTTTGATCCTGGCTCAG
BB115-rep1
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TCTACGTAGC
AGAGTTTGATCCTGGCTCAG
BB115-rep2
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TGTACTACTC
AGAGTTTGATCCTGGCTCAG
Mock-rep
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
ACGACTACAG
AGAGTTTGATCCTGGCTCAG
Blanco
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
CGTAGACTAG
AGAGTTTGATCCTGGCTCAG
5-min-mock
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TACGAGTATG
AGAGTTTGATCCTGGCTCAG
5-min-BB115
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TACTCTCGTG
AGAGTTTGATCCTGGCTCAG
2-staps-mock
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TAGAGACGAG
AGAGTTTGATCCTGGCTCAG
2-staps-BB115
CCATCTCATCCCTGCGTGTCTCCGAC
TCAG
TCGTCGCTCG
AGAGTTTGATCCTGGCTCAG
Alle 25 stalen
Adapter
Reverse primer
91
Bijlagen
CCTCTCTATGGGCAGTCGGTGAT
GTATTACCGCGGCTGCTGGCA
7.5 DNA extractie protocol
Extractie van extracellulair DNA:
1. Suspendeer onoplosbaar polyvinylpolypyrrolidon (PVPP) (Sigma Chemical Co.,
St.Louis, Mo.) in 3 M HCL (typisch wordt 300 g PVPP gesuspendeerd in 4 l van 3 M HCL)
voor 12 tot 16 uur op kamertemperatuur.
2. Filter de suspensie met MIRACLOTH (Chicopee Mills, Inc., Milltown, N.J.) en
suspendeer en mix de PVPP in 4 l van 20 mM kaliumfosfaat (pH 7.4) door te roeren
gedurende 1 tot 2 uur. Herhaal dit proces tot de suspensie een pH van 7.0 bereikt na
de filtering.
3. Laat de PVPP overnacht aan de lucht drogen.
4. Voeg 2.5 g (nat gewicht) van het sediment toe aan 7.5 ml van 0.1 M nitraat fosfaat
buffer (pH 8.0) en 0.5 g met zuur gewassen PVPP.
5. Homogeniseer de stalen met een horizontale shaker aan een lage snelheid (150
horizontale shakes per min) gedurende drie 1-min cycli, met 1 min koeling van de
stalen op ijs tussen elke cyclus.
6. Voeg SDS (finale concentratie 0.1%) toe en schud de stalen gedurende 10 s.
7. Laat de stalen afkoelen op ijs en centrifugeer ze (500 x g) voor 10 min bij 4°C.
8. Breng het supernatans over naar steriele buisjes.
9. Was de pellets 2x of meer door 7.5 ml van de 0.1 M nitraat fosfaat buffer (pH 8.0) toe
te voegen en centrifugeer zoals hierboven beschreven, zonder SDS toe te voegen.
10. Voeg de supernatants samen en centrifugeer (10 000 x g) voor 20 min bij 4°C.
11. Filter de supernatans (extracellulair DNA) met 0.02 µm-porie-grootte membraan filters
(Anotop 25; Whatman) voor het verwijderen van eventuele contaminerende virus- of
bacteriële cellen.
12. De pellets die het intracellulair DNA bevatten werden verder verwerkt zoals
beschreven door (Zwart et al, 1998).
13. Precipiteer het extracellulair DNA door 1 volume cetyltrimethylammonium bromide
(CTAB) oplossing toe te voegen (1% CTAB in 50 mM Tris-10 mM EDTA, pH 8.0)
14. Incubeer de stalen voor 30 min bij 65°C en centrifugeer (5000 x g) voor 10 min bij 4°C
15. Verwijder de supernatans en suspendeer de pellet in een hoog-zout TE buffer (10 mM
Tris-HCL, 0. mM EDTA, 1 M NaCL; pH 8.0).
16. Voeg 0.6 volume koud isopropanol toe aan elke staal en incubeer de stalen voor 1 uur
op ijs.
17. Centrifugeer de stalen (10 000 x g) voor 15 min bij 4°C.
18. Resuspendeer de pellets in 10 mM Tris-HCL-0.1 mM EDTA (pH 8.0) en voeg een gelijk
volume van fenol-chloroform-isoamyl alcohol (25:24:1, vol/vol/vol) toe.
19. Centrifugeer de voorbereidingen bij 10 000 x g voor 5 min.
92
Bijlagen
20. Mix elke supernatans met een gelijk volume chloroform-isoamyl alcohol (24:1, vol/vol)
en centrifugeer opnieuw.
21. Precipiteer het supernatans met koude ethanol (finale concentratie 70%) en nitraat
chloride (finale concentratie 0.2 M).
22. Incubeer bij -20°C voor 1 uur en centrifugeer bij 10 000 x g voor 15 min.
23. Was de pellet 2x met ethanol, droog onder vacuum en resuspendeer in MilliQ water.
Extractie van intracellulair DNA (Zwart et al, 1998):
1. Filter 50 ml van elke staal met een polycarbonaat membraan filter (0.2) lm cutoff en
2.5 cm diameter (BA83 Schleider en Schuell, dassel, Duitsland).
2. Knip de filter in twee met een steriele scalpel en bewaar beide helften in een
microcentrifuge buisje bij -80°C.
3. Lyseer de cellen: voeg 0.5 g zirconium beads (0.1 mm diameter) , 0.5 ml TE buffer (10
mM Tris, pH 7.6, 1 mM EDTA) en 0.5 ml gebufferde fenol (pH 7 tot 8) toe aan de buisjes
met de filter in. Shake de buisjes krachtig (5000 rpm) op een Mini Bead-beater (Biospec
Products, Bartlesville, OK, USA) voor 2 min en koel de buisjes tussendoor op ijs.
4. Centrifugeer de buisjes voor 5 min aan 10 000 x g.
5. Verzamel de bovenste aquatische fase en behandel de buisjes tweemaal met fenolchloroform-isoamylalcohol (25:24:1) om meer te extraheren.
6. Precipiteer het DNA door één tiende volume van 3 M nitraatacetaat (pH 5)toe te
voegen en twee volumes van 96% (v/v) ethanol.
7. Centrifugeer voor 30 min aan 14 000 x g.
8. Los het DNA op in water en zuiver het op m.b.v. een Wizard kolom (Promega, Madison,
WI, USA) volgens de aanbevelingen van de fabrikanten.
93