Analyse van de Microbiële Diversiteit in Antarctica aan de hand van Next Generation Sequencing-data Hanneloor HEYNDERICKX Masterproef voorgedragen tot het behalen van de graad van Master of Science in de Biochemie en de Biotechnologie Major Microbiële Biotechnologie Academiejaar 2013-2014 Promotor: Prof. Dr. Anne Willems Wetenschappelijk begeleider: Bjorn Tytgat UGent - Vakgroep Biochemie en Microbiologie Laboratorium voor Microbiologie (LM-UGent) 2 If Antarctica were music it would be Mozart. Art, and it would be Michelangelo. Literature, and it would be Shakespeare. And yet it is something even greater; the only place on earth that is still as it should be. May we never tame it.’ Andrew Denton ‘ 6 Voorwoord Voor u ligt mijn Master Thesis, welke de afsluiting vormt van de opleiding ‘Master of Science in de Biochemie en de Biotechnologie’. Met dit voorwoord blik ik graag even terug op mijn studententijd en onderzoeksproces en wil ik de personen bedanken die hebben bijgedragen tot de totstandkoming van deze Master Thesis. Ups and downs, dat zijn de woorden die mijn laatste jaar als masterstudent aan de UGent goed beschrijven. Het was een pittig jaar, waarin hard gewerkt moest worden, maar zeker ook een leuk jaar vol verrassingen. Nieuwe uitdagingen maakten van het schrijven van deze masterproef een leerrijke ervaring, die mij bovendien heeft toegestaan een diepgaander begrip te krijgen in de wereld van de microbiologie. Zonder de hulp van heel wat mensen zou de realisatie van deze thesis echter niet mogelijk geweest zijn. Hiervoor wil ik hen graag oprecht bedanken. Allereerst mijn promotor Professor Dr. Anne Willems, voor de kans om deel uit te maken van haar onderzoeksteam en voor de begeleiding. Mijn begeleider Bjorn Tytgat, van wie ik ontzettend veel heb bijgeleerd, verdient een uitdrukkelijke bedanking. Zijn professionele en persoonlijke steun, hebben ervoor gezorgd dat ik dit eindwerk kon voltooien. Dr.Kim Heylen voor het organiseren van enkele tussentijdse evaluaties en besprekingen, die me meer vertrouwen gaven en mijn kritisch denken verstrekte. In het bijzonder wil ik Jasmien Vercuysse heel erg bedanken. Toen ik door de bomen het bos niet meer zag, konden haar interesse en aanmoediging mij steeds terug op weg helpen. Uiteraard richt ik ook een grote dankjewel aan mijn mams, paps en zus voor het warme nest en de steun, en aan mijn vriend voor zijn engelengeduld. Deze thesis luidt tevens het einde van mijn opleiding in. Daar de boog niet altijd gespannen kan staan, wil ik ook mijn medestudenten bedanken voor alle mooie momenten tijdens en na de lesuren. Ook mijn vrienden buiten de opleiding, voor de ontspannende pauzes, etentjes en het doodgewoon samen zijn. Dankzij jullie allen was dit onvergetelijke studententijd! Hanneloor 11 juni 2014 8 Inhoud Voorwoord Lijst met afkortingen Samenvatting 1 Inleiding............................................................................................................................. 19 1.1 Antarctica................................................................................................................... 19 1.1.1 Ligging................................................................................................................. 19 1.1.2 Landschap ........................................................................................................... 20 1.1.3 Geologie ............................................................................................................. 20 1.1.4 Ecosystemen....................................................................................................... 21 1.2 Technieken voor de studie van microbiële diversiteit .............................................. 23 1.2.1 Cultuurafhankelijke technieken ......................................................................... 24 1.2.2 Cultuur-onafhankelijke technieken .................................................................... 24 1.3 1.2.2.1 Fingerprinting methodes ............................................................................ 25 1.2.2.2 Sanger sequenering .................................................................................... 26 1.2.2.3 454-sequenering of pyrosequenering ........................................................ 27 1.2.2.4 Ion-Torrent sequenering ............................................................................. 28 1.2.2.5 PCR- en Next-generation sequeneringsfouten ........................................... 30 Data analyses ............................................................................................................. 31 1.3.1 Pipelines ............................................................................................................. 32 1.1.1 1.2 Qiime .............................................................................................................. 32 Mothur ............................................................................................................... 33 1.2.1 1.4 Uparse ............................................................................................................. 33 Eerdere diversiteitsstudies in Antarctica................................................................... 33 2 Doel van het project.......................................................................................................... 35 3 Resultaten ......................................................................................................................... 37 3.1 Het effect van verschillende parameters op de data output van twee data analyse pipelines................................................................................................................................ 37 3.2 Taxonomische identificatie van Antarctische microbiële gemeenschappen ............ 40 3.3 Het effect van verschillende PCR condities op de Ion Torrent PGM data ................ 43 3.3.1 De artificiële gemeenschap: duplicaten en PCR condities ................................. 44 3.3.1.1 Duplicaten van de artificiële gemeenschap ................................................ 44 3.3.1.2 2-staps PCR voor de artificiële gemeenschap ............................................. 44 3.3.1.3 Verlengde elongatietijd voor de artificiële gemeenschap .......................... 45 3.3.2 3.4 3.3.2.1 Triplicaten van het BB115 staal .................................................................. 45 3.3.2.2 2-staps PCR voor het BB115 staal ............................................................... 46 3.3.2.3 Verlengde elongatietijd voor het BB115 staal ............................................ 47 Geografische diversiteit in koude omgevingen ......................................................... 48 3.4.1 5 Een eerste additionele dataset .......................................................................... 49 3.4.1.1 Microbiële diversiteit op (sub-)Antarctische eilanden ............................... 49 3.4.1.2 Vergelijking van de diversiteit met onze data ............................................ 49 3.4.2 4 Het BB115-staal: triplicaten en PCR condities ................................................... 45 Een tweede additionele dataset ........................................................................ 51 3.4.2.1 Microbiële diversiteit in Arctische en Alpiene gletsjers ............................. 51 3.4.2.2 Vergelijking van de diversiteit met onze data ............................................ 52 Discussie ............................................................................................................................ 57 4.1 Vergelijking van de data output van twee data analyse pipelines ............................ 57 4.2 Vergelijking met eerdere publicaties omtrent Antarctische microbiële diversiteit . 58 4.3 Het gebruik van Ion Torrent sequenering voor microbiële diversiteitsstudies ........ 60 4.4 Vergelijking van de geografische biodiversiteit in koude omgevingen ..................... 63 4.5 Conclusie .................................................................................................................... 64 Materiaal en methoden .................................................................................................... 67 5.1 Oorsprong van de stalen ........................................................................................... 67 5.1.1 Roche 454 pyrosequenering .............................................................................. 67 5.1.2 Ion Torrent sequenering .................................................................................... 67 5.1.3 Additionele datasets .......................................................................................... 68 5.2 DNA extractie............................................................................................................. 70 5.3 PCR amplificatie en 16S rRNA-gen sequenering ....................................................... 70 5.3.1 Next-generation sequenering ............................................................................ 70 5.3.2 Roche 454 pyrosequenering .............................................................................. 71 5.3.3 Ion Torrent sequenering .................................................................................... 71 5.4 Sequentie verwerking en analyse .............................................................................. 72 5.4.1 Mothur pipeline ................................................................................................. 72 5.4.1.1 Reduceren van sequeneringsfouten ........................................................... 73 5.4.1.2 Alignering .................................................................................................... 73 5.4.1.3 Screening, filtering en pre-clusteren .......................................................... 73 5.4.1.4 OTU’s clusteren ........................................................................................... 74 5.4.2 Uparse pipeline .................................................................................................. 74 10 5.4.2.1 Reduceren van sequentie fouten................................................................ 74 5.4.2.2 UPARSE-OTU algoritme ............................................................................... 74 6 Referenties ........................................................................................................................ 77 7 Bijlage ................................................................................................................................ 87 7.1 Principes van drie moleculaire methoden................................................................. 87 7.2 Een vergelijking van de data-analyse-outputs op fylumniveau bekomen met Mothur en Uparse .............................................................................................................................. 88 7.3 Default Uparse pipeline ............................................................................................. 90 7.4 Fusie primers voor Next-Generation Sequencing ..................................................... 91 7.5 DNA extractie protocol .............................................................................................. 92 11 Lijst met afkortingen AC ACC AD ADRA ARISA ATP Bp-PEG CE COMNAP DGGE DNA dNTP FISH ITS LMW RNA MSA NGS OTU PCR PFZ PGM PHFET PPi PYGV RAPD/DAF rDNA RNA rRNA SAC SFF SSCP TD-PCR TGGE T-refs T-RFLP Antarctische Convergentie Antarctic Circumpolar Current Antarctische Divergentie Amplified Ribosomal Automated Ribosomal Intergenic Spacer Analysis Adenosine Triphosphate Bisbenzimide Polyethyleneglycol Electrophoresis Capillaire Elektroforese Council Of Managers Of National Antarctic Programs Denaturing Gradient Gel Electrophoresis Desoxyribonucleïnezuur Deoxynucleotidetrifosfaat Fluorescent In Situ Hydridization Internal Transcribed Spacer Low Molecular Weight Ribonucleïnezuur Meervoudige Alignering Next-Generation Sequencing Operationele taxonomische eenheid Polymerase Chain reaction Polar Frontal Zone Personal Genome Machine PH-Sensitieve Field Effect Transistor Pyrofosfaat PEPtone-Yeast-Glucose-Vitamin Randomly Amplified Polymorphic Ribosomaal Desoxyribonucleïnezuur Ribonucleïnezuur Ribosomaal Ribonucleïnezuur Sub-Antarctische convergentie Standaard Flowgram Formaat Single Stranded Conformation Polymorphism Touchdown-PCR Temperature Gradient Gel Electrophoresis Terminale Restrictie Fragmenten Terminal Restriction Fragment Length Polymorphism Samenvatting Context Antarctica is een continent gekarakteriseerd door zijn geografische en klimatologische isolatie. Deze volledige isolatie heeft bijgedragen tot het ontstaan van de extreme condities op Antarctica zoals koude temperaturen, weinig biologische beschikbaar water, verhoogde UV-radiatie, osmotische stress en lage nutriënten-concentraties. Organismen die dit continent bewonen moeten dus in staan zijn om te overleven in deze extreme omgevingsomstandigheden. Door de ontoegankelijkheid van Antarctica is er relatief weinig geweten over de diversiteit van de aanwezige micro-organismen. Doorheen de jaren werden verschillende technieken ontwikkeld om de microbiële diversiteit te ontdekken. De eerste diversiteitsstudies waren voornamelijk gebaseerd op traditionele methoden zoals cultuurafhankelijke technieken. Met de komst van de revolutionaire Next-Generation Sequeneringsmethoden is de kennis over de microbiële diversiteit aanzienlijk toegenomen, daar deze technieken een verbeterde toegang verlenen tot de zeldzame biosfeer. Doel Bidirectionele pyrosequenering van het bacteriële 16S rRNA-gen werd uitgevoerd in negen stalen van Antarctische microbiële aquatische en terrestrische microbiële matten, die reeds onderzocht werden met heterotrofe cultivatiestudies. Een vergelijking tussen de geobserveerde microbiële biodiversiteit enerzijds bekomen met cultivatiestudies en anderzijds met pyrosequenering werd vervolgens op punt gesteld. Deze pyrosequeneringsdata werd vervolgens onderworpen aan twee alternatieve data analyse pipelines, Mothur en Uparse. Na het hanteren van verschillende parameters op beide pipelines, werden de bekomen data outputs vergeleken in termen van het aantal sequenties, aantal OTU’s en aantal chimere sequenties. Een vergelijking van twee Next-generation sequneringsplatforms, Ion Torrent sequenering en Roche 454 pyrosequenering werd uitgevoerd. Daarbij werd het effect van negen controle stalen, gebaseerd op replicaten en verschillende PCR condities, uitgetest op de Ion Torrent data. Aan de hand van één omgevingsstaal en de controlestalen werd nagegaan of beide platformen een vergelijkbare data output konden bekomen. Tenslotte werd er ook nog onderzoek verricht om een preliminaire biogeografische diversiteitstudie van koude omgevingen uit te voeren. Hiervoor werd de Roche 454 data uit het eerste onderzoek vergeleken met twee online beschikbare additionele datasets, die bestudeerd werden volgens dezelfde methoden als onze data. Resultaten Een grotere diversiteit werd waargenomen met pyrosequenering. Echter, enkele bacteriën, zowel zeldzaam als abundant, die geïdentificeerd werden met cultivatietechnieken werden niet achterhaald met de pyrosequenerings-techniek. Uparse en Mothur toonden weinig verschil in de fyla, respectievelijk 37 en 38 fylum. Met Uparse werd een lager aantal OTU’s (2153) bekomen en groter aantal chimera’s (494) verwijderd. Pyrosequenering toont zich een beter techniek voor uitvoeren van diversiteitstudies in vergelijking met Ion Torrent sequenering. Conclusie Cultuurafhankelijke technieken en Next-generation sequenering worden het best in combinatie met elkaar gebruikt voor het bestuderen van de microbiële diversiteit, aangezien beide technieken hierin complementair zijn. Uparse resulteerde in een hogere accuraatheid dan Mothur. De Ion Torrent sequenering is niet of nog niet op punt om toegepast te worden voor diversiteitstudies. Met verbeteringen naar de toekomst toe dient deze techniek zeker opgevolgd te worden. De voornaamste besluittrekking uit de biogeografische diversiteitstudie is dat de specificiteit van de microbiële omgeving niet zo sterk is uitgesproken op de hogere taxonomische niveaus (Fylum tot Familie), maar voornamelijk te zien is op lagere taxonomische niveaus (genus tot species). 16 Abstract Context Antarctica is a continent characterized by its geographical and climatic isolation. This complete isolation has contributed to the extreme conditions ruling Antarctica, like cold temperatures, low bioavailability of water, increased UV radiation, osmotic stress and low nutrient concentrations. Organisms that inhabit this continent need to be able to survive in these extreme conditions. Because of its inaccessibility relatively little is known about the diversity of microorganisms on Antarctica. Over the years, various techniques have been developed to detect this microbial diversity. The first diversity studies were mainly based on traditional methods such as culture-dependent techniques. With the advent of revolutionary NextGeneration sequencing methods the knowledge about the microbial diversity has increased significantly, as these techniques provide improved access to the rare biosphere. Purpose Bidirectional pyrosequenering of the bacterial 16S rRNA gene was performed in nine samples of Antarctic microbial aquatic and terrestrial microbial mats, which have already been examined by heterotrophic cultivatiestudies. A comparison between the observed microbial biodiversity obtained with cultivation studies on one hand and the observed microbial biodiversity obtained with pyrosequencing on the other hand was then made. This pyrosequencingdata was then subjected to two alternative data analysis pipelines, Mother and Uparse. After the use of different parameters on both pipelines, the obtained data outputs were compared in terms of the number of sequences, OTU number and number of chimeric sequences. A comparison of two Next-generation sequencing platforms, Ion Torrent sequencing and Roche 454 pyrosequenering, was then performed. The effect of nine control samples, based on replicates and different PCR conditions, was tested on the Ion Torrent data. On the basis of one area sample and the control samples, examinations were made to determine whether the two platforms could give us a comparable data output. Finally, research was conducted to perform a preliminary biogeographic diversity study of cold environments. For this the Roche 454 data from the first study was compared with two online available additional data sets, which were examined using the same methods we used to examine our data. results Greater diversity was observed with pyrosequenering. However, some bacteria, both rare and abundant, which were identified by cultivation techniques were not picked up by the pyrosequencing technique. Uparse and Mothur showed little difference in the phyla, 37 and 38 phylum respectively. Using Uparse a lower number of OTU (2153) was obtained and a larger number of chimeras (494) was deleted. Pyrosequenering proves to be a better technique for performing diversity studies compared to Ion Torrent sequencing conclusion Culture-dependent techniques and Next-generation sequencing are best used in combination to study the microbial diversity, since both techniques complement each other. Uparse proved out to have a higher accuracy than Mothur. The Ion Torrent sequencing is not, or not yet ready to be used for diversity studies. With improvements in the making, the development of this technique should certainly be watched closely. The main conclusion we can take from the 17 biogeographic diversity study is that the specificity of the microbial environment is not as strongly pronounced at higher taxonomic levels (phylum to family), but is mostly seen at lower taxonomic levels (genus to species) 18 Inleiding 1 Inleiding 1.1 Antarctica 1.1.1 Ligging Antarctica is het meest zuidelijke continent op aarde. Het bevindt zich op circa 1000 km ten zuiden van Zuid-Amerika, circa 4000 km ten zuiden van Afrika en circa 2500 km ten zuiden van Australië en Nieuw-Zeeland. Antarctica heeft een variërende oppervlaktegrootte door de aanwezigheid van ijskappen, met een gemiddelde grootte van 14,2 miljoen km² (Eijsden, 2013). Het continent ligt gemiddeld 2250 meter boven de zeespiegel en is daarmee het hoogste continent op onze planeet. Antarctica is omgeven door drie oceanen: de Stille, de Atlantische en de Indische Oceaan. Het water dat rond het Antarctische continent ligt wordt de Zuidelijke Oceaan of de Antarctische Oceaan genoemd. In de Zuidelijke Oceaan loopt er een zeestroom oostwaarts volledig rond Antarctica (Figuur 1), de Antarctische Circumpolaire Stroom (Engels: Antarctic Circumpolar Current, ACC) (Nowlin & Klinck, 1986; Tynan, 1998). Deze stroom wordt ook wel de westenwinddrift genoemd, aangezien het de westenwinden zijn die het oceaanwater oostwaarts drijven. Deze stroming hindert warm noordelijk oceaanwater om in de nabijheid van het continent te komen. Onder andere hierdoor behoudt Antarctica zijn koude klimaat. In de zuidelijke oceanen komen verschillende waterzones voor die gekenmerkt worden volgens temperatuur, zoutgehalte en leven. Deze waterzones worden van elkaar gescheiden door de convergenties. Een convergentie in een oceaan is een zogenaamd grensgebied waarbij twee waterzones elkaar ontmoeten en waarbij de ene watermassa onder de andere duikt. In de zuidelijke oceanen zijn het de koude Antarctische wateren die onder de warmere sub-Antarctische wateren zullen duiken, aangezien koud water dichter en zwaarder is dan warm water. Rond de convergentie bruist het van leven, doordat het zoöplankton in de koude watermassa niet mee de diepte wil ingaan en door actief zwemmen aan de oppervlakte blijft. Grote hoeveelheden krill, garnaalachtig invertebraten, worden hier aangetroffen alsook verschillende zeevogels, dolfijnen en walvissen. De Antarctische Convergentie(AC) vormt de natuurlijke grens tussen het Antarctisch en het subAntarctisch water. (Wyrtki, 1960; Beintema, 2013). Ten noorden van de sub-Antacrtische wateren ligt er opnieuw een grensgebied, de sub-Antarctische Convergentie (SAC). Hier zullen de sub-Antarctische wateren onder de warme subtropische wateren duiken. Deze subtropsiche wateren worden op hun beurt begrensd door de Subtropsiche Convergentie (STC). De grensgebieden zijn weergegeven in Figuur 1. De zone tussen de AC en SAC wordt de Polar Frontal Zone (PFZ) genoemd. Ten noorden van de SAC ligt de sub-Antarctische Zone. Deze twee geografische zones vormen samen met de AC, de SAC en de STC de subAntarctische regio (Deacon, 1937; Edwards & Emery, 1982; Smith et al, 2013). Convergentie gaat samen met divergentie, het opwellen van diep water in de oceaan naar boven. Dit diep water brengt vele voedingstoffen met zich mee en zorgt voor een verhoogde productiviteit door de voedingstoffen binnen het bereik van het fytoplankton, dat zich in de fotozone bevindt, te brengen. De Antarctisch divergentie is het dichtst gelokaliseerd bij het continent daar waar het water van oost naar west beweegt (Wyrtki, 1960). Inleiding 1.1.2 Landschap Antarctica is een continent bedekt door ijs. Slechts één tot drie procent van de Antarctische en sub-Antarctische oppervlakte is ijsvrij (Convey et al, 2008). Het continent kan opgedeeld worden in drie regio’s. Het grotere Oost-Antarctica word gescheiden van het kleinere WestAntarctica door het 3500 kilometer lange Transantarctisch Gebergte (Behrendt et al, 1991). Het Antarctisch Schiereiland in het noorden is de derde regio en wordt eerder gezien als een tweede 1700 km lange bergketen (Figuur 1). Dit Antarctisch Schiereiland is momenteel één van de snelste opwarmende gebieden op onze planeet (Steig et al, 2009; Clucas et al, 2014). In het verlengde van het Antarctisch schiereiland en strikt ten zuiden van de AC vinden we in de Zuidelijke Oceaan de South Shetlandeilanden, de South Sandwicheilanden en de South Orkney eilanden. In de sub-Antarctische regio bevinden zich de Falklandeilanden, South Georgia, Prince Edward, Campbell en de Antipodeneilanden. Figuur 1: Orthogonale kaart van de Zuidpool. Het Antarctisch continent is opgedeeld in drie delen: Oost- en West-Antarctica, gescheiden door het Transantarctisch gebergte, en het Antarctisch Schiereiland. Antarctica is omgeven door drie oceanen: de Stille, Atlantische en Indische Oceaan. De pijlen die van west naar oost gaan vormen de Antarctic Circumpolar Current (ACC) of de westenwinddrift, die Antarctica isoleert van de warme wateren uit het noorden. De convergenties vormen beiden een grens, telkens tussen de koudere wateren van in het zuiden en de warmere wateren van in het noorden. AC: Antarctische Convergentie, AD: Antarctische Divergentie, SAC: sub-Antarctische Convergentie. 1.1.3 Geologie Antarctica maakte deel uit van het supercontinent Gondwana dat gevormd werd tussen ongeveer 590 en 510 miljoen jaar geleden (Cawood et al, 2009). Samen met twee andere paleocontinenten (Laurazië en Siberia) werd het supercontinent Pangea gevormd op het einde 20 Inleiding van het Palaeozoïcum en in het begin van het Mesozoïcum in een periode tussen 320 en 250 miljoen jaar geleden. Door bewegingen van tektonische platen brak het Pangea supercontinent in het midden-Mesozoicum (200 tot 180 miljoen jaar geleden) uiteen in twee delen, Laurazië en Gondwana. Laurazië dreef verder uiteen naar het noorden en vormde het huidige Noord-Amerika, Europa en Azië. Gondwana dreef verder naar het zuiden en splitste op in het huidige Zuid-Amerika, Afrika, Australië, Nieuw-Zeeland, Arabië, een deel van Indië en Antarctica . Tijdens het Cambrium (begin Paleozoïcum) bevond een deel van het huidige West-Antarctica zich in het noordelijk halfrond en lag het huidige Oost-Antarctica aan de evenaar. Gondwana had toen een mild klimaat. Op het einde van het Devoon (laatPaleozoïcum, 360 Ma) begon ijs zich te vormen en centreerde Gondwana zich rond de Zuidpool, waar een kouder klimaat heerste. Tijdens het Perm (eind Paleozoïcum) werd de plantenrijkdom gedomineerd door varenachtige planten, zoals Glossopteris die in moerassen groeiden. Op het einde van het Perm leidde een voortdurende opwarming tot een droog en warm klimaat in het grootste deel van Gondwana. Deze opwarming had het smelten van de polaire ijskappen als gevolg, waardoor een groot deel van het supercontinent woestijngebied werd. Het klimaat over heel de wereld was tijdens het Mesozoïcum warmer dan ons huidige klimaat. Hierdoor ontstond een grote variëteit aan fauna en flora op het Gondwana continent voor miljoenen jaren lang. In het Jura (midden-Mesozoïcum) ging de vorming van het Antarctisch Schiereiland van start, terwijl eilanden langzaam uit de oceaan rezen. Verschillende gematigde/tropische plantensoorten (naaldbomen gevolgd door beuken) en enkele vertebraten (reptielen) waren toen talrijk aanwezig op het Gondwana continent. In de oceanen errond waren ammonieten algemeen aanwezig. Het was tijdens het Krijt tijdperk dat het supercontinent uiteen begon te breken. Zuid-Amerika en Afrika dreven uit elkaar 130 miljoen jaar geleden in het vroege Krijt tijdperk. Nieuw-Zeeland werd van Antarctica gescheiden over een periode van 130 tot 85 miljoen jaar geleden. De scheiding van Australië en Antarctica begon 80 miljoen jaar geleden (laat-Krijt). De continenten werden 45 Miljoen jaar geleden volledig van elkaar gescheiden door de opening van de Tasman Gateway (Convey et al, 2008). Dit liet de zuidelijke oceaanstromingen toe om tussen Australië en Antarctica te vloeien, waardoor Antarctica een kouder en Australië een droger klimaat kreeg. Deze klimaatsveranderingen waren te wijten aan het feit dat de oceaanstromingen rondom Antarctica niet meer rond noord-Australië in de subtropen hoefden te passeren. De uiteindelijke isolatie van Antarctica gebeurde ongeveer 30 miljoen jaar geleden door het openen van de Drake Passage, die het Antarctisch Schiereiland scheidde van Zuid-Amerika (Convey et al, 2008). Dankzij de opening van de Drake Passage werden de koude wateren van de Zuidelijke Oceaan niet langer gehinderd in hun circumpolaire stroming waardoor de ACC ontstond. Dit heeft bijgedragen tot het vormen van de vele ijskappen op Antarctica en globale afkoeling (Hambrey & Barrett, 1993; DeConto & Pollard, 2003; Krzysztof Birkenmajer, 2005; Livermore et al, 2007). 1.1.4 Ecosystemen De volledige isolatie van het Antarctische continent heeft bijgedragen tot het ontstaan van de extreme condities op Antarctica zoals koude temperaturen, weinig biologisch beschikbaar water, verhoogde UV-radiatie, osmotische stress en lage nutriënten-concentraties. In 1983 werd de laagste temperatuur op aarde gemeten bij het Russische onderzoeksstation Vostok, namelijk -89.6°C. (http://www.unspecial.org/UNS633/UNS_633_T13.html) Organismen die 21 Inleiding dit continent bewonen moeten dus in staat zijn om te overleven in deze extreme omgevingsomstandigheden. Antarctica heeft zowel terrestrische als mariene ecosystemen. Een ecosysteem berust op de wisselwerking tussen biotische (dieren, planten en bacteriën) en abiotische (fysische en chemische omgevingen) factoren. De interacties tussen de organismen binnenin een ecosysteem worden aangeduid als een voedselweb. Een voedselweb is opgebouwd uit producenten, consumenten en reducenten en beschrijft de energiestroom van het ene organisme naar het andere. In een ecosysteem zullen de producenten voedsel halen uit het anorganische materiaal (afkomstig van de abiotische factoren). De consumenten voeden zich vervolgens met de producenten en/of met andere organismen. Verder zijn er nog de reducenten die het dood organisch materiaal afbreken tot mineralen. Door de convergentie en divergentie fenomenen omvatten de wateren rond Antarctica hoge nutriënten-concentraties die beïnvloed kunnen worden door fysische factoren zoals de temperatuur, oceaanstromingen, het weer en ijs. In terrestrisch Antarctische ecosystemen bestaan de producenten (Antarctic marine ecosystem, 2008) uit ongeveer 300 tot 400 soorten lichenen, meer dan 100 soorten mossen en levermossen, meer dan 20 soorten macro-fungi, vele soorten algen, autotrofe bacteriën en slechts twee bloeiende planten: Deschampsia antarctica en Colobanthus quitensis (British Antarctic Survey, 2010a). De consumenten bestaan uit invertebraten (vb. nematoden, mijten, spinnen, kevers, heterotroge bacteriën en vliegen) en vogels. De invertebraten komen beperkt voor op de sub-Antarctische eilanden en vele vogels behoren zowel tot de terrestrische als mariene ecosystemen. Bacteriën, fungi en wormen behoren hier tot de reducenten. Pinguins en zeehonden lijken in een eerste opzicht de grootste terrestrische organismen, maar beiden worden ondersteund door de productiviteit van de Zuidelijke Oceaan en behoren tot het mariene ecosysteem. Belgica antarctica, een vleugelloze mug (Convey & Block, 1996), heeft een lengte van twee tot zes mm en is van alle dieren die beperkt zijn tot de terrestrische ecosystemen het grootst. In tegenstelling tot de meeste ecosystemen op aarde, omvatten de terrestrische ecosystemen voedselwebstructuren die relatief eenvoudig zijn (Riffenburgh, 2007; Rogers et al, 2012). Aangezien de primaire producenten plantensoorten zijn en soms bacteriën, afhankelijk van fotosynthese, is de netto primaire productiviteit op het continent relatief laag. In alle ecosystemen geldt ook nog eens dat er gemiddeld slechts 10 % van de energie wordt doorgegeven van het ene organisme naar het andere. De totale biomassa van de consumenten zal dus altijd lager zijn dan de totale biomassa van de producenten. Door de lage primaire productiviteit van de producenten is de grootte van de voedselwebstructuren in de terrestrische ecosystemen dus beperkt, waardoor de biodiversiteit laag is (British Antarctic Survey, 2010b) (Freckman & Virginia, 1997). Lacustriene ecosystemen kunnen opgedeeld worden in twee voornaamste groepen: ecosystemen geassocieerd met permanent bevroren meren en ecosystemen geassocieerd met seizoensgebonden bevroren meren. Deze laatste ecosystemen hebben een hogere productiviteit en bevatten een groter aantal producenten in vergelijking met de permanent bevroren meren. Het Antarctisch Schiereiland is het warmste deel van het continent, de ecosystemen die daar aanwezig zijn gaan gepaard met een hogere productiviteit en een grotere diversiteit. Het is dan ook op het Antarctisch Schiereiland dat de twee planten Deschampsia antarctica en Colobanthus quitensis en de Belgica antarctica gevonden worden. De productiviteit op de sub-Antarctische eilanden is nog groter en de vegetatie uitgebreider dan op het Antarctisch Schiereiland. 22 Inleiding Alle Antarctische continentale ecosystemen worden gedomineerd door microbiële organismen die een cruciale rol spelen in hun werking en primaire productie; ze vormen de basis van het voedselweb, staan grotendeels in voor de biogeochemische cycli en zijn onder andere betrokken bij bio-erosie (Vincent, 2000). Hoewel deze Antarctische voedselwebstructuren een lage biodiversiteit hebben, is de populatie densiteit per soort relatief hoog. De micro-organismen bijvoorbeeld vormen diverse en complexe gemeenschappen. Dormante micro-organismen, zoals bacteriën, fungi en micro-algen werden gevonden diep in het ijs en waren nog steeds in staat om te groeien wanneer ze in cultuur gebracht werden (Bidle et al, 2007). 1.2 Technieken voor de studie van microbiële diversiteit Ondanks het ecologische en potentieel industriële belang van microbiële gemeenschappen, is er slechts weinig gekend omtrent de Antarctische microbiële diversiteit (Torre et al, 2003; Wilmotte et al, 2012; Cowan et al, 2014). Over de jaren heen werden verschillende technieken ontwikkeld om de microbiële diversiteit te ontdekken (Figuur 2). Figuur 2: Overzicht van belangrijke ontdekkingen omtrent de micro-organismen en technieken om ze te bestuderen. 23 Inleiding 1.2.1 Cultuurafhankelijke technieken Op het einde van de 19de eeuw werden traditionele technieken zoals isolatie van bacteriën uit zuivere culturen en microscopische identificaties gebaseerd op morfologische kenmerken (pionierswerk van L. Pasteur en R. Koch) ontwikkeld voor het bestuderen van de microbiële diversiteit. Micro-organismen kunnen gecultiveerd worden op artificiële media die voorzien zijn van de juiste hoeveelheden nutriënten en onder condities (temperatuur, pH, vochtigheid ed.) die noodzakelijk zijn voor cellulaire groei en onderhoud van het organisme. De cultuurmedia imiteren de biochemische omgevingen van de bacteriën zo nauwkeurig mogelijk. Omwille van de specifieke behoeften van bepaalde bacteriën bestaat er reeds een grote variëteit aan verschillende cultuurmedia met verschillende doeleinden en toepassingen. Deze selectieve media worden niet enkel gebruikt voor isolatie en onderhoud van de zuivere bacterieculturen, maar ook voor de identificatie van bacteriën volgens hun biochemische en fysiologische eigenschappen. Microbiële gemeenschappen bestaan uit enkele zeer abundante taxa en een lange staart van zeldzame taxa. Het isoleren en opkweken van micro-organismen op groeimedia in het laboratorium laat de identificatie toe van zowel de abundante als zeldzame taxa (Vaz-Moreira et al, 2011). Deze cultuurafhankelijke technieken worden de dag van vandaag nog steeds gebruikt, maar geven een beperkte kijk op de microbiële wereld. De exploratie van de diversiteit met cultuurafhankelijke technieken is gelimiteerd aangezien slechts een klein deel van de aanwezige organismen/taxa in cultuur te brengen zijn (Amann et al, 1995). Dit kan aanleiding geven tot verkeerde interpretaties van de ecosystemen. Algemeen wordt aanvaard dat er minder dan 1% van de micro-organismen in oceanen en bodems in cultuur te brengen zijn (Eilers et al, 2000; Ward et al, 1990). Om die reden was het noodzakelijk dat technieken ontwikkeld werden die de studie van de microbiële diversiteit toelieten zonder cultivatie. 1.2.2 Cultuur-onafhankelijke technieken Cultuur-onafhankelijke technieken of moleculaire technieken zijn gebaseerd op moleculaire biologie, het bestuderen van de processen die actief zijn in cellen op moleculair niveau. Deze technieken laten directe isolatie en analyse toe van biomoleculen zoals nucleïnezuren (DNA en RNA), proteïnen, lipiden en carbohydraten uit de omgeving. Op die manier kan structurele en functionele informatie bekomen worden over de microbiële gemeenschappen. Verschillende moleculaire technieken zijn reeds gekend waaronder klonering, Polymerase Chain Reaction (PCR), Fluorescent In Situ Hybridization (FISH), DNA microarrays en genetische fingerprinting methodes (Rastogi & Sani, 2011; Rincon-Florez et al, 2013). Deze technieken worden toegepast in verschillende studievelden zoals metagenomics, metaproteomics, metatranscriptomics en proteogenomics en zijn belangrijk voor het ontdekken, identificiëren en karakteriseren van de microbiële diversiteit (Rastogi & Sani, 2011). De meeste moleculaire technieken zijn PCR-gebaseerd, een techniek die het mogelijk maakt om meerdere identieke kopijen van een bepaalde DNA-regio te bekomen (amplificatie) door het herhalend uitvoeren van drie opeenvolgende stappen: denaturatie, hybridisatie van primers en elongatie (Mullis, 1990). Moleculaire technieken gebaseerd op de amplificatie van ribosomale sequenties (meestal het Small Subunit (16S) rRNA-gen, maar recent ook Internal Transcribed Spacer (ITS) regio’s tussen de Small en Large Subunit rRNA-genen) gaven een nieuwe kijk op de diversiteit en het bestaan van genotypen die nog niet gecultiveerd waren. Sinds midden 24 Inleiding de jaren 1980 wordt het 16S rRNA-gen gebruikt als fylogenetische merker voor PCR-gebaseerde moleculaire technieken (Stahl et al, 1985). Alhoewel dit vaak bekritiseerd is geweest omwille van heterogeniteit tussen meerdere 16S rRNA-operons van hetzelfde genoom (Acinas et al, 2004) of door het gebrek aan resolutie op soort-niveau (Pontes et al, 2007), wordt het nog altijd gezien als de gouden standaard voor bacteriële identificatie. Het 16S rRNA-gen heeft een grootte van ongeveer 1.500 bp en een alternerende structuur bestaande uit enkele sterk geconserveerde regio’s en negen hypervariabele regio’s (v1-v9) (Armougom & Raoult, 2009). De redenen waarom het als een gouden standaard gebruikt wordt voor het bestuderen van bacteriële fylogenie en taxonomie zijn omdat het bijna in alle bacteriën aanwezig is, de functie ervan in de loop van de tijd niet veranderd is en het gen groot genoeg is om een voldoende hoeveelheid informatie aan te bieden (Janda & Abbott, 2007; Woese, 1987). 1.2.2.1 Fingerprinting methodes Om sneller een idee te krijgen van de biodiversiteit en verschuivingen binnen en tussen ecosystemen kan er een ‘fingerprint’ worden gemaakt van de microbiële gemeenschappen. Moleculaire fingerprint technieken worden gebruikt voor het identificeren van individuen gebaseerd op hun eigen DNA profiel. Het DNA wordt gefragmenteerd met behulp van restrictiesites die aanwezig zijn in het DNA. Elk restrictie digest geeft aanleiding tot een uniek patroon dat gevisualiseerd kan worden met behulp van gelelektroforese. Dit patroon is beter gekend als de fingerpint. Denaturing Gradient Gel Electrophoresis (DGGE), Terminal Restriction Fragment Length Polymorphism (T-RFLP) en Automated Ribosomal Intergenic Spacer Analysis (ARISA) zijn drie fingerprint methoden die wijdverspreid gebruikt worden voor de analyse van microbiële gemeenschapsstructuren (Okubo & Sugiyama, 2009) (Bijlage 7.1). DGGE gaat DNA moleculen scheiden op basis van de GC/AT-inhoud m.b.v. een chemische gradiënt van denaturerende componenten (ureum en formamide). Tijdens de elektroforese zullen DNA moleculen met een hogere AT-inhoud sneller dissociëren dan DNA moleculen met een hogere GC-inhoud. T-RFLP analyseert polymorfe lengtes van terminale restrictie fragmenten (T-refs) die gegenereerd werden via digestie van PCR-amplicons door restrictie enzymen. De derde methode, ARISA, maakt gebruik van de hoog variabele ITS regio’s van het rDNA en discrimineert hun lengte volgens hun migratie afstand. Elk van deze drie technieken heeft zijn eigen voor- en nadelen. DGGE kan gebruikt worden voor analyse van complexe gemeenschappen, aangezien de techniek ook de mogelijkheid geeft om een sequentie analyse uit te voeren via de productie van kloon bibliotheken. In vergelijking met de andere twee fingerprint technieken heeft DGGE een lagere resolutie. Enkel de dominante populaties die elk minstens 1% van de totale gemeeschap uitmaken, worden weergegeven met DGGE (Marzorati et al, 2008; Shade et al, 2012; Speksnijder et al, 2001). T-RFLP is een veelzijdige methode met een beschikbare database en is geschikt voor de analyse van gemeenschappen bestaande uit bekende leden of voor specifieke taxonomische groepen met beperkte diversiteit. Het is echter onmogelijk om de sequenties terug te krijgen eens de techniek is uitgevoerd en verschillende sequenties die eenzelfde restrictie plaats hebben resulteren in één piek. ARISA heeft de hoogste resolutie en is geschikt voor de classificatie van nauwverwante microbiële taxa. Het nadeel van ARISA is een onderschatting van de diversiteit wanneer ongerelateerde micro-organismen intergenische regio’s bevatten van gelijke lengte die in het ARISA profiel als één piek worden weergeven (Fisher & Triplett, 1999). Naast deze drie methoden bestaan er nog verschillende andere methoden van fingerprinting, 25 Inleiding weergegeven in Tabel 1. De PCR-gebaseerde fingerprint methoden geven in het algemeen een onderschatting van de diversiteit weer, aangezien bijna alle technieken voornamelijk de dominante leden van de gemeenschap in complexe omgevingen identificeren (Rincon-Florez et al, 2013). Tabel 1: De voor- en nadelen van verschillende fingerprinting technieken die gebruikt worden voor microbiële diversiteit studies. LMW RNA: low molecular weight RNA, TGGE: temperature gradient gel electrophoresis, SSCP:single stranden conformation polymorphism, RAPD/DAF: randomly amplified polymorphic DNA/DNA amplified fingerprinting, Bp-PEG: bisbenzimide polyethyleneglycol electrophoresis, ADRA: amplified ribosomal DNA restriction analysis. (Schloss et al, 2009) Techniek LMW RNA TGGE SSCP RAPD/DAF Bp-PEG ADRA Voordelen Geen in vitro amplificatie stap nodig. Identificatie van de leden van de bacteriële gemeenschap mogelijk. Identificatie van de leden van de bacteriële gemeenschap mogelijk. Geen speciale primer ontwikkeling nodig. Eenvoudige methode, geen duur materiaal vereist. Geen duur materiaal vereist. Nadelen Snelle RNA degradatie, beperkte fylogenetische informatie en lengte variatie van het LMW RNA. Enkel kleine fragmenten (± 550 bp); dubbele banden en heteroduplexe moleculen. Enkel kleine fragmenten (150-400nt); Problemen met reproduceerbaarheid. Geeft geen fylogenetische informatie; problemen met reproduceerbaarheid. Lage resolutie. De beschikbaarheid en de prijs van de Bp-PEG kleuring Het aantal bandjes op de gel is niet direct gerelateerd aan het aantal leden van de gemeenschap. 1.2.2.2 Sanger sequenering Een van de ontwikkelingen die PCR mogelijk maakte, was DNA-sequenering. DNA-sequenering werd het eerst beschreven in 1977 door (Maxam & Gilbert, 1977)en (Sanger et al, 1977). De methode van Maxim en Gilbert steunde op chemische degradatie, terwijl de methode van Sanger gebaseerd was op enzym-polymerisatie. Sanger-sequenering, genoemd naar zijn uitvinder Frederick Sanger, is beter gekend als de keten-terminerende methode of de dideoxynucleotide methode. Verbeteringen van de Sanger-sequenering methode hebben tot de ontwikkeling van de geautomatiseerde capillaire elektroforese (CE) systemen geleid die op de markt gebracht werden door Applied Biosystems Inc., nu geïntegreerd in Life Technologies, en door Beckman Coulter Inc (Niedringhaus et al, 2011). Deze technologie wordt tegenwoordig in labo’s gebruikt over heel de wereld, maar kampt met beperkingen omtrent de doorvoersnelheid, de snelheid, de resolutie en de schaalbaarheid. De grootste limiterende factor van de Sanger-techniek is de kost en de tijd, met als gevolg dat de meeste studies slechts enkele honderden klonen konden sequeneren (Karger & Guttman, 2009). Het sequeneren van een klein aantal klonen heeft als gevolg dat voornamelijk de dominante componenten van de microbiële gemeenschap, die de detectie van de laag-abundante micro-organismen bemoeilijken, opgenomen worden. Deze laag-abundante micro-organismen vormen een zeer diverse zeldzame biosfeer in bijna alle omgevingen met inbegrip van de bodem (Pedrós-Alió, 26 Inleiding 2012; Sogin et al, 2006). Ze zijn grotendeels ongekend en bieden een potentieel onuitputtelijk genetisch reservoir aan dat alleen verkend kan worden wanneer de zeldzame bacteriën in cultuur te brengen zijn of door middel van grootschalige sequeneringstechnieken zoals de Next-Generation Sequencing (NGS) technieken. De ontwikkeling van de NGS-technieken overbrugde alle beperkingen van de Sanger-sequenering en ze werden recent van groot belang voor het bestuderen van zeer diverse microbiële gemeenschappen. De NGSplatformen omvatten massieve parallelle sequenering die de bepaling van genoomsequenties op grote schaal toelaat (Tucker et al, 2009) en voor een dramatische daling in sequeneringskosten zorgt (Metzker, 2010). Deze methoden bieden het voordeel dat een hoger aantal sequenties uit een bredere selectie van stalen kan opgepikt worden in vergelijking met de kloneringsbibliotheken. In vergelijking met DGGE is het mogelijk om met de NGS-methoden een hoger aantal taxa per staal te detecteren en zo de zeldzame biosfeer te bestuderen (Sogin et al, 2006). Twee NGS-platformen, Roche 454 sequenering en Ion Torrent sequenering, werden gebruikt doorheen dit project voor het bestuderen van de microbiële gemeenschappen. 1.2.2.3 454-sequenering of pyrosequenering Roche 454 pyrosequenering (http://www.454.com/) is een ‘sequencing-by-synthesis’ methode waarbij de vier nucleotiden (T, A, C, G) achtereenvolgens in herhalende cycli over een PicoTiterPlaat vloeien. De plaat bestaat uit meerdere welletjes die elk maximum één bead bevatten met meerdere kopieën, bekomen door klonale amplificatie m.b.v. emulsie-PCR, van één uniek enkelstrengig DNA-fragment (Figuur 3). De detectie van een geïncorporeerde nucleotide gebeurt met een gekoelde charge-coupled device camera en is gebaseerd op de vrijstelling van pyrofosfaat (PPi) tijdens de nucleotide incorporatie (Huse et al, 2007). Deze detectie omvat een kettingreactie waarbij vier enzymen betrokken zijn. Het eerste enzym is polymerase en katalyseert de DNA synthese, waarbij PPi wordt vrijgesteld. Het vrijgestelde PPi wordt vervolgens omgezet tot ATP door ATP-sulfurylase. De ATP molecule gaat verder reageren met luciferine, in een luciferase gemedieerde reactie. Hierbij wordt oxyluciferine gevormd, een bioluminescerende component die zichtbaar licht genereert. Overbodige ATP moleculen en nucleotiden worden afgebroken door het APYRASE enzym. De intensiteit van het zichtbaar licht dat geproduceerd wordt, is proportioneel aan het aantal nucleotiden (Margulies et al, 2005). Het nieuwste 454-platform (Tabel 2), GS FLX Titanium XL+, geeft leeslengtes van 700 tot 1000 bp (http://454.com/products/gs-flx-system/), die lang genoeg zijn om taxonomische classificatie tot op het genus niveau toe te laten. De lengte van de reads is afhankelijk van het aantal flows die worden uitgevoerd. In vergelijking met de andere NGS-platformen zijn de leeslengtes die door Roche 454 bekomen worden redelijk lang. Samen met een betere doorvoersnelheid, in vergelijking met de conventionele sequeneringsmethoden, laten deze leeslengtes het pyrosequeneringsplatform toe zeldzame micro-organismen te detecteren in microbiële gemeenschappen. 27 Inleiding Tabel 2: Vergelijkende samenvatting van drie Next-Generation Sequenering platforms. Een vergelijking van Ion Torrent (PGM 318), Roche 454 (GS FLX XL+) en Illumina (Miseq) hoge doorvoersnelheid platformen. De specificaties van elk instrument, voorzien door de verkoper, worden weergegeven, waaronder de kost, snelheid, lengte, accuraatheid, de grootte van de dataset en type primaire fouten. * 318 chip, Template kit en Sequenering Kit 1.2.2.4 Ion-Torrent sequenering Ion Torrent sequenering (http://www.iontorrent.com/) is net zoals pyrosequenering een ‘sequencing-by-synthesis’ methode, waarbij de template bibliotheek ook wordt aangemaakt via klonale amplificatie m.b.v. emulsie-PCR (Figuur 3). De Ion Torrent methode steunt op een revolutionaire nieuwe techniek: de halfgeleider technologie. Dit is een techniek waarbij de detectie van een nucleotide incorporatie gebaseerd is op het meten van een pH-verandering. Aan de basis van elke microwell, waarin zich één DNA-template bevattende bead bevindt, wordt een ion-chip geplaatst. Het toevoegen van nucleotiden gebeurt via een was-cyclus, waarbij de nucleotiden die worden toegevoegd op voorhand bepaald zijn en deel uitmaken van een korte sequentie van nucleotiden. Bij Roche 454 bestaat deze was-cyclus uit vier nucleotiden: TACG. De eerste generatie van de Ion Torrent Personal Genome Machine (PGM) steunde ook op een was-cyclus van 4 nucleotide, maar dit werd intussen aangepast waardoor de huidige PGM platforms een was-cyclus bestaande uit 32 nucleotiden toepassen, genaamd de Samba (Golan & Medvedev, 2013). Telkens wanneer een nucleotide geïncorporeerd wordt tijdens de DNA-synthese zal een proton worden vrijgesteld. Met behulp van de ion chip die pH-sensitieve, field effect transistor (pHFET) sensoren bevat, worden de vrijgestelde protonen direct gemeten, zonder de vereiste van gelabelde nucleotiden (Merriman et al, 2012; Rothberg et al, 2011). In vergelijking met de andere NGS-platformen heeft de Ion Torrent methode enkele voordelen: geen optische detectie, ongemodificeerde dNTP-moleculen, gebruik makend van de halfgeleider technologie en een reductie in de tijd per run. De Ion Torrent PGM produceert reads met een lengte van 400 bp in ongeveer zeven uur met een totale output van maximaal 2 Gb. Ondanks deze voordelen, blijft de sequentie accuraatheid van de Ion Torrent een grote zorg. 28 Inleiding Figuur 3: Overzicht Ion Torrent en 454 sequenering. Beide platforms steunen op emulsie PCR voor DNA amplificatie. Het is een reactiemengsel bestaande uit een olie-waterige emulsie die bead-DNA complexen inkapselt (één bead per waterdruppel). PCR-amplficatie wordt uitgevoerd binnen deze druppels om zo beads te creëren die enkele duizenden kopieën bevatten van dezelfde template sequentie. Tijdens de sequenering bevinden alle beads zich in een welletje waar de nucleotiden achtereenvolgens zullen passeren. Bij de Ion Torrent wordt een nucleotide incorporatie gemeten door een pH-verandering als gevolg van de vrijstelling van protonen. De 454-pyrosequenering daarentegen is gebaseerd op een vier-enzym real-time monitoring DNA-synthese met behulp van bioluminescentie. Wanneer homopolymere herhalingen van een nucleotide aanwezig zijn (GGG) dan zal de licht intensiteit sterker zijn (Roche 454) of zullen meerdere waterstof ionen worden vrijgesteld, leidend tot een hoger elektrisch signaal (Ion Torrent). Dit wordt dan ook geïnterpreteerd als meerdere identieke nucleotiden die aanwezig zijn in de sequentie. (Churko et al., 2013) 29 Inleiding 1.2.2.5 PCR- en Next-generation sequeneringsfouten Roche 454 pyrosequenering en Ion Torrent sequenering zijn beide PCR-gebaseerde technieken. Het grootste aandeel aan fouten in de output van deze technieken – zoals chimeren – is aan deze stap te wijten. Chimeren zijn hybride sequenties afkomstig van meerdere ouder-sequenties. Ze worden vaak gevormd wanneer nauw verwante sequenties samen geamplificeerd worden. Deze sequenties kunnen aanzien worden als nieuwe organismen waardoor ze leiden tot een overschatting van de diversiteit (Haas et al, 2011). Het merendeel van de chimere sequenties ontstaan door incomplete elongatiestappen en vele chimeren worden ook gevormd tijdens de laatste cycli van de PCR reactie. Door het aantal cycli te reduceren en de elongatietijd te verlengen wordt de vorming van chimeren sterk gereduceerd (Qiu et al, 2001; Acinas et al, 2005). Andere PCR-gebaseerde fouten zijn de vorming van dubbelstrengige moleculen door recombinatie van complementaire enkelstrengige moleculen (heteroduplexen), foutieve nucleotiden incorporaties tijdens DNA synthese (DNA-polymerasefouten) en een ongelijke voorkeur voor het sequeneren van de ene sequentie ten opzichte van een andere (preferentiële amplificatie). Heteroduplexen zijn onvermijdelijk wanneer een mix van homologe genen als PCR-template gebruikt worden (Qiu et al, 2001). GC-en AT-rijke sequenties zijn de voornaamste bron die tot preferentiële amplificatie leiden (Walsh et al, 1992). In een studie van (Jaenicke et al, 2011) werd een GCbias geïdentificeerd voor pyrosequeneringsdata, maar niet voor de GS FLX Titanium platforms. Wat wel werd aangetoond voor het GS FLX en het Titanium platform was een correlatie tussen de GC-inhoud en de leeslengte. Een significante daling in GC-inhoud werd waargenomen wanneer de leeslengte een bepaalde lengte overschreed (Jaenicke et al, 2011). Initiële studies omtrent de Ion Torrent PGM rapporteerden dat er weinig tot geen relatie was tussen de genoom-coverage en de GC-inhoud. Recent werd er echter beweerd dat er grote genoomcoverage bias was in het geval van AT-rijke sequenties (Quail et al, 2012). In een studie van (Bragg et al, 2013) werd een hogere error rate waargenomen bij het sequeneren van GC-arme soorten in vergelijking met GC-rijke soorten. Ook werd er aangetoond dat de Ion Torrent PGM genoom-coverage biases introduceert in zowel lage als hoge G+C% sequenties. Elk sequeneringsplatform heeft ook zijn eigen biases en beperking met betrekking tot de gegenereerde data. Deze omvatten o.a. de leeslengte, de homopolymeerlengte en basecallaccuraatheid. Door deze biases en artefacten kan de diversiteit en abundantie van merkergenen snel over- of onderschat worden. Roche 454 heeft een gemiddelde error rate van 1.07% (Gilles et al, 2011) terwijl Ion Torrent een error rate van 2.84% (1.8% met de Samba flow-cyclus) benadert (Quail et al, 2012; Bragg et al, 2013). Sequeneringsfouten van Roche 454 en Ion Torrent kunnen opgedeeld worden in vier groepen: insertie, deletie, mismatch en een dubbelzinnige base, N (Huse et al, 2007). De meeste sequentiefouten bij pyrosequenering gaan gepaard met het sequeneren van homopolymere regio’s (i.e. regio’s bestaande uit identieke basen). Ook bij Ion Torrent PGM zijn de homopolymeren de dominante fouten en ze zijn het gevolg van inaccurate flow-waarden. Flow-waarden van langere homopolymeren (>8 bp) zijn vaak onnauwkeurig en resulteren in hogere homopolymere insertie/deletiefouten (indels) en een lager aantal substitutiefouten (Margulies et al, 2005). Het aantal indelfouten neemt zowel bij Roche 454 als bij Ion Torrent toe wanneer de afstand ten opzichte van het begin van de read groter wordt (Huse et al, 2007; Bragg et al, 2013). In Ion Torrent sequenering komen de inserties algemeen meer voor dan deleties, maar bij toenemende 30 Inleiding homopolymere lengtes wordt deletie de dominantie sequentiefout. In een studie van (Quail et al, 2012) werd aangetoond dat de Ion Torrent geen reads genereerde voor homopolymeren >14 bp en een foutief aantal basen introduceert bij homopolymeren >8 bp. Veelvoorkomende en reproduceerbare homopolymere fouten kunnen resulteren in relatief abundante valse fylotypes (Kunin et al, 2010). De dubieuze homopolymeren (>8 bp) kunnen verwijderd worden door het trimmen van de sequenties tijdens de data analyse. Alhoewel alle NGS-methoden moeite hebben met het sequeneren van deze regio’s, is het problematischer bij de Ion Torrent en Roche 454 aangezien de nucleotiden geen blokkerende uiteinden hebben. Dit kan leiden tot het introduceren van volledige homopolymeren in één cyclus (Churko et al, 2013). Een dubbelzinnige base, N, in de sequentie is een indicatie voor het onvermogen van Roche 454 pyrosequenering om accuraat een base toe te wijzen op die positie in de sequentie. Het aantal N-fouten kan tot 21% van alle fouten bedragen en kan ook gecorreleerd worden met andere type fouten (Huse et al, 2007). Het voorkomen van sequentie-specifieke N-fouten met een gemeenschappelijk sequentiepatroon (een homopolymeer + enkele basen verschillend van de homopolymeer + N) werd aangetoond. Ook de identiteit van de N base, zijnde de nucleotide base van de homopolymeer, werd geïdentificeerd (Shin & Park, 2014). 1.3 Data analyses De ontwikkeling van de hoge-doorvoersnelheids-sequeneringstechnieken ging gepaard met de ontwikkeling van nieuwe bronnen aan sequentiefouten in vergelijking met de traditionele dideoxy-cappilaire-sequenering (Huse et al, 2007). Samen met de productie van de grote hoeveelheid data leidde dit tot de conclusie dat nieuwe bioinformatica tools nodig waren voor het verwerken en analyseren van de data. (Schloss & Handelsman, 2005) introduceerden in 2005 het Distance-Based OTU en Richness (DOTUR) programma dat sequenties toewijst aan OTU’s, gebaseerd op de genetische afstanden tussen de sequenties. De afstanden tussen de sequenties worden berekend aan de hand van het furthest average of het nearest neighbor algoritme. DOTUR identificeerde ook voormalige inconsistenties en fouten bij het toekennen van sequenties aan OTU’s. In 2007 introduceerde GS20 pyrosequenering de software CAFIE (Huse et al, 2007), Carry Forward and Incomplete Extensions. Het CAFIE algoritme gaat reads inkorten vanaf 3’ uiteinde en stopt dit proces wanneer er minder dan 3% van de overblijvende flowgram waarden een gemiddelde score bevatten. Daarnaast gaat het ook reads verwijderen die na trimming (verwijderen van de barcode en primer sequenties) een lengte overhouden lager dan een vooraf ingestelde cutoff waarde. (Kunin et al, 2010) onderzochten het effect van sequentiefouten op diversiteitsstudies. Het verwijderen van reads met N-basen of afwijkende read lengte werd toen gezien als de standaard toepassing, maar bleek onvoldoende te zijn om accurate diversiteitsstudies uit te voeren met een 97% cluster threshold. Door verbeteringen in de foutberekeningen voor de pyrosequeneringsdata in 2008, (Brockman et al, 2008) werd het mogelijk om trimming toepassingen zoals LUCY (Chou & Holmes, 2001) uit te voeren, die gebaseerd zijn op kwaliteitsscores per nucleotide. In 2009, werd een nieuw algoritme ontwikkeld, Pyronoise (Quince et al, 2009). De flowgrams die bekomen worden door Roche 454 pyrosequenering worden geclusterd door gebruik te maken van een afstandsmaat die sequentieruis modelleert, wat resulteert in accuratere OTU’s. In 2011 werd vervolgens AmpliconNoise, een verdere ontwikkeling van het PyroNoise algoritme, geïntroduceerd, dat in staat is om de Roche 454 sequentiefouten en de PCR-per-base fouten 31 Inleiding apart te verwijderen (Quince et al, 2011). Naast algoritmes voor het reduceren van sequentiefouten werden ook enkele chimera detectie programma’s ontwikkeld zoals ChimeraSlayer (Haas et al, 2011), Perseus (Quince et al, 2011) en UCHIME (Edgar et al, 2011). ChimeraSlayer kan gemakkelijk toegepast worden op grote datasets, presteert goed op korte sequenties en is sensitief voor nauwverwante 16S-genen. Perseus is gebaseerd op twee nieuwe principes. [1] aangezien de ‘ouders’ van de chimere sequentie op zijn minst één PCR reactie meer hebben ondergaan, kan er gezocht worden naar sequenties die een gelijke of een grotere abundantie bevatten dan de chimere sequentie zelf voor het vinden van de mogelijke ‘ouder’ sequenties. [2] Het verwijderen van de chimeren moet behandeld worden als een probleem in de classificatie. Perseus heeft een hoge sensitiviteit; het programma vindt 99% van de chimere sequenties terug in een dataset gebaseerd op de twee principes. Het derde programma, UCHIME, kan chimeras detecteren; enerzijds door gebruik te maken van een database zonder chimere sequenties en anderzijds de novo door gebruik te maken van data abundantie. Uchime heeft de hoogste sensitiviteit en behoudt vergelijkbare error rates. Voor elke sequentie wordt door Uchime bovendien een score bijgehouden waardoor de gebruiker de sensitiviteit kan inruilen voor specificiteit. Dit door de minimum score threshold aan te passen die onderscheid maakt tussen de chimere sequenties en de biologische sequenties. Ondanks de vele reducties bleven er nog veel artefacten en valse OTU’s bestaan (Schloss et al, 2011). Er was een hoge nood aan nieuwe applicaties die een uitgebreide set van analyses samen konden laten lopen in één systeem. In 2009 en 2010, werden twee dergelijke systemen vrijgegeven, respectievelijk Mothur (Schloss et al, 2009) en QIIME (Caporaso et al, 2010). Beiden pipelines ondersteunen naast een groot aantal geïmplementeerde data analyse programma’s, een grote variëteit aan statistische en visualisatie tools (Venndiagrammen, heat mappen) (Schloss et al, 2009; Caporaso et al, 2010). Recent, in 2013, werd een nieuw systeem geïntroduceerd, de UPARSE pipeline (Edgar, 2013). Vele andere computationele programma’s staan gratis online ter beschikking voor het analyseren van een dataset (Gogol-Döring & Chen, 2012). Typische diversiteit data-analyses bevatten een basis workflow die opgedeeld kan worden in drie stappen. Eerst worden de primers, de barcodes, reads die te kort zijn en sequentiefouten verwijderd uit de dataset. Vervolgens vindt alignering plaats met behulp van meervoudige alignering (MSA) of via het berekenen van paarsgewijze afstanden, i.e. het aantal posities waarin twee sequenties verschillen (Woese, 1987). De derde en laatste stap omvat de clustering van sequenties in OTU’s volgens een gewenste cutoff waarde (Barriuso et al, 2011). Elke pipeline personaliseert deze stappen en voegt eventuele additionele stappen toe. 1.3.1 Pipelines 1.1.1 Qiime Qiime, Quantatative insights into microbial ecologie (http://qiime.sourceforge.net/), is een open beschikbare software pipeline die gebruikt maakt van de PyCogent toolkit (Knight et al, 2007) voor het verwerken en analyseren van de ruwe sequentie data bekomen na sequenering. De focus van de Qiime pipeline ligt op downstream analyse. 32 Inleiding 1.2 Mothur Naast het verwijderen van sequentie fouten, alignering en OTU-clustering voert Mothur enkele additionele stappen uit, zoals het selecteren van unieke sequenties en preclusteren. De additionele stappen in Mothur helpen de sequentiefouten zoveel mogelijk te reduceren alsook de hoeveelheid data die verwerkt moet worden (Schloss, 2010; Schloss et al, 2011). Een aantal reeds bestaande algoritmes/programma’s werden geïntegreerd in Mothur: DOTUR, TreeClimber, UniFrac, e.a. (Schloss et al, 2009). Mothur is ook in staat om de α- en βdiversiteit van de data te berekenen. Het identificeren van de rijkdom aan soorten in een gemeenschap wordt bijvoorbeeld gedaan a.d.h.v. Chao1-curves en rarefaction curves. 1.2.1 Uparse Uparse (http://drive5.com/uparse/) werkt met kwaliteit gefilterde reads en maakt OTU’s de novo aan. Voor de clustering van de OTU’s werd een nieuw algoritme geïntroduceerd, UPARSE-OTU, dat OTU clustering simultaan uitvoert met het verwijderen van chimere sequenties. Deze stap verbetert de accuraatheid van de pipeline dramatisch. UPARSE-OTU maakt OTU’s aan met ≤1% incorrecte basen in artificiële microbiële gemeenschapstesten, dit in vergelijking met algemeen >3% incorrecte basen bij andere methoden. Deze verbeterde accuraatheid resulteert in veel minder OTU’s, wat beter aanleunt bij het verwachte aantal soorten in een gemeenschap (Edgar, 2013). 1.4 Eerdere diversiteitsstudies in Antarctica De Council of Managers of National Antarctic Programs (COMNAP) kondigde op 13 februari 2014 aan dat er 104 faciliteiten aanwezig zijn op Antarctica, die tot 29 Nationale Antarctisch Programma’s behoren (Afrika[1], Amerika[8], Azië[4], Australië[2] en Europa[14]), momenteel actief in Antarctica (www.comnap.aq/Information/SitePages/Home.aspx). In de Antarctische zomer van 2007-2008 werd het eerste “zero emissie” wetenschappelijk station in Antarctica gebouwd door België. Dit is het tweede Belgische wetenschappelijke station dat gebouwd werd op Antarctica. De bouw van het eerste station, de Koning Boudewijnbasis, ging van start op 26 december 1957 op 70°25’33’’ zuiderbreedte en 24°19’0’’ oosterlengte (http://www.hetlaatstecontinent.be/). Het station sloot definitief haar deuren in 1967. Sinds 15 februari 2009 beschikt België officieel opnieuw over een wetenschappelijk station in Antarctica, de Prinses Elisabethbasis (http://www.antarcticstation.org/). De onderzoeksbasis bevindt zich op 71°57’ zuiderbreedte en 23°20’ oosterlengte aan de voet van het SørRondanegebergte (Koningin Maud Land), dichtbij de Utsteinen nunatak in noordoostAntarctica. In januari 2007 werden tijdens een expeditie stalen verzameld uit de omgeving waar de huidige Prinses Elisabethbasis gelokaliseerd is. De stalen werden genomen voor de bouwwerken van de basis van start gingen. Twee van deze stalen (BB50 & BB115) werden middels cultivatie onderzocht door (Peeters et al, 2011a). De diversiteit van de gecultiveerde heterotrofe bacteriën uit de twee stalen werd bestudeerd. Voor de cultivatie van de bacteriën werden vier verschillende groeimedia gebruikt: Marine agar 2216, R2A, 10x verdunde R2A (R2A/10) en Peptone-Yeast-Glucose-Vitamin (PYGV) medium. Drie verschillende incubatie condities (20, 15 en 4 °C) werden toegepast onder een aerobe atmosfeer. Zuivere culturen werden gecryopreserveerd op -80°C met behulp van broth medium en 15% glycerol. Cultivatie 33 Inleiding en isolatie werden gevolgd door een repetitive element palindromic (rep)-PCR voor het verwijderen van duplicate isolaten. Vervolgens werd sequenering van het volledige 16S rRNAgen uitgevoerd voor de representatieve van elk rep-type. Dezelfde experimentele set-up onder aerobe condities werd ook gebruikt voor diversiteitsstudies van twee stalen (TM2 & TM4) uit het Transantarctisch Gebergte (Peeters et al, 2011b) en vijf stalen uit verschillende regio’s in Antarctica; het Pourquoi-Pas eiland (PQP), de Syowa Oase (LA3, SK5 & WO10) en de Schirmacher Oase (SC6) (Peeters & Verleyen, 2012). Op fylum niveau werden er vier gemeenschappelijke fylotypes teruggevonden in de negen stalen: Actinobacteria, Bacteroidetes, Proteobacteria, en Firmicutes. Vier van de negen stalen (BB50, BB115, SC6 en W010) hadden ook het fylum Thermi gemeenschappellijk 34 Doel van het project 2 Doel van het project Met deze studie werden meerdere doelen voor ogen gehouden. (1) De impact van verschillende PCR-condities op één van onze datasets onderzoeken. (2) Een vergelijking maken van de NGS-platforms, IonTorrent en Roche-454. Elk platform heeft zijn eigen biases; data-outputs van de technieken werden onderling vergeleken gebaseerd op één omgevingsstaal en negen controle stalen. (3) Een vergelijking maken van de alternatieve pipelines, Mothur en Uparse. Verschillende parameters (leeslengtes, gebruik van bepaalde commando’s en volgorde van de verschillende stappen) werden hierbij getest. Door de twee NGS-platformen en de data output van beide pipelines te vergelijken, zou bepaald worden welke experimentele set-up tot de meest accurate resultaten leidde. (4) Bijdragen tot het beter begrijpen van de biogeografie van (sub-) Antarctische micro-organismen, waarover door de ontoegankelijkheid van Antarctica relatief weinig geweten is. Recent gepubliceerde studies die gebruik maken van NGS-technieken, lieten ons toe enkele beschikbare datasets te gebruiken om een preliminaire biogeografische diversiteitsstudie uit te voeren voor koude omgevingen. 35 Resultaten 3 Resultaten 3.1 Het effect van verschillende parameters op de data output van twee data analyse pipelines De stalen (Materiaal en Methode 5.1.1) die gesequeneerd werden met Roche 454 pyrosequenering, werden verder verwerkt en geanalyseerd met de twee pipelines, Mothur en Uparse. De negen stalen werden gezien als één dataset waarop tijdens de data analyse verschillende parameters werden uitgevoerd. De verschillende data outputs werden vervolgens onderling vergeleken op basis van het aantal OTU’s, het aantal sequenties en het aantal chimera’s. Het totaal aantal sequenties vóór de data analyse was 711073. Het totaal aantal sequenties na de analyse met de default Mothur pipeline (http://www.mothur.org/wiki/454_SOP) was 23852 en 21092 na analyse met de default Uparse pipeline (Bijlage: 7.3). De default Mothur pipeline kende de 3028 geobserveerde OTU’s toe aan 38 verschillende fyla, terwijl de default Uparse pipeline 2153 geobserveerde OTU’s toekende aan 37 verschillende fyla identificeerde. De voornaamste fyla die met beide pipelines geïdentificeerd werden en die minstens 4% van het totaal aantal OTU’s vertegenwoordigden, waren: Proteobacteria, Bacteroidetes, Actinobacteria, Chloroflexi, Planctomycetes en Firmicutes (in afnemende volgorde). Een duidelijk verschil was te zien tussen het aantal geclusterde OTU’s (3028 en 2153) die enerzijds met de Average Neighbor methode (in Mothur) en anderzijds met het Uparse-OTU algoritme (in Uparse) bekomen werden. In Tabel 9 wordt een overzicht weergegeven van de verschillende data outputs, omtrent het aantal OTU’s, sequenties en chimere sequenties die het resultaat zijn van verschillende paramaters uitgetest met de Mothur en Uparse pipeline op onze Roche 454 data. Een volledig overzicht van data outputs op fylum niveau is te vinden in de Bijlage 7.2. Het langste homopolymeer dat voorkwam in de sequenties was 31 bp lang. De default Mothur pipeline liet homopolymeren van 8 bp toe aangezien de lengte van de homopolymeren die aanwezig waren in 95.7% van de reads, 6 tot 7 bp was. Het laagste aantal OTU’s werd bekomen wanneer het maximaal aantal toegelaten homopolymeren op vier werd ingesteld, de ‘Maxhp4’ analyse (Tabel 3). Hierbij bleven er na data analyse een lager aantal sequenties over die geclassificeerd werden in slechts 31 fyla. Naast de ‘MaxHp4’ analyse gaf de Gotoh alignering ook een relatief klein aantal OTU’s weer. Het grootste aantal OTU’s werd bekomen wanneer het trimmen van de sequenties werd uitgevoerd met behulp van de kwaliteitsscores. Met een gemiddelde Phred score van 25 per 50 bp werden sequenties met een gemiddelde lengte van 265 bp bekomen. Hiermee werden de sequenties geclusterd in 5383 OTU’s, waarvan er 63% tot de niet-geclassificeerde OTU’s in vergelijking met ±10% bij de andere Mothur analyses en 10 tot 15% bij de Uparse analyses. Het aantal niet-geclassificeerde OTU’s in de default Mothur analyse werd gereduceerd met 6.6%, wanneer de classificatie werd uitgevoerd met een gefilterde Greengenes referentietemplate. De classificatie die hierbij plaatsvond was nauwkeuriger waardoor er meer sequenties geïdentificeerd en geclassificeerd werden tot op het genus niveau. 37 Resultaten Tabel 3: Een overzicht van de data-analyse-outputs van de Roche 454 dataset bekomen door verschillende parameters te latenvariëren met Mothur en Uparse. De V1-V3 regio van het 16S rRNA gen van negen stalen uit verschillende Antarctische regio’s werd gesequeneerd met het Roche 454 FLX + Titanium platform. De ruwe dataset werd geanalyseerd met Mothur en Uparse en verschillende parameters werden uitgetest. De sequenties van de negen stalen werden geclusterd in OTU’s met een identiteits-threshold van 97% en ze werden geclassificeerd met behulp van de Greengenes database. QS: kwaliteitsscore, Ref_Templ: classificatie van de default analyse met een gefilterde Greengenes referentietemplate, MinL250: minimum leeslengte van 250 bp, B0P0: nul mismatches voor de Barcode- en Primersequentie: B2P2: twee mismatches voor de Bardcode- en Primersequentie, B0P2: nul mismatches voor de Barcodesequentie en twee mismatches voor de Primersequentie, MaxHp4: maximum lengte van homopolymeren is 4 bp, MaxHp12: maximum lengte van homopolymeren is 12 bp, PreC: de default Mothur pipeline zonder de precluster-stap, Gotoh: Aligneringsmethode, Elke gap: straft elke aanwezige gap, Geen gap: negeert de aanwezige gaps, B0P2/qTh_16: een combinatie van B0P2 met een kwalitaitsscore threshold van minimum Q16, 2_Ch_GoldOtu: twee chimera-stappen waarvan de eerste de Silva Gold database gebruikt en de tweede de representatieve sequentie van elke OTU. Het toegelaten aantal mismatches voor de primer- en barcodesequentie is respectievelijk 2 en 1 in de default Mothur pipeline en 2 en 0 in de default Uparse pipeline. Wanneer nul mismatches werden toegelaten voor zowel de primer- als de barcodesequentie kregen we voor beide pipelines een kleine vergelijkbare reductie (< 1%) te zien in het totaal aantal OTU’s. Met Mothur werden ook twee toegelaten mismatches getest voor beide sequenties (B2P2), wat een stijging van 5.71% van het totaal aantal OTU’s opleverde. Het effect van de toegelaten mismatches was groter met de barcodesequentie. Uparse voert twee chimera-stappen uit, één simultaan met de OTU-clustering en één additionele chimera-stap aan de hand van de Silva Gold referentiedatabase (Quast et al, 2013). Hiermee werden er in de default Uparse pipeline respectievelijk 456 en 38 chimera’s verwijderd. Deze dubbele chimera-stap werd ook met Mothur uitgeprobeerd. De eerste chimera-stap, aan de hand van de Silva Gold referentiedatabase, verwijderde 225 chimere 38 Resultaten sequenties. De tweede chimera-stap, uitgevoerd na de OTU-clustering, was gebaseerd op de abundantie van de sequenties en verwijderde nog een bijkomende 278 chimere sequenties. De combinatie van deze twee chimera-stappen (‘2_Ch_GoldOtu’) in Mothur verwijderde het grootste aantal chimera’s in vergelijking met alle andere analyses; dit is weergegeven in Tabel 3. Verder werd er met Uparse nog gekeken naar de lengte van de reads en het aantal toegelaten mismatches voor de primer en barcodesequentie (Tabel 3). Een leeslengte van 250 bp enerzijds en nul toegelaten mismatches voor de barcode- en primersequentie anderzijds, resulteerden beide in een lager aantal OTU’s in vergelijking met de Mothur versie van beide analyses. Met Uparse werd één fylum meer teruggevonden wanneer een leeslengte van 250 bp werd ingesteld en twee fyla minder wanneer nul mismatches werden toegelaten, ten opzichte van de Mothur analyses met dezelfde parameterinstelling. Van deze twee analyses had de leeslengte parameter had het grootste effect op de taxonomische identificatie van de OTU’s. In beide pipelines werden met deze ingestelde parameters minder chimera’s gevonden. Met een combinatie (“Combi” analyse) van verschillende parameters die aanleiding gaven tot accuratere resultaten, slaagde Mothur erin om het aantal OTU’s te reduceren tot 2937 (Tabel 3). Dit was een verbetering ten opzichte van de andere Mothur data analyses, maar evenaarde de output van de Uparse pipeline nog steeds niet. Twee fyla die met de Mothur pipeline geïdentificeerd werden, Caldiserica en WS2, werden niet waargenomen in de data output van de Uparse pipeline. Omgekeerd identificeerde de Uparse pipeline het fylum WS6 dat met de Mothur pipeline niet werd teruggevonden. Elk van deze drie fyla werd vertegenwoordigd door maar één OTU. Ten slotte werden de data analyses ook uitgevoerd met de reverse primer (Tabel 3). Dit resulteerde, in vergelijking met de forward primer, in een verlaging van het aantal OTU’s en het behouden van een groter aantal sequenties na dataverwerking. De Reverse analyse met Mothur kende de 1990 geobserveerd OTU’s toe aan 37 fyla. Net zoals bij Uparse werd het fylum Caldiserica hierbij niet teruggevonden, maar wel het fylum WS6. Daarnaast, werd er ook nog het fylum Lentisphaerae geïdentificeerd, waartoe twee OTU’s behoorden, en verdween het fylum SR1. De Reverse analyse met de Uparse pipeline observeerde 1530 OTU’s die geclassificeerd werden als 40 fyla. De nieuwkomers, in vergelijking met de default Uparse pipeline, waren Hyd24-12, Lentisphaerae, OP3 en WS2. Ook hier verdween het fylum SR1. Buiten de besproken analyses werden ook andere parameterinstellingen uitgetest. Namelijk het toelaten van 12 homopolymeren, een data analyse zonder de preclusterstap, variatie van de verschillende toegelaten gaps, een threshold van Q16 en een maximale leeslengte van 300 bp. MaxHp12, PreC en ‘Elke gap’ resulteerden in een hoger aantal OTU’s met een lager of gelijk aantal gedetecteerde chimera’s. MaxL300 en ‘Geen gaps’ resulteerden in een lager aantal OTU’s en een gelijk (Geen gaps) of hoger (MaxL300) aantal gedetecteerde chimera’s. (Tabel 3) 39 Resultaten 3.2 Taxonomische identificatie gemeenschappen van Antarctische microbiële Classificatie van de negen Antarctische stalen (BB115, BB50, LA3, PQP, SC6, SK5, TM2, TM4 en WO10), bekomen door bidirectionele pyrosequenering van de V1-V3 regio van het 16S rRNAgen, werd uitgevoerd met de Mothur geïmplementeerde versie van de ‘Bayesian classifier’ aan de hand van de referentiebestanden van de Greengenes database. De data analyse werd voor dit deel van de studie uitgevoerd met de default Mothur pipeline In onderstaande resultaten worden de niet-geclassificeerde sequenties op elk taxonomisch niveau beschouwd als één van de fylogenetische groepen wanneer ze daar aanwezig zijn. De diversiteit van de negen stalen werd onderzocht op verschillende taxonomische niveaus: fylum, klasse en genus. In totaal werden de 3028 OTU’s toegekend aan 38 fyla, 90 klassen en 227 genera. Op fylumniveau werden er in alle negen stalen zeven gemeenschappelijke fylogenetische groepen teruggevonden (Figuur 4A), zijnde de Proteobacteria, Bacteroidetes, Actinobacteria, Chloroflexi, Planctomycetes, Cyanobacteria en Verrucomicrobia. De Proteobacteria waren het meest voorkomende fylum met 901 verschillende OTU’s (30%), gevolgd door de Bacteroidetes met 359 verschillende OTU’s (11.9%) en Actinobacteria met 354 verschillende OTU’s (11.7%) (Figuur 4B, 4C & 4D). De Verrucomicrobia daarentegen, waren het minst abundante van de zeven fyla, met 46 verschillende OTU’s (1.5%). Alhoewel de Proteobacteria, de Bacteroidetes en de Actinobacteria de helft van het totaal aantal OTU’s vertegenwoordigen, werd er 56% van de sequenties vertegenwoordigd door de Proteobacteria (8896 sequenties) en de Cyanobacteria (5210 sequenties). De Cyanobacteria (99 OTU’s) werden verder onderverdeeld in 12 genera waarvan er drie meer dan 5% van de OTU’s representeerden binnenin het fylum Cyanobacteria. Deze drie genera zijn Leptolyngbya (13 OTU’s), Phormidium (9 OTU’s) en Pseudoanabaena (8 OTU’s), waarvan Phormidium tot de klasse Oscillatoriophycideae behoort en Leptolyngbya en Pseudoanabaena tot de klasse Synechococcophycideae. Naast de zeven gemeenschappelijke fyla, zijn er drie fyla die in acht van de negen stalen voorkomen: Firmicutes (BB50, LA3, PQP, SC6, SK5, TM2, TM4 en WO10), Gemmatimonadetes (BB115, BB50, LA3, PQP, SC6, TM2, TM4 en WO10) en TM7 (BB115, LA3, PQP, SC6, SK5, TM2, TM4 en WO10). Bij de twee terrestrische stalen uit de omgeving van de Belgische basis (BB115 & BB50) werd het kandidaat fylum FBP ook teruggevonden als één van dominante fyla met respectievelijk 12% en 15% van het totaal aantal OTU’s per staal. De stalen met het hoogste aantal fyla waren SC6 (29), WO10 (28) en TM4 (22) gevolgd door SK5 (19), BB50 (17), TM2 (17), BB115 (15), PQP (15) en LA3 (15). Van de 38 verschillende fyla in totaal waren er 17 die bestempeld zijn als kandidaat fylum: FBP, TM6, TM7, OP8, OP9, OP11, WS1, WS2, WS3, WS4, WPS-2, BRC1, NKB19, GNO2, Hyd24-12, SR1 en OD1. Van het totaal aantal OTU’s waren er 10% die in geen enkel van de reeds bestaande fyla konden ingedeeld worden en vervolgens als niet-geclassificeerde OTU’s werden aangeduid. Op fylumniveau waren de niet-geclassificeerde OTU’s het meest dominant in staal WO10 met 13% van het aantal OTU’s aanwezig in dit staal. Echter, op genusniveau waren het aantal nietgeclassificeerde OTU’s het dominantst in staal SK5 met 81 % van het totaal aantal OTU’s aanwezig in dit staal. Daarvan werd er 55% toegewezen aan de Proteobacteria en 40 Resultaten A B C D Figuur 4: Relatieve abundantie van bacteriële fyla en klassen voor de negen stalen die gesequeneerd werden met Roche 454 pyrosequenering. A) Zeven gemeenschappelijke fyla tussen alle negen stalen, B) de verschillende klassen die tot het fylum Proteobacteria behoren, C) de verschillende Klassen die tot de Actinobacteria behoren en D) de verschillende klassen die tot de Bacteroidetes behoren. Actinobacteria. Het laagste aantal niet-geclassificeerde OTU’s werd gezien in staal PQP en staal TM2 met beiden 57 % van hun totaal aantal OTU’s. Op klasse niveau waren er acht gemeenschappelijke fylogenetische groepen, waaronder Alpha-, Beta- en Gammaproteobacteria, Actinobacteria, Planctomycetes, Cytophagia, Acidimicrobiia en Flavobacteriia. Zes van de 90 klassen behoorden tot de Proteobacteria: Alpha-, Beta-, Delta-, Epsilon- en Gammaproteobacteria en TA18 (Figuur 4B). Van deze zes klassen zijn de Alphaproteobacteria het meest dominant met 488 OTU’s, gevolgd door de Gammaproteobacteria met 148 OTU’s. Ongeveer 30% van de 90 verschillende klassen werden toegewezen aan één van de negen stalen. Geen enkel genus was aanwezig in elk staal, maar één genus werd teruggevonden in acht van de negen stalen: Rhodobacter, met een totaal van 41 OTU’s en 225 sequenties. Op basis van de OTU’s was Rhodobacter het meest voorkomende genus samen met Clostridium (40 OTU’s), 41 Resultaten Hymenobacter (40 OTU’s) en Gemmata (36 OTU’s) die allen meer dan 1% van het totaal aantal OTU’s vertegenwoordigden. Desondanks was Phormidium, op basis van het aantal sequenties, het meest vertegenwoordigd met een totaal van 2339 sequenties en 9 OTU’s. Dit genus werd gevolgd door Ralstonia met 954 sequenties en Clostridium met 586 sequenties. In zeven van de negen stalen kwamen er vijf van de 227 genera voor, zijnde Gemmata, Leptolyngbya, Methylibium, Polaromonas en Ralstonia. Op genusniveau waren er in totaal 101 genera (44.7%) die specifiek tot één van de negen stalen behoorden. Staal TM2 had met 37% het grootste aantal ‘unieke’ genera. In afnemende volgorde zijn de stalen met het meest verschillende genera: TM2 (73 genera en 269 OTU’s), WO10 (71 genera en 729 OTU’s), SC6 (69 genera en 532 OTU’s), TM4 (61 genera en 351 OTU’s), SK5 (55 genera en 521 OTU’s), PQP (52 genera en 245 OTU’s), BB50 (47 genera en 389 OTU’s), BB115 (46 genera en 345 OTU’s) en LA3 (43 genera en 210 OTU’s). Om de diversiteit in de stalen te meten werden rarefaction curves gemaakt (Figuur 5). Staal WO10 vertoonde de grootste diversiteit met 729 OTU’s en 3964 sequenties gevolgd door staal SC6 met 532 OTU’s en 2167 sequenties. De laagste diversiteit werd aangetroffen in staal LA3 met 210 OTU’s en 1801 sequenties. Rarefaction 800 BB115 Aantal geobserveerde otus 700 BB50 600 LA3 500 PQP SC6 400 SK5 300 TM2 200 TM4 100 WO10 0 0 500 1000 1500 2000 2500 3000 3500 4000 Aantal geanalyseerde sequenties Figuur 5: Rarefaction curves. De curves geven een overzicht weer van de diversiteit in elk van de negen Antarctische stalen. De diversiteit is gebaseerd op het aantal geobserveerde OTU’s (geclusterd op 97%) en het aantal geanalyseerde sequenties per staal. 42 Resultaten 3.3 Het effect van verschillende PCR condities op de Ion Torrent PGM data Alhoewel meerdere studies reeds hebben aangetoond dat de Ion Torrent PGM error rate (2.84%) hoger is dan deze van Roche 454 (1.07%) en Illumina (< 0.4%) (Quail et al, 2012; Loman et al, 2012; Bragg et al, 2013), was het doel van deze studie onder andere om de Ion Torrent PGM te vergelijken met Roche 454. Vele publicaties omtrent de prestaties van NGStechnieken bestaan al (Loman et al, 2012; Quail et al, 2012; Lam et al, 2012; Eisenstein, 2012), maar aangezien de Ion Torrent een redelijke nieuwe techniek is die nog niet volledig ontwikkelt is, wilden we een poging doen om via enkele controle stalen en één omgevingsstaal na te gaan of de Ion Torrent een vergelijkbare data output, zoals Roche 454 omtrent microbiële gemeenschappen kon produceren. De ruwe sequentie data die bekomen werd na sequenering van de 25 stalen (Tabel 7) met het Ion Torrent PGM platform (chip 318), bestond na de data analyse uit korte reads van lage kwaliteit. De sequenties werden opgeslaan in een fastq-bestand. Door het fastq.info commando in Mothur uit te voeren konden de fasta en de qual bestanden onttrokken worden. Aangezien geen flow bestanden beschikbaar waren, werd het trimmen van de sequenties uitgevoerd op basis van de kwaliteitsscores. Om sequenties te krijgen van minstens 200 bp met een base accuraatheid van minimum 95% werden verschillende parameters getest op één van de artificiële (“mock”) gemeenschappen. De pipeline werd eerst doorlopen met de negen controle stalen (Tabel 4) om de sequentiekwaliteit, de error rate en het aantal resulterende OTU’s na te gaan. Aan de hand van deze resultaten werd beslist dat het geen nut had de volledige dataset te doorlopen. Tabel 4: Overzicht van de negen controle stalen die gesequeneerd werden met de Ion Torrent PGM. Mock Artificiële gemeenschap bestaande uit 21 bacteriële stammen, behorend tot 5 fyla. Mock-rep Replicaat van het mock-staal. 2-stapsPCR-mock Een 2-staps PCR reactie in plaats van 1-stap, uitgevoerd met het mock-staal. 5-minmock Een verlengde elongatietijd van 5 min, in plaats van 3 min standaard elongatietijd. Uitgevoerd met het mock-staal. BB115 Terrestrisch staal uit de omgeving van de Belgische Basis. Gesequeneerd met zowel Roche 454 als de Ion Torrent. BB115rep1 Replicaat 1 van het BB115-staal. BB115rep2 Replicaat 2 van het BB115-staal. 2-stapsPCR-BB115 Een 2-staps PCR reactie in plaats van 1-stap, uitgevoerd met het BB115-staal. 5-minBB115 Een verlengde elongatietijd van 5 min, in plaats van 3 min standaard elongatietijd. Uitgevoerd met het BB115-staal. Blanco Negatieve controle In het blanco staal werden 11 OTU’s geïdentificeerd die tot de volgende vier fyla behoorden: Firmicutes (4 OTU’s), Actinobacteria (3 OTU’s), Cyanobacteria (2 OTU’s) en Bacteroidetes (2 OTU’s). Drie overige OTU’s behoorden tot de niet-geclassificeerde Bacteria. Van deze 14 OTU’s 43 Resultaten werden er 4 ook teruggevonden in andere stalen; Cyanobacteria (2 OTU’s) en Firmicutes (2 OTU’s). De twee OTU’s die tot de Cyanobacteria behoorden werden op genus niveau geïdentificeerd als Chroococcidiopsis en niet-geclassificeerde Cyanobacteria. De twee OTU’s die tot de Firmicutes behoorden werden beiden op genus niveau geïdentificeerd als Staphylococcus. 3.3.1 De artificiële gemeenschap: duplicaten en PCR condities 3.3.1.1 Duplicaten van de artificiële gemeenschap Het aantal bekomen sequenties voor de twee mock gemeenschappen (mock en mock-rep) waren respectievelijk 14285 en 17362 die vervolgens werden toegewezen aan 6619 (mock) en 8190 OTU’s (mock-rep). In vergelijking met de referentie mock-staal die maar 21 verschillende OTU’s had, is dit resultaat verre van accuraat (Figuur 6). De stammen die ter beschikking stonden voor het maken van het mock-referentiestaal behoorden tot vijf fyla; Actinobacteria, Bacteroidetes, Thermi, Firmicutes en Proteobacteria. Ze werden zodanig gekozen dat ze tot verschillende OTU’s behoorden, wat resulteerde in 18 verschillende genera (Tabel 8). Het aantal bekomen fyla voor beide mock gemeenschappen, gesequeneerd met Ion Torrent PGM, waren 11 voor het mock-staal en 10 voor het mock-rep-staal (Figuur 6). Naast de vijf fyla van het referentiestaal waren de fyla Acidobacteria, Armatimonadetes, Cyanobacteria, FBP en niet-geclassificeerde Bacteria ook aanwezig. Naarmate geclassificeerd werd op lager niveau (genus) werd het verschil tussen de twee mock gemeenschappen en het mock-referentiestaal groter. Van de 18 verschillende genera die de mock-stalen zouden moeten bevatten waren er maar 11 aanwezig in beide stalen: Bacillus, Deinococcus, Devosia, Flavobacterium, Hymenobacter, Janibacter, Loktanella, Paenibacillus, Polaromonas, Rhodococcus en Staphylococcus. In het mock-staal werden er nog 19 andere genera geïdentificeerd en in het mock-rep-staal 15. In beide mock gemeenschappen werd de helft van het aantal OTU’s op genusniveau ingedeeld als niet-geclassificeerd. Voor het mock-staal behoorden 32% van de nietgeclassificeerde genera tot de Bacteroidetes en 25% tot de niet-geclassificeerde Bacteria. Voor het mock-rep-staal behoorde 29% tot de niet geclassificeerde Bacteria en 25% tot de Bacteroidetes. 3.3.1.2 2-staps PCR voor de artificiële gemeenschap De 2-staps PCR-reactie die uitgevoerd werd met het mock-staal bevatte na sequenering en data verwerking duidelijk een groter aantal sequenties (71656) en OTU’s (32376) in vergelijking met de mock duplicaten (Figuur 6). Op fylumniveau werden 17 fylogenetische groepen geïdentificeerd, waaronder de vijf fyla uit het mock-referentiestaal. Het meest abundante fylum was Cyanobacteria die 23,5% van het totaal aantal OTU’s voorstelde. Op klasseniveau waren de Alphaproteobacteria en Actinobacteria de meest dominerende groepen. De niet-geclassificeerde OTU’s waren zeer abundant aanwezig op alle taxonomische niveaus, 52%, 77% en 93% op fylum-, klasse- en genusniveau respectievelijk. Op fylumniveau behoorden de niet-geclassificeerde genera voornamelijk tot de Cyanobacteria (17%) en de niet-geclassificeerde Bacteria (56%). Voor de genera werden 75 verschillende fylogenetische 44 Resultaten groepen geobserveerd in plaats van 18 zoals in het referentiestaal, met het genus Phormidium als dominante groep op basis van het aantal OTU’s. Van de 18 verschillende genera die normaal zouden geïndentificeerd moeten worden in de mock-stalen werden er acht teruggevonden in het 2-staps PCR mock-staal: Rhodococcus, Arthrobacter, Hymenobacter, Deinococcus, Bacillus, Loktanella, Devosia en Polaromonas. 3.3.1.3 Verlengde elongatietijd voor de artificiële gemeenschap De fylogenetische groepen die geïdentificeerd werden bij een verlengde elongatietijd van vijf minuten kwamen nauw overeen met de fylogenetische groepen bekomen bij het 2-staps-PCRmock-staal (Figuur 6). Het aantal sequenties en OTU’s lagen lager dan deze bij het 2-stapsPCR-mock-staal, maar waren nog steeds een stuk hoger dan bij de mock duplicaten en het referentiestaal. Opnieuw werden 17 verschillende fyla geïdentificeerd, vergelijkbaar met het 2-staps-PCR-mock-staal, maar met het fylum Fusobacteria dat de kandidaat divisie OD1 vervangt. De Cyanobacteria blijven het dominerende fylum, gevolgd door Actinobacteria, Proteobacteria en Bacteroidetes. De dominerende groepen op klasse- en genusniveau zijn gelijk aan diegene die geïdentificeerd werden in het 2-staps-PCR-mock-staal. Het aantal nietgeclassificeerde OTU’s zijn ook hier sterk abundant op alle taxonomische niveaus. Van de 73 genera die werden teruggevonden in het 5-min-mock-staal waren er negen gemeenschappelijk met het mock-referentiestaal: Rhodococcus, Rothia, Hymenobacter, Deinococcus, Bacillus, Loktanella, Devosia, Brevundimonas en Polaromonas. Figuur 6: Taxonomische identificatie op fylum niveau van de mock-stalen. De replicaten (Mock en Mock-rep) en verschillende PCR condities, 2-staps PCR en verlengde elongatietijd van 5 min, werden uitgetest op de artificiële (“mock”) gemeenschappen. De sequenties, gesequeneerd met de Ion Torrent PGM, werden geclusterd in OTU’s met een identiteits-threshold van 97% en ze werden geclassificeerd met behulp van de Greengenes database. Het mock referentiestaal bestaat uit 21 bacteriële stammen die met cultivatie en Roche 454 pyrosequenering reeds teruggevonden zijn. 3.3.2 Het BB115-staal: triplicaten en PCR condities 3.3.2.1 Triplicaten van het BB115 staal Voor de drie BB115-stalen, namelijk BB115, BB115-rep1 en BB115-rep2, waren het aantal bekomen sequenties respectievelijk 75910, 66937 en 53681. Deze sequenties werden 45 Resultaten respectievelijk toegewezen aan 33060, 31352 en 23997 OTU’s. In vergelijking met 20537 sequenties en 345 OTU’s voor staal BB115, bekomen met Roche 454 pyrosequenering, verschillen de resultaten van de Ion Torrent met twee grootte ordes voor het aantal OTU’s. Staal BB115 en BB115-rep2 bevatten evenveel fyla, namelijk 17, terwijl staal BB115-rep1 er 19 bevatte en staal BB115 van de Roche 454 analyse 15 (Figuur 7). Het meest abundante fylum voor de BB115-triplicaten was Cyanobacteria. Samen met de Actinobacteria en Proteobacteria waren dit de drie meest voorkomende fyla in de BB115 replicaten (> 8% OTU’s per fylum). Voor staal BB115, gesequeneerd met Roche 454, was Bacteroidetes het meest abundante fylum. Bacteroidetes, Proteobacteria, Actinobacteria en FBP werden allen met meer dan 8% OTU’s vertegenwoordigd en vormden in het Roche 454 BB115-staal de meest voorkomende fyla. Onderling hadden de BB15 replicaten 16 fyla gemeenschappelijk. Het fylum Fusobacteria kwam enkel voor in stalen BB115 en BB115-rep1, het fylum Nitrospirae enkel in stalen BB115rep1 en -rep2 en tenslotte het fylum WPS-2 enkel in het BB115-rep1-staal. Op fylumniveau vertonen deze stalen niet zoveel verschil, maar naarmate de stalen geclassificeerd werden op lager niveau (genus) nam de diversiteit in staal BB115 het meest toe. Het aantal OTU’s die niet-geclassificeerd werden, zijn zeer abundant aanwezig in de BB115 replicaten. Op fylumniveau maken ze ±50% uit van alle OTU’s, op klasseniveau ±70% en op genusniveau ±90%. Van de 46 genera die geobserveerd werden in het Roche 454 BB115-staal werden er 32 teruggevonden in de BB115 replicaten. Daaruit volgt dat er dus 14 genera waren die enkel in het Roche 454 BB115-staal gevonden werden en 71 genera die uitsluitend tot de BB115 replicaten behoorden. Deze 14 genera en hun aantal OTU’s waren Cryobacterium (1), Cystobacter (2), Cytophaga (2), Dermacoccus (4), Dokdonella (3), Luteimonas (1), Lysobacter (1), Methylibium (3), Opitutus (1), Propionicimonas (2), Pseudonocardia (1), Rhodobacter (1), Rhodoferax (1) en Simplicispira (2). 3.3.2.2 2-staps PCR voor het BB115 staal De 2-staps PCR-reactie die uitgevoerd werd met het BB115-staal resulteerde in een lager aantal OTU’s (5776) met een lager aantal sequenties (11301) ten opzichte van de BB115triplicaten (Figuur 7). Er werden negen verschillende fyla geïdentificeerd, waarvan de nietgeclassificeerde OTU’s er één waren. Van de negen fyla werden er zeven teruggevonden in het Roche 454 BB115-staal, zijnde Proteobacteria, Bacteroidetes, Actinobacteria, Cyanobacteria, Thermi, FBP en Acidobacteria. In het 2-staps PCR-BB115-staal vertegenwoordigden Firmicutes en Proteobacteria 55% van het totaal aantal OTU’s. In het Roche 454 BB115-staal waren het de Bacteroidetes en de Proteobacteria die 55% van de OTU’s vertegenwoordigden. Het fylum Firmicutes werd dus niet teruggevonden in het Roche 454 BB115-staal. Op genusniveau vormden de niet-geclassificeerde OTU’s in het 2-staps PCR-BB115-staal de meest abundante groep (50% van het totaal aantal OTU’s). Deze behoorden voornamelijk tot de niet-geclassificeerde Bacteria en de Flavobacteriia (Bacteroidetes). Hetzelfde werd gezien voor het Roche 454 BB115-staal, maar daar behoorden de meeste niet-geclassificeerde OTU’s tot de Saprospirae (Bacteroidetes) in plaats van de Flavobacteriia. De tweede grootste groep op genusniveau was het genus Staphylococcus (Firmicutes) voor het 2-staps-PCR-BB15-staal en het genus Hymenobacter (Bacteroidetes) voor het Roche 454 BB115-staal. 46 Resultaten Van de 33 genera geobserveerd voor het 2-staps PCR BB115-staal werden er 11 gevonden die ook aanwezig waren in het Roche 454 BB115-staal (46 genera). Deze 11 fyla waren Chryseobacterium, Deinococcus, Devosia, Flavobacterium, Hymenobacter, Nocardioides, Phormidium, Polaromonas, Rhodococcus, Spirosoma en enkele niet-geclassificeerde OTU’s. 3.3.2.3 Verlengde elongatietijd voor het BB115 staal Net zoals bij de mock-stalen zien we ook hier een grotere overeenkomst tussen het 5-minBB115 staal en het 2-staps PCR-BB115 staal dan met de BB115 replicaten (Figuur 7). Er werden 2 fyla, Chlorobi en Chloroflexi, meer geïdentificeerd in vergelijking met het 2-staps PCR-BB15staal. De dominante groepen op fylum-, klasse- en genusniveau zijn gelijk aan deze geobserveerd bij het 2-staps PCR-BB115 staal. De niet-geclassificeerde genera behoorden ook hier voornamelijk tot de niet-geclassificeerde Flavobacteriia en de niet-geclassificeerde Bacteria. Beide PCR condities lijken dus een gelijkaardig effect te hebben op de data. In totaal waren er 30 verschillende genera aanwezig in het 5-min-BB115-staal, waarvan er 14 overeenkwamen met het Roche 454 BB115-staal. Hiertoe behoordende 11 gemeenschappelijke fyla die gezien werden bij het 2-staps PCR-BB115 staal en Knoellie, Pedobacter en Sphingomonas. Figuur 7: Taxonomische identificatie op fylumniveau van het BB115-staal. De percentages stellen het aantal OTU’s voor die aanwezig zijn per fylum. Replicaten (BB115, BB115-rep1 en BB115-rep2) en twee PCR condities, een 2-staps PCR-reactie en een verlengde elongatietijd van 5 min, werden uitgetest op het BB115-staal. Het BB115-staal is een terrestrische staal afkomstig uit de omgeving van de Belgische Basis in Antarctica (Utsteinen, Koning Maud Land). Deze data output van deze stalen werd vergeleken met de data output van het BB115-staal dat gesequeneerd werd met Roche 454 pyrosequenering. Alle sequenties werden geclusterd in OTU’s met een identiteits-threshold van 97% en werden geclassificeerd met behulp van de Greengenes referentiedatabase. 47 Resultaten 3.4 Geografische diversiteit in koude omgevingen Om een preliminaire biogeografische diversiteitstudie van koude omgevingen uit te voeren, werd onze data, de Roche 454 data uit deze studie, vergeleken met twee additionele datasets die gegenereerd werden volgens dezelfde methoden als onze data. Om een idee te krijgen over de verschillen en gelijkenissen omtrent de microbiële diversiteit in deze koude omgevingen, werd elke dataset samen met onze data gealigneerd en verder geanalyseerd. De gemeenschappelijke OTU’s tussen de koude omgevingen en onze Roche 454 data en hun voornaamste gemeenschappelijke fyla zijn weergegeven Figuur 8. Figuur 8: Venn-diagram van de microbiële diversiteit in koude omgevingen. Het aantal gemeenschappelijke OTU’s tussen de verschillende koude omgevingen uit de twee additionele datasets (Yergeau et al, 2012; Edwards et al, 2014) en onze data (De Roche 454 data verwerkt in deze studie). De drie bovenste omgevingen vertegenwoordigen de microbiële diversiteit in cryoconiet ecosystemen afkomstig uit gletsjers. De onderste drie omgevingen vertegenwoordigen de microbiële diversiteit op (sub-)Antarctische eilanden. Het totaal aantal OTU’s per omgeving is ook weergegeven in het Venn-diagram. De cirkeldiagrammen stellen de gemeenschappelijke fyla voor tussen de omgeving in kwestie en onze Roche 454 data. 48 Resultaten 3.4.1 Een eerste additionele dataset 3.4.1.1 Microbiële diversiteit op (sub-)Antarctische eilanden De eerste additionele dataset was afkomstig van de studie van (Yergeau et al, 2012), waarin drie (sub-)Antarctische eilanden bestudeerd werden: de Falklandeilanden, het Anchorageeiland en het Signy-eiland. Het aantal sequenties die overbleven na de data analyse waren 29891, 25509 en 36409 voor de Falklandeilanden, het Anchorage-eiland en het Signy-eiland respectievelijk. Het grootste aantal OTU’s werd teruggevonden in de stalen van de Falklandeilanden (4920 OTU’s). Het Anchorage-eiland en het Signy-eiland vertoonden min of meer een gelijk aantal OTU’s, respectievelijk 3591 en 3728. Het aantal verschillende fyla, klassen en genera waren ook telkens het hoogst voor de Falklandeilanden, gevolgd door het Anchorage-eiland en dan het Signy-eiland. De Actinobacteria en de Proteobacteria (voornamelijk de Alphaproteobacteria) domineerden in alle drie de omgevingen. 3.4.1.2 Vergelijking van de diversiteit met onze data Vergeleken met het totaal aantal OTU’s per omgeving, deelde het Signy eiland 19,7% van hun OTU’s met onze data. De OTU’s van de Falkland eilanden verschilden het meest van onze data, slechts 3% van hun totaal aantal OTU’s vertoonden gelijkenis. Het Anchorage eiland viel tussen beiden met 14% van hun totaal aantal geïdentificeerde OTU’s, gemeenschappelijk met onze data. In alle drie de omgevingen bestonden de gemeenschappelijke OTU’s voor ±70% uit de Proteobacteria en de Actinobacteria (Figuur 8). Vervolgens maakten de Acidobacteria 10-15% uit van de gemeenschappelijke OTU’s en de Chloroflexi 4-8%. De helft van het totaal aantal verschillende fyla voor elk van de omgevingen werd teruggevonden in onze data. Enkele van de gemeenschappelijke fyla werden slechts in één van de drie omgevingen gevonden: het fylum Thermi (Anchorage-eiland) en de fyla Firmicutes en Nitrospirae (Falklandeilanden). Andere werden dan weer waargenomen op twee van de drie eilanden: de fyla AD3, Armatimonadetes en TM7 (Anchorage- en Signy-eiland) en het fylum FBP (Falklandeilanden en het Anchorage-eiland). Staal WO10 toonde de grootste overeenkomst met elk van de drie omgevingen op basis van het aantal OTU’s. Wanneer het aantal gemeenschappelijke OTU’s berekend werd voor een staal, gebaseerd op de diversiteit binnenin dat staal, dan toonde staal TM2 het grootste percentage gemeenschappelijke OTU’s met elke van de drie (sub-)Antarctische sites. Op basis van het aantal sequenties toonde staal TM4 de grootste overeenkomst. Van de 13 (Falklandeilanden), 14 (Anchorage-eiland) en 12 (Signy-eiland) gemeenschappelijke fyla met onze data waren er acht (Proteobacteria, Actinobacteria, Acidobacteria, Chloroflexi, Bacteroidetes, Cyanobacteria, Gemmatimonadetes en Planctomycetes) die op alle drie de eilanden gevonden werden. In de drie omgevingen onderling, zonder vergelijking met onze data, kwamen er 19 fyla overeen. Op fylumniveau toonden de stalen van het Anchorageeiland de grootste overeenkomst met onze data (14 fyla) en de stalen van het Signy-eiland de kleinste overeenkomst (12 fyla). Op genusniveau vertonen de stalen van het Signy-eiland met 56 verschillende genera de grootste overeenkomst met onze data en de Falklandeilanden met 27 verschillende genera de kleinste. De Alphaproteobacteria en de Actinobacteria waren de best vertegenwoordigde fylogenetische groepen op klasseniveau, in alle drie de omgevingen (Figuur 9B). 49 Resultaten Enkele niet-geclassificeerde OTU’s waren ook gemeenschappelijk. Op klasseniveau, waren dit er vier voor de Falklandeilanden die tot het fylum Actinobacteria, Proteobacteria, de kandidaat fylum FBP en de niet-geclassificeerde Bacteria behoorden. Voor het Signy-eiland waren er 12 gemeenschappelijke niet-geclassificeerde OTU’s die tot drie verschillende fyla behoorden: Actinobacteria (7 OTU’s), Chloroflexi (3 OTU’s) en Proteobacteria (2 OTU’s). Ook voor het Anchorage-eiland werden er 12 niet-geclassificeerde OTU’s gevonden, ze behoorden tot vier verschillende fyla: Actinobacteria (2 OTU’s), Chloroflexi (3 OTU’s), FBP (6 OTU’s) en de niet-geclassificeerde Bacteria (1 OTU). De meest voorkomende genera verschilden van eiland tot eiland. Voor de Falklandeilanden waren de drie best vertegenwoordigde genera Devosia, Phormidium en Rhodoplanes. Elk van deze genera werd vertegenwoordigd door minstens twee procent van het totaal aantal gemeenschappelijke OTU’s per omgeving. Behalve Phormidium die tot de Cyanobacteria behoort, behoren deze andere genera tot de Alphaproteobacteria. In de stalen van het Signyeiland was er maar één genus dat door twee procent vertegenwoordigd werd in beide omgevingen, namelijk Rhodoplanes. Drie andere genera die elk met 1% van het totaal aantal gemeenschappelijke OTU’s per omgeving vertegenwoordigd werden, waren: Arthrospira (Alphaproteobacteria), Bdellovibrio (Deltaproteobacteria) en Candidatus_Solibacter (Acidobacteria). Op het Anchorage-eiland werden zeven voornaamste genera geobserveerd die met minstens 1% van het totaal aantal gemeenschappelijke OTU’s per omgevingen vertegenwoordigd werden, nl.: Arthrobacter (Actinobacteria), Pseudonocardia (Actinobacteria), Deinococcus (Thermi), Hymenobacter (Bacteroidetes), Devosia, Rhodoplanes en Sphingomonas (Alphaproteobacteria). Van deze best vertegenwoordigde genera per omgeving hadden de drie eilanden één genus gemeenschappelijk, Rhodoplanes. In totaal hadden de drie eilanden en onze data 11 gemeenschappelijke genera, waarvan er zes tot de Alphaproteobacteria behoren, drie tot de Actinobacteria, één tot de Gammaproteobacteria en één tot de Cyanobacteria. Voor de Falklandeilanden werden er van de 25 fyla, 16 niet gemeenschappelijk gevonden (de niet-geclassififceerde OTU’s niet meegerekend). Van deze 16 fyla waren er 11 wel aanwezig in onze data maar met verschillende soorten van diegene die gevonden werden op het eiland. De kandidaat fyla AD3 en FCPU426, aanwezig op de Falklandeilanden werden niet teruggevonden in onze data. Het fylum Thermi toonde met vijf genera een grotere diversiteit te hebben op het Antarctische continent dan op de Falklandeilanden waar maar één genus gevonden werd. Voor het Anchorage-eiland waren er 10 fyla die niet werden teruggevonden in onze Roche 454 data. Van die 10 waren er zes fyla die in onze data aanwezig waren, maar vertegenwoordigd werden door andere soorten. De vier fyla enkel gevonden in de stalen van het Anchorage-eiland waren Elusimicrobia, Fibrobacteres, GNO2 en Nitrospirae. De Verrumicrobia waren met zeven genera, waarvan één de niet-geclassificeerde OTU’s omvatte, meer divers op het Anchorage-eiland dan op het Antarctisch continent waar er slechts vier genera werden gevonden. Van deze zeven genera werden Prosthecobacter en Chthoniobacter enkel gevonden op het Anchorage-eiland, terwijl de genera DA101, Luteobacter, Optitutus en Candidatus_Xiphinematobacter zowel aanwezig waren op het eiland als op het Antarctisch continent, maar vertegenwoordigd werden door verschillende soorten. Voor het Signy-eiland waren er 11 fyla niet gemeenschappelijk. Daarvan werden er zes (FBP, Firmicutes, OD1, TM6, TM7 en WPS-2) teruggevonden in onze data, vertegenwoordigd door andere soorten dan 50 Resultaten A B A B A B Figuur 9: Verspreiding van de geobserveerde OTU’s over de verschillende Bacteria klassen, die gedefinieerd werden volgens Greengenes. De geobserveerde OTU’s vertegenwoordigen hier de gemeenschappelijke OTU’s enerzijds (A) tussen de stalen van de gletsjers uit het Groenland, het Noordpoolgebied en de Alpiene gebieden (Edwards et al., 2014) en de stalen van onze Roche 454 data en anderzijds (B) tussen de stalen van de Falkland eilanden, het Anchorage eiland of het Signy eiland (Yergeau et al., 2012) De nummers tussen vierkante haken na de klassen staan voor het totaal aantal OTU’s die aanwezig zijn in die klasse. diegene aanwezig op het Signy-eiland. De vijf fyla die afwezig waren in onze data, ten opzichte van het Signy–eiland waren Elusimicrobia, Fibrobacteres, Nitrospirae en kandidaat fyla WS2 en FCPU426. Het fylum Firmicutes toonde diverser te zijn op het Signy-eiland waar er zes genera voorkwamen (Sporosarcina, Finegoldia, Peptoniphilus, Desulfosporosinus, Clostridium en Bacillus) dan op het Antarctisch continent waar slechts één genus aanwezig was. 3.4.2 Een tweede additionele dataset 3.4.2.1 Microbiële diversiteit in Arctische en Alpiene gletsjers In een tweede additionele dataset uit de studie van (Edwards et al, 2014) werden cryoconiet ecosystemen bestudeerd in gletsjers afkomstig uit Alpiene gebieden, het Noordpoolgebied en Groenland. Na data verwerking waren het aantal sequenties per omgeving 14675 51 Resultaten (Noordpoolgebied), 16487 (Groenland) en 24534 (Alpiene gebieden). Het aantal geobserveerde OTU’s van alle stalen per omgeving waren 9804 (Noordpoolgebied), 7383 (Groenland) en 10746 (Alpiene gebieden). In Tabel 5 worden het aantal OTU’s alsook het aantal gemeenschappelijke OTU’s met onze data per gletsjer weergegeven. In het Noordpoolgebied en Groenland werd het meest aantal OTU’s toegekend aan de Proteobacteria. In de Alpiene gebieden behoorden het meeste aantal OTU’s tot de Cyanobacteria. Op klasse niveau waren de Actinobacteria het meest abundant in de eerste twee omgevingen en de Nostocophycideae in de Alpiene gebieden. Op genus niveau was het genus Cylindrospermopsis in alle drie de omgevingen dominerend. Deze resultaten nemen de niet-geclassificeerde OTU’s niet in rekening. Op elk taxonomisch niveau vormden de nietgeclassificeerde OTU’s de grootste groep voor alle drie de omgevingen. Tabel 5: Overzicht van de verdeling van de OTU’s voor de Arctische en Alpiene gletsjers. De OTU’s werden gecluster op 97%. Drie gletsjers werden onderzocht in het Noorpoolgebied en in de Alpiene gebieden waar telkens twee cryoconiet systemen bestudeerd werden. Het aantal gemeenschappelijke OTU’s van twee cryoconiet systeem per gletsjer wordt weergeven alsook het totaal aantal verschillende OTU’s per gletsjer. ML: Midtre Lovenbreen, AB: Austre Brøggerbreen, VB: Vestre Brøggerbreen, GF: Gaisbergferner, PF: Pfaffenferner, RF: Rotmoosferner, GR: Groenland (Leverett Gletsjer) 3.4.2.2 Vergelijking van de diversiteit met onze data De verzamelde stalen uit de Alpiene gebieden hadden 1.8% van het totaal aantal geobserveerde OTU’s gemeenschappelijk met onze data. In het Noordpoolgebied was dat 0.7% en in Groenland slechts 0.5%. De gemeenschappelijke OTU’s van alle drie de gebieden 52 Resultaten samen behoorden voornamelijk tot de Proteobacteria (Figuur 8). De Cyanobacteria vormden de tweede grootste gemeenschappelijke fylogenetische groep. Het was opnieuw staal WO10 dat de grootste overeenkomst toonde met alledrie de omgevingen, maar wanneer de diversiteit in elk staal in rekening werd gebracht, toonde het TM4 staal het grootste percentage gemeenschappelijke OTU’s met elk van de drie koude omgevingen. De gemeenschappelijke fyla (Figuur 8) aanwezig in elk van de drie omgevingen toonden onderling ook enkele gelijkenissen. Vijf van de acht in het Noordpoolgebied, zes in Groenland en 10 in Alpiene gebieden zijn de met onze data gemeenschappelijke fyla die in alledrie de omgevingen aanwezig waren. De eerste drie, de Proteobacteria, de Cyanobacteria en de Bacteroidetes werden ook teruggevonden in elke omgeving van de eerste additionele dataset. De andere twee gemeenschappelijke fyla, Firmicutes en TM7, vertoonden in de eerste additionele dataset geen overeenkomst met onze Roche 454 data. In de Arctische en Alpiene gletsjer ecosystemen werden deze wel gemeenschappelijk gevonden met de Roche 454 data. Alphaproteobacteria was met ±30% in elke omgeving de meest voorkomende klasse, gevolgd door de Betaproteobacteria (Figuur 9A). Enkele van de gemeenschappelijke OTU’s behoorden tot de niet-geclassificeerde. Voor het Noordpoolgebied waren er 13 niet-geclassificeerde OTU’s (op klasseniveau) die tot de Actinobacteria (1 OTU), Bacteroidetes (1 OTU), Cyanobacteria (5 OTU’s), Firmicutes (3 OTU’s) en de niet-geclassificeerde Bacteria (3 OTU’s) behoorden. Voor Groenland waren er zeven niet-geclassificeerde OTU’s (op klasseniveau) die tot de Cyanobacteria (4 OTU’s), Firmicutes (1 OTU) en die niet-geclassificeerde Bacteria (2 OTU’s) behoorden. Voor de Alpiene gebieden werden er 11 niet-geclassificeerde OTU’s gevonden (op klasseniveau). Deze behoorden tot de Actinobacteria (2 OTU’s), Bacteroidetes (1 OTU), Cyanobacteria (3 OTU’s), Firmicutes (1 OTU) en de niet-geclassificeerde Bacteria (4 OTU’s). De stalen uit het Noordpoolgebied waren afkomstig van drie verschillende gletsjers: Midtre Lovenbreen (ML), Austre Brøggerbreen (AB) en Vestre Brøggerbreen (VB). De geobserveerde OTU’s uit de cryoconiet ecosystemen van de VB-gletsjer vertoonden op genusniveau de grootste gelijkenis met de OTU’s geïdentificeerd in de Antarctische microbiële gemeenschappen in onze studie (Tabel 6). Het meest vertegenwoordigde gemeenschappelijke genus dat in de drie gletsjers voorkwam was Bosea. Methilibium, Phormidium, Polaromonas en Zymomonas waren vier andere fylogenetische groepen die met meer dan 1% van het totaal aantal gemeenschappelijke OTU’s gerepresenteerd werden in zowel de stalen van de gletsjer ecosystemen als in de stalen van onze Roche 454 data. Deze vier genera werden vooral teruggevonden in de AB- en VB-gletsjer stalen. In de stalen van de Leverett gletsjer uit Groenland behoorden Bosea, Methylibium en Polaromonas opnieuw tot de meest vertegenwoordigde genera samen met het genus Pseudanabaena (Cyanobacteria) dat met zes OTU’s het dominantste genus was (Tabel 6). In de Alpiene gebieden werden ook drie gletsjers bestudeerd: Gaisbergferner (GF), Pfaffenferner (PF) en Rotmoosferner (RF). De PF-gletsjer stalen hadden het grootste aantal gemeenschappelijke OTU’s (Tabel 6), maar samen met de GF-gletsjer stalen hadden ze een gelijk aantal verschillende genera (14) gemeen met onze data. Bosea, Methylibium, Phormidium, Polaromonas en Pseudanabaena vormden hier de meest voorkomende genera, en waren voornamelijk aanwezig in de GF- en PF-gletsjer stalen. 53 Resultaten Van de 15 verschillende fyla voor het Noordpoolgebied waren er acht gemeenschappelijk met onze data en acht specifiek voor het Noordpoolgebied (ten opzichte van onze data). Van de 4947 niet-geclassificeerde Bacteria waren er drie gemeenschappelijk, vandaar de acht/acht verdeling. In de twee andere omgevingen werden er van de niet-geclassificeerde Bacteria ook telkens enkele gemeenschappelijk gevonden, maar het grootste deel van deze groep behoorde tot de omgeving zelf en werd niet gemeenschappelijk gevonden. Ondanks het feit dat de Actinobacteria, op het aantal niet-geclassificeerde Bacteria na, de meest vertegenwoordigde klasse is in de gletsjers uit het Noordpoolgebied en Groenland, en de tweede meest vertegenwoordigde klasse in de gletsjers uit de Alpiene gebieden, vertoonden ze weinig tot geen gemeenschappelijke OTU’s met onze data. Deze fylogenetische groep vertegenwoordigde wel de microbiële gemeenschappen uit de (sub-)Antarctische eilanden met het tweede grootste aantal gemeenschappelijke OTU’s (Figuur 8). De genera die tot de Acidobacteria behoren, aanwezig in de gletsjer ecosystemen in het Noordpoolgebied zijn Terriglobus, Edaphobacter, Candidatus_Solibacter en Acidobacterium. Terwijl de genera van de soorten gevonden op het Antarctisch continent enkel tot het genus Acidobacterium behoren. Net zoals de Acidobacteria werden de Armatimonadetes, Chloroflexi, Fibrobacteres, Thermi, Planctomycetes en het kandidaat fylum WPS-2, niet gemeenschappelijk gevonden met onze data aangezien ze verschillende soorten bevatten. Uit deze zeven fyla was er één, Fibrobacteres, waarvan er geen soorten teruggevonden werden in de stalen van onze Roche 454 data. Tot de fyla Chloroflexi en Planctomycetes behoorden een groter aantal taxa op Antarctica. Voor de gletsjer ecosystemen in Groenland waren er 10 van de 16 fyla niet gemeenschappelijk met onze data. Van die 10 was er opnieuw één fyla waarvoor er geen soorten geïdentificeerd werden in onze data, namelijk Fibrobacteres. In de stalen van de Alpiene gebieden werd er in vergelijking met de Antarctische stalen een verschil in genera, behorend tot fylum Firmicutes, teruggevonden. Het genus Pelosinus en Alicyclobacillus werden enkel gevonden in de cryoconiet stalen, terwijl de genera Staphylococcus en Caloramator enkel in de Antarctische stalen werden teruggevonden. In beide omgevingen waren dan wel de genera Bacillus en Clostridium aanwezig. In de Alpiene gebieden werden de fyla die niet gemeenschappelijk waren met onze data wel teruggevonden in de Antarctische stalen maar met verschillende soorten dan diegene aanwezig in de cryocoiniet systemen. Een fyla, Elusimicrobia, werd enkel waargenomen in de Alpiene gebieden en was volledig afwezig in onze Roche 454 data. 54 Resultaten Tabel 6: Overzicht van de gemeenschappelijke OTU’s op genusniveau tussen Antarctische en crycoconiet stalen, uit Arctische en Alpiene gletsjers. Stalen uit vier cryoconiet ecosystemen van één gletsjer werden verzameld in Groenland, stalen van telkens twee cryoconiet ecosystemen voor drie gletsjers werden verzameld in het Noordpoolgebied en Alpiene gebieden. De meest vertegenwoordigde genera per omgeving zijn benadrukt. 55 Discussie 4 Discussie 4.1 Vergelijking van de data output van twee data analyse pipelines Sinds 2005, toen Roche 454 zijn eerste NGS-platform op de markt bracht, heeft DNA sequenering een snelle evolutie gezien. Verschillende NGS-platformen werden ondertussen uitgebracht die diverse applicaties aanbieden. Ondanks de reductie in kostprijs, de verbetering in snelheid en de hoge doorvoorsnelheid in vergelijking met de Sanger sequenering, heeft elk van deze technieken nog te maken met bepaalde sequentiefouten (Zagordi et al, 2010; Gogol-Döring & Chen, 2012; Bragg et al, 2013; Schloss, 2010). Data analyse pipelines werden ontwikkeld om zoveel mogelijk PCR-gebaseerde fouten (vb. chimere sequenties) en sequeneringsfouten (vb. homopolymeren) te identificeren en te verwijderen, wat resulteert in sequenties met een hogere kwaliteit. Voor onze default Mothur pipeline werd er gekozen voor de pipeline die beschreven werd in (Schloss et al, 2011). De studie van Schloss et al. toonde aan dat sequenties korter dan 200 bp, homopolymeren langer dan 8 bp en primer- en barcode-mismatches groter dan respectievelijk 2 en 1 een lage kwaliteit hadden en de error rate dus vergrootten. De Uparse pipeline die online beschikbaar is (http://drive5.com/usearch/manual/uparse_cmds.html), werd aangepast voor onze dataset en wordt als de default gebruikt. Uparse geeft OTU’s terug met sequenties die ≤1% incorrecte basen bevatten, wat zich uit in een lager aantal OTU’s (Edgar, 2013). Dit werd in onze resultaten ook gezien, het aantal OTU’s bekomen met Uparse was 1.4 maal lager dan het aantal OTU’s die bekomen werden met Mothur. Twee analyses in Mothur (‘MaxHp4’ en ‘Gotoh’) leken net zoals Uparse een lager aantal OTU’s weer te geven, maar deze misvatting kan voor beide analyses verklaard worden. Aangezien de meeste homopolymeren in onze sequenties 7 bp lang waren, was een cutoff van 8 bp goed gekozen. Door een maximale lengte van 4 bp in te stellen gingen er veel sequenties verloren, wat een onderschatting van de diversiteit als gevolg had. Omgekeerd, door de maximale lengte van de homopolymeren te verlengen werden foutieve sequenties behouden, wat vaak tot een overschatting van de diversiteit leidt (Margulies et al, 2005; Huse et al, 2007). Het laag aantal OTU’s dat door de Gotoh alignering bekomen werd, was een gevolg van de waarde van de strafpunten die aan de gaps en de mismatches werden toegekend. De gotoh aligneringsmethode straft verschillend voor het openen van een gap (-2) en voor de extensie van een gap (-1), in tegenstelling tot de Needleman Wunsh alignering die een gelijke straf toekent voor beide gebeurtenissen. De beloning voor een match is algemeen +1 en de straf voor een mismatch -1. Bij de gotoh alignering werd deze laatste parameter aangepast tot -3. De combinatie van de verschillende straf-waarden resulteerde hier in een strengere alignering, waardoor er na de screening minder sequenties overbleven (26030 vs. 27412 voor de default pipeline). Het aantal sequenties die uiteindelijk overbleven voor de OTU clustering waren 23877 (gotoh alignering) en 24995 (default Mothur), wat het verschil in het aantal OTU’s verklaart. Om de accuratere resultaten van Uparse te evenaren werd een combinatie van verschillende parameters getest met de Mothur pipeline: B0P2, een minimum (200 bp) en een maximum (300 bp) sequentielengte, een qthreshold van 16, twee chimera-stappen en een aangepaste classificatiestap. Dit gaf voor de Mothur pipeline het laagste aantal OTU’s weer met de meest 57 Discussie accurate taxonomische classificatie. Ondanks dezelfde hoeveelheid mismatches, vergelijkbare leeslengtes, dezelfde kwaliteits-threshold en de 2 chimera-stappen bleek Uparse nog steeds een meer accuraat aantal OTU’s weer te geven. Wanneer de forward dataset vergeleken werd met de reverse dataset zagen we een groot verschil. Het aantal verschillende fyla bleef relatief gelijk, maar een sterke reductie in het aantal OTU’s was opmerkzaam. Er werden ook veel meer chimera verwijderd in vergelijking met de forward dataset analyses. Een mogelijke verklaring zou gelinkt kunnen worden aan de homopolymere regio’s. Hoogstwaarschijnlijk komen er minder homopolymeren voor in de meer geconserveerde 3’ regio, in vergelijking met de 5’ regio van onze doelsequentie. Aangezien de homopolymeren regio’s de voornaamste sequentiefouten zijn in Roche 454 pyrosequenering heeft dit een groot effect. 4.2 Vergelijking met eerdere publicaties omtrent Antarctische microbiële diversiteit Negen stalen van Antarctische microbiële aquatische en terrestrische microbiële matten werden verzameld en onderzocht om een beter idee te krijgen over de diversiteit en samenstelling van de gemeenschappen hierin aanwezig. Met behulp van Roche 454 pyrosequencing en de Mothur data analysis pipeline (Schloss et al, 2009) werd de microbiële diversiteit in deze stalen onderzocht. Er moet ook vermeld worden dat de classificatie in onze studie werd uitgevoerd met behulp van de Greengenes referentiedatabase (http://greengenes.lbl.gov/.) die significant groter is dan de RDP referentiedatabase (Werner et al, 2012). Een vergelijking van de microbiële diversiteit, gevonden in de negen bestudeerde stalen, met eerdere cultivatiestudies (Peeters & Verleyen, 2012; Peeters et al, 2011a, 2011b) toonde aan dat met pyrosequenering een groter deel van de diversiteit in kaart gebracht werd. In de cultivatiestudies werden alle teruggevonden fylotypes met behulp van de RDP referentie database toegewezen aan vijf fyla: Actinobacteria, Bacteroidetes, Proteobacteria, Firmicutes en Thermi. In onze studie werden alle geobserveerde OTU’s, bekomen met Roche 454 pyrosequencing, toegewezen aan 38 fyla waaronder ook één groep van niet-geclassificeerde sequenties behoort. Aangezien onze studie niet enkel gefocuseerd was op de heterotrofe bacteriën zoals de cultivatiestudies, verschilden de voornaamst voorkomende fyla lichtjes van diegene gerapporteerd in de eerdere studies. Proteobacteria, Bacteroidetes, Actinobacteria, Chloroflexi, Planctomycetes, Firmicutes en Cyanobacteria werden als de zeven voornaamste fyla beschouwd in onze studie. De fototrofe bacteriën behoren tot de Cyanobacteria, Proteobacteria, Chloroflexi, Firmicutes en Chlorobi (Bryant & Frigaard, 2006). Het dominante fylum van de fotosynthetische bacteria, gevonden in alle negen stalen, was de Cyanobacteria. Naast de focus op de heterotrofe bacteriën in de cultivatiestudies, werden ook enkel de aerobe bacteriën geselecteerd. Het obligaat anaerobe organisme Clostridium werd dan ook in zes van de zeven (PQP, SC6, SK5, TM2, TM4 en WO10) aquatische microbiële matten gevonden. 58 Discussie Met de cultivatiestudies werd de aanwezigheid van het fylum Thermi aangetoond in vier stalen (BB115, BB50, PQP en SC6). Met pyrosequenering slaagden we er niet in Thermi terug te vinden in staal PQP, maar wel in stalen BB115, BB50, SC6 en SK5. Het Deinococcus genus, samen met de B-42, R18-435 en Truepera genera werden met Greengenes geclassificeerd onder het fylum Thermi. Het genus B-42 was aanwezig in de SC6 en SK5 stalen, genera R18435 en Truepera waren aanwezig in het BB50 staal en het genus Deinococcus werd teruggevonden in de twee terrestrische stalen (BB115 en BB50). De aanwezigheid van het genus Deinococcus en Truepera in de Antarctische bodem werd eerder al aangetoond (Aislabie et al, 2006, 2013; Niederberger et al, 2008; Chan et al, 2013). Door het meten van de diversiteit in alle negen stalen werd er gezien dat enkel de rarefaction curve van staal TM2 bijna een plateau bereikte; wat inhoudt dat de diversiteit bijna volledig achterhaald is. Echter, in de andere acht stalen is de diversiteit nog niet volledig ontdekt, aangezien de rarefaction curves van alle andere stalen blijven stijgen. Het grootste aantal genera werd dan ook gevonden voor staal TM2. In de studie van (Peeters & Verleyen, 2012) werd de diversiteit in staal PQP het grootst gevonden. Onze resultaten toonden aan dat van die vijf stalen staal WO10 de grootste diversiteit had, door het groter aantal OTU’s en sequenties in vergelijking met staal PQP. Het verschil in beide stalen is voornamelijk te wijten aan het grote aantal niet-geclassificeerde sequenties. De zeven stalen die afkomstig waren van aquatische microbiële matten kunnen verder opgedeeld worden in drie stalen (TM2, LA3 en WO10) afkomstig uit zoutwatermeren en vier stalen (TM4, PQP, SK5 en SC6) afkomstig uit zoetwatermeren. Diversiteitsstudies van Antarctische zout- en zoetwatermeren (Sjöling & Cowan, 2003; Bowman et al, 2000a, 2000b; Jungblut et al, 2005) toonden aan dat de bacteriële diversiteit in de extreme omgevingsomstandigheden relatief hoog is, maar dat hoe hoger het zoutgehalte van de meren is, hoe minder divers de bacteriële gemeenschappen zijn. Dit komt omdat in zoutwatermeren de Cyanobacteria niet enkel de metabolische stress van de lage temperaturen, uitdroging en hoge UV-radiatie moeten weerstaan, maar ze moeten ook nog in staat zijn om hun intracellulair osmotisch evenwicht te behouden (Oren, 2012). Niet alle Cyanobacteria kunnen zoveel stress weerstaan en ondertussen fotosynthese en andere functies uitoefenen; wat resulteert in een lagere diversiteit in vergelijking met zoetwatermeren. Peeters, Ertz, and Willems (2011) toonden aan dat de diversiteit van heterotrofe bacteriën groter was in staal BB50 dan in staal BB115. Hetzelfde werd aangetoond voor staal TM2 (grootste diversiteit) en TM4 volgens een tweede studie van (Peeters et al, 2011b). Alhoewel onze resultaten niet meer beperkt waren tot de heterotrofe bacteriën, ondersteunen ze beide bevindingen. Veel van de verschillen tussen de stalen kunnen eenvoudig verklaard worden door het type staal dat verzameld werd. Staal LA3 bijvoorbeeld werd genomen in een klein zoutwatermeer op 0,2 m. Zoals hierboven vermeld werd gaat een zoutwatermeer gepaard met een gereduceerde diversiteit. Een andere mogelijke verklaring is dat de lage diversiteit te wijten is aan de diepte van de staalname. Aan het oppervlakte ontvangen de microbiële matten het meeste licht en de grootste hoeveelheid zuurstof. 59 Discussie 4.3 Het gebruik van Ion Torrent sequenering voor microbiële diversiteitsstudies De Ion Torrent techniek werd uitgebracht in 2011 met het Ion Torrent PGM instrument, en heeft sindsdien al vele verbeteringen en modificaties gekend, zoals vb. de verlenging van de was-cyclus (Samba), langere leeslengtes, accuratere base toewijzing en verbeterde read kwalitiet (Merriman et al, 2012; Golan & Medvedev, 2013; Bragg et al, 2013). Ion Torrent steunt op de halfgeleider technologie voor de detectie van een nucleotide incorporatie tijdens sequenering. Door gebruik te maken van de vrijstelling van een proton tijdens nucleotide incorporatie heeft de Ion Torrent een manier gevonden om de duurdere fotoreceptorsensoren en geassocieerde reagenten te omzeilen en zo de kost van sequenering verder te reduceren. Ondanks het feit dat de Ion Torrent PGM een hoge doorvoersnelheid, de kortste run tijd en de laagste prijs heeft (Eisenstein, 2012), is de sequentie accuraatheid nog steeds een grote zorg. In vergelijking met de andere NGS-technieken zoals Illumina en Roche 454, is de Ion Torrent een recente techniek en heeft deze nog niet te tijd gehad om zich volledig te ontwikkelen. De dominerende sequentiefouten die gemaakt worden met de PGM zijn te wijten aan de accuraatheid van base toewijzing. Dit is ook gelinkt aan de problemen die de PGM vertoont met de homopolymere regio’s, aangezien homopolymeren een gevolg zijn van inaccurate flow-waarden die resulteren in ofwel een over-representatie (inserties) of een onder-representatie (deleties) van de homopolymeren. Negen controle stalen gebaseerd op replicaten en verschillende PCR condities werden gelopen op de Ion Torrent. Een van de controle stalen (BB115-staal) was een staal dat ook gesequeneerd werd met Roche 454 in een vorige studie. De Ion Torrent run was echter niet succesvol en produceerde duizenden reads van lage kwaliteit. Op basis van de kwaliteitsscores werden de negen controle stalen verder verwerkt en geanalyseerd, wat resulteerde in korte reads. Het blanco staal dat als negatieve controle werd gebruikt toonde aan dat eventuele contaminatie had plaatsgevonden, aangezien er in het staal 14 OTU’s werden weergegeven waarvan er 10 enkel in het blanco staal werden teruggevonden. De mock-stalen bevestigden zeer sterk dat de Ion Torrent had gefaald aangezien er in beide stalen ± 15000 verschillende sequenties werden teruggevonden, in plaats van de 21 verschillende sequenties waaruit het mock-staal werd samengesteld. Ook voor het BB115staal werd er veel meer dan het dubbel aantal sequenties teruggevonden met de Ion Torrent. Dit kan mogelijks het gevolg zijn van de aanwezigheid van polyclonale beads, waarbij meerdere beads dezelfde DNA template bevatten, wat dan kan resulteren in duplicate sequenties. Alsook, de Ion Torrent voert twee amplificatie stappen uit, één PCR voor de template voorbereiding gevolgd door emulsie PCR voor klonale amplificatie, wat een hogere PCR bias als gevolg heeft (Quail et al, 2012; Bragg et al, 2013). Wanneer barcode-getagde primers worden gebruikt voor multiplexing, i.e. het sequeneren van meerdere stalen tegelijkertijd, dan kan dit gepaard gaan met een amplificatie bias. Deze primers produceren namelijk variabele terminale-restrictiefragment-lengte-polymorfismen. Om deze variabiliteit te reduceren en een hogere technische reproduceerbaarheid te bekomen, worden overhangende barcode- en adaptorsequenties beter vermeden. (Berry et al, 2011) stelde het gebruik van een 2-staps PCR voor, waarmee mogelijks ook heteroduplexvorming gereduceerd kon worden. Daarbij werd ook aangetoond dat de 2-staps PCR-reactie tot een hogere species richness en evenness leidt, aangezien in de eerste 60 Discussie amplificatiestap amplicons geproduceerd worden uit hun genomische context, met behulp van conventionele primers. Hierdoor zijn templates die geflankeerd zijn door sequentieregio’s, waarmee de adaptor- en barcodesequenties anders zouden kunnen reageren, niet meer aanwezig in relevante concentraties tijdens de tweede amplificatiestap. Dit reduceert de amplificatie bias en laat toe een deel van de sequentie diversiteit die gemist werd met de 1-staps PCR te onderzoeken (Berry et al, 2011). Onze resultaten toonden aan dat de 2-staps PCR duidelijk een effect had op de data. Enerzijds werd een groter aantal sequenties en OTU’s bekomen (mock-stalen) en anderzijds werd een lager aantal sequenties en OTU’s bekomen (BB115 stalen). In het 2-staps PCR BB115-staal werden er 33 genera geobserveerd wat meer dan de helft minder is dan de BB115 replicaten, maar ook ongeveer 10 genera minder dan het Roche 454 BB115 staal. Het 2-staps PCR-BB115-staal had ook het laagste aantal niet-geclassificeerde sequenties op genusniveau. Namelijk 50% in vergelijking met 60% in het Roche BB115-staal en 90% in de BB115 replicaten. Van die 50% werd het merendeel geclassificeerd onder de Bacteroidetes, die de meest voorkomende groep was in het Roche 454 BB115-staal. We zien dus een meer accurater resultaat met de 2-staps PCRreactie in vergelijking met de 1-staps PCR reactie uitgevoerd met de BB115 replicaten. In vergelijking met het Roche 454 BB115-staal werden er meer sequenties geclassificeerd tot op het genus niveau. De 2-staps PCR–reactie heeft op het BB115-staal een effect vergelijkbaar met wat er in de studie van (Berry et al, 2011) werd aangetoond. In het 2-staps PCR mockstaal werden er acht gemeenschappelijk genera gevonden met het zogenaamde referentiestaal. Daarentegen weken de resultaten van het 2-staps-PCR-mock-staal nog meer af van de werkelijke samenstelling van de mock gemeenschap dan de resultaten bekomen met de mock duplicaten. In een PCR-reactie wordt de frequentie van chimera vorming verhoogd door onder andere vroegtijdige DNA-template terminatie (Wang & Wang, 1996; Qiu et al, 2001). Een reductie van de frequentie van chimera vorming kan dus theoretisch simpelweg bekomen worden door een verlengde elongatietijd toe te passen, van vijf minuten lang in plaats van drie minuten in deze test. Beide resultaten sloten goed aan bij de resultaten die verkregen werden met de 2staps PCR-reactie voor zowel het mock- als het BB115-staal. Er werd dus opnieuw enerzijds een verhoging (mock-staal) van het aantal OTU’s en het aantal sequenties geobserveerd en anderzijds een daling (BB115-staal). Aangezien alle templates de kans krijgen om volledig opgebouwd te worden zou een betere en accuratere amplificatiestap kunnen plaatsvinden, wat hier samenhangt met een reductie in het aantal gevormde chimeren. Mogelijke oorzaken voor de onsuccesvolle Ion Torrent run kunnen ofwel afkomstig zijn van de PCR-reactie ofwel van de sequeneringsstap. Vele PCR-gerelateerde biases en artefacten zijn reeds gekend. Selectieve amplificatie, recombinatie wanneer met heterogene templates gewerkt wordt, inserties, deleties, substituties, introduceren van mismatches door het DNA polymerase, contaminatie tijdens de DNA-voorbereiding en chimera vorming zijn hiervan voorbeelden (Suzuki & Giovannoni, 1996; Qiu et al, 2001; Acinas et al, 2005; Lahr & Katz, 2009; Zagordi et al, 2010; Pinto & Raskin, 2012; Ross et al, 2013). Vele PCR biases komen in hogere mate voor tijdens de laatste cycli van de reactie en kunnen dus grotendeels gereduceerd worden door de PCR-reactie vroeger te beëindigen (Kanagawa, 2003). Voor het bekomen van goede data kwaliteit zijn er twee belangrijke factoren: de DNA zuiverheid (vermijden van contaminatie) en de template concentratie. Het kan dus gunstig zijn om meerdere 61 Discussie zuiveringsstappen uit te voeren alvorens sequenering plaatsvindt. Hoewel deze PCR biases en artefacten een grote invloed kunnen hebben, is de kans klein dat deze de grootste oorzaak waren voor de vele korte reads en hun de lage kwaliteit geobserveerd in deze studie. Zoals eerder vermeldt heeft de Ion Torrent PGM problemen met base toewijzing en het sequeneren van homopolymere regio’s. Het Ion Torrent algoritme voor het toewijzen van een base is onafhankelijk van vorige of latere flows, het is enkel gebaseerd op de flow in kwestie, wat nadelig kan zijn want deze naburige flows bevatten ook informatie die kunnen bijdragen tot een meer accuratere base toewijzing (Golan & Medvedev, 2013). Base toewijzing houdt in: het omzetten van het signaal dat geproduceerd wordt door het sequeneringsplatform (hier opeenvolgende pH-veranderingen) in een sequentie van nucleotiden. Dit signaal is vaak onzuiver, wat kan leiden tot verkeerde base toewijzingen. Deze onzuiverheden zijn het gevolg van enkele artefacten (Golan & Medvedev, 2013), waaronder; [1] De gehele complexiteit van het sequeneringsproces wordt niet altijd volledig in kaart gebracht door de sensoren waardoor de geobserveerde signalen niet altijd perfect zijn, [2] het signaal vervalt over tijd en [3] sommige template kopijen vallen uit fase terwijl het sequeneringsproces gaande is. Het signaal dat vervalt over tijd zorgt indirect voor de onzuiverheid van het signaal door een effect te hebben op de signaal-ruis ratio. DNA-templates vallen uit fase tijdens het sequeneringsproces, wanneer ze foutief geen nucleotide incorporeren. Dit zorgt ervoor dat de template het sequeneringsproces niet meer gesynchroniseerd met de andere templates doorloopt, aangezien de nucleotide incorporatie nu pas zal plaatsvinden in de volgende nucleotiden flow. Ion Torrent PGM heeft voor dit fase probleem een mogelijke oplossing gevonden door een was-cyclus van 32-nucleotiden lang te gebruiken in plaats van slechts vier nucleotiden zoals bij Roche 454. Hierdoor kunnen de templates die een nucleotide incorporatie gemist hebben de andere templates opnieuw inhalen binnen eenzelfde flow en opnieuw synchronisatie bekomen. Dit proces zou toelaten om langere accurate reads te produceren. Een nadeel van deze 32-nucleotiden lange was-cyclus is dat er per flow een lager aantal nucleotide incorporaties plaatsvinden, wat wil zeggen dat er meer flows nodig zijn om dezelfde read lengte te bekomen dan wanneer er een was-cyclus van vier nucleotiden werd gebruikt. Toch worden er na fasecorrectie en normalisatie voor het signaal-ruis ratio nog onzuivere incorporatie signalen gezien. Ion Torrent rond de onzuivere signalen af naar de dichtstbijzijnde integer, waardoor foutieve base toewijzingen kunnen ontstaan. Deze onzuivere signalen leiden tot lage read kwaliteitwaarden. Recent hebben (Golan & Medvedev, 2013) hiervoor het algoritme FlowgramFixer geïntroduceerd wat resulteerde in hogere read kwaliteitwaarden. Een mogelijke oorzaak voor de productie van de vele korte reads is te vinden bij de ampliconlengte. In deze studie werd de 16S rRNA v1-v3 regio geamplificeerd, wat een lengte van 489 bp genereert. Voor Roche 454 is dit geen probleem aangezien GS FLX Titanium XL+ leeslengtes van 700 tot 1000 bp aankan. Alhoewel de Ion Torrent PGM (chip 318) leeslengtes van 400 bp aankan, is ons PCR product samen met de adaptor, de barcode en de primer sequentie groter dan 400 bp. Dit zou kunnen leiden tot problemen in de emulsie PCR en vervolgens resulteren in kortere reads. 62 Discussie 4.4 Vergelijking van de geografische biodiversiteit in koude omgevingen Twee additionele datasets die met dezelfde methoden bestudeerd werden als onze Roche 454 data (negen Antarctische stalen) werden gebruikt om een vergelijking te maken van de geografische diversiteit van microbiële gemeenschappen in koude omgevingen. De eerste dataset was afkomstig van een studie van (Yergeau et al, 2007) en bestuurde twee Antarctische eilanden (het Anchorage- en het Signy-eiland) en één sub-Antarctisch eiland (de Falklandeilanden). De tweede additionele dataset was afkomstig van een studie van (Edwards et al, 2014) en bestudeerde cryoconiet ecosystemen in verschillende gletsjer uit het Noordpoolgebied, Groenland en Alpiene gebieden. Een cryoconiet is een donker microorganisme-mineraal aggregaat. Het wordt gevormd wanneer een donker deeltje op het ijsoppervlak terecht komt en hier het weerkaatsingsvermogen (albedo) van het ijsoppervlak reduceert door meer zonnestralen te absorberen dan het ijs rondom. Het ijs gaat vervolgens lokaal smelten en een gat gevuld met water vormen in het ijs, waarin leven zal ontstaan (Wharton et al, 1985; Takeuchi et al, 2001; Langford et al, 2010). De eerste additionele dataset toonde een redelijke grote overeenkomst met de Antarctische stalen, aangezien deze omgevingen ook nog steeds tot het Antarctisch continent behoren. De Falklandeilanden en het Anchorage-eiland hebben elk een warmer klimaat ten opzichte van het Antarctisch continent, door hun geografische ligging, wat een effect heeft op aanwezige biodiversiteit. Het Signy-eiland ligt ten noorden van het Antarctisch Schiereiland en maakt deel uit van de South Orkney eilanden. In de wintermaanden wordt het eiland verbonden met het Antarctische continent door het pakijs van de Weddelzee, wat het Signy-eiland een continentaal klimaat geeft. Dit verklaard het grootste aantal gemeenschappelijk OTU’s dat voor het Signy-eiland en Antarctica werd waargenomen. In de tweede dataset werden er voor elke omgeving veel minder fyla teruggevonden, ondanks dat er een groter aantal OTU’s aanwezig was. Bijna de helft (48%) van deze OTU’s waren namelijk niet-geclassificeerde Bacteria. Door het verschil in het aantal gletsjers die bestudeerd werden per omgeving, drie voor het Noordpoolgebied en de Alpiene gebieden en slechts één voor Groenland, zagen we een kleiner aantal gemeenschappelijke OTU’s in de stalen afkomstig uit Groenland. Op fylumniveau werden dezelfde fylogenetische groepen teruggevonden in de drie datasets. Deze waren Proteobacteria, Cyanobacteria, Actinobacteria, Bacteroidetes, Firmicutes en Acidobacteria. Hiervan waren de Proteobacteria overal de meest dominante fylogenetische groep. Dit sluit aan bij bevindingen uit eerdere literatuurstudies omtrent de diversiteit in koude omgevingen (Margesin et al, 2002; Aislabie et al, 2006; Simon et al, 2009; Edwards et al, 2013). Vele gemeenschappelijke OTU’s tussen de Arctische en Alpiene gebieden en Antarctica behoorden tot de Cyanobacteria met als voornaamste klassen: Synechococcophycideae en Nostocophycideae. De Cyanobacteria zijn er veel sterker aanwezig in cryoconiet systemen, waar ze voornamelijk instaan voor de primaire productie binnenin het cryoconiet ecosysteem (Säwström et al, 2002). Daar waar cryoniet gaten in (sub-)Antarctische gebieden voor lange periodes bedekt worden met ijs (Tranter et al, 2004; Hodson et al, 2008), worden ze in Arctische en Alpiene gebieden tijdens de zomermaanden namelijk blootgesteld aan de atmosfeer, wat uitwisseling van gassen, nutriënten en andere biologische factoren toelaat. Dit verklaart de hogere abundantie van de Cyanobacteria (Hodson et al, 2007). 63 Discussie Op klasseniveau werden de gemeenschappelijke OTU’s tussen de (sub-)Antarctische eilanden en het Antarctisch continent voornamelijk toegekend aan twee klassen: Alphaproteobacteria en Actinobacteria. De gemeenschappelijke OTU’s tussen de Arctische en Alpiene gebieden en Antarctica behoorden voornamelijk tot de klassen Alphaproteobacteria en Betaproteobacteria, waarvan al meerdere malen werd aangetoond dat ze de meest voorkomende klassen zijn in de gletsjer ecosystemen (Margesin et al, 2002; Simon et al, 2009; Edwards et al, 2011; Wilhelm et al, 2013). Ondanks het feit dat Actinobacteria op basis van het aantal OTU’s de tweede meest vertegenwoordigde klasse was in de Arctische en Alpiene gebieden, werden hiervan amper tot geen gemeenschappelijke OTU’s teruggevonden met onze data. Daarbij kwam ook dat staal SK5, die de grootste diversiteit vertoonde binnenin het fylum Actinobacteria, slechts 1 OTU gemeenschappelijk had met de Arctische en Alpiene gebieden. Uit bovenstaande bevindingen kunnen we afleiden dat de Actinobacteria die aanwezig zijn op de (sub-)Antarctische eilanden en het Antarctische continent op een lager taxonomisch niveau verschillen van diegene die aanwezig zijn in de Arctische en Alpiene gebieden. Dit werd voor meerdere fyla (Acidobacteria, Chloroflexi, Thermi, en Planctomycetes) tussen de Antarctica stalen en de cryoconiet systemen waargenomen. Het fylum Fibrobacteres, aanwezig in het Noordpoolgebied en Groenland, werd niet teruggevonden in de stalen afkomstig van Antarctica. Het fylum werd ook teruggevonden op het Signy-eiland en de Falklandeilanden. Met de falklandeilanden werd het fylum wel gemeenschappelijk gevonden met Antarctica, specifiek met staal WO10. Tot voor kort werd het fylum Fibrobacteres enkel teruggevonden in zoogdieren. Ondertussen werd aangetoond dat dit fylum ook aanwezig is in zoetwater, wat de aanwezigheid van het fylum in de gletsjer ecosystemen verklaard, maar niet in staal WO10 op Antarctica. Stalen afkomstig uit het West Ongul eiland (WO10) en het Transantarctisch gebergte (TM2 en TM4) vertoonden op genusniveau de grootste overeenkomst met de microbiële biodiversiteit in beide additionele datasets, gebaseerd op het aantal OTU’s. Dit volgt logischerwijs uit feit dat het staal TM2 het grootste aantal genera bevat, gevolgd door staal WO10. In eerder onderzoek van (Peeters et al, 2011b; Peeters & Verleyen, 2012) werd aangetoond dat alle fylotypes die tot het fylum Thermi behoren, van Antarctische oorsprong waren. Op twee fylotypes na die in kosmopolitische gebieden gevonden werden. In datzelfde onderzoek is een zeer groot deel van alle fylotypes van het fylum Bacteriodetes ook in Antarctische gebied gevonden. Uit onze studie blijkt, in tegenstelling tot dit voorgaand onderzoek, dat verschillende OTU’s behorend tot het fylum Thermi ook in de Alpiene en bipolaire gebieden voorkomen. Deze vertoonden enkel gemeenschappelijk OTU’s met de twee terrestrische stalen van Antarctica (BB115 en BB50). 4.5 Conclusie Voor de data analyse, bekeken we de Mothur en Uparse pipeline van dichterbij. Uit onze resultaten bleek dat Uparse de meest accurate pipeline was. Dit was voornamelijk te danken aan het cluster algoritme dat naast OTU clustering al een eerste chimerastap uitvoerde. Met mothur hebben we geprobeerd deze stap zo goed mogelijk te evenaren door enkele parameters te wijzigen en de volgorde van de default pipeline te herschikken. Hoewel dit resulteerde in betere resultaten kwamen deze nog steeds niet in de buurt van de resultaten 64 Discussie bekomen met Uparse. Mothur laat toe om veel meer verschillende parameters te laten variëren in vergelijking met Uparse en geeft ook de kans om een uitgebreidere analyse uit te voeren, waar Uparse enkel een OTU clustering algoritme is. Aangezien Uparse redelijk recent is, zou het algoritme mettertijd geïntroduceerd kunnen worden in Mothur. Met Pyrosequenering werd de diversiteit van de microbiële gemeenschappen veel beter in kaart gebracht in vergelijking met de cultivatiestudies. Een groter aantal fyla en genera werden ontdekt. De Next-generation sequeneringstechnieken laten toe dat een groter aantal sequenties uit een bredere selectie van stalen kan opgepikt worden in vergelijking met de kloonbibliotheken. Alsook zorgen ze voor een grote reductie van de tijd en sequeneringskosten. Met de komst van deze revolutionaire Next-Generation Sequeneringsmethoden is de kennis over de microbiële diversiteit aanzienlijk toegenomen, daar deze technieken een verbeterde toegang verlenen tot de zeldzame biosfeer. Uit onze resultaten bleek dat sommige bacteriën, zowel abundant als zeldzaam, niet geïdentificeerd werden met pyrosequenering, maar wel met de cultivatietechnieken. Omgekeerd werd dit ook waargenomen. Hieruit kan geconcludeerd worden dat de beste methode om diversiteitsstudies uit te voeren, een combinatie is van beide methoden aangezien ze complementair blijken te zijn. Aangezien de Ion Torrent nog een redelijk recente techniek is, zullen er met de tijd meerdere algoritmes geproduceerd worden om te corrigeren voor de Ion Torrent sequeneringsfouten zoals de base toewijzingen en de homopolymere fouten en het verbeteren van de leeslengtes. Ondertussen werd er door Life Technologies aangekondigd dat de vrijstelling van een nieuwe chip, Ion Proton II, gepland is voor midden 2014. De Ion Proton II is gebaseerd op een grotere chip met hogere densiteit voor whole genome sequencing. De output wordt geschat op 100Gb wat een serieuze verbetering is op de vorige Ion Torrent systemen. Het Ion Proton systeem zou ook voor een groter aantal applicaties kunnen gebruikt worden waaronder transciptomics, RNA profilering, sequnering van kleine genomen, ChipSeq en metagenomics. Uit de biogeografische diversiteitsstudies was af te leiden dat de specificiteit van de microbiële omgeving niet zo sterk is uitgesproken op de hogere taxonomische niveaus (Fylum tot Familie), maar voornamelijk te zien is op lagere taxonomische niveaus (genus tot soort). 65 Materiaal en methoden 5 Materiaal en methoden 5.1 Oorsprong van de stalen 5.1.1 Roche 454 pyrosequenering Negen stalen van verschillende regio’s in Antarctica werden onderzocht (Figuur 10), waarvan twee uit terrestrische en zeven uit aquatische omgevingen. De twee terrestrische stalen waren van epilitische oorsprong en werden in januari 2007 verzameld uit de omgeving waar de huidige Prinses Elisabethbasis zich nu bevindt (Utsteinen, Koningin Maud Land; 71° 57' Z, 23° 20' O). Beide stalen werden ingevroren bewaard tot ze verwerkt werden in België. Staal BB50 was afkomstig van grind en groene matten, bestaande uit micro-organismen en algen, aan de zuidkant van de Utsteinen nunatak. Staal BB115 was afkomstig van een zwarte mat op grind en rots puin van een bevroren meer aan de westkant van de Utsteinen nunatak. De zeven aquatische stalen waren afkomstig uit verschillende lacustriene leefomgevingen, verspreid over continentaal Antarctica en het Antarctisch Schiereiland. In januari 2003 werd één van de zeven stalen (PQP) verzameld uit het Narrows Meer (Pourquoi-Pas Eiland; 67° 41’ Z, 67° 28’ W) en bevroren bewaard tot verdere verwerking. Het PQP staal was afkomstig van een cyanobacteriële mat met groene algen en diatomeeën. In december 2003 werden de volgende twee stalen verzameld uit het Transantarctisch Gebergte en ingevroren bewaard in het veld en tijdens transport naar België via het British Antarctic Survey’s (BAS) Rothera onderzoeksstation (Antarctisch Schiereiland). Staal TM2 was afkomstig van een cyanobacteriële mat op de bodem van de Forlidas Poel (Pensacola Gebergte; 51° 16’ W, 82° 27’ Z) en staal TM4 was afkomstig van een cyanobacteriële mat in het Lundström Meer (Shackleton Gebergte; 29° 29’ W, 80° 27’ Z). De resterende vier van de zeven stalen werden verzameld in januari 2007. Drie daarvan, LA3 (Langhovde Schiereiland), SK5 (Skarvsness Schiereiland) en WO10 (West Ongul Eiland), waren afkomstig uit drie meren in Lützow-Holm Bay, Syowa ( 69° 10’ Z, 37° 30’ O) en één staal SC6 uit de Schirmacher Oase (70° 45′ Z, 11° 40′ O). Ook deze stalen werden bevroren bewaard tot ze verwerkt werden. 5.1.2 Ion Torrent sequenering De stalen waren afkomstig van verschillende terrestrische ijsvrije leefomgevingen in het SørRondane Gebergte (72° Z, 24° O) (Figuur 10). Hiertoe behoorden de Pingvinane nunatak, de Teltet nunatak, Perlebandet nunatak, de Utsteinen nunatak en de Utsteinen bergrug, de Tanngarden pieken en de Dubois gletsjer. De aanwezige microbiële gemeenschappen hadden zich ontwikkeld op twee belangrijke gesteenten: gneis en graniet. Stalen werden verzameld uit verschillende combinaties van de terrestrische leefomgevingen en de onderliggende gesteenten (epilithisch, endolithisch, edafisch en epifytisch) (Tabel 7). Voor de endolitische gemeenschappen werden er ook stalen verzameld uit marmer en kwarts. De twee stalen uit de omgeving van de Belgische basis, BB50 en BB115, werden ook hier aan de dataset toegevoegd. 67 Materiaal en methoden Tabel 7: Overzicht van de stalen, hun leefomgeving en locatie. Deze 14 stalen behoren samen met staal BB50 en BB115 tot de dataset die met de Ion Torrent gesequeneerd werd . Terrestrische Leefomgeving Stalen Op de Bodemkorst-gemeenschappen gedomineerd door lichenen [1] Op gneis: PB1109 – Perlebandet [2] Op graniet: PE1081 – Utsteinen bergrug [3] Op graniet: PE1082 – Utsteinen bergrug gemeenschappen Epilitisch oppervlakte van het gesteente Bodemkorst-gemeenschappen gedomineerd door cyanobacteriën [4] Op gneis: PB1103 – Perlebandet nunatak [5] Op gneis: PE1045 – Teltet nunatak [6] Op graniet: PE1042 – Pingvinane nunatak Endolitisch In het gesteente Oppervlakten van gesteenten bedekt met lichenen [7] Op graniet: UN1102 – Utsteinen nunatak [8] In graniet: UN1107 – Utsteinen nunatak Groene algen met kleine stukken graniet. [9] In kwarts: PE1026 – Dubois gletsjer Staalname van de groene laag op het oppervlakte van het kwartsgesteente 5 – 10 mm onder het bodemoppervlak. [10] In marmer: PB1101 – Perlebandet nunatak Donkere biofilms, onder het oppervlakte van het marmer Edafisch Op en in de bodem Epilitisch Op mossen en levermossen gesteente, gedomineerd door Chroococcidiopsos. [11] Op graniet: PE1039 – Tanngarden pieken [12] Op gneis: TE1101 – Teltet nunatak [13] Mos dat op graniet groeit: PE1066 – Utsteinen nunatak [14] Mos dat op gneis groeit: PB1107 – Perlebandet nunatak 5.1.3 Additionele datasets Twee additionele datasets werden gebruikt om een preliminaire biogeografische diversiteitstudie uit te voeren van koude omgevingen. De eerste dataset was afkomstig van (Yergeau et al, 2012). Stalen van één sub-Antarctische (oktober 2004) (Figuur 11) en twee Antarctische sites (januari en februari 2007) werden verzameld (Figuur 10): de Falkland eilanden (sub-Antarctische zone; 51° 76′ Z, 59° 03′ W), de Signy eilanden (South Orkney eilanden, maritiem Antarctica; 60° 43′ Z, 45° 38′ W) en het Anchorage eiland (dichtbij het BAS Rothera onderzoeksstation, west-Antarctisch Schiereiland; 67° 34′ Z, 68° 08′ W). De tweede dataset was afkomstig van (Edwards et al, 2014). Puin van cryoconiet gaten in alpiene en Arctische gletsjers werden verzameld. De staalname sites in de Alpen bestonden uit drie gematigde vallei gletsjers in Oostenrijk: de Rotmoosferner en de Gaisbergferner, twee naast elkaar gelegen gletsjers in de Ötzal Alpen, en de Pfaffenferner in de Stubaier Alpen. De stalen van de Arctische gletsjers waren enerzijds afkomstig van drie gletsjers die tot Spitsbergen, een eilandengroep in de Noordelijke IJszee, behoren: Austre Brøggerbreen, Midtre Lovénbreen en Vestre Brøggerbreen ( Figuur 12) en anderzijds van de Leverett gletsjer in Groenland. Per site werden er telkens twee stalen verzameld. 68 Materiaal en methoden Utsteinen Lunström Meer nunatak (Schackleton Signy-eiland Gebergte) Schirmacher Oase (South Orkney Lützow Holm Bay (“Syowa Oase”) eilanden) Forlidas Pond Pourquoi-Pas (Pensacola Gebergte) Island Anchorage eiland (nabij Rothera station) 1000 Figuur 10: Map van Antarctica. De map km geeft de locaties weer waar de stalen verzameld werden. Zwart: de locaties voor de stalen die verwerkt werden met Roche 454 pyrosequenering, groen: de locaties voor de stalen die verwerkt werden met de Ion Torrent en blauw: de locaties van de stalen die verzameld werden door Yergeau et al. (2012) met uitzondering van de Falklandeilanden die weergegeven worden in Figuur 11. Aangepaste figuur van J. A. E. Gibson (2007). Zuid-Amerika Afrika Australië Falkland eilanden Antarctisch Schiereiland Oost-Antarctica Figuur 11: Map van de Falklandeilanden. De Falklandeilanden (51° 41′ 0″ Z, 59° 10′ 0″ W) zijn sub-Antarctische eilanden gelegen in zuid-Atlantische Oceaan. Stalen van de Falklandeilanden (51° 76′ Z, 59° 03′ W) werden verzameld door Yergeau et al. (2012). Aangepaste kaart van http://www.emapsworld.com/ 69 Materiaal en methoden Figuur 12: Map van Spitsbergen of Svalbard gletsjers. De gletsjers die in deze studie besproken worden zijn: AB, Austre Brøggerbreen; VB, Vestre Brøggerbreen en ML, Midtre Lovénbreen. Figuur overgenomen uit de studie van Edwards et al. (2013). 5.2 DNA extractie DNA werd geëxtraheerd uit 5 g staal. Extracellulair DNA werd eerst verwijderd volgens (Corinaldesi et al, 2005), gevolgd door de DNA extractie volgens (Zwart et al, 1998) (Bijlage: DNA extractie protocol). 5.3 PCR amplificatie en 16S rRNA-gen sequenering De PCR amplicon bibliotheken werden aangemaakt met behulp van fusie primers, bestaande uit een adapter, een barcode en een sequentie specifieke primer (Bijlage: 7.4). De multiplexing voor pyrosequencing werd uitgevoerd met barcodes voorgesteld door (Parameswaran et al, 2007). Bij de Roche 454 pyrosequenering werd bidirectionele sequenering uitgevoerd en bij de Ion Torrent enkel forward sequenering. Op beide platforms werden de 16S rRNA V1-V3 regio’s gesequeneerd met behulp van universele bacteriële primers: de forward primer pA (5’AGAGTTTGATCCTGGCTCAG-3’) (Edwards et al, 1989) die de (V1-V3) regio amplificeert vanaf positie 8-27 en de reverse primer BKL1 (5’-GTATTACCGCGGCTGCTGGCA-3’) die de (V3-V1) regio amplificeert vanaf positie 536-516. 5.3.1 Next-generation sequenering Het concept van NGS technologie omvat het identificeren van geïncorporeerde basen tijdens sequenering via signalen (licht, pH verandering) die uitgezonden worden wanneer elk fragment opnieuw gesequeneerd wordt van een DNA template. NGS methoden passen dit proces toe voor miljoenen reacties op een massieve parallelle manier door gebruik te maken van multiplexing via unieke barcodes voor elk staal. NGS sequenering heeft een hoge 70 Materiaal en methoden doorvoersnelheid, een hoge snelheid, een goede schaalbaarheid, hogere sensitiviteit en goede resolutie. 5.3.2 Roche 454 pyrosequenering PCR-amplificatie werd uitgevoerd met de T1 Thermocycler (Biometra, Duitsland). Elke PCRmix bevatte 1-2 µl template DNA, 2 µl fusie primers (10 µM), 2.5 µl dNTPs (10 mM), 1.5 µl van een 10x buffer (FastStart High Fidelity PCR systeem, Roche, Zwitserland), 0.25 µl van 5 U/µl FastStart HiFi Polymerase (Roche FastStart High Fidelity PCR systeem, Roche, Zwitserland) en werd aangepast tot een eindvolume van 25 µl met steriel HPLC water (Sigma-Aldrich, USA). De PCR-condities bestonden uit een initiële denaturatie stap van 3 min bij 94°C, 35 cycli van denaturatie (30 s bij 94°C), hybridisatie (60 s bij 55°C) en elongatie (90 s bij 72°C) en één elongatie stap van 8 min bij 72°C. De aanwezigheid van PCR-product werd bepaald door analyse van 5 µl product op een 2% agarose gel, kleuring met ethidium bromide en vergelijking met een moleculaire gewichtsmerker (Eurogentec, Belgium). PCR-producten werden opgezuiverd met behulp van een High Pure PCR Product Purification Kit (Roche, Zwitserland). De kwaliteit van het DNA werd gecontroleerd met een Bioanalyzer (Agilent Technologies, USA) en de kwantiteit werd bepaald met een Qubit 2.0 Fluorometer (Life Technologies, USA). Finaal werd pyrosequenering uitgevoerd met een Roche GS FLX Titanium machine aan NXTGNT (Gent, België) waarbij een Titanium picotiter plaat werd gebruikt met een standaard scheiding van de plaat in twee regio’s. 5.3.3 Ion Torrent sequenering De Touch-Down PCR (TD-PCR) werd uitgevoerd met de T1 Thermocycler (Biometra, Duitsland). Elk PCR mix bevatte 0.5 µl template DNA/tube, 0.5 µl pA primer (10 µM), 0.5 µl BKL1 primer (10 µM), 2.5 µl NTPs (2 mM), 2.5 µl van een 10x buffer Roche FastStart High Fidelity, Roche, Zwitserland), 0.1 µl Taq polymerase (Roche FastStart High Fidelity, Roche, Zwitserland) en werd aangepast tot een eindvolume van 25 µl met steriel water (18.4 µl). De TD-PCR begon met een initiële denaturatie stap van 3 min bij 94°C, gevolgd door 20 cycli van denaturatie (30 s bij 94°C), hybridisatie voor 1 min bij 65°C→55°C (per cyclus een halve graad omlaag) en elongatie (3 min bij 72°C). Deze 20 cycli werden gevolgd door 15 cycli van denaturatie (30 s bij 94°C), hybridisatie (1 min bij 55°C) en elongatie (3 min bij 72°C). De TD-PCR werd beëindigd met een laatste elongatie stap van 10 min bij 72°C. De PCR producten werden gelopen op 1% agarosegel en vervolgens opgezuiverd met Ampure Beads. De kwaliteitscontrole werd uitgevoerd met een Bioanalyzer (Agilent Technologies, USA) en de DNA concentratie werd berekend met een Qubit 2.0 Fluorometer (Life Technologies, USA). Met de Ion Torrent werden ook negen controles ingesloten: twee replica’s van het B115 staal, één replica van de artificiële (“mock”) gemeenschap, een blanco staal en twee PCR-tests: enerzijds een 2-staps PCR-reactie en anderzijds een 1-stap PCR-reactie met een verlengde elongatietijd van 5 min. Hiervoor werden het BB115-staal en een mock gemeenschap gebruikt. De 2-staps PCR-reactie (Berry et al, 2011) bestaat uit een eerste PCR-reactie van 20 cycli met gewone primers gevolgd door een tweede PCR-reactie met fusie primers (adapter, barcode en primer). Het mock staal werd samengesteld uit 21 verschillende bacteriële stammen die zowel via cultivatie als Roche 454 pyrosequenering teruggevonden zijn (Tabel 8). Deze behoorden tot vijf fyla: Bacteroidetes, Firmicutes, Proteobacteria, Actinobacteria en Thermi. De Ion Torrent sequenering werd uitgevoerd met het Ion Torrent Personal Genome Machine® (PGM) Systeem. 71 Materiaal en methoden Tabel 8: De artificiële ("mock") gemeenschap. Deze tabel bevat de taxonomische benamingen op fylum en genus niveau van de 21 verschillende bacteriële stammen waaruit de mock gemeenschap werd samengesteld. Alfa, Beta en Gamma zijn de drie klassen van de Proteobacteria waartoe zeven van deze genera behoren. 1 3 5 7 9 11 13 15 17 19 21 Fylum Genus Actinobacteria Rhodococcus Fylum Genus Fylum Genus Fylum Genus Actinobacteria Arthrobacter Actinobacteria Janibacter Bacteroidetes Psychroflexus Fylum Genus Fylum Genus Fylum Genus Fylum Genus Fylum Genus Fylum Genus Fylum Genus Thermi Deinococcus Thermi Deinococcus Firmicutes Bacillus Proteobacteria (Alfa) Loktanella Proteobacteria (Alfa) Devosia Proteobacteria (Beta) Herbaspirillum Proteobacteria (Gamma) Moraxella 2 4 6 8 10 12 14 16 18 20 Fylum Genus Actinobacteria Rothia Fylum Genus Fylum Genus Fylum Genus Actinobacteria Arthrobacter Bacteroidetes Hymenobacter Bacteroidetes Flavobacterium_aquatile Fylum Genus Fylum Genus Fylum Genus Fylum Genus Fylum Genus Fylum Genus Thermi Deinococcus Firmicutes Stafylococcus Firmicutes Paenibacillus_wynnii_LMG22176 Proteobacteria (Alfa) Porfyrobacter Proteobacteria (Alfa) Brevundimonas Proteobacteria (Beta) Polaromonas 5.4 Sequentie verwerking en analyse Twee verschillende pipelines werden gebruikt voor de dataverwerking en analyse. De sequenties die gegenereerd werden door het Roche 454 Titanium platform werden opgeslagen in een standaard flowgram formaat (SFF) bestand. Een SFF-bestand is een binair bestand dat informatie bevat over de flowgram, de sequenties en de kwaliteit van de sequenties. De data bekomen door de Ion Torrent PGM werd opgeslagen in een FastQbestand, een alternatief voor een SFF-bestand. Een FastQ-bestand is een tekst bestand dat gebruikt wordt om sequentie reads in op te slaan samen met hun corresponderende kwaliteitsscore (Cock et al, 2010). 5.4.1 Mothur pipeline Dataverwerking en analyse gebeurde met Mothur v.1.33.2 (Schloss et al, 2009) en de Mothur SOP (http://www.mothur.org/wiki/454_SOP). Een Mothur Batch bestand werd geschreven waarin de volgende functies werden uitgevoerd: [1] fasta, qual en flow data extraheren in het geval van het SFF-bestand en fasta en qual data in het geval van het FastQ-bestand; [2] demultiplexing, barcode en primer sequenties verwijderen, minimum en/of maximum lengte instellen en sequenties met homopolymeren langer dan een bepaalde cutoff-waarde 72 Materiaal en methoden verwijderen aan de hand van flowgrams of kwaliteitsscores (trimmen); [3] verwerken van verbeterde sequenties (inclusief aligneren, screenen, filteren en pre-clusteren); [4] chimera’s identificeren en verwijderen met behulp van de Uchime implementatie (Edgar et al, 2011); [5] sequenties verwant met organellen (chloroplast en mitochondrium) identificeren en verwijderen; [6] een fasta bestand van de opgekuiste sequentie data opslaan met een corresponderend groeps-bestand dat indicatie geeft van het originele staal voor elke sequentie; [7] afstandsmatrix aanmaken en sequenties clusteren in OTU’s (met 97% sequentie similariteit voor de OTU’s); [8] elke sequentie classificeren tot op het genus niveau en deze taxonomie gebruiken voor het classificeren van de OTU’s; [9] rarefaction curves berekenen (met 97% sequentie similariteit voor OTU’s). 5.4.1.1 Reduceren van sequeneringsfouten Bij het trimmen van de sequenties werden meerdere waarden voor de toegelaten mismatches van de barcode- en primersequenties getest met een maximum van 4 voor beide componenten. Het maximaal aantal homopolymeren dat werd toegelaten was 8 bp en de minimum lengte van de sequenties werd op 200 bp ingesteld. Vervolgens werd met het shhh.flows commando het in Mothur geïmplementeerde Pyronoise algoritme (Quince et al, 2009) uitgevoerd, dat gebruikt maakt van de snelle clusteringsmethoden in Mothur. Hiermee werden de achtergrond signalen verwijderd van onze sequenties. Wanneer de kwaliteitsscores gebruikt werden voor het trimmen van de Ion Torrent-data werden verschillende parameters getest (gemiddelde phred score voor een bepaalde windowsize). Voor verdere verwerking van de data werd enkel met de unieke sequenties gewerkt waardoor de dataset een groot deel vereenvoudigd werd. 5.4.1.2 Alignering Voor de alignering van de sequenties met Mothur werden er eerst octameren gezocht, vervolgens werd door een Needleman-Wunsch paarsgewijze alignering uitgevoerd tegen een 50.000 kolom brede Silva referentie alignering, gebruik makend van de Mothur NASTalignering (DeSantis et al, 2006; Schloss, 2009). Het gotoh algoritme werd ook getest als alternatieve aligneringsmethode net zoals de blastn methode voor het vinden van de template sequentie. Het Needleman algoritme straft een opening en een extensie van een gap gelijkwaardig, terwijl het gotoh algoritme verschillende waarden gebruikt met als standaard 2 strafpunten voor een gap opening en -1 voor extensie. Het blastn algoritme staat voor nucleotide-blast waarbij gelijkaardige regio’s gezocht worden tussen twee biologische sequenties aan de hand van een opgegeven nucleotide query-sequentie en een nucleotide database. Voor elke dataset werden twee Needleman-Wunsch aligneringen bekomen, één met en één zonder de pre-cluster stap. Ook werd een gefilterde-template-alignering uitgevoerd, waarbij de referentie template van de Greengenes database (voor classificatie) eerst gealigneerd werd met de Silva database en vervolgens gefilterd werd (hard=T). Classificatie vond dan plaats aan de hand van een gefilterde referentie-template. 5.4.1.3 Screening, filtering en pre-clusteren Sequenties dit zich buiten de gewenste aligneringsregio bevinden werden verwijderen (screening). Voor de deze stap werd een criterium van 95% gekozen waarbij de start positie telkens gedefinieerd werd en de einde positie geoptimaliseerd werd zodanig dat 95% van de sequenties zich tussen de start en de geoptimaliseerde eindpositie bevindt. Na de screening 73 Materiaal en methoden werd de aligneringsregio gefilterd en getrimd, zodat alle sequenties in dezelfde regio overlappen. De filter stap verwijderde elke kolom (vertical=T) waarin een ‘.’ karakter, indicatie voor de afwezigheid van data in de volledige kolom, gevonden werd (trump=.). De laatste stap voor het reduceren van de sequentie fouten was het pre-clusteren waarbij sequenties werden samengevoegd die 2 bp of minder van een meer abundante sequentie verschillen (diffs=2). Hiervoor gaat het pre-clustering algoritme de sequenties ordenen volgens hun abundantie en gaat het vervolgens op zoek naar de zeldzamere sequenties die zich binnen een thresholdrange bevinden van een abundantere sequentie. De sequenties die zich binnenin de threshold bevinden worden dan samengevoegd met de abundantere sequentie. Met de pre-clustering stap wordt de dataset verder vereenvoudigd, waardoor het berekenen van de afstandsmatrix veel sneller verloopt (Huse et al, 2010). 5.4.1.4 OTU’s clusteren De afstandsmatrices werden berekend met drie verschillende behandelingswijzen voor gaps waarbij ‘één gap’ een string van gaps als één gap ziet, ‘geen gaps’ de aanwezige gaps negeert en ‘elke gap’ alle aanwezige gaps individueel straft. Een cutoff waarde van 0.15 werd ingesteld. Dit houdt in dat elke paarsgewijze afstand groter dan 0.15 niet bewaard wordt. Voor het toewijzen van sequenties aan OTU’s werden drie cluster methodes gebruikt: nearest neighbor, furthest neighbor en average neighbor. Deze OTU’s worden vervolgens geclassificeerd met de Mothur versie van het “Bayesian” classificatie algoritme waarbij de Greengenes referentie bestanden gebruikt worden (Wang et al, 2007). 5.4.2 Uparse pipeline De UPARSE pipeline is een algoritme dat geïmplementeerd zit in USEARCH v.7. (Edgar, 2013). UPARSE heeft geen referentie database om de sequenties te aligneren en gaat standaard OTU’s de novo aanmaken gebaseerd op ≤1% incorrecte basen i.p.v. >3% incorrecte basen (zie verder: UPARSE-OTU algoritme). Ook voor de Uparse pipeline werd een batch bestand geschreven: [1] formatering, Uparse vertrekt van reads in een FASTQ formaat, kan geen SFF bestanden lezen; [2] Kwaliteits-filtering en trimmen van de reads; [3] Dereplicatie; [4] Verwijderen van singletons (optioneel) en abundantie sortering; [5] Clusteren van de overblijvende sequenties met het UPARSE-OTU algoritme. 5.4.2.1 Reduceren van sequentie fouten Voor het verwijderen van de primer en barcode sequenties wordt er gebruik gemaakt van python scripts. Het reduceren van de sequentie fouten gebeurt bij via kwaliteit filtering. Verschillende filter opties werden uitgetest: een minimum lengte instellen (vb. -fastq_minlen 200), de sequentie trunceren (vb. -fastq_trunclen 150), reads verwijderen boven een maximaal aantal verwachte fouten (vb. –fastq_maxee 0.5) en sequenties trunceren op de eerste positie die een kwaliteitsscore bevat lager dan een bepaalde cutoff-waarde (vb. – fastq_truncqual 16). Vervolgens werden de sequenties gederepliceerd. 5.4.2.2 UPARSE-OTU algoritme Het UPARSE-OTU algoritme steunt net als Mothur op UCHIME voor het verwijderen van de chimera’s en op USEARCH voor sequentie vergelijkingen en om clustering uit te voeren. Het UPARSE-OTU algoritme is een nieuw ‘gulzig’ algoritme dat een eerste chimera filtering simultaan uitvoert met de OTU clustering gebaseerd op de abundantie van de sequenties. Een tweede referentie gebaseerde chimera filtering wordt uitgevoerd na het clusteren van de 74 Materiaal en methoden OTU’s met behulp van UCHIME. Deze stappen resulteren samen in een verbeterde accuraatheid. De accuraatheid van een OTU wordt geëvalueerd door de representatieve sequentie van elk OTU te vergelijken met de dichtste biologische sequentie, waarbij incorrecte of ontbrekende basen in de OTU sequentie als fouten worden gezien. Een OTU werd als ‘Perfect’ geclassificeerd als deze identiek was aan de biologische sequentie, ‘Goed’ bij ≤1% fouten, ‘Ruisachtig’ bij >1% tot ≤3% fouten, ‘chimeer’ bij >3% fouten en met hoge betrouwbaarheid, ‘Contaminant’ bij een hoge identiteit match met een soort die zich niet in de doelgerichte gemeenschap bevindt en ‘Ander’ bij >3% fouten of als de biologische sequentie afwezig is van de referentie database. Een singleton is een read met een sequentie die exact één keer voorkomt. Als sequentiefouten onafhankelijk en willekeurig verspreid zijn dan is het onwaarschijnlijk dat de sequentie van een slechte read geproduceerd werd door toeval, waaruit de redenering volgt dat de meeste singletons op zijn minst één sequentiefout hebben i.p.v. een sequentie te zijn van een zeldzame soort. Wanneer een sequentie van een read twee of meerdere malen voorkomt is het dan waarschijnlijk een correcte sequentie, tenzij het een sequentie is die afkomstig is van een chimeer amplicon. Reads die nog steeds singletons zijn na kwaliteitsfiltering en trimming worden daarom verwijderd, terwijl reads met een abundantie van twee of meer gebruikt worden als input voor OTU clustering. Alhoewel het verwijderen van de singletons de sensitiviteit reduceert door het verwijderen van enkele zeldzame soorten, wordt het toch aangeraden (Edgar, 2013) om de singletons te verwijderen, omdat vele valse OTU’s op die manier vermeden worden. Net zoals Uparse beschikt Mothur ook over de optie om singletons te verwijderen. Om diversiteit berekeningen te vergelijken tussen de verschillende stalen werd een rarefaction curve en een Chao1 curve gemaakt met Mothur. De resultaten van de Uparse pipeline werden omgezet naar een shared bestand om verdere analyse omtrent de alfa- en beta- diversiteit te kunnen uitvoeren met Mothur. 75 Referenties 6 Referenties Acinas SG, Marcelino LA, Klepac-Ceraj V & Polz MF (2004) Divergence and redundancy of 16S rRNA sequences in genomes with multiple rrn operons. J. Bacteriol. 186: 2629–2635 Acinas SG, Sarma-Rupavtarm R, Klepac-Ceraj V & Polz MF (2005) PCR-Induced Sequence Artifacts and Bias: Insights from Comparison of Two 16S rRNA Clone Libraries Constructed from the Same Sample. Appl. Environ. Microbiol. 71: 8966–8969 Aislabie JM, Chhour K-L, Saul DJ, Miyauchi S, Ayton J, Paetzold RF & Balks MR (2006) Dominant bacteria in soils of Marble Point and Wright Valley, Victoria Land, Antarctica. Soil Biol. Biochem. 38: 3041–3056 Aislabie JM, Lau A, Dsouza M, Shepherd C, Rhodes P & Turner SJ (2013) Bacterial composition of soils of the Lake Wellman area, Darwin Mountains, Antarctica. Extremophiles 17: 775–786 Amann RI, Ludwig W & Schleifer KH (1995) Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microbiol. Rev. 59: 143–169 Antarctic marine ecosystem (2008) Sci. Hub Available http://www.sciencelearn.org.nz/Contexts/Icy-Ecosystems/Science-Ideas-andConcepts/Antarctic-marine-ecosystem [Accessed June 5, 2014] at: Armougom F & Raoult D (2009) Exploring Microbial Diversity Using 16S rRNA High-Throughput Methods. J. Comput. Sci. Syst. Biol. 02: 74–92 Barriuso J, Valverde JR & Mellado RP (2011) Estimation of bacterial diversity using next generation sequencing of 16S rDNA: a comparison of different workflows. BMC Bioinformatics 12: 473 Behrendt JC, LeMasurier WE, Cooper AK, Tessensohn F, Tréhu A & Damaske D (1991) Geophysical studies of the West Antarctic Rift System. Tectonics 10: 1257–1273 Beintema A (2013) Eilanden Atlas Contact, Uitgeverij Berry D, Mahfoudh KB, Wagner M & Loy A (2011) Barcoded Primers Used in Multiplex Amplicon Pyrosequencing Bias Amplification. Appl. Environ. Microbiol. 77: 7846–7849 Bidle KD, Lee S, Marchant DR & Falkowski PG (2007) Fossil genes and microbes in the oldest ice on Earth. Proc. Natl. Acad. Sci. 104: 13455–13460 Bowman JP, McCammon SA, Rea SM & McMeekin TA (2000a) The microbial composition of three limnologically disparate hypersaline Antarctic lakes. FEMS Microbiol. Lett. 183: 81–88 77 Referenties Bowman JP, Rea SM, McCammon SA & McMeekin TA (2000b) Diversity and community structure within anoxic sediment from marine salinity meromictic lakes and a coastal meromictic marine basin, Vestfold Hilds, Eastern Antarctica. Environ. Microbiol. 2: 227–237 Bragg LM, Stone G, Butler MK, Hugenholtz P & Tyson GW (2013) Shining a light on dark sequencing: characterising errors in Ion Torrent PGM data. PLoS Comput. Biol. 9: e1003031 British Antarctic Survey (2010a) Plants of Antarctica. Available at: http://www.antarctica.ac.uk/about_antarctica/wildlife/plants/ [Accessed March 18, 2014] British Antarctic Survey (2010b) Land Animals of Antarctica. Available http://www.antarctica.ac.uk/about_antarctica/wildlife/land_animals/index.php [Accessed May 13, 2014] at: Brockman W, Alvarez P, Young S, Garber M, Giannoukos G, Lee WL, Russ C, Lander ES, Nusbaum C & Jaffe DB (2008) Quality scores and SNP detection in sequencing-bysynthesis systems. Genome Res.: gr.070227.107 Bryant DA & Frigaard N-U (2006) Prokaryotic photosynthesis and phototrophy illuminated. Trends Microbiol. 14: 488–496 Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, Fierer N, Peña AG, Goodrich JK, Gordon JI, Huttley GA, Kelley ST, Knights D, Koenig JE, Ley RE, Lozupone CA, McDonald D, Muegge BD, Pirrung M, Reeder J, et al (2010) QIIME allows analysis of high-throughput community sequencing data. Nat. Methods 7: 335–336 Cawood PA, Kröner A, Collins WJ, Kusky TM, Mooney WD & Windley BF (2009) Accretionary orogens through Earth history. Geol. Soc. Lond. Spec. Publ. 318: 1–36 Chan Y, Nostrand JDV, Zhou J, Pointing SB & Farrell RL (2013) Functional ecology of an Antarctic Dry Valley. Proc. Natl. Acad. Sci. 110: 8990–8995 Chou H-H & Holmes MH (2001) DNA sequence quality trimming and vector removal. Bioinformatics 17: 1093–1104 Churko JM, Mantalas GL, Snyder MP & Wu JC (2013) Overview of High Throughput Sequencing Technologies to Elucidate Molecular Pathways in Cardiovascular Diseases. Circ. Res. 112: 1613–1623 Clucas GV, Dunn MJ, Dyke G, Emslie SD, Naveen R, Polito MJ, Pybus OG, Rogers AD & Hart T (2014) A reversal of fortunes: climate change ‘winners’ and ‘losers’ in Antarctic Peninsula penguins. Sci. Rep. 4: 5024 78 Referenties Cock PJA, Fields CJ, Goto N, Heuer ML & Rice PM (2010) The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Res. 38: 1767–1771 Convey P, Gibson JAE, Hillenbrand C-D, Hodgson DA, Pugh PJA, Smellie JL & Stevens MI (2008) Antarctic terrestrial life--challenging the history of the frozen continent? Biol. Rev. Camb. Philos. Soc. 83: 103–117 Corinaldesi C, Danovaro R & Dell’Anno A (2005) Simultaneous Recovery of Extracellular and Intracellular DNA Suitable for Molecular Studies from Marine Sediments. Appl. Environ. Microbiol. 71: 46–50 Cowan DA, Makhalanyane TP, Dennis PG & Hopkins DW (2014) Microbial ecology and biogeochemistry of continental Antarctic soils. Front. Microbiol. 5: Available at: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3988359/ [Accessed June 4, 2014] Deacon SGER (1937) The Hydrology of the Southern Ocean Cambridge University Press DeConto RM & Pollard D (2003) Rapid Cenozoic glaciation of Antarctica induced by declining atmospheric CO2. Nature 421: 245–249 DeSantis TZ Jr, Hugenholtz P, Keller K, Brodie EL, Larsen N, Piceno YM, Phan R & Andersen GL (2006) NAST: a multiple sequence alignment server for comparative analysis of 16S rRNA genes. Nucleic Acids Res. 34: W394–399 Edgar RC (2013) UPARSE: highly accurate OTU sequences from microbial amplicon reads. Nat. Methods 10: 996–998 Edgar RC, Haas BJ, Clemente JC, Quince C & Knight R (2011) UCHIME improves sensitivity and speed of chimera detection. Bioinforma. Oxf. Engl. 27: 2194–2200 Edwards A, Anesio AM, Rassner SM, Sattler B, Hubbard B, Perkins WT, Young M & Griffith GW (2011) Possible interactions between bacterial diversity, microbial activity and supraglacial hydrology of cryoconite holes in Svalbard. ISME J. 5: 150–160 Edwards A, Mur LAJ, Girdwood SE, Anesio AM, Stibal M, Rassner SME, Hell K, Pachebat JA, Post B, Bussell JS, Cameron SJS, Griffith GW, Hodson AJ & Sattler B (2014) Coupled cryoconite ecosystem structure-function relationships are revealed by comparing bacterial communities in alpine and Arctic glaciers. FEMS Microbiol. Ecol.: n/a–n/a Edwards A, Rassner SM, Anesio AM, Worgan HJ, Irvine-Fynn TDL, Williams HW, Sattler B & Griffith GW (2013) Contrasts between the cryoconite and ice-marginal bacterial communities of Svalbard glaciers. Polar Res. 32: Available at: http://www.polarresearch.net/index.php/polar/article/view/19468 [Accessed June 5, 2014] 79 Referenties Edwards R & Emery W (1982) Australasian Southern Ocean frontal stucture during summer 1976-77. Mar. Freshw. Res. 33: 3–22 Edwards U, Rogall T, Blöcker H, Emde M & Böttger EC (1989) Isolation and direct complete nucleotide determination of entire genes. Characterization of a gene coding for 16S ribosomal RNA. Nucleic Acids Res. 17: 7843–7853 Eijsden J van (2013) Antarctica en de subantarctische eilanden Uitgeverij Elmar Eilers H, Pernthaler J, Glöckner FO & Amann R (2000) Culturability and In Situ Abundance of Pelagic Bacteria from the North Sea. Appl. Environ. Microbiol. 66: 3044–3051 Eisenstein M (2012) The battle for sequencing supremacy. Nat. Biotechnol. 30: 1023–1026 Fisher MM & Triplett EW (1999) Automated approach for ribosomal intergenic spacer analysis of microbial diversity and its application to freshwater bacterial communities. Appl. Environ. Microbiol. 65: 4630–4636 Freckman DW & Virginia RA (1997) LOW-DIVERSITY ANTARCTIC SOIL NEMATODE COMMUNITIES: DISTRIBUTION AND RESPONSE TO DISTURBANCE. Ecology 78: 363– 369 Gilles A, Meglecz E, Pech N, Ferreira S, Malausa T & Martin J-F (2011) Accuracy and quality assessment of 454 GS-FLX Titanium pyrosequencing. BMC Genomics 12: 245 Gogol-Döring A & Chen W (2012) An overview of the analysis of next generation sequencing data. Methods Mol. Biol. Clifton NJ 802: 249–257 Golan D & Medvedev P (2013) Using state machines to model the Ion Torrent sequencing process and to improve read error rates. Bioinformatics 29: i344–i351 Haas BJ, Gevers D, Earl AM, Feldgarden M, Ward DV, Giannoukos G, Ciulla D, Tabbaa D, Highlander SK, Sodergren E, Methé B, DeSantis TZ, Human Microbiome Consortium, Petrosino JF, Knight R & Birren BW (2011) Chimeric 16S rRNA sequence formation and detection in Sanger and 454-pyrosequenced PCR amplicons. Genome Res. 21: 494–504 Hambrey MJ & Barrett PJ (1993) Cenozoic sedimentary and climatic record, Ross Sea region, Antarctica. In Antarctic Research Series, Kennett JP & Warnke DA (eds) pp 91–124. Washington, D. C.: American Geophysical Union Available at: http://www.agu.org/books/ar/v060/AR060p0091/AR060p0091.shtml [Accessed June 4, 2014] Hodson A, Anesio AM, Ng F, Watson R, Quirk J, Irvine-Fynn T, Dye A, Clark C, McCloy P, Kohler J & Sattler B (2007) A glacier respires: Quantifying the distribution and respiration CO2 flux of cryoconite across an entire Arctic supraglacial ecosystem. J. Geophys. Res. Biogeosciences 112: G04S36 80 Referenties Hodson A, Anesio AM, Tranter M, Fountain A, Osborn M, Priscu J, Laybourn-Parry J & Sattler B (2008) GLACIAL ECOSYSTEMS. Ecol. Monogr. 78: 41–67 Huse SM, Huber JA, Morrison HG, Sogin ML & Welch DM (2007) Accuracy and quality of massively parallel DNA pyrosequencing. Genome Biol. 8: R143 Huse SM, Welch DM, Morrison HG & Sogin ML (2010) Ironing out the wrinkles in the rare biosphere through improved OTU clustering. Environ. Microbiol. 12: 1889–1898 Jaenicke S, Ander C, Bekel T, Bisdorf R, Droge M, Gartemann K-H, Junemann S, Kaiser O, Krause L, Tille F, Zakrzewski M, Puhler A, Schluter A & Goesmann A (2011) Comparative and Joint Analysis of Two Metagenomic Datasets from a Biogas Fermenter Obtained by 454-Pyrosequencing. PLoS ONE 6: Available at: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3027613/ [Accessed April 28, 2014] Janda JM & Abbott SL (2007) 16S rRNA Gene Sequencing for Bacterial Identification in the Diagnostic Laboratory: Pluses, Perils, and Pitfalls. J. Clin. Microbiol. 45: 2761–2764 Jungblut A-D, Hawes I, Mountfort D, Hitzfeld B, Dietrich DR, Burns BP & Neilan BA (2005) Diversity within cyanobacterial mat communities in variable salinity meltwater ponds of McMurdo Ice Shelf, Antarctica. Environ. Microbiol. 7: 519–529 Kanagawa T (2003) Bias and artifacts in multitemplate polymerase chain reactions (PCR). J. Biosci. Bioeng. 96: 317–323 Karger BL & Guttman A (2009) DNA Sequencing by Capillary Electrophoresis. Electrophoresis 30: S196–S202 Knight R, Maxwell P, Birmingham A, Carnes J, Caporaso JG, Easton BC, Eaton M, Hamady M, Lindsay H, Liu Z, Lozupone C, McDonald D, Robeson M, Sammut R, Smit S, Wakefield MJ, Widmann J, Wikman S, Wilson S, Ying H, et al (2007) PyCogent: a toolkit for making sense from sequence. Genome Biol. 8: R171 Krzysztof Birkenmajer AG (2005) First Cenozoic glaciers in West Antarctica. Pol. Polar Res. 26: 3–12 Kunin V, Engelbrektson A, Ochman H & Hugenholtz P (2010) Wrinkles in the rare biosphere: pyrosequencing errors can lead to artificial inflation of diversity estimates. Environ. Microbiol. 12: 118–123 Lam HYK, Clark MJ, Chen R, Chen R, Natsoulis G, O’Huallachain M, Dewey FE, Habegger L, Ashley EA, Gerstein MB, Butte AJ, Ji HP & Snyder M (2012) Performance comparison of whole-genome sequencing platforms. Nat. Biotechnol. 30: 78–82 Langford H, Hodson A, Banwart S & Bøggild C (2010) The microstructure and biogeochemistry of Arctic cryoconite granules. Ann. Glaciol. 51: 87–94 81 Referenties Livermore R, Hillenbrand C-D, Meredith M & Eagles G (2007) Drake Passage and Cenozoic climate: An open and shut case? Geochem. Geophys. Geosystems 8: Q01005 Loman NJ, Misra RV, Dallman TJ, Constantinidou C, Gharbia SE, Wain J & Pallen MJ (2012) Performance comparison of benchtop high-throughput sequencing platforms. Nat. Biotechnol. 30: 434–439 Margesin R, Zacke G & Schinner F (2002) Characterization of Heterotrophic Microorganisms in Alpine Glacier Cryoconite. Arct. Antarct. Alp. Res. 34: 88 Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J, Braverman MS, Chen Y-J, Chen Z, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen S, Ho CH, Ho CH, Irzyk GP, et al (2005) Genome sequencing in microfabricated highdensity picolitre reactors. Nature 437: 376–380 Marzorati M, Wittebolle L, Boon N, Daffonchio D & Verstraete W (2008) How to get more out of molecular fingerprints: practical tools for microbial ecology. Environ. Microbiol. 10: 1571–1581 Maxam AM & Gilbert W (1977) A new method for sequencing DNA. Proc. Natl. Acad. Sci. U. S. A. 74: 560–564 Merriman B, Ion Torrent R&D Team & Rothberg JM (2012) Progress in ion torrent semiconductor chip based sequencing. Electrophoresis 33: 3397–3417 Metzker ML (2010) Sequencing technologies - the next generation. Nat. Rev. Genet. 11: 31– 46 Vaz-Moreira I, Egas C, Nunes OC & Manaia CM (2011) Culture-dependent and cultureindependent diversity surveys target different bacteria: a case study in a freshwater sample. Antonie Van Leeuwenhoek 100: 245–257 Mullis KB (1990) The unusual origin of the polymerase chain reaction. Sci. Am. 262: 56–61, 64– 5 Niederberger TD, McDonald IR, Hacker AL, Soo RM, Barrett JE, Wall DH & Cary SC (2008) Microbial community composition in soils of Northern Victoria Land, Antarctica. Environ. Microbiol. 10: 1713–1724 Niedringhaus TP, Milanova D, Kerby MB, Snyder MP & Barron AE (2011) Landscape of NextGeneration Sequencing Technologies. Anal. Chem. 83: 4327–4341 Nowlin WD & Klinck JM (1986) The physics of the Antarctic Circumpolar Current. Rev. Geophys. 24: 469–491 Okubo A & Sugiyama S (2009) Comparison of molecular fingerprinting methods for analysis of soil microbial community structure. Ecol. Res. 24: 1399–1405 82 Referenties Oren A (2012) Salts and Brines. In Ecology of Cyanobacteria II, Whitton BA (ed) pp 401–426. Springer Netherlands Available at: http://link.springer.com/chapter/10.1007/978-94007-3855-3_15 [Accessed June 10, 2014] Parameswaran P, Jalili R, Tao L, Shokralla S, Gharizadeh B, Ronaghi M & Fire AZ (2007) A pyrosequencing-tailored nucleotide barcode design unveils opportunities for largescale sample multiplexing. Nucleic Acids Res. 35: e130 Pedrós-Alió C (2012) The rare bacterial biosphere. Annu. Rev. Mar. Sci. 4: 449–466 Peeters K, Ertz D & Willems A (2011a) Culturable bacterial diversity at the Princess Elisabeth Station (Utsteinen, Sør Rondane Mountains, East Antarctica) harbours many new taxa. Syst. Appl. Microbiol. 34: 360–367 Peeters K, Hodgson DA, Convey P & Willems A (2011b) Culturable diversity of heterotrophic bacteria in Forlidas Pond (Pensacola Mountains) and Lundström Lake (Shackleton Range), Antarctica. Microb. Ecol. 62: 399–413 Peeters K & Verleyen E (2012) Heterotrophic bacterial diversity in aquatic microbial mat communities from Antarctica. 35: 543–554 Pontes DS, Lima-Bittencourt CI, Chartone-Souza E & Amaral Nascimento AM (2007) Molecular approaches: advantages and artifacts in assessing bacterial diversity. J. Ind. Microbiol. Biotechnol. 34: 463–473 Qiu X, Wu L, Huang H, McDonel PE, Palumbo AV, Tiedje JM & Zhou J (2001) Evaluation of PCRGenerated Chimeras, Mutations, and Heteroduplexes with 16S rRNA Gene-Based Cloning. Appl. Environ. Microbiol. 67: 880–887 Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, Bertoni A, Swerdlow HP & Gu Y (2012) A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. BMC Genomics 13: 341 Quast C, Pruesse E, Yilmaz P, Gerken J, Schweer T, Yarza P, Peplies J & Glöckner FO (2013) The SILVA ribosomal RNA gene database project: improved data processing and web-based tools. Nucleic Acids Res. 41: D590–D596 Quince C, Lanzén A, Curtis TP, Davenport RJ, Hall N, Head IM, Read LF & Sloan WT (2009) Accurate determination of microbial diversity from 454 pyrosequencing data. Nat. Methods 6: 639–641 Quince C, Lanzen A, Davenport RJ & Turnbaugh PJ (2011) Removing noise from pyrosequenced amplicons. BMC Bioinformatics 12: 38 Rastogi G & Sani RK (2011) Molecular Techniques to Assess Microbial Community Structure, Function, and Dynamics in the Environment. In Microbes and Microbial Technology, Ahmad I Ahmad F & Pichtel J (eds) pp 29–57. Springer New York Available at: 83 Referenties http://link.springer.com/chapter/10.1007/978-1-4419-7931-5_2 [Accessed May 13, 2014] Riffenburgh B (2007) Encyclopedia of the Antarctic Taylor & Francis Rincon-Florez VA, Carvalhais LC & Schenk PM (2013) Culture-Independent Molecular Tools for Soil and Rhizosphere Microbiology. Diversity 5: 581–612 Rogers AD, Johnston NM, Murphy EJ & Clarke A (2012) Antarctic Ecosystems: An Extreme Environment in a Changing World John Wiley & Sons Rothberg JM, Hinz W, Rearick TM, Schultz J, Mileski W, Davey M, Leamon JH, Johnson K, Milgrew MJ, Edwards M, Hoon J, Simons JF, Marran D, Myers JW, Davidson JF, Branting A, Nobile JR, Puc BP, Light D, Clark TA, et al (2011) An integrated semiconductor device enabling non-optical genome sequencing. Nature 475: 348–352 Sanger F, Nicklen S & Coulson AR (1977) DNA sequencing with chain-terminating inhibitors. Proc. Natl. Acad. Sci. U. S. A. 74: 5463–5467 Säwström C, Mumford P, Marshall W, Hodson A & Laybourn-Parry J (2002) The microbial communities and primary productivity of cryoconite holes in an Arctic glacier (Svalbard 79°N). Polar Biol. 25: 591–596 Schloss PD (2009) A High-Throughput DNA Sequence Aligner for Microbial Ecology Studies. PLoS ONE 4: e8230 Schloss PD (2010) The effects of alignment quality, distance calculation method, sequence filtering, and region on the analysis of 16S rRNA gene-based studies. PLoS Comput. Biol. 6: e1000844 Schloss PD, Gevers D & Westcott SL (2011) Reducing the effects of PCR amplification and sequencing artifacts on 16S rRNA-based studies. PloS One 6: e27310 Schloss PD & Handelsman J (2005) Introducing DOTUR, a Computer Program for Defining Operational Taxonomic Units and Estimating Species Richness. Appl. Environ. Microbiol. 71: 1501–1506 Schloss PD, Westcott SL, Ryabin T, Hall JR, Hartmann M, Hollister EB, Lesniewski RA, Oakley BB, Parks DH, Robinson CJ, Sahl JW, Stres B, Thallinger GG, Van Horn DJ & Weber CF (2009) Introducing mothur: open-source, platform-independent, communitysupported software for describing and comparing microbial communities. Appl. Environ. Microbiol. 75: 7537–7541 Shade A, Hogan CS, Klimowicz AK, Linske M, McManus PS & Handelsman J (2012) Culturing captures members of the soil rare biosphere. Environ. Microbiol. 14: 2247–2252 Shin S & Park J (2014) Correction of sequence-dependent ambiguous bases (Ns) from the 454 pyrosequencing system. Nucleic Acids Res.: gku070 84 Referenties Simon C, Wiezer A, Strittmatter AW & Daniel R (2009) Phylogenetic diversity and metabolic potential revealed in a glacier ice metagenome. Appl. Environ. Microbiol. 75: 7519– 7526 Sjöling S & Cowan DA (2003) High 16S rDNA bacterial diversity in glacial meltwater lake sediment, Bratina Island, Antarctica. Extremophiles 7: 275–282 Smith RO, Vennell R, Bostock HC & Williams MJM (2013) Interaction of the subtropical front with topography around southern New Zealand. Deep Sea Res. Part Oceanogr. Res. 76: 13–26 Sogin ML, Morrison HG, Huber JA, Mark Welch D, Huse SM, Neal PR, Arrieta JM & Herndl GJ (2006) Microbial diversity in the deep sea and the underexplored ‘rare biosphere’. Proc. Natl. Acad. Sci. U. S. A. 103: 12115–12120 Speksnijder AG, Kowalchuk GA, De Jong S, Kline E, Stephen JR & Laanbroek HJ (2001) Microvariation artifacts introduced by PCR and cloning of closely related 16S rRNA gene sequences. Appl. Environ. Microbiol. 67: 469–472 Stahl DA, Lane DJ, Olsen GJ & Pace NR (1985) Characterization of a Yellowstone hot spring microbial community by 5S rRNA sequences. Appl. Environ. Microbiol. 49: 1379–1384 Steig EJ, Schneider DP, Rutherford SD, Mann ME, Comiso JC & Shindell DT (2009) Warming of the Antarctic ice-sheet surface since the 1957 International Geophysical Year. Nature 457: 459–462 Takeuchi N, Kohshima S & Seko K (2001) Structure, Formation, and Darkening Process of Albedo-Reducing Material (Cryoconite) on a Himalayan Glacier: A Granular Algal Mat Growing on the Glacier. Arct. Antarct. Alp. Res. 33: 115 Torre JR de la, Goebel BM, Friedmann EI & Pace NR (2003) Microbial Diversity of Cryptoendolithic Communities from the McMurdo Dry Valleys, Antarctica. Appl. Environ. Microbiol. 69: 3858–3867 Tranter M, Fountain AG, Fritsen CH, Berry Lyons W, Priscu JC, Statham PJ & Welch KA (2004) Extreme hydrochemical conditions in natural microcosms entombed within Antarctic ice. Hydrol. Process. 18: 379–387 Tucker T, Marra M & Friedman JM (2009) Massively parallel sequencing: the next big thing in genetic medicine. Am. J. Hum. Genet. 85: 142–154 Tynan CT (1998) Ecological importance of the Southern Boundary of the Antarctic Circumpolar Current. Nature 392: 708–710 Vincent WF (2000) Evolutionary origins of Antarctic microbiota: invasion, selection and endemism. Antarct. Sci. 12: 374–385 85 Referenties Walsh PS, Erlich HA & Higuchi R (1992) Preferential PCR amplification of alleles: mechanisms and solutions. PCR Methods Appl. 1: 241–250 Wang GCY & Wang Y (1996) The frequency of chimeric molecules as a consequence of PCR coamplification of 16S rRNA genes from different bacterial species. Microbiology 142: 1107–1114 Wang Q, Garrity GM, Tiedje JM & Cole JR (2007) Naïve Bayesian Classifier for Rapid Assignment of rRNA Sequences into the New Bacterial Taxonomy. Appl. Environ. Microbiol. 73: 5261–5267 Ward DM, Weller R & Bateson MM (1990) 16S rRNA sequences reveal numerous uncultured microorganisms in a natural community. Nature 345: 63–65 Werner JJ, Koren O, Hugenholtz P, DeSantis TZ, Walters WA, Caporaso JG, Angenent LT, Knight R & Ley RE (2012) Impact of training sets on classification of high-throughput bacterial 16s rRNA gene surveys. ISME J. 6: 94–103 Wharton RA Jr, McKay CP, Simmons GM Jr & Parker BC (1985) Cryoconite holes on glaciers. Bioscience 35: 499–503 Wilhelm L, Singer GA, Fasching C, Battin TJ & Besemer K (2013) Microbial biodiversity in glacier-fed streams. ISME J. 7: 1651–1660 Wilmotte A, Willems A, Vyverman W & Verleyen E (2012) Antarctic microbial biodiversity: the importance of geographical and ecological factors (AMBIO). Available at: http://www.belspo.be/belspo/ssd/science/Reports/AMBIO%20FinalReport%20ML.p df Woese CR (1987) Bacterial evolution. Microbiol. Rev. 51: 221–271 Wyrtki K (1960) The Antarctic Convergence-and Divergence. Nature 187: 581–582 Yergeau E, Bokhorst S, Kang S, Zhou J, Greer CW, Aerts R & Kowalchuk GA (2012) Shifts in soil microorganisms in response to warming are consistent across a range of Antarctic environments. ISME J. 6: 692–702 Yergeau E, Newsham KK, Pearce DA & Kowalchuk GA (2007) Patterns of bacterial diversity across a range of Antarctic terrestrial habitats. Environ. Microbiol. 9: 2670–2682 Zagordi O, Klein R, Daumer M & Beerenwinkel N (2010) Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies. Nucleic Acids Res. 38: 7400–7409 Zwart G, Hiorns WD, Methé BA, van Agterveld MP, Huismans R, Nold SC, Zehr JP & Laanbroek HJ (1998) Nearly identical 16S rRNA sequences recovered from lakes in North America and Europe indicate the existence of clades of globally distributed freshwater bacteria. Syst. Appl. Microbiol. 21: 546–556 86 Bijlagen 7 Bijlage 7.1 Principes van drie moleculaire methoden Figuur 13: Principes van drie moleculaire fingerprint methoden. DGGE, Denaturing Gradient Gel Electrophoresis; ARISA, Automated Ribosomal Intergenic Spacer Analysis en T-RFLP, Terminal Restriction Fragment Length Polymorphism. Aangepaste figuur van Okubo & Sugiyama, 2009. 87 Bijlagen 7.2 Een vergelijking van de data-analyse-outputs op fylumniveau bekomen met Mothur en Uparse Tabel 9: Een overzicht van de data-analyse-outputs van de Roche 454 dataset bekomen door verschillende parameters te laten variëren met Mothur. De V1-V3 regio van het 16S rRNA gen van negen stalen verschillende Antarctische regio’s werd gesequeneerd met het Roche 454 FLX + Titanium platform. De ruwe dataset werd geanalyseerd met Mothur en verschillende parameters werden uitgetest. De sequenties van de negen stalen werden geclusterd in OTU’s met een identiteits threshold van 97% en ze werden geclassificeerd met behulp van de Greengenes database. QS: kwaliteitsscore, Ref_Templ: classificatie van de default analyse met een gefilterde Greengenes referentie-template, MinL250: minimum leeslengte van 250 bp, B0P0: nul mismatches voor de Barcodeen Primersequentie: B2P2: twee mismatches voor de Bardcode- en Primersequentie, B0P2: nul mismatches voor de Barcodesequentie en twee mismatches voor de Primersequentie, MaxHp4: maximum lengte van homopolymeren is 4 bp, MaxHp12: maximum lengte van homopolymeren is 12 bp, PreC: de default Mothur pipeline zonder de precluster-stap, Gotoh: Aligneringsmethode, Elke gap: straft elke aanwezige gap, Geen gap: negeert de aanwezige gaps, B0P2/qTh_16: een combinatie van B0P2 met een kwalitaitsscore threshold van minimum Q16, 2_Ch_GoldOtu: twee chimera-stappen waarvan de eerste de Silva Gold database gebruikt en de tweede de representatieve sequentie van elke OTU. 88 Bijlagen Tabel 10: Een vergelijking van de data-analyse-outputs op fylumniveau bekomen met Mothur en Uparse. De V1-V3 regio van het 16S rRNA-gen van negen stalen uit verschillende Antarctische regio’s werd gesequeneerd met het Roche 454 FLX + Titanium platform. De ruwe dataset werd geanalyseerd met Mothur en Uparse en het aantal bekomen OTU’s werden onderling vergeleken. De sequenties van de negen stalen werden geclusterd in OTU’s met een identiteits-threshold van 97% en ze werden geclassificeerd met behulp van de Greengenes database. B0P2/qTh_16/2_ch (Combi): nul mismatches voor de Barcode sequentie en twee mismatches voor de Primer sequentie (B0P2) gecombineerd met een kwaliteitsscores threshold van minimum Q16 (qTh_16) en 2 Chimera-stappen waarvan de eerste gebruikt maakt van de Silva Gold database en de tweede van de representatieve sequentie van elke OTU’s, Ref_Templ_combi: classificatie van de default analyse met een gefilterde Greengenes referentie-template en verdere parameters ingesteld zoals bij combi, Combi_MaxL300: de combi parameters en een maximum leeslengte van 300 bp, Reverse: data analyse gebaseerd op de reverse primer, 250 bp: de leeslengte in Uparse werd getrunceerd tot 250 bp en B0P0: nul mismatches voor de Barcode- en Primersequentie. 89 Bijlagen 7.3 Default Uparse pipeline #making a fastq file of both Roche 454 pools cat 1.fastq 2.fastq 7.fastq 8.fastq > pool1.fastq cat 3.fastq 4.fastq 5.fastq 6.fastq > pool2.fastq #Removal of barcode/primer sequences Python ./py/fastq_strip_barcode_relabel2.py ./Roche454/Pool1/pool1.fastq AGAGTTTGATCCTGGCTCAG ./Roche454/Pool1/barcodes_P_1.fa pool_1_F_ > pool1.fastq Python ./py/fastq_strip_barcode_relabel2.py ./Roche454/Pool2/pool2.fastq AGAGTTTGATCCTGGCTCAG ./Roche454/Pool2/barcodes_P_2.fa pool_2_F_ > pool2.fastq #Sequence statistics usearch7 -fastq_stats pool1.fastq -log pool1_stats.log usearch7 -fastq_stats pool2.fastq -log pool2_stats.log #Quality filtering usearch7 -fastq_filter pool1.fastq -fastq_truncqual 16 -fastq_trunclen 200 -fastq_maxee 0.5 fastaout pool1_minlen200.fasta usearch7 -fastq_filter pool2.fastq -fastq_truncqual 16 -fastq_trunclen 200 -fastq_maxee 0.5 fastaout pool2_minlen200.fasta cat pool1_minlen200.fasta pool2_minlen200.fasta > pooled.fasta #Dereplication usearch7 -derep_fulllength pooled.fasta -output pooled_unique.fasta -sizeout #Size sorting of clusters of unique sequences and singleton removal usearch7 -sortbysize pooled_unique.fasta -output pooled_sorted.fasta #OTU clustering and chimera checking usearch7 -cluster_OTU’s pooled_sorted.fasta -OTU’s pooled_otu.fasta -otu_radius_pct 3 #Additional chimera checking with reference database using Uchime algoritm usearch7 -uchime_ref pooled_otu.fasta -db ./Roche454/silva.gold.ng.fasta -strand plus nonchimeras uchime.fasta #Label OTU sequences OTU_1, OTU_2... python ./py/fasta_number.py uchime.fasta OTU_ > final.fasta #Mapping of sequences to OTU’s usearch7 -usearch_global pooled.fasta -db final.fasta -strand plus -id 0.97 -uc prok_map_uc #making an OTU table python ./py/uc2otutab.py prok_map_uc > OTU_table.txt #classification with greengenes #mothur>> classify.seqs(fasta=prok_final.fasta, template=gg_13_5_99.pds.tax, taxonomy=gg_13_5_99.fasta, cutoff=80) 90 Bijlagen 7.4 Fusie primers voor Next-Generation Sequencing Tabel 11: Overzicht fusie primers Roche 454 Staal Adapter Linker Barcode (10 nt) Forward primer BB115 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ATGCCGTTAC AGAGTTTGATCCTGGCTCAG BB50 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ATGGCGGTAC AGAGTTTGATCCTGGCTCAG LA3 CCATCTCATCCCTGCGTGTCTCCGAC TCAG AGCTTAGGCT AGAGTTTGATCCTGGCTCAG PQP CCATCTCATCCCTGCGTGTCTCCGAC TCAG TAGCCTAAGC AGAGTTTGATCCTGGCTCAG SC6 CCATCTCATCCCTGCGTGTCTCCGAC TCAG AGCTTGCCAT AGAGTTTGATCCTGGCTCAG SK5 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ACGTTCAATG AGAGTTTGATCCTGGCTCAG TM2 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ACTGGCGGAT AGAGTTTGATCCTGGCTCAG TM4 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ACGTTGAATC AGAGTTTGATCCTGGCTCAG WO10 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ATCGGCAAGT AGAGTTTGATCCTGGCTCAG Alle 9 stalen Adapter Reverse primer CCTCTCTATGGGCAGTCGGTGAT GTATTACCGCGGCTGCTGGCA Ion Torrent Staal Adapter Linker Barcode (10 nt) Forward primer BB50 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ACGAGTGCGT AGAGTTTGATCCTGGCTCAG BB115 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ACGCTCGACA AGAGTTTGATCCTGGCTCAG PB1109 CCATCTCATCCCTGCGTGTCTCCGAC TCAG AGACGCACTC AGAGTTTGATCCTGGCTCAG PE1081 CCATCTCATCCCTGCGTGTCTCCGAC TCAG AGCACTGTAG AGAGTTTGATCCTGGCTCAG PE1082 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ATCAGACACG AGAGTTTGATCCTGGCTCAG PB1103 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ATATCGCGAG AGAGTTTGATCCTGGCTCAG PE1045 CCATCTCATCCCTGCGTGTCTCCGAC TCAG CGTGTCTCTA AGAGTTTGATCCTGGCTCAG PE1042 CCATCTCATCCCTGCGTGTCTCCGAC TCAG CTCGCGTGTC AGAGTTTGATCCTGGCTCAG UN1107 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TAGTATCAGC AGAGTTTGATCCTGGCTCAG PE1036 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TCTCTATGCG AGAGTTTGATCCTGGCTCAG PB1101 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TGATACGTCT AGAGTTTGATCCTGGCTCAG PE1039 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TACTGAGCTA AGAGTTTGATCCTGGCTCAG TE1101 CCATCTCATCCCTGCGTGTCTCCGAC TCAG CATAGTAGTG AGAGTTTGATCCTGGCTCAG PE1066 CCATCTCATCCCTGCGTGTCTCCGAC TCAG CGAGAGATAC AGAGTTTGATCCTGGCTCAG PB1107 CCATCTCATCCCTGCGTGTCTCCGAC TCAG ATACGACGTA AGAGTTTGATCCTGGCTCAG UN1102 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TCACGTACTA AGAGTTTGATCCTGGCTCAG mock CCATCTCATCCCTGCGTGTCTCCGAC TCAG CGTCTAGTAC AGAGTTTGATCCTGGCTCAG BB115-rep1 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TCTACGTAGC AGAGTTTGATCCTGGCTCAG BB115-rep2 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TGTACTACTC AGAGTTTGATCCTGGCTCAG Mock-rep CCATCTCATCCCTGCGTGTCTCCGAC TCAG ACGACTACAG AGAGTTTGATCCTGGCTCAG Blanco CCATCTCATCCCTGCGTGTCTCCGAC TCAG CGTAGACTAG AGAGTTTGATCCTGGCTCAG 5-min-mock CCATCTCATCCCTGCGTGTCTCCGAC TCAG TACGAGTATG AGAGTTTGATCCTGGCTCAG 5-min-BB115 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TACTCTCGTG AGAGTTTGATCCTGGCTCAG 2-staps-mock CCATCTCATCCCTGCGTGTCTCCGAC TCAG TAGAGACGAG AGAGTTTGATCCTGGCTCAG 2-staps-BB115 CCATCTCATCCCTGCGTGTCTCCGAC TCAG TCGTCGCTCG AGAGTTTGATCCTGGCTCAG Alle 25 stalen Adapter Reverse primer 91 Bijlagen CCTCTCTATGGGCAGTCGGTGAT GTATTACCGCGGCTGCTGGCA 7.5 DNA extractie protocol Extractie van extracellulair DNA: 1. Suspendeer onoplosbaar polyvinylpolypyrrolidon (PVPP) (Sigma Chemical Co., St.Louis, Mo.) in 3 M HCL (typisch wordt 300 g PVPP gesuspendeerd in 4 l van 3 M HCL) voor 12 tot 16 uur op kamertemperatuur. 2. Filter de suspensie met MIRACLOTH (Chicopee Mills, Inc., Milltown, N.J.) en suspendeer en mix de PVPP in 4 l van 20 mM kaliumfosfaat (pH 7.4) door te roeren gedurende 1 tot 2 uur. Herhaal dit proces tot de suspensie een pH van 7.0 bereikt na de filtering. 3. Laat de PVPP overnacht aan de lucht drogen. 4. Voeg 2.5 g (nat gewicht) van het sediment toe aan 7.5 ml van 0.1 M nitraat fosfaat buffer (pH 8.0) en 0.5 g met zuur gewassen PVPP. 5. Homogeniseer de stalen met een horizontale shaker aan een lage snelheid (150 horizontale shakes per min) gedurende drie 1-min cycli, met 1 min koeling van de stalen op ijs tussen elke cyclus. 6. Voeg SDS (finale concentratie 0.1%) toe en schud de stalen gedurende 10 s. 7. Laat de stalen afkoelen op ijs en centrifugeer ze (500 x g) voor 10 min bij 4°C. 8. Breng het supernatans over naar steriele buisjes. 9. Was de pellets 2x of meer door 7.5 ml van de 0.1 M nitraat fosfaat buffer (pH 8.0) toe te voegen en centrifugeer zoals hierboven beschreven, zonder SDS toe te voegen. 10. Voeg de supernatants samen en centrifugeer (10 000 x g) voor 20 min bij 4°C. 11. Filter de supernatans (extracellulair DNA) met 0.02 µm-porie-grootte membraan filters (Anotop 25; Whatman) voor het verwijderen van eventuele contaminerende virus- of bacteriële cellen. 12. De pellets die het intracellulair DNA bevatten werden verder verwerkt zoals beschreven door (Zwart et al, 1998). 13. Precipiteer het extracellulair DNA door 1 volume cetyltrimethylammonium bromide (CTAB) oplossing toe te voegen (1% CTAB in 50 mM Tris-10 mM EDTA, pH 8.0) 14. Incubeer de stalen voor 30 min bij 65°C en centrifugeer (5000 x g) voor 10 min bij 4°C 15. Verwijder de supernatans en suspendeer de pellet in een hoog-zout TE buffer (10 mM Tris-HCL, 0. mM EDTA, 1 M NaCL; pH 8.0). 16. Voeg 0.6 volume koud isopropanol toe aan elke staal en incubeer de stalen voor 1 uur op ijs. 17. Centrifugeer de stalen (10 000 x g) voor 15 min bij 4°C. 18. Resuspendeer de pellets in 10 mM Tris-HCL-0.1 mM EDTA (pH 8.0) en voeg een gelijk volume van fenol-chloroform-isoamyl alcohol (25:24:1, vol/vol/vol) toe. 19. Centrifugeer de voorbereidingen bij 10 000 x g voor 5 min. 92 Bijlagen 20. Mix elke supernatans met een gelijk volume chloroform-isoamyl alcohol (24:1, vol/vol) en centrifugeer opnieuw. 21. Precipiteer het supernatans met koude ethanol (finale concentratie 70%) en nitraat chloride (finale concentratie 0.2 M). 22. Incubeer bij -20°C voor 1 uur en centrifugeer bij 10 000 x g voor 15 min. 23. Was de pellet 2x met ethanol, droog onder vacuum en resuspendeer in MilliQ water. Extractie van intracellulair DNA (Zwart et al, 1998): 1. Filter 50 ml van elke staal met een polycarbonaat membraan filter (0.2) lm cutoff en 2.5 cm diameter (BA83 Schleider en Schuell, dassel, Duitsland). 2. Knip de filter in twee met een steriele scalpel en bewaar beide helften in een microcentrifuge buisje bij -80°C. 3. Lyseer de cellen: voeg 0.5 g zirconium beads (0.1 mm diameter) , 0.5 ml TE buffer (10 mM Tris, pH 7.6, 1 mM EDTA) en 0.5 ml gebufferde fenol (pH 7 tot 8) toe aan de buisjes met de filter in. Shake de buisjes krachtig (5000 rpm) op een Mini Bead-beater (Biospec Products, Bartlesville, OK, USA) voor 2 min en koel de buisjes tussendoor op ijs. 4. Centrifugeer de buisjes voor 5 min aan 10 000 x g. 5. Verzamel de bovenste aquatische fase en behandel de buisjes tweemaal met fenolchloroform-isoamylalcohol (25:24:1) om meer te extraheren. 6. Precipiteer het DNA door één tiende volume van 3 M nitraatacetaat (pH 5)toe te voegen en twee volumes van 96% (v/v) ethanol. 7. Centrifugeer voor 30 min aan 14 000 x g. 8. Los het DNA op in water en zuiver het op m.b.v. een Wizard kolom (Promega, Madison, WI, USA) volgens de aanbevelingen van de fabrikanten. 93
© Copyright 2024 ExpyDoc