Next Generation Sequencing

Next Generation Sequencing
Unter „Next Generation Sequencing“ (NGS) werden verschiedene neue Technologien
zusammengefasst, die nicht auf kapillar basierenden Sequenzierautomaten beruhen. Das 1990
ins Leben gerufene „Humane Genome Project“ (HGP), das die komplette Sequenzierung des
menschlichen Genoms zur Zielsetzung hatte, basierte noch ausschließlich auf
Kapillarsequenzierautomaten in Kombination mit der von Sanger entwickelten
Didesoxymethode (Kettenabbruch-Synthese). Der technische Fortschritt seit Beendigung des
HGP im Jahr 2003 hat sowohl die Geschwindigkeit als auch den Umfang der DNASequenzierung um mehrere Größenordnungen gesteigert, sodass heute ein menschliches
Genom in wenigen Wochen und mit einem Bruchteil der Kosten sequenziert werden kann.
Aber auch dies ist nur ein weiterer Zwischenschritt zum „1.000 Dollar Genom innerhalb eines
Tages“, das in unmittelbarer Nähe scheint. NGS ermöglicht heute eine Vielzahl
unterschiedlicher Anwendungen, welche zusammengenommen in der biologischen Forschung
und der molekulargenetischen Diagnostik zu enormen Veränderungen geführt haben.
Bei der NGS-Technologie kann man entweder das gesamte Genom sequenzieren oder durch
Anreicherungsverfahren z.B. alle Exons bzw. eine Gruppe verschiedener Gene für eine
Person oder für viele Personen das selbe Gen gleichzeitig. Bei der Sequenzierung werden
viele kurze DNA-Sequenzen ermittelt, der Computer bastelt diese dann wie bei einem Puzzle
durch überlappende Sequenzabschnitte zusammen.
Next Generation Sequenzer benötigen zwar länger für einen Sequenzlauf (je nach Platform
und Laufbedingung zwischen 8 Stunden und 10 Tage), was durch die Notwendigkeit bedingt
ist die einzelnen Sequenzreaktionen in paralleler Anordnung (bis mehrere Millionen
Positionen) gleichzeitig laufen zu lassen und auszulesen. Die Ausbeute an Sequenzspuren und
Gesamtbasen pro Lauf ist im Vergleich zu Kapillarsequenzautomaten die maximal über 94
Kapillaren verfügen und pro Kapillare bis zu 750 Nukleotidbasen lesen können (also maximal
72.000 Basen pro Lauf) um mehrere Größenordnungen höher.
In der praktischen Anwendung werden im Wesentlichen drei NGS-Ansätze unterschieden
(Whole genome, whole exome und panels). Neben des Umfangs der erfassten Sequenzen
unterscheiden sich die Verfahren vor allem in der Genauigkeit bzw. der sog. Coverage. Die
Coverage sagt wie oft eine bestimmte Postion im Genom (Nukleotid oder Base) in der
Analyse sequenziert wurde. Bei Ansätzen die das gesamte Genom erfassen liegt die Coverage
bei ca. durchschnittlich 5, d.h. jede dass das gesamte Genom wurde ca. 5x sequenziert. Mit
diesem Ergebniss kann man für eine Position z.B. 4x die Base Adenin und 1x die Base
Cytosin als Signal erhalten, die kann tatsächlich eine heterozygote Situation für Adenin und
Cytosin sein, es kann aber für Cytosin einfach auch ein Fehler sein.
Whole genome Sequenzing
Die Analyse des gesamten Genoms ist daher nur für eine hohe Anzahl an Patienten mit der
gleichen Fragestellung sinnvoll, da so bei der Fülle der Daten statistische Auswertungen
möglich sind und Sequenzsignale erst ab einer bestimmten Rate (call rate) gewertet werden.
Für den diagnostischen Ansatz ist eine coverage von 5 keinesfalls ausreichend.
Dieses Verfahren wird vor allem bei Assoziationsstudien verwendet, somit also ausschließlich
in wissenschaftlichen Projekten. In Assoziationsstudien werden vor allem bei polygen
vererbten Erkrankungen Assoziationen zu Sequenzvarianten gesucht, meist sogenannten
Polymorphismen. Als Erkrnakungsbeispiele sind hier bekannte Prädispositionen wie Diabetes
mellitus Typ 2, bipolare Erkrankungen, Mammakarzinom, Prostatakarzinom,
rheumatologische Erkrankungen, aber auch scheinbar nicht erbliche Erkrankungen wie z.B.
die Sarkoidose zu nennen. Bei fast allen Erkrankungen, die ausschließlich exogene Ursachen
haben ist eine genetische Prädisposition zu vermuten, die Aufklärung dieser
Exome-Sequenzing
Bei der Analyse des Exoms werden die nur die exonischen Sequenzen analysiert, das
menschliche Genom enthält etwa 180.000 Exons in ca. 20.000 verschiedenen Genen. Um nur
die Exons sequenzieren zu können müssen die entsprechenden Sequenzen aus dem Genom
angereichert werden. Hierzu muß man mit für alle Exons spezifischen Sonden die zu
sequenzierenden Sequenzen aus dem Genom fischen. Dieser analytische Ansatz wird
vorwiegend in der Forschung zunehmend aber auch in der Diagnostik verwendet. Die
coverage liegt durchschnittlich bei 40-50. Eine durchschnittliche Coverage von 40 bedeutet
aber, dass es viele Abschnitte in einzelenen Exons gibt, die deutlich unter dieser Coverage
bleiben und somit nicht mit einer diagnostischen Sensitivität von 50 sequenziert wurden. Will
man dieses Verfahren in der Diagnostik verwenden, wird man einzelne Bereiche von Hand
nachsequenzieren müssen. Folgende Fragestellungen werden mit der Exome-Sequenzierung
bearbeitet: die Frage nach dem Wiederholungsrisiko bei einem Kind mit einer schweren
Behinderung und einer entsprechenden neurologischen Symptomatik, dessen klinischer
Phänotyp sich keinem bekannten Syndrom zuordnen lässt. Durch die vergleichende Analyse
des Exoms der Eltern und des Kindes lassen sich autosomal rezessive Erkrankungen mit
einem 25%igen Wiederholungsrisiko von beim Kind neu aufgetretenen Mutationen
unterscheiden, letztere haben in der Regel kein erhöhtes Wiederholungsrisiko.
„Targeted Resequencing“
So können mit der NGS Technologie neben der oben erwähnten Analyse ganzer Genome
auch „Targeted Resequencing“ Ansätze gefahren werden, was speziell für die
molekulargenetische Diagnostik von Bedeutung ist. Dabei wird nicht das komplette Genom
eines Menschen sequenziert, sondern es werden die für die jeweilige Fragestellung relevanten
Bereiche des Genoms vorselektiert und dann sequenziert. Aufgrund des enormen Durchsatzes
können in solch einem Ansatz beispielsweise mehrere Dutzend Gene mehrerer Patienten
gleichzeitig analysiert werden. Die parallele Analyse mehrerer Gene die für ein bestimmtes
klinisches Erkrankungsbild ursächlich sind (z.B. Gene für Neuropathien oder
Tumorsuppressorgene) senkt die Bearbeitungszeit im Vergleich zur herkömmlichen SangerSequenzierung beträchtlich. Für die Vorselektion der entsprechenden Gene stehen dabei
mehrere Methoden zur Verfügung. So kann beispielsweise nach einer Anreicherung der für
Gene kodierenden DNA-Abschnitte (Exons, mit flankierenden intronischen Bereichen) eine
„Whole Exome Analyse“ gefahren werden, was im Vergleich zum gesamten Genom nur
einen Bruchteil an erzeugten Daten verursacht (ca. 5%).
Da man bei einer rein diagnostischen Sequenzierung eine zuverlässige Coverage von 50 über
alle zu analysierenden Sequenzen braucht werden die zu analysierenden Gene in sog. Panels
zusammengefasst. Hierzu definiert man die zu analysierenden Gene (panel), etabliert für alle
Abschnitte des Gens einzelne PCRs, diese PCRs werden dann in einem Mutliplex-Ansatz
amplifiziert und anschließend sequenziert. Die Etablierung der Multiples-PCR stellhier einen
sehr hohen Aufwand dar, es ist nicht ohne weiteres möglich ein neues Gen in das panel
einzuschließen. Durch die Anpassung der PCRs an die Sequenziereigenschaften ist es aber
möglich eine relativ gleichmäßige und hohe Coverage über die zu analysierenden Exons zu
erreichen.
„Whole Transcriptome Analyse“
Weitere Anwendungen des NGS stellen die „Whole Transcriptome Analyse“ dar. Bei der
„Whole Transcriptome Analyse“ werden im Gegensatz zum WGS (das unselektiert die
gesamte DNA inklusive nicht-kodierender Bereiche analysiert) nur die tatsächlich in RNA
transkribierten Sequenzen sequenziert. Dies ermöglicht u.a. den Vergleich der Genexpression
in verschiedenen Geweben (z.B. Tumor- gegen Normalgewebe). Die Analyse des
Transkriptoms per NGS ermöglicht außerdem die sensitive und kostengünstige quantitative
Bestimmung der Genexpression mittels „Serial analysis of gene expression“ (SAGE) im
großen Maßstab, was u.a. für die Analyse neuer, alternativ gespleißter Gen-Isoformen von
Bedeutung ist.
Nachfolgend werden für den interessierten Leser zunächst die drei zur Zeit am häufigsten
verwendeten NGS-Platformen (Roche 454 FLX, Illumina/Solexa GSII und Applied
Biosystems SOLiD) vorgestellt (siehe auch Tabelle XX) bevor die wichtigsten
Anwendungsbereiche der NGS-Technologie angesprochen werden. Vorteile hierbei sind eine
dramatische Zeitersparnis und das Vermeiden einer Bias durch die Amplifikation.
Roche 454 FLX
Der Roche 454 FLX Sequenzer war 2004 das erste kommerziell auf dem Markt verfügbare
NGS-Gerät und verwendet als eine alternative Sequenziertechnologie die als
Pyrosequenzierung (siehe Abb. X) bezeichnet wird.
Das Roche-System erzeugt mit der aktuellen Titaniumchemie (Stand 01.2010) die größten
Leseweiten aller NGS-Geräte (bis 500 bp, siehe Tabelle XX) und ist deshalb insbesondere für
die Analyse von Strukturvarianten geeignet. Außerdem zeichnet es sich durch eine hohe
Qualität der Daten aus.
Die Erzeugung der für die Sequenzierung notwendigen DNA-Library erfolgt zunächst durch
Fragmentierung der DNA und Ligation an spezifische Adaptersequenzen. Durch Inkubation
der DNA-Fragmente mit einem Überschuss an Agarosebeads, die zu den Adaptersequenzen
komplementäre Oligonukleotide tragen, findet eine spezifische Bindung eines DNAFragments an genau ein Agarosebead statt. Die anschließende klonale Amplifikation in einer
Öl/Wasser Micelle („Emulision PCR“), die neben den beladenen Agarosebeads auch die für
die PCR nötigen Reagenzien enthält, erzeugt ca. 1 Million Kopien auf der Oberfläche jedes
Beads. Die eigentliche Sequenzreaktion findet dann in einer Mikrotiterplatte statt in der jedes
Bead eine fixe Position belegt und die im Gerät als Flow Cell fungiert auf der in
aufeinanderfolgenden Schritten Lösungen aus reinen Nukleotiden, DNA-Polymerase und
Puffern aufgebracht und abgewaschen werden können. Dabei wird jeder Nukleotideinbau
durch die Abspaltung von Pyrophosphat begleitet, was letztendlich zur Emission von Licht
durch das Enzym Luciferase führt. Der Betrag an emittierten Licht ist dabei proportional zur
Zahl inkorporierter Nukleotide. Die Einbau jedes einzelnen Nukleotids kann dann über die
Pyrophosphat vermittelte Lichtemission mittels einer CCD-Kamera gemessen werden. Bei der
Sequenzierung werden allen beads gleichzeitig z.B. Cystosintriphosphat angeboten, dies kann
aber nur da eingebaut werden wo gerade in der Sequenzierreaktion ein Cytosin zum
Komplemetärstrang passt, es werden daher bei diesem Schritt nur diejenigen beads Licht
emmitieren, bei denen ein Cytosin eingebaut wurde. Zur Sequenzierung werden so der Reihe
nach alle Nukleotide immer wieder angeboten.
Abbildung X: Next
Generation
Sequencing Roche
454 FLX:
A: Physikalische Fragmentierung der DNA und Ligation mit zwei verschiedenen Adaptern A
und B. Die DNA-Fragmente werden thermisch denaturiert und als Einzelstränge über Adapter
B an Agarosepartikel (beads) gebunden. B: Die beads werden in einer sehr kleinen Menge
wässriger Phase in Öl gelöst, hier findet die PCR statt. C: Jedes Wassertröpfchen mit bead
und PCR-Produkt wird in eine einzelne Flow Cell gespült, hier findet die Sequenzreaktion
statt. Dem Sequenzierprimer A und den Enzymen werden in allen Flow Cells gleichzeitig z.B
Cytosintriphosphat angeboten, das beim Einbaus des Nukleotids frei werdende Pyrophosphat
wird von Luziferase gespalten , es wird Licht emittiert, dieses wird mit einer CCD-Kamera
aufgezeichnet. In einem nächsten Schritt weden alle Flow Cells gewaschen, es folgt eine
Sequenzierreaktion z.B. mit Adenin, gefolgt von den anderen Nukleotiden.
Illumina/Solexa Genome Analyzer II
Die Library-Erzeugung für das Illumina-System startet wie bei allen NGS-Platformen mit
einer Fragmentierung der DNA gefolgt von einer Adapterligation – in Falle von Illumina
werden jedoch die selben Adapter an beide DNA-Enden ligiert. Die klonale Amplifikation der
einzelnen DNA-Moleküle findet dann auf der Oberfläche einer mit komplemetären
Adapteroligonukleotiden beschichteten Flow Cell im sog. „Bridge amplification“ Verfahren
statt (Details siehe Abb. X). Die Sequenzierung der Amplifikate beruht dabei auf dem sog.
„sequencing-by-synthesis“ Verfahren, bei dem alle 4 mit unterschiedlichen
Fluoreszenzmarkern gelabelten Nukleotide zusammen mit der DNA-Polymerase auf die Flow
Cell gegeben werden. Bei jedem Zyklus wird nur ein Nukleotid in die an die
Adapteroligonukleotide gebundenen Amplifikate eingebaut und detektiert, da das 3-OH Ende
der Nukleotide chemisch geblockt ist (dies verhindert eine durchgehende Synthese). Nach
Entfernen der nicht inkorporierten Nukleotide und der Polymerase wird die 3-OHSchutzgruppe chemisch entfernt und ein neuer Zyklus kann beginnen. Das Illumina-System
kann in einem Lauf bis zu 270 Millionen Sequenzen liefern, die eine Leseweite von bis zu
100 Basen aufweisen. Ein Paired End Lauf (ein DNA Fragment wird von beiden Seiten
ansequenziert) erzeugt auf diese Weise bis zu 27 Gb an Sequenzdaten – dies ist ein neben der
sehr einfachen Probenvorbereitung der Hauptvorteil dieser Technologie.
Abbildung : Next Generation Sequencing Ilumina: A: An physikalisch fragmentierte DNA
werden Adapter ligiert, die DNA-Fragmente weden dann als Einzelstränge über die Primer an
eine Oberfläche gebunden. Da an beiden Enden der DNA-Fragmente die gleichen Primer
gebunden haben, werden die DNA-Fragmente kleine Brücken auf der Oberfläche bilden. Auf
diesen Brücken findet dann die PCR statt. B: Es werden alle vier Nukleotide mit
unterschiedlichen Fluoreszenzfarbstoffen angeboten, Cytosinriphosphat z.B. blau. Bei den
Nukleotiden ist die 3`-OH-Gruppe geblockt, es kann daher bei jeden Syntheseschritt nur ein
Nukleotid eingebaut werden. Je nach dem wo auf der Oberfläche die DANN-Fragmente
gebunden haben, werden von dort immer dann, wenn ein Nukleotid eingebaut wurdeimmer
wieder Fluoreszenzsignale ausgesendet werden. Es entsteht also in der Anordnung der
Fragmente ein Image von Punkten in der Kamera was nach jedem Sequenzierschritt
aufgezeichnet wird.
Applied Biosystems SOLiD Sequencer
Auch die SOLiD-Platform startet mit einer DNA-Fragmentierung und einer Adapterligation
zur Erzeugung der Library und nutzt wie das Roche 454 FLX-System eine Emulsion-PCR,
jedoch mit magnetic-beads. Das SOLiD-System verwendet als Sequenzierprinzip ein
Verfahren, das als „Sequencing-by-ligation“ bezeichnet wird (Details siehe Abb. x). In der
eigentlichen Sequenzierung, die in 2 Flow Cells pro Lauf abläuft, wird eine Lösung
fluoreszentgelabelter Oktamere zusammen mit der für die Sequenzierung notwendigen
Reagenzien verwendet. Das Prinzip beruht dabei auf der Tatsache, das die ersten beiden
Positionen des Oktamers die Dekodierung der Template DNA vermitteln, es müssen immer
zwei benachbarte Nukleotide durch die ersten beiden Positionen der Oktamere korrekt erkannt
werden. Somit kann gegenüber den anderen Systemen theoretisch eine bessere
Diskriminierung der einzelnen Basen ermöglicht werden. Ein weiteres Charakteristikum der
SOLiD-Methode ist die Verwendung von fünf jeweils um ein Nukleotid kürzere Primersets,
die nacheinander in der Sequenzierung verwendet werden („Primer Reset“). Dadurch wird pro
Template eine fünffache Abdeckung erzielt, was die Genauigkeit weiter steigert. Ein typischer
SOLiD-Lauf erzeugt ca. 320 Mio Sequenzdaten (aus bis zu 600 Mio Reads).
Abbildung: Next Generation Sequencing Applied Biosystems SOLiD: A: An die DNAFragmente werden Adapter ligiert, die thermisch denaturierten Einzelstränge werden über die
Adapter an magnetic beads gebunden. Die beads mit einem DNA-Fragment werden in
einzelne Flow Cells gespült. Zur Sequenzierung werden Primer auf die Adaptersequenzen
ligiert. In einem nächsten Schritt werden kurze synthestische DNA-Fragmente (Oktamere)
angeboten, wobei die ersten beiden Nukleotide dieser Fragmente definiert sind, z.B. „AT“ ,
was durch eine Fluoreszenzfarbstoff verschlüsselt ist. Die übrigen Nukleotide des Oktamers
sind zufällig synthetisiert. Das zur komlementären Sequenz passende Oktamer wird an den
Primer ligiert, die nicht gebundenen Oktamere werden abgewaschen, das Fluoreszenzsignal
des gebundenen Primers wird detektiert. Im nächsten Schritt wird das Fluoreszenzsignal am
3`-Ende des gebungenen Oktamers entfernt damit dann das nächste Oktamer binden kann.
Diese Schritte werden mehrfach wiederholt. Eine lesbare Sequenz entseht durch die
Wiederholung der Schritte an einem um jeweils ein Nukleotid verkürzten Primer und das an
diesem Primer wiederholte auslesen der Octamerligierungen. B: Entschlüsselung der
Farbcodes: Nach jeder Ligierung werden die Farbcodes der einzelnen Reaktionen
aufgezeichnet. Die ersten beiden Nukleotide sind mit einem definierten Farbcode
verschlüsselt z.B. erstes Nukleotid A und zweites Nukleotid A ist blau. Die möglichen
Kombinationen von zwei Nukleotiden für einen blauen Punkt kann man dem Schema
entnehmen, für jeden Punkt gibt es vier Kombinationsmöglichkeiten. Mit dieser Information
alleine könnte mann keine Sequenz sicher definieren, dies wird ermöglicht, indem die
gesamte Prozedur mit einem n-1-Primer, dann n-2-Primer usw. wiederholt wird. Die sich
daraus ergebenden Farbcodes werden entschlüsselt und eine Sequenz definiert. Diese
Verfahren benötigt eine enorme Rechnerleistung.
Tabellarischer Vergleich der NGS-Platformen
Laborwelt Nr.3/2009 B. Timmermann