Gene copy number variation among and within plant species

DISS. ETH NO. 22293
Gene copy number variation among and within plant species
A thesis submitted to attain the degree of
DOCTOR OF SCIENCES of ETH ZURICH
(Dr. sc. ETH Zurich)
Presented by
Xuanyu Liu
M.S. in Cell Biology, Chinese Academy of Sciences
Born on April 10th, 1985
Citizen of China
Accepted on the recommendation of
Prof. Dr. Alex Widmer, examiner
Prof. Dr. Ute Krämer, co-examiner
Dr. Weihong Qi, co-examiner
Dr. Alessia Guggisberg, co-examiner
2014
Summary
SUMMARY
For more than a century, biologists have sought to understand the origins, adaptive mechanisms and evolutionary
processes underlying genomic variation within and among species. So far, our knowledge about these aspects, however,
has been mainly limited to one type of genomic variation, i.e. single nucleotide polymorphisms (SNPs). There is
growing evidence that another class of genomic variation, gene copy number variation (GCNV, a.k.a. gene family size
variation), is pervasive and contributes to environmental adaptation and organismal diversification. While substantial
progress has been made in animal studies, our understanding about GCNV in plants is still limited. In this thesis, I
investigated several questions surrounding GCNV, both within and among plant species.
Firstly, I performed an evolutionary analysis of gene family size variation among five Brassicaceae species that
diverged relatively recently using a likelihood approach. The average rate of gene gain-and-loss (λ) was estimated to be
0.0022 gains and losses per gene per million years, which corroborates the view that gene gain-and-loss evolves at
similar average rate across different eukaryotic lineages. Branch-specific rate estimation further supported my
hypothesis that plant mating system may influence the rate of gene gain-and-loss. Gene families that were inferred to
have been evolving rapidly in size were found to be mainly involved in plant-pathogen/herbivore interactions and
pollen-pistil interactions, and exhibited a high incidence of positive selection acting at the nucleotide level. Finally, I
showed that gene gains via tandem duplication predominantly contributed to the adaptive evolution of gene family size.
Secondly, I pursued my investigations on GCNV among plant species, but over a much longer evolutionary time-scale
in an individual gene family. The expansion and diversification of the GRAS gene family in Populus was investigated
through comparative analyses with Arabidopsis and rice. I detected 106, 34 and 60 putative GRAS genes in Populus,
Arabidopsis and rice, respectively, which could be grouped into 13 subfamilies. The joint action of tandem and
segmental duplications could explain the rapid expansion of the GRAS family in Populus, while site-specific shifts in
evolutionary rates might constitute the main driver in functional diversification. The observation that GRAS genes
evolved mainly under purifying selection after duplication however revealed strong functional constraints. Expression
divergence analyses between paralogous pairs of GRAS genes finally suggested that their retention likely resulted from
functional novelty such as neo-functionalization or sub-functionalization.
Finally, I investigated copy number variants (CNVs) in Arabidopsis lyrata. Using three different sequencing-based
approaches (read depth, read pair and split read), I identified 1,513 tandem duplications and 42,945 deletions among 24
individuals from eight natural populations. Dynamic genome evolution via frequent gene copy gains and losses due to
CNVs was revealed, and defense-related genes were found particularly sensitive to these changes. Abundant functional
novelty may be achieved by CNV-mediated gene fusions that preferentially happened between paralogous genes.
Formation mechanism analyses further revealed that a much higher percentage of deletions originated by non-allelic
homologous recombination (NAHR) in A. lyrata (7.5%) than in Drosophila (1%), a likely consequence of the abundant,
highly conserved syntenic blocks within angiosperm genomes resulting from several rounds of polyploidization events.
Candidate CNVs affecting genes interacting with soil chemicals, such as genes encoding sulfate transporter,
ligand-gated ion channel, and high-affinity potassium ion transporter, were found to exhibit high allele frequency
differences between plants of A. lyrata from different bedrocks, implying their putative involvement in edaphic
adaptation.
Overall, this thesis contributes to our understanding about the origin, evolution and adaptive importance of GCNV in
plants. It constitutes the first genome-wide perspective on gene family size evolution among closely related plant
species. Of particular interest is the possible interplay found for the first time between plant mating system and the
dynamics of gene gain-and-loss. This thesis also provides the first comprehensive analysis of the GRAS gene family in
a woody tree species, as well as the first sequencing-based CNV map for A. lyrata.
I
Zusammenfassung
ZUSAMMENFASSUNG
∗
Seit mehr als einem Jahrhundert haben Biologen versucht, die genomische Variation innerhalb und zwischen den
Arten zu verstehen in dem sie die Herkunft, die adaptiven Mechanismen und die evolutionären Prozesse
untersuchten. Unser Wissen über diese Aspekte ist jedoch hauptsächlich auf eine Art von genomischer Variation
beschränkt: die Einzelnukleotide-Polymorphismen (engl. Single Nucleotide Polymorphisms, SNPs). Es gibt aber
immer mehr Hinweise, dass auch die Variation in der Anzahl der Genkopien (GCNV, auch bekannt als
Größenvariation der Genfamilie), allgegenwärtig ist und zur Umgebungsanpassung und organismischen
Diversifikation beiträgt. Während erhebliche Fortschritte in Tiersystemen gemacht worden sind, ist unser
Verständnis der GCNV in Pflanzen noch sehr begrenzt. In dieser Arbeit untersuchte ich mehrere Fragen rund um
GCNV innerhalb und zwischen Pflanzenarten.
Zunächst führte ich eine evolutionäre Analyse zur Variation der Grösse in Genfamilien in fünf Brassicaceae
Arten durch, die vor relativ kurzer Zeit voneinander divergierten. Die Durchschnittsrate von Gen-Gewinnen und
Verlusten (λ) wurde auf 0,0022 Gewinne und Verluste pro Gen pro Million Jahren geschätzt, was die Ansicht,
dass Gen Gewinne-und Verluste ähnliche durchschnittliche Entstehungsraten in verschiedenen eukaryotischen
Abstammungslinien haben, bestätigt. Gruppenspezifische Schätzungen unterstützen die Hypothese, dass das
Paarungssystem die Rate von Gen-Gewinnen und Verlusten beeinflussen kann. Gen-Familien, bei denen man
annimmt, dass sie sich auf Grund positiver Selektion auf der Nukleotid-Ebene schnell entwickelt haben, sind
insbesondere involviert in Pflanzen-Pathogen, Pflanzen-Herbivoren und Pollen-Stempel Wechselwirkungen.
Schließlich konnte ich zeigen, dass Gen-Gewinne durch Tandemduplikation überwiegend zur adaptiven
Evolution der Größe der Genfamilie beigetragen.
Zweitens untersuchte ich GCNV in Pflanzenarten über eine viel längere evolutionäre Zeitskala in einer einzelnen
Gen-Familie. Die Evolution und die Diversifizierung der GRAS Genfamilie in Pappeln (Populus) wurde durch
vergleichende Analysen mit Arabidopsis und Reis untersucht. Ich fand 106, 34 und 60 mutmaßliche GRAS Gene
in Populus, Arabidopsis und Reis, die in 13 Unterfamilien gruppiert werden konnten. Der gemeinsame Effekt
von Tandem- und Segmentduplikationen könnte die rasche Expansion der GRAS Familie in Populus erklären,
während positionsspezifischen Änderungen in den Evolutionsraten die wichtigste treibende Kraft in der
funktionellen Diversifizierung sein könnten. Die Beobachtung, dass GRAS Gene nach der Verdopplung
hauptsächlich unter reinigender Selektion (engl.: purifying selection) evolvieren, ergab jedoch einen Hinweis auf
starke funktionale Einschränkungen. Expressions-Divergenz-Analysen zwischen paralogen Paaren der GRAS
Gene legte schließlich nahe, dass ihre Erhaltung wahrscheinlich durch funktionelle Neuheit bedingt wurde, wie
etwa neo-Funktionalisierung oder Unter-Funktionalisierung.
Schließlich untersuchte ich die Variation in der Anzahl von Kopien (CNV) in Arabidopsis lyrata. Mit drei
verschiedenen sequenzbasierten Ansätze (read depth, read pair and split read), identifizierte ich 1.513
Tandemduplikationen und 42.945 Deletionen in 24 Individuen aus acht natürlichen Populationen. Dynamische
Genomevolution durch häufige Gen-Kopie-Gewinne und -Verluste aufgrund von CNVs wurden entdeckt, und
Gene, die in die Immunabwehr involviert sind, waren überproportional von solchen CNVs betroffen.
Funktionale Neuheit kann durch CNV vermittelte Gen-Fusionen erreicht werden, welche bevorzugt zwischen
∗
Translated by Sonja Hassold.
II
Zusammenfassung
paralogen Genen auftritt. Analysen zu Bildungsmechanismen ergab weiter, dass ein viel höherer Prozentsatz von
Deletionen von nicht-allelischen homologen Rekombinationen (NAHR) in A. lyrata (7,5%) herrührt als in
Drosophila (1%), was wahrscheinlich eine Folge der reichlich vorhandenen und stark konservierten syntenische
Blöcke innerhalb der Angiospermen Genome ist, welche aus mehreren Polyploidisierungsrunden entstanden sind.
Grosse Unterschiede in der Allelfrequenz in A. lyrata, welche auf verschiedenen Gesteinen (sauer-basisch)
wuchsen, wurden gefunden. Die involvierten CNV Kandidaten beeinflussen Gene, die in die Interaktion mit
Bodenchemikalien involviert sind (Sulfat Transporter, ligandengesteuerter Ionenkanal und hochaffiner
Kaliumionentransporter). Dies führte zur Annahme, dass diese Gene an der edaphischen Anpassung beteiligt
sind.
Insgesamt trägt diese Arbeit zum Verständnis über die Entstehung, Entwicklung und Bedeutung der adaptiven
GCNV in Pflanzen bei. Es ist die erste genomweite Analyse zur Evolution der Grösse in Genfamilien in eng
verwandten Pflanzenarten. Von besonderem Interesse ist das mögliche Zusammenspiel zwischen dem
Paarungs-System in Pflanzen und der Dynamik der Gen-Gewinne und -Verluste, welches hier zum ersten Mal
gefunden wurde. Diese Arbeit umfasst die erste detaillierte Analyse der GRAS Genfamilie in einer Holzpflanze,
sowie die erste sequenzbasierte CNV Karte für A. lyrata.
III