DISS. ETH NO. 22293 Gene copy number variation among and within plant species A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH Zurich) Presented by Xuanyu Liu M.S. in Cell Biology, Chinese Academy of Sciences Born on April 10th, 1985 Citizen of China Accepted on the recommendation of Prof. Dr. Alex Widmer, examiner Prof. Dr. Ute Krämer, co-examiner Dr. Weihong Qi, co-examiner Dr. Alessia Guggisberg, co-examiner 2014 Summary SUMMARY For more than a century, biologists have sought to understand the origins, adaptive mechanisms and evolutionary processes underlying genomic variation within and among species. So far, our knowledge about these aspects, however, has been mainly limited to one type of genomic variation, i.e. single nucleotide polymorphisms (SNPs). There is growing evidence that another class of genomic variation, gene copy number variation (GCNV, a.k.a. gene family size variation), is pervasive and contributes to environmental adaptation and organismal diversification. While substantial progress has been made in animal studies, our understanding about GCNV in plants is still limited. In this thesis, I investigated several questions surrounding GCNV, both within and among plant species. Firstly, I performed an evolutionary analysis of gene family size variation among five Brassicaceae species that diverged relatively recently using a likelihood approach. The average rate of gene gain-and-loss (λ) was estimated to be 0.0022 gains and losses per gene per million years, which corroborates the view that gene gain-and-loss evolves at similar average rate across different eukaryotic lineages. Branch-specific rate estimation further supported my hypothesis that plant mating system may influence the rate of gene gain-and-loss. Gene families that were inferred to have been evolving rapidly in size were found to be mainly involved in plant-pathogen/herbivore interactions and pollen-pistil interactions, and exhibited a high incidence of positive selection acting at the nucleotide level. Finally, I showed that gene gains via tandem duplication predominantly contributed to the adaptive evolution of gene family size. Secondly, I pursued my investigations on GCNV among plant species, but over a much longer evolutionary time-scale in an individual gene family. The expansion and diversification of the GRAS gene family in Populus was investigated through comparative analyses with Arabidopsis and rice. I detected 106, 34 and 60 putative GRAS genes in Populus, Arabidopsis and rice, respectively, which could be grouped into 13 subfamilies. The joint action of tandem and segmental duplications could explain the rapid expansion of the GRAS family in Populus, while site-specific shifts in evolutionary rates might constitute the main driver in functional diversification. The observation that GRAS genes evolved mainly under purifying selection after duplication however revealed strong functional constraints. Expression divergence analyses between paralogous pairs of GRAS genes finally suggested that their retention likely resulted from functional novelty such as neo-functionalization or sub-functionalization. Finally, I investigated copy number variants (CNVs) in Arabidopsis lyrata. Using three different sequencing-based approaches (read depth, read pair and split read), I identified 1,513 tandem duplications and 42,945 deletions among 24 individuals from eight natural populations. Dynamic genome evolution via frequent gene copy gains and losses due to CNVs was revealed, and defense-related genes were found particularly sensitive to these changes. Abundant functional novelty may be achieved by CNV-mediated gene fusions that preferentially happened between paralogous genes. Formation mechanism analyses further revealed that a much higher percentage of deletions originated by non-allelic homologous recombination (NAHR) in A. lyrata (7.5%) than in Drosophila (1%), a likely consequence of the abundant, highly conserved syntenic blocks within angiosperm genomes resulting from several rounds of polyploidization events. Candidate CNVs affecting genes interacting with soil chemicals, such as genes encoding sulfate transporter, ligand-gated ion channel, and high-affinity potassium ion transporter, were found to exhibit high allele frequency differences between plants of A. lyrata from different bedrocks, implying their putative involvement in edaphic adaptation. Overall, this thesis contributes to our understanding about the origin, evolution and adaptive importance of GCNV in plants. It constitutes the first genome-wide perspective on gene family size evolution among closely related plant species. Of particular interest is the possible interplay found for the first time between plant mating system and the dynamics of gene gain-and-loss. This thesis also provides the first comprehensive analysis of the GRAS gene family in a woody tree species, as well as the first sequencing-based CNV map for A. lyrata. I Zusammenfassung ZUSAMMENFASSUNG ∗ Seit mehr als einem Jahrhundert haben Biologen versucht, die genomische Variation innerhalb und zwischen den Arten zu verstehen in dem sie die Herkunft, die adaptiven Mechanismen und die evolutionären Prozesse untersuchten. Unser Wissen über diese Aspekte ist jedoch hauptsächlich auf eine Art von genomischer Variation beschränkt: die Einzelnukleotide-Polymorphismen (engl. Single Nucleotide Polymorphisms, SNPs). Es gibt aber immer mehr Hinweise, dass auch die Variation in der Anzahl der Genkopien (GCNV, auch bekannt als Größenvariation der Genfamilie), allgegenwärtig ist und zur Umgebungsanpassung und organismischen Diversifikation beiträgt. Während erhebliche Fortschritte in Tiersystemen gemacht worden sind, ist unser Verständnis der GCNV in Pflanzen noch sehr begrenzt. In dieser Arbeit untersuchte ich mehrere Fragen rund um GCNV innerhalb und zwischen Pflanzenarten. Zunächst führte ich eine evolutionäre Analyse zur Variation der Grösse in Genfamilien in fünf Brassicaceae Arten durch, die vor relativ kurzer Zeit voneinander divergierten. Die Durchschnittsrate von Gen-Gewinnen und Verlusten (λ) wurde auf 0,0022 Gewinne und Verluste pro Gen pro Million Jahren geschätzt, was die Ansicht, dass Gen Gewinne-und Verluste ähnliche durchschnittliche Entstehungsraten in verschiedenen eukaryotischen Abstammungslinien haben, bestätigt. Gruppenspezifische Schätzungen unterstützen die Hypothese, dass das Paarungssystem die Rate von Gen-Gewinnen und Verlusten beeinflussen kann. Gen-Familien, bei denen man annimmt, dass sie sich auf Grund positiver Selektion auf der Nukleotid-Ebene schnell entwickelt haben, sind insbesondere involviert in Pflanzen-Pathogen, Pflanzen-Herbivoren und Pollen-Stempel Wechselwirkungen. Schließlich konnte ich zeigen, dass Gen-Gewinne durch Tandemduplikation überwiegend zur adaptiven Evolution der Größe der Genfamilie beigetragen. Zweitens untersuchte ich GCNV in Pflanzenarten über eine viel längere evolutionäre Zeitskala in einer einzelnen Gen-Familie. Die Evolution und die Diversifizierung der GRAS Genfamilie in Pappeln (Populus) wurde durch vergleichende Analysen mit Arabidopsis und Reis untersucht. Ich fand 106, 34 und 60 mutmaßliche GRAS Gene in Populus, Arabidopsis und Reis, die in 13 Unterfamilien gruppiert werden konnten. Der gemeinsame Effekt von Tandem- und Segmentduplikationen könnte die rasche Expansion der GRAS Familie in Populus erklären, während positionsspezifischen Änderungen in den Evolutionsraten die wichtigste treibende Kraft in der funktionellen Diversifizierung sein könnten. Die Beobachtung, dass GRAS Gene nach der Verdopplung hauptsächlich unter reinigender Selektion (engl.: purifying selection) evolvieren, ergab jedoch einen Hinweis auf starke funktionale Einschränkungen. Expressions-Divergenz-Analysen zwischen paralogen Paaren der GRAS Gene legte schließlich nahe, dass ihre Erhaltung wahrscheinlich durch funktionelle Neuheit bedingt wurde, wie etwa neo-Funktionalisierung oder Unter-Funktionalisierung. Schließlich untersuchte ich die Variation in der Anzahl von Kopien (CNV) in Arabidopsis lyrata. Mit drei verschiedenen sequenzbasierten Ansätze (read depth, read pair and split read), identifizierte ich 1.513 Tandemduplikationen und 42.945 Deletionen in 24 Individuen aus acht natürlichen Populationen. Dynamische Genomevolution durch häufige Gen-Kopie-Gewinne und -Verluste aufgrund von CNVs wurden entdeckt, und Gene, die in die Immunabwehr involviert sind, waren überproportional von solchen CNVs betroffen. Funktionale Neuheit kann durch CNV vermittelte Gen-Fusionen erreicht werden, welche bevorzugt zwischen ∗ Translated by Sonja Hassold. II Zusammenfassung paralogen Genen auftritt. Analysen zu Bildungsmechanismen ergab weiter, dass ein viel höherer Prozentsatz von Deletionen von nicht-allelischen homologen Rekombinationen (NAHR) in A. lyrata (7,5%) herrührt als in Drosophila (1%), was wahrscheinlich eine Folge der reichlich vorhandenen und stark konservierten syntenische Blöcke innerhalb der Angiospermen Genome ist, welche aus mehreren Polyploidisierungsrunden entstanden sind. Grosse Unterschiede in der Allelfrequenz in A. lyrata, welche auf verschiedenen Gesteinen (sauer-basisch) wuchsen, wurden gefunden. Die involvierten CNV Kandidaten beeinflussen Gene, die in die Interaktion mit Bodenchemikalien involviert sind (Sulfat Transporter, ligandengesteuerter Ionenkanal und hochaffiner Kaliumionentransporter). Dies führte zur Annahme, dass diese Gene an der edaphischen Anpassung beteiligt sind. Insgesamt trägt diese Arbeit zum Verständnis über die Entstehung, Entwicklung und Bedeutung der adaptiven GCNV in Pflanzen bei. Es ist die erste genomweite Analyse zur Evolution der Grösse in Genfamilien in eng verwandten Pflanzenarten. Von besonderem Interesse ist das mögliche Zusammenspiel zwischen dem Paarungs-System in Pflanzen und der Dynamik der Gen-Gewinne und -Verluste, welches hier zum ersten Mal gefunden wurde. Diese Arbeit umfasst die erste detaillierte Analyse der GRAS Genfamilie in einer Holzpflanze, sowie die erste sequenzbasierte CNV Karte für A. lyrata. III
© Copyright 2024 ExpyDoc