Folien und Supplementals auf www.BioKemika.de Folien und Supplementals auf www.BioKemika.de Motivation • Die Link-Liste auf ExPASy bietet eine gute Übersicht – man verliert sich aber leicht. • Es gibt viele spezifische Datenbanken, aber mit einer geringen Auswahl an Datenbanken von allgemeiner Bedeutung kommt man schon sehr weit. Diese sollen hier besprochen werden. Zielsetzung Für verschiedene Datenbanken von allgemeiner Bedeutung soll angerissen werden: • Übersicht über Datenbestand: Ursprung, Relevanz, Vollständigkeit? • Wie stelle ich eine korrekte Suchanfrage? • Welche zusätzlichen Funktionen bietet die Datenbank? Allgemeine Konzepte und Probleme der angewandten Bioinformatik in Zusammenhang mit Datenbanken: • Einblick in die Sortierung und Klassifizierung von Daten. • Einblick in das Daten-Sharing zwischen Datenbanken. • Weitere Probleme der Bioinformatik: Redundanz, Kontrolle/Überprüfung der Daten Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone UniProt Universal Protein Resource • UniProt enthält Protein-Sequenzen und erläuternde funktionelle Informationen. • Es handelt sich um die größte und bekannteste bioinformatische Datenbank für Proteine. • Das UniProt Consortium besteht aus der Kollaboration zwischen EBI, SIB (Entwickler von ExPASy) und PIR (Protein Information Resource; Erbe der ältesten Protein-Sequenz-DB). • Der relevante Teil von UniProt ist die UniProt Knowledgebase (UniProtKB). Sie gliedert sich in UniProtKB/SwissProt und UniProtKB/TrEMBL. • UniRef (UniProt Reference Clusters) verbindet automatisch Sequenzen innerhalb einer Spezies und basiert auf den UniProtKB-Einträgen. UniRef100 verbindet alle Einträge mit SequenzIdentität (UniRef90 verbindet Einträge mit über 90% Sequenz-Identität). • Keine redundanten Verknüpfungen von Sequenzen. Kombinierung zu einem Dateneintrag (erleichterte Suche). Folgende Folien UniProt Universal Protein Resource UniProtKB/Swiss-Prot • Enthält Daten mit sehr hoher Qualität: keine Redundanz, manuelle Kommentierung. • UniProt-Kuratoren beziehen ihre Informationen aus der Literatur. Ziel ist es alle bekannten Informationen zu einem Protein zentral zugänglich zu machen. • Ein Eintrag beinhaltet u.a. alle ProteinProdukte desselben Gens (alternatives Spleißen, Polymorphismen, post-translationale Modifikationen) sowie alle Gene, die zum selben Genprodukt führen; jeweils von einem spezifischen Organismus. • Die Klassifizierung in Proteinfamilien wird regelmäßig überprüft (Aktualität). UniProt Universal Protein Resource UniProtKB/TrEMBL • Enthält automatisch kommentierte und klassifizierte Daten. • Die Einträge werden nach und nach in die UniProtKB/Swiss-Prot integriert und für die manuelle Kommentierung ausgewählt. Die Rohdaten Die Sequenz-Informationen erhält UniProtKB letztlich u.a. aus • Übersetzungen von codierenden Nukleotid-Sequenzen aus DDBJ/EMBLBank/GenBank. • Sequenzen aus den PDB-Strukturen. • FlyBase & WormBase. • Direkt aus der Literatur. UniProt Universal Protein Resource UniParc • Die Rohdaten landen zuerst in UniParc. • Einige Sequenzen (kleine Fragmente, synthetische Sequenzen etc.) gelangen nicht in die UniProtKB. • UniParc beinhaltet alle öffentlich verfügbaren Protein-Sequenz-Daten! • Jeder Eintrag hat eine UniParc ID. • Es wird regelmäßig überprüft, sodass wichtige Daten in UniProtKB aufgenommen werden. UniProt Universal Protein Resource Swiss-Prot These days, Swiss-Prot has troubles coping with the present rate of new (nucleotide) sequence determination and is falling behind in terms of Completeness – Bioinformatics for Dummies, p. 106 TrEMBL Datenflut ist nicht aufzuhalten! Manuelle Annotierung nahezu unmöglich UniProt Universal Protein Resource Wie weit sind wir von einem vollständigen Datensatz entfernt? UniProt Universal Protein Resource Start-Seite von UniProt • Suche über Felder möglich. • Suche lässt sich stetig erweitern. Es folgt eine Beispiel-Suchanfrage: „Hexokinase“ UniProt Universal Protein Resource • Ergebnis-Übersicht: Tabelle • Sortierung nach einzelnen Spalten-Infos möglich (klicke auf Pfeile in oberster Zeile) Goldener Stern = Swiss-Prot Eintrag Silberner Stern = TrEMBL Eintrag UniProt Universal Protein Resource • Tabellen-Ansicht anpassen: Infos, die in Spalten angezeigt werden, lassen sich ändern: UniProt Universal Protein Resource • Ansicht anpassen: Statt Tabelle Kategorien-Baum. Ergebnisse lassen sich kategorisieren nach… …Gene Ontology (GO) …Keyword …Taxonomie …Pathway …EC-Nummer UniProt Universal Protein Resource • Ansicht anpassen: Zusammenfassen der Ergebnisse mittels UniRef. • UniRef kann alle Ergebnisse mit 50%, 90% oder 100% Homologie in Cluster zusammenfassen. UniProt Universal Protein Resource • Speichern: …direkt aus der Tabellenansicht Einzelne Einträge aus UniRef oder UniProtKB speichern: Häkchen setzen • Direktes Alignment möglich: unten „Align“ klicken. • Speichern in verschiedenen Formaten (z.B. FASTA): unten „Retrieve“ klicken. Alle Einträge der Tabelle speichern: klicke rechts oben auf Download. UniProt Universal Protein Resource Wie sieht nun ein UniProt-Eintrag aus? UniProt Universal Protein Resource Ergebnis-Seite: am Beispiel der Hexokinase-1 • Ausführliche Querverweise zu zahlreichen Datenbanken (Cross References). • Minimale Redundanz der Einträge: „Ein Eintrag je Protein“. Verschiedene Produkte (Isoformen) werden auf der Ergebnis-Seite verlinkt. • Jeder Eintrag hat eine eindeutige UniProtKB ID. • häufige Aktualisierung der Einträge bei Proteinen, an denen geforscht wird. Immer AN, nicht Entry Name notieren! Veraltete accession numbers bleiben mit dem Eintrag assoziiert! UniProt Universal Protein Resource ATTRIBUTES • Hier ist notiert, ob es sich um das reife Protein oder um ein Proprotein handelt COMMENTS • Alle Informationen wurden aus der Literatur entnommen und dem Eintrag zugeordnet. ONTOLOGIES UniProt Universal Protein Resource ALTERNATIVE PRODUCTS UniProtKB-Einträge, die mit diesem Protein wechselwirken. Separat werden die vollständigen Sequenzen der Isoformen angezeigt. BINARY INTERACTIONS SEQUENCES FEATURES UniProt Universal Protein Resource FEATURES UniProt Universal Protein Resource • Molecule Processing: Signal peptide, chain • Regions: topological domain, domain, transmembrane, repeat, nucleotide binding, region • Sites: active site, binding site, site • Aminoacid Modification: modified residue, glycosylation, disulfide bond, cross-link • natural variation: alternative sequence, natural variant • experimental info: mutagenesis, sequence conflict • secondary structure: helix, strand, turn Die entsprechenden Feature-Keys der einzelnen Features werden in der Spalte Description in Bezug auf den vorliegenden Fall genauer definiert. Für jedes Feature kann die Sequenz analysiert werden: Setze Haken und wähle retrieve oder blast; wähle zwei Sequenzen und wähle retrieve oder align. „Domain“ hat hier eine breitere Definition – nicht vergleichbar mit den Definitionen sekundärer Datenbanken (hier existieren verschiedene Domänen!) CROSS-REFERENCES UniProt Universal Protein Resource PubMed-Verweise sind separat angezeigt REFERENCES UniProt Universal Protein Resource ID-Mapping • bekannte ID‘s können über UniProt beliebig „übersetzt“ werden. • Bekannte ID wird unter „Identifiers“ eingegeben. • Eingabefeld „From“ enthält die Art der bekannten ID. • Eingabefeld „To“ enthält die Art der gesuchten ID. Links führen zu den entsprechenden Datenbanken „Cross-Referencing“ zwischen Datenbank-Einträgen. wichtig: IDs am Besten immer irgendwie mit speichern UniProt Universal Protein Resource Das Flat-File Format hinter den hübsch präsentierten Informations-Seiten • Orange hinterlegter Link „TEXT“ • Verwandt mit dem EMBL-Format: identischer 2-Buchstaben Code Gliederung in 5 Hauptbereiche: • general information • bibliographic information • functional information • feature table • sequence part Hier ist auch direkt die FASTA-Sequenz erreichbar Alles Andere: graphische Aufbereitung der Daten! UniProt Universal Protein Resource • Viele „sekundäre Datenbanken“ nutzen die UniProtKB Daten und katalogisieren sie nach eigenen Kriterien. • Im Vordergrund stehen dabei unterschiedliche Repräsentationen (das Protein wird in einem spezifischen Kontext dargestellt). • Beispiel-Datenbanken, welche die UniProtKB-Einträge nutzen: • UniPathway (Kontext: Stoffwechselwege) • InterPro (Kontext: Protein-Signaturen, d.h. Domänen, Familien und konservierte Stellen) • ViralZone (Kontext: virale Proteine) Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone Sekundäre Datenbanken • Die primäre Datenbank ist Urheber des Datenbestandes (z.B. UniProtKB). • Mehrere sekundäre Datenbanken interpretieren und kategorisieren den Datenbestand aus einer primären Datenbank auf unterschiedliche Weise. • Die hier gelisteten DBs verwenden die Datenbestände aus UniProtKB. Prinzipiell zwei Möglichkeiten der Klassifizierung: • nach struktureller Verwandtschaft. • nach Sequenz-Homologien. • Suche über Schlüsselwörter oder über Sequenz möglich. Zuordnung neuer Sequenzen ist erleichtert! PROSITE protein functional sites • beheimatet auf ExPASy. Abfrage über ExPASy Prosite-WWW-Server. • Klassifizierung der Proteine über Bestimmung einzelner konservierter Motive (Patterns). • Motiv = kurzer Sequenzabschnitt (10-20 AS), die in verwandten Proteinen konserviert sind und meist eine Schlüsselfunktion in der Proteinfunktion einnehmen. Suche nach solchen Motiven kann in unbekannten Proteinen ein Hinweis auf die Zugehörigkeit zu einer Proteinfamilie bzw. die Funktion des Proteins liefern. • Motiv wird aus multiplen Alignments abgeleitet und als regulärer Ausdruck (formalisiertes Muster zur Beschreibung einer Zeichenfolge) in der DB gespeichert. • In PROSITE entspricht der reguläre Ausdruck folgendem Muster: • Einzelne Aminosäure-Positionen im Ein-Buchstaben-Code, getrennt durch Bindestriche • Position durch verschiedene AS besetzt: mögliche AS in eckigen Klammern angegeben. • Positionen durch beliebige AS besetzt: mit x gekennzeichnet. • Positionen durch beliebige AS mit Ausnahme definierter AS besetzt: nicht-mögliche AS in geschweiften Klammern angegeben. • aufeinanderfolgende Wiederholungen mit der Zahl der Wiederholungen in runden Klammern angegeben: z.B. x(2) = x-x oder x(2,4) = x-x oder x-x-x oder x-x-x-x PROSITE protein functional sites • Standardmäßig sorgt ein Häkchen bei „exclude patterns with a high probability of occurence“ dafür, dass häufige Motive nicht angezeigt werden. • Suche über ID oder Sequenz möglich. • Scan Prosite ermöglicht mehrere Optionen bei der Durchführung des PrositeScans. Eingabe der UniProtKB ID oder Sequenz PROSITE protein functional sites Beispiel der functional site „N-myristoylation site“ • Ergebnisseite enthält zu jedem gefundenem Motiv einen Accession-Number-Link zur Beschreibungsseite (ID beginnt mit PDOC) • Beschreibungsseite enthält Infos zur biologischen Bedeutung und Funktion der functional site sowie das genaue Muster! • Beachte: Warnung, das es sich um ein häufiges Muster handelt! Prosite enthält auch Profil-Einträge (Matrix) ID beginnt mit PS Außerdem: Rule-Einträge (Annotierung) ID beginnt mit PRU Eingabe der UniProt ID oder Sequenz Motiv der functional site PRINTS fingerprints • Verwendet Fingerprints zur Klassifizierung von Sequenzen. • Fingerprints bestehen aus mehreren Sequenzmotiven, die in der PRINTS DB durch kurze, lokale ungapped Alignments repräsentiert werden. • Mehrere funktionelle Bereiche im Protein = Proteinsequenz hat mehrere Sequenzmotive. Dadurch steigt die Sensitivität der Analyse an, weil die Zugehörigkeit eines Proteins zu einer Proteinfamilie auch bewertet werden kann, wenn eines der Motive nicht vorliegt. • Die Verwandtschaft der Proteine anhand der verschiedenen Fingerprints wird über E-Values bestimmt. • E-Value ist Maß dafür, mit einer zufälligen Aminosäure-Sequenz einen Treffer der gleichen Güte zu produzieren. Je kleiner dieser Wert, desto besser! PRINTS fingerprints • Sequenz im RAW-Format eingeben. PRINTS fingerprints Ergebnis: zuerst werden die „Highest Scoring Fingerprints“ angezeigt Beschreibung der Signatur auf PRINTS Zeigt verwandte Fingerprints auf PRINTS Es folgen die Top 10 Scoring Fingerprints und eine Übersicht über alle Fingerprints der einzelnen gefundenen Proteine. Pfam Protein families • Klassifizierung von Proteinfamilien über Profile. • Profil = Schema, das für jede Position in der Sequenz die Wahrscheinlichkeit für das Auftreten einer bestimmten AS bzw. einer bestimmten Insertion oder Deletion bewertet. • konservierte Positionen werden im Bewertungsschema stärker berücksichtigt als nichtkonservierte (gewichtetes Bewertungsschema) • Basis der Profile sind multiple Sequenz-Alignments und Hidden Markov Modelle (HMMs). • Anschließend werden weitere Sequenzen aus Swiss-Prot automatisch zu den einzelnen Alignments hinzugefügt. • Die resultierenden Alignments repräsentieren funktionelle Einheiten und beinhalten evolutiv verwandte Sequenzen. Aufgrund automatisierter Alignments ist es möglich, dass die Sequenzen keine evolutiv determinierte Beziehung besitzen. Daher müssen Ergebnisse weiter abgesichert werden. Pfam Protein families • Jedes Pfam-Profil repräsentiert eine Protein-Familie oder –Domäne. • Pfam-Familien werden in Clans gruppiert, wenn sie denselben evolutiven Ursprung haben. Indizien hierfür sind Sequenz-Homologien, Struktur-Homologien und Ähnlichkeiten im HMM-Profil. • Pfam-A Einträge haben die höchste Qualität (manuell annotierte Familien) • Pfam-B Einträge werden über die ADDA-DB automatisch generiert. Verwendung, um funktionell konservierte Regionen zu identifizieren, wenn kein Pfam-A Eintrag existiert. • Pfam ermöglicht auch die Analyse von Proteomen und Proteinen mit komplexer Domänen-Architektur. Zahlreiche Eingabe-Möglichkeiten: Input kann z.B. auch eine PDB-Datei sein Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone SCOP Structural Classification of Proteins Evolutiv verwandte Proteine mit ähnlicher biologischer Funktion müssen einen ähnlichen strukturellen Aufbau haben. Daher: Funktion eines unbekannten Proteins über Vergleich des strukturellen Aufbaus mit dem Aufbau bekannter Proteine vorhersagbar! (Grundgedanke von SCOP und CATH). • SCOP klassifiziert Proteine mit bekannter Struktur hierarchisch in drei Hauptklassen. Familien • Beschreiben Proteine mit eindeutiger evolutiver Beziehung zueinander. • Proteine einer Familie haben mindesten 30% Sequenzidentität über die Gesamtlänge des Proteins. Ausnahme: aufgrund ähnlicher Struktur und Funktion ist Verwandtschaft nachgewiesen. Superfamilien • Proteine mit geringer Sequenzidentität. • strukturelle und funktionale Eigenschaften legen aber verwandtschaftliche Beziehung nahe. Faltungen • Proteine mit gleicher Abfolge von Sekundärstrukturelementen in gleicher Topologie • verwandtschaftliche Beziehung ist nicht notwendig. CATH Class, Architecture, Topology, Homologous Superfamily • CATH klassifiziert Proteine mit bekannter Struktur hierarchisch in vier Hauptklassen. Class-Kategorie • Automatische Klassifizierung, bei Bedarf manuelle Ergänzung. Berücksichtigung der Sekundärstruktur-Element-Anteile ohne Rücksicht auf ihre Anordnung und Verbindung untereinander. • Kategorisierung in: mainly-α, mainly-β, α-β, wenige Sekundärstrukturelemente. Architecture-Kategorie • Manuelle Bearbeitung. Anordnung der Sekundärstruktur-Elemente zueinander. • Kategorisierung über Beschreibungen wie barrel, sandwich, β-propeller. Topology-Kategorie • Form der Proteine und Verbindungen der Sekundärstruktur-Elemente untereinander. • Kategorisierung basiert auf Algorithmus, der empirisch abgeleitete Parameter zur Domänen-Klassifizierung einsetzt. Homologues Superfamily • Homologe Proteindomänen (Domänen mit gemeinsamer Abstammung). • Ähnlichkeit der Sequenzen wird durch Sequenzvergleich mit anschließendem Strukturvergleich bestimmt, entsprechend der Kategorisierung in der Topology-Kategorie. CATH Class, Architecture, Topology, Homologous Superfamily • Domänen innerhalb einer H-Kategorie werden nochmals zusammengefasst. Hierzu ist eine fünfte Kategorie definiert: Die Sequenz-Familie (4 Level: S.O.L.I.) • Protein-Domänen, die eine hohe Sequenz-Identität aufweisen (mindestens xx% über 80% der Länge der größeren Domäne). Ähnliche Funktionen sind dadurch wahrscheinlich. • Das fünfte Level (D) wird genutzt, um verschiedene Proteine mit 100% Sequenz-Identität voneinander unterscheiden zu können (neue Einträge im selben L-Level bekommen fortlaufende Nummer) • Letztlich hat jede Domäne in CATH eine einzigartige CATHSOLID-Klassifikation. Beispiel bei einem Vergleich der Klassen zwischen drei Einträgen: Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone GO Gene Ontology Keine sekundäre Datenbank – hat aber hier irgendwie ganz gut hingepasst :) • Initiative von Bioinformatikern mit dem Ziel die Repräsentation von Gen- und GenproduktAttributen zu standardisieren, Datenbank- und Organismus-übergreifend. • 1998, zunächst entwickelt in Zusammenarbeit zwischen drei MODs (Model organism databases). GO Consortium heute umfasst wesentlich mehr Datenbanken, darunter EBI. • GO enthält ein definiertes, hierarchisch aufgebautes Vokabular, um Charakteristiken von Genprodukten zu beschreiben. • Es gibt drei Ontologie-Ebenen (Cytochrom c): Molekülfunktion biologischer Prozess zelluläre Komponente (oxidoreductase activity) (oxidative phosphorylation, induction of cell death) (mitochondrial matrix, mitochondrial inner membrane) • GO-Terms ermöglichen eine bessere Suche zwischen Genprodukten derselben Ontologie. GO-Terms ermöglichen standartisierte Sortierung von Proteinen MeSH-Terms (siehe Literatur-Seminar) machen dasselbe für Literatur! Wozu das Ganze? Datenbank A: Protein X ist in Protein-Synthese invovliert. Datenbank B: Protein X ist in Translation invovliert. Metasuche nach allen Proteinen, die an Translation beteiligt sind…. Ergebnis?? Computer kann die Phrasen nicht übersetzen! GO Gene Ontology Mapping • GO ist nicht das einzige Vokabular-System zur Beschreibung von GenproduktCharakteristika. Es gibt unzählige Vokabular-Versionen einzelner Datenbanken: • Keywords von UniProt • EC-Nummern • Domänen-Bezeichnung aus Pfam, PRINTS, ProSite … • COG (Clusters of Orthologous Groups) • Die assoziierten Vokabeln in anderen Datenbanken können jedoch in das GO-Vokabular „übersetzt“ werden (Mapping). • Diese Vorgehensweise ist jedoch nur ein Anhaltspunkt – oft ist die Übersetzung nicht eindeutig und korrekte Ergebnisse könnten dadurch ausgeschlossen werden. Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone InterPro Integrated Resources of Proteins Domains and Functional Sites • InterPro kombiniert die Ergebnisse mehrerer sekundärer Datenbanken, die verschiedene Methoden verwenden, um Protein-Signaturen zu definieren. • Die Modelle sind aus den AS-Sequenzen bekannter Protein-Familien abgeleitet. • Sie werden dazu verwendet Sequenzen unbekannter Funktion nach Signaturen zu durchsuchen, damit sie schneller klassifiziert werden können. • Dies ist im Zeitalter der Hochdurchsatz-Genom-Sequenzierung extrem wichtig. Problem dabei: unterschiedliche Datenbank = unterschiedliches Modell = unterschiedliche Klassifizierung Member Databases von InterPro Das Ziel von InterPro ist die Erstellung einer Internet-Präsenz, die Informationen über alle Typen von Protein-Klassifikationen für ein gegebenes Protein listet. InterPro Integrated Resources of Proteins Domains and Functional Sites Woher kommen die Protein-Signaturen? Was sind Protein-Signaturen? Signatur-Arten in InterPro Die Signaturen sind mit GO-Klassifizierungen verknüpft (funktionelle Klassifizierung) InterPro Integrated Resources of Proteins Domains and Functional Sites InterPro besteht aus drei Haupt-Datensätzen: Proteine, Signaturen und Einträge. Proteine • Die Protein-Datensätze in InterPro stammen aus der UniProtKB sowie UniParc und UniMES. Signaturen • Die Protein-Daten gelangen zu den Member-DBs und dienen der Berechnung der Signaturen anhand der verschiedenen Modelle. • Alle produzierte Signaturen, welche dieselben Protein-Familien oder –Domänen beschreiben, erhalten dieselbe InterPro ID und werden als ein „Ergebnis“ zusammengefasst. • Verwandte Signaturen sind jeweils miteinander verlinkt. Einträge • InterPro hält für die einzelnen Ergebnisse weitere Informationen bereit, die im InterProEintrag zusammengefasst werden, darunter: • Beschreibendes Abstract über die Funktionen der Proteine und Signaturen, die mit dem Ergebnis assoziiert sind. • Links zu den sekundären Datenbanken (Quell-Datenbanken für die Signaturen). • Links zu PubMed (Literatur), PDB und weiteren Datenbanken. InterPro Integrated Resources of Proteins Domains and Functional Sites Was bringt mir diese Datenbank eigentlich? • Tool für die Erkennung von ProteinVerwandtschaften unbekannter Sequenzen. • Eingabe einer beliebigen FASTA-Sequenz in InterProScan => Suche nach ähnlichen Signaturen anhand der Methoden der „Unter-Datenbanken“ => Klassifizierung des Proteins => Phylogenetische Analyse. • Besonders wichtig für die Menge an Daten in Genom-Sequenzierungs-Projekten. • Erster Ansatz, wenn neues Protein oder Gen entdeckt wurde, um es einzuordnen. BLAST in sekundären Datenbanken mit den entsprechenden Modellen InterPro Integrated Resources of Proteins Domains and Functional Sites InterProScan ist jedoch nicht ausreichend! The only way to make complete analyses of the domains contained in your sequence is to use the three major domain servers: 1) InterProScan 2) CD-Search 3) Motif-Scan - Bioinformatics for Dummies, S. 182 InterPro Integrated Resources of Proteins Domains and Functional Sites Die Ergebnisse enthalten unter anderem folgende Daten: Proteine im InterPro-Eintrag InterPro-ID des Eintrags Art des Eintrags (Family, Domain, Site) Signaturen im InterPro Eintrag Hier geht’s zu den 5 verschiedenen „Listen-Ansichten“ der zu diesem InterPro-Eintrag gehörenden Proteine. Hier geht’s zu den Signatur-Einträgen in den sekundären Datenbanken. Verwandte InterPro Einträge Funktion der Proteine/Signaturen Hier geht’s zu den GO-Einträgen (Funktions-Hierarchien). Suchanfragen können auch über PDB ID, PubMed ID, InterPro ID oder FASTA-Sequenz (Eindeutigkeit) bekannter Proteine gestellt werden. Alternativ über Phrasen wie „Hexokinase“ oder „SH3“ (Problem: viele Suchergebnisse, schlechte Übersicht). InterPro Integrated Resources of Proteins Domains and Functional Sites Die Ergebnisse enthalten unter anderem folgende Daten: Abstract, geschrieben von Kuratoren Taxonomischer Überblick Schlüssel für die SequenzAnnotierung. Beispiel-Proteine mit ihren Signaturen (mit Links) InterPro Integrated Resources of Proteins Domains and Functional Sites A) 1) 2) B) 1) 2) Balken unter stehen für… folgende Daten: Die Ergebnisse enthalten anderem InterPro-Einträge. rot: gewählter Eintrag, hier: Hexokinase. andere Farben: Einträge, deren Sequenzen sich mit dem aktuellen Eintrag überschneiden. Z.B. konservierte Stellen in Hexokinase-Domäne. Bereiche mit Infos zur Struktur. Die Struktur-Informationen werden aus sekundären Datenbanken geholt. Wenn Struktur aufgeklärt: Link zur PDB-Datei + Links zur Klassifizierung von Signaturen innerhalb der Struktur nach SCOP und CATH. Wenn Struktur nicht aufgeklärt: automatisiertes HomologieModelling über sekundäre Datenbanken (MODBASE und SwissBeispiel-Proteine mit ihren Signaturen (mit Links) Model) liefern theoretisch berechnete Strukturen! InterPro Integrated Resources of Proteins Domains and Functional Sites InterPro Integrated Resources of Proteins Domains and Functional Sites Rot = Signatur (hier: Hexokinase-Domäne) des InterPro-Eintrags. Jede Farbe repräsentiert einen anderen InterPro-Eintrag. Liste aller zum InterPro-Eintrag gehörenden Proteine = alle Proteine mit HexokinaseDomäne. Anzeige der DomänenArchitektur der Proteine. InterPro Integrated Resources of Proteins Domains and Functional Sites InterPro Relationships ermöglicht Querverlinkung zwischen InterPro-Einträgen. CHILD/PARENT: • >75% der Proteine im Protein-Set des CHILD-Eintrags müssen auch im PARENT Protein-Set vorkommen. • Die Signaturen der CHILD/PARENT Einträge müssen mindestens 50% überlappen. • Der Child-Eintrag ist immer spezifischer als der PARENT-Eintrag. Passt eine Sequenz zum CHILD-Eintrag, passt sie immer auch zum PARENT-Eintrag. CONATINS/FOUND IN • Es werden strukturelle und funktionelle Features definiert, die nicht über CHILD/PARENT Beziehungen definiert sind. Darunter: Regions, Domains, Repeats, Sites. • >40% der Proteine im InterPro-Eintrag müssen dieses Feature enthalten. • Verlinkung von InterPro-Einträgen, die in ihrer Zusammensetzung ähnlich sind, aber keine evolutionäre Verwandtschaft aufweisen müssen. So which database is better ? As with everything, it depends on your problem: we would certainly suggest using more than one method. – Pfam DB, FAQ Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) Mehr dazu im BCDS-Seminar: • InterPro auf EBI PDB & PyMol PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone Die PDB (Protein-Databank) • Die PDB ist ein Archiv mit experimentell bestimmten Strukturen von Proteinen, Nukleinsäuren und höheren Assemblierungen. • 4 Datenbanken bilden zusammen die wwPDB (world wide). Sie können eigenständig Daten anlegen, prozessieren und zur Verfügung stellen, während wwPDB die Aktionen überwacht und die Daten verteilt. Der Upload erfolgt direkt durch die Wissenschaftler, welche die Struktur experimentell bestimmt haben. • RCSB PDB wird durch die Research Collaboratory for Structural Bioinformatics, USA verwaltet. • PDBe (auch: MSD, macromolecular structure database) auf EBI, UK. • PDBj, Japan. • BMRB (Biological Magnetic Resonance Databank) enthält NMR Daten biologischer Makromoleküle, Universität Wisconsin-Madison, USA. Die Suche in diesen Datenbanken und die Such-Ausgabe erfolgt sehr komfortabel unter: • RCSB PDB • PDBsum auf EBI Mehr dazu im BCDS-Seminar: PDB & PyMol http://www.rcsb.org/pdb/home/home.do http://www.ebi.ac.uk/pdbsum/ Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone NCBI Structure Group • Die NCBI Structure Group bietet mehrere Ressourcen, um Strukturen zu finden: • BioSystems Database Pathways • Molecular Modeling Database (MMDB) 3D-Strukturen • Conserved Domain Database (CDD) Domänen • PubChem Databases (PC) Liganden • Vergleichbar mit den 3 Ebenen der KEGG-Datenbanken. • Sie sind untereinander und mit den anderen NCBI Datenbanken querverlinkt. • Die Daten stammen meist aus anderen, primären Datenbanken. • Der Vorteil an diesen Datenbanken sind die teilweise sehr interessanten Tools, die in NCBI integriert sind: • VAST – Struktur-Homologie-Suche • Cn3D – Struktur-Vergleiche • IBIS – Protein/Protein-Interaktionen • CDTree – Phylogenetische Bäume Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone NCBI Structure Group Suche in der MMDB • text term search: Suche über Felder in den PDB-flat-file Daten. • protein BLAST: Eingabe-Sequenz wird mit Sequenzen aus der PDB-Datenbank verglichen. Wenn die Eingabe-Sequenz bereits existiert, sind über den Entrez-Protein-Eintrag unter Links/Related Structures bereits die berechneten BLAST-Ergebnisse gespeichert. • VAST search: Nach Upload von 3D-Koordinaten im PDB-Format werden diese mit den 3DKoordinaten von Strukturen in der PDB-Datenbank verglichen. Mithilfe des Programms Cn3D kann die Struktur-Homologie visualisiert werden. siehe Protein-Tools, nachmittags NCBI Structure Group text term search Kuriosität: Aufgrund unterschiedlicher Definitionen in Quelldatenbanken kann ein und das selbe Protein mehrere MGs haben! Je nach Suchmaschine existieren unterschiedliche Suchfelder! Sie sind auf den Hilfe-Seiten einsehbar. Intervall-Anfragen: FromValue:ToValue[Field] • [PDBACC] = PDB ID (wird auch ohne Feld erkannt). • [EC] = EC-Nummer (Wildcards verwenden). • [RES] = Auflösung der PDB-Struktur (in Angstrom). • [EXP] = experimentelle Methode (X-Ray, NMR). • [PDDAT] = Datum der Veröffentlichung der Struktur in der PDB. • [ORGN] = Organismus, in dem die Struktur vorkommt. Format von Daten: • [CHN] = 1-Letter Code der Kette in der PDB-Struktur (ASCII Format). YYYY/MM/DD, • [LIGD] = Bezeichnung des Liganden in der PDB Struktur. YYYY/MM, YYYY • [MWT] = Molekulargewicht (in Dalten). • [PCC] = Anzahl an Polypeptidketten in der Struktur (oligomerer Zustand). • [MPRC] = Anzahl modifizierter AS in der Struktur. • Die Literatur betreffend, welche die Struktur publizierte: [TITLE], [AUTH], [JOURNAL]… NCBI Structure Group • Die MMDB beinhaltet ausschließlich Strukturen aus der wwPDB. • Die Ergebnis-Seiten verknüpfen die PDB-Daten mit weiteren Informationen aus NCBI: Literatur-Verweise (PubMed), Taxonomie-Informationen (NCBI Taxonomy), ähnliche Protein-Sequenzen (Entrez Protein), verwandte 3D-Strukturen (CCD, 3D Domains), Informationen zu gebundenen Liganden (PubChem). Display: Summary Format (MMDB Suche) Zeigt alle bekannten Liganden an. Zeigt alle enthaltenen Domänen an. NCBI Structure Group • Die Suche nach 3D-Domänen kann auch direkt über „Search 3D Domains“ erfolgen. • Datenquelle: MMDB (Sortierung der Strukturen in einzelne Domänen). • Basis für Struktur-Verwandtschafts-Analysen von Domänen über das NCBI-Tool VAST. Display: Summary Format (3D Domains Suche) Der erste Eintrag entspricht der Kombination beider Domänen. Bei Klick auf ID oder Abbildung der drei Ergebnisse gelangt man immer zum selben MMDB-Eintrag. Link zu VAST-Eintrag für ausgewählte Domäne. NCBI Structure Group Wie sieht nun ein MMDB-Eintrag aus? sehr übersichtlich (vergleiche Registerkarten in PDBsum oder RCSB) Link „VAST“ führt zu einer Tabelle, welche die Domänen des Proteins listet. Auswahl einer Domäne führt ebenso zum VAST-Eintrag. Link zum VAST-Eintrag des gesamten Proteins Link zum VAST-Eintrag der 3D-Domäne 1. Beachte: 3D-Domäne ist nicht durch Sequenz begrenzt! Link zum CDD-Eintrag des gesamten Proteins Link zum CDD-Eintrag der konservierten Sequenz 2. Beachte: hier geht es um Sequenz-Vergleiche! NCBI Structure Group Wie sieht nun ein VAST-Eintrag aus? Vector Alignment Search Tool • VAST ist ein Vektor-basierender Algorithmus, mit dem 3D Strukturen verglichen werden. • Diese Seite listet verwandte Proteine in Bezug auf ihre strukturelle Verwandtschaft. • Von hier aus lassen sich gezielt Struktur-Überlagerungen in Zusammenhang mit SequenzAlignments anzeigen. • Die zu vergleichenden Strukturen einfach markieren und „View 3D Alignment“ anklicken NCBI Structure Group Visualisierung erfolgt über Cn3D! 2 Fenster: Sequenz-Alignment + Struktur Überlagerung. Rot = identisch Blau = konserviert Grau = nicht konserviert Mehr dazu später bei ProteinAnalyse-Tools Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone NCBI Structure Group • Konservierte Domäne = in der Evolution mehrmals auftauchende, strukturell und/oder funktional vom Gesamt-Protein entkoppelte Einheit. • Die CDD nutzt u.a. den Input verschiedener Datenbanken, welche Domänen klassifizieren (vergleichbar mit InterPro). Der Unterschied zwischen CDD und 3D Domains • Die 3D Domains Database speichert Strukturen (x,y,z-Koordinaten der einzelnen Atome). • Die CDD speichert lediglich die Sequenz einer konservierten Region im Protein. • CD-Modelle basieren auf multiplen Sequenz-Alignments verwandter Proteine aus zahlreichen Organismen. So werden Sequenz-Regionen mit ähnlichen AS-Muster identifiziert. • CDD-Eintrag = Summe aller Sequenzen, die zur selben konservierten Domäne gehören. NCBI Structure Group • Erst in Verbindung mit der MMDB kann die Domänen-Struktur in Zusammenhang mit den konservierten Sequenzen betrachtet und analysiert werden. • Ziel der CDD: stimmen die Daten aus den multiplen Sequenz-Alignments mit den Informationen aus der Überlagerung der 3D-Strukturen überein? Logisch: gleiche Sequenz = gleiche Struktur! Frage: ähnliche Sequenz = ähnliche Struktur? Ziel: Rückschlüsse auf Ursache der Funktion (Sequenz/Struktur/Funktion Beziehung) • Hierzu gibt es das Programm Cn3D auf NCBI • Es zeigt gleichzeitig Sequenz-Alignment und Struktur-Überlagerung an. NCBI Structure Group Das CD-Search Tool Suche von konservierten Domänen anhand der FASTA-Sequenz möglich Alternativ normale Suche über Entrez NCBI Structure Group Link zum CDD-Eintrag des gesamten Proteins Selbes Beispiel: Hexokinase (PDBID: 3H1V) Link zum CDD-Eintrag der konservierten Sequenz 2. Beachte: hier geht es um Sequenz-Vergleiche! NCBI Structure Group Wie sieht nun ein CDD-Eintrag aus? • Sequenzen derselben Domäne aus Proteinen verschiedener Organismen (nur eine Auswahl wird dargestellt). • Bedeutung von „dieselbe Domäne“ wird von den Quell-Datenbanken (verschiedene Modelle) definiert. Info-Text über die CD Zum SuperfamilienEintrag Hier ist die Quell-Datenbank Pfam. Das Alignment kann im mFASTA Format gespeichert werden. Farben stehen für den Grad der Konservativität. Die Sensitivität kann über „Color Bit“ eingestellt werden: • rot: am besten konserviert • blau: mittelmäßig konserviert • grau: am schlechtesten konserviert NCBI Structure Group Die Häufigkeit, mit der eine bestimmte Aminosäure in einer bestimmten Position der Sequenz vorliegt, lässt sich über die PSSM (position-specific scoring matrix) visualisieren. Struktur-Überlagerung in Cn3D betrachten Representatives: Link zu den einzelnen Protein-Sequenzen des Alignments. Related Protein: alle Protein- Sequenzen mit dieser Domäne (RPSBLAST). Related Structure: Alle ProteinSequenzen mit bekannter 3D-Struktur, die eine ähnliche PSSM aufweisen (auch RPS-BLAST). NCBI Structure Group Position-specific Scoring Matrix Konsensus-Sequenz = wahrscheinlichste Sequenz Daten-Tabelle für eine Aminosäure-Position NCBI Structure Group (1) (2) Wo kamen nochmal die Daten her? Verschiedene NCBI-externe Datenbanken (unterschiedliche Modelle zur Klassifizierung der Domänen). Von NCBI-Kuratoren aus 3D-Struktur-Informationen abgeleitete Domänen. Problem: Redundanz • Lösung von InterPro: Ein Eintrag für eine Sequenz und Gegenüberstellung der Modelle. • Lösung von NCBI: Einzelne Einträge für die Modelle. Die CDD fasst ähnliche DomänenModelle verschiedener Quellen in Superfamilien zusammen. Wie gelange ich zum Superfamilien-Eintrag? (1) Der Link zur Superfamilie ist auf der CDD-Ergebnis-Seite (2) Direkte Suche in CDD nach einer Domänen-Bezeichnung (Beispiel: SH3) NCBI Structure Group So sieht ein Superfamilien-Eintrag aus ID beginnt mit cI Links zu den „Einzel-Einträgen“: ID beginnt mit DBName der QuellDatenbank (hier: pfam bzw. smart) NCBI-interner Eintrag für SH3 ID beginnt mit cd NCBI-externe Einträge: SH3 aus Pfam, SH3 Variante aus Pfam SH3 aus Smart NCBI Structure Group Vorteile von NCBI-internen Superfamilien-Einträgen Erstellung mit dem Ziel der Aufklärung von Sequenz/Struktur/Funktions-Beziehungen • Kuratoren haben die Alignments aus anderen Datenbanken überprüft und mit der Struktur-Überlagerung verglichen. • In den Sequenz-Alignments wurden auf Basis dieser Analyse strukturell konservierte Abschnitte hervorgehoben. • Es wurden konservierte Stellen (z.B. Bindestellen, katalytische Reste etc.) markiert (mit Verlinkung zur Literatur). • Phylogenetischer Baum wird angezeigt (Nutze NCBI-Tool CDTree) NCBI Structure Group Wie sieht ein NCBI-interner Eintrag aus? • Obere Box enthält Kommentare zu einzelnen konservierten Bereichen. • Beispiel zeigt SuperfamilienEintrag mit Unterfamilien, für die eigene SuperfamilienEinträge existieren. Einzelne Zweige des phylogenetischen Baums können über die Unterfamilien-Einträge betrachtet werden. • bekannt aus pfam-Eintrag: Boxen mit Verlinkungen und Sequenz-Alignment (nicht gezeigt). Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone NCBI Structure Group PubChem Databases • PubChem enthält Informationen über biologische Aktivität kleiner Moleküle. Es besteht aus drei Datenbanken: • PCSubstances und PCBioAssay enthalten Informationen aus der wissenschaftlichen Community. • PCCompound enthält aus diesen Datenbanken abgeleitete, nicht-redundante Informationen. Was bringt mir das in Zusammenhang mit 3D-Strukturen? • 3D Strukturen mit Ligand findet man einfacher über Ligand-Suche bei PubChem. • Querverlinkungen führen zur 3D Struktur des Ligand-gebundenen Makromoleküls. NCBI Structure Group Protein-Strukturen mit allen ErgebnisVerbindungen als Ligand. Protein-Strukturen mit dieser Verbindung als Ligand NCBI Structure Group BioSystems Database • Suche in verschiedenen Pathway- und Interaktions-Datenbanken: • KEGG – wird später noch eingeführt. • Reactome – biologische Pathways. • BIOCYC – Sammlung von >500 Organismus-spezifischen Pathway/GenomDatenbanken. • PID, Pathway Interaction Database – human molecular signaling, regulatory events, cellular processes). • Sie ermöglicht den Zugang zu Signalwegen von verschiedenen Quell-Datenbanken und verknüpft diese mit Informationen zu Literatur, molekularen und chemischen Daten über Entrez. Suche nach „Glycolysis“ liefert über 3000 Ergebnisse… Für Pathways besser direkt KEGG ansteuern! NCBI Structure Group Inferred Biomolecular Interactions Server (IBIS) • Suche nach Interaktionspartnern. • oben: Sequenz mit Interaktionsstellen markiert. • unten: Liste der Interaktionspartner mit Interaktionsstellen • Ähnliche Funktion auf EBI: IntAct. Cn3D & CDTree • Eigenständige Programme, Installation notwendig! • Verwurzelt mit der CD-Database der Entrez-Structure Group (Verlinkung startet das Programm automatisch, wenn installiert). Cn3D • Gleichzeitige Darstellung von Sequenz- und Struktur-Alignment • Manuell Annotierte Signaturen zugänglich. Beschreibung der Domänen-Funktion Einzelne konservierte Stellen lassen sich hervorheben CDTree • Darstellung von evolutionären Verwandtschaften, Hilfestellung bei der Klassifizierung von Proteinen, verschiedene grafische Darstellungen lassen sich exportieren. Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone Entrez Protein • Entkoppelt von der NCBI Structure Group - Hier geht es um Protein-Sequenzen! • keine „einzelne DB“, sondern Zusammenstellung von Einträgen unterschiedlicher ProteinSequenz-Datenbanken. • DB-Format ist äquivalent zum GenBank-Format. Datenquellen: • übersetzte codierende Sequenzen (CDS) aus DNA-Sequenzen in GenBank/EMBL/DDBJ • Protein-Sequenzen aus PIR, UniProtKB/Swiss-Prot und PRF • Protein-Sequenzen aus gelösten Strukturen in der PDB Isoformen, unvollständige Sequenzen, Proproteine … haben unterschiedliche Einträge. => Hohe Redundanz der Daten => sehr spezifische Suchanfragen notwendig! Protein-Sequenz über andere Datenbanken: • Wenn Gen bekannt, ist eine genauere Suche über Entrez Gene möglich. • Wenn Protein-Struktur aufgeklärt ist, Verlinkung über die PDB-Einträge. • Besser: UniProtKB-Suche, da hier die Redundanz minimiert ist (UniRef). Suche direkt in Entrez Protein daher eher selten bis gar nicht notwendig. Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone IntEnz Integrated relational Enzyme database • Enzymdatenbank auf EBI mit dem Fokus auf Enzym-Nomenklatur. Entwickelt in Zusammenarbeit mit SIB (ExPASy) – Hier befindet sich die äquivalente ENZYME-Database. • Enthält die offizielle Version des Enzym-Nomenklatur Systems (EC-System), das durch die NC-UIBMB (International Union of Biochemistry and Molecular Biology) festgelegt wird. • Zusätzlich ist die offizielle Klassifizierung erweitert (Hinweis: preliminary EC Number). • Suche oder EC-Browsing möglich. Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone UniPathway Die metabolische Tür zu UniProtKB/Swiss-Prot • Nutzt die UniProtKB Einträge und kategorisiert sie nach den Stoffwechselwegen, an denen sie beteiligt sind. Die Datenbank ist in 5 Ebenen aufgebaut. Ebene 0: Super-Pathway • Klassifizierung der Stoffwechselwege in größere Kategorien, Super-Pathways: Glykolyse Kohlenhydratstoffwechsel Ebene 1: UPA (Pathway) • Die Stoffwechselwege sind unabhängig vom Organismus definiert (z.B. Glykolyse). Hier können jedoch unterschiedliche Zwischenprodukte vorkommen (Verzweigungen im Pathway). • definiert als Satz von linearen Sub-Pathways, verbunden durch die terminalen Produkte und Edukte. Ebene 2: ULS (Linear Sub-Pathway) • ULS können Teil von mehreren Pathways sein. • keine Verzweigungen; definierte Folge enzymatischer Reaktionen. • Nummerierung der enzymatischen Reaktionen in „step 1“ bis „step n“. UniPathway Die metabolische Tür zu UniProtKB/Swiss-Prot Ebene 3: UER (Enzymreaktion) • UERs gehören zu einem definierten Sub-Pathway. • besteht aus zwei Datensätzen: biochemische Reaktion und Enzym. • eine enzymatische Reaktion kann auf unterschiedliche Arten erfolgen, sodass verschiedene Sequenz-Reaktionen stattfinden können (z.B. NADH oder NADPH als Co-Substrat). Ebene 4: USR (Sequenz-Reaktion) • USRs gehören zu einer definierten Enzymreaktion. • Folge elementarer chemischer Reaktionen. • Eine Sequenz-Reaktion kann in mehrere elementare chemische Reaktionen aufgeteilt werden (ABC wird zu AB und BC). • definiert durch eine EC-Nummer sowie Edukte und Produkte. Ebene 5: UCR (Chemische Reaktion) • UCRs können zu verschiedenen Enzymreaktionen gehören. • Ein-Schritt-Reaktion „Ebene 6“: UPC (chemische Verbindung) • UPCs können zu verschiedenen chemischen Reaktionen gehören. Datenquelle: KEGG LIGAND Database Beispiel: Glykolyse UniPathway Die metabolische Tür zu UniProtKB/Swiss-Prot • Es lassen sich Organismus-spezifische Pathways tabellarisch anzeigen. • Pathways sind direkt mit UniProtKB verlinkt. • „Browse Pathway“ zeigt eine Tabelle aller Stoffwechselwege an (über 700). UniPathway: Glykolyse Links zum Sub-Pathway-Eintrag Ontology View: Einordnung des Prozesses in den GesamtZusammenhang; Links zu Sub-Pathways, Enzymreaktion und Enzyme Beteiligte Proteine auf Pathwayund Enzymreaktions-Ebene Chemical View Protein View: Tabellarische Übersicht beteiligter Proteine, Links zur ENZYM-Datenbank und UniProtKB-Liste für bestimmtes Reich (Archaea, Bacteria, Eukaryota) Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone KEGG Kyoto Encyclopedia of Genes and Genomes “A grand challenge in the post-genomic era is a complete computer representation of the cell, the organism, and the biosphere, which will enable computational prediction of higher-level complexity of cellular processes and organism behaviors from genomic and molecular information.” KEGG ist eine Repräsentation biologischer Systeme am Computer. KEGG besteht aus 16 Datenbanken. Sie repräsentieren zusammen drei Informations-Ebenen. Startpunkt: KEGG PATHWAY Informationen anderer Datenbanken durch Verlinkung: KEGG ENZYME KEGG REACTION KEGG COMPOUND KEGG Kyoto Encyclopedia of Genes and Genomes PATHWAY vs. BRITE • KEGG Pathway enthält Stoffwechsel- und Signalweg-Karten, basierend auf molekulare Interaktionen und Reaktionen. • KEGG Brite ermöglicht eine hierarchische Klassifikationen, die das Wissen über biologische Systeme repräsentiert. • Klassifikation von KEGG PATHWAY ist auf molekulare Interaktionen und Reaktionen beschränkt. KEGG BRITE nutzt viele weitere funktionale Beziehungen zur Definition verschiedener Hierarchien! • Mapping aller Datensätze (Genomics, Transcriptomics, Proteomics, Metabolomics) zu den BRITE-Hierarchien. KEGG-PATHWAY Sammlung manuell gezeichneter Pathway-Karten, basierend auf dem Wissen über molekulare Interaktions- und Reaktions-Netzwerke. Metabolism (Kohlenhydrate, Energie, Lipid, Nukleotid, Aminosäure, Cofaktor/Vitamin) Genetic Information Processing (Transkription, Translation, Faltung, Sortierung, Degradation, Replikation, DNA-Reparatur) Environmental Information Processing (Membran-Transport, Signal-Transduktionswege, Signalmolekül-Interaktion) Cellular Processes (Autophagie, Endozytose, Zellzyklus, Zelltot, Immunsystem, Nervensystem) Human Diseases Drug Developement KEGG PATHWAY globale Metabolismus-Karte KEGG PATHWAY • Punkte repräsentieren Stoffwechsel-Intermediate (pop-up Info). Link zu KEGG Compound. • Schriftzüge repräsentieren einzelne Pathways. Link zu den Pathway-Karten. KEGG COMPOUND Über die Datentabelle des Stoffwechsel-Intermediats gelangt man zu allen Pathways, bei denen es beteiligt ist! KEGG PATHWAY • Sammlung manuell gezeichneter PathwayKarten, basierend auf das Wissen über molekulare Interaktionsund ReaktionsNetzwerke. • Links zu angrenzenden Stoffwechselwegen • EC-Nummern führen zu einer großen DatenTabelle mit Infos aus: • KEGG Enzyme • KEGG Orthology • KEGG Reaction KEGG ENZYME Daten-Tabelle enthält viele Informationen: • Alternative Bezeichnungen des Enzyms. • Substrate, Produkte, Cofaktoren, Enzymklasse. • katalysierte Reaktionen (Verweis zu KEGG Reactions). • Manuell geschriebene Kommentare. • Pathways, in die das Enzym involviert ist. • Links zu PubMed und weiteren Enzym-DBs. KEGG ORTHOLOGY KEGG REACTION Sehr übersichtliche Navigation • Schlichtes und einheitliches Layouts der Daten-Tabellen aller „Unter-Datenbanken“. • Gut sichtbare Querverlinkungen zwischen allen Einträgen. KEGG PATHWAY Such-Feld: Eingabe von z.B. Stoffwechsel-Intermediaten Klicke auf Suchergebnis und Karte vergrößert entsprechenden Ausschnitt Navigation durch KEGG-PATHWAY über KEGG Atlas Browser (optional). Funktionen: Zoomen, Konfigurierbare Verlinkung, Übersicht über alle Maps, History-Funktion Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone HPRD Human Protein Reference Database • Eigenständige Datenbank, keine Verwendung anderer Datenbestände wie UniProtKB. • Die Daten werden 100% manuell über Kuratoren auf der Basis von Literatur in die Datenbank eingegeben. • Manuelle und eindeutige Klassifizierung. Jedes Protein bekommt eine spezifische Kategorie, welche die häufigste/wichtigste Funktion beschreibt (demokratische Abstimmung). Besondere Features oder Kollaborationen • Human Proteinpedia: Community-Portal, in dem Arbeitskreise Informationen über Proteine austauschen. Ist neben der publizierten Literatur einer der Quellen für HPRD. • Pathways: Datenbank NetPath (Entwicklung durch HPRD) hat bisher 20 Signalwege. • PhosphoMotif Finder: Sucht anhand der FASTA-Sequenz Phosphorylierungsstellen. HPRD Human Protein Reference Database • Browser: Molekülklasse, Domäne, Motive, posttranslationale Modifikation, subzelluläre Lokalisation. • Suchanfrage: u.a. über verschiedene IDs oder Protein-Bezeichnung. HPRD Human Protein Reference Database Protein-Liste nach Suchanfrage oder Browsen. Domänen-Architektur wird graphisch hübsch dargestellt HPRD Human Protein Reference Database Links zu Hierarchie auf GO-Datenbank Sehr gute Informationen: • assoziierte Erkrankungen (Link zu OMIM). • Protein-Protein Interaktionen mit experimenteller Methode. • DNA- und ProteinSequenz (ORF bzw. Domänen sind markiert). Kotakt zum ersten Kommentator Kommentar anhängen Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN • UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN • Sequenz-basiert: PROSITE, PRINTS, Pfam • Struktur-basiert: SCOP, CATH • Gene Ontology (GO) • InterPro auf EBI PROTEIN-SEQUENZEN UND –STRUKTUREN • RCSB & PDBe • Entrez Structure Group auf NCBI • Molecular Modeling Database (MMDB) • Conserved Domain Database (CDD) • BioSystems, PubChem, IBIS, Cn3D, CDTree • Entrez Protein STOFFWECHSELWEGE UND ENZYME • IntEnz auf EBI • UniPathway • KEGG SPEZIFISCHE DATENBANKEN • HPRD • ViralZone ViralZone • ViralZone ist auf ExPASy lokalisisert und verwendet die UniProtKB-Einträge. • Es müssen zunächst einzelne Viren ausgewählt werden. Ein Sammel-Eintrag zeigt dann alle codierten Proteine sowie Infos über Capsid-Struktur und Lebenszyklus. Suche oder Browsing über • Baltimore-Klassifizierung • Host • Virion-Struktur ViralZone Sehr gute Übersicht: zu sehen sind Baltimore-Klassifizierung, Virion-Struktur und Host-Klassifizierung. ViralZone • Informationen sind auf 3 Ebenen vorhanden. • Viele Viren wurden Betreff Genom, Genexpression und Replikation manuell annotiert. ViralZone Protein-Einträge in Swiss-Prot, sortiert nach den einzelnen Virus-Stämmen z.B. HIV-1 Gruppe M, Subtyp H. Fragen? [email protected] Folien und Supplementals auf www.BioKemika.de
© Copyright 2025 ExpyDoc