und Protein - BioKemika

Folien und Supplementals auf
www.BioKemika.de
Folien und Supplementals auf
www.BioKemika.de
Motivation
• Die Link-Liste auf ExPASy bietet eine gute Übersicht – man verliert sich aber leicht.
• Es gibt viele spezifische Datenbanken, aber mit einer geringen Auswahl an Datenbanken
von allgemeiner Bedeutung kommt man schon sehr weit. Diese sollen hier besprochen
werden.
Zielsetzung
Für verschiedene Datenbanken von allgemeiner Bedeutung soll angerissen werden:
• Übersicht über Datenbestand: Ursprung, Relevanz, Vollständigkeit?
• Wie stelle ich eine korrekte Suchanfrage?
• Welche zusätzlichen Funktionen bietet die Datenbank?
Allgemeine Konzepte und Probleme der angewandten Bioinformatik in Zusammenhang mit
Datenbanken:
• Einblick in die Sortierung und Klassifizierung von Daten.
• Einblick in das Daten-Sharing zwischen Datenbanken.
• Weitere Probleme der Bioinformatik: Redundanz, Kontrolle/Überprüfung der Daten
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
UniProt
Universal Protein Resource
• UniProt enthält Protein-Sequenzen und erläuternde funktionelle Informationen.
• Es handelt sich um die größte und bekannteste bioinformatische Datenbank für Proteine.
• Das UniProt Consortium besteht aus der Kollaboration zwischen EBI, SIB (Entwickler von
ExPASy) und PIR (Protein Information Resource; Erbe der ältesten Protein-Sequenz-DB).
• Der relevante Teil von UniProt ist die UniProt Knowledgebase (UniProtKB). Sie gliedert sich
in UniProtKB/SwissProt und UniProtKB/TrEMBL.
• UniRef (UniProt Reference Clusters)
verbindet automatisch Sequenzen
innerhalb einer Spezies und basiert auf
den UniProtKB-Einträgen. UniRef100
verbindet alle Einträge mit SequenzIdentität (UniRef90 verbindet Einträge mit über
90% Sequenz-Identität).
• Keine redundanten Verknüpfungen von
Sequenzen. Kombinierung zu einem
Dateneintrag (erleichterte Suche).
Folgende Folien
UniProt
Universal Protein Resource
UniProtKB/Swiss-Prot
• Enthält Daten mit sehr hoher Qualität:
keine Redundanz, manuelle
Kommentierung.
• UniProt-Kuratoren beziehen ihre
Informationen aus der Literatur. Ziel ist
es alle bekannten Informationen zu
einem Protein zentral zugänglich zu
machen.
• Ein Eintrag beinhaltet u.a. alle ProteinProdukte desselben Gens (alternatives
Spleißen, Polymorphismen, post-translationale
Modifikationen) sowie alle Gene, die zum
selben Genprodukt führen; jeweils von
einem spezifischen Organismus.
• Die Klassifizierung in Proteinfamilien
wird regelmäßig überprüft (Aktualität).
UniProt
Universal Protein Resource
UniProtKB/TrEMBL
• Enthält automatisch kommentierte
und klassifizierte Daten.
• Die Einträge werden nach und nach in
die UniProtKB/Swiss-Prot integriert und
für die manuelle Kommentierung
ausgewählt.
Die Rohdaten
Die Sequenz-Informationen erhält
UniProtKB letztlich u.a. aus
• Übersetzungen von codierenden
Nukleotid-Sequenzen aus DDBJ/EMBLBank/GenBank.
• Sequenzen aus den PDB-Strukturen.
• FlyBase & WormBase.
• Direkt aus der Literatur.
UniProt
Universal Protein Resource
UniParc
• Die Rohdaten landen zuerst in UniParc.
• Einige Sequenzen (kleine Fragmente,
synthetische Sequenzen etc.) gelangen
nicht in die UniProtKB.
• UniParc beinhaltet alle öffentlich
verfügbaren Protein-Sequenz-Daten!
• Jeder Eintrag hat eine UniParc ID.
• Es wird regelmäßig überprüft, sodass
wichtige Daten in UniProtKB
aufgenommen werden.
UniProt
Universal Protein Resource
Swiss-Prot
These days, Swiss-Prot has troubles coping with
the present rate of new (nucleotide) sequence
determination and is falling behind in terms of
Completeness – Bioinformatics for Dummies, p. 106
TrEMBL
Datenflut ist nicht
aufzuhalten!
Manuelle Annotierung
nahezu unmöglich
UniProt
Universal Protein Resource
Wie weit sind wir von einem vollständigen Datensatz entfernt?
UniProt
Universal Protein Resource
Start-Seite von UniProt
• Suche über Felder möglich.
• Suche lässt sich stetig erweitern.
Es folgt eine Beispiel-Suchanfrage:
„Hexokinase“
UniProt
Universal Protein Resource
• Ergebnis-Übersicht: Tabelle
• Sortierung nach einzelnen Spalten-Infos möglich (klicke auf Pfeile in oberster Zeile)
Goldener Stern = Swiss-Prot Eintrag
Silberner Stern = TrEMBL Eintrag
UniProt
Universal Protein Resource
• Tabellen-Ansicht anpassen: Infos, die in Spalten angezeigt werden, lassen sich ändern:
UniProt
Universal Protein Resource
• Ansicht anpassen: Statt Tabelle Kategorien-Baum.
Ergebnisse lassen sich kategorisieren nach…
…Gene Ontology (GO)
…Keyword
…Taxonomie
…Pathway
…EC-Nummer
UniProt
Universal Protein Resource
• Ansicht anpassen: Zusammenfassen der Ergebnisse mittels UniRef.
• UniRef kann alle
Ergebnisse mit 50%,
90% oder 100%
Homologie in Cluster
zusammenfassen.
UniProt
Universal Protein Resource
• Speichern:
…direkt aus der Tabellenansicht
Einzelne Einträge aus UniRef oder UniProtKB speichern: Häkchen setzen
• Direktes Alignment möglich: unten „Align“ klicken.
• Speichern in verschiedenen Formaten (z.B. FASTA): unten „Retrieve“ klicken.
Alle Einträge der Tabelle speichern: klicke rechts oben auf Download.
UniProt
Universal Protein Resource
Wie sieht nun ein UniProt-Eintrag aus?
UniProt
Universal Protein Resource
Ergebnis-Seite: am Beispiel der Hexokinase-1
• Ausführliche Querverweise zu zahlreichen Datenbanken (Cross References).
• Minimale Redundanz der Einträge: „Ein Eintrag je Protein“. Verschiedene Produkte
(Isoformen) werden auf der Ergebnis-Seite verlinkt.
• Jeder Eintrag hat eine eindeutige UniProtKB ID.
• häufige Aktualisierung der Einträge bei Proteinen, an denen geforscht wird.
Immer AN, nicht Entry Name notieren!
Veraltete accession numbers bleiben mit dem Eintrag assoziiert!
UniProt
Universal Protein Resource
ATTRIBUTES
• Hier ist notiert, ob es sich um das reife Protein oder um ein
Proprotein handelt
COMMENTS
• Alle Informationen wurden aus der Literatur entnommen
und dem Eintrag zugeordnet.
ONTOLOGIES
UniProt
Universal Protein Resource
ALTERNATIVE PRODUCTS
UniProtKB-Einträge, die mit diesem Protein
wechselwirken.
Separat werden die
vollständigen Sequenzen
der Isoformen angezeigt.
BINARY INTERACTIONS
SEQUENCES
FEATURES
UniProt
Universal Protein Resource
FEATURES
UniProt
Universal Protein Resource
• Molecule Processing: Signal peptide, chain
• Regions: topological domain, domain, transmembrane, repeat, nucleotide binding, region
• Sites: active site, binding site, site
• Aminoacid Modification: modified residue, glycosylation, disulfide bond, cross-link
• natural variation: alternative sequence, natural variant
• experimental info: mutagenesis, sequence conflict
• secondary structure: helix, strand, turn
Die entsprechenden Feature-Keys der einzelnen Features werden in der Spalte Description
in Bezug auf den vorliegenden Fall genauer definiert.
Für jedes Feature kann die Sequenz analysiert werden: Setze Haken und wähle retrieve
oder blast; wähle zwei Sequenzen und wähle retrieve oder align.
„Domain“ hat hier eine breitere
Definition – nicht vergleichbar mit
den Definitionen sekundärer
Datenbanken (hier existieren
verschiedene Domänen!)
CROSS-REFERENCES
UniProt
Universal Protein Resource
PubMed-Verweise sind
separat angezeigt
REFERENCES
UniProt
Universal Protein Resource
ID-Mapping
• bekannte ID‘s können über
UniProt beliebig „übersetzt“
werden.
• Bekannte ID wird unter
„Identifiers“ eingegeben.
• Eingabefeld „From“ enthält die
Art der bekannten ID.
• Eingabefeld „To“ enthält die Art
der gesuchten ID.
Links führen zu den
entsprechenden Datenbanken
„Cross-Referencing“ zwischen Datenbank-Einträgen.
wichtig: IDs am Besten immer irgendwie mit speichern
UniProt
Universal Protein Resource
Das Flat-File Format hinter den
hübsch präsentierten
Informations-Seiten
• Orange hinterlegter Link „TEXT“
• Verwandt mit dem EMBL-Format:
identischer 2-Buchstaben Code
Gliederung in 5 Hauptbereiche:
• general information
• bibliographic information
• functional information
• feature table
• sequence part
Hier ist auch direkt
die FASTA-Sequenz
erreichbar
Alles Andere: graphische
Aufbereitung der Daten!
UniProt
Universal Protein Resource
• Viele „sekundäre Datenbanken“ nutzen die UniProtKB Daten und katalogisieren
sie nach eigenen Kriterien.
• Im Vordergrund stehen dabei unterschiedliche Repräsentationen (das Protein
wird in einem spezifischen Kontext dargestellt).
• Beispiel-Datenbanken, welche die UniProtKB-Einträge nutzen:
• UniPathway (Kontext: Stoffwechselwege)
• InterPro (Kontext: Protein-Signaturen, d.h. Domänen, Familien und
konservierte Stellen)
• ViralZone (Kontext: virale Proteine)
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
Sekundäre Datenbanken
• Die primäre Datenbank ist Urheber des Datenbestandes (z.B. UniProtKB).
• Mehrere sekundäre Datenbanken interpretieren und kategorisieren den Datenbestand
aus einer primären Datenbank auf unterschiedliche Weise.
• Die hier gelisteten DBs verwenden die Datenbestände aus UniProtKB.
Prinzipiell zwei Möglichkeiten der Klassifizierung:
• nach struktureller Verwandtschaft.
• nach Sequenz-Homologien.
• Suche über Schlüsselwörter oder über Sequenz möglich.
 Zuordnung neuer Sequenzen ist erleichtert!
PROSITE
protein functional sites
• beheimatet auf ExPASy. Abfrage über ExPASy Prosite-WWW-Server.
• Klassifizierung der Proteine über Bestimmung einzelner konservierter Motive (Patterns).
• Motiv = kurzer Sequenzabschnitt (10-20 AS), die in verwandten Proteinen konserviert sind
und meist eine Schlüsselfunktion in der Proteinfunktion einnehmen.
Suche nach solchen Motiven kann in unbekannten Proteinen ein Hinweis auf die
Zugehörigkeit zu einer Proteinfamilie bzw. die Funktion des Proteins liefern.
• Motiv wird aus multiplen Alignments abgeleitet und als regulärer Ausdruck
(formalisiertes Muster zur Beschreibung einer Zeichenfolge) in der DB gespeichert.
• In PROSITE entspricht der reguläre Ausdruck folgendem Muster:
• Einzelne Aminosäure-Positionen im Ein-Buchstaben-Code, getrennt durch Bindestriche
• Position durch verschiedene AS besetzt: mögliche AS in eckigen Klammern angegeben.
• Positionen durch beliebige AS besetzt: mit x gekennzeichnet.
• Positionen durch beliebige AS mit Ausnahme definierter AS besetzt: nicht-mögliche AS in
geschweiften Klammern angegeben.
• aufeinanderfolgende Wiederholungen mit der Zahl der Wiederholungen in runden Klammern
angegeben: z.B. x(2) = x-x oder x(2,4) = x-x oder x-x-x oder x-x-x-x
PROSITE
protein functional sites
• Standardmäßig sorgt ein Häkchen bei „exclude patterns with a high probability of
occurence“ dafür, dass häufige Motive nicht angezeigt werden.
• Suche über ID oder Sequenz
möglich.
• Scan Prosite ermöglicht
mehrere Optionen bei der
Durchführung des PrositeScans.
Eingabe der UniProtKB ID oder Sequenz
PROSITE
protein functional sites
Beispiel der functional site „N-myristoylation site“
• Ergebnisseite enthält zu
jedem gefundenem Motiv
einen Accession-Number-Link
zur Beschreibungsseite
(ID beginnt mit PDOC)
• Beschreibungsseite enthält
Infos zur biologischen
Bedeutung und Funktion der
functional site sowie das
genaue Muster!
• Beachte: Warnung, das es
sich um ein häufiges Muster
handelt!
Prosite enthält auch Profil-Einträge (Matrix)
 ID beginnt mit PS
Außerdem: Rule-Einträge (Annotierung)
 ID beginnt mit PRU
Eingabe der UniProt ID oder Sequenz
Motiv der functional site
PRINTS
fingerprints
• Verwendet Fingerprints zur Klassifizierung von Sequenzen.
• Fingerprints bestehen aus mehreren Sequenzmotiven, die in der PRINTS DB durch kurze,
lokale ungapped Alignments repräsentiert werden.
• Mehrere funktionelle Bereiche im Protein = Proteinsequenz hat mehrere Sequenzmotive.
Dadurch steigt die Sensitivität der Analyse an, weil die Zugehörigkeit eines Proteins zu
einer Proteinfamilie auch bewertet werden kann, wenn eines der Motive nicht vorliegt.
• Die Verwandtschaft der Proteine anhand der verschiedenen Fingerprints wird über
E-Values bestimmt.
• E-Value ist Maß dafür, mit einer zufälligen Aminosäure-Sequenz einen Treffer der gleichen
Güte zu produzieren. Je kleiner dieser Wert, desto besser!
PRINTS
fingerprints
• Sequenz im RAW-Format
eingeben.
PRINTS
fingerprints
Ergebnis: zuerst werden die „Highest Scoring Fingerprints“ angezeigt
Beschreibung der Signatur auf PRINTS
Zeigt verwandte Fingerprints auf PRINTS
Es folgen die Top 10 Scoring Fingerprints und eine Übersicht über alle Fingerprints der
einzelnen gefundenen Proteine.
Pfam
Protein families
• Klassifizierung von Proteinfamilien über Profile.
• Profil = Schema, das für jede Position in der Sequenz die Wahrscheinlichkeit für das
Auftreten einer bestimmten AS bzw. einer bestimmten Insertion oder Deletion bewertet.
• konservierte Positionen werden im Bewertungsschema stärker berücksichtigt als nichtkonservierte (gewichtetes Bewertungsschema)
• Basis der Profile sind multiple Sequenz-Alignments und Hidden Markov Modelle (HMMs).
• Anschließend werden weitere Sequenzen aus Swiss-Prot automatisch zu den einzelnen
Alignments hinzugefügt.
• Die resultierenden Alignments repräsentieren funktionelle Einheiten und beinhalten
evolutiv verwandte Sequenzen.
Aufgrund automatisierter Alignments ist es möglich, dass die Sequenzen keine evolutiv
determinierte Beziehung besitzen. Daher müssen Ergebnisse weiter abgesichert werden.
Pfam
Protein families
• Jedes Pfam-Profil repräsentiert eine Protein-Familie oder –Domäne.
• Pfam-Familien werden in Clans gruppiert, wenn sie denselben evolutiven Ursprung haben.
Indizien hierfür sind Sequenz-Homologien, Struktur-Homologien und Ähnlichkeiten im
HMM-Profil.
• Pfam-A Einträge haben die höchste Qualität (manuell annotierte Familien)
• Pfam-B Einträge werden über die ADDA-DB automatisch generiert. Verwendung, um
funktionell konservierte Regionen zu identifizieren, wenn kein Pfam-A Eintrag existiert.
• Pfam ermöglicht auch die Analyse von Proteomen und Proteinen mit komplexer
Domänen-Architektur.
Zahlreiche Eingabe-Möglichkeiten:
Input kann z.B. auch eine PDB-Datei sein
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
SCOP
Structural Classification of Proteins
Evolutiv verwandte Proteine mit ähnlicher biologischer Funktion müssen einen ähnlichen
strukturellen Aufbau haben. Daher: Funktion eines unbekannten Proteins über Vergleich
des strukturellen Aufbaus mit dem Aufbau bekannter Proteine vorhersagbar!
(Grundgedanke von SCOP und CATH).
• SCOP klassifiziert Proteine mit bekannter Struktur hierarchisch in drei Hauptklassen.
Familien
• Beschreiben Proteine mit eindeutiger evolutiver Beziehung zueinander.
• Proteine einer Familie haben mindesten 30% Sequenzidentität über die Gesamtlänge des
Proteins. Ausnahme: aufgrund ähnlicher Struktur und Funktion ist Verwandtschaft
nachgewiesen.
Superfamilien
• Proteine mit geringer Sequenzidentität.
• strukturelle und funktionale Eigenschaften legen aber verwandtschaftliche Beziehung
nahe.
Faltungen
• Proteine mit gleicher Abfolge von Sekundärstrukturelementen in gleicher Topologie
• verwandtschaftliche Beziehung ist nicht notwendig.
CATH
Class, Architecture, Topology,
Homologous Superfamily
• CATH klassifiziert Proteine mit bekannter Struktur hierarchisch in vier Hauptklassen.
Class-Kategorie
• Automatische Klassifizierung, bei Bedarf manuelle Ergänzung. Berücksichtigung der
Sekundärstruktur-Element-Anteile ohne Rücksicht auf ihre Anordnung und Verbindung
untereinander.
• Kategorisierung in: mainly-α, mainly-β, α-β, wenige Sekundärstrukturelemente.
Architecture-Kategorie
• Manuelle Bearbeitung. Anordnung der Sekundärstruktur-Elemente zueinander.
• Kategorisierung über Beschreibungen wie barrel, sandwich, β-propeller.
Topology-Kategorie
• Form der Proteine und Verbindungen der Sekundärstruktur-Elemente untereinander.
• Kategorisierung basiert auf Algorithmus, der empirisch abgeleitete Parameter zur
Domänen-Klassifizierung einsetzt.
Homologues Superfamily
• Homologe Proteindomänen (Domänen mit gemeinsamer Abstammung).
• Ähnlichkeit der Sequenzen wird durch Sequenzvergleich mit anschließendem
Strukturvergleich bestimmt, entsprechend der Kategorisierung in der Topology-Kategorie.
CATH
Class, Architecture, Topology,
Homologous Superfamily
• Domänen innerhalb einer H-Kategorie werden nochmals zusammengefasst. Hierzu ist
eine fünfte Kategorie definiert: Die Sequenz-Familie (4 Level: S.O.L.I.)
• Protein-Domänen, die eine hohe Sequenz-Identität aufweisen (mindestens xx% über
80% der Länge der größeren Domäne). Ähnliche Funktionen sind dadurch wahrscheinlich.
• Das fünfte Level (D) wird genutzt, um verschiedene Proteine mit
100% Sequenz-Identität voneinander unterscheiden zu können
(neue Einträge im selben L-Level bekommen fortlaufende Nummer)
• Letztlich hat jede Domäne in CATH eine einzigartige
CATHSOLID-Klassifikation.
Beispiel bei einem
Vergleich der Klassen
zwischen drei Einträgen:
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
GO
Gene Ontology
Keine sekundäre Datenbank – hat aber hier irgendwie ganz gut hingepasst :)
• Initiative von Bioinformatikern mit dem Ziel die Repräsentation von Gen- und GenproduktAttributen zu standardisieren, Datenbank- und Organismus-übergreifend.
• 1998, zunächst entwickelt in Zusammenarbeit zwischen drei MODs (Model organism
databases). GO Consortium heute umfasst wesentlich mehr Datenbanken, darunter EBI.
• GO enthält ein definiertes, hierarchisch aufgebautes Vokabular, um Charakteristiken von
Genprodukten zu beschreiben.
• Es gibt drei Ontologie-Ebenen (Cytochrom c):
Molekülfunktion
biologischer Prozess
zelluläre Komponente
(oxidoreductase activity)
(oxidative phosphorylation, induction of cell death)
(mitochondrial matrix, mitochondrial inner membrane)
• GO-Terms ermöglichen eine bessere Suche zwischen Genprodukten derselben Ontologie.
GO-Terms ermöglichen standartisierte Sortierung von Proteinen
MeSH-Terms (siehe Literatur-Seminar) machen dasselbe für Literatur!
Wozu das Ganze?
Datenbank A: Protein X ist in Protein-Synthese invovliert.
Datenbank B: Protein X ist in Translation invovliert.
Metasuche nach allen Proteinen, die an Translation beteiligt sind…. Ergebnis??
 Computer kann die Phrasen nicht übersetzen!
GO
Gene Ontology
Mapping
• GO ist nicht das einzige Vokabular-System zur Beschreibung von GenproduktCharakteristika. Es gibt unzählige Vokabular-Versionen einzelner Datenbanken:
• Keywords von UniProt
• EC-Nummern
• Domänen-Bezeichnung aus Pfam, PRINTS, ProSite …
• COG (Clusters of Orthologous Groups)
• Die assoziierten Vokabeln in anderen Datenbanken können jedoch in das GO-Vokabular
„übersetzt“ werden (Mapping).
• Diese Vorgehensweise ist jedoch nur ein Anhaltspunkt – oft ist die Übersetzung nicht
eindeutig und korrekte Ergebnisse könnten dadurch ausgeschlossen werden.
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
InterPro
Integrated Resources of Proteins Domains and Functional Sites
• InterPro kombiniert die Ergebnisse mehrerer sekundärer Datenbanken, die verschiedene
Methoden verwenden, um Protein-Signaturen zu definieren.
• Die Modelle sind aus den AS-Sequenzen bekannter Protein-Familien abgeleitet.
• Sie werden dazu verwendet Sequenzen unbekannter Funktion nach Signaturen zu
durchsuchen, damit sie schneller klassifiziert werden können.
• Dies ist im Zeitalter der Hochdurchsatz-Genom-Sequenzierung extrem wichtig.
Problem dabei:
unterschiedliche Datenbank = unterschiedliches Modell = unterschiedliche Klassifizierung
Member Databases
von InterPro
Das Ziel von InterPro ist die Erstellung einer Internet-Präsenz, die Informationen über alle
Typen von Protein-Klassifikationen für ein gegebenes Protein listet.
InterPro
Integrated Resources of Proteins Domains and Functional Sites
Woher kommen die Protein-Signaturen?
Was sind Protein-Signaturen?
Signatur-Arten in InterPro
Die Signaturen sind mit GO-Klassifizierungen verknüpft (funktionelle Klassifizierung)
InterPro
Integrated Resources of Proteins Domains and Functional Sites
InterPro besteht aus drei Haupt-Datensätzen: Proteine, Signaturen und Einträge.
Proteine
• Die Protein-Datensätze in InterPro stammen aus der UniProtKB sowie UniParc und UniMES.
Signaturen
• Die Protein-Daten gelangen zu den Member-DBs und dienen der Berechnung der Signaturen
anhand der verschiedenen Modelle.
• Alle produzierte Signaturen, welche dieselben Protein-Familien oder –Domänen
beschreiben, erhalten dieselbe InterPro ID und werden als ein „Ergebnis“ zusammengefasst.
• Verwandte Signaturen sind jeweils miteinander verlinkt.
Einträge
• InterPro hält für die einzelnen Ergebnisse weitere Informationen bereit, die im InterProEintrag zusammengefasst werden, darunter:
• Beschreibendes Abstract über die Funktionen der Proteine und Signaturen, die mit dem
Ergebnis assoziiert sind.
• Links zu den sekundären Datenbanken (Quell-Datenbanken für die Signaturen).
• Links zu PubMed (Literatur), PDB und weiteren Datenbanken.
InterPro
Integrated Resources of Proteins Domains and Functional Sites
Was bringt mir diese Datenbank eigentlich?
• Tool für die Erkennung von ProteinVerwandtschaften unbekannter Sequenzen.
• Eingabe einer beliebigen FASTA-Sequenz in
InterProScan => Suche nach ähnlichen
Signaturen anhand der Methoden der
„Unter-Datenbanken“ => Klassifizierung des
Proteins => Phylogenetische Analyse.
• Besonders wichtig für die Menge an Daten
in Genom-Sequenzierungs-Projekten.
• Erster Ansatz, wenn neues Protein oder Gen
entdeckt wurde, um es einzuordnen.
BLAST in sekundären Datenbanken
mit den entsprechenden Modellen
InterPro
Integrated Resources of Proteins Domains and Functional Sites
InterProScan ist jedoch nicht ausreichend!
The only way to make complete analyses of the
domains contained in your sequence is to use
the three major domain servers:
1) InterProScan
2) CD-Search
3) Motif-Scan
- Bioinformatics for Dummies, S. 182
InterPro
Integrated Resources of Proteins Domains and Functional Sites
Die Ergebnisse enthalten unter anderem folgende Daten:
Proteine im
InterPro-Eintrag
InterPro-ID des
Eintrags
Art des Eintrags
(Family, Domain, Site)
Signaturen im
InterPro Eintrag
Hier geht’s zu den 5 verschiedenen
„Listen-Ansichten“ der zu diesem
InterPro-Eintrag gehörenden Proteine.
Hier geht’s zu den Signatur-Einträgen
in den sekundären Datenbanken.
Verwandte
InterPro Einträge
Funktion der
Proteine/Signaturen
Hier geht’s zu den GO-Einträgen
(Funktions-Hierarchien).
Suchanfragen können auch über PDB ID, PubMed ID, InterPro ID oder FASTA-Sequenz
(Eindeutigkeit) bekannter Proteine gestellt werden. Alternativ über Phrasen wie
„Hexokinase“ oder „SH3“ (Problem: viele Suchergebnisse, schlechte Übersicht).
InterPro
Integrated Resources of Proteins Domains and Functional Sites
Die Ergebnisse enthalten unter anderem folgende Daten:
Abstract, geschrieben von Kuratoren
Taxonomischer Überblick
Schlüssel für die SequenzAnnotierung.
Beispiel-Proteine mit ihren Signaturen (mit Links)
InterPro
Integrated Resources of Proteins Domains and Functional Sites
A)
1)
2)
B)
1)
2)
Balken unter
stehen
für… folgende Daten:
Die Ergebnisse enthalten
anderem
InterPro-Einträge.
rot: gewählter Eintrag, hier: Hexokinase.
andere Farben: Einträge, deren Sequenzen sich mit dem aktuellen Eintrag
überschneiden. Z.B. konservierte Stellen in Hexokinase-Domäne.
Bereiche mit Infos zur Struktur. Die Struktur-Informationen werden aus sekundären
Datenbanken geholt.
Wenn Struktur aufgeklärt: Link zur
PDB-Datei + Links zur Klassifizierung
von Signaturen innerhalb der
Struktur nach SCOP und CATH.
Wenn Struktur nicht aufgeklärt:
automatisiertes HomologieModelling über sekundäre
Datenbanken (MODBASE und SwissBeispiel-Proteine mit ihren Signaturen (mit Links)
Model) liefern theoretisch
berechnete Strukturen!
InterPro
Integrated Resources of Proteins Domains and Functional Sites
InterPro
Integrated Resources of Proteins Domains and Functional Sites
Rot = Signatur (hier:
Hexokinase-Domäne) des
InterPro-Eintrags.
Jede Farbe repräsentiert einen
anderen InterPro-Eintrag.
Liste aller zum InterPro-Eintrag
gehörenden Proteine = alle
Proteine mit HexokinaseDomäne.
Anzeige der DomänenArchitektur der Proteine.
InterPro
Integrated Resources of Proteins Domains and Functional Sites
InterPro Relationships ermöglicht Querverlinkung zwischen InterPro-Einträgen.
CHILD/PARENT:
• >75% der Proteine im Protein-Set des CHILD-Eintrags müssen auch im PARENT Protein-Set
vorkommen.
• Die Signaturen der CHILD/PARENT Einträge müssen mindestens 50% überlappen.
• Der Child-Eintrag ist immer spezifischer als der PARENT-Eintrag. Passt eine Sequenz zum
CHILD-Eintrag, passt sie immer auch zum PARENT-Eintrag.
CONATINS/FOUND IN
• Es werden strukturelle und funktionelle Features definiert, die nicht über CHILD/PARENT
Beziehungen definiert sind. Darunter: Regions, Domains, Repeats, Sites.
• >40% der Proteine im InterPro-Eintrag müssen dieses Feature enthalten.
• Verlinkung von InterPro-Einträgen, die in ihrer Zusammensetzung ähnlich sind, aber keine
evolutionäre Verwandtschaft aufweisen müssen.
So which database is better ?
As with everything, it depends on your
problem: we would certainly suggest using
more than one method. – Pfam DB, FAQ
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
Mehr dazu im BCDS-Seminar:
• InterPro auf EBI
PDB & PyMol
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
Die PDB (Protein-Databank)
• Die PDB ist ein Archiv mit experimentell bestimmten Strukturen von Proteinen,
Nukleinsäuren und höheren Assemblierungen.
• 4 Datenbanken bilden zusammen die wwPDB (world wide). Sie können eigenständig Daten anlegen,
prozessieren und zur Verfügung stellen, während wwPDB die Aktionen überwacht und die Daten verteilt. Der Upload
erfolgt direkt durch die Wissenschaftler, welche die Struktur experimentell bestimmt haben.
• RCSB PDB wird durch die Research Collaboratory for Structural Bioinformatics, USA verwaltet.
• PDBe (auch: MSD, macromolecular structure database) auf EBI, UK.
• PDBj, Japan.
• BMRB (Biological Magnetic Resonance Databank) enthält NMR Daten biologischer Makromoleküle,
Universität Wisconsin-Madison, USA.
Die Suche in diesen Datenbanken und die Such-Ausgabe
erfolgt sehr komfortabel unter:
• RCSB PDB
• PDBsum auf EBI
Mehr dazu im BCDS-Seminar:
PDB & PyMol
http://www.rcsb.org/pdb/home/home.do
http://www.ebi.ac.uk/pdbsum/
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
NCBI Structure Group
• Die NCBI Structure Group bietet mehrere Ressourcen, um Strukturen zu finden:
• BioSystems Database
Pathways
• Molecular Modeling Database (MMDB)
3D-Strukturen
• Conserved Domain Database (CDD)
Domänen
• PubChem Databases (PC)
Liganden
• Vergleichbar mit den 3 Ebenen der KEGG-Datenbanken.
• Sie sind untereinander und mit den anderen NCBI Datenbanken querverlinkt.
• Die Daten stammen meist aus anderen, primären Datenbanken.
• Der Vorteil an diesen Datenbanken sind die teilweise sehr interessanten Tools, die in NCBI
integriert sind:
• VAST – Struktur-Homologie-Suche
• Cn3D – Struktur-Vergleiche
• IBIS – Protein/Protein-Interaktionen
• CDTree – Phylogenetische Bäume
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
NCBI Structure Group
Suche in der MMDB
• text term search: Suche über Felder in den PDB-flat-file Daten.
• protein BLAST: Eingabe-Sequenz wird mit Sequenzen aus der PDB-Datenbank verglichen.
Wenn die Eingabe-Sequenz bereits existiert, sind über den Entrez-Protein-Eintrag unter
Links/Related Structures bereits die berechneten BLAST-Ergebnisse gespeichert.
• VAST search: Nach Upload von 3D-Koordinaten im PDB-Format werden diese mit den 3DKoordinaten von Strukturen in der PDB-Datenbank verglichen. Mithilfe des Programms Cn3D
kann die Struktur-Homologie visualisiert werden.
siehe Protein-Tools, nachmittags
NCBI Structure Group
text term search
Kuriosität:
Aufgrund unterschiedlicher Definitionen
in Quelldatenbanken kann ein und das
selbe Protein mehrere MGs haben!
Je nach Suchmaschine existieren unterschiedliche Suchfelder!
Sie sind auf den Hilfe-Seiten einsehbar.
Intervall-Anfragen:
FromValue:ToValue[Field]
• [PDBACC] = PDB ID (wird auch ohne Feld erkannt).
• [EC] = EC-Nummer (Wildcards verwenden).
• [RES] = Auflösung der PDB-Struktur (in Angstrom).
• [EXP] = experimentelle Methode (X-Ray, NMR).
• [PDDAT] = Datum der Veröffentlichung der Struktur in der PDB.
• [ORGN] = Organismus, in dem die Struktur vorkommt.
Format von Daten:
• [CHN] = 1-Letter Code der Kette in der PDB-Struktur (ASCII Format).
YYYY/MM/DD,
• [LIGD] = Bezeichnung des Liganden in der PDB Struktur.
YYYY/MM, YYYY
• [MWT] = Molekulargewicht (in Dalten).
• [PCC] = Anzahl an Polypeptidketten in der Struktur (oligomerer Zustand).
• [MPRC] = Anzahl modifizierter AS in der Struktur.
• Die Literatur betreffend, welche die Struktur publizierte: [TITLE], [AUTH], [JOURNAL]…
NCBI Structure Group
• Die MMDB beinhaltet ausschließlich Strukturen aus der wwPDB.
• Die Ergebnis-Seiten verknüpfen die PDB-Daten mit weiteren Informationen aus NCBI:
Literatur-Verweise (PubMed),
Taxonomie-Informationen (NCBI Taxonomy),
ähnliche Protein-Sequenzen (Entrez Protein),
verwandte 3D-Strukturen (CCD, 3D Domains),
Informationen zu gebundenen Liganden (PubChem).
Display: Summary Format (MMDB Suche)
Zeigt alle bekannten
Liganden an.
Zeigt alle enthaltenen
Domänen an.
NCBI Structure Group
• Die Suche nach 3D-Domänen kann auch direkt über „Search 3D Domains“ erfolgen.
• Datenquelle: MMDB (Sortierung der Strukturen in einzelne Domänen).
• Basis für Struktur-Verwandtschafts-Analysen von Domänen über das NCBI-Tool VAST.
Display: Summary Format (3D Domains Suche)
Der erste Eintrag entspricht
der Kombination beider
Domänen.
Bei Klick auf ID oder
Abbildung der drei
Ergebnisse gelangt man
immer zum selben
MMDB-Eintrag.
Link zu VAST-Eintrag für ausgewählte Domäne.
NCBI Structure Group
Wie sieht nun ein MMDB-Eintrag
aus?
sehr übersichtlich (vergleiche
Registerkarten in PDBsum oder RCSB)
Link „VAST“ führt zu einer Tabelle,
welche die Domänen des Proteins
listet. Auswahl einer Domäne führt
ebenso zum VAST-Eintrag.
Link zum VAST-Eintrag des
gesamten Proteins
Link zum VAST-Eintrag der
3D-Domäne 1.
Beachte: 3D-Domäne ist nicht
durch Sequenz begrenzt!
Link zum CDD-Eintrag des
gesamten Proteins
Link zum CDD-Eintrag der
konservierten Sequenz 2.
Beachte: hier geht es um
Sequenz-Vergleiche!
NCBI Structure Group
Wie sieht nun ein VAST-Eintrag
aus?
Vector Alignment Search Tool
• VAST ist ein Vektor-basierender
Algorithmus, mit dem 3D
Strukturen verglichen werden.
• Diese Seite listet verwandte
Proteine in Bezug auf ihre
strukturelle Verwandtschaft.
• Von hier aus lassen sich gezielt
Struktur-Überlagerungen in
Zusammenhang mit SequenzAlignments anzeigen.
• Die zu vergleichenden Strukturen
einfach markieren und „View 3D
Alignment“ anklicken
NCBI Structure Group
Visualisierung erfolgt über Cn3D!
2 Fenster:
Sequenz-Alignment
+ Struktur Überlagerung.
Rot = identisch
Blau = konserviert
Grau = nicht konserviert
Mehr dazu später bei ProteinAnalyse-Tools
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
NCBI Structure Group
• Konservierte Domäne = in der Evolution mehrmals auftauchende, strukturell und/oder
funktional vom Gesamt-Protein entkoppelte Einheit.
• Die CDD nutzt u.a. den Input verschiedener Datenbanken, welche Domänen klassifizieren
(vergleichbar mit InterPro).
Der Unterschied zwischen CDD und 3D Domains
• Die 3D Domains Database speichert Strukturen (x,y,z-Koordinaten der einzelnen Atome).
• Die CDD speichert lediglich die Sequenz einer konservierten Region im Protein.
• CD-Modelle basieren auf multiplen Sequenz-Alignments verwandter Proteine aus
zahlreichen Organismen. So werden Sequenz-Regionen mit ähnlichen AS-Muster identifiziert.
• CDD-Eintrag = Summe aller Sequenzen, die zur selben konservierten Domäne gehören.
NCBI Structure Group
• Erst in Verbindung mit der MMDB kann die Domänen-Struktur in Zusammenhang mit
den konservierten Sequenzen betrachtet und analysiert werden.
• Ziel der CDD: stimmen die Daten aus den multiplen Sequenz-Alignments mit den
Informationen aus der Überlagerung der 3D-Strukturen überein?
Logisch: gleiche Sequenz = gleiche Struktur!
Frage: ähnliche Sequenz = ähnliche Struktur?
Ziel: Rückschlüsse auf Ursache der Funktion
(Sequenz/Struktur/Funktion Beziehung)
• Hierzu gibt es das Programm Cn3D auf NCBI
• Es zeigt gleichzeitig Sequenz-Alignment und Struktur-Überlagerung an.
NCBI Structure Group
Das CD-Search Tool
Suche von konservierten Domänen anhand der FASTA-Sequenz möglich
Alternativ normale Suche über Entrez
NCBI Structure Group
Link zum CDD-Eintrag des
gesamten Proteins
Selbes Beispiel:
Hexokinase (PDBID: 3H1V)
Link zum CDD-Eintrag der
konservierten Sequenz 2.
Beachte: hier geht es um
Sequenz-Vergleiche!
NCBI Structure Group
Wie sieht nun ein CDD-Eintrag aus?
• Sequenzen derselben Domäne aus
Proteinen verschiedener Organismen
(nur eine Auswahl wird dargestellt).
• Bedeutung von „dieselbe Domäne“
wird von den Quell-Datenbanken
(verschiedene Modelle) definiert.
Info-Text über die CD
Zum SuperfamilienEintrag
Hier ist die Quell-Datenbank Pfam.
Das Alignment kann im mFASTA
Format gespeichert werden.
Farben stehen für den Grad der Konservativität. Die
Sensitivität kann über „Color Bit“ eingestellt werden:
• rot: am besten konserviert
• blau: mittelmäßig konserviert
• grau: am schlechtesten konserviert
NCBI Structure Group
Die Häufigkeit, mit der eine
bestimmte Aminosäure in einer
bestimmten Position der Sequenz
vorliegt, lässt sich über die PSSM
(position-specific scoring matrix)
visualisieren.
Struktur-Überlagerung
in Cn3D betrachten
Representatives: Link zu den
einzelnen Protein-Sequenzen
des Alignments.
Related Protein: alle Protein-
Sequenzen mit dieser Domäne (RPSBLAST).
Related Structure: Alle ProteinSequenzen mit bekannter 3D-Struktur,
die eine ähnliche PSSM aufweisen
(auch RPS-BLAST).
NCBI Structure Group
Position-specific Scoring Matrix
Konsensus-Sequenz =
wahrscheinlichste Sequenz
Daten-Tabelle für eine
Aminosäure-Position
NCBI Structure Group
(1)
(2)
Wo kamen nochmal die Daten her?
Verschiedene NCBI-externe Datenbanken (unterschiedliche Modelle zur
Klassifizierung der Domänen).
Von NCBI-Kuratoren aus 3D-Struktur-Informationen abgeleitete Domänen.
Problem: Redundanz
• Lösung von InterPro: Ein Eintrag für eine Sequenz und Gegenüberstellung der Modelle.
• Lösung von NCBI: Einzelne Einträge für die Modelle. Die CDD fasst ähnliche DomänenModelle verschiedener Quellen in Superfamilien zusammen.
Wie gelange ich zum Superfamilien-Eintrag?
(1) Der Link zur Superfamilie ist auf der CDD-Ergebnis-Seite
(2) Direkte Suche in CDD nach einer Domänen-Bezeichnung
(Beispiel: SH3)
NCBI Structure Group
So sieht ein Superfamilien-Eintrag aus
ID beginnt mit cI
Links zu den „Einzel-Einträgen“:
ID beginnt mit DBName der QuellDatenbank (hier:
pfam bzw. smart)
NCBI-interner
Eintrag für SH3
ID beginnt mit cd
NCBI-externe Einträge:
SH3 aus Pfam,
SH3 Variante aus Pfam
SH3 aus Smart
NCBI Structure Group
Vorteile von NCBI-internen Superfamilien-Einträgen
Erstellung mit dem Ziel der Aufklärung von Sequenz/Struktur/Funktions-Beziehungen
• Kuratoren haben die Alignments aus anderen Datenbanken überprüft und mit der
Struktur-Überlagerung verglichen.
• In den Sequenz-Alignments wurden auf Basis dieser Analyse strukturell konservierte
Abschnitte hervorgehoben.
• Es wurden konservierte Stellen (z.B. Bindestellen, katalytische Reste etc.) markiert (mit
Verlinkung zur Literatur).
• Phylogenetischer Baum wird angezeigt (Nutze NCBI-Tool CDTree)
NCBI Structure Group
Wie sieht ein NCBI-interner
Eintrag aus?
• Obere Box enthält
Kommentare zu einzelnen
konservierten Bereichen.
• Beispiel zeigt SuperfamilienEintrag mit Unterfamilien, für
die eigene SuperfamilienEinträge existieren. Einzelne
Zweige des phylogenetischen
Baums können über die
Unterfamilien-Einträge
betrachtet werden.
• bekannt aus pfam-Eintrag: Boxen mit
Verlinkungen und Sequenz-Alignment
(nicht gezeigt).
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
NCBI Structure Group
PubChem Databases
• PubChem enthält Informationen über biologische Aktivität kleiner Moleküle. Es besteht
aus drei Datenbanken:
• PCSubstances und PCBioAssay enthalten Informationen aus der wissenschaftlichen
Community.
• PCCompound enthält aus diesen Datenbanken abgeleitete, nicht-redundante
Informationen.
Was bringt mir das in Zusammenhang mit 3D-Strukturen?
• 3D Strukturen mit Ligand findet man einfacher über Ligand-Suche bei PubChem.
• Querverlinkungen führen zur 3D Struktur des Ligand-gebundenen Makromoleküls.
NCBI Structure Group
Protein-Strukturen
mit allen ErgebnisVerbindungen als
Ligand.
Protein-Strukturen
mit dieser
Verbindung als
Ligand
NCBI Structure Group
BioSystems Database
• Suche in verschiedenen Pathway- und Interaktions-Datenbanken:
• KEGG – wird später noch eingeführt.
• Reactome – biologische Pathways.
• BIOCYC – Sammlung von >500 Organismus-spezifischen Pathway/GenomDatenbanken.
• PID, Pathway Interaction Database – human molecular signaling, regulatory events,
cellular processes).
• Sie ermöglicht den Zugang zu Signalwegen von verschiedenen Quell-Datenbanken und
verknüpft diese mit Informationen zu Literatur, molekularen und chemischen Daten über
Entrez.
Suche nach „Glycolysis“ liefert über 3000 Ergebnisse…
Für Pathways besser direkt KEGG ansteuern!
NCBI Structure Group
Inferred Biomolecular Interactions Server (IBIS)
• Suche nach Interaktionspartnern.
• oben: Sequenz mit
Interaktionsstellen
markiert.
• unten: Liste der
Interaktionspartner mit
Interaktionsstellen
• Ähnliche Funktion auf
EBI: IntAct.
Cn3D & CDTree
• Eigenständige Programme, Installation notwendig!
• Verwurzelt mit der CD-Database der Entrez-Structure Group (Verlinkung startet das
Programm automatisch, wenn installiert).
Cn3D
• Gleichzeitige Darstellung von Sequenz- und Struktur-Alignment
• Manuell Annotierte Signaturen zugänglich.
Beschreibung der
Domänen-Funktion
Einzelne konservierte
Stellen lassen sich
hervorheben
CDTree
• Darstellung von evolutionären Verwandtschaften, Hilfestellung bei der Klassifizierung
von Proteinen, verschiedene grafische Darstellungen lassen sich exportieren.
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
Entrez Protein
• Entkoppelt von der NCBI Structure Group - Hier geht es um Protein-Sequenzen!
• keine „einzelne DB“, sondern Zusammenstellung von Einträgen unterschiedlicher ProteinSequenz-Datenbanken.
• DB-Format ist äquivalent zum GenBank-Format.
Datenquellen:
• übersetzte codierende Sequenzen (CDS) aus DNA-Sequenzen in GenBank/EMBL/DDBJ
• Protein-Sequenzen aus PIR, UniProtKB/Swiss-Prot und PRF
• Protein-Sequenzen aus gelösten Strukturen in der PDB
Isoformen, unvollständige Sequenzen, Proproteine … haben unterschiedliche Einträge.
=> Hohe Redundanz der Daten => sehr spezifische Suchanfragen notwendig!
Protein-Sequenz über andere Datenbanken:
• Wenn Gen bekannt, ist eine genauere Suche über Entrez Gene möglich.
• Wenn Protein-Struktur aufgeklärt ist, Verlinkung über die PDB-Einträge.
• Besser: UniProtKB-Suche, da hier die Redundanz minimiert ist (UniRef).
Suche direkt in Entrez Protein daher eher selten bis gar nicht notwendig.
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
IntEnz
Integrated relational Enzyme database
• Enzymdatenbank auf EBI mit dem Fokus auf Enzym-Nomenklatur. Entwickelt in
Zusammenarbeit mit SIB (ExPASy) – Hier befindet sich die äquivalente ENZYME-Database.
• Enthält die offizielle Version des
Enzym-Nomenklatur Systems
(EC-System), das durch die NC-UIBMB
(International Union of Biochemistry
and Molecular Biology) festgelegt wird.
• Zusätzlich ist die offizielle
Klassifizierung erweitert
(Hinweis: preliminary EC Number).
• Suche oder EC-Browsing möglich.
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
UniPathway
Die metabolische Tür zu UniProtKB/Swiss-Prot
• Nutzt die UniProtKB Einträge und kategorisiert sie nach den Stoffwechselwegen, an denen
sie beteiligt sind. Die Datenbank ist in 5 Ebenen aufgebaut.
Ebene 0: Super-Pathway
• Klassifizierung der Stoffwechselwege in größere Kategorien, Super-Pathways:
Glykolyse  Kohlenhydratstoffwechsel
Ebene 1: UPA (Pathway)
• Die Stoffwechselwege sind unabhängig vom Organismus definiert (z.B. Glykolyse). Hier
können jedoch unterschiedliche Zwischenprodukte vorkommen (Verzweigungen im
Pathway).
• definiert als Satz von linearen Sub-Pathways, verbunden durch die terminalen Produkte
und Edukte.
Ebene 2: ULS (Linear Sub-Pathway)
• ULS können Teil von mehreren Pathways sein.
• keine Verzweigungen; definierte Folge enzymatischer Reaktionen.
• Nummerierung der enzymatischen Reaktionen in „step 1“ bis „step n“.
UniPathway
Die metabolische Tür zu UniProtKB/Swiss-Prot
Ebene 3: UER (Enzymreaktion)
• UERs gehören zu einem definierten Sub-Pathway.
• besteht aus zwei Datensätzen: biochemische Reaktion und Enzym.
• eine enzymatische Reaktion kann auf unterschiedliche Arten erfolgen, sodass verschiedene
Sequenz-Reaktionen stattfinden können (z.B. NADH oder NADPH als Co-Substrat).
Ebene 4: USR (Sequenz-Reaktion)
• USRs gehören zu einer definierten Enzymreaktion.
• Folge elementarer chemischer Reaktionen.
• Eine Sequenz-Reaktion kann in mehrere elementare chemische Reaktionen aufgeteilt
werden (ABC wird zu AB und BC).
• definiert durch eine EC-Nummer sowie Edukte und Produkte.
Ebene 5: UCR (Chemische Reaktion)
• UCRs können zu verschiedenen Enzymreaktionen gehören.
• Ein-Schritt-Reaktion
„Ebene 6“: UPC (chemische Verbindung)
• UPCs können zu verschiedenen chemischen Reaktionen gehören.
Datenquelle:
KEGG LIGAND
Database
Beispiel: Glykolyse
UniPathway
Die metabolische Tür zu UniProtKB/Swiss-Prot
• Es lassen sich Organismus-spezifische
Pathways tabellarisch anzeigen.
• Pathways sind direkt mit UniProtKB
verlinkt.
• „Browse Pathway“ zeigt eine Tabelle
aller Stoffwechselwege an (über 700).
UniPathway: Glykolyse
Links zum Sub-Pathway-Eintrag
Ontology View: Einordnung des Prozesses in den GesamtZusammenhang; Links zu Sub-Pathways, Enzymreaktion und
Enzyme
Beteiligte Proteine auf Pathwayund Enzymreaktions-Ebene
Chemical View
Protein View: Tabellarische Übersicht beteiligter Proteine,
Links zur ENZYM-Datenbank und UniProtKB-Liste für bestimmtes Reich
(Archaea, Bacteria, Eukaryota)
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
KEGG
Kyoto Encyclopedia of Genes and Genomes
“A grand challenge in the post-genomic era is a complete computer representation of the cell, the
organism, and the biosphere, which will enable computational prediction of higher-level complexity of
cellular processes and organism behaviors from genomic and molecular information.”
KEGG ist eine Repräsentation biologischer Systeme am Computer.
KEGG besteht aus 16 Datenbanken.
Sie repräsentieren zusammen drei Informations-Ebenen.
Startpunkt:
KEGG PATHWAY
Informationen anderer
Datenbanken durch Verlinkung:
KEGG ENZYME
KEGG REACTION
KEGG COMPOUND
KEGG
Kyoto Encyclopedia of Genes and Genomes
PATHWAY vs. BRITE
• KEGG Pathway enthält Stoffwechsel- und
Signalweg-Karten, basierend auf molekulare
Interaktionen und Reaktionen.
• KEGG Brite ermöglicht eine hierarchische
Klassifikationen, die das Wissen über biologische
Systeme repräsentiert.
• Klassifikation von KEGG PATHWAY ist auf
molekulare Interaktionen und Reaktionen
beschränkt. KEGG BRITE nutzt viele weitere
funktionale Beziehungen zur Definition
verschiedener Hierarchien!
• Mapping aller Datensätze (Genomics,
Transcriptomics, Proteomics, Metabolomics) zu den
BRITE-Hierarchien.
KEGG-PATHWAY
Sammlung manuell gezeichneter Pathway-Karten, basierend auf dem Wissen über
molekulare Interaktions- und Reaktions-Netzwerke.
Metabolism
(Kohlenhydrate, Energie, Lipid, Nukleotid, Aminosäure, Cofaktor/Vitamin)
Genetic Information Processing
(Transkription, Translation, Faltung, Sortierung, Degradation, Replikation, DNA-Reparatur)
Environmental Information Processing
(Membran-Transport, Signal-Transduktionswege, Signalmolekül-Interaktion)
Cellular Processes
(Autophagie, Endozytose, Zellzyklus, Zelltot, Immunsystem, Nervensystem)
Human Diseases
Drug Developement
KEGG PATHWAY
globale Metabolismus-Karte
KEGG PATHWAY
• Punkte repräsentieren Stoffwechsel-Intermediate (pop-up Info). Link zu KEGG Compound.
• Schriftzüge repräsentieren einzelne Pathways. Link zu den Pathway-Karten.
KEGG COMPOUND
Über die Datentabelle des
Stoffwechsel-Intermediats gelangt
man zu allen Pathways, bei denen es
beteiligt ist!
KEGG PATHWAY
• Sammlung manuell
gezeichneter PathwayKarten, basierend auf
das Wissen über
molekulare Interaktionsund ReaktionsNetzwerke.
• Links zu angrenzenden
Stoffwechselwegen
• EC-Nummern führen
zu einer großen DatenTabelle mit Infos aus:
• KEGG Enzyme
• KEGG Orthology
• KEGG Reaction
KEGG ENZYME
Daten-Tabelle enthält viele Informationen:
• Alternative Bezeichnungen des Enzyms.
• Substrate, Produkte, Cofaktoren, Enzymklasse.
• katalysierte Reaktionen (Verweis zu KEGG Reactions).
• Manuell geschriebene Kommentare.
• Pathways, in die das Enzym involviert ist.
• Links zu PubMed und weiteren Enzym-DBs.
KEGG ORTHOLOGY
KEGG REACTION
Sehr übersichtliche Navigation
• Schlichtes und einheitliches Layouts der Daten-Tabellen aller „Unter-Datenbanken“.
• Gut sichtbare Querverlinkungen zwischen allen Einträgen.
KEGG PATHWAY
Such-Feld:
Eingabe von z.B.
Stoffwechsel-Intermediaten
Klicke auf Suchergebnis und
Karte vergrößert
entsprechenden Ausschnitt
Navigation durch KEGG-PATHWAY über KEGG Atlas Browser (optional).
Funktionen: Zoomen, Konfigurierbare Verlinkung, Übersicht über alle Maps, History-Funktion
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
HPRD
Human Protein Reference Database
• Eigenständige Datenbank, keine Verwendung anderer Datenbestände wie UniProtKB.
• Die Daten werden 100% manuell über Kuratoren auf der Basis von Literatur in die
Datenbank eingegeben.
• Manuelle und eindeutige Klassifizierung. Jedes Protein bekommt eine spezifische
Kategorie, welche die häufigste/wichtigste Funktion beschreibt (demokratische
Abstimmung).
Besondere Features oder Kollaborationen
• Human Proteinpedia: Community-Portal, in dem Arbeitskreise Informationen über
Proteine austauschen. Ist neben der publizierten Literatur einer der Quellen für HPRD.
• Pathways: Datenbank NetPath (Entwicklung durch HPRD) hat bisher 20 Signalwege.
• PhosphoMotif Finder: Sucht anhand der FASTA-Sequenz Phosphorylierungsstellen.
HPRD
Human Protein Reference Database
• Browser: Molekülklasse, Domäne, Motive,
posttranslationale Modifikation, subzelluläre
Lokalisation.
• Suchanfrage: u.a. über verschiedene IDs
oder Protein-Bezeichnung.
HPRD
Human Protein Reference Database
Protein-Liste nach Suchanfrage oder
Browsen.
Domänen-Architektur wird
graphisch hübsch dargestellt
HPRD
Human Protein Reference Database
Links zu Hierarchie auf GO-Datenbank
Sehr gute Informationen:
• assoziierte
Erkrankungen (Link zu
OMIM).
• Protein-Protein
Interaktionen mit
experimenteller
Methode.
• DNA- und ProteinSequenz (ORF bzw.
Domänen sind markiert).
Kotakt zum ersten Kommentator
Kommentar anhängen
Überblick behalten
INFORMATIONEN UND ERLÄUTERUNGEN
• UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef
SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN
• Sequenz-basiert: PROSITE, PRINTS, Pfam
• Struktur-basiert: SCOP, CATH
• Gene Ontology (GO)
• InterPro auf EBI
PROTEIN-SEQUENZEN UND –STRUKTUREN
• RCSB & PDBe
• Entrez Structure Group auf NCBI
• Molecular Modeling Database (MMDB)
• Conserved Domain Database (CDD)
• BioSystems, PubChem, IBIS, Cn3D, CDTree
• Entrez Protein
STOFFWECHSELWEGE UND ENZYME
• IntEnz auf EBI
• UniPathway
• KEGG
SPEZIFISCHE DATENBANKEN
• HPRD
• ViralZone
ViralZone
• ViralZone ist auf ExPASy lokalisisert und
verwendet die UniProtKB-Einträge.
• Es müssen zunächst einzelne Viren
ausgewählt werden. Ein Sammel-Eintrag
zeigt dann alle codierten Proteine sowie
Infos über Capsid-Struktur und
Lebenszyklus.
Suche oder Browsing über
• Baltimore-Klassifizierung
• Host
• Virion-Struktur
ViralZone
Sehr gute Übersicht:
zu sehen sind Baltimore-Klassifizierung, Virion-Struktur und Host-Klassifizierung.
ViralZone
• Informationen sind auf 3 Ebenen vorhanden.
• Viele Viren wurden Betreff Genom, Genexpression
und Replikation manuell annotiert.
ViralZone
Protein-Einträge in Swiss-Prot, sortiert nach den einzelnen Virus-Stämmen
z.B. HIV-1 Gruppe M, Subtyp H.
Fragen?
[email protected]
Folien und Supplementals auf
www.BioKemika.de