Tracking-Modell ändert sich mit version control
Git und GitHub verwendet wurden, zu entwickeln, Hefe-JUWEL in eine nachvollziehbare Art und Weise. Git wird verwendet, um alle Änderungen von Hefe-GEM zu verfolgen, die online in einem GitHub-Repository gespeichert sind (siehe Abb. 1)., Die Struktur des Hefe-GEM-Repositorys auf GitHub enthält die folgenden drei Hauptverzeichnisse:
(1) ComplementaryData, das die zugehörigen Datenbankanmerkungen und physiologischen Daten enthält, die für Hefe-GEM-Updates verwendet werden. Diese Daten werden im Allgemeinen als tabulatorgetrennter Wert gespeichert (.tsv) Format zur einfacheren Verfolgung von Änderungen; (2) ComplementaryScripts, das alle Skripte enthält, die zum Aktualisieren von Hefe-GEM verwendet werden; (3) ModelFiles, das verschiedene Formate von Hefe-GEM für verschiedene Anwendungen enthält. Der.txt und.,yml (YAML) Formate machen es bequem, Änderungen in GitHub oder Git lokalen Clients zu visualisieren. Der.das XML-Format (SBML) erleichtert das Importieren des Modells in verschiedene Toolboxen und Programmiersprachen.
Als Standardschritt wird ein Commit benötigt, wenn Hefe-GEM aktualisiert wird. Um Commits leicht verständlich zu machen, werden semantische Commit-Nachrichten verwendet (Siehe Abb. 1c). Um die parallele Modellentwicklung zu ermöglichen, werden verschiedene Zweige von Hefe-GEM verwendet, einschließlich eines „Master“ – Zweigs und eines „Devel“ – Zweigs (Entwicklung)., Entwickler und sogar andere Personen aus der Community können neue Zweige aus dem Entwicklungszweig erstellen, um ihre Änderungen einzuführen, und dann anfordern, sie über Pull-Requests wieder zusammenzuführen. Diese Änderungen werden nur mit dem Entwicklungszweig zusammengeführt, und die Änderungen im Entwicklungszweig werden wiederum regelmäßig mit dem Masterzweig zusammengeführt, der die stabilen Releases des Modells enthält.,
Allgemeine Verfahren zur Standardisierung der Annotation von Metaboliten und Reaktionen
Für die neu hinzugefügten Reaktionen wurden ihre MetaNetX-IDs gemäß einer direkten Suche in der MetaNetX56-Datenbank unter Verwendung des zugehörigen Metaboliten-Namens oder der EC-Nummer-Informationen erhalten. MetaNetX-IDs wurden auch durch Reaktions-ID-Mapping aus den Datenbanken KEGG35, Rhea57 und BioCyc33 erhalten. Die Reversibilität der Reaktion wurde anhand der Datenbanken BioCyc und bigg58 korrigiert. MetaNetX-IDs wurden auch verwendet, um die EC-Nummer für die entsprechenden Reaktionen zu erhalten., Da die MetaNetX-Datenbank nicht über die Informationen zum Reaktionsnamen verfügt, wurde der Name jeder neuen Reaktion basierend auf dem Reaktions-ID-Mapping in Datenbanken von KEGG, ModelSeed und BioCyc erhalten.
Die Kompartimentanmerkung neuer Reaktionen wurde auf der Grundlage von Informationen aus den Datenbanken UniProt36 und SGD32 verfeinert. Die Teilsystemanmerkung wurde zunächst aus KEGG35 erhalten, und wenn dort keine Teilsysteme gefunden wurden, wurden stattdessen Informationen von BioCyc oder Reactome34 verwendet. Wenn die Reaktion keine Genbeziehungen hatte, nahmen wir an, dass sie im Zytoplasma auftrat.,
Für alle Metaboliten, die in neu hinzugefügten Reaktionen enthalten sind, wurden die zugehörigen MetaNetX-IDs basierend auf den Reaktionsmetanetx-IDs erhalten. Wenn nicht verfügbar, wurden sie durch ID-Mapping basierend auf KEGG-IDs oder KI-IDs erhalten. Sobald die Metaboliten MetaNetX-IDs erhalten wurden, wurden die Ladung, Formel, KEGG-IDs und ChEBI-IDs für den entsprechenden Metaboliten basierend auf der Metabolitenanmerkung in MetaNetX erhalten.,
Modellaktualisierung von Yeast7 auf Yeast8
Zunächst wurden alle Anmerkungen zu Metaboliten-ChEBI-IDs und KEGG-IDs (ergänzende Tabelle 8) in der neuesten Version des Konsensus-Gems von Hefe (Version 7.6) basierend auf der in KEGG und ChEBI59 verfügbaren Metaboliten-Annotation korrigiert. Darüber hinaus wurden mehrere Gene von iSce92631 hinzugefügt, die nicht in Hefeextrakten enthalten waren, wie bei allen Genen, die mit Stoffwechselprozessen und Transport in SGD, BioCyc, Reactome, KEGG und UniProt zusammenhängen. Die wichtigsten Datenbanken für die Modellkuration finden Sie in der ergänzenden Tabelle 9.,
In den Biolog-Experimenten wurde der Stamm S288c auf 190 Kohlenstoffquellen, 95 Stickstoffquellen, 59 Phosphorquellen und 35 Schwefelquellen angebaut. Das Ergebnis zeigte, dass S288c auf 28 Kohlenstoffquellen, 44 Stickstoffquellen, 48 Phosphorquellen und 19 Schwefelquellen wachsen konnte. Basierend auf diesen Ergebnissen wurden neue essentielle Reaktionen hinzugefügt, um das Modell in der Lage zu machen, das Wachstum auf den verwandten Substraten vorherzusagen., In der Zwischenzeit wurden alle in der YMDB-Datenbank enthaltenen Metabolomikdaten (gemessene Metaboliten) und die neuesten Metabolomik-Forschungen (ergänzende Tabelle 10) gesammelt und mit denen in Hefe GEM verglichen. Eine Standardanmerkung wurde für alle diese Metaboliten gegeben und eine Pipeline wurde entwickelt, um die Metaboliten in den EDELSTEIN hinzuzufügen, ohne neue Sackgassenmetaboliten zu bringen. Detaillierte Verfahren in der Modell-Pflege sind in den Ergänzenden Methoden.
Modellvalidierung mit verschiedenen experimentellen Datenquellen
Zum Vergleich der Metabolitenabdeckung wurde die YMDB-Datenbank60 analysiert., Es gibt 2024 Metaboliten für Hefe, von denen 871 in S. cerevisiae gemessen wurden. Für jeden Metaboliten wurden ChEBI-ID und KEGG-ID zugewiesen, und basierend darauf wurde die entsprechende MetaNetX-ID abgeglichen. Für Metaboliten aus Yeast7 und Yeast8 wurde auch die MetaNetX-ID jedes Metaboliten basierend auf ID-Mapping erhalten.
Die Modellqualität wird dann anhand der Genauigkeit (Eq. 1) und Matthews‘ Korrelationskoeffizient (MCC)61 (Eq. 2). Die Genauigkeit reicht von 0 (schlechteste Genauigkeit) bis 1 (beste Genauigkeit)., MCC reicht von -1 (völlige Meinungsverschiedenheit zwischen Vorhersage und Beobachtung) bis + 1 (perfekte Vorhersage).
Zur Durchführung der Genessentialitätsanalyse haben wir das Wesentliche genliste aus dem Hefe-Deletionsprojekt, verfügbar unter http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, die aus Experimenten mit einem vollständigen Medium generiert wurde. Genauigkeit und MCC wurden wie oben beschrieben berechnet.,
Das simulierte aerobe und anaerobe Wachstum unter glukosebegrenzten und stickstoffbegrenzten Bedingungen wurde mit Referenzdaten verglichen62. Das folgende Verfahren wurde angewendet, um das Chemostatwachstum unter glukosebegrenzten Bedingungen zu simulieren. Stellen Sie zunächst die untere Grenze der Glukose-und O2-Aufnahmereaktionen unter Verwendung experimenteller Werte ein. Glukose – und Sauerstoffaufnahmeflüsse sind negativ und daher sind die unteren Grenzen so festgelegt, dass sie die maximalen Aufnahmeraten darstellen. Zweitens maximieren Sie die Wachstumsrate.,
Da bei stickstoffbegrenzten Bedingungen der Proteingehalt in Biomasse unter stickstoffbegrenzten Bedingungen drastisch abnimmt, wurde die Biomassezusammensetzung entsprechend den Referenzbedingungen neu skaliert63, dann die untere Grenze, gemessen für NH3-und O2-Aufnahmereaktionen, unter Verwendung experimenteller Werte festgelegt und schließlich die Wachstumsrate maximiert.
Visualisierung von Yeast8
Die Karten von yeast-GEM wurden für jedes Teilsystem mit cellDesigner 4.438 gezeichnet (Ergänzende Abb. 5). Inhouse-R-Skripte wurden verwendet, um die Karte jedes Subsystems automatisch basierend auf Yeast8 zu erstellen., Anschließend wurde das Diagrammlayout in cellDesigner 4.4 manuell angepasst, um seine Qualität zu verbessern, und die gesamte Grafikkarte im SBGN-Format konnte in https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfilesgefunden werden.
ecYeast8-Generation
Das ecYeast8-Modell wurde basierend auf der neuesten Version der GECKO Toolbox generiert, die unter https://github.com/SysBioChalmers/GECKOverfügbar ist. Für jede Reaktion fragt der Algorithmus alle notwendigen kcat-Werte aus der BRENDA database64 nach Genanmerkungen und einem hierarchischen Kriteriensatz ab, wobei der Substrat-und Organismspezifität Priorität eingeräumt wird.,reaktionen nach:
wobei vj den Fluss durch Reaktion j darstellt, stellt ei die Menge des Enzyms dar, das der Reaktion j zugeordnet ist, Ei die Gesamtkonzentration des Enzyms i, und kcat stellt die höchste Umsatzzahl für Enzym i und Reaktion j zur Verfügung., Das detaillierte Verfahren zur Erzeugung von ecYeast8 finden Sie im ergänzenden Material des GECKO-Papiers26.
Simulationen mit ecYeast8
Um die maximale Wachstumsrate unter verschiedenen Kohlenstoff-und Stickstoffquellen unter Verwendung von ecYeast8 vorherzusagen, wurde das folgende Verfahren angewendet. Entfernen Sie zunächst alle Einschränkungen für die damit verbundenen Aufnahmeraten von Kohlenstoff-und Stickstoffquellen. Stellen Sie als Nächstes minimale Medien ein, die aus den zugehörigen Kohlenstoff-und Stickstoffquellen bestehen. Schließlich simulieren Sie eine Wachstumsratenmaximierung, wobei der optimale Wert für die posteriore Minimierung des gesamten Proteinverbrauchs festgelegt wird., Dies bietet eine sparsame Flussverteilung.
Für die vergleichende FVA zwischen Hefen8 und einem ecYeast8 werden die maximale Wachstumsrate und die mit ecYeast8 erhaltenen optimalen Glukoseaufnahmeraten als fester Wert bzw. als Obergrenze im ursprünglichen GEM verwendet, um einen fairen Vergleich der Flussvariabilität für denselben Wachstumsphänotyp durchzuführen.
Flusskontrollkoeffizienten (FCCs) sind definiert als ein Verhältnis zwischen einer relativen Änderung des Interessenflusses und einer relativen Änderung des entsprechenden kcat von 0.,1%, was beschrieben werden kann durch:
wobei vb und vup der ursprüngliche Fluss bzw. neue Flussmittel sind, wenn der kcat um 0,1% erhöht wird.
Re-annotation des pan-Genoms von der 1011 Hefe-Genom-Sequenzierung-Projekt
Zu konstruieren, die Pfanne Modell Hefe (panYeast8), die neueste genomics research von Peter et al consulted40. In Peters Studie wurden 1011 Genome von Hefestämmen sequenziert und analysiert. Aus all diesen Stämmen wurde ein Pangenom erhalten, das aus 6081 nicht redundanten ORFs von S besteht., cerevisiae S288C Referenzgenom und 1715 Nicht-Referenz-ORFs (nrORFs) von den anderen Stämmen. Für die 7796 ORFs wurde für jeden von ihnen eine panID gegeben. Im Vergleich dazu sind 4940 ORFs in all diesen Stämmen konserviert, während 2846 ORFs in all diesen Stämmen konserviert sind. Die Annotation von nicht redundanten 6081 ORFs kann direkt aus der neuesten S. cerevisiae S288C Genom Annotation entnommen werden, während verwandte Gen–Protein-Reaktionen (GPR) direkt aus Yeast8 erhalten werden können.
Wie in Peters Artikel erwähnt, gibt es 774 nrORFs mit den Ortholog-Genen von S. cerevisiae S288C genome40., Die Blast-Analyse, zusammen mit der Genanmerkung von KEGG Web service35 und EggNOG Web service65, wurden verwendet, um die ursprüngliche Ortholog-Beziehung zu überprüfen und zu verbessern. Um die Ortholog – Gen-Beziehungen qualitativ zu bewerten, wurde die bidirektionale Blast-Hit (BBH) – Analyse mit Diamond66 weiter durchgeführt. Hier wurde schließlich der beste Treffer in der BBH-Analyse mit Pidentity größer als 80% ausgewählt und für eine panYeast8-Formulierung vorbereitet.
Zur weiteren Suche nach neuen Reaktionen im Zusammenhang mit nrORFs wurden die Annotationsergebnisse von KEGG und dem EggNOG-Webdienst verwendet., Entsprechend der Formatanforderung für die beiden Webdienste wurden die Protein fasta-Dateien von pan-genome auf KEGG (https://www.genome.jp/tools/kaas/) und EggNOG (http://eggnogdb.embl.de/#/app/emapper) hochgeladen. Für die KEGG Annotation wurde eine BBH-Zuweisungsmethode (bidirektionaler bester Treffer) mit den Standardparametern verwendet. Für die EggNOG Annotation wurde der HMMER mit den Standardparametern verwendet. In der EggNOG-Annotation wird jedes Protein der KO-ID und der BiGG-Reaktions-ID zugeordnet, während für die KEGG-Annotation jedem Protein eine eindeutige KO-ID zugewiesen wird., Wenn sich also die KO-ID für ein Protein zwischen KEGG und EggNOG unterscheidet, wird die von KEGG angegebene KO-ID in der weiteren Analyse bevorzugt. Wenn die KO-ID für ein Protein von EggNOG angegeben wurde, jedoch nicht in KEGG, wird diese Anmerkung auch für die Pan-Genome-Annotation verwendet. Wenn die KO-IDs erhalten werden, werden die Listen von KOs aus nrORFs mit dem Referenz-ORFs verglichen. Anschließend wurden neue KO-IDs für die nrORFs extrahiert. Anschließend wurde die rxnID basierend auf der KO-rxnID-Zuordnung aus der KEGG-Datenbank erhalten.,
Erzeugung von panYeast8 -, coreYeast8-und stammspezifischen GEMs
Für Ortholog-Gene (z. B. Gen C), die aus der Pan-Genom-Annotation erhalten wurden, können sie basierend auf der Referenzgenfunktion (z. B. Gen A) im Originalmodell gemäß den folgenden Regeln zusammengeführt werden: (1) Wenn A oder B dasselbe Isoenzym katalysieren, könnte die GPR-Regel in panYeast8 in „A oder B oder C“ geändert werden.sollte von „A und B“ in „(A und B) oder(C und B) “ aktualisiert werden. Zweitens wurden 51 neue Reaktionen mit 13 neuen Genen in panYeast8 zusammengeführt., Was die Genenidentität im Modell betrifft, so wurden zur Verringerung des Chaos die ursprünglichen Gen-IDs und Gennamen aus dem ursprünglichen Yeast8 beibehalten, während für neu hinzugefügte Gene die in Peters Arbeit definierten Paniden9 verwendet wurden, um den Gennamen darzustellen.
Kollabierte Gene im Pan-Genom, konnten jedoch in Hefen gefunden werden und werden durch die entsprechenden Ortholog-Gene ersetzt, die im Pan-Genom definiert sind. ssGEMs für 1011 Stämme wurden basierend auf panYeast8 zusammen mit der Liste der verwandten Stämme spezifischer Gene rekonstruiert (Ergänzende Abb. 6a)., Eine Matlab-Funktion wurde entwickelt, um dehnungsspezifische Modelle automatisch zu generieren. Basierend auf aktuellen Gen-Existenzinformationen, wenn ein Gen aus einem Komplex fehlt, dann wird die Reaktion entfernt; und wenn ein Gen aus zwei Isoenzymen fehlt, dann wird die Reaktion beibehalten, obwohl die Reaktion aktualisiert wird, um das fehlende Gen zu entfernen. Nach der Rekonstruktion von 1011 ssGEMs wurde coreYeast8 basierend auf gemeinsamen Reaktionen, Genen und Metaboliten in den 1011 ssGEMs erzeugt.,
Stammklassifikation basierend auf PCA, Entscheidungsbaum und Clusteranalyse
Die hierarchische Clusteranalyse basierend auf der Reaktions-Existenz in ssGEMs für Hefestämme basiert auf R Paket–dindextend (https://CRAN.R-project.org/package = dindextend). Für die PCA-Analyse von Stämmen basierend auf Gen (oder Reaktion) Existenz in ssGEMs, R-Funktion-prcomp wurde in diesem Artikel verwendet. Die Entscheidungsbaumklassifizierung von Stämmen nach der maximalen Wachstumsrate an verschiedenen Kohlenstoffquellen wurde mit dem R-Paket–rpart (https://cran.r-project.org/web/packages/rpart/) durchgeführt., Für die Hyperparameter-Abstimmung wurden zwei R—Pakete-ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) und mlr (https://CRAN.R-project.org/package=mlr) – weiter verwendet.
Proteinstruktursammlung für proYeast8DB
Um die Protein-3D-Strukturmodelle für alle Gene aus HEFEAST8 (und einige metabolische Gene, die nicht im aktuellen Yeast8 enthalten sind) zu etablieren, wurden am 20.Juli 2018 alle Proteinstrukturen von S. cerevisiae S288C aus der SWISS-MODEL-Datenbank67 (https://Swissmodel.expasy.org) heruntergeladen., Die Gesamtzahl beträgt etwa 20332 PDB-Dateien einschließlich der 8109 Modellierung Homologie PDB-Dateien (PDB_homo) und 12223 experimentelle PDB-Dateien (PDB_ex). In der Zwischenzeit wurden alle PDB_ex von S. cerevisiae S288C, die in der RCSB PDB54-Datenbank gespeichert sind, weiter heruntergeladen. Die in jedem PDB_ex enthaltenen Proteinsequenzen wurden ebenfalls heruntergeladen. Die beiden oben genannten Quellen von PDB-Dateien wurden zusammengeführt, um die umfassende PDB-Dateien Datenbank für S. cerevisiae S288C zu erhalten.Mit der metabolischen Genliste von S. cerevisiae S288C PDB-Dateien Datenbank abfragen, die meisten Gene, mit Ausnahme von etwa 217 Proteine (in Yeast8.,3) konnte in den zugehörigen PDB-Dateien gefunden werden. Um diese Lücke zu schließen, wurde der SWISS-MODEL-Webdienst weiter verwendet, um das PDB_homo für 217 Proteine zu erstellen. Infolgedessen könnte jedes dieser Proteine mindestens eine PDB-Datei haben. Alle ursprünglichen Proteine Annotation, wie die Restsequenz und Proteinlänge, wurden aus der SGD-Datenbank heruntergeladen.
Sobald die PDB-Dateien gesammelt wurden, wurden die Parameter der PDB extrahiert und für die Qualitätsanalyse berechnet., Was den PDB_homo betrifft, so wurden die Standardparameter aus dem FTP der SWISS-MODEL-Datenbank erhalten und umfassten die Protein-UniProt-ID, die Proteinlänge, die zugehörige PDB-ID (verbunden mit chainID), die Strukturquellen, die Koordinaten der mit PDB-Strukturen bedeckten Proteinreste, die Abdeckung, die Auflösung und QMEAN., Was PDB_homo betrifft, so wurden neben den obigen Standardparametern aus der SWISS-MODEL-Datenbank eine größere Anzahl von Parametern erhalten, indem die vom SWISS-MODEL bereitgestellten PDB_homo-Atom-Dateien mit einem internen Python-Skript analysiert wurden, das die Methoden zum Abrufen der PDB-Dateien, der Modellvorlage, des Protein-Oliga-Zustands, des GMQE, QMN4, der Sequenzidentität (SID) und der Sequenzähnlichkeit (SIM) enthielt. Zusammenfassend enthält jedes PDB_homo 18 Parameter für die weitere PDB-Qualitätsanalyse.
Einige PDB_ex-Parameter wie Coverage und Template-ID finden Sie auch in der SWISS-MODEL-Datenbank., Die anderen wichtigen Parameter wie Auflösung, Liganden und Oliga-Status wurden durch Parsen von PDB_ex-Dateien aus der RCSB PDB-Datenbank mit (https://github.com/williamgilpin/pypdb) erhalten. Die chainID für jeden PDB_ex wurde aus der SIFTS-Datenbank heruntergeladen68.
Qualitätsanalyse der Protein 3D-Struktur
Da ein Protein mit mehreren PDB-Dateien in verschiedenen Qualitätsstufen verbunden werden kann, ist es wichtig, das PDB von geringer Qualität herauszufiltern. In dieser Arbeit wurden hauptsächlich vier Importparameter, nämlich Sequence identity (SI), Sequence similarity (SS), resolution und QMEAN, verwendet, um den PDB_homo zu klassifizieren., Durch die Verwendung einer einfachen Normalverteilung, um alle diese Parameter von PDB_homo zu beschreiben, kann ein Z-Score-Test durchgeführt werden, um den Schwellenwert für den auf 0,1 eingestellten P-Wert zu berechnen. Der Grenzwert der Sequenzidentität, der Sequenzähnlichkeit, Auflösung und QMEAN beträgt 17,58, 0,25, 3,8 Å bzw. Wie in der SWISS-MODEL-Datenbank angegeben, ist jedoch ein PDB_homo mit dem QMEAN kleiner als -4 von geringer Qualität. Um PDB_homo in dieser Arbeit von höherer Qualität zu gewährleisten, werden die kritischen Parameter wie folgt zurückgesetzt: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31 und Auflösung ≤ 3.4 Å.,
Um zu überprüfen, ob eine Lücke in den PDB_ex-Dateien vorhanden ist, wurden alle Restsequenzen aus PDB-Datenbanken für jede Kette einer PDB-Datei heruntergeladen. An einigen Stellen waren die von PDB-Datenbanken bereitgestellten Rückstandssequenzen jedoch nicht mit den in der Struktur enthaltenen Rückstandssequenzen konsistent. Um dieses Problem zu lösen, wurde ein Biopython-Package69 verwendet, um Rückstandssequenzen für jede Kette einer PDB-Datei zu erhalten. Als nächstes wurden alle Rückstandssequenzen mit ursprünglichen Proteinsequenzen für S gestrahlt., cerevisiae S288C von SGD mit Hilfe von Diamond66, um zu prüfen, ob Lücken (Fehlanpassungen oder Mutationen) in den Rückstandssequenzen von PDB_ex im Vergleich zu den ursprünglichen Rückstandssequenzen bestanden. Der PDB_ex wurde mit den Schwellenwerten gewählt: pidentity = 100 und Auflösung ≤ 3.4 Å; andernfalls wird ein PDB_homo aus der SWISS-MODEL-Datenbank verwendet.
Beziehungen von Proteindomäne, Gen, Protein und Reaktionen (dGRPs) herstellen
In dieser Arbeit wurde die Pfam32.0-Datenbank70 (https://pfam.xfam.org/) hauptsächlich verwendet, um die Domäneninformationen von Proteinen aus S zu kommentieren., cerevisiae S288C. Wenn eine Struktur alle Rückstände einer bestimmten Domäne abdeckte, wurde sie genau dieser Domäne zugewiesen. Für jede domain, die Koordinaten von Anfang und Ende, den Namen, die domain, Beschreibung der Funktion, den domain-Typ, e_value, den zugehörigen PDB-ID und protein-ID wurden alle zusammengefasst. Nach den Ergebnissen von Yeast8 konnte die Beziehung zwischen Gen-ID und Reaktion-ID erhalten werden. Anschließend könnten die Domäneninformationen mit jedem Genpaar und jeder Reaktion basierend auf der ID-Zuordnung verbunden werden.,
SNP Collection and relative coordinates mapping
Ausgehend von der vcf-Datei, die von den jüngsten 1011-Genomsequenzierungsprojekten für Hefestämme bereitgestellt wird40 der homozygote SNP aus der massiven Datendatei (Ergänzende Abb. 10a) wurden zunächst extrahiert. Die SNPs von geringer Gesamtqualität mit einer Tiefe von <2.,0, Zuordnung Qualität <40, Genotyp Qualität < 30, und der Genotyp Tiefe <5 gefiltert wurden basierend auf einer Reihe von standard-Parameter gemäß dem Broad Institute Genome analysis Toolkit (GATK)71.
Nach der Filtration kann für jeden Stamm das zuverlässige SNP erhalten werden. Die Daten enthalten außerdem den Stammnamen, das Chromosom, die Koordinaten, die Ref-und die Alt-Nukleotidbasis jedes SNP., In der Annotationsphase wurden der SNP-Typ und verwandte Gennamen basierend auf den Koordinaten und den Annotationsinformationen von S. cerevisiae S. cerevisiae S288C reference genome (Version R64-1-1) von NCBI weiter kommentiert. Wenn sich das SNP nicht in der Genzone befand, wurde es als eine Art „INTEGENIC“ klassifiziert. Wenn nicht diese Klassifizierung, wurde ihr ansonsten ein Gen-systematischer Name gegeben, der mit dem Gennamen-Format in Yeast8 übereinstimmt., Basierend auf den obigen SNP-Annotationsinformationen wurden nur diejenigen ausgewählt, die zu den metabolischen Genen gehören (Genliste in Yeast8 und einige andere metabolische Gene, die bisher nicht in Yeast8 enthalten waren). Gemäß den SNP-Annotationsinformationen und den Proteinsequenzen der verwandten Gene werden die SNPs als sSNP (synonymous single Nucleotide polymorphism) und nsSNP (nonsynonymous single Nucleotide polymorphism) klassifiziert. Die relative Anzahl von sSNPs und nsSNPs für jedes Gen wurde berechnet, was gleich der gesamten sSNPs oder nsSNPs dividiert durch die zugehörige Proteinlänge ist.,
Vor dem Mapping müssen die Koordinaten mutierter Rückstände aus jedem nsSNP berechnet werden. Erstens können die relativen Koordinaten mutierter Rückstände auf der ursprünglichen Proteinsequenz basierend auf den Koordinaten von nsSNP auf dem Chromosom erhalten werden. Anschließend können gemäß der Koordinatenzuordnung zwischen den ursprünglichen Proteinsequenzen und den relativen Restkoordinaten in der Proteinstruktur die relativen Koordinaten der mutierten Rückstände in den Proteinstrukturen geschätzt und in der folgenden Berechnung verwendet werden.,
CLUMPS-Methode zur Berechnung von p-Werten von mutationsangereicherten PDB-Dateien
Unter Bezugnahme auf Kamburovs Methoden45, einen WAP-Score zur Berechnung der paarweisen Abstände zwischen mutierten Resten für eine Protein-3D-Struktur.
Wobei dq,r in diesem Artikel als der euklidische Abstand (in Å) zwischen α-Kohlenstoffen zweier mutierter Rückstände definiert ist., t ist definiert als eine „weiche“ Abstandsschwelle, die 6 Å entspricht. nq und nr sind die normalisierten Zahlen von Proben enthält die Mutationen mit der folgenden sigmoidal Hill Funktion:
Wobei Nq die Anzahl der Proben mit einem Fehlschlag ist mutation beeinflussender Rest q des Proteins und θ = 2 und m = 3 sind Parameter der Hill-Funktion, die den kritischen Punkt (Zentrum) bzw. die Steilheit der Sigmoid-Funktion steuern., Die Formel (2) wurde verwendet, um die in den Rückstandsmutationen q und r enthaltene Probenzahl zu normalisieren, wodurch die Auswirkungen häufiger mutierter Rückstände in den Proben vermieden werden können. Eine detaillierte Beschreibung jeder Formel finden Sie in Kamburovs Artikel45.
Die CLUMPS-Methode kann in vier Schritte unterteilt werden. Bereiten Sie zunächst die erforderlichen SNP-Informationen und Strukturinformationen eines Proteins vor. Zweitens, wenn die normalisierte Mutationszahl an bestimmten Positionen auftritt, berechnen Sie die Testergebnisse der Proben., Als nächstes, unter der Annahme, dass die gleichmäßige Verteilung der Mutationen über die Proteinreste die gegebene Struktur abdeckt, berechnen Sie jeden WAP-Score in 104 Randomisierungen, um die Nullverteilung zu erhalten. Während des Probenahmevorgangs wurde die Mutationszahl der an zufälligen Stellen auftretenden Rückstände mit den ursprünglichen Werten gleichgehalten. Berechnen Sie abschließend den Right Tailed P-Wert in der Nullverteilung für die angegebenen mutierten Proteinstrukturen basierend auf dem ursprünglichen WAP-Score und allen abgetasteten WAP-Scores., Der Right Tailed P-Wert ist definiert als die Anzahl der Samples mit WAP-Scores, die größer sind als die ursprünglichen WAP-Scores, dividiert durch die Gesamtzahl der Samples.
Für Proteine mit einem P-Wert kleiner als 0,05 aus der Gruppe der „Bioethonalen“ und „Wein“ wurde eine GO-Anreicherungsanalyse unter Verwendung von DAVID6. 7 Online-Webservice72 durchgeführt.
Hotspot-Analyse der nsSNP-Mutation
Die Hotspot-Analyse-Pipeline für Hefe bezieht sich hauptsächlich auf Niu et al.’s work49. Alle SNP-und Strukturinformationen (ähnlich der CLUMPS-Analysemethode) wurden für eine Gruppe von Stämmen mit spezifischen Phänotypen vorbereitet., Vor Durchführung der Clusteranalyse wurden die mutierten paarigen Signifikanzreste nach reference49 gefiltert. Diese wichtigen gepaarten Rückstände sollten die folgenden drei Kriterien erfüllen: Der Abstand zwischen zwei Rückständen sollte für die gesamte intramolekulare Proteinanalyse kleiner als 10 Å sein; die beiden Rückstände sollten in der ursprünglichen Proteinsequenz durch mindestens 20 Rückstände getrennt werden; und zur Berechnung des P-Wertes für jeden gepaarten Rückstand sollte eine Permutationsmethode verwendet werden (Vgl. 9), mit einem Schwellenwert von 0,05.,
Wobei n1 die Anzahl der gepaarten Rückstände ist, wobei der Abstand kleiner ist als der in den gepaarten Rückständen des Ziels und n2 die Gesamtzahl der gepaarten Rückstände ist.
Sobald die gepaarten Signifikanzreste erhalten wurden, wurden die Cluster aus gepaarten Resten auf der Grundlage der ungerichteten Graphentheorie erhalten, die unter Verwendung der Funktion ‘zersetzen ‚ realisiert wurde.Diagramm “ aus dem R-Paket igraph (https://igraph.org/)., Für jeden Cluster kann seine Nähe mit der Funktion „Nähe“ berechnet werden.residual‘ aus dem R-Paket entiserve73. Das detaillierte Prinzip könnte auch in der ursprünglichen Forschung49 gefunden werden. Als letzten Schritt wurde bei der Schätzung eines Clusters der P-Wert basierend auf der CLUMPS-Analyse-Pipeline in dieser Arbeit berechnet.
Vorhersage der Mutationsfunktion
Wachstumstest mit Biolog mit verschiedenen Substratquellen
Das Phenotype MicroArray (PM) – System wurde verwendet, um das Wachstum an allen Kohlenstoff -, Stickstoff -, Phosphor-und Schwefelquellen zu testen74., Insgesamt wurden 190 Kohlenstoffquellen, 95 Stickstoffquellen, 95 Phosphor-und Schwefelquellen getestet. Die PM-Verfahren für S. cerevisiae S288C basierten auf dem Protokoll dieser Version des PM-Systems.
Wachstum profiling in verschiedenen Medien
insgesamt 14 Kohlenstoff-Quellen und 23 Stickstoff-Quellen, die kombiniert wurden durch orthogonale Experimente. Jede Kohlenstoffquelle und Stickstoffquelle, die in dem Medium verwendet wurden, waren die gleichen C-Mol und N-Mol wie Glucose (20 g L−1 Glucose) und Ammoniumsulfat (7,5 g L−1 (NH4)2SO4). Für alle anderen Substratquellen wurde das gleiche minimale Medium verwendet (14.,4 g L-1 KH2PO4, 0,5 g L-1 MgSO4∙7H2O, Spurenmetall-und Vitaminlösungen) 75. Die Stämme wurden in 96-Well-Platten kultiviert und die Wachstumsleistung wurde mit Growth Profiler 960 (Enzyscreen B. V., Heemstede, Niederlande) bestimmt. Die maximale spezifische Wachstumsrate (µmax) wurde mit den R—Paketwachstumsraten berechnet (https://github.com/tpetzoldt/growthrates).
Statistische Analyse
Für zwei Gruppenvergleiche In dieser Arbeit wurde ein zweischwänziger Wilcoxon-Rangsummentest verwendet.,
Berichtszusammenfassung
Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verknüpften Nature Research Reporting Summary.