Tracking model changes with version control
Git and GitHub werden gebruikt om gist-GEM op een traceerbare manier te ontwikkelen. Git wordt gebruikt om wijzigingen van yeast-GEM te volgen, die online opgeslagen zijn in een GitHub repository (aanvullende Fig. 1)., De structuur van de gist-GEM repository op GitHub bevat de volgende drie belangrijke directory ‘ s:
(1) ComplementaryData, die de gerelateerde database annotatie en fysiologische gegevens die worden gebruikt voor gist-GEM updates bevat. Deze gegevens worden over het algemeen opgeslagen als tab-gescheiden waarde (.tsv) formaat voor het gemakkelijker bijhouden van wijzigingen; (2) ComplementaryScripts, die alle scripts gebruikt om gist-GEM bij te werken bevat; (3) ModelFiles, die verschillende formaten van gist-GEM voor verschillende toepassingen bevat. De.txt en.,YML (YAML) formaten maken het handig om wijzigingen in GitHub of Git lokale clients te visualiseren. De.xml (SBML) formaat maakt het gemakkelijk om het model te importeren in verschillende toolboxen en programmeertalen.
als standaardstap is een commit nodig bij het updaten van yeast-GEM. Om commits gemakkelijk te begrijpen, worden semantische commit berichten gebruikt (aanvullende Fig. 1c). Om parallelle modelontwikkeling mogelijk te maken, worden verschillende takken van gist-GEM gebruikt, waaronder een ‘master’ tak en een ‘devel’ (ontwikkeling) tak., Ontwikkelaars, en zelfs andere mensen uit de Gemeenschap, kunnen nieuwe branches maken vanuit de development branch om hun wijzigingen te introduceren, en dan verzoeken om ze terug te mergen via pull-requests. Deze wijzigingen worden alleen gemerged naar de development branch, en op hun beurt worden de wijzigingen in de development branch periodiek gemerged naar de master branch, die de stabiele releases van het model bevat.,
algemene procedures gebruikt om annotatie van metabolieten en reacties te standaardiseren
voor de nieuw toegevoegde reacties werden hun Metanetx-ID ‘ s verkregen door middel van een directe zoekopdracht in de metanetx56-database met behulp van de verwante naam van de metaboliet of informatie over het EC-nummer. Metanetx ID ‘ s werden ook verkregen door reaction ID mapping uit de kegg35, Rhea57 en BioCyc33 databases. De reversibiliteit van de reactie werd gecorrigeerd op basis van de biocyc en BiGG databases58. Metanetx ID ‘ s werden ook gebruikt om het EC-nummer voor de overeenkomstige reacties te verkrijgen., Aangezien de metanetx database niet de reactie naam informatie heeft, werd de naam van elke nieuwe reactie verkregen op basis van de reactie ID mapping in databases van KEGG, ModelSeed en BioCyc.
De compartimentannotatie van nieuwe reacties werd verfijnd op basis van informatie uit de uniprot36-en SGD32-databases. Het subsysteem annotatie werd eerst verkregen uit KEGG35, en als er geen subsystemen werden gevonden, informatie uit BioCyc of Reactome34 werd gebruikt in plaats daarvan. Als de reactie geen genrelaties had, gingen we ervan uit dat het in het cytoplasma gebeurde.,
voor alle metabolieten in nieuw toegevoegde reacties werden de gerelateerde Metanetx ID ’s verkregen op basis van de reactie Metanetx ID’ s. Indien niet beschikbaar, werden ze verkregen door ID-mapping op basis van KEGG-ID ’s of ChEBI-ID’ s. Zodra de metaboliet Metanetx-ID ’s werden verkregen, werden de lading, formule, KEGG-ID’ s en ChEBI-ID ‘ s verkregen voor de overeenkomstige metaboliet op basis van metabolieten annotatie in metanetx.,
Model update van Yeast7 naar Yeast8
Ten eerste werden alle annotaties met betrekking tot metaboliet ChEBI IDs en KEGG IDs (aanvullende tabel 8) gecorrigeerd in de laatste versie van de consensus GEM van gist (versie 7.6) op basis van de metaboliet annotatie beschikbaar in KEGG en ChEBI59. Bovendien werden verscheidene genen van iSce92631 die niet in gist 7.6 werden opgenomen toegevoegd, zoals met alle genen met betrekking tot metabolische processen en vervoer in SGD, BioCyc, Reactome, KEGG en UniProt. De belangrijkste gegevensbanken die voor modelcuratie worden gebruikt, zijn te vinden in aanvullende tabel 9.,
in de Biolog-experimenten werd de stam S288c gekweekt op 190 koolstofbronnen, 95 stikstofbronnen, 59 fosforbronnen en 35 zwavelbronnen. Het resultaat toonde aan dat S288c kon groeien op 28 koolstofbronnen, 44 stikstofbronnen, 48 fosforbronnen en 19 zwavelbronnen. Gebaseerd op deze resultaten werden nieuwe essentiële reacties toegevoegd om het model geschikt te maken om de groei op de verwante substraten te voorspellen., Ondertussen, werden alle metabolomicsgegevens in het ymdb-gegevensbestand (gemeten metabolites) en het recentste metabolomicsonderzoek (aanvullende lijst 10) verzameld en met dat in gist GEM vergeleken. Een standaardannotatie werd gegeven voor al deze metabolites en een pijpleiding werd ontworpen om metabolites in het GEM toe te voegen zonder om het even welke nieuwe doodlopende metabolites te brengen. Gedetailleerde procedures in model curation zijn beschikbaar in de aanvullende methoden.
modelvalidatie met gevarieerde experimentele gegevensbronnen
om de dekking van metabolieten te vergelijken, werd de ymdb database60 geanalyseerd., Er zijn 2024 metabolieten voor gist, waaronder 871 werden gemeten in S. cerevisiae. Voor elke metaboliet werden ChEBI-ID en KEGG-ID toegewezen, en op basis daarvan werd de overeenkomstige METANETX-ID vergeleken. Voor metabolieten uit Yeast7 en Yeast8 werd de METANETX ID van elke metaboliet ook verkregen op basis van ID mapping.
De modelkwaliteit wordt vervolgens geëvalueerd op basis van nauwkeurigheid (Eq. 1) en de Matthews ‘ Correlation Coefficient (MCC)61 (Eq. 2). De nauwkeurigheid varieert van 0 (slechtste nauwkeurigheid) tot 1 (beste nauwkeurigheid)., MCC varieert van -1 (totale onenigheid tussen voorspelling en observatie) tot + 1 (Perfecte voorspelling).
om gen uit te voeren essentiality analysis, gebruikten we de essential gen list van het gist deletion project, beschikbaar op http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, die werd gegenereerd uit experimenten met een compleet medium. Nauwkeurigheid en MCC werden berekend zoals hierboven beschreven.,
De gesimuleerde aërobe en anaërobe groei onder glucose-en stikstof-beperkte omstandigheden werd vergeleken met referentiegegeven62. De volgende procedure werd gebruikt om de chemostatgroei in glucose-beperkte omstandigheden te simuleren. Stel eerst de ondergrens van glucose-en O2-opnamereacties in met behulp van experimentele waarden. Glucose-en zuurstofopnamefluxen zijn negatief en daarom worden de ondergrenzen vastgesteld om de maximale opnamesnelheid weer te geven. Ten tweede de groei te maximaliseren.,
wat stikstofbeperkte omstandigheden betreft, werd, aangezien het eiwitgehalte in biomassa onder stikstofbeperkte omstandigheden dramatisch daalt, de biomassasamenstelling aangepast aan de referentieomstandigheden63, vervolgens de ondergrens vastgesteld zoals gemeten voor NH3-en O2-opnamereacties met behulp van experimentele waarden en ten slotte de groeisnelheid maximaliseren.
visualisatie van gist 8
de kaarten van gist-GEM werden voor elk subsysteem getekend met behulp van cellDesigner 4.438 (aanvullende Fig. 5). In-house R scripts werden gebruikt om de kaart van elk subsysteem automatisch te produceren op basis van gist 8., Daarna werd de grafische lay-out handmatig aangepast in cellDesigner 4.4 om de kwaliteit te verbeteren en de hele gistkaart in SBGN-formaat kon worden gevonden in https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.
generatie van ecYeast8
het ecYeast8-model werd gegenereerd op basis van de nieuwste versie van de GECKO-gereedschapskist, beschikbaar ophttps://github.com/SysBioChalmers/GECKO. Voor elke reactie vraagt het algoritme alle noodzakelijke kcat waarden uit de BRENDA database64, volgens gen annotatie en een hiërarchische set criteria, waarbij prioriteit wordt gegeven aan substraat en organisme specificiteit.,ded naar de reacties naar:
waar vj vertegenwoordigt de flux door de reactie van j, ei staat voor de hoeveelheid enzym die zijn toegewezen voor de reactie van j, Ei staat voor de totale concentratie van het enzym ik, en kcat vertegenwoordigt de hoogste omzet telefoonnummer beschikbaar voor het enzym ik en reactie-j., De gedetailleerde procedure voor het genereren van ecYeast8 is te vinden in het aanvullende materiaal van het gekko-papier26.
simulaties met ecYeast8
om de maximale groeisnelheid onder verschillende koolstof-en stikstofbronnen met ecYeast8 te voorspellen, werd de volgende procedure gebruikt. Ten eerste moeten alle beperkingen voor de daarmee samenhangende opnamesnelheid van koolstof-en stikstofbronnen worden opgeheven. Vervolgens, Stel minimale media samengesteld uit de gerelateerde koolstof en stikstof bronnen. Ten slotte, simuleer een maximalisatie van de groeisnelheid, waarbij de optimale waarde wordt vastgesteld voor posterieure minimalisatie van het totale eiwitgebruik., Dit zorgt voor een spaarzame fluxverdeling.
voor vergelijkende FVA tussen Yeast8 en een ecYeast8 worden de maximale groeisnelheid en de optimale glucoseopnamesnelheden verkregen met ecYeast8 gebruikt als respectievelijk vaste waarde en bovengrens in het oorspronkelijke GEM om een eerlijke vergelijking van flux variabiliteit voor hetzelfde groeifenotype uit te voeren.
Flux control coefficients (FCC ‘ s) worden gedefinieerd als een verhouding tussen een relatieve verandering in de flux van belang en een relatieve verandering in de correspondent kcat van 0.,1%, die kan worden beschreven door:
waarbij vb en vup respectievelijk de oorspronkelijke flux en nieuwe fluxen zijn wanneer de kcat met 0,1% wordt verhoogd.
Re-annotatie van het pan-genoom van het 1011 gist genome-sequencing project
om het pan-model van gist (panYeast8)te construeren, heeft het meest recente genomicaonderzoek van Peter et al overlegd 40. In Peters studie waren 1011 giststammen genomen gesequenced en geanalyseerd. Uit al deze stammen werd een pan-genoom verkregen, bestaande uit 6081 niet-redundante ORFs van S., cerevisiae s288c referentie genoom, en 1715 non-referentie ORFs (nrORFs) van de andere stammen. Voor de 7796 ORFs werd voor elk van hen een panID gegeven. Ter vergelijking, 4940 ORF ’s worden bewaard in al deze stammen terwijl 2846 ORF’ s zijn variabelen over al deze stammen. De annotatie van niet-redundante 6081 ORFs kan direct uit de recentste S. cerevisiae s288c genoomannotatie worden genomen, terwijl verwante gen-eiwit-reacties (GPR) direct uit Yeast8 kunnen worden verkregen.
zoals vermeld in Peter ‘ s artikel zijn er 774 nrORFs met de ortholog genen van S. cerevisiae s288c genome40., De blast analyse, samen met de Gen annotatie van KEGG web service35, en eierpunch web service65, werden gebruikt om de originele ortholog relatie te controleren en te verbeteren. Om de ortholog genrelaties kwalitatief te evalueren, werd de bi-directionele blast hit (BBH) analyse verder uitgevoerd met behulp van Diamond66. Hier werd de beste hit in BBH-analyse met een pidentiteit groter dan 80% uiteindelijk gekozen en voorbereid voor een panyeast8 formulering.
om verder te zoeken naar betrouwbare nieuwe reacties in verband met nrORFs, werden de annotatieresultaten van KEGG en de Advokaat webservice gebruikt., Volgens de format request voor de twee web services werden de protein fasta bestanden van pan-genome geüpload naar KEGG (https://www.genome.jp/tools/kaas/) en eierpunch (http://eggnogdb.embl.de/#/app/emapper). Voor de Kegg annotatie werd een BBH (bi-directional best hit) toewijzings methode met de standaard parameters gebruikt. Voor de Eierpunchannotatie werd de HMMER met de standaardparameters gebruikt. In de eierpunch annotatie, zal elk eiwit op KO ID en BiGG reactie ID worden in kaart gebracht terwijl voor de Kegg annotatie, elk eiwit een unieke Ko ID zal worden gegeven., Dus als de KO-ID voor een proteã ne tussen KEGG en eierpunch verschillend is, dan zal de KO-ID gegeven door KEGG in de verdere analyse de voorkeur krijgen. Als de KO ID werd gegeven voor één eiwit door eierpunch, maar niet in KEGG, dan zal deze annotatie ook worden gebruikt voor de pan-genoom annotatie. Wanneer de Ko ID ‘ s worden verkregen, worden de lijsten van KOs van nrORFs vergeleken met de referentie ORFs. Nieuwe KO ID ‘ s voor de nrORFs werden vervolgens geëxtraheerd. Hierna werd de rxnID verkregen op basis van Ko-rxnID mapping van KEGG database.,
Generatie van panYeast8, coreYeast8 en spanning specifieke Edelstenen
Voor ortholog genen (bijvoorbeeld het gen C) verkregen uit de pan-genoom annotatie, kunnen deze worden samengevoegd op basis van de referentie-gen (bv. gen Een) functie in het oorspronkelijke model op basis van de volgende regels: (1) als A of B katalyseren dezelfde isoenzym, de GPR regel kan gewijzigd worden in ‘A of B of C in panYeast8; (2) als A en B deel uitmaken van een complex, de GPR regel moet worden aangepast van ‘A en B’ in ‘(A en B) of (C en B)’. Ten tweede werden 51 nieuwe reacties met 13 nieuwe genen samengevoegd tot panYeast8., Wat betreft de genen identiteit in het model, om chaos te verminderen, werden de originele gen-ID ’s en Gen namen van de oorspronkelijke Gist8 behouden, terwijl voor nieuw toegevoegde genen, de paniden gedefinieerd in Peter’ s werk9 werden gebruikt om de gennaam voor te stellen.
Collapsed genes in pan-genome but could be found in gist GEM, and will be replaced with the corresponding ortholog gen defined in pan-genome. ssGEMs voor 1011 stammen werden gereconstrueerd op basis van panYeast8 samen met de verwante stammen specifieke genen lijst (aanvullende Fig. 6 bis)., Een Matlab functie werd ontwikkeld om strain specifieke modellen automatisch te genereren. Gebaseerd op de huidige informatie van het genbestaan, als één gen van een complex ontbreekt, dan wordt de reactie verwijderd; en als een gen van twee iso-enzymen ontbreekt, dan zal de reactie worden gehouden, hoewel GPRs zal worden bijgewerkt om het ontbrekende gen te verwijderen. Na de reconstructie van 1011 ssGEMs, werd coreYeast8 geproduceerd gebaseerd op gemeenschappelijke reacties, genen, en metabolites over 1011 ssGEMs.,
Stamclassificatie op basis van PCA, beslissingsboom en clusteranalyse
de hiërarchische clusteranalyse op basis van de aanwezigheid van de reactie in ssGEMs voor giststammen is gebaseerd op R package–dendextend (https://CRAN.R-project.org/package = dendextend). Voor de PCA analyse van stammen gebaseerd gen (of reactie) bestaan in ssGEMs, R functie-prcomp is gebruikt in dit artikel. De decision tree-classificatie van stammen volgens de maximale groeisnelheid op verschillende koolstofbronnen werd uitgevoerd met behulp van het R-pakket–rpart (https://cran.r-project.org/web/packages/rpart/)., Voor de hyperparameters tuning werden twee R pakketten-ParamHelpers (https://CRAN.R-project.org/package=ParamHelpers) en mlr (https://CRAN.R-project.org/package=mlr) verder gebruikt.
eiwitstructuur collectie voor proYeast8DB
om de eiwit 3D structuur modellen voor alle genen van gist GEM (en een paar metabole genen niet opgenomen in de huidige Yeast8), alle eiwitstructuren van S. cerevisiae S288C uit de Zwitserse Model database67 (https://Swissmodel.expasy.org) op 20 juli 2018 zijn gedownload., Het totale aantal is ongeveer 20332 PDB-bestanden inclusief de 8109 modelling homology PDB-bestanden (PDB_homo) en 12223 experimentele PDB-bestanden (PDB_ex). Ondertussen werden alle PDB_ex van S. cerevisiae S288C opgeslagen in de RCSB pdb54 database verder gedownload. De eiwitopeenvolgingen in elke PDB_ex werden ook gedownload. De bovenstaande twee bronnen van PDB-bestanden werden samengevoegd om de uitgebreide PDB-bestanden database voor S. cerevisiae S288C te verkrijgen. met de metabole genlijst van S. cerevisiae S288C om PDB-bestanden database te bevragen, de meeste genen, met uitzondering van ruwweg 217 eiwitten (in Yeast8.,3) kan worden gevonden in de bijbehorende PDB-bestanden. Om dit gat op te vullen, werd de SWISS-MODEL web service verder gebruikt om de PDB_homo voor 217 eiwitten te bouwen. Dientengevolge, elk van metabole proteã ne zou ten minste één PDB-bestand hebben. Alle originele proteã NEN annotatie, zoals de residuvolgorde en proteã ne lengte, werden gedownload van de SGD-database.
zodra de PDB-bestanden werden verzameld, werden de parameters van PDB ‘ s geëxtraheerd en berekend voor kwaliteitsanalyse., Wat de pdb_homo betreft, werden de standaardparameters van de ftp van de Zwitserse modeldatabase verkregen en omvatten de eiwit UniProt ID, de eiwitlengte, de gerelateerde PDB ID (verbonden met chainID), de structuurbronnen, de coördinaten van eiwitresiduen bedekt met PDB structuren, de dekking, de resolutie en QMEAN., Wat betreft PDB_homo, naast de bovenstaande standaard parameters uit de SWISS-MODEL database, een groter aantal parameters werden verkregen door het parsen van de pdb_homo atom bestanden die door het SWISS-MODEL met een in-house python script, die de methoden die worden gebruikt om de PDB-bestanden, het model template, de eiwit oliga staat, de GMQE, QMN4, sequence identity (SID), en sequence similarity (SIM) opgenomen. Samengevat bevat elke PDB_homo 18 parameters voor verdere PDB-kwaliteitsanalyse.
sommige pdb_ex-parameters, zoals dekking en template-ID, kunnen ook worden gevonden in de database met Zwitserse modellen., De andere belangrijke parameters zoals resolutie, liganden en oliga status werden verkregen door het parsen van PDB_ex bestanden uit de RCSB PDB database met behulp van (https://github.com/williamgilpin/pypdb). De chainID voor elke PDB_ex is gedownload van de sifts database68.
kwaliteitsanalyse van eiwit 3D-structuur
aangezien één eiwit kan worden verbonden met verschillende PDB-bestanden in verschillende kwaliteitsniveaus, is het essentieel om de PDB van lage kwaliteit te filteren. In dit werk werden voornamelijk vier importparameters gebruikt, namelijk sequence identity (SI), sequence similarity (SS), resolution en QMEAN, om de PDB_homo te classificeren., Door gebruik te maken van een eenvoudige normale verdeling om al deze parameters van PDB_homo te beschrijven, kan een Z score test worden gedaan om de drempelwaarde voor p waarde ingesteld op 0,1 te berekenen. De cut-off waarde van sequence identity, de sequence similarity, resolution en QMEAN zijn respectievelijk 17,58, 0,25, 3,8 Å en -6,98. Zoals vermeld in de Zwitserse model database, echter, een PDB_homo met de QMEAN kleiner dan -4 is van lage kwaliteit. Om ervoor te zorgen PDB_homo van hogere kwaliteit in dit werk, worden de kritische parameters gereset als de volgende: QMEAN ≥ -4, SI ≥ 0,25, SS ≥ 0,31, en resolutie ≤ 3.4 Å.,
om te controleren of er een gat bestaat in de pdb_ex-bestanden, werden alle residu-sequenties uit PDB-databases voor elke keten van een PDB-bestand gedownload. Op sommige punten, echter, residu sequenties verstrekt door PDB databases waren niet consistent met residu sequenties in de structuur. Om dit probleem op te lossen, werd een biopython package69 gebruikt om residusequenties te verkrijgen voor elke keten van een PDB-bestand. Vervolgens werden alle residuopeenvolgingen gestraald met originele eiwitopeenvolgingen voor S., cerevisiae S288C van SGD met behulp van Diamond66 om na te gaan of er hiaten (mismatches of mutaties) in de residusequenties van PDB_ex bestonden in vergelijking met de oorspronkelijke residusequenties. De pdb_ex is gekozen met de drempels: pidentity = 100 en resolutie ≤ 3.4 Å; anders zal een PDB_homo uit de Zwitserse model database worden gebruikt.
relaties van eiwitdomein, gen, eiwit en reacties (dGRPs)
In dit werk werd de Pfam32.0 database70 (https://pfam.xfam.org/) voornamelijk gebruikt om de domeininformatie van eiwitten uit S. te annoteren., cerevisiae S288C. als een structuur alle residu ‘ s van een bepaald domein omvatte, werd het toegewezen aan dat domein. Voor elk domein werden de coördinaten van begin en einde, de naam, de beschrijving van de domeinfunctie, het domeintype, e_value, de bijbehorende PDB-ID en eiwit-ID samengevat. Volgens de GPRs van Yeast8 kan de relatie tussen gen-ID en reactie-ID worden verkregen. Na dit, zou de domeininformatie aan elk paar van gen en reactie kunnen worden verbonden die op het in kaart brengen van ID worden gebaseerd.,
SNP-verzameling en relatieve coördinaten mapping
uitgaande van het vcf-bestand dat wordt geleverd door de recente 1011 gist stammen genomen sequencing projects40 de homozygote SNP uit het massive data-bestand (aanvullende Fig. 10a) werden eerst geëxtraheerd. De SNP ‘ s van lage totale kwaliteit met diepte is <2.,0, mapping quality <40, genotype quality < 30, en Genotype diepte <5 werden gefilterd op basis van een reeks standaardparameters volgens de Broad Institute Genome analysis Toolkit (GATK)71.
na filtratie kan de betrouwbare SNP voor elke stam worden verkregen. De gegevens bevatten verder de stamnaam van elke SNP, chromosoom, coördinaten, ref, en alt nucleotide base., In de annotatiefase werden het SNP-type en verwante gennamen verder geannoteerd op basis van de coördinaten en de annotatie-informatie van S. cerevisiae S. cerevisiae s288c referentiegenoom (versie R64-1-1) van NCBI. Als de SNP niet op CDS-zone van gen werd gevestigd, werd het geclassificeerd als een type van ‘INTEGENIC’. Zo niet, dan kreeg het een gen systematische naam, in overeenstemming met het gen naam formaat in Yeast8., Op basis van bovenstaande SNP annotatie informatie werden alleen die behorend tot de metabole genen (genlijst in Yeast8 en enkele andere metabole genen die tot nu toe niet in Yeast8) gekozen. Volgens de SNP annotatie informatie en de eiwitsequenties van de verwante genen, de SNPs zijn geclassificeerd als de sSNP (synonymous single nucleotide polymorphism) en nsSNP (nonsynonymous single nucleotide polymorphism). De relatieve aantallen sSNPs en nsSNPs voor elk gen werden berekend, die gelijk is aan de totale ssnps of nsSNPs gedeeld door de verwante eiwitlengte.,
Voor het in kaart brengen moeten de coördinaten van gemuteerde residuen van elke nsSNP worden berekend. Ten eerste, kunnen de relatieve coördinaten van gemuteerde residuen op de originele eiwitopeenvolging worden verkregen gebaseerd op de coördinaten van nsSNP op het chromosoom. Na dit, volgens de coördinaten die tussen de originele eiwitopeenvolgingen en de relatieve residucoördinaten in de eiwitstructuur in kaart brengen, kunnen de relatieve coördinaten van de gemuteerde residu ‘ s in de eiwitstructuren worden geschat en in de volgende berekening worden gebruikt.,
CLUMPS methode om p-waarden van met mutatie verrijkte PDB-bestanden te berekenen
verwijzend naar Kamburov ‘ s method45, een WAP-score om de paarsgewijze afstanden tussen gemuteerde residuen voor een proteïne 3D-structuur te berekenen.
Waar dq,r in dit artikel wordt gedefinieerd als de Euclidische afstand (in Å) tussen α koolstofatomen van twee gemuteerde residuen., t wordt gedefinieerd als een “zachte” afstandsdrempel, die gelijk is aan 6 Å. nq en nr zijn de genormaliseerde aantallen monsters bevat de mutaties met behulp van de gevolgde sigmoïdale Hill functie:
Waar Nq is het aantal monsters met een missense mutatie invloed residu q van het eiwit en θ = 2 en m = 3 zijn de parameters van de Heuvel van de functie van het beheersen van de kritische punt (centrum) en de steilheid van de sigmoid functie, respectievelijk., Formule (2) werd gebruikt om het monsteraantal in residumutaties q en r te normaliseren, die beide het effect van frequentere gemuteerde residuen in de monsters kunnen vermijden. Een gedetailleerde beschrijving van elke formule is te vinden in artikel 45 van Kamburov.
De CLUMPS methode kan worden onderverdeeld in vier stappen. Ten eerste, bereid de benodigde SNP-informatie en structuurinformatie van één eiwit. Ten tweede, bereken met het genormaliseerde mutatiegetal op specifieke posities de WAP-scores van de monsters., Vervolgens, ervan uitgaande dat de uniforme verdeling van mutaties over de eiwitresiduen de gegeven structuur dekt, bereken je elke WAP score in 104 randomisaties om de nulverdeling te verkrijgen. Tijdens het bemonsteringsproces werd het mutatieaantal residu ‘ s dat op willekeurige plaatsen voorkomt, gelijk gehouden aan de oorspronkelijke waarden. Bereken ten slotte de rechtsstaart p-waarde in de nulverdeling voor de gegeven gemuteerde eiwitstructuren op basis van de oorspronkelijke WAP-score en alle bemonsterde WAP-scores., De rechterstaart p-waarde wordt gedefinieerd als het aantal monsters met WAP-scores groter dan de oorspronkelijke WAP-score, gedeeld door het totale aantal monsters.
voor eiwitten met een P-waarde kleiner dan 0,05 uit de stamgroep “Bio-Ethonaal” en “wijn” werd een go-verrijkingsanalyse uitgevoerd met behulp van DAVID6.7 online webdienst72.
Hotspotanalyse van nssnp-mutatie
De hotspotanalysepijplijn voor gist verwijst voornamelijk naar Niu et al.het werk49. Alle SNP-en structuurinformatie (vergelijkbaar met de klontenanalysemethode) werd opgesteld voor een groep stammen met specifieke fenotypen., Alvorens de clusteranalyse uit te voeren, werden de gemuteerde in paren gerangschikte residuen van significantie gefilterd volgens verwijzing49. Deze belangrijke gepaarde residuen moeten aan de volgende drie criteria voldoen: de afstand tussen twee residuen moet voor alle intramoleculaire clusters kleiner zijn dan 10 Å; de twee residuen moeten worden gescheiden door ten minste 20 residuen in de oorspronkelijke eiwitsequentie; en er moet een permutatiemethode worden gebruikt om de p-waarde voor elke gepaarde residuen (Eq. 9), met een drempelwaarde van 0,05.,
waarbij n1 het aantal gepaarde residuen is met de afstand kleiner dan die in de gepaarde residuen van target en n2 het totale aantal gepaarde residuen is.
zodra de gepaarde residuen van betekenis zijn verkregen, werden de clusters samengesteld uit gepaarde residuen verkregen op basis van de niet-gerichte grafiettheorie, die werd gerealiseerd met behulp van de functie ‘decompose.grafiek ‘ uit de igraph van het R-pakket (https://igraph.org/)., Voor elke cluster kan de nabijheid worden berekend met behulp van de functie ‘nabijheid’.restant ‘ van het R pakket entiserve73. Het gedetailleerde principe kan ook worden gevonden in het oorspronkelijke onderzoek49. Als laatste stap, toen een cluster werd geschat, werd de p-waarde berekend op basis van de CLUMPS analyse pijplijn in dit werk.
voorspelling van mutaties functie
Groeitest met Biolog met verschillende substraatbronnen
het fenotype MicroArray (PM) systeem werd gebruikt om de groei op elke koolstof -, stikstof -, fosfor-en zwavelbronnen74 te testen., In totaal werden 190 koolstofbronnen, 95 stikstofbronnen, 95 fosfor-en zwavelbronnen getest. De PM-procedures voor S. cerevisiae S288C waren gebaseerd op het Protocol van de Gistversie van het PM-systeem.
Groeiprofilering in verschillende media
in totaal werden 14 koolstofbronnen en 23 stikstofbronnen gecombineerd door orthogonale experimenten. Elke koolstofbron en stikstofbron gebruikt in het medium waren dezelfde C-MOL en N-mol als glucose (20 g L−1 glucose) en ammoniumsulfaat (7,5 g L−1 (NH4)2SO4), respectievelijk. Voor alle andere substraatbronnen werd hetzelfde minimale medium gebruikt (14.,4 g L – 1 KH2PO4, 0,5 g L-1 MgSO4 ⁄ 7H2O, sporenmetaal-en vitamineoplossingen)75. Stammen werden gekweekt in 96-wells platen en de groeiprestaties werden bepaald met Groeiprofiler 960 (Enzyscreen B. V., Heemstede, Nederland). De maximale specifieke groeisnelheid (µmax) werd berekend met de R—pakketgrowthrates (https://github.com/tpetzoldt/growthrates).
statistische analyse
voor twee groepen vergelijking in dit werk werd een tweestaart Wilcoxon rank sum test gebruikt.,
Rapporteringssamenvatting
nadere informatie over de opzet van het onderzoek is beschikbaar in de aan dit artikel gekoppelde samenvatting van de Nature Research Reporting.