En konsensus S. cerevisiae metabolske modell Yeast8 og dens økosystem for omfattende undersøkelser cellulær metabolisme

Sporing modell endringer med versjonskontroll

Git og GitHub ble brukt til å utvikle gjær-PERLE i en sporbar måte. Git er brukt til å spore eventuelle endringer av gjær-PERLE som er lagret elektronisk i en GitHub depotet (Supplerende Fig. 1)., Strukturen av gjær-PERLE depotet på GitHub inneholder følgende tre kategorier:

(1) ComplementaryData, som inneholder relatert database kommentar og fysiologiske data som brukes for gjær-PERLE oppdateringer. Denne generelt er data som er lagret som tab-separert verdi (.tsv) format for enklere sporing av endringer; (2) ComplementaryScripts, som inneholder alle skript brukes til å oppdatere gjær-PERLE; (3) ModelFiles, som inneholder forskjellige formater av gjær-PERLE for ulike programmer. Den.txt og.,yml (YAML) formater gjøre det praktisk å synliggjøre eventuelle endringer i GitHub eller Git lokale kunder. Den.xml (SBML) format gjør det enkelt å importere modellen på tvers av ulike verktøykasser og programmeringsspråk.

Som en standard trinn, en commit er nødvendig når du oppdaterer gjær-PERLE. For å gjøre begår lett å forstå, semantisk begå meldinger som er brukt (Supplerende Fig. 1c). For å aktivere parallell-modellen utvikling, ulike grener av gjær-PERLE som er brukt, inkludert en «master» – gren og en ‘devel’ (utvikling) gren., Utviklere, og selv andre mennesker fra samfunnet, kan opprette nye grener fra utvikling gren til å presentere sine endringer, og deretter be om å flette dem tilbake gjennom trekk-forespørsler. Disse endringene er bare slått sammen til utvikling gren, og i sin tur endringene i utviklingen gren er slått sammen med jevne mellomrom til master gren, som inneholder stabile versjoner av modellen.,

Generelle prosedyrer som brukes til å standardisere markering av metabolitter og reaksjoner

For de som nylig er lagt til reaksjoner, deres MetaNetX Id ble innhentet i henhold til direkte søk i MetaNetX56 database ved hjelp av relaterte metabolitten navn eller EC nummer informasjon. MetaNetX Id var også fås ved reaksjon-ID-en kartlegging fra KEGG35, Rhea57 og BioCyc33 databaser. Reaksjonen reversibilitet var løst basert på BioCyc og BiGG databases58. MetaNetX Id-ble også brukt til å få tak i EF-nummer for tilsvarende reaksjoner., Som MetaNetX database har ikke reaksjonen navnet informasjon, etternavn for hver ny reaksjon var innhentet basert på reaksjonen ID-kartlegging i databaser av KEGG, ModelSeed og BioCyc.

Det rommet som markering av nye reaksjoner ble utviklet basert på informasjon fra UniProt36 og SGD32 databaser. Delsystemet kommentar ble først innhentet fra KEGG35, og hvis ingen undersystemer som ble funnet der, informasjon fra BioCyc eller Reactome34 ble brukt i stedet. Hvis reaksjonen ikke hadde genet relasjoner, har vi antatt at det skjedde i cytoplasma.,

For alle metabolitter som finnes i nylig lagt reaksjoner, i slekt MetaNetX Id ble innhentet basert på reaksjonen MetaNetX-Id-er. Hvis ikke er tilgjengelig, de ble innhentet av ID-en kartlegging basert på KEGG-Id eller ChEBI-Id-er. Når metabolitt MetaNetX Id ble innhentet, lading, formel, KEGG-Id og ChEBI-Id ble oppnådd for den korrespondent metabolitten basert på metabolitter merknad i MetaNetX.,

Modell oppdatering fra Yeast7 å Yeast8

for det Første, alle kommentarer angående metabolitten ChEBI-Id og KEGG Id (Supplerende Tabell 8) ble rettet opp i den nyeste versjonen av konsensus PERLE av gjær (versjon 7.6) basert på metabolitten kommentar tilgjengelig i KEGG og ChEBI59. I tillegg flere gener fra iSce92631 som ikke var inkludert i gjær 7.6 ble lagt til, som med alle gener relatert til metabolske prosesser og transport i SGD, BioCyc, Reactome, KEGG og UniProt. De viktigste databaser som brukes for modell curation kan bli funnet i Supplerende Tabell 9.,

I Biolog eksperimenter, belastningen S288c ble dyrket på 190 karbon kilder, 95 nitrogen kilder, 59 fosfor kilder, og 35 svovel kilder. Resultatet viste at S288c kunne vokse på 28 karbon kilder, 44 nitrogen kilder, 48 fosfor kilder og 19 svovel kilder. Basert på disse resultatene viktig reaksjoner ble lagt til for å gjøre modellen er i stand til å forutsi vekst på i slekt underlag., I mellomtiden, alle metabolomics data som finnes i YMDB database (målt metabolitter) og den siste metabolomics forskning (Supplerende Tabell 10) ble samlet inn og sammenlignet med det i gjær PERLE. En vanlig kommentar som ble gitt for alle disse metabolitter, og en rørledning som var designet for å legge til metabolitter i GEM uten å bringe noen nye dead-end metabolitter. Detaljerte prosedyrer i modellen curation er tilgjengelig i de Supplerende Metoder.

Modell validering med variert eksperimentelle data kilder

for Å sammenligne metabolitter dekning, er det YMDB database60 ble analysert., Det er 2024 metabolitter for gjær, blant annet 871 ble målt i S. cerevisiae. For hver metabolitt, ChEBI-ID og KEGG ID tildelt, og basert på dem tilsvarende MetaNetX ID ble matchet. For metabolitter fra Yeast7 og Yeast8, den MetaNetX-ID for hver enkelt metabolitten ble også innhentet basert på ID-en kartlegging.

modellen kvaliteten er deretter vurdert basert på nøyaktighet (Eq. 1) og Matthews’ korrelasjonskoeffisient (MCC)61 (Eq. 2). Nøyaktigheten varierer fra 0 (verst nøyaktighet) til 1 (beste nøyaktighet)., MCC varierer fra -1 (total uenighet mellom prediksjon og observasjon) til + 1 (perfekt prediksjon).

$${\mathrm{Nøyaktighet}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TP}} + {\mathrm{TN}} + {\mathrm{M}} + {\mathrm{FN}}}}$$
(1)

til Å gjennomføre genet essensielle analyse, har vi brukt de grunnleggende genet liste fra Gjær Sletting Prosjektet, tilgjengelig på http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, som ble generert fra eksperimenter ved hjelp av et komplett medium. Korrektheten og MCC ble beregnet som beskrevet ovenfor.,

Den simulerte aerob og anaerob vekst under glukose-begrenset og nitrogen-begrenset forholdene var sammenlignet med referanse data62. Følgende prosedyre ble brukt til å simulere chemostat vekst i glukose-begrensede forhold. For det første satt nedre grense for glukose og O2 opptak reaksjoner ved hjelp av eksperimentelle verdier. Glukose og oksygen fluksene er negativ, og derfor den nedre grense er fastsatt til å representere maksimalt opptak priser. For det andre maksimere vekst.,

Som for nitrogen-begrenset betingelser, siden protein innhold i biomasse synker dramatisk under nitrogen-begrenset vilkår, biomasse sammensetning var rescaled i henhold til referanse conditions63, og deretter sette den nedre grensen målt for NH3 og O2 opptak reaksjoner ved hjelp av eksperimentelle verdier og til slutt maksimere vekst.

Visualisering av Yeast8

kart av gjær-PERLE ble trukket for hvert delsystem ved hjelp av cellDesigner 4.438 (Supplerende Fig. 5). In-house R skript ble brukt til å produsere kart over hvert delsystem automatisk basert på Yeast8., Etterpå, grafen layout ble justert manuelt i cellDesigner 4.4 for å forbedre kvaliteten og hele gjær kart i SBGN-format kan bli funnet i https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

Generasjon av ecYeast8

ecYeast8 modellen ble generert basert på den nyeste utgivelsen av GECKO toolbox, tilgjengelig på https://github.com/SysBioChalmers/GECKO. For hver reaksjon, algoritmen spørringer alle nødvendige kcat verdier fra BRENDA database64, i henhold til genet anmerkning og en hierarkisk sett av kriterier, å gi prioritet til underlaget og organismen spesifisitet.,ded til reaksjoner i henhold til: –

– >

$$- \frac{1}{{k_{{\mathrm{katt}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$
(3)

$$0 \le e_{\mathrm{i}} \le \venstre$$
(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{katt}}}^{{\mathrm{ij}}} \cdot \venstre$$
(5)

hvor vj representerer fluks gjennom reaksjon j, ei representerer den mengde enzym som er tildelt for reaksjon j, Ei representerer den totale konsentrasjonen av enzymet jeg, og kcat representerer den høyeste omsetningen nummer er tilgjengelig for enzymet jeg og reaksjon j., Den nærmere fremgangsmåten for å generere ecYeast8 kan bli funnet i den supplerende materiale av GECKO paper26.

Simuleringer med ecYeast8

for Å forutsi den maksimale vekstraten under forskjellige karbon og nitrogen kilder ved hjelp av ecYeast8 følgende prosedyre ble brukt. For det første fjern noen begrensninger for den relaterte opptak priser av karbon og nitrogen kilder. Neste, sett minimal media består av beslektede karbon og nitrogen kilder. Til slutt, simulere en vekst maximisation, der den optimale verdien er fastsatt for posterior minimisation av total protein bruk., Dette gir en parsimonious flux distribusjon.

For sammenlignende FVA mellom Yeast8 og en ecYeast8, maksimal vekst og optimal glukose opptak priser som oppnås med ecYeast8 er brukt som fast verdi og øvre grense, henholdsvis i den opprinnelige GEM for å utføre en rettferdig sammenligning av flux variasjon for den samme veksten fenotypen.

Flux kontroll koeffisienter (FCCs) er definert som forholdet mellom en relativ endring i fluks av interesse og en relativ endring i korrespondent kcat av 0.,1%, som kan beskrives ved:

hvor vb og vup er den opprinnelige forandring og nye fluksene henholdsvis når kcat er økt med 0,1%.

Re-markering av den pan-genom fra 1011 gjær genom-sekvensering prosjektet

for Å konstruere pan modell av gjær (panYeast8), den nyeste genomics forskning av Peter et al har consulted40. I Peter ‘ s studie, 1011 gjær stammer genomer hadde blitt sekvensert og analysert. En pan-genom ble innhentet fra alle disse stammene, som består av 6081 ikke-redundant ORFs fra S., cerevisiae S288C referanse genom, og 1715 ikke-referanse ORFs (nrORFs) fra andre stammer. For 7796 ORFs, en panID ble gitt for hver av dem. Ved sammenligningen, 4940 ORFs er bevart i alle disse stammene mens 2846 ORFs er variabler på tvers av alle disse stammene. Kommentaren av ikke-redundant 6081 ORFs kan bli tatt direkte fra den nyeste S. cerevisiae S288C genom kommentar, mens i slekt gen–protein reaksjoner (GPR) kan fås fra Yeast8 direkte.

Som nevnt i Peter ‘ s artikkel er det 774 nrORFs med ortholog gener fra S. cerevisiae S288C genome40., Eksplosjonen analyse, sammen med genet markering av KEGG web service35, og EggNOG web service65, ble ansatt for å kontrollere og forbedre den opprinnelige ortholog forhold. For å evaluere ortholog genet relasjoner kvalitativt, bi-directional blast hit (BBH) – analyse ble videre utført ved bruk av Diamond66. Her er de beste hit i BBH analyse med pidentity større enn 80% ble til slutt valgt og forberedt for en panYeast8 formulering.

for Å ytterligere søk pålitelig nye reaksjoner forbundet med nrORFs, den merknaden resultater fra KEGG og EggNOG web-service ble brukt., I henhold til det format forespørsel til to web-tjenester, protein fasta filer av pan-genom ble lastet opp på KEGG (https://www.genome.jp/tools/kaas/) og EggNOG (http://eggnogdb.embl.de/#/app/emapper). For KEGG kommentar, en BBH (bi-directional beste hit) metoden for tilordning med standard parametre ble brukt. For EggNOG kommentar, det HMMER med standard parametre ble brukt. I EggNOG kommentar, hver protein vil bli kartlagt på KO-ID og BiGG reaksjon ID mens for KEGG kommentar, hver protein vil bli gitt en unik KO-ID., Så hvis KO-ID for et protein som er forskjellige mellom KEGG og EggNOG, så KO-ID som er gitt av KEGG vil være å foretrekke i den videre analysen. Hvis KO-ID-en som ble gitt for ett protein av EggNOG, men ikke i KEGG, så denne kommentaren vil også brukes for den pan-genom-markering. Når det KO-id-er er oppnådd, viser KOs fra nrORFs er sammenlignet med referanse ORFs. Ny KO-id-er for nrORFs ble senere trukket ut. Etter dette rxnID ble innhentet basert på KO-rxnID kartlegging fra KEGG database.,

Generasjon av panYeast8, coreYeast8 og belastning bestemt Perler

For ortholog gener (f.eks. genet C) hentet fra pan-genom merknad, kan de bli slått sammen basert på referanse-genet (f.eks. genet A) funksjonen i den opprinnelige modellen i henhold til følgende regler: (1) hvis A eller B for å katalysere samme isoenzymet, det GPR regel kan være endret til ‘A eller B eller C’ i panYeast8; (2) hvis A og B tilhører en kompleks, GPR regelen bør være oppdatert fra ‘A og B’ i ‘(A og B) eller (C og B)’. For det andre, 51 nye reaksjoner med 13 nye gener ble fusjonert inn i panYeast8., Som for gener identitet i modellen, for å redusere kaos, det opprinnelige genet Id og gene navn fra opprinnelige Yeast8 ble holdt, mens det for nylig lagt gener, den panIDs definert i Peters work9 ble brukt til å representere genet navn.

Kollapset gener i pan-genom, men kan også bli funnet i gjær PERLE, og vil bli erstattet med tilsvarende ortholog gener som er definert i pan-genom. ssGEMs for 1011 stammer ble rekonstruert basert på panYeast8 sammen med beslektede stammer spesifikke gener liste (Supplerende Fig. 6a)., En Matlab-funksjon ble utviklet for å generere belastning spesifikke modeller automatisk. Basert på dagens gene eksistens informasjon, hvis ett gen fra en kompleks mangler, så reaksjonen er fjernet, og hvis et gen fra to isoenzymes mangler, så reaksjonen vil bli holdt, selv om GPRs vil bli oppdatert for å fjerne den mangler genet. Etter rekonstruksjon av 1011 ssGEMs, coreYeast8 ble generert basert på vanlige reaksjoner, gener, og metabolitter over 1011 ssGEMs.,

Belastning klassifisering basert på PCA -, beslutnings-treet og cluster analyse

The hierarchical cluster-analyse basert på reaksjonen eksistens i ssGEMs for gjær-stammer er basert på R-pakke-dendextend (https://CRAN.R-project.org/package = dendextend). For PCA-analyse av stammer basert genet (eller reaksjon) eksistens i ssGEMs, R function-prcomp har blitt brukt i denne artikkelen. Avgjørelsen treet klassifisering av stammer i henhold til maksimal vekstrate på ulike karbon kilder ble utført ved hjelp av R-pakke-rpart (https://cran.r-project.org/web/packages/rpart/)., For hyperparameters tuning, to R-pakker—ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) og mlr (https://CRAN.R-project.org/package=mlr) ble videre brukt.

Protein struktur samling for proYeast8DB

for Å etablere protein 3D struktur modeller for alle gener fra gjær GEM (og noen metabolske gener ikke er inkludert i dagens Yeast8), alle protein strukturer av S. cerevisiae S288C fra SWISS-MODELL database67 (https://Swissmodel.expasy.org) 20. juli 2018 ble lastet ned., Det totale antallet er om 20332 PDB-filer, inkludert 8109 modellering homologi PDB-filer (PDB_homo) og 12223 eksperimentelle PDB-filer (PDB_ex). I mellomtiden alle PDB_ex av S. cerevisiae S288C lagret i RCSB PDB54 database ble ytterligere ned. Protein sekvenser som finnes i hver PDB_ex var også ned. De to ovennevnte kildene til PDB-filer som ble slått sammen for å få den omfattende PDB-filer database for S. cerevisiae S288C. Med den metabolske genet liste av S. cerevisiae S288C til å spørre PDB-filer, database, er de fleste gener, med unntak av om lag 217 proteiner (i Yeast8.,3) kan bli funnet i den relaterte PDB-filer. For å fylle dette gapet, SVEITS-MODELLEN web-service ble videre brukt til å bygge PDB_homo for 217 proteiner. Som et resultat, hver av metabolske protein kunne ha minst ett PDB-fil. Alle de opprinnelige proteiner kommentar, som rester rekkefølge og protein lengde, var lastet ned fra SGD database.

Når PDB-filer som ble samlet inn parametrene for PDBs ble trukket ut og beregnet for kvalitet analyse., Som for PDB_homo, standard parametere fra ftp-SVEITS-MODELLEN database ble innhentet, og inkluderte protein UniProt ID, protein og lengde, i slekt PDB-ID (koblet med chainID), strukturen kilder, koordinatene til proteiner rester dekket med PDB-strukturer, dekning, oppløsning, og QMEAN., Som for PDB_homo, i tillegg til de ovennevnte standard parametere fra SWISS-MODELL database, et større antall parametere som ble innhentet ved analysering av PDB_homo atom-filer levert av det SVEITSISKE-MODELL med en in-house python-skript, som inkluderte de metoder som brukes for å få PDB-filer, den modellen mal, protein oliga staten, GMQE, QMN4, sekvens-id (SID), og sekvensen likhet (SIM). I sammendraget, hver PDB_homo inneholder 18 parametere for ytterligere PDB kvalitet analyse.

Noen av PDB_ex parametere, som dekning og mal ID-en kan også bli funnet fra det SVEITSISKE-MODELL database., Den andre viktige parametere som oppløsning, ligander, og oliga staten ble innhentet ved analysering PDB_ex filer fra RCSB PDB-databasen (https://github.com/williamgilpin/pypdb). Den chainID for hver PDB_ex ble lastet ned fra SIFTS database68.

Kvalitet analyse av protein 3D struktur

Som en protein kan være forbundet med flere PDB-filer i ulike kvalitetsnivåer, er det avgjørende å filtrere ut PDB av lav kvalitet. I dette arbeidet, i hovedsak fire import parametere, som er sekvensen identitet (SI), sekvens likhet (SS), oppløsning, og QMEAN, ble brukt til å klassifisere PDB_homo., Ved hjelp av en enkel, normal distribusjon for å beskrive alle disse parametrene av PDB_homo, en Z-score testen kan gjøres for å beregne terskelverdi for P-verdien satt til 0.1. Cut-off verdien av sekvensen identitet, sekvens likhet, oppløsning, og QMEAN er 17.58, 0.25, 3.8 og Å -6.98 henholdsvis. Som nevnt i den SVEITSISKE-MODELL database, men en PDB_homo med QMEAN mindre enn -4 er av lav kvalitet. For å sikre PDB_homo av høyere kvalitet i dette arbeidet, den kritiske parametere er tilbakestille som følgende: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31, og Oppløsning ≤ Å 3.4.,

for å sjekke om det eksisterer et gap i PDB_ex filer, alle rester sekvenser fra PDB databaser for hver kjede av ett PDB-fil ble lastet ned. På noen punkter, men rester sekvenser gitt av PDB databaser som ikke var i samsvar med rester sekvenser som finnes i strukturen. For å løse dette problemet, har en Biopython package69 ble brukt til å få rester sekvenser for hver kjede av ett PDB-fil. Neste, alle rester sekvenser ble sprengt med originale protein sekvenser for S., cerevisiae S288C from SGD med hjelp av Diamond66 for å sjekke om det fantes hull (samsvarer ikke eller mutasjoner) i de øvrige sekvenser fra PDB_ex når sammenlignet med den opprinnelige rester sekvenser. Den PDB_ex har blitt valgt med terskler: pidentity = 100 og oppløsning ≤ 3.4 Å; ellers en PDB_homo fra SWISS-MODELL database vil bli brukt.

å Etablere relasjoner av protein domene, genet, protein og reaksjoner (dGRPs)

I dette arbeidet Pfam32.0 database70 (https://pfam.xfam.org/) ble i hovedsak brukt til å kommentere domenet informasjon av proteiner fra S., cerevisiae S288C. Hvis en struktur dekket alle rester av et gitt domene, det ble tildelt til at svært domene. For hvert domene, koordinatene for start og slutt, navn, domene-funksjon beskrivelse, domene-type, e_value, tilhørende PDB-ID, og protein-ID, var alle oppsummert. I henhold til GPRs av Yeast8, forholdet mellom gen-ID og reaksjon-ID kunne oppnås. Etter dette domenet informasjon kan være forbundet med hvert par av genet og reaksjon basert på ID-en kartlegging.,

SNP samling og relative koordinater kartlegging

fra vcf-filen som leveres av de siste 1011 gjær stammer genomer sekvensering projects40 den homozygot SNP fra den massive data file (Supplerende Fig. 10a) var først ut. Den SNPs av lave totale kvalitet med dybde som <2.,0, kartlegging kvalitet <40, genotype kvalitet < 30, og Genotype dybde <5 ble filtrert ut basert på en serie av standard parametere i henhold til Broad Institute Genom analyse Toolkit (GATK)71.

Etter filtrering, pålitelig SNP kan oppnås for hver stamme. Dataene videre inneholder hver SNP ‘ s strain navn, kromosom, koordinater, ref, og alt nukleotid base., I kommentarene fase, SNP type og relaterte genet navn ble videre forklart basert på koordinater og kommentar informasjon i S. cerevisiae S. cerevisiae S288C referanse genom (versjon R64-1-1) fra NCBI. Hvis SNP var ikke ligger på CD-sone av genet, det var klassifisert som en type ‘INTEGENIC’. Hvis ikke denne klassifiseringen, det ble ellers gitt et gen systematisk navn, i samsvar med genet navn format i Yeast8., Basert på ovennevnte SNP merknad informasjonen bare de som tilhører den metabolske arvestoffet (genet liste i Yeast8 og noen andre metabolske gener som ikke finnes i Yeast8 til nå) ble valgt. I henhold til SNP merknad informasjon og protein sekvenser av beslektede gener, den SNPs er klassifisert som sSNP (synonymt enkelt nukleotid polymorphism) og nsSNP (nonsynonymous enkelt nukleotid polymorphism). Den relative tall av sSNPs og nsSNPs for hvert gen ble beregnet, som er lik den totale sSNPs eller nsSNPs delt av related protein lengde.,

Før kartlegging, koordinatene av muterte rester fra hver nsSNP må beregnes. For det første, den relative koordinater av muterte rester på den opprinnelige protein sekvens kan være innhentet basert på koordinater på nsSNP på kromosom. Etter dette, i henhold til koordinatene mapping mellom den opprinnelige protein sekvenser og den relative rester koordinater i proteiner struktur, den relative koordinater av det muterte rester i protein strukturer kan estimeres og brukes i følgende beregning.,

KLUMPER metode for å beregne p-verdier av mutasjon beriket PDB-filer

Refererer til Kamburov er method45, en WAP-score for å beregne parvis avstander mellom mutert rester etter et protein 3D struktur.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{q}},{\mathrm{r}}} {n_{\mathrm{q}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$
(7)

Hvor dq,r i denne artikkelen er definert som Euclidean distance (i➀) mellom α karbonatomer av to muterte rester., t er definert som en » myk » avstand terskel, som tilsvarer 6 Å. nq og nn er normalisert antall prøver inneholder mutasjoner ved hjelp av den følges sigmoidal Hill funksjon:

$$n_{\mathrm{q}} = \frac{{N_{\mathrm{q}}^m}}{{\theta ^m + N_{\mathrm{q}}^m}}$$
(8)

Hvor Nq er antall prøver med en missense mutasjon påvirker rester q av protein og θ = 2 og m = 3 er parametere av Bakken som funksjon å kontrollere kritiske punkt (i midten) og steepness av sigmoid funksjon, henholdsvis., Formel (2) ble brukt til å normalisere seg i prøve nummer som finnes i rest mutasjoner q og r, som begge kan unngå virkningen av høyere hyppige muterte rester i prøvene. En detaljert beskrivelse av hver enkelt formel kan bli funnet i Kamburov er article45.

KLUMPER metoden kan deles inn i fire trinn. For det første, for å forberede de nødvendige SNP informasjon og informasjon om strukturen av et protein. For det andre, med normalisert mutasjon antall forekommende i bestemte posisjoner, beregne WAP score av prøvene., Neste, forutsatt at jevn fordeling av mutasjoner over protein rester dekker gitt struktur, beregne hver WAP score i 104 randomisations å få null distribusjon. Under innsamlingsprosessen, mutasjon antall rester som oppstår på tilfeldige steder ble holdt den samme som den opprinnelige verdiene. Til slutt, beregne riktig tailed P-verdi på null distribusjon for gitt mutert protein strukturer basert på den opprinnelige WAP resultat og alle de innsamlede WAP score., Høyre tailed P-verdi er definert som antall prøver med WAP-score er større enn den opprinnelige WAP scoret, dividert med det totale antall prøver.

For proteiner med P-verdi mindre enn 0.05 stammer fra gruppen av «Bioethonal» og «Vin», GÅ-berikelse analyse ved hjelp DAVID6.7 on-line web service72 ble gjennomført.

– Sone analyse av nsSNP mutasjon

hotspot analyse rørledning for gjær i hovedsak refererer til Niu et al.’s work49. Alle SNP og informasjon om strukturen (tilsvarende KLUMPER’ analyse-metode) ble forberedt for en gruppe av stammer med spesifikke phenotypes., Før du utfører cluster-analyse, muterte sammenkoblede rester av betydning ble filtrert i henhold til reference49. Disse viktige sammenkoblede rester bør møte fulgte tre kriterier: avstanden mellom to rester bør være mindre enn 10 ➀ for alle intramolecular klynger analyse; de to rester bør være atskilt av minst 20 rester i den opprinnelige protein sekvens, og en permutasjon metoden bør brukes til å beregne P-verdien for hver sammenkoblet rester (Eq. 9), med en grense satt til 0.05.,

$$S\;{\mathrm{value}} = \frac{{n_1}}{{n_2}}$$
(9)

Hvor n1 er antall sammenkoblede rester med avstand mindre enn i den koblede rester av mål og n2 er antall sammenkoblede rester.

Når sammenkoblet rester av betydning har blitt oppnådd, klynger består av sammenkoblede rester ble innhentet basert på undirected grafteori, som ble realisert ved hjelp av funksjonen ‘brytes ned.grafen’ fra R-pakken igraph (https://igraph.org/)., For hver klynge, sin nærhet kan beregnes ved hjelp av funksjonen » nærhet.rester » fra R-pakken entiserve73. Med den detaljerte prinsippet kunne også være å finne i den opprinnelige research49. Som siste trinn, når en klynge ble anslått, P-verdi ble beregnet basert på den KLUMPER analyse rørledning i dette arbeidet.

logisk skriving av mutasjoner funksjon

Vekst test ved hjelp av Biolog med ulike substrat kilder

Phenotype MicroArray (PM) systemet ble brukt til å teste vekst på hver karbon, nitrogen, fosfor og svovel sources74., Av en total av 190 karbon kilder, 95 nitrogen kilder, 95 fosfor og svovel kilder ble testet. PM prosedyrer for S. cerevisiae S288C var basert på protokollen av Gjær versjon av PM-systemet.

Vekst profilering i ulike medier

En total av 14 karbon kilder og 23 nitrogen kilder ble kombinert med ortogonale eksperimenter. Hver karbon kilde og nitrogen kilde som brukes i middels var de samme C-mole og N-mole som glukose (20 g L−1 glukose) og ammonium sulfat (7.5 g L−1 (NH4)2SO4), henholdsvis. For alle andre substrat kilder, den samme minimal medium ble brukt (14.,4 g L−1 KH2PO4, 0.5 g L−1 MgSO4∙7H2O, trace metal og vitamin løsninger)75. Stammer som ble dyrket i 96-bra plater, og veksten var ytelsen bestemmes med Vekst Profiler 960 (Enzyscreen B. V., Heemstede, Nederland). Den maksimale spesifikke vekstraten (µmax) ble beregnet med R—pakke-growthrates (https://github.com/tpetzoldt/growthrates).

Statistiske analyser

For to gruppe sammenligningen i dette arbeidet, en to-tailed Wilcoxon rank sum test ble brukt.,

Rapportering oppsummering

Ytterligere informasjon om forskning design er tilgjengelig i Nature Research Rapportering Oppsummering knyttet til denne artikkelen.

Share

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *