En konsensus S. cerevisiae metaboliske model Yeast8 og dens økosystem for omfattende at undersøge den cellulære stofskifte

Sporing model ændringer med version kontrol

Git og GitHub blev brugt til at udvikle gær-PERLE i en sporbar måde. Git bruges til at spore eventuelle ændringer af gær-perle, som er gemt online i en GitHub repository (supplerende Fig. 1)., Strukturen af gær-PERLE repository på GitHub indeholder følgende tre mapper:

(1) ComplementaryData, som indeholder den tilhørende database kommentering og fysiologiske data, der anvendes til gær-PERLE opdateringer. Disse data gemmes generelt som tab-Separeret værdi (.tsv) format for nemmere sporing af ændringer; (2) ComplementaryScripts, som indeholder alle de scripts, der bruges til at opdatere gær-PERLE; (3) ModelFiles, som indeholder forskellige formater af gær-PERLE for forskellige anvendelser. Den.t andt og.,yml (YAML) formater gør det nemt at visualisere eventuelle ændringer i GitHub eller Git lokale kunder. Den.formatml (SBML) format gør det nemt at importere modellen på tværs af forskellige værktøjskasser og programmeringssprog.

som et standardtrin er der brug for en forpligtelse, når du opdaterer gær-perle. For at gøre commits let at forstå, bruges semantiske commit-meddelelser (supplerende Fig. 1c). For at muliggøre parallel modeludvikling anvendes forskellige grene af gær-perle, herunder en ‘master’ gren og en’ devel ‘ (udvikling) gren., Udviklere og endda andre mennesker fra samfundet kan oprette nye filialer fra udviklingsgrenen for at introducere deres ændringer og derefter anmode om at flette dem tilbage gennem pull-anmodninger. Disse ændringer fusioneres kun til udviklingsgrenen, og til gengæld fusioneres ændringerne i udviklingsgrenen med jævne mellemrum til mastergrenen, som indeholder de stabile udgivelser af modellen.,

Generelle procedurer, der anvendes til at standardisere kommentering af metabolitter og reaktioner

For de nyligt tilføjede reaktioner, deres MetaNetX IDs blev indhentet i henhold til direkte søgning i MetaNetX56 database ved hjælp af det tilknyttede metabolit navn eller EF-nummer oplysninger. Metanet.IDs blev også opnået ved reaction ID mapping fra kegg35, Rhea57 og BioCyc33 databaserne. Reaktionen reversibilitet blev korrigeret baseret på BioCyc og BiGG databaser58. Metanet.IDs blev også brugt til at opnå EC-nummeret for de tilsvarende reaktioner., Da Metanet. – databasen ikke har oplysninger om reaktionsnavnet, blev navnet på hver ny reaktion opnået baseret på reaktions-ID-kortlægningen i databaser over KEGG, ModelSeed og BioCyc.

rumannotationen af nye reaktioner blev raffineret på baggrund af oplysninger fra uniprot36-og SGD32-databaserne. Delsystem-annotationen blev først opnået fra KEGG35, og hvis der ikke blev fundet nogen delsystemer der, blev information fra BioCyc eller Reactome34 brugt i stedet. Hvis reaktionen ikke havde nogen genforhold, antog vi, at det forekom i cytoplasmaet.,

for alle metabolitterne indeholdt i nyligt tilføjede reaktioner blev de relaterede Metanet.IDs opnået baseret på reaktionen Metanet. IDs. Hvis det ikke var tilgængeligt, blev de opnået ved ID-kortlægning baseret på Kegg-id ‘er eller ChEBI-id’ er. Når metabolitten Metanet.IDs blev opnået, blev ladningen, formlen, KEGG IDs og ChEBI IDs opnået for korrespondentmetabolitten baseret på metabolitternes annotation i Metanet..,

Model opdatering fra Yeast7 at Yeast8

for det Første, alle anmærkninger vedrørende metabolit ChEBI-id ‘ er og KEGG IDs (Supplerende Tabel 8) blev rettet i den nyeste version af konsensus PERLE af gær (version 7.6) baseret på metabolit anmærkning til rådighed i KEGG og ChEBI59. Derudover, flere gener fra iSce92631, som ikke var inkluderet i gær 7.6 blev tilføjet, som med alle gener i relation til metaboliske processer og transport i SGD, BioCyc, Reactome, KEGG og UniProt. De vigtigste databaser, der anvendes til modelkuration, findes i supplerende Tabel 9.,

i biolog-eksperimenterne blev stammen S288c dyrket på 190 carbonkilder, 95 nitrogenkilder, 59 fosforkilder og 35 svovlkilder. Resultatet viste, at S288c kunne vokse på 28 kulstofkilder, 44 nitrogenkilder, 48 fosforkilder og 19 svovlkilder. Baseret på disse resultater blev der tilføjet nye væsentlige reaktioner for at gøre modellen i stand til at forudsige vækst på de relaterede substrater., I mellemtiden blev alle metabolomics-data indeholdt i YMDB-databasen (målte metabolitter) og den seneste metabolomics-forskning (supplerende Tabel 10) indsamlet og sammenlignet med den i gærperle. Der blev givet en standard annotation for alle disse metabolitter, og en rørledning blev designet til at tilføje metabolitterne i perlen uden at bringe nye blindgyde metabolitter. Detaljerede procedurer i modelkurering er tilgængelige i de supplerende metoder.

modelvalidering med forskellige eksperimentelle datakilder

for at sammenligne metabolitdækningen blev YMDB database60 analyseret., Der er 2024 metabolitter for gær, hvoraf 871 blev målt i S. cerevisiae. For hver metabolit blev ChEBI-ID og KEGG-ID tildelt, og baseret på dem blev det tilsvarende Metanet. – ID matchet. For metabolitter fra Yeast7 og yeast8 blev Metanet.ID for hver metabolit også opnået på grundlag af ID-kortlægning.

modelkvaliteten evalueres derefter ud fra nøjagtighed (e.. 1) og Matthe .s ‘ korrelationskoefficient (MCC)61 (E.. 2). Nøjagtigheden varierer fra 0 (værste nøjagtighed) til 1 (bedste nøjagtighed)., MCC spænder fra -1 (total uenighed mellem forudsigelse og observation) til + 1 (perfekt forudsigelse).

$${\mathrm{Nøjagtighed}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TP}} + {\mathrm{TN}} + {\mathrm{M}} + {\mathrm{FN}}}}$$
(1)

for At gennemføre gen væsentlighed analyse, har vi brugt den afgørende gen fra Gær Sletning Projekt, findes på http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, der blev genereret fra forsøg ved hjælp af en fuldstændig medium. Nøjagtighed og MCC blev beregnet som beskrevet ovenfor.,

den simulerede aerob og anaerob vækst under glucose-begrænsede og nitrogen-begrænsede betingelser blev sammenlignet med referencedata62. Følgende procedure blev anvendt til at simulere kemostat vækst i glucose-begrænsede betingelser. Indstil først den nedre grænse for glucose-og O2-optagelsesreaktioner ved hjælp af eksperimentelle værdier. Glukose – og iltoptagelsesstrømmene er negative, og derfor er de nedre grænser fastsat til at repræsentere de maksimale optagelseshastigheder. For det andet maksimere vækstraten.,

Som for kvælstof-begrænsede betingelser, da protein indholdet i biomasse falder drastisk under nitrogen-begrænset betingelser, biomasse, sammensætning blev skaleret i henhold til reference vilkår63, så sæt den nedre grænse, som måles til NH3 og O2 optagelse reaktioner ved hjælp af eksperimentelle værdier og endelig maksimere væksten.

visualisering af Gær8

kortene over gær-perle blev tegnet for hvert delsystem ved hjælp af cellDesigner 4.438 (supplerende fig. 5). In-house R scripts blev brugt til at producere kortet over hvert delsystem automatisk baseret på Yeast8., Derefter blev graflayoutet justeret manuelt i cellDesigner 4.4 for at forbedre dets kvalitet, og hele gærkortet i sbgn-format kunne findes i https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

Generation af ecYeast8

ecYeast8-modellen blev genereret baseret på den seneste udgivelse af Gecko-værktøjskassen, tilgængelig påhttps://github.com/SysBioChalmers/GECKO. For hver reaktion, den algoritme forespørgsler alle de nødvendige kcat værdier fra BRENDA database64, ifølge gene kommentering og et hierarkisk sæt af kriterier, der giver høj prioritet til underlaget og organisme specificitet.,ded til reaktioner efter:

$$- \frac{1}{{k_{{\mathrm{kat}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{jeg}} = 0$$
(3)

$$0 \le e_{\mathrm{jeg}} \le \left$$
(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{kat}}}^{{\mathrm{ij}}} \cdot \left$$
(5)

hvor vj repræsenterer flux gennem reaktion j, ei repræsenterer den mængde enzym, der afsættes til reaktion j, Ei repræsenterer den samlede koncentration af enzymet jeg, og kcat repræsenterer den højeste omsætning antal til rådighed for enzym jeg og reaktion j., Den detaljerede procedure til generering af ecYeast8 findes i det supplerende materiale i Gecko paper26.

simuleringer med ecYeast8

for at forudsige den maksimale vækstrate under forskellige kulstof-og nitrogenkilder ved anvendelse af ecYeast8 blev følgende procedure anvendt. For det første fjernes eventuelle begrænsninger for de dertil knyttede optagelseshastigheder for kulstof-og nitrogenkilder. Dernæst sæt minimale medier, der består af de relaterede kulstof-og nitrogenkilder. Endelig simulere en vækstrate maksimering, hvorved den optimale værdi er fastsat for posterior minimering af den samlede protein forbrug., Dette giver en parsimonisk Flu .fordeling.

For sammenlignende FVA mellem Yeast8 og en ecYeast8, den maksimale vækstrate og den optimale glukoseoptagelse priser, der er opnået med ecYeast8 anvendes som fast værdi og øvre grænse henholdsvis i den oprindelige GEM for at kunne foretage en fair sammenligning af flux variation for den samme vækst fænotype.

Flu controlkontrolkoefficienter (FCC ‘ er) defineres som et forhold mellem en relativ ændring i Flu .en af interesse og en relativ ændring i korrespondenten kcat på 0.,1%, som kan beskrives ved:

hvor VB og VUP er henholdsvis den oprindelige Flu.og nye Flu when, når kcat øges med 0,1%.

Re-kommentering af pan-genom fra 1011 gær genom-sekventering projekt

til At konstruere pan model af gær (panYeast8), den seneste genomforskningen af Peter et al har consulted40. I Peters undersøgelse var 1011 gærstammer genomer blevet sekventeret og analyseret. Et pan-genom blev opnået fra alle disse stammer, der består af 6081 ikke-redundante Orf ‘ er fra S., cerevisiae S288C referencegenom, og 1715 ikke-reference ORFs (nrORFs) fra de andre stammer. For 7796 ORFs blev der givet en panID for hver af dem. Til sammenligning bevares 4940 ORFs i alle disse stammer, mens 2846 ORFs er variabler på tværs af alle disse stammer. Annotation af ikke-redundante 6081 ORFs kan tages direkte fra den seneste S. cerevisiae S288C genom kommentering, mens relateret gen–protein-reaktioner (GPR) kan rekvireres fra Yeast8 direkte.

som nævnt i Peters artikel er der 774 nrorf ‘ er med ortholog-generne fra S. cerevisiae s288c genome40., Blast analyse, sammen med genet kommentering af KEGG web service35, og EggNOG web service65, blev ansat til at kontrollere og forbedre de oprindelige ortholog forhold. For at evaluere ortholog-genrelationerne kvalitativt blev den tovejs blast hit (BBH) – analyse yderligere udført ved anvendelse af Diamond66. Her blev det bedste hit i BBH-analyse med pidentity større end 80% endelig valgt og forberedt til en panYeast8-formulering.

for yderligere at søge pålidelige nye reaktioner forbundet med nrORFs blev annotationsresultaterne fra KEGG og EggNOG-webebtjenesten brugt., Ifølge anmodningen om formatering for de to web-tjenester, protein fasta-filer af pan-genom blev uploadet på KEGG (https://www.genome.jp/tools/kaas/) og EggNOG (http://eggnogdb.embl.de/#/app/emapper). Til Kegg-annotationen blev der anvendt en BBH (tovejs bedste hit) tildelingsmetode med standardparametrene. For EggNOG-annotationen blev HMMEREN med standardparametrene brugt. I EggNOG-annotationen vil hvert protein blive kortlagt på KO ID og BiGG reaction ID, mens for KEGG-annotationen vil hvert protein blive givet et unikt KO ID., Så hvis KO ID for et protein er forskelligt mellem KEGG og EggNOG, vil KO ID givet af KEGG blive foretrukket i den videre analyse. Hvis KO ID blev givet til et protein af EggNOG, men ikke i KEGG, vil denne annotation også blive brugt til pan-genom-annotationen. Når KO-id ‘ erne er opnået, sammenlignes listerne over KOs fra nrORFs med reference-ORFs. Nye KO-id ‘er til nrorf’ erne blev efterfølgende ekstraheret. Efter dette blev R .nid opnået baseret på KO-r .nid kortlægning fra KEGG database.,

Generation af panYeast8, coreYeast8 og stamme specifikke Perler

For ortholog gener (fx gen-C), der er opnået fra pan-genom kommentering, de kan være sammen baseret på reference-gen (fx gen A) funktion i den oprindelige model, i henhold til følgende bestemmelser: (1) hvis A eller B katalyserer de samme isoenzym, det GPR regel kunne ændres til ‘A eller B, eller C’ i panYeast8; (2) hvis A og B tilhører en kompleks, GPR regel bør være opdateret fra ‘A-og B’ i ‘(A og B) eller (C og B)”. For det andet blev 51 nye reaktioner med 13 nye gener fusioneret til panYeast8., Hvad angår genidentiteten i modellen, for at reducere kaos, blev de originale gen-id ‘ er og gennavne fra original Yeast8 holdt, mens for nyligt tilføjede gener, paniderne defineret i Peters arbejde9 blev brugt til at repræsentere gennavnet.

kollapsede gener i pan-genom, men kunne findes i gær perle, og vil blive erstattet med de tilsvarende ortholog gener defineret i pan-genom. ssGEMs for 1011 stammer blev rekonstrueret baseret på panYeast8 sammen med den beslægtede stammer specifikke gener, liste (Supplerende Fig. 6a)., En Matlab funktion blev udviklet til at generere stamme specifikke modeller automatisk. Baseret på aktuelle gen foreligger oplysninger, hvis et gen fra en kompleks mangler, så er reaktionen er fjernet, og hvis et gen fra to foreninger mangler, så er reaktionen vil blive holdt, selvom GPRs vil blive opdateret for at fjerne det manglende gen. Efter rekonstruktionen af 1011 ssgem ‘er blev coreYeast8 genereret baseret på almindelige reaktioner, gener og metabolitter over 1011 ssgem’ erne.,

Stamme klassificering, der er baseret på PARTNERSKABS-og samarbejdsaftalen, beslutningstræ og klynge analyse

Den hierarkiske klyngeanalyse baseret på reaktion eksistens i ssGEMs for gær stammer, der er baseret på R-pakke-dendextend (https://CRAN.R-project.org/package = dendextend). For PCA analyse af stammer baseret gen (eller reaktion) eksistens i ssGEMs, R-funktion-prcomp er blevet anvendt i denne artikel. Klassifikationen af stammer i beslutningstræet i henhold til den maksimale vækstrate på forskellige carbonkilder blev udført under anvendelse af R-pakken–rpart (https://cran.r-project.org/web/packages/rpart/)., For hyperparameters tuning, to R-pakker—ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) og mlr (https://CRAN.R-project.org/package=mlr) blev yderligere brugt.

Protein struktur indsamling til proYeast8DB

for At etablere protein 3D-struktur modeller for alle gener fra gær PERLE (og et par metaboliske gener, der ikke findes i den nuværende Yeast8), alle de proteinstrukturer af S. cerevisiae S288C fra den SCHWEIZISKE MODEL database67 (https://Swissmodel.expasy.org) på 20 juli 2018 blev downloadet., Det samlede antal er omkring 20332 PDB filer, herunder 8109 modellering homologi PDB filer (PDB_homo) og 12223 eksperimentelle PDB filer (Pdb_e.). I mellemtiden alle Pdb_e.af S. cerevisiae s288c gemt i rcsb PDB54 database blev yderligere do .nloadet. Proteinsekvenserne indeholdt i hver Pdb_e.blev også do .nloadet. Ovenstående to kilder til PDB filer blev fusioneret for at opnå den omfattende PDB filer database for S. cerevisiae s288c. med den metaboliske gen liste over S. cerevisiae s288c at forespørge PDB filer database, de fleste gener, med undtagelse af omtrent 217 proteiner (i Yeast8.,3) kunne findes i de relaterede PDB filer. For at udfylde dette hul blev den SCH .ei .iske MODEL webebtjeneste yderligere brugt til at opbygge PDB_homo til 217 proteiner. Som et resultat kunne hvert metabolisk protein have mindst en PDB-fil. Alle de oprindelige proteiner annotation, ligesom rester sekvens og protein længde, blev do .nloadet fra SGD-databasen.

Når FBF-filerne blev indsamlet, blev parametrene for PDBs ekstraheret og beregnet til kvalitetsanalyse., Som for PDB_homo, standard parametre fra ftp-af den SCHWEIZISKE MODEL-database, der blev opnået, og indgår protein UniProt-ID, protein længde, der er relateret FBF-ID (i forbindelse med chainID), struktur kilder, de koordinater, der er rester af proteiner, der er dækket med FBF strukturer, dækning, opløsning, og QMEAN., Som for PDB_homo, ud over de ovennævnte standard parametre fra den SCHWEIZISKE MODEL-database, et større antal af parametre, der blev opnået ved parsing PDB_homo atom-filer, der leveres af det SCHWEIZISKE MODEL med en in-house python-script, som omfattede de metoder, der anvendes for at opnå FBF filer, den skabelon, protein oliga staten, GMQE, QMN4, sekvens identitet (SID), og sekvens lighed (SIM). Sammenfattende indeholder hver PDB_homo 18 parametre for yderligere PDB kvalitet analyse.

Nogle af Pdb_e.parametre, som dækning og skabelon ID kan også findes fra den SCH .ei .iske MODEL database., Andre vigtige parametre som opløsning, ligander, og oliga tilstand blev opnået ved parsing PDB_ex filer fra RCSB FBF-database ved hjælp af (https://github.com/williamgilpin/pypdb). ChainID for hver Pdb_e.blev do .nloadet fra SIFTS database68.

kvalitetsanalyse af protein 3D-struktur

da et protein kunne forbindes med flere PDB-filer i forskellige kvalitetsniveauer, er det vigtigt at filtrere FBF af lav kvalitet. I dette arbejde blev hovedsageligt fire importparametre, der er sekvens identitet (SI), sekvens lighed (SS), opløsning ogmmean, brugt til at klassificere PDB_homo., Ved at bruge en simpel normalfordeling til at beskrive alle disse parametre for PDB_homo, kan en score score test udføres for at beregne tærskelværdien for P-værdi indstillet til 0.1. Afskæringsværdien af sekvensidentitet, sekvensens lighed, opløsning og QMEAN er henholdsvis 17,58, 0,25, 3,8 Å og -6,98. Som anført i den SCHWEIZISKE MODEL-database, men en PDB_homo med QMEAN mindre end -4 er af lav kvalitet. For at sikre PDB_homo af højere kvalitet i dette arbejde nulstilles de kritiske parametre som følgende: QMEAN ≥ -4, SI 0.2 0,25, SS.0,31 og opløsning 3.4 3,4 Å.,

for at kontrollere, om der findes et hul i PDB_ex filer, alle rester sekvenser fra FBF databaser til hver enkelt kæde, af en FBF-filen blev ikke hentet. På nogle punkter var restsekvenser leveret af FBF-databaser imidlertid ikke i overensstemmelse med restsekvenser indeholdt i strukturen. For at løse dette problem blev en Biopython package69 brugt til at opnå restsekvenser for hver kæde af en PDB-fil. Næste, alle restsekvenser blev sprængt med originale proteinsekvenser for S., cerevisiae s288c fra SGD ved hjælp af Diamond66 for at kontrollere, om der eksisterede huller (uoverensstemmelser eller mutationer) i restkoncentrationssekvenserne fra Pdb_e.sammenlignet med de oprindelige restkoncentrationssekvenser. Pdb_e.er valgt med tærsklerne: pidentity = 100 og opløsning 3.4 3,4 Å; ellers vil en PDB_homo fra S .iss-MODEL database blive brugt.

Oprettelse af forbindelser af protein domæne, gen -, protein og reaktioner (dGRPs)

I dette arbejde, Pfam32.0 database70 (https://pfam.xfam.org/) blev primært brugt til at anmærke domæne oplysninger af proteiner fra S., cerevisiae s288c.hvis en struktur dækkede alle rester af et givet domæne, blev det tildelt netop det domæne. For hvert domæne blev koordinaterne for start og slut, navnet, domænefunktionsbeskrivelsen, domænetypen, e_value, det relaterede FBF-ID og protein-ID alle opsummeret. Ifølge GPRs af Yeast8 kunne forholdet mellem gen-ID og reaktion-ID opnås. Efter dette kunne domæneinformationen forbindes med hvert par gen og reaktion baseret på ID-kortlægningen.,

SNP indsamling og relative koordinater kortlægning

fra vcf-filen indeholdt i de seneste 1011 gær stammer humane genom sekventering projects40 den homozygote SNP fra den massive data-fil (Supplerende Fig. 10a) blev først ekstraheret. SNP ‘ erne af lav totalkvalitet med dybde er <2.,0, kortlægning kvalitet <40, genotype kvalitet < 30, og Genotype dybde <5 blev filtreret ud af, baseret på en serie af standard parametre i henhold til de Overordnede Institut genomanalyse Toolkit (GATK)71.

efter filtrering kan den pålidelige SNP opnås for hver stamme. Dataene indeholder desuden hver SNP ‘ s stamme navn, kromosom, koordinater, ref, og alt nukleotid base., I annotation fase, SNP type og relaterede gen navne blev yderligere kommenteret baseret på koordinater og kommentering oplysninger af S. cerevisiae S. cerevisiae S288C reference genom (version R64-1-1) fra NCBI. Hvis SNP ikke var placeret på CDS geneone af Gen, det blev klassificeret som en type af ‘INTEGENIC’. Hvis ikke denne klassificering, blev det ellers givet et gen systematisk navn, i overensstemmelse med gennavnsformatet i Yeast8., Baseret på ovenstående SNP-annotation oplysninger kun dem, der tilhører den metaboliske gener (gen liste i Yeast8 og nogle andre metaboliske gener, som ikke er indeholdt i Yeast8 indtil nu) blev valgt. Ifølge SNP-annotation information og protein-sekvenser af relaterede gener, de Snp ‘ er, der er klassificeret som sSNP (synonym single nukleotid polymorfisme) og nsSNP (nonsynonymous single nukleotid polymorfisme). Det relative antal af sSNPs og nsSNPs for hvert gen blev beregnet, hvilket svarer til den samlede sSNPs eller nsSNPs divideret med det tilhørende protein længde.,

før kortlægning skal koordinaterne for muterede rester fra hver nsSNP beregnes. For det første kan de relative koordinater for muterede rester på den oprindelige proteinsekvens opnås baseret på koordinaterne for nsSNP på kromosomet. Efter dette, ifølge koordinaterne kortlægning mellem de oprindelige proteinsekvenser og de relative rester koordinater i proteinstrukturen, de relative koordinater for de muterede rester i proteinstrukturer kan estimeres og anvendes i den følgende beregning.,

KLUMPER metode til beregning af p-værdier af mutation beriget FBF filer

med Henvisning til Kamburov er method45, en WAP-score til at beregne den parvise afstande mellem muteret rester for et protein 3D-struktur.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{q}},{\mathrm{r}}} {n_{\mathrm{q}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$
(7)

Hvor dq,r i denne artikel er defineret som den Euklidiske afstand (i Å) mellem α kulstof af to muterede rester., t defineres som en ‘blød’ afstandstærskel, der svarer til 6 Å. nq og nr er den normaliserede antal af prøver, der indeholder mutationer ved hjælp af det, der blev fulgt på sigmoidal Hill funktion:

$$n_{\mathrm{q}} = \frac{{N_{\mathrm{q}}^m}}{{\theta ^m + N_{\mathrm{q}}^m}}$$
(8)

Hvor Nq er antallet af prøver med en missense mutation, der påvirker rest q af protein og θ = 2 og m = 3 er parametre af Bakken funktion, der kontrollerer det kritiske punkt (centrum) og stejlheden af sigmoid funktion, hhv., Formel (2) blev anvendt til at normalisere antallet af prøver indeholdt i restkoncentrationsmutationerne mutations og r, som begge kan undgå virkningen af højere hyppige muterede rester i prøverne. En detaljeret beskrivelse af hver formel findes i Kamburovs artikel45.

KLUMPMETODEN kan opdeles i fire trin. For det første skal du forberede den nødvendige SNP-information og strukturere information om et protein. For det andet, med det normaliserede mutationsnummer, der forekommer i specifikke positioner, beregne samplesap-scoringerne for prøverne., Dernæst antages det, at den ensartede fordeling af mutationer på tværs af protein rester dækker den givne struktur, beregne hver WAP-score i 104 randomisations at få null distribution. Under prøveudtagningsprocessen blev mutationsantallet af rester, der forekom på tilfældige steder, holdt det samme som de oprindelige værdier. Til sidst beregnes den højre tailed P-værdi i nullfordelingen for de givne muterede proteinstrukturer baseret på den originale scoreap-score og alle de samplede .ap-score., Den højre tailed p værdi er defineret som antallet af prøver med scoresap scoringer større end den oprindelige scoredap scoret, divideret med det samlede antal prøver.

for proteiner med P-værdi mindre end 0,05 fra stammer gruppe af “Bioethonal” og “vin” blev GO-berigelsesanalyse ved anvendelse af DAVID6.7 online webebservice72 udført.

Hotspot-analyse af nssnp-mutation

hotspot-analyserørledningen for gær refererer hovedsageligt til Niu et al.arbejde 49. Alle SNP og struktur oplysninger (svarende til klumper’ analysemetode) blev udarbejdet for en gruppe af stammer med specifikke fænotyper., Før klyngeanalysen blev de muterede parrede rester af betydning filtreret i henhold til reference49. Disse vigtige parret rester, bør opfylde det, der blev fulgt på tre kriterier: afstanden mellem to rester, bør være mindre end 10 Å for alle intramolekylære klynger analyse; de to restprodukter skal være adskilt af mindst 20 af pesticidrester i den oprindelige protein sekvens, og en permutation metode, der burde anvendes til at beregne P-værdien for hver parret rester (Eq. 9), med en tærskel på 0,05.,

$$S\;{\mathrm{value}} = \frac{{n_1}}{{n_2}}$$
(9)

Hvor n1 er antallet af forbundne rester med den afstand, der er mindre end i forbundne rester af mål og n2 er det samlede antal af parret rester.

når de parrede restkoncentrationer af betydning er opnået, blev klyngerne bestående af parrede rester opnået ud fra den ikke-rettede grafteori, som blev realiseret ved hjælp af funktionen ‘nedbrydes.graph ‘fra R-pakken igraph (https://igraph.org/)., For hver klynge kan dens nærhed beregnes ved hjælp af funktionen ‘ nærhed.resterende ‘ fra R-pakken entiserve73. Det detaljerede princip kunne også findes i den oprindelige forskning49. Som det sidste trin, hvor en klynge blev estimeret, blev P-værdien beregnet ud fra CLUMPS-analyserørledningen i dette arbejde.

Forudsigelse af mutationer funktion

Vækst test ved hjælp af Biolog med forskellige substrat kilder

Fænotype MicroArray (PM) system blev anvendt til at teste vækst på hver kulstof, kvælstof, fosfor og svovl sources74., I alt 190 kulstofkilder, 95 nitrogenkilder, 95 fosfor og svovlkilder blev testet. Pm-procedurerne for S. cerevisiae s288c var baseret på protokollen for Gærversionen af PM-systemet.

Vækstprofilering i forskellige medier

i alt 14 carbonkilder og 23 nitrogenkilder blev kombineret ved ortogonale eksperimenter. Hver kulstofkilde og nitrogenkilde, der blev anvendt i mediet, var den samme c-mol og N-mol som henholdsvis glucose (20 g l−1 glucose) og ammoniumsulfat (7, 5 g L−1 (NH4)2SO4). For alle andre substratkilder blev det samme minimale medium anvendt (14.,4 g L-1 KH2PO4, 0,5 g L-1 MgSO4∙7H2O, spormetal og vitamin opløsninger)75. Stammer blev dyrket i 96-brønds plader, og vækstpræstation blev bestemt med Vækstprofiler 960 (en .yscreen B. V., Heemstede, Holland). Den maksimale specifikke vækstrate (µma.) blev beregnet med R—pakken-vækstrater (https://github.com/tpetzoldt/growthrates).

statistisk analyse

for to gruppesammenligninger i dette arbejde blev der anvendt en to-tailed rankilco .on rank sum test.,

Rapporteringsoversigt

yderligere oplysninger om forskningsdesign er tilgængelige i Nature Research Reporting Summary, der er knyttet til denne artikel.

Share

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *