spårning modelländringar med versionskontroll
Git och GitHub användes för att utveckla jäst-pärla på ett spårbart sätt. Git används för att spåra eventuella förändringar av jäst-GEM, som lagras online i en GitHub förråd (kompletterande Fig. 1)., Strukturen av jäst-GEM förvaret på GitHub innehåller följande tre huvudkataloger:
(1) Komplementarydata, som innehåller den relaterade databasen anteckning och fysiologiska data som används för jäst-GEM uppdateringar. Dessa data lagras i allmänhet som tab-separerade värde (.tsv) format för Enklare spårning av förändringar; (2) Komplementaryscripts, som innehåller alla skript som används för att uppdatera jäst-pärla; (3) Modellfiles, som innehåller olika format av jäst-pärla för olika tillämpningar. Den.txt och.,yml (YAML) format gör det bekvämt att visualisera eventuella förändringar i GitHub eller Git lokala kunder. Den.xml (SBML) format gör det enkelt att importera modellen över olika verktygslådor och programmeringsspråk.
som ett standardsteg behövs en begå vid uppdatering av jäst-pärla. För att göra begår lätt att förstå, semantiska begå meddelanden används (kompletterande Fig. 1c). För att möjliggöra parallell modellutveckling används olika grenar av jäst-GEM, inklusive en ”master” gren och en ”devel” (utveckling) gren., Utvecklare, och även andra människor från samhället, kan skapa nya grenar från utvecklingsgrenen för att introducera sina ändringar och sedan begära att slå samman dem tillbaka genom pull-förfrågningar. Dessa förändringar slås bara samman till utvecklingsgrenen, och i sin tur slås förändringarna i utvecklingsgrenen periodiskt samman till huvudgrenen, som innehåller modellens stabila utgåvor.,
allmänna förfaranden som används för att standardisera anteckning av metaboliter och reaktioner
för de nyligen tillagda reaktionerna erhölls deras MetaNetX-ID enligt en direkt sökning i MetaNetX56-databasen med hjälp av det relaterade metabolitnamnet eller EG-nummerinformationen. MetaNetX IDs erhölls också genom reaktion ID kartläggning från KEGG35, Rhea57 och BioCyc33 databaser. Reaktionsreversibiliteten korrigerades utifrån BioCyc-och BiGG-databaserna58. MetaNetX-ID användes också för att erhålla EG-nummer för motsvarande reaktioner., Som MetaNetX databasen inte har reaktionen namn information, namnet på varje ny reaktion var erhållits baserat på reaktionen ID kartläggning i databaser för KEGG, ModelSeed och BioCyc.
delrummets anteckning om nya reaktioner förfinades baserat på information från uniprot36-och SGD32-databaserna. Delsystemets anteckning erhölls först från KEGG35, och om inga delsystem hittades där användes istället information från BioCyc eller Reactome34. Om reaktionen inte hade några genrelationer antog vi att det inträffade i cytoplasman.,
för alla metaboliter som ingår i Nyligen tillagda reaktioner erhölls de relaterade MetaNetX-id: N baserat på reaktionsmetanetx-ID: n. Om de inte var tillgängliga erhölls de genom ID-kartläggning baserat på KEGG-ID eller ChEBI-ID. När metaboliten MetaNetX IDs erhölls erhölls laddningen, formeln, KEGG IDs och ChEBI IDs för korrespondentmetaboliten baserat på metaboliter i MetaNetX.,
Modell uppdatering från Yeast7 att Yeast8
för det Första, alla kommentarer om metabolit ChEBI-Id och KEGG IDs (Kompletterande Tabell 8) har korrigerats i den senaste versionen av samförstånd PÄRLA av jäst (version 7.6) baserat på metaboliten anteckning finns i KEGG och ChEBI59. Dessutom, flera gener från iSce92631 som inte ingår i jäst 7.6 har lagts till, som med alla gener relaterade till metaboliska processer och transporter i SLL, BioCyc, Reactome, KEGG och UniProt. De viktigaste databaserna som används för modellberäkning återfinns i kompletterande Tabell 9.,
i Biologförsöken odlades stammen s288c på 190 kolkällor, 95 kvävekällor, 59 fosforkällor och 35 svavelkällor. Resultatet visade att s288c kunde växa på 28 kolkällor, 44 kvävekällor, 48 fosforkällor och 19 svavelkällor. Baserat på dessa resultat tillsattes nya väsentliga reaktioner för att göra modellen kapabel att förutsäga tillväxt på de relaterade substraten., Under tiden samlades alla metabolomics-data i ymdb-databasen (uppmätta metaboliter) och den senaste metabolomics-forskningen (kompletterande Tabell 10) och jämfördes med den i jästgem. En standardanteckning gavs för alla dessa metaboliter och en rörledning utformades för att lägga till metaboliterna i pärlan utan att ta med några nya slutmetaboliter. Detaljerade förfaranden i förlaga curation finns i de kompletterande metoderna.
modellvalidering med olika experimentella datakällor
för att jämföra metaboliternas täckning analyserades ymdb databas60., Det finns 2024 metaboliter för jäst, bland vilka 871 mättes i S. cerevisiae. För varje metabolit tilldelades ChEBI ID och KEGG ID, och baserat på dem matchades motsvarande MetaNetX ID. För metaboliter från Yeast7 och Yeast8 erhölls även MetaNetX ID för varje metabolit baserat på ID-kartläggning.
modellkvaliteten utvärderas sedan baserat på noggrannhet (Eq. 1) och Matthews’ korrelationskoefficient (MCC)61 (Ekv. 2). Noggrannheten varierar från 0 (värsta noggrannhet) till 1 (bästa noggrannhet)., MCC varierar från -1 (total oenighet mellan förutsägelse och observation) till + 1 (perfekt förutsägelse).
för att genomföra analys av genessentialitet använde vi den väsentliga genlistan från jästavlägsningsprojektet, tillgänglig på http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, som genererades från experiment med ett komplett medium. Noggrannhet och MCC beräknades som beskrivits ovan.,
den simulerade aeroba och anaeroba tillväxten under glukosbegränsade och kvävebegränsade förhållanden jämfördes med referensdata62. Följande procedur användes för att simulera kemostattillväxt under glukosbegränsade förhållanden. För det första ställa in den lägre gränsen för glukos och O2 upptagsreaktioner med hjälp av experimentella värden. Glukos – och syreupptagsflöden är negativa och därför är de nedre gränserna fasta för att representera maximala upptagningshastigheter. För det andra maximera tillväxttakten.,
När det gäller kvävebegränsade förhållanden, eftersom proteinhalten i biomassa sjunker dramatiskt under kvävebegränsade förhållanden, omvandlades biomassakompositionen enligt referensförhållandet63, ställ sedan in den nedre gränsen som uppmätt för NH3-och O2-upptagsreaktioner med hjälp av experimentella värden och slutligen maximera tillväxttakten.
visualisering av Yeast8
kartorna av jäst-GEM ritades för varje delsystem med hjälp av cellDesigner 4.438 (kompletterande Fig. 5). In-house R-skript användes för att producera kartan över varje delsystem automatiskt baserat på Yeast8., Därefter justerades diagramlayouten manuellt i cellDesigner 4.4 för att förbättra dess kvalitet och hela jästkartan i SBGN-format kunde hittas i https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.
generering av ecYeast8
ecYeast8-modellen skapades baserat på den senaste versionen av gecko toolbox, tillgänglig påhttps://github.com/SysBioChalmers/GECKO. För varje reaktion frågar algoritmen alla nödvändiga kcat-värden från BRENDA databasen64, enligt genanteckning och en hierarkisk uppsättning kriterier, vilket prioriterar substrat och organismspecificitet.,div>
där vj representerar flödet genom reaktion j, representerar ei den mängd enzym som tilldelats för reaktion J, ei representerar den totala koncentrationen av enzym i, och kcat representerar det högsta omsättningsnumret för enzymet i och reaktionen j., Det detaljerade förfarandet för att generera ecYeast8 finns i det kompletterande materialet i GECKO paper26.
simuleringar med ecYeast8
för att förutsäga den maximala tillväxttakten under olika kol-och kvävekällor med ecYeast8 användes följande förfarande. För det första avlägsna eventuella begränsningar för de relaterade upptagningshastigheterna för kol-och kvävekällor. Ställ sedan in minimala medier som består av de relaterade kol-och kvävekällorna. Slutligen, simulera en tillväxttakt maximering, varigenom det optimala värdet fastställs för bakre minimering av den totala proteinanvändningen., Detta ger en parsimonious fluxfördelning.
för jämförande FVA mellan Yeast8 och en ecYeast8 används den maximala tillväxttakten och de optimala glukosupptagshastigheter som erhålls med ecYeast8 som fast värde respektive övre gräns i den ursprungliga GEM för att göra en rättvis jämförelse av fluxvariabilitet för samma tillväxtfenotyp.
Flux control coefficients (FCC) definieras som ett förhållande mellan en relativ förändring av ränteflödet och en relativ förändring i motsvarande kcat på 0.,1%, som kan beskrivas med:
där VB och vup är det ursprungliga flödet respektive nya flöden när kcat ökas med 0.1%.
re-annotation av pan-genomet från 1011 yeast genome-sekvenseringsprojektet
för att konstruera panmodellen av jäst (panYeast8), har den senaste genomikforskningen av Peter et al samrått40. I Peters studie hade 1011 jäststammar genomer sekvenserats och analyserats. Ett pan-genom erhölls från alla dessa stammar, bestående av 6081 icke-överflödiga ORFs från S., cerevisiae S288C hänvisning genomet, och 1715 icke-referens ORFs (nrORFs) från andra stammar. För 7796 ORFs gavs en panID för var och en av dem. Som jämförelse bevaras 4940 ORFs i alla dessa stammar medan 2846 ORFs är variabler över alla dessa stammar. Notering av icke-redundant 6081 ORFs kan tas direkt från de senaste S. cerevisiae S288C genomet anteckningar, medan relaterade gen–protein-reaktioner (GPR) kan erhållas från Yeast8 direkt.
Som nämns i Peter ’ s artikel finns 774 nrORFs med ortholog gener från S. cerevisiae S288C genome40., Blastanalysen, tillsammans med genanteckningen av KEGG web service35 och EggNOG web service65, användes för att kontrollera och förbättra den ursprungliga ortholog-relationen. För att utvärdera orthologgenrelationerna kvalitativt genomfördes bi-directional blast hit (BBH) – analysen vidare med användning av Diamond66. Här valdes den bästa träffen i BBH-analys med pidentity större än 80% slutligen och förbereddes för en panYeast8-formulering.
för att ytterligare söka tillförlitliga nya reaktioner i samband med nrORFs användes annoteringsresultaten från KEGG och eggnogs webbtjänst., Enligt begäran om format för de två webbtjänsterna laddades protein fasta-filerna av pan-genomet upp på KEGG (https://www.genome.jp/tools/kaas/) och EggNOG (http://eggnogdb.embl.de/#/app/emapper). För Kegg-anteckningen användes en BBH (bi-directional best hit) – tilldelningsmetod med standardparametrarna. För EggNOG-anteckningen användes hmmer med standardparametrarna. I äggtoddy-anteckningen kommer varje protein att mappas på KO ID och BiGG reaction ID medan för KEGG-anteckningen kommer varje protein att ges ett unikt KO ID., Så om KO-ID för ett protein skiljer sig från KEGG och EggNOG, kommer KO-ID som ges av KEGG att föredras i den fortsatta analysen. Om KO-ID gavs för ett protein av äggtoddy, men inte i KEGG, kommer denna anteckning också att användas för pan-genomet anteckning. När KO-ID: n erhålls jämförs listorna över KOs från nrORFs med referens ORFs. Nya ko-ID för nrORFs extraherades därefter. Efter detta rxnID erhölls baserat på KO-rxnID kartläggning från KEGG databas.,
Generationen av panYeast8, coreYeast8 och stam specifika Pärlor
För ortholog gener (t ex gen C) som erhållits från pan-genomet anteckning, kan de slås samman baserat på referens-genen (t ex gen a) En funktion i den ursprungliga modellen enligt följande regler: (1) om A-eller B katalysera samma isoenzym, det GPR regel skulle kunna ändras till ” A eller B eller C i panYeast8; (2) om A och B tillhör till en komplex, GPR regel bör uppdateras från ”A och B ”till” A och B) eller (C och B)”. För det andra slogs 51 nya reaktioner med 13 nya gener samman i panYeast8., När det gäller genernas identitet i modellen, för att minska kaos, behölls de ursprungliga generna IDs och gennamn från Original Yeast8, medan för nytillkomna gener användes paniderna som definierades i Peters arbete9 för att representera gennamnet.
kollapsade gener i pan-genom men kunde hittas i jäst pärla, och kommer att ersättas med motsvarande ortholog gener definieras i pan-genom. ssGEMs för 1011 stammar rekonstruerades baserat på panYeast8 tillsammans med tillhörande stammar specifika gener lista (Kompletterande Fig. 6a)., En Matlab-funktion utvecklades för att automatiskt generera stamspecifika modeller. Baserat på aktuell information om gene existens, om en gen från ett komplex saknas, tas reaktionen bort; och om en gen från två isoenzymer saknas, kommer reaktionen att hållas, även om GPRs kommer att uppdateras för att ta bort den saknade genen. Efter återuppbyggnaden av 1011 ssGEMs genererades coreYeast8 baserat på vanliga reaktioner, gener och metaboliter över 1011 ssGEMs.,
Stamklassificering baserad på PCA, beslutsträd och klusteranalys
den hierarkiska klusteranalysen baserad på reaktionsexistensen i ssGEMs för jäststammar är baserad på R-paketet–dendextend (https://CRAN.R-project.org/package = dendextend). För PCA-analys av stammar baserade gen (eller reaktion) existens i ssGEMs, R funktion-prcomp har använts i denna artikel. Beslut träd klassificering av stammar enligt den maximala tillväxttakten på olika kolkällor utfördes med hjälp av r-paketet — rpart (https://cran.r-project.org/web/packages/rpart/)., För hyperparameters-inställningen användes ytterligare två R—paket-ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) och mlr (https://CRAN.R-project.org/package=mlr).
> Protein struktur samling för proYeast8DB
Att fastställa protein 3D-struktur modeller för alla gener från jäst PÄRLA (och några metabola gener som inte ingår i nuvarande Yeast8), allt protein strukturer av S. cerevisiae S288C från den SCHWEIZISKA MODELLEN database67 (https://Swissmodel.expasy.org) den 20 juli 2018 har laddats ner., Det totala antalet är ca 20332 preliminära BUDGETFÖRSLAGET filer inklusive 8109 modellering homologi det preliminära BUDGETFÖRSLAGET filer (PDB_homo) och 12223 experimentella det preliminära BUDGETFÖRSLAGET filer (PDB_ex). Under tiden alla PDB_ex av S. cerevisiae S288C lagras i RCSB PDB54 databasen var längre ner. Proteinsekvenserna i varje PDB_ex hämtades också. Dessa två källor av det preliminära BUDGETFÖRSLAGET filer ihop, för att få det heltäckande preliminära BUDGETFÖRSLAGET filer databas för S. cerevisiae S288C. Med det metabola gen lista av S. cerevisiae S288C att fråga preliminära BUDGETFÖRSLAGET filer databas, de flesta gener, med undantag för ungefär 217 proteiner (i Yeast8.,3) kunde hittas i de relaterade PDB-filer. För att fylla detta gap användes den schweiziska modellens webbtjänst ytterligare för att bygga PDB_homo för 217 proteiner. Som ett resultat kan var och en av metaboliskt protein ha minst en PDB-fil. Alla originalproteinanteckningar, som resthaltsekvensen och proteinlängden, hämtades från SGD-databasen.
När PDB-filerna samlades in extraherades parametrarna för PDB och beräknades för kvalitetsanalys., När det gäller pdb_homo erhölls standardparametrarna från ftp i den schweiziska MODELLDATABASEN och inkluderade protein UniProt-ID, proteinlängden, det relaterade PDB-ID (kopplat till chainID), strukturkällorna, koordinaterna för proteinrester täckta med PDB-strukturer, täckningen, upplösningen och QMEAN., När det gäller PDB_homo, förutom ovanstående standardparametrar från den schweiziska MODELLDATABASEN, erhölls ett större antal parametrar genom att analysera pdb_homo Atom-filerna som tillhandahålls av den schweiziska modellen med ett internt python-skript, vilket inkluderade de metoder som användes för att erhålla PDB-filerna, modellmallen, protein oliga-tillståndet, gmqe, QMN4, sequence identity (SID) och sequence Sim-likheten (SIM). Sammanfattningsvis innehåller varje PDB_homo 18 parametrar för ytterligare PDB-kvalitetsanalys.
Några av PDB_ex parametrar, som täckning och mall-ID kan också hittas från den SCHWEIZISKA MODELLEN databasen., Den andra viktiga parametrar som upplösning, ligander, och oliga tillstånd erhölls genom att analysera PDB_ex filer från RCSB PBF databas med (https://github.com/williamgilpin/pypdb). Den chainID för varje PDB_ex hämtades från SÅLLAR database68.
kvalitetsanalys av protein 3D-struktur
eftersom ett protein kan anslutas med flera PDB-filer i olika kvalitetsnivåer är det viktigt att filtrera bort PDB av låg kvalitet. I detta arbete användes främst fyra importparametrar, som är sequence identity (SI), sequence similarity (SS), resolution och QMEAN, för att klassificera PDB_homo., Genom att använda en enkel normalfördelning för att beskriva alla dessa parametrar för PDB_homo, kan ett Z-poängtest göras för att beräkna tröskelvärdet för P-värde inställt på 0,1. Avgränsningsvärdet för sekvensidentitet, sekvensens likhet, upplösning och QMEAN är 17.58, 0.25, 3.8 Å respektive -6.98. Som framgår av den schweiziska MODELLDATABASEN är dock en PDB_homo med QMEAN mindre än -4 av låg kvalitet. För att säkerställa PDB_homo av högre kvalitet i detta arbete återställs de kritiska parametrarna enligt följande: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31 och upplösning ≤ 3.4 Å.,
för att kontrollera om det finns ett mellanrum i pdb_ex-filerna hämtades alla resthaltsekvenser från PDB-databaser för varje kedja av en PDB-fil. På vissa punkter överensstämde dock inte de resthaltsekvenser som tillhandahållits av PDB-databaser med de resthaltsekvenser som finns i strukturen. För att lösa detta problem användes en Biopython package69 för att erhålla resthaltsekvenser för varje kedja av en PDB-fil. Därefter sprängdes alla resthaltsekvenser med ursprungliga proteinsekvenser för S., cerevisiae s288c från SGD med hjälp av Diamond66 för att kontrollera om det fanns luckor (missmatchningar eller mutationer) i resthaltsekvenserna från PDB_ex jämfört med de ursprungliga resthaltsekvenserna. Pdb_ex har valts med tröskelvärdena: pidentity = 100 och resolution ≤ 3.4 Å; annars kommer en pdb_homo från Schweizisk modelldatabas att användas.
etablera relationer av proteindomän, gen, protein och reaktioner (dGRPs)
i detta arbete användes pfam32.0 database70 (https://pfam.xfam.org/) huvudsakligen för att kommentera domäninformationen för proteiner från S., cerevisiae s288c. om en struktur omfattade alla rester av en viss domän, tilldelades den just den domänen. För varje domän sammanfattades koordinaterna för start och slut, namnet, domänfunktionsbeskrivningen, domäntypen, e_value, det relaterade PDB-ID och protein-ID. Enligt GPRs av Yeast8 kunde förhållandet mellan gen-ID och reaktions-ID erhållas. Efter detta kan domäninformationen kopplas till varje par gen och reaktion baserat på ID-kartläggningen.,
SNP samling och relativa koordinater kartläggning
från VCF-filen som tillhandahålls av de senaste 1011 jäststammar genom sekvenseringsprojects40 den homozygot SNP från den massiva datafilen (kompletterande Fig. 10a) extraherades först. SNPs av låg total kvalitet med djup är < 2.,0, kartläggning kvalitet <40, genotyp kvalitet<30, och genotyp djup< 5 filtrerades ut baserat på en serie standardparametrar enligt Broad Institute Genome analysis Toolkit (GATK)71.
efter filtrering kan den tillförlitliga SNP erhållas för varje stam. Data innehåller dessutom varje SNP: s stamnamn, kromosom, koordinater, ref och alt-nukleotidbas., I annoteringsfasen kommenterades SNP-typen och relaterade gennamn ytterligare baserat på koordinaterna och annoteringsinformationen för S. cerevisiae S. cerevisiae s288c-referensgenomet (version R64-1-1) från NCBI. Om SNP inte fanns på CDs-zonen av Gen, klassificerades den som en typ av ”INTEGENT”. Om inte denna klassificering, det var annars ges en gen systematiskt namn, i överensstämmelse med gennamnet format i Yeast8., Baserat på ovanstående SNP-anteckning valdes endast de som tillhör de metaboliska generna (genlista i Yeast8 och några andra metaboliska gener som inte finns i Yeast8 hittills). Enligt SNP-annoteringsinformationen och proteinsekvenserna av de relaterade generna klassificeras SNPs som sSNP (synonymt singelnukleotidpolymorfism) och nssnp (nsynonymous single nucleotid polymorfism). Det relativa antalet av sSNPs och nsSNPs för varje gen har beräknats, vilket är lika med den totala sSNPs eller nsSNPs dividerat med relaterade protein längd.,
före kartläggning måste koordinaterna för muterade rester från varje nsSNP beräknas. För det första kan de relativa koordinaterna för muterade rester på den ursprungliga proteinsekvensen erhållas baserat på koordinaterna för nsSNP på kromosomen. Efter detta, enligt koordinaterna kartläggning mellan de ursprungliga proteinsekvenserna och de relativa resthalterna koordinaterna i proteinstrukturen, kan de relativa koordinaterna för de muterade resthalterna i proteinstrukturerna uppskattas och användas i följande beräkning.,
KLUMPAR metod för att beräkna p-värden för mutation berikad det preliminära BUDGETFÖRSLAGET filer
med Hänvisning till Kamburov är method45, en WAP-poäng för att beräkna den parvisa avstånd mellan muterade restprodukter för ett protein 3D-struktur.
där DQ,r i denna artikel definieras som euklidiskt avstånd (I Å) mellan α-kol av två muterade rester., t definieras som ett ”mjukt” avståndströskel, vilket motsvarar 6 Å. NQ och nr är de normaliserade numren av prover innehåller mutationerna med hjälp av den efterföljande Sigmoidala Hill-funktionen:
där NQ är antalet prover med en missense mutation som påverkar resthalter q av proteinet och θ = 2 och m = 3 är parametrar för Kullfunktionen som styr den kritiska punkten (centrum) respektive brantheten hos sigmoidfunktionen., Formel (2) användes för att normalisera det provnummer som ingår i restmutationer q och r, vilka båda kan undvika effekterna av högre frekventa muterade rester i proven. En detaljerad beskrivning av varje formel finns i Kamburovs artikel45.
KLUMPMETODEN kan delas in i fyra steg. För det första förbereda den nödvändiga SNP-informationen och strukturinformationen för ett protein. För det andra, med det normaliserade mutationtalet i specifika positioner, beräkna WAP-poängen för proverna., Om man antar att den enhetliga fördelningen av mutationer över proteinresterna täcker den givna strukturen, beräkna varje WAP-poäng i 104 randomiseringar för att erhålla nollfördelningen. Under provtagningsprocessen har mutationsmängden resthalter som förekommer på slumpmässiga platser hållits på samma sätt som de ursprungliga värdena. Slutligen beräkna det rätta tailed p-värdet i null-fördelningen för de givna muterade proteinstrukturerna baserat på den ursprungliga WAP-poängen och alla de provtagna WAP-poängen., Det högra tailed p-värdet definieras som antalet prov med WAP-poäng större än det ursprungliga WAP-värdet, dividerat med det totala antalet prov.
för proteiner med P-värde mindre än 0,05 från stammar grupp av ”Bioetonal” och ”vin”, GO-anrikning analys med DAVID6.7 on-line webbtjänst72 utfördes.
Hotspot-analys av nssnp-mutation
hotspot-analysledningen för jäst avser huvudsakligen Niu et al.s work49. All SNP – och strukturinformation (liknande KLUMPSANALYSMETODEN) bereddes för en grupp stammar med specifika fenotyper., Innan klusteranalysen utfördes filtrerades de muterade Parade resthalterna av betydelse enligt reference49. Dessa viktiga Parade rester bör uppfylla följande tre kriterier: avståndet mellan två rester bör vara mindre än 10 Å för alla intramolekylära kluster analys; de två resterna bör separeras med minst 20 rester i den ursprungliga proteinsekvensen; och en permutation metod bör användas för att beräkna P-värdet för varje Parade rester (Eq. 9), med en tröskel inställd på 0,05.,
där N1 är antalet Parade rester med avståndet mindre än det i de parade resterna av target och n2 är det totala antalet Parade rester.
när de parade resthalterna av betydelse har erhållits, erhölls klustren som består av parade resthalter baserat på den oriktade grafteorin, som realiserades med hjälp av funktionen ” sönderdelas.diagram från R-paket igraph (https://igraph.org/)., För varje kluster kan dess närhet beräknas med hjälp av funktionen ” närhet.rest ” från R-paketet entiserve73. Den detaljerade principen kan också hittas i den ursprungliga forskningen49. Som det sista steget, när ett kluster uppskattades, beräknades P-värdet baserat på KLUMPSANALYSLEDNINGEN i detta arbete.
förutsägelse av mutationsfunktion
Tillväxttest med Biolog med olika substratkällor
Fenotype MicroArray (PM) – systemet användes för att testa tillväxten på varje kol -, kväve -, fosfor-och svavelkällor74., Totalt testades 190 kolkällor, 95 kvävekällor, 95 fosfor och svavelkällor. PM-förfarandena för S. cerevisiae s288c baserades på protokollet för Jästversion av PM-systemet.
Tillväxtprofilering i olika medier
totalt 14 kolkällor och 23 kvävekällor kombinerades med ortogonala experiment. Varje kolkälla och kvävekälla som användes i mediet var samma C-mol och N-mol som glukos (20 g L−1 glukos) och ammoniumsulfat (7,5 g L−1 (NH4)2so4). För alla andra substratkällor användes samma minimala medium (14.,4 g L−1 KH2PO4, 0,5 g L-1 MgSO4∙7h2o, spårmetall och vitaminlösningar)75. Stammar odlades i 96-brunnsplattor, och tillväxtprestanda bestämdes med Tillväxtprofiler 960 (Enzyscreen B. V., Heemstede, Nederländerna). Den maximala specifika tillväxttakten (µmax) beräknades med R—pakettillväxthraterna (https://github.com/tpetzoldt/growthrates).
statistisk analys
för två gruppjämförelser i detta arbete användes ett två tailed Wilcoxon rank sum-test.,
rapporteringssammanfattning
ytterligare information om forskningsdesign finns i Naturforskningsrapporteringssammanfattningen kopplad till denna artikel.