konsensu S. cerevisiae metabolické model Yeast8 a jeho ekosystém pro komplexní sondování buněčný metabolismus

Sledování změny modelu s verzí

Git a GitHub byly použity na rozvoj kvasinek-GEM v poutavé způsobem. Git se používá ke sledování jakýchkoli změn kvasnicového drahokamu, které jsou uloženy online v úložišti GitHub (Doplňkový Obr. 1)., Struktura droždí-GEM úložiště na GitHub obsahuje následující tři hlavní adresáře:

(1) ComplementaryData, který obsahuje související databáze anotace a fyziologických dat použitých pro kvasinky-GEM aktualizace. Tato data jsou obecně uložena jako hodnota oddělená tabulátorem (.tsv) formátu pro snadnější sledování změn; (2) ComplementaryScripts, který obsahuje všechny skripty používané pro aktualizaci droždí-GEM; (3) ModelFiles, který obsahuje různé formáty droždí-GEM pro různé aplikace. The.txt a.,formáty yml (YAML)usnadňují vizualizaci změn v lokálních klientech GitHub nebo Git. The.formát xml (SBML) usnadňuje import modelu napříč různými toolboxy a programovacími jazyky.

jako standardní krok je nutné provést revizi při aktualizaci kvasnicového drahokamu. Pro snadné pochopení commitů se používají sémantické commit zprávy (doplňující Obr. 1c). Pro umožnění paralelního vývoje modelu se používají různé větve kvasnicového drahokamu, včetně větve „master“ a větve „devel“ (vývoj)., Vývojáři, a dokonce i další lidé z komunity, může vytvářet nové větve z vývojové větve zavést jejich změny, a pak požádat, aby je sloučit zpět přes pull-požadavky. Tyto změny jsou sloučeny pouze do vývojové větve a změny ve vývojové větvi jsou zase periodicky sloučeny do hlavní větve, která obsahuje stabilní verze modelu.,

Obecné postupů použitých ke standardizaci anotace metabolitů a reakce

Pro nově přidané reakce, jejich MetaNetX IDs byly získány podle přímého vyhledávání v MetaNetX56 databáze pomocí související metabolit jméno nebo číslo ES informace. ID MetaNetX byly také získány mapováním reakčních ID z databází kegg35, Rhea57 a BioCyc33. Reverzibilita reakce byla opravena na základě databází BioCyc a Bigg58. Id MetaNetX byly také použity k získání čísla EC pro odpovídající reakce., Jako MetaNetX databáze nemá reakci název informace, název každé nové reakce byl získán na základě reakce ID mapování v databázi KEGG, ModelSeed a BioCyc.

kompartmentová anotace nových reakcí byla zpřesněna na základě informací z databází UniProt36 a Sgd32. Anotace subsystému byla nejprve získána od KEGG35, a pokud tam nebyly nalezeny žádné subsystémy, místo toho byly použity informace z BioCyc nebo Reactome34. Pokud reakce neměla žádné genové vztahy, předpokládali jsme, že k ní došlo v cytoplazmě.,

u všech metabolitů obsažených v nově přidaných reakcích byly na základě reakčních ID Metanetxu získány související ID Metanetxu. Pokud nejsou k dispozici, byly získány mapováním ID na základě ID KEGG nebo ID ChEBI. Jakmile byly získány ID metabolit MetaNetX, byl získán náboj, vzorec, ID KEGG a ID ChEBI pro korespondentský metabolit na základě anotace metabolitů v Metanetxu.,

aktualizovat Model z Yeast7 na Yeast8

za Prvé, všechny popisy týkající metabolit ChEBI IDs a KEGG IDs (Doplňující Tabulka 8) byly opraveny v nejnovější verzi konsensus GEM droždí (verze 7.6) na základě metabolitu anotace k dispozici v KEGG a ChEBI59. Navíc, několik genů z iSce92631, které nebyly zahrnuty v kvasinkách 7.6 byly přidány, stejně jako u všech genů, které souvisí s metabolických procesů a dopravy v SGD, BioCyc, Reactome, KEGG a UniProt. Hlavní databáze používané pro modelovou kuraci lze nalézt v doplňkové tabulce 9.,

při pokusech o biologii byl kmen s288c pěstován na 190 zdrojích uhlíku, 95 zdrojích dusíku, 59 zdrojích fosforu a 35 zdrojích síry. Výsledek ukázal, že S288c by mohl růst na 28 uhlíkových zdrojích, 44 zdrojích dusíku, 48 zdrojích fosforu a 19 zdrojích síry. Na základě těchto výsledků byly přidány nové základní reakce, aby byl model schopen předpovídat růst na souvisejících substrátech., Mezitím, všechny metabolomika údaje obsažené v YMDB databáze (měřeno metabolity) a nejnovější metabolomika výzkumu (Doplňková Tabulka 10) byly shromážděny a ve srovnání s, že v droždí GEM. Pro všechny tyto metabolity byla uvedena standardní anotace a potrubí bylo navrženo tak, aby přidalo metabolity do drahokamu, aniž by přineslo nové mrtvé metabolity. Podrobné postupy v modelové kuraci jsou k dispozici v doplňkových metodách.

validace modelu s různými experimentálními zdroji dat

pro porovnání pokrytí metabolitů byla analyzována databáze YMDB60., Existuje 2024 metabolitů pro kvasinky, z nichž 871 bylo měřeno v s.cerevisiae. Pro každý metabolit byly přiřazeny ChEBI ID a Kegg ID a na jejich základě bylo uzavřeno odpovídající MetaNetX ID. U metabolitů z kvasnic 7 a kvasinek 8 byl METANETX ID každého metabolitu také získán na základě ID mapování.

kvalita modelu je pak vyhodnocena na základě přesnosti (Eq. 1) a Matthewsův korelační koeficient (MCC)61 (Eq. 2). Přesnost se pohybuje od 0 (nejhorší přesnost) do 1 (nejlepší přesnost)., MCC se pohybuje od -1 (celkový nesouhlas mezi predikcí a pozorováním) do + 1 (perfektní predikce).

$${\mathrm{Přesnost}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TP}} + {\mathrm{TN}} + {\mathrm{FT}} + {\mathrm{FN}}}}$$
(1)

provést gen, podstata analýzy jsme použili esenciální gen seznam z Droždí Smazání Projektu, k dispozici na http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, který byl vygenerován z experimentů pomocí kompletní médium. Přesnost a MCC byly vypočítány, jak je popsáno výše.,

simulovaný aerobní a anaerobní růst za podmínek omezených glukózou a dusíkem byl porovnán s referenčními údaji 62. Následující postup byl použit k simulaci růstu chemostatu v podmínkách omezených glukózou. Nejprve nastavte dolní mez reakcí glukózy a příjmu O2 pomocí experimentálních hodnot. Toky glukózy a kyslíku jsou negativní, a proto jsou dolní hranice fixovány tak, aby představovaly maximální míru příjmu. Za druhé maximalizovat tempo růstu.,

stejně Jako u dusíku-omezené podmínky, protože obsah bílkovin v biomasa klesne výrazně pod dusíku-omezené podmínky, složení biomasy byla změněna podle referenční conditions63, pak nastavte dolní mez měřené pro NH3 a O2 příjmu reakce pomocí experimentálních hodnot a konečně maximalizovat tempo růstu.

vizualizace kvasinek

mapy kvasnicového drahokamu byly nakresleny pro každý subsystém pomocí celldesigneru 4.438 (Doplňkový obr. 5). In-house R skripty byly použity k vytvoření mapy každého subsystému automaticky na základě Yeast8., Poté bylo rozvržení grafu ručně upraveno v celldesigneru 4.4, aby se zlepšila jeho kvalita a celá mapa kvasinek ve formátu SBGN byla nalezena v https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

Generace ecYeast8

ecYeast8 model byl vytvořen na základě nejnovější verzi GECKO nástrojů, k dispozici na https://github.com/SysBioChalmers/GECKO. Pro každou reakci, algoritmus dotazy všechny potřebné hodnoty kcat od BRENDA database64, podle gen, anotace a hierarchický soubor kritérií, přednostně na substrátu a organismu specifičnost.,ded se reakce podle:

$$- \frac{1}{{k_{{\mathrm{cat}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$
(3)

$$0 \le e_{\mathrm{i}} \le \left$$
(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{cat}}}^{{\mathrm{ij}}} \cdot \left$$
(5)

kde vj představuje tok prostřednictvím reakce j, ei představuje množství enzymu přiděleno za reakce, j, Ei představuje celkovou koncentraci enzymu já, a kcat představuje nejvyšší obrat k dispozici číslo pro enzym já a reakce j., Podrobný postup pro generování ecYeast8 lze nalézt v doplňkovém materiálu Gecko paper26.

Simulace s ecYeast8

předvídat maximální rychlost růstu za různých uhlíku a dusíku zdrojů pomocí ecYeast8, následující postup byl použit. Nejprve odstraňte veškerá omezení související míry příjmu zdrojů uhlíku a dusíku. Dále nastavte minimální média tvořená souvisejícími zdroji uhlíku a dusíku. Nakonec simulujte maximalizaci rychlosti růstu, přičemž optimální hodnota je stanovena pro zadní minimalizaci celkového využití bílkovin., To poskytuje parsimonious rozložení toku.

Pro srovnávací JEDNOTLIVÝCH mezi Yeast8 a ecYeast8, maximální rychlost růstu a optimální vychytávání glukózy sazby získané s ecYeast8 jsou používány jako pevné hodnoty a horní hranici, respektive, v původním GEM, aby bylo možné provést objektivní srovnání tok variabilita pro stejný růstový fenotyp.

koeficienty řízení toku (Fccs) jsou definovány jako poměr mezi relativní změnou toku zájmu a relativní změnou v korespondentské kcat 0.,1%, které lze popsat:

kde vb a vup jsou původní tok a nové toky, pokud se kcat zvýší o 0, 1%.

Re-anotace pan-genom z 1011 droždí genomu-sekvenování projektu

postavit pánev model droždí (panYeast8), nejnovější výzkum genomika Peter et al má consulted40. V Petrově studii bylo sekvenováno a analyzováno 1011 kvasinkových kmenů genomů. Ze všech těchto kmenů byl získán pan-genom složený z 6081 redundantních ORFs od S., cerevisiae s288c referenční genom, a 1715 non-reference ORFs (nrORFs) z ostatních kmenů. Pro 7796 ORFs, panID byl dán pro každou z nich. Pro srovnání, 4940 Orf jsou zachovány ve všech těchto kmenů, zatímco 2846 Orf jsou proměnné ve všech těchto kmenů. Anotace non-redundantní 6081 Orf mohou být přijata přímo z nejnovější S. cerevisiae S288C anotace genomu, zatímco související s gen–protein-reakce (GPR), mohou být získány z Yeast8 přímo.

Jak je uvedeno v Peterově článku, existuje 774 nrorf s ortologickými geny od S. cerevisiae s288c genome40., Analýza výbuchu, spolu s genovou anotací Kegg web service35 a EggNOG web service65, byly použity ke kontrole a zlepšení původního ortholog vztahu. Aby bylo možné kvalitativně vyhodnotit genové vztahy ortholog, byla pomocí Diamond66 dále provedena analýza bi-directional blast hit (BBH). Zde byl nakonec vybrán a připraven nejlepší hit v analýze BBH s pidentitem větším než 80% pro formulaci panYeast8.

pro další vyhledávání spolehlivých nových reakcí spojených s nrORFs byly použity výsledky anotace od KEGG a webové služby EggNOG., Podle žádosti o formát pro dvě webové služby byly soubory proteinu Fasta pan-genomu nahrány na KEGG (https://www.genome.jp/tools/kaas/) a EggNOG (http://eggnogdb.embl.de/#/app/emapper). Pro anotaci KEGG byla použita metoda přiřazení BBH (bi-directional best hit) s výchozími parametry. Pro anotaci vaječného koňaku byl použit HMMER s výchozími parametry. V anotaci vaječného koňaku bude každý protein mapován na ko ID a BiGG reaction ID, zatímco pro anotaci KEGG bude každému proteinu přiděleno jedinečné ko ID., Takže pokud ko ID pro protein se liší mezi KEGG a vaječný koňak, pak ko ID dané KEGG bude preferován v další analýze. Pokud byl ko ID podán pro jeden protein vaječným koňakem, ale ne v KEGG, bude tato anotace použita také pro anotaci pan-genomu. Po získání ID ko se seznamy KOs z nrORFs porovnávají s referenčními ORFs. Nové ko ID pro nrORFs byly následně extrahovány. Poté byl rxnID získán na základě mapování KO-rxnID z databáze KEGG.,

Generace panYeast8, coreYeast8 a kmen zvláštní Drahokamy

Pro ortholog geny (např. gen. C) získané z pan-genom anotace, mohou být sloučeny na základě referenční gen (např. gen. A) funkce v původním modelu podle následujících pravidel: (1) je-li A nebo B katalyzují stejný izoenzym, GPR pravidlo může být změněn na ‚A nebo B nebo C v panYeast8; (2) pokud a a B patří do komplexu, GPR pravidlo by mělo být aktualizováno z ‚a B‘ na ‚(a a B) nebo (C a B)‘. Za druhé, 51 nových reakcí se 13 novými geny bylo sloučeno do panYeast8., Pokud jde o identitu genů v modelu, za účelem snížení chaosu byly zachovány původní genové ID a genová jména z původního Kvasinku8, zatímco u nově přidaných genů byly panidy definované v Peterově práci9 použity k reprezentaci genového jména.

zhroucené geny v pan-genomu, ale lze je nalézt v kvasinkovém drahokamu a budou nahrazeny odpovídajícími ortologickými geny definovanými v pan-genomu. ssgemy pro 1011 kmenů byly rekonstruovány na základě panYeast8 spolu se seznamem specifických genů příbuzných kmenů (Doplňkový Obr. 6a)., Byla vyvinuta funkce Matlab, která automaticky generuje modely specifické pro kmen. Na základě aktuálních informací o existenci genu, pokud jeden gen z komplexu chybí, pak je reakce odstraněna; a pokud chybí Gen ze dvou izoenzymů, pak bude reakce zachována, i když GPRs budou aktualizovány, aby se odstranil chybějící gen. Po rekonstrukci 1011 ssGEMs byl coreYeast8 generován na základě běžných reakcí, genů a metabolitů napříč 1011 ssgem.,

Kmen klasifikace založené na PCA, rozhodovací strom a shluková analýza

hierarchické shlukové analýzy založené na reakci existence v ssGEMs pro kvasinkových kmenů je založena na R balíček–dendextend (https://CRAN.R-project.org/package = dendextend). Pro analýzu PCA genu založeného na kmenech (nebo reakci) v ssGEMs byla v tomto článku použita funkce R-prcomp. Klasifikace kmenů rozhodovacích stromů podle maximální rychlosti růstu u různých zdrojů uhlíku byla provedena pomocí balíčku R-rpart (https://cran.r-project.org/web/packages/rpart/)., Pro ladění hyperparametrů byly dále použity dva balíčky R-ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) a mlr (https://CRAN.R-project.org/package =mlr).

proteinová struktura kolekce pro proYeast8DB

Pro stanovení bílkovin 3D konstrukce modelů pro všechny geny z droždí GEM (a několik metabolických genů, které nejsou zahrnuty v aktuální Yeast8), všechny bílkovinné struktury S. cerevisiae S288C od SWISS-MODEL database67 (https://Swissmodel.expasy.org) dne 20. července 2018 byly staženy., Celkový počet je o 20332 PDB soubory, včetně 8109 modelování homologie PDB soubory (PDB_homo) a 12223 experimentální PDB soubory (PDB_ex). Mezitím byly všechny pdb_ex s. cerevisiae S288C uložené v databázi RCSB PDB54 dále staženy. Byly také staženy proteinové sekvence obsažené v každém PDB_ex. Výše uvedené dva zdroje PDB soubory byly sloučeny k získání komplexní PDB soubory databáze pro S. cerevisiae S288C. S metabolickým gen seznam S. cerevisiae S288C dotaz PDB soubory databáze, většina genů, s výjimkou zhruba 217 bílkoviny (v Yeast8.,3) lze nalézt v souvisejících souborech PDB. K vyplnění této mezery byla webová služba švýcarského modelu dále použita k vytvoření pdb_homo pro 217 proteinů. Výsledkem je, že každý metabolický protein může mít alespoň jeden soubor PDB. Všechny původní proteiny anotace, stejně jako sekvence reziduí a délky proteinu, byly staženy z databáze SGD.

jakmile byly shromážděny soubory PDB, parametry PDB byly extrahovány a vypočteny pro analýzu kvality., Jako pro PDB_homo, výchozí parametry z ftp SWISS-MODEL databáze byly získány, a je součástí proteinů UniProt ID, protein délka, související s PDB ID (spojené s chainID), struktura zdrojů, souřadnice, bílkovin, zbytků, na něž se s PDB struktury, pokrytí, rozlišení, a QMEAN., Jako pro PDB_homo, kromě výše výchozí parametry od SWISS-MODEL databáze, větší počet parametrů, které byly získány pomocí analýzy PDB_homo atom soubory poskytované SWISS-MODEL s in-house python skript, který zahrnoval metody použité k získání PDB soubory, model, šablona, protein oliga státu, GMQE, QMN4, sekvenční identity (SID), a sekvenční podobnosti (SIM). Stručně řečeno, každý PDB_homo obsahuje 18 parametrů pro další analýzu kvality PDB.

některé parametry PDB_ex, jako je pokrytí a ID šablony lze nalézt také z databáze SWISS-MODEL., Další důležité parametry, jako je rozlišení, ligandy, a oliga státu byly získány pomocí analýzy PDB_ex soubory z RCSB PDB databáze pomocí (https://github.com/williamgilpin/pypdb). ChainID pro každý PDB_ex byl stažen z SIFTS database68.

Analýza kvality proteinové 3D struktury

protože jeden protein by mohl být spojen s několika soubory PDB v různých úrovních kvality, je nezbytné odfiltrovat PDB nízké kvality. V této práci byly pro klasifikaci PDB_homo použity hlavně čtyři importní parametry, které jsou identita sekvence (SI), podobnost sekvencí (SS), rozlišení a QMEAN., Použitím jednoduchého normálního rozdělení pro popis všech těchto parametrů PDB_homo lze provést test skóre z pro výpočet prahové hodnoty pro hodnotu P nastavenou na 0.1. Cut-off hodnota identitu sekvence, sekvence, podobnosti, rozlišení, a QMEAN jsou 17.58, 0.25, 3.8 Å a -6.98, resp. Jak je uvedeno v databázi švýcarských modelů, pdb_homo s qmean menší než -4 má nízkou kvalitu. K zajištění PDB_homo vyšší kvality v této práci, kritické parametry jsou nastaveny následující: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31 a Rozlišení ≤ 3.4 Å.,

aby bylo možné zkontrolovat, zda v souborech PDB_ex existuje mezera, byly staženy všechny sekvence reziduí z databází PDB pro každý řetězec jednoho souboru PDB. V některých bodech však sekvence reziduí poskytované databázemi PDB nebyly v souladu se sekvencemi reziduí obsaženými ve struktuře. K vyřešení tohoto problému byl použit balíček Biopython package69 pro získání sekvencí reziduí pro každý řetězec jednoho souboru PDB. Dále byly všechny sekvence reziduí odpáleny původními proteinovými sekvencemi Pro s., cerevisiae s288c od SGD s pomocí Diamond66 za účelem kontroly, zda existují mezery (neshody nebo mutace) v sekvencích reziduí z PDB_ex ve srovnání s původními sekvencemi reziduí. PDB_ex byl vybrán s prahovými hodnotami: pidentity = 100 a rozlišení ≤ 3.4 Å; jinak bude použit pdb_homo z databáze švýcarských modelů.

Vytvoření vztahů bílkovin domény, gen, protein a reakce (dGRPs)

V této práci, Pfam32.0 database70 (https://pfam.xfam.org/) se převážně používá k anotaci informace o doméně proteinů z S., cerevisiae s288c. pokud struktura pokrývala všechny zbytky dané domény, byla přiřazena právě této doméně. Pro každou doménu byly shrnuty souřadnice začátku a konce, název, popis funkce domény, Typ domény, e_value, související ID PDB a ID proteinu. Podle GPRS Yeast8 lze získat vztah mezi genovým ID a reakčním ID. Poté by informace o doméně mohly být spojeny s každou dvojicí genů a reakcí na základě mapování ID.,

SNP sběr a relativní souřadnice mapování

Počínaje vcf soubor poskytována posledních 1011 kmeny kvasinek sekvenování genomů projects40 homozygotní SNP z masivní datový soubor (Doplňkový Obr. 10A) byly nejprve extrahovány. SNP nízké celkové kvality s hloubkou <2.,0, mapování kvality <40, genotyp kvalitní < 30, a Genotyp hloubka <5 byly odfiltrovány na základě řady standardních parametrů podle Broad Institute analýzy Genomu Toolkit (GATK)71.

po filtraci lze pro každý kmen získat spolehlivý SNP. Data dále obsahují název kmene každého SNP, chromozom, souřadnice, ref a ALT nukleotidovou základnu., Ve fázi anotace byly Typ SNP a související názvy genů dále anotovány na základě souřadnic a informací o anotaci referenčního genomu s.cerevisiae s. cerevisiae s288c (verze R64-1-1) od NCBI. Pokud SNP nebyl umístěn na CDS zóně genu, byl klasifikován jako typ „INTEGENIC“. Pokud tomu tak není tato klasifikace, bylo jinak dáno genové systematické jméno, v souladu s formátem genového jména v Yeast8., Na základě výše uvedených informací o anotaci SNP byly vybrány pouze ty, které patří do metabolických genů (seznam genů v Yeast8 a některé další metabolické geny, které dosud nebyly obsaženy v Yeast8u). Podle SNP anotace informace a protein sekvence příbuzných genů, Snp jsou klasifikovány jako sSNP (synonymem jednonukleotidový polymorfismus) a nsSNP (nonsynonymous jednonukleotidový polymorfismus). Relativní čísla sSNPs a nsSNPs pro každý gen byly vypočteny, což se rovná celkové sSNPs nebo nsSNPs děleno related protein délky.,

před mapováním je třeba vypočítat souřadnice mutovaných zbytků z každého nsSNP. Za prvé, relativní souřadnice mutovaných zbytků na původní proteinové sekvenci lze získat na základě souřadnic nsSNP na chromozomu. V návaznosti na to, podle souřadnic mapování mezi původním proteinových sekvencí a relativní rezidua souřadnice v proteiny, struktura, relativní souřadnice mutovaných reziduí v proteinových struktur mohou být odhadnuty a použity v následujícím výpočtu.,

SHLUKY metoda k výpočtu p-hodnot mutace obohacený PDB soubory

s Odkazem na Kamburov je method45, WAP skóre pro výpočet párového vzdáleností mezi mutovaných reziduí pro protein 3D struktury.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{q}},{\mathrm{r}}} {n_{\mathrm{q}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$
(7)

Kde dq,r v tomto článku je definována jako Euklidovská vzdálenost (v Å) mezi α-uhlíky dvou mutovaných reziduí., t je definován jako „měkký“ prah vzdálenosti, který se rovná 6 Å. nq a nr jsou normalizované počty vzorků obsahuje mutace pomocí následoval esovitě Hill funkce:

$$n_{\mathrm{q}} = \frac{{N_{\mathrm{q}}^m}}{{\theta ^m + N_{\mathrm{q}}^m}}$$
(8)

Kde Nq je počet vzorků s missense mutace vliv reziduí q proteinu a θ = 2 a m = 3 jsou parametry Kopce funkce kontroly kritických bod (střed) a strmost sigmoidní funkce, resp., Vzorec (2) byl použit k normalizaci počtu vzorků obsažených v mutacích reziduí q A r, z nichž oba mohou zabránit dopadu vyšších častých mutovaných reziduí ve vzorcích. Podrobný popis každého vzorce naleznete v článku Kamburova45.

metodu shluků lze rozdělit do čtyř kroků. Nejprve připravte potřebné informace o SNP a informace o struktuře jednoho proteinu. Za druhé, s normalizovaným číslem mutace vyskytujícím se ve specifických pozicích Vypočítejte WAP skóre vzorků., Dále, za předpokladu, že rovnoměrné rozložení mutací, přes zbytky bílkovin pokrývá danou strukturu, vypočítat každý WAP skóre v 104 randomisations získat null distribuce. Během procesu odběru vzorků byl počet reziduí vyskytujících se na náhodných místech stejný jako původní hodnoty. Nakonec Vypočítejte správnou hodnotu tailed P v nulové distribuci pro dané mutované proteinové struktury na základě původního WAP skóre a všech vzorkovaných WAP skóre., Správně sledovaná hodnota P je definována jako počet vzorků s WAP skóre větším než původní WAP skóroval, děleno celkovým počtem vzorků.

pro proteiny s hodnotou P menší než 0,05 ze skupiny kmenů „Bioethonal“ a „Wine“ byla provedena analýza GO-enrichment pomocí DAVID6.7 on-line web service72.

Hotspot analýza nssnp mutace

hotspot analýza potrubí pro kvasinky se týká hlavně Niu et al.je to práce. Všechny informace o SNP a struktuře (podobné metodě analýzy shluků) byly připraveny pro skupinu kmenů se specifickými fenotypy., Před provedením klastrové analýzy byly mutované spárované zbytky významnosti filtrovány podle reference49. Tyto důležité spárované zbytky by měly splňovat sledovala tři kritéria: vzdálenost mezi dvěma zbytky by měly být menší než 10 Å pro všechny intramolekulární klastrů analýza; dva zbytky by měly být odděleny alespoň 20 rezidua v původní proteinové sekvence; a permutace metoda by měla být použita pro výpočet P hodnoty pro každý spárovaný zbytky (Eq. 9), s prahem stanoveným na 0,05.,

$$P\;{\mathrm{value}} = \frac{{n_1}}{{n_2}}$$
(9)

Kde n1 je počet spárovaných reziduí s na vzdálenost menší, než v párovém zbytky cíl a n2 je celkový počet spárovaných zbytků.

Jakmile je spárováno zbytky význam byly získány, shluky tvoří spárované zbytky byly získány na základě neorientovaný graf teorie, která byla realizována pomocí funkce ‚rozkládat.graf ‚z R balíčku igraph (https://igraph.org/)., Pro každý cluster, jeho blízkost lze vypočítat pomocí funkce ‚ blízkost.zbytkový “ z balíčku R entiserve73. Podrobný princip lze nalézt i v původním výzkumu. Jako poslední krok, když byl odhadnut shluk, byla hodnota P vypočtena na základě analýzy shluků v této práci.

Predikce mutace funkce

Růst testu pomocí biologický tělo pracuje s různými substrátu zdrojů

Fenotyp MicroArray (PM), systém byl použit pro testování růstu na každém uhlíku, dusíku, fosforu a síry sources74., Bylo testováno celkem 190 zdrojů uhlíku, 95 zdrojů dusíku, 95 zdrojů fosforu a síry. Postupy PM pro S. cerevisiae S288C byly založeny na protokolu kvasinkové verze systému PM.

růstové profilování v různých médiích

celkem 14 zdrojů uhlíku a 23 zdrojů dusíku bylo kombinováno ortogonálními experimenty. Každý zdroj uhlíku a zdroj dusíku použitý v médiu byly stejné C-mol a N-mol jako glukóza (20 g l−1 glukóza) a síran amonný (7,5 g L−1 (NH4)2SO4). Pro všechny ostatní zdroje substrátu bylo použito stejné minimální médium (14.,4 g L−1 KH2PO4, 0,5 g L−1 MgSO4∙7H2O, roztoky stopových kovů a vitamínů)75. Kmeny byly pěstovány v deskách 96-well a růstový výkon byl stanoven pomocí růstového Profileru 960 (Enzyscreen B.v., Heemstede, Nizozemsko). Maximální specifická rychlost růstu (µmax) byla vypočtena s R package—growthrates (https://github.com/tpetzoldt/growthrates).

Statistická analýza

pro srovnání dvou skupin v této práci byl použit dvouocasý test Wilcoxon rank sum.,

souhrn zpráv

Další informace o návrhu výzkumu jsou k dispozici v souhrnu zpráv o výzkumu přírody propojeném s tímto článkem.

Share

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *