Tracking modell változások verzió ellenőrzés
Git pedig GitHub használták, hogy dolgozzon ki élesztő-GEM a követhető utat. A Git-et az élesztő-GEM bármilyen változásának nyomon követésére használják, amelyeket Online tárolnak a GitHub tárolóban (kiegészítő ábra. 1)., A GitHub élesztő-GEM adattárának szerkezete a következő három fő könyvtárat tartalmazza:
(1) ComplementaryData, amely tartalmazza a kapcsolódó adatbázis-megjegyzéseket és az élesztő-GEM frissítésekhez használt fiziológiai adatokat. Ezeket az adatokat általában tab-elválasztott értékként (.tsv) formátum a változások könnyebb nyomon követéséhez; (2) Kiegészítésaryscripts, amely tartalmazza az élesztő-GEM frissítéséhez használt összes szkriptet; (3) ModelFiles, amely különböző formátumok élesztő-GEM különböző alkalmazásokhoz. A.txt és.,az yml (YAML) formátumok kényelmessé teszik a GitHub vagy a Git helyi ügyfelek bármilyen változásának megjelenítését. A.az xml (sbml) formátum megkönnyíti a modell importálását különböző eszköztárak és programozási nyelvek között.
standard lépésként az élesztő-GEM frissítésekor elkötelezettségre van szükség. Ahhoz, hogy könnyen érthető, szemantikai elkövetni üzeneteket használnak (kiegészítő ábra. 1c). A párhuzamos modellfejlődés lehetővé tétele érdekében az élesztő-drágakő különböző ágait használják, köztük egy “mester” ágat és egy “devel” (development) ágat., A fejlesztők, de még más emberek, a közösség, hozhatunk létre új ágak a fejlesztési ág be a módosításokat, majd a kérést, hogy egyesíteni őket vissza keresztül húzza-kéri. Ezek a változások csak összeolvadnak a fejlesztési ágba, a fejlesztési ág változásait pedig rendszeresen egyesítik a master ágba, amely tartalmazza a modell stabil kibocsátásait.,
a metabolitok és reakciók megjegyzésének szabványosítására alkalmazott általános eljárások
az újonnan hozzáadott reakciók esetében a MetaNetX azonosítókat a MetaNetX56 adatbázisban a kapcsolódó metabolitnév vagy EK-számadatok alapján végzett közvetlen keresés alapján szerezték meg. A MetaNetX azonosítókat a KEGG35, a Rhea57 és a BioCyc33 adatbázisok reakcióazonosító leképezésével is előállították. A reakció reverzibilitását a BioCyc és a BiGG adatbázisok alapján korrigáltuk58. MetaNetX azonosítókat is használtak a megfelelő reakciók ek-számának megszerzéséhez., Mivel a MetaNetX adatbázis nem rendelkezik a reakciónévvel kapcsolatos információkkal, minden egyes új reakció nevét a KEGG, ModelSeed és BioCyc adatbázisokban található reakcióazonosító leképezés alapján kaptuk meg.
az UniProt36 és SGD32 adatbázisokból származó információk alapján finomították az új reakciók rekeszjegyzetét. Az alrendszer annotációját először a KEGG35-től szerezték be,és ha ott nem találtak alrendszert, akkor a BioCyc-től vagy a Reactome34-től származó információkat használták fel. Ha a reakciónak nincs génkapcsolata, azt feltételeztük, hogy a citoplazmában történt.,
az újonnan hozzáadott reakciókban található összes metabolit esetében a metanetx ID-ket a MetaNetX ID-k alapján állítottuk elő. Ha nem áll rendelkezésre, azokat KEGG azonosítók vagy ChEBI azonosítók alapján ID leképezéssel szerezték be. Miután a metanetx ID-ket megszerezték, a metanetx metabolitja esetében a metanetx metabolitok annotációja alapján a töltést, képletet, KEGG ID-ket és ChEBI ID-ket szerezték meg.,
a Modell frissítés Yeast7, hogy Yeast8
Először is, a kommentárok kapcsolatban metabolit ChEBI Azonosítók, illetve KEGG Azonosítók (Kiegészítő Tábla 8) kijavították a legújabb verzió a konszenzus GEM élesztő (verzió 7.6) alapján a metabolit jegyzet rendelkezésre KEGG, valamint ChEBI59. Ezenkívül az isce92631 számos olyan génjét is hozzáadták, amelyek nem szerepeltek az élesztő 7.6-ban, mint az SGD, A BioCyc, a Reactome, a KEGG és az UniProt metabolikus folyamataival és transzportjával kapcsolatos összes gén esetében. A modellkurációhoz használt fő adatbázisok a 9. kiegészítő táblázatban találhatók.,
A Biolog kísérletekben az S288c törzset 190 szénforráson, 95 nitrogénforráson, 59 foszfor-és 35 kénforráson termesztették. Az eredmény azt mutatta, hogy az S288c 28 szénforráson, 44 nitrogénforráson, 48 foszforforráson és 19 kénforráson nőhet. Ezen eredmények alapján új alapvető reakciókat adtak hozzá, hogy a modell képes legyen előrejelezni a növekedést a kapcsolódó szubsztrátumokon., Eközben az YMDB adatbázisban (mért metabolitok) és a legújabb metabolomikai kutatásokban (10.kiegészítő táblázat) szereplő összes metabolomikai adatot összegyűjtötték és összehasonlították az élesztő GEM-ével. Mindezen metabolitokra szabványos megjegyzést adtak, és egy csővezetéket úgy terveztek, hogy a metabolitokat hozzáadják a GEM-hez anélkül, hogy új zsákutca metabolitokat hoznának létre. Részletes eljárások modell kuráció állnak rendelkezésre a kiegészítő módszerek.
modell validáció változatos kísérleti adatforrásokkal
a metabolitok lefedettségének összehasonlításához az YMDB adatbázis60 elemzésre került., Az élesztőnek 2024 metabolitja van, amelyek közül 871-et mértek S. cerevisiae-ben. Minden metabolit esetében ChEBI ID-t és KEGG ID-t rendeltek hozzá,ezek alapján a megfelelő MetaNetX ID-t illesztették. Az Yeast7 és Yeast8 metabolitjai esetében az egyes metabolitok MetaNetX-azonosítóját ID-leképezés alapján is előállították.
a modell minőségét a pontosság (Eq. 1) és a Matthews korrelációs együtthatója (MCC)61 (Eq. 2). A pontosság 0-tól (legrosszabb pontosság) 1-ig (legjobb pontosság) terjed., MCC tartományok -1 (teljes nézeteltérés a becslés és megfigyelés) a + 1 (tökéletes becslés).
magatartás gén esszencialitását elemzés, régen az alapvető gén listát a Élesztő Törlés Projekt, elérhető a http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, amely generált kísérletek segítségével egy teljes közepes. A pontosságot és az MCC-t a fent leírtak szerint számították ki.,
a szimulált aerob és anaerob növekedést glükóz-korlátozott és nitrogén-korlátozott körülmények között összehasonlították a referenciaadatokkal62. A következő eljárást alkalmazták a kemosztát növekedésének szimulálására glükóz-korlátozott körülmények között. Először kísérleti értékek alkalmazásával állítsuk be a glükóz és az O2 felvételi reakciók alsó határát. A glükóz és az oxigénfelvétel negatív, ezért az alsó határértékeket úgy határozták meg, hogy a maximális felvételi arányt képviseljék. Másodszor maximalizálja a növekedési rátát.,
ami a nitrogénnel korlátozott körülményeket illeti, mivel a biomassza fehérjetartalma drámaian csökken nitrogénnel korlátozott körülmények között, a biomassza-összetételt referenciafeltételek63 szerint újraértékelték, majd az NH3 és az O2 felvételi reakciókra mért alsó határértéket kísérleti értékek alapján állították be, és végül maximalizálták a növekedési rátát.
Yeast8
az élesztő-GEM térképeit minden alrendszerhez a cellDesigner 4.438 (kiegészítő ábra. 5). A házon belüli r szkripteket arra használták, hogy az egyes alrendszerek térképét automatikusan elkészítsék a Yeast8 alapján., Ezt követően a grafikon elrendezését manuálisan módosítottuk a cellDesigner 4.4-ben a minőség javítása érdekében, az sbgn formátumú teljes élesztő térkép pedig a https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles – ban található.
az ecYeast8
generációja az ecYeast8 modellt a Gecko toolbox legújabb kiadása alapján hozták létre, elérhető a https://github.com/SysBioChalmers/GECKO. Minden reakció, az algoritmus lekérdezések minden szükséges kcat érték a BRENDA database64 szerint gén jegyzet, valamint egy hierarchikus kritériumok, elsőbbséget biztosítva hordozó, valamint a szervezet sajátosságait.,ded, hogy reakciók szerint:
amennyiben vj képviseli a fluxus keresztül reakció j ei képviseli a mennyiségű enzim elkülönített reakció j Ei képviseli a teljes koncentráció enzim, illetve kcat képviseli a legnagyobb forgalom a szám elérhető az enzim-én a reakció j., Az ecYeast8 előállításának részletes eljárása megtalálható a GECKO-papír kiegészítő anyagában26.
szimulációk ecYeast8
a különböző szén-és nitrogénforrások maximális növekedési ütemének ecYeast8 alkalmazásával történő előrejelzéséhez a következő eljárást alkalmazták. Először is távolítsa el a szén-és nitrogénforrások felvételére vonatkozó korlátozásokat. Ezután állítsa be a kapcsolódó szén-és nitrogénforrásokból álló minimális közeget. Végül szimulálja a növekedési ütem maximalizálását, amelynek során az optimális értéket rögzítik a teljes fehérjehasználat utólagos minimalizálásához., Ez egy parsimonious fluxus eloszlást biztosít.
Az összehasonlító FVA között Yeast8 egy ecYeast8, a maximális növekedési üteme, valamint az optimális glükóz felvételét árak kapott ecYeast8 használják rögzített érték a felső határ, illetve az eredeti GEM annak érdekében, hogy végre egy tisztességes összehasonlítása fluxus variabilitás az azonos növekedési fenotípus.
A Fluxusszabályozási együtthatók (Fccs) a kamatfolyadék relatív változásának és a 0-as levelező kcat relatív változásának aránya.,1%, amelyet a következő szavakkal lehet leírni:
ahol vb és vup az eredeti fluxus, illetve új fluxus, amikor a kcat 0,1% – kal növekszik.
A pan-Genom újragondolása az 1011 élesztőgomba-szekvenáló projektből
az élesztő pan modelljének (panYeast8) felépítéséhez, Peter et al legújabb genomikai kutatása40 konzultált. Péter tanulmányában 1011 élesztőtörzset szekvenáltak és elemeztek. Mindezekből a törzsekből egy pán-genomot nyertünk, amelyet 6081 nem redundáns ORF-ek alkottak az S-ből., cerevisiae S288C referencia genom, és 1715 nem referencia ORFs (nrorf) a többi törzsből. A 7796 ORF esetében mindegyikhez panidot adtak. Összehasonlításképpen, 4940 ORFs konzervált mindezen törzsek, míg 2846 ORFs változók az összes ilyen törzsek. A nem redundáns 6081 ORFs annotációja közvetlenül a legújabb S. cerevisiae S288C Genom annotációból származhat, míg a kapcsolódó gén–fehérje-reakciók (GPR) közvetlenül a Yeast8-ból nyerhetők.
A Péter-cikkben említettek szerint 774 nrorf található az S. cerevisiae s288c genome40 ortolog génjeivel., A robbanáselemzést a KEGG web service35 és az EggNOG web service65 génjegyzetével együtt alkalmazták az eredeti ortolog kapcsolat ellenőrzésére és javítására. Az ortolog génkapcsolatok kvalitatív értékeléséhez a Diamond66 alkalmazásával tovább végezték a kétirányú blaszt hit (BBH) elemzést. Itt a legjobb eredményt a BBH elemzés pidentity nagyobb, mint 80% végül választották, és készített egy panYeast8 készítmény.
az nrorf-okhoz kapcsolódó megbízható Új reakciók további kereséséhez a KEGG és az EggNOG webszolgáltatás kommentárjait használtuk., A két webszolgáltatás formátumigénye szerint a pan-Genom protein fasta fájljait feltöltötték a KEGG-re (https://www.genome.jp/tools/kaas/) és az EggNOG-ra (http://eggnogdb.embl.de/#/app/emapper). A KEGG annotációhoz BBH (kétirányú best hit) hozzárendelési módszert használtunk az alapértelmezett paraméterekkel. Az EggNOG megjegyzéshez Az alapértelmezett paraméterekkel rendelkező HMMER került felhasználásra. Az EggNOG annotációban minden fehérjét leképeznek a KO ID-re és a BiGG reaction ID-re, míg a KEGG annotációhoz minden fehérje egyedi KO ID-t kap., Tehát, ha egy fehérje KO-azonosítója eltér a KEGG és az EggNOG között, akkor a KEGG által megadott Ko-azonosítót előnyben részesítjük a további elemzésben. Ha a KO ID-t EggNOG adta egy fehérjéhez, de nem KEGG-ben, akkor ezt a megjegyzést a Pan-Genom megjegyzéshez is használják. A KO-azonosítók megszerzésekor az Nrorf-ok KOs-listáit összehasonlítjuk a referencia-ORF-ekkel. Ezt követően új KO-azonosítókat vontak ki az nrorf-okhoz. Ezt követően az rxnID-t Ko-rxnID leképezés alapján szereztük be a KEGG adatbázisból.,
Generációs panYeast8, coreYeast8, valamint a törzs különleges Drágaköveket
ortholog gének (pl. gén C), melyet a pán-genom jegyzet, lehet egyesített alapján a referencia-gén (pl. gén A) funkció az eredeti modell a következő szabályok szerint: (1) ha A A vagy A B katalizálja az azonos izoenzim, a GPR szabály lehet, hogy megváltozott, hogy ‘A A vagy A B, vagy a C’ a panYeast8; (2) ha Egy B tartoznak egy komplex, a GPR szabályt kell frissíteni a ‘B’ a ‘(B) vagy (C, B)’. Másodszor, 51 új reakciót 13 új génnel egyesítettek a panYeast8-ba., Ami a modell génazonosságát illeti, a káosz csökkentése érdekében megtartották az eredeti Yeast8 Génazonosítóit és génneveit, míg az újonnan hozzáadott gének esetében a Peter ‘ s work9-ben meghatározott panideket használták a génnév megjelenítésére.
A pan-Genom génjei, de megtalálhatók az élesztő GEM-ben, és helyettesítik a pan-genomban meghatározott megfelelő ortolog génekkel. az 1011 törzs ssgemjeit a panYeast8 alapján rekonstruálták a kapcsolódó törzsek specifikus génlistájával együtt(kiegészítő ábra. 6a)., Matlab funkciót fejlesztettek ki a törzsspecifikus modellek automatikus generálására. A jelenlegi génléti információk alapján, ha egy komplexből hiányzik egy gén, akkor a reakciót eltávolítják; és ha hiányzik két izoenzimből származó gén, akkor a reakciót megtartják, bár a GPRs frissítésre kerül a hiányzó gén eltávolítására. Az 1011-es ssGEMs rekonstrukciója után a coreYeast8 az 1011-es ssgem-Eken belüli közös reakciók, gének és metabolitok alapján jött létre.,
Törzsosztályozás PCA, döntési fa és klaszterelemzés alapján
az élesztőtörzsek ssgem-ekben való reakciólétén alapuló hierarchikus klaszterelemzés R csomagon alapul — dendextend (https://CRAN.R-project.org/package = dendextend). A PCA elemzése törzsek alapú gén (vagy reakció) létezését ssGEMs, R function-prcomp használták ebben a cikkben. A törzseknek a különböző szénforrások maximális növekedési rátája szerinti osztályozását az R csomag–rpart (https://cran.r-project.org/web/packages/rpart/) segítségével hajtottuk végre., A hiperparaméterek hangolásához további két R csomag—ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) és mlr (https://CRAN.R-project.org/package=mlr) került felhasználásra.
Fehérje szerkezet gyűjtemény proYeast8DB
megállapítani, hogy a fehérje a 3D szerkezet modellek az összes gén élesztő GEM (néhány anyagcsere-gének nem szerepel a jelenlegi Yeast8), a fehérje szerkezete S. cerevisiae S288C a SVÁJCI-MODELL database67 (https://Swissmodel.expasy.org) július 20-án 2018 letöltötték., A teljes szám körülbelül 20332 PDB fájl, beleértve a 8109 modellező homológia PDB fájlokat (PDB_homo) és 12223 kísérleti PDB fájlokat (PDB_ex). Eközben az rcsb PDB54 adatbázisban tárolt S. cerevisiae S288C összes PDB_ex-jét tovább töltötték le. Az egyes pdb_ex-ekben található fehérjeszekvenciákat szintén letöltötték. A PDB fájlok fenti két forrását egyesítették az S. cerevisiae S288C átfogó PDB fájlok adatbázisának megszerzéséhez. az S. cerevisiae S288C metabolikus génlistájával a PDB fájlok adatbázisának lekérdezéséhez, a legtöbb gén, nagyjából 217 fehérje kivételével (Yeast8-ban.,3) megtalálható a kapcsolódó PDB fájlokban. Ennek a résnek a kitöltéséhez a svájci modell webszolgáltatását tovább használták a PDB_homo 217 fehérjéhez. Ennek eredményeként minden metabolikus fehérje legalább egy PDB fájlt tartalmazhat. Az SGD adatbázisából letöltötték az összes eredeti protein annotációt, mint a maradék szekvenciát és a fehérje hosszát.
a PDB-fájlok összegyűjtése után a PDB-k paramétereit kivonták és a minőségelemzéshez kiszámították., Mint a PDB_homo, az alapértelmezett paramétereket, az ftp, a SVÁJCI-MODELL adatbázis kapott, valamint tartalmazza a fehérje UniProt ID, a fehérje hossza, a kapcsolódó PDB ID (kapcsolódó chainID), a szerkezet források, a koordináták a fehérjék maradékok borított EKT struktúrák, a lefedettség, a felbontás, QMEAN., Mint PDB_homo, a fentiek mellett az alapértelmezett paraméterek a SVÁJCI-MODELL adatbázis, nagyobb számú paraméterek kapott elemzés a PDB_homo atom fájlok, amelyet a SVÁJCI-MODELL egy ház python script, amely tartalmazza a módszereket használni ahhoz, hogy az EKT fájlokat, a modell sablon, a fehérje oliga állam, a GMQE, QMN4, sorrend azonosító (SID), illetve szekvencia hasonlóság (SIM). Összefoglalva, minden PDB_homo 18 paramétert tartalmaz a további PDB minőségelemzéshez.
a PDB_EX paramétereinek egy része, például a lefedettség és a sablonazonosító is megtalálható a SWISS-MODEL adatbázisból., A többi fontos paraméter, mint a felbontás, ligandumok, oliga állam kapott elemzésével pdb_ex fájlokat RCSB PDB adatbázis segítségével (https://github.com/williamgilpin/pypdb). Az egyes PDB_ex-ek chainID-jét a SIFTS adatbázisból töltötték le68.
A fehérje 3D szerkezetének minőségi elemzése
mivel egy fehérje több PDB fájlhoz kapcsolódhat különböző minőségi szinteken, elengedhetetlen az alacsony minőségű PDB kiszűrése. Ebben a munkában elsősorban négy importparamétert, azaz szekvencia-identitást (SI), szekvencia-hasonlóságot (SS), felbontást és QMEANT használtak a PDB_homo osztályozására., A pdb_homo összes paraméterének leírásához egy egyszerű normál eloszlás segítségével Z pontszámvizsgálatot lehet végezni a 0.1-nél beállított p érték küszöbértékének kiszámításához. A szekvencia-identitás, a szekvencia-hasonlóság, a felbontás és a QMEAN cut-off értéke 17,58, 0,25, 3,8 Å, illetve -6,98. Amint azt a svájci modell adatbázis, azonban egy PDB_homo a QMEAN kisebb, mint -4 alacsony minőségű. Annak érdekében, hogy a pdb_homo jobb minőségű legyen ebben a munkában, a kritikus paramétereket a következőképpen állítjuk vissza: QMEAN ≥ -4, SI ≥ 0,25, SS ≥ 0,31, felbontás ≤ 3,4 Å.,
annak ellenőrzése érdekében, hogy van-e rés a PDB_ex fájlokban, a PDB adatbázisokból származó összes maradékszekvenciát letöltötték egy PDB fájl minden láncára. Néhány ponton azonban a PDB adatbázisok által szolgáltatott maradékszekvenciák nem voltak összhangban a szerkezetben található maradékszekvenciákkal. A probléma megoldásához egy Biopython package69-et használtunk, hogy maradékszekvenciákat kapjunk egy PDB fájl minden láncához. Ezután az összes maradék szekvenciát az S eredeti fehérjeszekvenciáival felrobbantották., cerevisiae S288C az SGD-től Diamond66 segítségével annak ellenőrzése érdekében, hogy a pdb_ex maradékszekvenciáiban hiányosságok (eltérések vagy mutációk) vannak-e az eredeti maradékszekvenciákkal összehasonlítva. A pdb_ex-et a következő küszöbértékekkel választottuk: pidentity = 100 és felbontás ≤ 3,4 Å; ellenkező esetben a svájci MODELLADATBÁZISBÓL származó PDB_homo kerül felhasználásra.
a fehérjetartalom, a gén, a fehérje és a reakciók (dGRPs)
kapcsolatainak meghatározása ebben a munkában a Pfam32.0 adatbázis70 (https://pfam.xfam.org/) elsősorban az S-ből származó fehérjék domaininformációinak annotálására használták., cerevisiae S288C. ha egy szerkezet egy adott domain összes maradékát lefedte,akkor azt a doménhez rendelték. Minden tartomány esetében a start és end koordinátáit, a nevet, a domain függvényleírást, a domain típust, az e_value-t, a kapcsolódó PDB ID-t és a protein ID-t foglaltuk össze. A Yeast8 GPRs szerint a génazonosító és a reakcióazonosító közötti összefüggés megállapítható. Ezt követően a domaininformációk az ID leképezés alapján minden egyes génpárhoz és reakcióhoz kapcsolódhatnak.,
SNP collection and relative coordinates mapping
kezdve a VCF fájl által nyújtott legutóbbi 1011 élesztő törzsek genomes sequencing projects40 a homozigóta SNP a massive data file(kiegészítő ábra. 10A) először kivonták. Az alacsony teljes minőségű SNP-k, amelyek mélysége <2.,0, <40, genotípusminőség < 30, genotípusmélység <5 standard paraméterek sorozata alapján szűrtük ki a Broad Institute Genom analysis Toolkit (Gatk)71 szerint.
szűrés után a megbízható SNP minden egyes törzsre előállítható. Az adatok továbbá tartalmazzák az SNP törzsnevét, kromoszómáját, koordinátáit, ref és alt nukleotid bázisát., Az annotációs fázisban az SNP-típust és a kapcsolódó génneveket az NCBI S. cerevisiae S. cerevisiae s288c referencia-genomjának (R64-1-1 verzió) koordinátái és annotációs adatai alapján tovább kommentálták. Ha az SNP nem a gén CDs-zónájában található, akkor az “INTEGÉN” típusba sorolták. Ha nem ezt a besorolást, akkor egyébként kapott egy gén szisztematikus nevet, amely összhangban van a génnév formátumával Yeast8-ban., A fenti SNP annotációs információk alapján csak a metabolikus génekhez tartozó géneket (az Yeast8 génlistáját és néhány más, az Yeast8-ban eddig nem szereplő metabolikus gént) választották ki. Az SNP annotációs információk és a kapcsolódó gének fehérjeszekvenciái szerint az SNP-k az sSNP (egy nukleotid polimorfizmus szinonimája) és az nsSNP (nem azonos nevű egy nukleotid polimorfizmus) kategóriába tartoznak. Kiszámítottuk az egyes génekre vonatkozó ssnp-k és nssnp-k relatív számát, ami egyenlő az összes ssnp-vel vagy nssnp-vel, osztva a kapcsolódó fehérje hosszával.,
a feltérképezés előtt ki kell számítani az egyes nssnp-k mutált maradékainak koordinátáit. Először is, a mutált maradványok relatív koordinátái az eredeti fehérjeszekvencián az nssnp koordinátái alapján érhetők el a kromoszómán. Ezt követően az eredeti fehérjeszekvenciák és a fehérjeszerkezetben lévő relatív maradékkoordináták közötti koordináták alapján a mutált maradványok relatív koordinátái a fehérjeszerkezetekben becsülhetők és felhasználhatók a következő számításban.,
CLUMPS módszer a mutációval dúsított PDB fájlok p-értékeinek kiszámításához
Kamburov módszerére Utalva45, egy WAP pontszám a mutált maradványok közötti páros távolságok kiszámításához egy fehérje 3D struktúrához.
ahol a DQ,r ebben a cikkben a két mutált maradék α-karbonjai közötti euklideszi távolság (Å-ban)., a t a “puha” távolságküszöb, amely 6 Å-nak felel meg. nq meg nr a normalizált számok a mintákat tartalmaz a mutációk segítségével követte sigmoidal Hill funkció:
Amennyiben Nq a minták száma egy missense mutáció hatással maradék q, a fehérje pedig θ = 2 m = 3 paramétereket a Domb funkció vezérlése a kritikus pont (központ), majd meredek a szigmoid függvény, ill., A (2) képletet a q és r maradékmutációkban található minta számának normalizálására használták, amelyek egyaránt elkerülhetik a mintákban a nagyobb gyakoriságú mutált maradékok hatását. Az egyes képletek részletes leírása megtalálható Kamburov cikkében45.
a CSOMÓMÓDSZER négy lépésre osztható. Először készítsük el a szükséges SNP-információkat és egy fehérje szerkezeti információit. Másodszor, a meghatározott pozíciókban előforduló normalizált mutációs számmal számolja ki a minták WAP-pontszámait., Ezután, feltételezve, hogy a mutációk egyenletes eloszlása a fehérjemaradványok között lefedi az adott struktúrát, számítsa ki az egyes WAP-pontszámokat 104 randomizációban A null-Eloszlás elérése érdekében. A mintavételi folyamat során a véletlenszerű helyeken előforduló maradványok mutációs számát az eredeti értékekkel megegyezően tartották. Végül számítsa ki a megfelelő farkú P értéket a null eloszlásban az adott mutált fehérjeszerkezetekre az eredeti WAP pontszám és az összes mintában szereplő WAP pontszám alapján., A jobb farkú P értéket úgy definiáljuk, mint az eredeti WAP pontszámnál nagyobb WAP pontszámmal rendelkező minták számát, osztva a minták teljes számával.
A “Bioetonal” és a “bor” törzsekből származó 0,05-nél kisebb P értékű fehérjék esetében a DAVID6.7 on-line webszolgáltatást alkalmazó Go-dúsítási elemzést végeztek72.
Nssnp mutáció Hotspot elemzése
az élesztő hotspot analízis csővezetéke elsősorban Niu et al.a munka49. Az összes SNP-és struktúrainformációt (hasonlóan a csomósodás elemzési módszeréhez) specifikus fenotípusú törzsek egy csoportjára állították elő., A klaszterelemzés elvégzése előtt a mutált párosított szignifikáns maradékokat a reference49 szerint szűrtük. Ezek fontos párosított maradékok kell felelnie a követ három kritérium: a távolság a két maradékok kisebbnek kell lennie, mint 10 Å minden így a klaszterek elemzés; a két maradékok külön kell választani legalább 20 maradékok az eredeti fehérje szekvencia; valamint egy permutáció módszert kellene alkalmazni, hogy számítsuk ki a P-érték minden párosított maradékok (Eq. 9), a küszöbérték 0,05.,
ahol n1 a párosított maradványok száma a target párosított maradékaiban kisebb távolsággal, és n2 a párosított maradványok teljes száma.
Ha a párosított maradékok jelentősége nyerték, a klaszterek tette fel a párosított maradékok voltak nyert alapján a irányítatlan gráf elmélet, amely valósult használata a funkció nem indul oszlásnak.gráf ” az R csomagból igraph (https://igraph.org/)., Minden egyes klaszter esetében a közelsége a “közelség” függvény segítségével számítható ki.maradék” az R csomag entiserve73. A részletes elv megtalálható az eredeti kutatásban49 is. Az utolsó lépésként, amikor egy klasztert becsültünk, a P értéket a munka CSOMÓELEMZÉSI csővezetéke alapján számítottuk ki.
mutációk előrejelzése funkció
növekedési teszt különböző szubsztrátforrásokkal rendelkező Biolog felhasználásával
a fenotípusú mikroarray (PM) rendszert használták a növekedés tesztelésére minden szén -, nitrogén -, foszfor-és kénforráson74., Összesen 190 szénforrást, 95 nitrogénforrást, 95 foszfort és kénforrást vizsgáltak. Az S. cerevisiae S288C PM eljárásai a PM rendszer élesztő változatának protokollján alapultak.
növekedési profilalkotás különböző közegekben
összesen 14 szénforrást és 23 nitrogénforrást kombináltak ortogonális kísérletekkel. A közegben használt összes szénforrás és nitrogénforrás azonos c-mol és n−mol volt a glükózzal (20 g l−1 glükóz) és ammónium-szulfáttal (7,5 g L-1 (NH4)2SO4). Az összes többi szubsztrátforráshoz ugyanazt a minimális közeget használtuk (14.,4 g L-1 KH2PO4, 0,5 g L-1 MgSO4∙7h2o, nyomokban fém és vitamin oldatok)75. A törzseket 96-kútlemezen termesztették, a növekedési teljesítményt pedig 960 növekedési Profilerrel határozták meg (Enzyscreen B. V., Heemstede, Hollandia). A maximális fajlagos növekedési rátát (µmax) az R csomag—growthrates (https://github.com/tpetzoldt/growthrates) segítségével számítottuk ki.
statisztikai elemzés
két csoport összehasonlításához ebben a munkában két farkú Wilcoxon rank sum tesztet használtunk.,
jelentési összefoglaló
a kutatástervezéssel kapcsolatos további információk az e cikkhez kapcsolódó Nature Research Reporting összefoglalóban találhatók.