Un consens S. cerevisiae metabolice model Yeast8 și ecosistemul său cuprinzător pentru sondare metabolismul celular | Nature Communications

Urmărire modificări model cu versiunea de control

Git și GitHub au fost folosite pentru a dezvolta drojdie-BIJUTERIE într-un mod distinctiv. Git este folosit pentru a urmări orice modificări de drojdie-bijuterie, care sunt stocate online într-un depozit GitHub (Fig suplimentar. 1)., Structura de drojdie-GEM depozitul de pe GitHub conține următoarele trei directoarele principale:

(1) ComplementaryData, care conține date aferente adnotare și fiziologice de date utilizate pentru drojdie-GEM actualizări. Aceste date sunt în general stocate ca valoare separată de file (.tsv) format pentru o mai ușoară urmărire a modificărilor; (2) ComplementaryScripts, care conține toate scripturile folosite pentru a actualiza drojdie-GEM; (3) ModelFiles, care conține diferite formate de drojdie-BIJUTERIE pentru diverse aplicații. La.txt și.,formatele YML (YAML) fac convenabilă vizualizarea oricăror modificări ale clienților locali GitHub sau Git. La.formatul xml (SBML) facilitează importul modelului în diferite cutii de instrumente și limbaje de programare.ca pas standard, este necesară o comitere la actualizarea drojdiei-GEM. Pentru a face comiterile ușor de înțeles, se folosesc mesaje de comitere semantice (Fig. 1C). Pentru a permite dezvoltarea modelului paralel, se folosesc diferite ramuri ale drojdiei-GEM, inclusiv o ramură „master” și o ramură „devel” (dezvoltare)., Dezvoltatorii, și chiar și alte persoane din comunitate, pot crea noi sucursale din ramura de dezvoltare pentru a introduce modificările lor, și apoi să solicite să le fuzioneze înapoi prin pull-cereri. Aceste modificări sunt îmbinate doar cu ramura de dezvoltare și, la rândul lor, modificările din ramura de dezvoltare sunt îmbinate periodic cu ramura principală, care conține versiunile stabile ale modelului.,

General procedurile utilizate pentru a standardiza adnotare de metaboliți și reacții

Pentru nou adăugat reacțiile lor MetaNetX Urile au fost obținute în conformitate cu o căutare directă în MetaNetX56 baza de date folosind legate metabolit numele sau numărul CE informații. MetaNetX Id-uri au fost, de asemenea, obținut prin reacția ID-ul de cartografiere din KEGG35, Rhea57 și BioCyc33 baze de date. Reversibilitatea reacției a fost corectată pe baza bazelor de date BioCyc și Bigg58. ID-urile MetaNetX au fost, de asemenea, utilizate pentru a obține numărul ce pentru reacțiile corespunzătoare., Ca MetaNetX date nu au numele de reacție de informații, numele de fiecare nouă reacție a fost obținută pe baza reacției ID-ul de cartografiere în baze de date de KEGG, ModelSeed și BioCyc.

adnotarea compartimentului de reacții noi a fost rafinată pe baza informațiilor din bazele de date UniProt36 și SGD32. Adnotarea subsistemului a fost obținută mai întâi de la KEGG35, iar dacă nu s-au găsit subsisteme acolo, au fost utilizate informații de la BioCyc sau Reactome34. Dacă reacția nu a avut relații genetice, am presupus că a apărut în citoplasmă.,

Pentru toți metaboliții cuprinse în nou adăugat reacții, legate MetaNetX Urile au fost obținute pe baza reacției MetaNetX Id-uri. Dacă nu sunt disponibile, acestea au fost obținute prin maparea ID-urilor bazate pe ID-uri Kegg sau ID-uri ChEBI. Odată ce metabolitul MetaNetX IDs a fost obținut, charge, formula, KEGG IDs și ChEBI IDs au fost obținute pentru metabolitul corespondent pe baza adnotării metaboliților în MetaNetX.,

Model de actualizare de la Yeast7 să Yeast8

în Primul rând, toate adnotările privind metabolit ChEBI Id-uri și KEGG Id-uri (Tabel Suplimentar 8) au fost corectate în cea mai recentă versiune de consens GEM de drojdie (versiunea 7.6) pe baza metabolit adnotare disponibil în KEGG și ChEBI59. În plus, mai multe gene de la iSce92631 care nu au fost incluse în drojdie de 7,6 s-au adăugat, cu toate ca genele legate de procesele metabolice și de transport în SGD, BioCyc, Reactome, KEGG și UniProt. Principalele baze de date utilizate pentru curatarea modelelor pot fi găsite în tabelul suplimentar 9.,

în experimentele Biolog, tulpina S288c a fost cultivată pe 190 de surse de carbon, 95 de surse de azot, 59 de surse de fosfor și 35 de surse de sulf. Rezultatul a arătat că S288c ar putea crește pe 28 de surse de carbon, 44 de surse de azot, 48 de surse de fosfor și 19 surse de sulf. Pe baza acestor rezultate s-au adăugat noi reacții esențiale pentru a face modelul capabil să prezică creșterea pe substraturile conexe., Între timp, toate datele de metabolomică conținute în baza de date YMDB (metaboliți măsurați) și cele mai recente cercetări de metabolomică (tabelul suplimentar 10) au fost colectate și comparate cu cele din gem de drojdie. O adnotare standard a fost dată pentru toți acești metaboliți și o conductă a fost proiectată pentru a adăuga metaboliții în bijuterie fără a aduce noi metaboliți morți. Procedurile detaliate în curation model sunt disponibile în metodele suplimentare.

validarea modelului cu surse de date experimentale variate

pentru a compara acoperirea metaboliților, baza de date YMDB60 a fost analizată., Există 2024 de metaboliți pentru drojdie, dintre care 871 au fost măsurați în S. cerevisiae. Pentru fiecare metabolit, au fost atribuite ID-ul ChEBI și ID-ul KEGG și, pe baza acestora, ID-ul MetaNetX corespunzător a fost potrivit. Pentru metaboliții din Drojdie7 și Drojdie8, ID-ul MetaNetX al fiecărui metabolit a fost, de asemenea, obținut pe baza cartografierii id.

calitatea modelului este apoi evaluată pe baza preciziei (Eq. 1)și coeficientul de corelație Matthews’ (MCC) 61 (Eq. 2). Precizia variază de la 0 (cea mai proastă precizie) la 1 (cea mai bună precizie)., MCC variază de la -1 (dezacord total între predicție și observație) la + 1 (predicție perfectă).

$${\mathrm{Precizie}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TP}} + {\mathrm{TN}} + {\mathrm{FT}} + {\mathrm{FN}}}}$$

(1)

Pentru a efectua gene esențializare analiză, am utilizat genă esențială lista de Drojdie Ștergerea Proiectului, disponibil la http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, care a fost generat de experimente folosind un mediu complet. Precizia și MCC au fost calculate așa cum este descris mai sus.,creșterea aerobă și anaerobă simulată în condiții limitate de glucoză și azot a fost comparată cu datele de referință62. Următoarea procedură a fost utilizată pentru a simula creșterea chemostatului în condiții limitate de glucoză. În primul rând, setați limita inferioară a reacțiilor de absorbție a glucozei și O2 utilizând valori experimentale. Fluxurile de absorbție a glucozei și oxigenului sunt negative și, prin urmare, limitele inferioare sunt fixate pentru a reprezenta ratele maxime de absorbție. În al doilea rând, maximizați rata de creștere.,

pentru azot-condiții limitate, deoarece conținutul de proteine în biomasa scade dramatic sub azot-condiții limitate, biomasa compoziție a fost modificată în conformitate cu referință conditions63, apoi setați limita inferioară măsurată pentru NH3 și O2 absorbție reacții folosind valorile experimentale și în cele din urmă a maximiza rata de creștere.

Vizualizare de Yeast8

hărți de drojdie-GEM au fost întocmite pentru fiecare subsistem folosind cellDesigner 4.438 (Suplimentare Fig. 5). Scripturile r interne au fost utilizate pentru a produce harta fiecărui subsistem în mod automat pe baza Drojdiei8., Ulterior, aspectul grafic a fost ajustat manual în cellDesigner 4.4 pentru a îmbunătăți calitatea și întreaga drojdie hartă în SBGN format ar putea fi găsite în https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

Generație de ecYeast8

ecYeast8 model a fost generat bazează pe cea mai recentă versiune de GECKO toolbox, disponibil la https://github.com/SysBioChalmers/GECKO. Pentru fiecare reacție, algoritmul interogări toate cele necesare kcat valori de la BRENDA database64, în conformitate cu gene de adnotare și un set ierarhic de criterii, acordând prioritate substrat și specificitatea organismului.,ded la reacții în funcție de:

$$- \frac{1}{{k_{{\mathrm{pisica}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$

(3)

$$0 \le e_{\mathrm{i}} \le \a lăsat$$

(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{pisica}}}^{{\mathrm{ij}}} \cdot \a lăsat$$

(5)

în cazul în care vj reprezintă fluxul printr-o reacție j, ei reprezintă cantitatea de enzimă alocate pentru reacția j, Ei reprezintă concentrația totală de enzimă eu, și kcat reprezintă cea mai mare cifra de afaceri număr disponibil pentru enzima am și de reacție j., Procedura detaliată de generare a ecYeast8 poate fi găsită în materialul suplimentar al hârtiei GECKO 26.

Simulări cu ecYeast8

Pentru a prezice rata maxima de crestere sub diferite surse de carbon și azot folosind ecYeast8, următoarea procedură a fost folosit. În primul rând, eliminați orice constrângeri legate de ratele de absorbție aferente surselor de carbon și azot. Apoi, setați medii minime formate din sursele de carbon și azot aferente. În cele din urmă, simulați o maximizare a ratei de creștere, prin care valoarea optimă este fixată pentru minimizarea posterioară a utilizării totale a proteinei., Aceasta oferă o distribuție parcimonioasă a fluxului.

Pentru comparativă FVA între Yeast8 și o ecYeast8, rata maximă de dezvoltare optim de glucoză ratele de absorbție obținute cu ecYeast8 sunt folosite ca valoare fixă și limita superioară, respectiv, în original GEM, în scopul de a efectua o comparație echitabilă de flux variabilitatea de creștere același fenotip.

coeficienții de control al fluxului (FCC) sunt definiți ca un raport între o modificare relativă a fluxului de interes și o modificare relativă a kcat-ului corespondent de 0.,1%, care poate fi descris de:

unde vb și vup sunt fluxul inițial și fluxurile noi, respectiv atunci când kcat este crescut cu 0,1%.

Re-adnotare a pan-genomul de la 1011 drojdie genomului-secventiere proiect

Pentru a construi tigaie model de drojdie (panYeast8), cele mai recente de cercetare genomica de Peter et al a consulted40. În studiul lui Peter, 1011 genomi de tulpini de drojdie au fost secvențiați și analizați. Un pan-genom a fost obținut din toate aceste tulpini, format din De 6081 ORFs non-redundante de la S., cerevisiae s288c genomul de referință, și 1715 ORFs non-referință (Nrorfs) din celelalte tulpini. Pentru 7796 ORFs, a fost dat un panID pentru fiecare dintre ele. Prin comparație, 4940 ORFs sunt conservate în toate aceste tulpini, în timp ce 2846 ORFs sunt variabile în toate aceste tulpini. Adnotare de non-redundante 6081 Orf-urile pot fi luate direct de la cele mai recente S. cerevisiae S288C genomului adnotare, în timp ce legate de gene–proteine-reacții (GPR) pot fi obținute de la Yeast8 direct.

după Cum sa menționat în Petru articol sunt 774 nrORFs cu ortholog gene de la S. cerevisiae S288C genome40., Analiza blast, împreună cu adnotarea genelor KEGG web service35 și EggNOG web service65, au fost folosite pentru a verifica și îmbunătăți relația ortholog originală. Pentru a evalua calitativ relațiile genei ortholog, analiza bi-direcțională blast hit (BBH) a fost efectuată în continuare folosind Diamond66. Aici cel mai bun hit în analiza BBH cu pidentity mai mare de 80% au fost în cele din urmă alese și pregătite pentru o formulare panYeast8.

pentru a căuta în continuare noi reacții fiabile legate de nrORFs, au fost utilizate rezultatele adnotărilor de la Kegg și serviciul Web EggNOG., Conform cererii de format pentru cele două servicii web, fișierele protein fasta ale pan-genomului au fost încărcate pe KEGG (https://www.genome.jp/tools/kaas/) și EggNOG (http://eggnogdb.embl.de/#/app/emapper). Pentru adnotarea KEGG, a fost utilizată o metodă de atribuire BBH (bi-directional best hit) cu parametrii impliciți. Pentru adnotarea EggNOG, a fost utilizat HMMER cu parametrii impliciți. În adnotarea EggNOG, fiecare proteină va fi mapată pe KO ID și BiGG reaction ID, în timp ce pentru adnotarea KEGG, fiecare proteină va primi un ID ko unic., Deci, dacă ID-ul KO pentru o proteină este diferit între KEGG și EggNOG, atunci ID-ul KO dat de KEGG va fi preferat în analiza ulterioară. Dacă ID-ul KO a fost dat pentru o proteină de EggNOG, dar nu în KEGG, atunci această adnotare va fi folosită și pentru adnotarea pan-genomului. Când se obțin ID-urile KO, listele de Ko de la nrORFs sunt comparate cu Orf-urile de referință. Ulterior au fost extrase noi ID-uri KO pentru nrORFs. După aceasta, rxnID a fost obținut pe baza cartografierii KO-rxnID din Baza de date KEGG.,

Generație de panYeast8, coreYeast8 și tulpina specifice Pietre

Pentru ortholog gene (de exemplu, gena C) obținute de la pan-genomul adnotare, acestea pot fi comasate bazat pe gena de referință (de exemplu, gena A) funcția în modelul original în conformitate cu următoarele reguli: (1) dacă a sau B catalizează aceeași izoenzimă, GPR regula ar putea fi schimbat ‘O, B sau C, în panYeast8; (2) dacă a și B aparțin unui complex, GPR regulă ar trebui să fie actualizate de la a și B ” în ” (a și B) sau (C și B)’. În al doilea rând, 51 de reacții noi cu 13 gene noi au fost îmbinate în panYeast8., Pentru ca genele identității în model, în scopul de a reduce haosul, original gene Id-uri și gene nume din original Yeast8 au fost păstrate, în timp ce pentru nou adăugat gene, panIDs definite în Petru work9 au fost folosite pentru a reprezenta nume de gene.genele colapsate în pan-genomul, dar ar putea fi găsite în bijuteria de drojdie și vor fi înlocuite cu genele ortholog corespunzătoare definite în pan-genomul. ssgem-urile pentru 1011 tulpini au fost reconstruite pe baza panYeast8 împreună cu lista genelor specifice tulpinilor înrudite (Fig suplimentar. 6a)., O funcție Matlab a fost dezvoltată pentru a genera automat modele specifice tulpinii. Pe baza informațiilor actuale despre existența genei, dacă lipsește o genă dintr-un complex, atunci reacția este eliminată; și dacă o genă din două izoenzime lipsește, atunci reacția va fi păstrată, deși GPRs va fi actualizată pentru a elimina gena lipsă. După reconstrucție a 1011 ssGEMs, coreYeast8 a fost generat bazează pe reacții comune, gene, și metaboliți peste 1011 ssGEMs.,

Tulpina de clasificare bazat pe APC, arbore de decizie și analiza cluster

analiza cluster ierarhică bazată pe reacția existența în ssGEMs pentru tulpinile de drojdie se bazează pe pachet R–dendextend (https://CRAN.R-project.org/package = dendextend). Pentru analiza PCA a existenței genei (sau reacției) tulpinilor în ssGEMs, funcția R-prcomp a fost utilizată în acest articol. Arborele de decizie de clasificare a tulpinilor în funcție de rata maximă de dezvoltare pe diferite surse de carbon s-a efectuat utilizând pachet R–rpart (https://cran.r-project.org/web/packages/rpart/)., Pentru hyperparameters tuning, două R pachete—ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) și mlr (https://CRAN.R-project.org/package=mlr) au fost utilizate în continuare.

structura de Proteine de colectare pentru proYeast8DB

Pentru a stabili proteine de structură 3D modele pentru toate genele de drojdie GEM (și câteva metabolice genele nu sunt incluse în curent Yeast8), toate structurile proteice de S. cerevisiae S288C de la SWISS-MODEL database67 (https://Swissmodel.expasy.org) pe 20 iulie 2018 au fost descărcate., Numărul total este de aproximativ 20332 fișiere PPB inclusiv 8109 modelare omologie fișiere PPB (PDB_homo) și 12223 experimentale fișiere PPB (PDB_ex). Între timp, toate PDB_ex de S. cerevisiae s288c stocate în baza de date RCSB PDB54 au fost descărcate în continuare. Secvențele de proteine conținute în fiecare PDB_ex au fost, de asemenea, descărcate. Cele de mai sus două surse de fișiere PPB au fost comasate pentru a obține cuprinzătoare PPB fișiere de baze de date pentru S. cerevisiae S288C. Cu metabolice gene lista de S. cerevisiae S288C pentru a interoga PPB fișierele de date, cele mai multe gene, cu excepția a aproximativ 217 proteine (în Yeast8.,3) ar putea fi găsite în fișierele PPB aferente. Pentru a umple acest gol, serviciul Web model elvețian a fost utilizat în continuare pentru a construi PDB_homo pentru 217 proteine. Ca rezultat, fiecare proteină metabolică ar putea avea cel puțin un fișier PDB. Toate adnotările proteinelor originale, cum ar fi secvența reziduurilor și lungimea proteinei, au fost descărcate din Baza de date SGD.odată ce fișierele PPB au fost colectate, parametrii PDB-urilor au fost extrași și calculați pentru analiza calității., Cum pentru PDB_homo, implicit parametrii de ftp de la SWISS-MODEL de baza de date au fost obținute, și a inclus proteine UniProt ID-ul, proteina lungime, legate PPB ID-ul (conectat cu chainID), structura surse, coordonatele de proteine reziduuri acoperite cu PDB-structuri de acoperire, rezoluția, și QMEAN., Cum pentru PDB_homo, în afară de cele de mai sus implicit de parametrii de la SWISS-MODEL de bază de date, un număr mai mare de parametri au fost obținute prin parsarea PDB_homo atom de fișiere oferit de SWISS-MODEL cu un script python, care a inclus metode utilizate pentru a obține fișiere PPB, modelul șablon, proteine oliga stat, GMQE, QMN4, secvența de identitate (SID), și secvența de similitudine (SIM). În rezumat, fiecare PDB_homo conține 18 parametri pentru analiza ulterioară a calității PDB.

unii dintre parametrii PDB_ex, cum ar fi acoperirea și ID-ul șablonului pot fi găsiți și din Baza de date SWISS-MODEL., Ceilalți parametri importanți precum rezoluția, liganzii și starea oliga au fost obținuți prin parsarea fișierelor PDB_ex din Baza de date RCSB PDB folosind (https://github.com/williamgilpin/pypdb). ChainID – ul pentru fiecare PDB_ex a fost descărcat din Baza de date SIFTS68.deoarece o proteină ar putea fi conectată cu mai multe fișiere PDB în diferite niveluri de calitate, este esențial să se filtreze PDB de calitate scăzută. În această lucrare, în principal patru parametri de import, care sunt identitatea secvenței (SI), similitudinea secvenței (SS), rezoluția și QMEAN, au fost utilizați pentru a clasifica PDB_homo., Folosind o distribuție normală simplă pentru a descrie toți acești parametri ai PDB_homo, se poate face un test de scor Z pentru a calcula valoarea pragului pentru valoarea P setată la 0.1. Valoarea limită a identității secvenței, similitudinea secvenței, rezoluția și QMEAN sunt 17,58, 0,25, 3,8 Å și respectiv -6,98. După cum se menționează în baza de date SWISS-MODEL, cu toate acestea, un PDB_homo cu QMEAN mai mic decât -4 este de calitate scăzută. Pentru a asigura calitatea superioară a PDB_homo în această lucrare, parametrii critici sunt resetați după cum urmează: QMEAN ≥ -4, SI ≥ 0,25, SS ≥ 0,31 și rezoluție ≤ 3,4 Å.,

pentru a verifica dacă există un decalaj în fișierele PDB_ex, toate secvențele de reziduuri din bazele de date PDB pentru fiecare lanț al unui fișier PDB au fost descărcate. Cu toate acestea, în anumite puncte, secvențele de reziduuri furnizate de bazele de date PDB nu erau în concordanță cu secvențele de reziduuri conținute în structură. Pentru a rezolva această problemă, a fost utilizat un pachet Biopython69 pentru a obține secvențe de reziduuri pentru fiecare lanț dintr-un fișier PDB. Apoi, toate secvențele de reziduuri au fost sablate cu secvențe de proteine originale pentru S., cerevisiae S288C de la SGD cu ajutorul Diamond66 în scopul de a verifica dacă a existat lacune (nepotriviri sau mutații) în reziduuri secvențe din PDB_ex în comparație cu originalul reziduuri de secvențe. La PDB_ex a fost ales cu praguri: pidentity = 100 și o rezoluție de maximum de 3,4 Å; în caz contrar, un PDB_homo de la SWISS-MODEL de baze de date vor fi utilizate.

Stabilirea relațiilor de proteine domeniu, gene, proteine și reacții (dGRPs)

În această lucrare, Pfam32.0 database70 (https://pfam.xfam.org/) a fost folosit în principal pentru a adnota domeniul informații de proteine din S., cerevisiae S288C. dacă o structură a acoperit toate reziduurile dintr-un anumit domeniu, a fost atribuită acelui domeniu. Pentru fiecare domeniu, coordonatele de început și sfârșit, numele, descrierea funcției de domeniu, tipul de domeniu, e_value, ID-ul PPB aferent și ID-ul proteinei au fost rezumate. Conform GPRs din Yeast8, relația dintre ID-ul genei și ID-ul de reacție ar putea fi obținută. După aceasta, informațiile de domeniu ar putea fi conectate cu fiecare pereche de gene și reacție pe baza cartografierii ID.,

SNP colectare și coordonate relative de cartografiere

Pornind de la fișierul vcf oferit de recentul 1011 tulpini de drojdie genomul secvențiere projects40 homozigotă SNP din masive de date fișier (Suplimentare Fig. 10A) au fost extrase mai întâi. SNP-urile de calitate totală scăzută, cu adâncimea fiind <2.,0, de cartografiere de calitate <40, genotip de calitate < 30, și Genotipul adâncime <5 au fost filtrate bazat pe o serie de parametri standard în conformitate cu Institutul Broad analiza Genomului Toolkit (GATK)71.după filtrare, SNP fiabil poate fi obținut pentru fiecare tulpină. Datele conțin, de asemenea, numele tulpinii SNP, cromozomul, coordonatele, ref și baza nucleotidică alt., În faza de adnotare, tipul SNP și numele genelor aferente au fost adnotate în continuare pe baza coordonatelor și informațiilor de adnotare ale genomului de referință S. cerevisiae S. cerevisiae S288C (versiunea R64-1-1) de la NCBI. În cazul în care SNP nu a fost localizat pe zona CDS a genei, acesta a fost clasificat ca un tip de „INTEGENIC”. Dacă nu această clasificare, altfel i s-a dat un nume sistematic de gene, în concordanță cu formatul numelui genei din Drojdie8., Pe baza informațiilor de adnotare SNP de mai sus, au fost alese numai cele care aparțin genelor metabolice (lista genelor din Drojdie8 și alte gene metabolice care nu sunt conținute în Drojdie8 până acum). Potrivit SNP adnotare informații și secvențe de proteine legate de gene, Snp sunt clasificate ca sSNP (sinonim single nucleotide polymorphism) și nsSNP (nonsynonymous single nucleotide polymorphism). Relativă numere de sSNPs și nsSNPs pentru fiecare genă au fost calculate, care este egal cu totalul sSNPs sau nsSNPs împărțit de către legate de proteine lungime.,

înainte de cartografiere, trebuie calculate coordonatele reziduurilor mutante din fiecare nsSNP. În primul rând, coordonatele relative ale reziduurilor mutante pe secvența proteică originală pot fi obținute pe baza coordonatelor nsSNP pe cromozom. După aceasta, în funcție de maparea coordonatelor dintre secvențele proteice originale și coordonatele relative ale reziduurilor din structura proteinelor, coordonatele relative ale reziduurilor mutante din structurile proteice pot fi estimate și utilizate în următorul calcul.,

smocuri metoda pentru a calcula valorile P ale fișierelor PDB imbogatite mutatie

referindu-se la metoda Kamburov45, un scor WAP pentru a calcula distanțele perechi între reziduurile mutante pentru o structură de proteine 3d.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{q}},{\mathrm{r}}} {n_{\mathrm{q}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$

(7)

în cazul în Care dq,r în acest articol este definită ca distanța Euclidiană (în Å) între α atomi de carbon de vreo două mutații reziduuri., t este definit ca un prag de distanță „moale”, care este egal cu 6 Å. nq și nr sunt normalizate numere de probe conține mutații folosind urmat sigmoidal Deal funcția:

$$n_{\mathrm{q}} = \frac{{N_{\mathrm{q}}^m}}{{\theta ^m + N_{\mathrm{q}}^m}}$$

(8)

în cazul în Care Nq este numărul de eșantioane cu o mutatie missense impact reziduuri q de proteine și θ = 2 și m = 3 sunt parametri de Deal funcția de control punctul critic (centru) și panta funcția sigmoid, respectiv., Formula (2) a fost utilizată pentru a normaliza numărul eșantionului conținut în mutațiile reziduale q și r, ambele putând evita impactul reziduurilor mutante frecvente mai mari în probe. O descriere detaliată a fiecărei formule poate fi găsită în articolul lui Kamburov45.metoda smocuri poate fi împărțită în patru etape. În primul rând, pregătiți informațiile SNP necesare și informațiile despre structură ale unei proteine. În al doilea rând, cu numărul normalizat de mutație care apare în poziții specifice, calculați scorurile WAP ale probelor., Apoi, presupunând că distribuția uniformă a mutațiilor între reziduurile de proteine acoperă structura dată, calculați fiecare scor WAP în 104 randomizări pentru a obține distribuția nulă. În timpul procesului de eșantionare, numărul de mutații de reziduuri care apar în locații aleatorii a fost păstrat la fel ca valorile inițiale. În cele din urmă, calculați valoarea p cu coada dreaptă în distribuția nulă pentru structurile proteice mutante date pe baza scorului wap original și a tuturor scorurilor wap eșantionate., Valoarea p cu coada dreaptă este definită ca numărul de eșantioane cu scoruri WAP mai mari decât scorul WAP inițial, împărțit la numărul total de eșantioane.

Pentru proteinele cu valoare P mai mică de 0,05 din tulpini grup de „Bioethonal” și „Vin”, DU-te-îmbogățirea analiza folosind DAVID6.7 on-line web service72 fost efectuate.

analiza Hotspot a mutației nsSNP

conducta de analiză hotspot pentru drojdie se referă în principal la Niu și colab.’s work49. Toate informațiile SNP și structura (similar cu metoda de analiză a aglomerărilor) au fost pregătite pentru un grup de tulpini cu fenotipuri specifice., Înainte de a efectua analiza cluster, reziduurile pereche mutante de semnificație au fost filtrate conform referinței49. Aceste importante asociat reziduuri ar trebui să îndeplinească urmat trei criterii: distanța între două reziduuri ar trebui să fie mai mică decât 10 Å pentru toate intramoleculare grupuri de analiză; cele două reziduuri ar trebui să fie separate de cel puțin 20 de reziduuri în original secvență de proteine; și o permutare metodă ar trebui să fie utilizate pentru a calcula valoarea P pentru fiecare asociat reziduuri (Eq. 9), cu un prag stabilit la 0,05.,

$$P\;{\mathrm{valoare}} = \frac{{n_1}}{{n_2}}$$

(9)

în cazul în Care n1 este numărul de perechi de reziduuri cu distanța mai mică decât cea în perechi reziduuri de țintă și n2 reprezintă numărul total de perechi de reziduuri.

odată ce reziduurile pereche de semnificație au fost obținute, clusterele formate din reziduuri pereche au fost obținute pe baza teoriei grafurilor nedirecționate, care a fost realizată folosind funcția ‘ descompune.grafic’ din pachetul r igraph (https://igraph.org/)., Pentru fiecare cluster, apropierea sa poate fi calculată folosind funcția ” apropiere.rezidual ” din pachetul r entiserve73. Principiul detaliat ar putea fi găsit și în cercetarea originală49. Ca ultima etapă, când a fost estimat un cluster, valoarea P a fost calculată pe baza conductei de analiză a aglomerărilor din această lucrare.

Predicție de mutații funcția

Creștere de testare folosind Biolog cu diferite surse de substrat

Fenotip MicroArray (PM) sistemul a fost folosit pentru a testa creștere pe fiecare de carbon, azot, fosfor și sulf sources74., Au fost testate în total 190 de surse de carbon, 95 de surse de azot, 95 de surse de fosfor și sulf. Procedurile PM pentru S. cerevisiae S288C s-au bazat pe protocolul versiunii de drojdie a sistemului PM.un total de 14 surse de carbon și 23 de surse de azot au fost combinate prin experimente ortogonale. Fiecare sursă de carbon și de azot utilizate în mediu au fost aceleași c-mol și N-mol ca glucoza (20 g L−1 glucoză) și sulfatul de amoniu (7,5 g l−1 (NH4)2so4), respectiv. Pentru toate celelalte surse de substrat, a fost utilizat același mediu minimal (14.,4 g L−1 KH2PO4, 0,5 g L-1 MgSO4∙7h2o, soluții de urme de metal și vitamine)75. Tulpinile au fost cultivate în plăci cu 96 de godeuri, și performanța de creștere a fost determinată cu o Creștere Profiler 960 (Enzyscreen B. V., Heemstede, Olanda). Maximă specifică de creștere (µmax) a fost calculată cu pachet R—growthrates (https://github.com/tpetzoldt/growthrates).

analiză statistică

pentru două comparații de grup în această lucrare, a fost utilizat un test Wilcoxon rank sum cu două cozi.,

Rezumatul raportării

informații suplimentare despre proiectarea cercetării sunt disponibile în Rezumatul raportării cercetării naturii legat de acest articol.