a consensus S. cerevisiae metabolic model Yeast8 and its ecosystem for comprehensively probing cellular metabolism (Polski)

Tracking model changes with version control

Git i GitHub zostały użyte do opracowania drożdży w sposób identyfikowalny. Git jest używany do śledzenia wszelkich zmian w yeast-GEM, które są przechowywane online w repozytorium GitHub (dodatkowe rys. 1)., Struktura repozytorium yeast-GEM na Githubie zawiera następujące trzy główne katalogi:

(1) ComplementaryData, która zawiera powiązane adnotacje do bazy danych i dane fizjologiczne używane do aktualizacji yeast-GEM. Dane te są zazwyczaj przechowywane jako wartość oddzielona tabulatorami (.tsv) format ułatwiający śledzenie zmian; (2) ComplementaryScripts, który zawiera wszystkie skrypty używane do aktualizacji drożdży-GEM; (3) ModelFiles, który zawiera różne formaty drożdży-GEM dla różnych aplikacji. The.txt i.,formaty YML (YAML) ułatwiają wizualizację wszelkich zmian w lokalnych klientach GitHub lub Git. The.format xml (SBML) ułatwia importowanie modelu do różnych skrzynek narzędziowych i języków programowania.

jako standardowy krok, commit jest potrzebny podczas aktualizacji yeast-GEM. Aby commity były łatwe do zrozumienia, używane są semantyczne komunikaty commit (rys. 1c). Aby umożliwić równoległy rozwój modelu, stosuje się różne gałęzie drożdży-GEM, w tym gałąź „master” i gałąź „devel” (rozwój)., Deweloperzy, a nawet inne osoby ze społeczności, mogą tworzyć nowe gałęzie z gałęzi deweloperskiej, aby wprowadzić swoje zmiany, a następnie żądać ich ponownego połączenia poprzez pull-requesty. Zmiany te są łączone tylko z gałęzią rozwojową, a z kolei zmiany w gałęzi rozwojowej są łączone okresowo z gałęzią master, która zawiera stabilne wydania modelu.,

ogólne procedury stosowane w celu standaryzacji adnotacji metabolitów i reakcji

w przypadku nowo dodanych reakcji ich identyfikatory MetaNetX uzyskano zgodnie z bezpośrednim wyszukiwaniem w bazie danych MetaNetX56 przy użyciu powiązanej nazwy metabolitu lub informacji o numerze we. Identyfikatory MetaNetX otrzymywano również przez mapowanie identyfikatorów reakcji z baz danych KEGG35, Rhea57 i BioCyc33. Odwracalność reakcji została skorygowana na podstawie danych BioCyc i Bigg58. Identyfikatory MetaNetX były również używane do uzyskania numeru EC dla odpowiednich reakcji., Ponieważ baza danych MetaNetX nie posiada informacji o nazwie reakcji, nazwa każdej nowej reakcji została uzyskana na podstawie mapowania ID reakcji w bazach KEGG, ModelSeed i BioCyc.

adnotacja przedziału nowych reakcji została dopracowana na podstawie informacji z baz danych UniProt36 i SGD32. Adnotacja podsystemu została najpierw uzyskana z KEGG35, a jeśli nie znaleziono tam podsystemów, zamiast niej wykorzystano informacje z BioCyc lub Reactome34. Jeśli reakcja nie miała związków genowych, założyliśmy, że wystąpiła w cytoplazmie.,

dla wszystkich metabolitów zawartych w nowo dodanych reakcjach, powiązane identyfikatory MetaNetX uzyskano na podstawie identyfikatorów metanetx reakcji. Jeśli nie są dostępne, zostały uzyskane poprzez mapowanie ID na podstawie identyfikatorów KEGG lub identyfikatorów ChEBI. Po uzyskaniu identyfikatorów metabolitu MetaNetX otrzymano ładunek, wzór, identyfikatory KEGG i identyfikatory ChEBI dla odpowiedniego metabolitu na podstawie adnotacji metabolitów w MetaNetX.,

aktualizacja modelu z Yeast7 do Yeast8

Po Pierwsze, wszystkie adnotacje dotyczące identyfikatorów metabolitu ChEBI i identyfikatorów KEGG (dodatkowa tabela 8) zostały poprawione w najnowszej wersji konsensusu GEM of yeast (Wersja 7.6) w oparciu o adnotację metabolitu dostępną w KEGG i ChEBI59. Dodatkowo dodano kilka genów z iSce92631, które nie zostały włączone do drożdży 7.6, podobnie jak wszystkie geny związane z procesami metabolicznymi i transportem w SGD, BioCyc, Reactome, KEGG i UniProt. Główne bazy danych wykorzystywane do modelowania można znaleźć w tabeli dodatkowej 9.,

w doświadczeniach biologicznych szczep S288c uprawiano na 190 źródłach węgla, 95 źródłach azotu, 59 źródłach fosforu i 35 źródłach siarki. Wynik wykazał, że S288c może rosnąć na 28 źródłach węgla, 44 źródłach azotu, 48 źródłach fosforu i 19 źródłach siarki. Na podstawie tych wyników dodano nowe istotne reakcje, aby model był w stanie przewidzieć wzrost na pokrewnych podłożach., Tymczasem, wszystkie metabolomics dane zawarte w bazie danych ymdb (mierzone metabolity) i najnowszy metabolomics badania (dodatkowa Tabela 10) zbierali i porównywali w drożdże GEM. Standardową adnotację podano dla wszystkich tych metabolitów i rurociąg został zaprojektowany, aby dodać metabolity do GEM bez wprowadzania żadnych nowych martwych metabolitów. Szczegółowe procedury w modelowej kuracji dostępne są w metodach dodatkowych.

Walidacja modelu z różnymi źródłami danych doświadczalnych

aby porównać zasięg metabolitów, przeanalizowano bazę danych YMDB60., Istnieją 2024 metabolity drożdży, wśród których 871 mierzono w S. cerevisiae. Dla każdego metabolitu przypisano identyfikator ChEBI i identyfikator KEGG i na ich podstawie dopasowano odpowiedni identyfikator MetaNetX. W przypadku metabolitów pochodzących z Drożdży7 i Drożdży8, MetaNetX ID każdego z metabolitów uzyskano również na podstawie mapowania ID.

jakość modelu jest następnie oceniana na podstawie dokładności (Eq. 1) oraz współczynnik korelacji Matthewsa (MCC) 61 (Eq. 2). Zakres dokładności od 0 (najgorsza dokładność) do 1 (Najlepsza dokładność)., MCC waha się od -1 (całkowita różnica zdań między prognozą a obserwacją) do + 1 (doskonała prognoza).

$${\mathrm{TP}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TN}} + {\mathrm{FT}} + {\mathrm{FN}}}}$$
(1)

aby przeprowadzić Gen analiza istotności, użyliśmy listy genów z projektu delecji drożdży, dostępnej pod adresem http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, która została wygenerowana w wyniku eksperymentów z użyciem kompletnego medium. Dokładność i MCC zostały obliczone jak opisano powyżej.,

symulowany wzrost tlenowy i beztlenowy w warunkach o ograniczonej zawartości glukozy i azotu porównano z danymi referencyjnymi 62. Poniższa procedura została zastosowana do symulacji wzrostu chemostatu w warunkach ograniczonych glukozą. Najpierw ustawić dolną granicę reakcji wychwytu glukozy i O2 przy użyciu wartości doświadczalnych. Przepływy wychwytu glukozy i tlenu są ujemne i dlatego niższe granice są ustalone, aby reprezentować maksymalne szybkości wychwytu. Po drugie maksymalizacja tempa wzrostu.,

Jeśli chodzi o warunki o ograniczonej zawartości azotu, ponieważ zawartość białka w biomasie drastycznie spada w warunkach o ograniczonej zawartości azotu, skład biomasy został przeskalowany zgodnie z warunkami referencyjnymi63, a następnie ustawiono dolną granicę zmierzoną dla reakcji wychwytu NH3 i O2 przy użyciu wartości doświadczalnych i ostatecznie zmaksymalizowano tempo wzrostu.

Wizualizacja Yeast8

mapy drożdży-GEM zostały sporządzone dla każdego podsystemu przy użyciu cellDesigner 4.438 (dodatkowe rys. 5). Wewnętrzne Skrypty R były używane do tworzenia map każdego podsystemu automatycznie na podstawie Yeast8., Następnie układ graficzny został skorygowany ręcznie w cellDesigner 4.4 w celu poprawy jego jakości, a cała mapa drożdży w formacie SBGN można było znaleźć w https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

generacja ecYeast8

model ecyeast8 został wygenerowany na podstawie najnowszej wersji Gecko toolbox, dostępnej pod adresemhttps://github.com/SysBioChalmers/GECKO. Dla każdej reakcji algorytm wyszukuje wszystkie niezbędne wartości kcat z bazy danych BRENDY64, zgodnie z adnotacją genów i hierarchicznym zestawem kryteriów, nadając priorytet specyficzności substratowi i organizmowi.,ded to reactions according to:

$$- \frac{1}{{k_{{\mathrm{cat}}}^{{\mathrm{IJ}}}}}} v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$
(3)

$$0 \le e_{\mathrm{i}} \Le \left$$
(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{IJ}}}^{{\mathrm{IJ}}} \cdot \Left$$
(5)

gdzie VJ reprezentuje strumień przez reakcję j, ei reprezentuje ilość enzymu przydzieloną do reakcji j, ei reprezentuje całkowite stężenie enzymu i, a kcat reprezentuje najwyższą liczbę obrotów dostępną dla enzymu i i reakcji J., Szczegółową procedurę generowania ecYeast8 można znaleźć w materiale uzupełniającym gazety GECKO 26.

symulacje z ecYeast8

aby przewidzieć maksymalne tempo wzrostu w różnych źródłach węgla i azotu przy użyciu ecYeast8, zastosowano następującą procedurę. W pierwszej kolejności należy usunąć wszelkie ograniczenia związane ze współczynnikami absorpcji źródeł węgla i azotu. Następnie Ustaw Minimalne media składające się z powiązanych źródeł węgla i azotu. Na koniec symulować maksymalizację szybkości wzrostu, przy czym optymalna wartość jest ustalona dla tylnej minimalizacji całkowitego zużycia białka., Zapewnia to parsymoniczny rozkład strumienia.

dla porównawczych wartości FVA pomiędzy Yeast8 i ecYeast8, maksymalne tempo wzrostu i optymalne tempo wychwytu glukozy uzyskane za pomocą ecYeast8 są używane jako odpowiednio stała wartość i górna granica w pierwotnym GEM w celu przeprowadzenia rzetelnego porównania zmienności strumienia dla tego samego fenotypu wzrostu.

współczynniki kontroli strumienia (FCC) są definiowane jako stosunek między względną zmianą strumienia zainteresowania i względną zmianą korespondenta kcat wynoszącą 0.,1%, które można opisać za pomocą:

gdzie VB i vup są oryginalnym strumieniem, a new Flux odpowiednio, gdy kcat jest zwiększony o 0.1%.

ponowna adnotacja pan-genomu z projektu sekwencjonowania genomu drożdży 1011

aby skonstruować model Pan drożdży (panYeast8), najnowsze badania genomiki przeprowadzone przez Petera i wsp. W badaniu Petera zsekwencjonowano i przeanalizowano 1011 genomów szczepów drożdży. Ze wszystkich tych szczepów otrzymano pan-Genom, składający się z 6081 nie nadmiarowych Orfów z S., cerevisiae s288c reference genome, i 1715 non-reference ORFs (nrORFs) od innych szczepów. Na 7796 ORFs, panID została podana dla każdego z nich. Dla porównania, 4940 ORFs są zachowane we wszystkich tych szczepach, podczas gdy 2846 ORFs są zmiennymi we wszystkich tych szczepach. Adnotacja nie nadmiarowych 6081 ORFs może być pobrana bezpośrednio z najnowszej adnotacji genomu S. cerevisiae S288C, podczas gdy powiązane reakcje genowo–białkowe (GPR) można uzyskać bezpośrednio z Yeast8.

jak wspomniano w artykule Petera, istnieje 774 nrORFs z genami ortholog z genomu S. cerevisiae S288C40., Analiza wybuchu, wraz z annotacją genową KEGG Web service35 i EggNOG web service65, zostały wykorzystane do sprawdzenia i poprawy oryginalnej relacji ortholog. W celu jakościowej oceny relacji genów ortologicznych przeprowadzono analizę BBH (bi-directional blast hit) z wykorzystaniem Diamond66. Tutaj najlepszy hit w analizie BBH z pidentity większym niż 80% zostały ostatecznie wybrane i przygotowane dla preparatu panYeast8.

do dalszego wyszukiwania nowych reakcji związanych z nrORFs, wykorzystano wyniki adnotacji z KEGG i serwisu internetowego ajerkoniak., Zgodnie z żądaniem formatowania dla dwóch serwisów internetowych, pliki protein fasta z pan-genomu zostały przesłane do KEGG (https://www.genome.jp/tools/kaas/) I Ajerkoniaku (http://eggnogdb.embl.de/#/app/emapper). W przypadku adnotacji KEGG zastosowano metodę przypisywania BBH (bi-directional best hit) z domyślnymi parametrami. Do adnotacji Ajerkoniaku użyto HMMER z domyślnymi parametrami. W adnotacji Ajerkoniaku każde białko zostanie odwzorowane na KO ID i Bigg reaction ID, podczas gdy w adnotacji KEGG każde białko otrzyma unikalny Ko ID., Jeśli więc identyfikator ko dla białka jest inny między KEGG i ajerkoniakiem, to identyfikator Ko podany przez KEGG będzie preferowany w dalszej analizie. Jeśli identyfikator KO został podany dla jednego białka przez ajerkoniak, ale nie w KEGG, to ta adnotacja będzie również używana do adnotacji pan-genomu. Po uzyskaniu identyfikatorów KO, listy Ko z nrORFs są porównywane z referencyjnymi ORFs. Następnie pozyskano nowe identyfikatory KO dla nrORFs. Następnie rxnID uzyskano na podstawie mapowania KO-RXNID z bazy danych KEGG.,

generowanie perełek panYeast8, coreYeast8 i specyficznych dla szczepu

dla genów ortologicznych (np. Gen C) uzyskanych z adnotacji pan-genomu, można je łączyć w oparciu o funkcję genu referencyjnego (np. gen a) w oryginalnym modelu zgodnie z następującymi zasadami: (1) Jeśli a lub B katalizują ten sam izoenzym, reguła GPR może zostać zmieniona na „a lub B lub C” w panYeast8; (2) Jeśli a i B należą do kompleksu, reguła GPR powinna zostać zaktualizowana z „a i b” do ” (A i B) lub (C i b)”. Po drugie, 51 nowych reakcji z 13 nowymi genami połączono w panYeast8., Jeśli chodzi o tożsamość genów w modelu, w celu zmniejszenia chaosu zachowano oryginalne identyfikatory genów i nazwy genów z oryginalnego Yeast8, podczas gdy dla nowo dodanych genów, panidy zdefiniowane w pracy Peter ' A9 zostały użyte do reprezentowania nazwy genu.

ssGEMs dla 1011 szczepów zostały zrekonstruowane na podstawie panYeast8 wraz z listą genów specyficznych dla pokrewnych szczepów (dodatkowa rys. 6a)., Funkcja Matlab została opracowana w celu automatycznego generowania modeli specyficznych dla szczepu. W oparciu o aktualne informacje o istnieniu genów, jeśli brakuje jednego genu z kompleksu, reakcja jest usuwana; a jeśli brakuje genu z dwóch izoenzymów, reakcja zostanie zachowana, chociaż GPRs zostanie zaktualizowany, aby usunąć brakujący Gen. Po rekonstrukcji 1011 ssGEMs, coreYeast8 został wygenerowany na podstawie wspólnych reakcji, genów i metabolitów w 1011 ssGEMs.,

klasyfikacja szczepów oparta na PCA, drzewie decyzyjnym i analizie klastrów

hierarchiczna analiza klastrów oparta na istnieniu reakcji w ssGEMs dla szczepów drożdży oparta jest na pakiecie r–dendextend (https://CRAN.R-project.org/package = dendextend). Do analizy PCA genów opartych na szczepach (lub reakcji) w ssGEMs, funkcja r-prcomp została użyta w tym artykule. Klasyfikacja drzew decyzyjnych szczepów według maksymalnego tempa wzrostu dla różnych źródeł węgla została przeprowadzona przy użyciu pakietu R–rpart (https://cran.r-project.org/web/packages/rpart/)., Do strojenia hiperparametrów zastosowano dodatkowo dwa pakiety R—ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) i mlr (https://CRAN.R-project.org/package=mlr).

Kolekcja struktury białka dla proYeast8DB

aby ustalić modele struktury białka 3D dla wszystkich genów z drożdży GEM (i kilku genów metabolicznych nieuwzględnionych w aktualnym Yeast8), wszystkie struktury białka S. cerevisiae S288C z bazy SWISS-MODEL database67 (https://Swissmodel.expasy.org) w dniu 20 lipca 2018 zostały pobrane., Całkowita liczba wynosi około 20332 plików PDB, w tym 8109 plików PDB z homologacją modelowania (PDB_homo) i 12223 eksperymentalnych plików PDB (PDB_ex). Tymczasem wszystkie PDB_ex S. cerevisiae s288c przechowywane w bazie RCSB PDB54 zostały dalej pobrane. Pobrano również sekwencje białek zawarte w każdym PDB_ex. Powyższe dwa źródła plików PDB zostały połączone w celu uzyskania kompleksowej bazy plików PDB dla S. cerevisiae S288C.z listą genów metabolicznych S. cerevisiae S288C do kwerendy plików PDB bazy danych, Większość genów, z wyjątkiem około 217 białek (w Yeast8.,3) można znaleźć w powiązanych plikach PDB. Aby wypełnić tę lukę, do budowy PDB_homo dla 217 białek użyto dodatkowo modelu szwajcarskiego. W rezultacie każde białko metaboliczne może mieć co najmniej jeden plik PDB. Wszystkie oryginalne adnotacje białek, takie jak Sekwencja reszt i długość białek, zostały pobrane z bazy danych SGD.

gdy pliki PDB zostały zebrane, parametry PDB zostały wyodrębnione i obliczone do analizy jakości., Jeśli chodzi o PDB_homo, uzyskano domyślne parametry z ftp bazy danych modelu szwajcarskiego i obejmowały one białko UniProt ID, długość białka, powiązane ID PDB (połączone z chainID), źródła struktury, współrzędne pozostałości białek objętych strukturami PDB, Zasięg, Rozdzielczość i QMEAN., Jeśli chodzi o PDB_homo, oprócz powyższych domyślnych parametrów z bazy danych SWISS-MODEL, większa liczba parametrów została uzyskana przez parsowanie plików Atom PDB_homo dostarczonych przez SWISS-MODEL za pomocą własnego skryptu Pythona, który zawierał metody używane do uzyskania plików PDB, szablon modelu, stan oliga białka, GMQE, QMN4, tożsamość sekwencji (SID) i podobieństwo sekwencji (sim). Podsumowując, każdy PDB_homo zawiera 18 parametrów do dalszej analizy jakości PDB.

niektóre parametry PDB_ex, takie jak coverage i template ID można również znaleźć w bazie danych SWISS-MODEL., Inne ważne parametry, takie jak rozdzielczość, ligandy i stan oliga, zostały uzyskane przez parsowanie plików PDB_ex z bazy danych RCSB PDB przy użyciu (https://github.com/williamgilpin/pypdb). Łańcuch dla każdego PDB_ex został pobrany z bazy danych SIFTS68.

Analiza jakościowa struktury białka 3D

ponieważ jedno białko może być połączone z kilkoma plikami PDB o różnych poziomach jakości, istotne jest odfiltrowywanie PDB o niskiej jakości. W pracy tej do klasyfikacji PDB_homo użyto głównie czterech parametrów importowych, takich jak: Sequence identity (SI), sequence similarity (SS), resolution i QMEAN., Używając prostego rozkładu normalnego do opisania wszystkich tych parametrów PDB_homo, można wykonać test wyniku Z, aby obliczyć wartość progową dla wartości p ustawionej na 0,1. Wartość odcięcia tożsamości sekwencji, podobieństwa sekwencji, rozdzielczości i QMEAN wynoszą odpowiednio 17,58, 0,25, 3,8 Å i -6,98. Jak podano w bazie danych SWISS-MODEL, jednak PDB_homo z QMEAN mniejszym niż -4 jest niskiej jakości. Aby zapewnić wyższą jakość PDB_homo w tej pracy, parametry krytyczne są resetowane w następujący sposób: QMEAN ≥ -4, SI ≥ 0,25, SS ≥ 0,31 i rozdzielczość ≤ 3,4 Å.,

aby sprawdzić, czy istnieje luka w plikach PDB_ex, pobrano wszystkie sekwencje pozostałości z baz danych PDB dla każdego łańcucha jednego pliku PDB. W niektórych punktach jednak sekwencje pozostałości dostarczone przez bazy danych PDB nie były zgodne z sekwencjami pozostałości zawartymi w strukturze. Aby rozwiązać ten problem, użyto pakietu Biopython package69 do uzyskania sekwencji pozostałości dla każdego łańcucha jednego pliku PDB. Następnie wszystkie sekwencje pozostałości zostały wysadzone oryginalnymi sekwencjami białkowymi dla S., cerevisiae S288C z SGD przy pomocy Diamond66 w celu sprawdzenia, czy istniały luki (niedopasowania lub mutacje) w sekwencjach pozostałości z PDB_ex w porównaniu z oryginalnymi sekwencjami pozostałości. PDB_ex został wybrany z progami: pidentity = 100 i rozdzielczość ≤ 3,4 Å; w przeciwnym razie zostanie użyty PDB_homo z bazy SWISS-MODEL.

ustalanie relacji domeny białkowej, genu, białka i reakcji (dGRPs)

w tej pracy baza danych Pfam32.0e70 (https://pfam.xfam.org/) była używana głównie do opisywania informacji o domenie białek z S., cerevisiae S288C. jeśli struktura obejmowała wszystkie pozostałości danej domeny, to była przypisana do tej właśnie domeny. Dla każdej domeny podsumowano współrzędne początku i końca, nazwę, opis funkcji domeny, typ domeny, e_value, powiązane ID PDB i ID białka. Zgodnie z GPRs Yeast8 można uzyskać zależność między ID genu i ID reakcji. Następnie informacje o domenie mogą być połączone z każdą parą genów i reakcją na podstawie mapowania ID.,

zbiór SNP i mapowanie współrzędnych względnych

począwszy od pliku vcf dostarczonego przez ostatnie projekty sekwencjonowania genomów szczepów drożdży 101140 homozygotyczny SNP z masywnego pliku danych (dodatkowe rys. 10a) zostały po raz pierwszy wydobyte. SNP o niskiej jakości całkowitej z głębokością 2.,0, jakość odwzorowania <40, jakość genotypu < 30, i głębokość genotypu <5 zostały odfiltrowane na podstawie szeregu standardowych parametrów zgodnie z Broad Institute Genome analysis Toolkit (GATK)71.

Po filtracji można uzyskać niezawodny SNP dla każdego szczepu. Dane zawierają ponadto nazwę szczepu SNP, chromosom, współrzędne, ref i zasadę nukleotydu alatowego., W fazie adnotacji Typ SNP i pokrewne nazwy genów były dalej adnotowane na podstawie współrzędnych i informacji o adnotacji genomu referencyjnego S. cerevisiae S. cerevisiae S288C (wersja R64-1-1) z NCBI. Jeśli SNP nie znajdował się w strefie genu CDS, był klasyfikowany jako rodzaj „INTEGENIC”. Jeśli nie ta klasyfikacja, w przeciwnym razie nadano mu systematyczną nazwę genu, zgodną z formatem nazwy genu w Yeast8., Na podstawie powyższej informacji o adnotacji SNP wybrano tylko te należące do genów metabolicznych (lista genów w Yeast8 i niektóre inne geny metaboliczne nie zawarte do tej pory w Yeast8). Według informacji o adnotacji SNP i sekwencji białek powiązanych genów, SNP są klasyfikowane jako sSNP (synonimiczny polimorfizm pojedynczego nukleotydu) i nsSNP (nonsynonimiczny polimorfizm pojedynczego nukleotydu). Obliczono względną liczbę sSNPs i nsSNPs dla każdego genu, która jest równa całkowitej sSNPs lub nssnps podzielonej przez związaną długość białka.,

przed mapowaniem należy obliczyć współrzędne zmutowanych pozostałości z każdego nsSNP. Po pierwsze, względne współrzędne zmutowanych pozostałości na pierwotnej sekwencji białka można uzyskać na podstawie współrzędnych nssnp na chromosomie. Następnie, zgodnie ze współrzędnymi odwzorowanymi między oryginalnymi sekwencjami białek a względnymi współrzędnymi pozostałości w strukturze białek, względne współrzędne zmutowanych pozostałości w strukturze białek mogą być oszacowane i wykorzystane w następujących obliczeniach.,

metoda grudek do obliczania wartości p mutacji wzbogaconych plików PDB

odnosząca się do metody Kamburova 45, punktacja WAP do obliczania parowych odległości między zmutowanymi resztami dla struktury białka 3D.

$${\mathrm{WAP}} = \ mathop {\sum} \ nolimits_ {{\mathrm {q}}, {\mathrm{r}}} {n_{\mathrm{q}} n_ {\mathrm {r}}e^ {- \frac {{d_ {{\mathrm {q, r}}}^2}}{{2{\mathrm{t}}^2}}}}$$
(7)

gdzie dq,r w niniejszym artykule definiuje się jako odległość euklidesową (w Å) między α węglami dowolnych dwóch zmutowanych reszt., t definiuje się jako „miękki” próg odległości, który wynosi 6 Å. nq i nr są znormalizowanymi liczbami próbek zawierającymi mutacje za pomocą następującej sigmoidalnej funkcji Hill:

$$n_{\mathrm{q}} = \frac{{N_{\mathrm{q}}^m}}{{\theta ^m + N_{\mathrm{q}}^m}}$$
(8)

gdzie Nq to liczba próbki z mutacją missense wpływającą pozostałość Q białka i θ = 2 I m = 3 są parametrami funkcji Hill kontrolującej punkt krytyczny (środek) i stromość funkcji esicy, odpowiednio., Wzór (2) został użyty do normalizacji liczby próbek zawartych w mutacjach pozostałości q i r, z których oba mogą uniknąć wpływu częstszych mutacji pozostałości w próbkach. Szczegółowy opis każdego wzoru znajduje się w artykule Kamburowa 45.

metodę CLUMPS można podzielić na cztery etapy. Po pierwsze, przygotuj potrzebne informacje SNP i informacje o strukturze jednego białka. Po drugie, przy znormalizowanej liczbie mutacji występujących w określonych pozycjach, Oblicz wyniki WAP próbek., Następnie, zakładając, że równomierny rozkład mutacji w obrębie reszt białkowych obejmuje daną strukturę, Oblicz każdy wynik WAP w 104 randomizacjach w celu uzyskania rozkładu zerowego. W trakcie procesu pobierania próbek liczba mutacji pozostałości występujących w losowych lokalizacjach była taka sama jak wartości pierwotne. Na koniec, Oblicz właściwą wartość p w rozkładzie zerowym dla danych zmutowanych struktur białkowych na podstawie oryginalnego wyniku WAP i wszystkich pobranych wyników WAP., Wartość p po prawej jest zdefiniowana jako liczba próbek z wynikiem WAP większym niż oryginalny punktowany WAP, podzielona przez całkowitą liczbę próbek.

dla białek o wartości p mniejszej niż 0,05 ze szczepów z grupy „Bioethonal” i „Wine” przeprowadzono analizę go-enrichment przy użyciu usługi internetowej DAVID6.7 on-line 72.

Analiza hotspot mutacji nssnp

rurociąg analizy hotspot dla drożdży odnosi się głównie do Niu et al.praca49. Wszystkie informacje o SNP i strukturze (podobnie jak Metoda analizy kępek) zostały przygotowane dla grupy szczepów o określonych fenotypach., Przed przeprowadzeniem analizy klastra zmutowane sparowane pozostałości o znaczeniu filtrowano zgodnie z referencją49. Te ważne, sparowane pozostałości powinny spełniać następujące trzy kryteria: odległość między dwoma pozostałościami powinna być mniejsza niż 10 Å dla wszystkich analiz klastrów wewnątrzcząsteczkowych; dwie pozostałości powinny być oddzielone o co najmniej 20 pozostałości w pierwotnej sekwencji białek; a do obliczenia wartości p dla każdej sparowanej pozostałości należy zastosować metodę permutacji (Eq. 9), z progiem ustalonym na 0,05.,

$$p\;{\mathrm{value}} = \frac{{n_1}}{{n_2}}$$
(9)

gdzie n1 jest liczbą sparowanych pozostałości z odległością mniejszą niż odległość w sparowanych resztach celu, a n2 jest całkowitą liczbą sparowanych pozostałości.

Po uzyskaniu sparowanych reszt o znaczeniu, klastry złożone z sparowanych reszt otrzymano na podstawie teorii grafów nieskierowanych, która została zrealizowana za pomocą funkcji „decompose”.graph 'z pakietu R igraph (https://igraph.org/)., Dla każdego klastra jego bliskość można obliczyć za pomocą funkcji ' bliskość.pozostałość ” z pakietu r entiserve73. Szczegółową zasadę można znaleźć również w oryginalnych badaniach49. W ostatnim etapie, podczas szacowania klastra, wartość P została obliczona na podstawie rurociągu analizy grudek w tej pracy.

Prediction of mutations function

Growth test using Biolog with different substrate sources

System Phenotyp MicroArray (PM) został użyty do badania wzrostu na każdym źródle węgla, azotu, fosforu i siarki74., Zbadano łącznie 190 źródeł węgla, 95 źródeł azotu, 95 źródeł fosforu i siarki. Procedury PM Dla S. cerevisiae S288C oparte były na protokole drożdżowej wersji systemu PM.

profilowanie wzrostu w różnych mediach

w wyniku eksperymentów ortogonalnych połączono łącznie 14 źródeł węgla i 23 źródła azotu. Każde źródło węgla i azotu użyte w pożywce było tym samym C-molem i N-molem, co odpowiednio glukoza (20 g L−1 glukozy) i siarczan amonu (7,5 g L−1 (NH4)2SO4). Dla wszystkich innych źródeł substratu zastosowano to samo Minimalne podłoże (14.,4 g L-1 KH2PO4, 0,5 g L−1 MgSO4∙7H2O, roztwory metali śladowych i witamin) 75. Szczepy były uprawiane w płytach 96-studziennych, a wydajność wzrostu określono za pomocą Growth Profiler 960 (Enzyscreen B. V., Heemstede, Holandia). Maksymalna właściwa szybkość wzrostu (µmax) została obliczona za pomocą pakietu r—growthrates (https://github.com/tpetzoldt/growthrates).

analiza statystyczna

dla porównania dwóch grup w tej pracy zastosowano dwuetapowy Test sumy Rang Wilcoxona.,

Podsumowanie Raportu

Więcej informacji na temat projektu badawczego można znaleźć w podsumowaniu raportu raportu z badań przyrodniczych powiązanym z tym artykułem.

Share

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *