Design og bygging av randomiserte biblioteker for analyseres Cas9 PAM preferanser
PAM biblioteker som inneholder randomisert DNA-sekvenser umiddelbart nedstrøms av en DNA-sekvens som er komplementære til spacer av en guide RNA ble generert og brukes til å fastslå empirisk den PAM anerkjennelse av Type II Cas9 endonucleases (Fig. 1)., Med guide RNA-spacer målsekvens være fast, randomisert baser tjene som et underlag for den direkte lese ut av Cas9 endonuclease PAM spesifisitet. Tilfeldige sekvenser ble introdusert i en plasmider DNA-vektor i PAM-regionen i en protospacer målsekvens viser perfekte homologi til guide RNA-spacer T1 (CGCUAAAGAGGAAGAGGACA). To biblioteker for å øke i størrelse og kompleksitet fra fem randomiserte base-par (1,024 potensielle PAM-kombinasjoner) til syv randomiserte base-par (16,384 potensielle PAM-kombinasjoner) ble generert., Randomisering av 5 bp-biblioteket ble innført gjennom syntese av en enkelt oligonukleotid inneholder fem tilfeldige rester. Single-strandet oligonukleotid ble omgjort til en dobbel-strandet mal ved PCR (Ekstra fil 1: Figur S1A), klonet inn i plasmider vektor (Ekstra fil 1: Figur S1B) og transformert inn i E. coli som beskrevet i Metoder delen., For å sikre optimal tilfeldigheten i 7 bp PAM bibliotek, størrelsen og kompleksiteten av biblioteket ble redusert med å syntetisere fire oligonukleotider som hver inneholder seks tilfeldige rester pluss en syvende faste rester som består av G, C eller T, henholdsvis. Hver av de fire oligonukleotider var separat konvertert til dobbel-strandet DNA, klonet inn i vektor pTZ57R/T som beskrevet i Metoder delen og transformert inn i E. coli som er beskrevet for 5 bp bibliotek., Etter transformasjon, plasmider DNA ble gjenopprettet og kombinert fra hver av de fire 6-bp PAM biblioteker for å generere en randomisert 7 bp PAM bibliotek bestående av 16,384 mulig PAM kombinasjoner. For både biblioteker, inkorporering av tilfeldighet ble validert av dyp sekvensering; å undersøke nukleotid sammensetning i hver posisjon av PAM region ved hjelp av en posisjon frekvens matrix (PFM) (Metoder delen og ) (Ekstra fil 1: Figur S2A og B)., Fordeling og frekvens av hver PAM rekkefølge i 5 bp og 7 bp randomisert PAM bibliotek er vist i annen fil 1: Tall S3 og S4, henholdsvis.
Analyseres Cas9 PAM preferanser
Den randomiserte PAM biblioteker som er beskrevet i forrige avsnitt ble utsatt for in vitro fordøyelsen med forskjellige konsentrasjoner av rekombinant Cas9 protein forhåndslastet med guide RNA for analysen Cas9 endonuclease PAM preferanser i en dose-avhengig måte., Etter fordøyelse med Cas9-guide RNA ribonucleoprotein (RNP) komplekser, PAM sekvens kombinasjoner fra de randomiserte PAM-biblioteket som støttes spalting ble tatt til fange av ligating adaptere, den frie endene av plasmider DNA-molekyler spaltet av Cas9-guide RNA-kompleks (Fig. 1a og b). For å fremme effektiv ligation og fangst av spaltet ender, den butte-endte dobbel-strandet DNA-cut generert av Cas9 endonucleases ble modifisert til å inneholde en 3′ dA overheng og adaptere ble modifisert til å inneholde en utfyllende 3′ dT overheng., For å generere tilstrekkelige mengder for sekvensering av DNA, DNA-fragmenter harboring PAM sekvens støtte spalting var PCR forsterket ved hjelp av en primer i adapteren og annen direkte tilknytning til PAM-regionen (Fig. 1c). Den resulterende PCR forsterket Cas9 PAM biblioteker ble omgjort til ampli-seq maler (Fig. 1d) og single-les dypt i rekkefølge fra den adapter-siden av amplikon., For å sikre tilstrekkelig dekning, er det Cas9 PAM biblioteker ble sekvensert til en dybde av minst fem ganger større enn mangfoldet i den første randomiserte PAM bibliotek (5,120 og 81,920 leser for 5 og 7 bp PAM randomisert biblioteker, henholdsvis). PAM sekvenser ble identifisert som sekvens av data ved bare å velge de leser som inneholder en perfekt 12 nt sekvens match flankerer hver side av 5 eller 7 nt PAM sekvens (avhengig av randomiserte PAM-biblioteket som brukes); fangst bare de PAM sekvenser som følge av perfekt Cas9-guide RNA målområde anerkjennelse og utringning., For å kompensere for iboende bias i den første randomiserte PAM biblioteker, hyppigheten av hver PAM sekvensen ble normalisert til sin frekvens i start-bibliotek. Siden analysen som er beskrevet her direkte fanger Cas9 cleavable PAM sekvenser, probabilistisk modellering ble brukt til å beregne PAM konsensus for hver Cas9 protein. Dette ble gjort ved å vurdere sannsynligheten for å finne hvert nukleotid (G, C eller T) på hver posisjon av PAM rekkefølge uavhengig av hverandre ved hjelp av en posisjon frekvens matrix (PFM) (Metoder delen og )., Den resulterende sannsynligheter så ble visualisert som en WebLogo .
for Å undersøke sannsynligheten for falske positiver i analysen, tillegg av Cas9 RNP komplekser i fordøyelsen trinn ble utelatt (Fig. 1a) og analysen ble utført ved hjelp av PCR-berikelse trinn (Fig. 1c). Som vist i annen fil 1: Figur S5A, ingen amplifikasjon produkter ble oppdaget i absense av Cas9-guide RNA-komplekser. Dermed, noe som indikerer at forekomsten av falske positiver er lav, og ikke i vesentlig grad bidrar til resultatene av analysen.,
PAM preferanser av Streptococcus pyogenes og Streptococcus thermophilus (CRISPR3 og CRISPR1 systemer) Cas9 proteiner
for å validere analysen, den PAM preferanser av Streptococcus pyogenes (Spion) og Streptococcus thermophilus CRISPR3 (Sth3) Cas9 proteiner, som PAM sekvens kravet har tidligere blitt rapportert , var undersøkt. In vitro fordøyer ble gjennomført med 1 µg (5.6 nM) av 5 bp randomisert PAM biblioteket på to konsentrasjoner, 0,5 og 50 nM, av pre-montert Spy eller Sth3 Cas9 protein, crRNA, og tracrRNA RNP komplekser for 1 t i en 100 µL reaksjon volum., Basert på deres frekvens i 5 bp randomisert PAM bibliotek, Spy og Sth3 Cas9 PAM-sekvenser (NGG og NGGNG, henholdsvis) var på siste konsentrasjoner av 0.40 nM og 0.11 nM i fordøyelsen, henholdsvis. Medlemmer av randomiserte PAM-biblioteket som inneholdt PAM-sekvenser som støttes spalting ble tatt til fange og identifisert som beskrevet i forrige avsnitt. Som en negativ kontroll, starter uncleaved randomisert PAM biblioteket var gjenstand for sekvensering og PFM analyse sammen med disse bibliotekene utsatt for Cas9 RNP komplekser., Som vist i annen fil 1: Figur S5B og C, ingen rekkefølge preferanser finnes i fravær av Cas9 RNP komplekse fordøyelsen som tydelig ved en nær perfekt fordeling av hvert nukleotid på hver posisjon av PAM i PFM bord og mangel på informativt innhold i WebLogo for kontroll. Dette er i sterk constrast med Fig. 2a og b, som illustrerer sammensetningen av sekvenser hentet fra bibliotek fordøyd med Spy og Sth3 Cas9 RNP komplekser. Undersøkelse av PFM avledet WebLogos (Fig., 2a og b) også avsløre tilstedeværelsen av den kanoniske PAM preferanser for Spion-og Sth3 Cas9 proteiner, NGG og NGGNG , henholdsvis. Selv om den PAM preferanser rapportert for Spion-og Sth3 Cas9 proteiner er observert i begge 0,5 nM og 50 nM fordøyd, er det en generell utvidelse i spesifisitet under 50 nM fordøye forhold. Dette er mest tydelig i posisjon 2 for Spion Cas9 protein der frekvensen av ikke-kanoniske rester øker dramatisk (Fig. 2a)., For Sth3, all PAM positions exhibit a marked decrease in specificity as a result of increasing the RNP complex concentration (Fig. 2b).
Ytterligere validering av analysen ble utført ved å undersøke PAM preferanser for Streptococcus thermophilus CRISPR1 (Sth1) Cas9 protein som PAM spesifisitet har blitt rapportert å utvide ut til 7 bp . Ved hjelp av 1 µg (5.6 nM) av 7 bp randomisert PAM-biblioteket som mal, Sth1 Cas9-guide RNA digestions ble utført på to konsentrasjoner, 0.5 nM og 50 nM, av RNP kompleks som beskrevet ovenfor., Som kontroller, Spy og Sth3 Cas9 RNP komplekser ble også brukt til å fordøye 7 bp randomisert PAM-biblioteket, men bare på ett, 0.5 nM, RNP komplekse konsentrasjon. Basert på frekvens i 7 bp randomisert PAM bibliotek, PAM sekvenser som tidligere er rapportert for Sth1 (NNAGAAW), Spy (NGG), og Sth3 (NGGNG) var på endelige konsentrasjoner på 0.01 nM, 0.22 nM, og 0,05 nM, henholdsvis., Som vist i annen fil 1: Figur S6A og B, PAM preferanser for Spion-og Sth3 Cas9 proteiner som genereres ved hjelp av de 7 bp biblioteket var nesten identiske med de som er produsert med 5 bp bibliotek som gir sterke bevis for reproduserbarheten av analysen. Den PAM preferanser for Sth1 Cas9 protein også tett matchet som tidligere rapportert, NNAGAAW , på 0,5 nM Cas9-guide RNA komplekse konsentrasjon (Fig. 2c)., Lignende for å Spionere og Sth3 Cas9 proteiner, Sth1 Cas9 var i stand til å spalte et mer variert sett av PAM sekvenser i reaksjoner som inneholder en høyere konsentrasjon av Cas9-guide RNA-kompleks (50 nM), det mest slående var markert tap av G rester krav på posisjon 4 og nær lik preferanse for en C og En bp i posisjon 5 (Fig. 2c). Dette resulterte i en annen PAM konsensus enn det som oppnås ved lavere konsentrasjoner.,
for Å undersøke om PAM spesifisitet er uavhengig av type guide RNA, tosidig crRNA:tracrRNA eller sgRNA , Spy, Sth3, og Sth1 Cas9 PAM preferanser ble også undersøkt ved hjelp av en binær Cas9 og sgRNA RNP komplekse. Fordøyelsen ble gjennomført på en enkelt RNP komplekse konsentrasjon på 0,5 nM og PAM preferanse analyse ble utført som beskrevet ovenfor. Som vist i annen fil 1: Figur S7A, B, og C, PAM preferanser var nesten identisk uavhengig av type guide RNA brukes; enten en crRNA:tracrRNA tosidig eller sgRNA., I tillegg, for å bekrefte at PAM spesifisitet er ikke sterkt påvirket av sammensetningen av mål-DNA eller spacer rekkefølge, rekkefølge på motsatt side av 5 eller 7 bp randomisert biblioteket var målrettet for spalting med en annen spacer; T2-5 (UCUAGAUAGAUUACGAAUUC) for 5 bp bibliotek eller T2-7 (CCGGCGACGUUGGGUCAACU) for 7 bp bibliotek. Spion-og Sth3 Cas9 proteiner forhåndslastet med sgRNAs rettet mot T2 sekvensen ble brukt til å avhøre 5 bp randomisert PAM biblioteket mens Sth1 Cas9-T2 sgRNA komplekser ble brukt til å fordøye 7 bp randomisert PAM bibliotek., PAM preferanser ble analysert, som beskrevet ovenfor. Den PAM preferanser for alle 3 Cas9 proteiner var nesten identisk uavhengig av avstandsholderen og mål-DNA sekvens (Ekstra fil 1: Figur S8A, B og C).
Identifisering av sgRNA og PAM preferanser for Brevibacillus laterosporus Cas9 protein
for Å empirisk undersøke PAM preferanser for en Cas9 protein som PAM var udefinert, en uncharacterized Type II-C CRISPR-Cas-locus fra Brevibacillus laterosporus belastning SSP360D4 (Blat) ble identifisert ved å søke interne DuPont Pioneer databaser for Cas9 orthologues., Locus (om lag 4,5 kb) inneholdt en cas9 gen i stand til koding en 1,092 polypeptid, et CRISPR utvalg bestående av syv gjenta-spacer enheter bare nedstrøms av cas9 genet og en tracrRNA koding regionen ligger oppstrøms av cas9 gen med delvis homologi til CRISPR utvalg gjentar (Fig. 3a). Gjenta og avstandsstykke lengde (36 og 30 bp, tilsvarende) er lik andre Type II CRISPR-Cas-systemer med fem av de åtte gjentar inneholder 1 eller 2 bp mutasjoner (Fig. 3b og annen fil 1: Figur S9)., Andre gener som vanligvis finnes i en Type II CRISPR-Cas-locus enten ble avkortet (cas1) eller mangler (Fig. 3a).
The guide RNA-kravet for Blat Cas9 protein ble bestemt ved å generere to sgRNA varianter., Disse variantene ble generert på kontoen for både mulig forstand eller anti-følelse uttrykk scenarier av tracrRNA og CRISPR array (Fig. 3c) og brukes til å probe som uttrykk scenariet støttes spalting aktivitet av Blat Cas9 i randomiserte PAM bibliotek. Enkel guide RNAs ble laget ved først å identifisere grensene av den antatte tracrRNA molekyler ved å analysere regioner som var delvis komplementære til 22 nt 5′ endestasjonen på repeat (anti-gjenta)., Neste, for å finne ut 3′ enden av tracrRNA, mulige sekundære strukturer og terminators ble brukt til å forutsi regionen oppsigelse i nedstrøms fragment. Dette ble oppnådd ved screening for tilstedeværelse av Rho selvstendige-som avslutning sekvenser i DNA rundt anti-gjenta den samme som beskrives i Karvelis et al. konvertering av de omkringliggende DNA til RNA-sekvens, og å undersøke den resulterende strukturer ved hjelp av UNAfold ., Den resulterende sgRNAs var utformet for å inneholde en T7-polymerase transkripsjon initiation anerkjennelse signal i 5′ – enden etterfulgt av en 20 nt mål anerkjennelse sekvens, 16 nt av crRNA gjenta, 4 nt self-folding hårnål loop, og anti-gjenta sekvens som er komplementære til å gjenta regionen crRNA etterfulgt av de resterende 3′ del av den antatte tracrRNA. Den sgRNA variant som inneholder et antatte tracrRNA transkribert i samme retning som cas9 genet (Fig. 3c) er betegnet som «direkte» sgRNA, mens sgRNA inneholder tracrRNA transkribert i motsatt retning en ‘omvendt’ sgRNA., Femti nM Blat Cas9 sgRNA RNP komplekse, pre-lastet med enten ‘direkte’ eller ‘omvendt’ sgRNAs, henholdsvis, ble inkubert med 1 µg (5.6 nM) av 7 bp randomisert PAM bibliotek. Etter at biblioteket fordøyelsen og tillegg av 3′ dA overheng, adaptere var ligated og spaltningsproduktene var PCR-forsterket (Fig. 1). Analyse av reaksjonsprodukter av agarose gel elektroforese avslørt at «direkte» sgRNA, men ikke ‘omvendt’ sgRNA støttes plasmider bibliotek spalting (Fig. 3d). Sekvensen og spådde sekundær struktur av den «direkte» sgRNA er vist i annen fil 1: Figur S10.,
Etter å bestemme den aktuelle tv-RNA for Blat Cas9, PAM identifikasjon ble utført på samme måte som beskrevet ovenfor for Spion, Sth3, og Sth1 Cas9 proteiner mot 7 bp randomisert PAM bibliotek med to konsentrasjoner, 0,5 og 50 nM, av pre-montert Blat Cas9 ‘direkte’ sgRNA RNP komplekse. Som vist i Fig. 4a, den PFM WebLogo PAM konsensus for Blat Cas9 protein under 0.5 nM fordøye forholdene var NNNNCND (N = G, C eller T; D = A, G eller T) med en sterk preferanse for en C i posisjon 5 av PAM rekkefølge., En moderat preferanse for en En ble observert i posisjon 7 og liten preferanser for en C eller T i posisjon 4 og G, C eller over En T i posisjon 6 ble også bemerket ved nøye å undersøke PFM tabell (Ekstra fil 1: Figur S11). På samme måte som Spion, Sth3, og Sth1 Cas9 proteiner, PAM spesifisitet utvider som Cas9-sgRNA komplekse konsentrasjon øker. Dette er mest tydelig i posisjon 5 hvor en større andel av PAM sekvenser som inneholder et rester støtte spalting på 50 nM sammenlignet med 0,5 nM fordøye forhold.
Siden Blat Cas9 kan akseptere en hvilken som helst base i de tre første posisjonene av sin PAM-sekvens (Fig. 4a), avstandsstykket T1 ble flyttet av tre nukleotider i 5′ retning for å tillate PAM identifikasjon for å være utvidet fra 7 til 10 bp., De flyttet T1 avstandsstykke, T1-3 (AAACGCUAAAGAGGAAGAGG), ble innlemmet i Blat «direkte» sgRNA og PAM identifikasjon ble utført som beskrevet tidligere for å Spy, Sth3, Sth1, og Blat Cas9 proteiner. PAM preferanse analyse avslørte PAM spesifisitet for Blat Cas9 kan forlenges ut til posisjon 8 hvor det er en moderat preferanse for en ekstra En (Fig. 4b).
PAM spesifisitet for Blat Cas9 ble bekreftet ved å generere plasmidene inneholder mutasjoner i de fleste bevart rester av PAM (Fig. 4c)., Utskifting av C-nukleotid i posisjon 5 avskaffet plasmider DNA-utringning som bekrefter sin viktige rolle i Blat Cas9 PAM anerkjennelse. Utskifting av nukleotider på stillinger 7 og 8 vesentlig redusert (43 x og 12×, henholdsvis) cleavage pris av supercoiled plasmider også indikerer viktigheten av disse nukleotider i Blat Cas9 PAM anerkjennelse.,
for Å identifisere DNA-mål spalting posisjoner for Blat Cas9 protein, en plasmider som inneholder en 20 bp regionen matchende avstandsholderen T1 etterfulgt av en PAM sekvens, GTCCCGAA, som faller innenfor den PAM konsensus for Blat Cas9, NNNNCNDD, som ble generert og fordøyd med Blat Cas9-guide RNA ribonucleoprotein komplekse. Direkte DNA sekvensering ble brukt til å bestemme endene av lineære DNA-molekylet som er generert av Blat Cas9 RNP komplekse. Sekvensen resultatene bekreftet at plasmider DNA spalting skjedde i protospacer 3 nt 5′ av PAM sekvens (Fig., 4d) lik den som er observert for Spion, Sth3, og Sth1 Cas9 proteiner .
I planta genom redigering ved hjelp av Blat Cas9 og sgRNA
Følgende klarlegging av sgRNA og PAM preferanser for Blat Cas9, mais optimalisert Cas9 og sgRNA uttrykk kassetter ble generert for i planta testing som tidligere er beskrevet for S. pyogenes cas9 genet og sgRNA . Kort, den Blat cas9 genet var mais codon optimalisert og intron 2 av potet ST-LSI-genet ble satt inn for å forstyrre uttrykk i E. coli og legge til rette for optimal skjøting i planta (Ekstra fil 1: Figur S12)., Kjernefysiske lokalisering av Blat Cas9 protein i mais cellene ble inkubert med tillegg av både amino og carboxyl-terminal kjernefysiske steder signaler, SV40 (MAPKKKRKV) og Agrobacterium tumefaciens VirD2 (KRPRDRHDGELGGRKRAR), henholdsvis (Ekstra fil 1: Figur S12). Den Blat cas9 genet var constitutively uttrykt i plante-celler ved å koble optimalisert cas9 til en mais Ubiquitin arrangøren og pinII terminator i en plasmider DNA-vektor., For å gi effektiv sgRNA uttrykk i mais celler, en mais U6-polymerase III promoter og terminator (TTTTTTTT) ble isolert og smeltet sammen til 5′ – og 3′ endene av en modifisert Blat sgRNA koding DNA-sekvens, henholdsvis (Ekstra fil 1: Figur S13). Den modifiserte Blat sgRNA inneholdt to endringer fra det som brukes i in vitro-studier; en T å G endring i posisjon 99 og en T til C endring i posisjon 157 av sgRNA (Ekstra fil 1: Figur S13). Endringene ble innført for å fjerne potensielle tidlig U6-polymerase III avslutning signaler i Blat sgRNA., Endringer der introdusert for å ha minimal innvirkning på sekundær struktur av sgRNA i forhold til versjonen som brukes i in vitro-studier (data ikke vist).
nøyaktig sammenligne mutational effektivitet som følge av ufullkommen ikke-homologe end-bli med (NHEJ) reparasjon av DNA-double-strand pauser (DSBs) som følge av Spy og Blat Cas9 cleavage, protospacer identiske genom mål steder ble valgt ved å identifisere mål med Spy og Blat Cas9 kompatibel PAMs, NGGNCNDD., Identiske avstandsstykke for overflatemontering-sekvenser ble valgt for Blat og Spy Cas9 ved å fange 18 til 21 nt sekvens umiddelbart oppstrøms av PAM. For å sikre optimal U6-polymerase III uttrykk og ikke innføre en mismatch i sgRNA avstandsstykke, alle mål sekvenser ble valgt naturlig å avslutte i en G på sitt 5′ – enden. Målene ble identifisert og valgt i ekson 1 og 4 av mais fruktbarhet genet Ms45 og i et område oppstrøms av mais liguleless-1 genet.,
mutational aktivitet av Blat Cas9 i mais ble undersøkt av biolistically transformere 10-dag-gamle umodne mais embryo (Ime) med DNA-vektorer som inneholder cas9 og sgRNA gener. Blat og tilsvarende Spy Cas9 og sgRNA uttrykk vektorer var uavhengig introdusert i mais Hi-Type II Ime av partikkel pistol transformasjon lik den som er beskrevet i . Siden partikkelen pistol transformasjon kan være svært variabel, en visuell markør DNA-uttrykk kassett, Ds-Rød, var også co-leveres med Cas9 og sgRNA uttrykk vektorer til hjelp i valg av jevnt forvandlet Ime., I sum, tre transformasjon replikater ble utført på 60-90 Ime og 20-30 av de mest jevnt forvandlet Ime fra hver replikere ble høstet 3 dager etter transformasjon. Totalt genomisk DNA ble ekstrahert og regionen rundt målområde ble forsterket ved PCR og amplikoner sekvensert for å lese en dybde i overkant av 300,000. Den resulterende leser ble undersøkt for forekomst av mutasjoner i forventet stedet for spalting av sammenligningen til å styre eksperimenter der sgRNA DNA-uttrykk kassetten ble utelatt fra transformasjon. Som vist i Fig., 5a, mutasjoner ble observert på forventet nettstedet spalting for Blat Cas9 med de mest utbredte typer mutasjoner blir enkelt base par innsetting eller sletting. Lignende reparasjon mønstre ble også observert for Spion Cas9 protein (Ekstra fil 1: Figur S14 og ). Den mutational aktivitet for Blat Cas9 var robuste på to av de tre områdene som er testet og oversteg Spion Cas9 på Ms45 ekson 4 målområde ved ca 30 % (Fig. 5b).