Takk for at du besøker Nature.com.Du bruker en nettleserversjon med begrenset CSS-støtte.For den beste opplevelsen anbefaler vi at du bruker en oppdatert nettleser (eller deaktiverer kompatibilitetsmodus i Internet Explorer).I tillegg, for å sikre kontinuerlig støtte, viser vi nettstedet uten stiler og JavaScript.
Skyveknapper som viser tre artikler per lysbilde.Bruk tilbake- og neste-knappene for å gå gjennom lysbildene, eller lysbildekontrollknappene på slutten for å gå gjennom hvert lysbilde.
Detaljert produktbeskrivelse
304 Rustfritt stål sveiset kveilrør/rør
1. Spesifikasjon: Spiralrør / rør i rustfritt stål
2. Type: sveiset eller sømløs
3. Standard: ASTM A269, ASTM A249
4. Spiralrør i rustfritt stål OD: 6mm til 25,4MM
5. Lengde: 600-3500MM eller i henhold til kundens krav.
6. Veggtykkelse: 0,2 mm til 2,0 mm.
7. Toleranse: OD: +/-0,01 mm;Tykkelse: +/-0,01 %.
8. Spole indre hullstørrelse: 500MM-1500MM (kan justeres i henhold til kundens krav)
9. Spolehøyde: 200MM-400MM (kan justeres i henhold til kundens krav)
10. Overflate: Lys eller glødet
11. Materiale: 304, 304L, 316L, 321, 301, 201, 202, 409, 430, 410, legering 625, 825, 2205, 2507, etc.
12. Pakking: vevde poser i trekasse, trepall, treskaft, eller i henhold til kundens krav
13. Test: kjemisk komponent, flytegrense, strekkfasthet, hardhetsmåling
14. Garanti: Tredjeparts (for eksempel :SGS TV ) inspeksjon osv.
15. Bruksområde: Dekorasjon, møbler, oljetransport, varmeveksler, rekkverksproduksjon, papirfremstilling, bil, matforedling, medisinsk, etc.
Alle kjemiske sammensetninger og fysiske egenskaper for rustfritt stål som nedenfor:
Materiale | ASTM A269 Kjemisk sammensetning % Maks | ||||||||||
C | Mn | P | S | Si | Cr | Ni | Mo | NB | Nb | Ti | |
TP304 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 18.0-20.0 | 8,0-11,0 | ^ | ^ | ^ . | ^ |
TP304L | 0,035 | 2.00 | 0,045 | 0,030 | 1.00 | 18.0-20.0 | 8,0-12,0 | ^ | ^ | ^ | ^ |
TP316 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 16.0-18.0 | 10.0-14.0 | 2.00-3.00 | ^ | ^ | ^ |
TP316L | 0,035 D | 2.00 | 0,045 | 0,030 | 1.00 | 16.0-18.0 | 10.0-15.0 | 2.00-3.00 | ^ | ^ | ^ |
TP321 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 17.0-19.0 | 9,0-12,0 | ^ | ^ | ^ | 5C -0,70 |
TP347 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 17.0-19.0 | 9,0-12,0 | 10C -1,10 | ^ |
Materiale | Varmebehandling | Temperatur F (C) Min. | Hardhet | |
Brinell | Rockwell | |||
TP304 | Løsning | 1900 (1040) | 192HBW/200HV | 90HRB |
TP304L | Løsning | 1900 (1040) | 192HBW/200HV | 90HRB |
TP316 | Løsning | 1900(1040) | 192HBW/200HV | 90HRB |
TP316L | Løsning | 1900(1040) | 192HBW/200HV | 90HRB |
TP321 | Løsning | 1900(1040) F | 192HBW/200HV | 90HRB |
TP347 | Løsning | 1900(1040) | 192HBW/200HV | 90HRB |
OD, tomme | OD Toleranse tomme (mm) | WT-toleranse % | Lengde Toleranse tomme (mm) | |
+ | - | |||
≤ 1/2 | ± 0,005 ( 0,13) | ± 15 | 1/8 ( 3.2 ) | 0 |
> 1/2 ~1 1/2 | ± 0,005 (0,13) | ± 10 | 1/8 (3,2) | 0 |
> 1 1/2 ~< 3 1/2 | ± 0,010(0,25) | ± 10 | 3/16 (4,8) | 0 |
> 3 1/2 ~< 5 1/2 | ± 0,015 (0,38) | ± 10 | 3/16 (4,8) | 0 |
> 5 1/2 ~< 8 | ± 0,030 (0,76) | ± 10 | 3/16 (4,8) | 0 |
8~< 12 | ± 0,040(1,01) | ± 10 | 3/16 (4,8) | 0 |
12~< 14 | ± 0,050(1,26) | ± 10 | 3/16 (4,8) | 0 |
Naturlige mikrobielle samfunn er fylogenetisk og metabolsk forskjellige.I tillegg til understuderte grupper av organismer1, har dette mangfoldet også et rikt potensial for oppdagelse av økologisk og bioteknologisk betydningsfulle enzymer og biokjemiske forbindelser2,3.Imidlertid er det fortsatt en utfordring å studere dette mangfoldet for å bestemme de genomiske veiene som syntetiserer slike forbindelser og binder dem til deres respektive verter.Det biosyntetiske potensialet til mikroorganismer i det åpne hav forblir stort sett ukjent på grunn av begrensninger i analysen av hele genomoppløsningsdata på global skala.Her utforsker vi mangfoldet og mangfoldet av biosyntetiske genklynger i havet ved å integrere rundt 10 000 mikrobielle genomer fra dyrkede celler og enkeltceller med mer enn 25 000 nyrekonstruerte utkastgenomer fra over 1000 sjøvannsprøver.Denne innsatsen har identifisert rundt 40 000 antatte, for det meste nye biosyntetiske genklynger, hvorav noen har blitt funnet i tidligere uventede fylogenetiske grupper.I disse populasjonene identifiserte vi en avstamning beriket i biosyntetiske genklynger ("Candidatus Eudormicrobiaceae") som tilhørte en ukultivert bakteriefilum og inkluderte noen av de mest biosyntetisk forskjellige mikroorganismene i dette miljøet.Av disse har vi karakterisert fosfatase-peptid- og pytonamidveiene, og identifisert forekomster av henholdsvis uvanlig bioaktiv forbindelsesstruktur og enzymologi.Avslutningsvis demonstrerer denne studien hvordan mikrobiombaserte strategier kan muliggjøre utforskning av tidligere ubeskrevne enzymer og naturlig mat i en dårlig forstått mikrobiota og miljø.
Mikrober driver globale biogeokjemiske sykluser, opprettholder næringsnett og holder planter og dyr sunne5.Deres enorme fylogenetiske, metabolske og funksjonelle mangfold representerer et rikt potensial for oppdagelsen av nye taxa1, enzymer og biokjemiske forbindelser, inkludert naturlige produkter6.I økologiske samfunn gir disse molekylene mikroorganismer med en rekke fysiologiske og økologiske funksjoner, fra kommunikasjon til konkurranse 2, 7 .I tillegg til deres opprinnelige funksjoner, gir disse naturlige produktene og deres genetisk kodede produksjonsveier eksempler for bioteknologiske og terapeutiske anvendelser2,3.Identifiseringen av slike veier og forbindelser har blitt mye lettere ved studiet av dyrkede mikrober.Taksonomiske studier av naturlige miljøer har imidlertid vist at de aller fleste mikroorganismer ikke har blitt dyrket8.Denne kulturelle skjevheten begrenser vår evne til å utnytte det funksjonelle mangfoldet kodet av mange mikrober4,9.
For å overvinne disse begrensningene har teknologiske fremskritt det siste tiåret tillatt forskere å direkte (dvs. uten forutgående kultur) sekvensere mikrobielle DNA-fragmenter fra hele samfunn (metagenomikk) eller enkeltceller.Evnen til å sette sammen disse fragmentene til større genomfragmenter og rekonstruere henholdsvis flere metagenomisk sammensatte genomer (MAGs) eller enkeltforsterkede genomer (SAGs), åpner for en viktig mulighet for taksosentriske studier av mikrobiomet (dvs. mikrobielle samfunn og mikrobiomet).bane nye veier.eget genetisk materiale i et gitt miljø) 10,11,12.Nyere studier har faktisk utvidet den fylogenetiske representasjonen av mikrobielt mangfold på jorden1, 13 og har avslørt mye av det funksjonelle mangfoldet i individuelle mikrobielle samfunn som ikke tidligere er dekket av dyrkede mikroorganismers referansegenomsekvenser (REFs)14.Evnen til å plassere uoppdaget funksjonelt mangfold i sammenheng med vertsgenomet (dvs. genomoppløsning) er avgjørende for å forutsi ennå ukarakteriserte mikrobielle linjer som antagelig koder for nye naturlige produkter15,16 eller for å spore slike forbindelser tilbake til deres opprinnelige produsent17.For eksempel har en kombinert metagenomisk og encellet genomisk analysetilnærming ført til identifiseringen av Candidatus Entotheonella, en gruppe metabolsk rike svampassosierte bakterier, som produsenter av en rekke medikamentpotensialer18.Til tross for nylige forsøk på genomisk utforskning av forskjellige mikrobielle samfunn, mangler 16,19 mer enn to tredjedeler av de globale metagenomiske dataene for jordens største hav av økosystemer16,20.Generelt forblir det biosyntetiske potensialet til det marine mikrobiomet og dets potensial som et depot av nye enzymatiske og naturlige produkter i stor grad understudert.
For å utforske det biosyntetiske potensialet til marine mikrobiomer på global skala, samlet vi først marine mikrobielle genomer oppnådd ved bruk av kulturavhengige og ikke-kulturmetoder for å lage en omfattende database over fylogenetikk og genfunksjon.Undersøkelse av denne databasen avslørte et bredt utvalg av biosyntetiske genklynger (BGC), hvorav de fleste tilhører hittil ukarakteriserte genklynge (GCF) familier.I tillegg identifiserte vi en ukjent bakteriefamilie som viser det høyeste kjente mangfoldet av BGC i det åpne hav til dags dato.Vi valgte to ribosomale syntese og post-translasjonelt modifisert peptid (RiPP) veier for eksperimentell validering basert på deres genetiske forskjeller fra kjente veier.Den funksjonelle karakteriseringen av disse veiene har avslørt uventede eksempler på enzymologi så vel som strukturelt uvanlige forbindelser med proteasehemmende aktivitet.
Først hadde vi som mål å skape en global dataressurs for genomanalyse, med fokus på bakterie- og arkekomponentene.For dette formål samlet vi metagenomiske data og 1038 sjøvannsprøver fra 215 globalt distribuerte prøvetakingssteder (breddegradsområde = 141,6°) og flere dype lag (fra 1 til 5600 m i dybden, som dekker de pelagiske, mesopelagiske og abyssalsonene).Bakgrunn21,22,23 (Fig. 1a, utvidede data, Fig. 1a og tilleggstabell 1).I tillegg til å gi en bred geografisk dekning, tillot disse selektivt filtrerte prøvene oss å sammenligne ulike komponenter i det marine mikrobiomet, inkludert virusrik (<0,2 µm), prokaryotrik (0,2–3 µm), partikkelrik (0,8 µm). ).–20 µm) og virusutarmede (>0,2 µm) kolonier.
a, Totalt 1038 offentlig tilgjengelige genomer (metagenomikk) av marine mikrobielle samfunn samlet fra 215 globalt distribuerte steder (62°S til 79°N og 179°W til 179°E .).Kartbrikker © Esri.Kilder: GEBCO, NOAA, CHS, OSU, UNH, CSUMB, National Geographic, DeLorme, NAVTEQ og Esri.b, disse metagenomene ble brukt til å rekonstruere MAG-er (metoder og tilleggsinformasjon), som er forskjellige i mengde og kvalitet (metoder) i datasettene (merket i farger).De rekonstruerte MAG-ene ble supplert med offentlig tilgjengelige (eksterne) genomer, inkludert håndlagde MAG26, SAG27 og REF.27 Kompiler OMD.c, sammenlignet med tidligere rapporter basert kun på SAG (GORG)20 eller MAG (GEM)16, forbedrer OMD den genomiske karakteriseringen av marine mikrobielle samfunn (metagenomisk lesekarthastighet; metode) med to til tre ganger med mer konsistent representasjon i dybden og breddegrad..<0,2, n=151, 0,2-0,8, n=67, 0,2-3, n=180, 0,8-20, n=30, >0,2, n=610, <30°, n = 132, 30–60° , n = 73, >60°, n = 42, EPI, n = 174, MES, n = 45, BAT, n = 28. d, OMD-gruppering i artsklyngenivå (95 % gjennomsnittlig nukleotididentitet) identifiserer totalt ca. 8300 arter, hvorav mer enn halvparten ikke tidligere har blitt karakterisert i henhold til taksonomiske merknader ved bruk av GTDB (versjon 89) e, klassifisering av arter etter genomtype viste at MAG, SAG og REF utfyller hverandre godt i å reflektere det fylogenetiske mangfoldet av det marine mikrobiomet.Spesielt var 55 %, 26 % og 11 % av artene spesifikke for henholdsvis MAG, SAG og REF.BATS, Bermuda Atlantic Time Series;GEM, genomer av jordens mikrobiom;GORG, globalt havreferansegenom;HOT, Hawaiian Ocean-tidsserie.
Ved å bruke dette datasettet rekonstruerte vi totalt 26 293 MAG-er, for det meste bakterielle og arkeale (fig. 1b og utvidede data, fig. 1b).Vi opprettet disse MAG-ene fra sammenstillinger fra separate snarere enn sammenslåtte metagenomiske prøver for å forhindre kollaps av naturlig sekvensvariasjon mellom prøver fra forskjellige steder eller tidspunkt (metoder).I tillegg grupperte vi genomiske fragmenter basert på deres prevalens-korrelasjoner over et stort antall prøver (fra 58 til 610 prøver, avhengig av undersøkelse; metode).Vi fant ut at dette er et tidkrevende, men viktig trinn24 som ble hoppet over i flere storskala MAG16, 19, 25 rekonstruksjonsarbeider og betydelig forbedrer kvantiteten (2,7 ganger i gjennomsnitt) og kvaliteten (+20 % i gjennomsnitt) av genom.rekonstruert fra det marine metagenomet som er studert her (utvidede data, fig. 2a og tilleggsinformasjon).Totalt sett resulterte denne innsatsen i en 4,5-dobling av marine mikrobielle MAG-er (6-dobling hvis bare høykvalitets MAG-er vurderes) sammenlignet med den mest omfattende MAG-ressursen som er tilgjengelig i dag16 (metoder).Dette nyopprettede MAG-settet ble deretter kombinert med 830 håndplukkede MAG26-er, 5969 SAG27-er og 1707 REF-er.Tjuesju arter av marine bakterier og archaea utgjorde en kombinatorisk samling av 34 799 genomer (fig. 1b).
Vi evaluerte deretter den nyopprettede ressursen for å forbedre dens evne til å representere marine mikrobielle samfunn og vurdere virkningen av å integrere ulike genomtyper.I gjennomsnitt fant vi ut at den dekker omtrent 40-60 % av marine metagenomiske data (Figur 1c), to til tre ganger dekningen av tidligere MAG-bare rapporter i både dybde og breddegrad More serial 16 eller SAG20.I tillegg, for systematisk å måle taksonomisk mangfold i etablerte samlinger, annoterte vi alle genomene ved å bruke Genome Taxonomy Database (GTDB) verktøysett (metoder) og brukte en gjennomsnittlig genomomfattende nukleotididentitet på 95%.28 for å identifisere 8 304 artsklynger (arter).To tredjedeler av disse artene (inkludert nye klader) hadde ikke tidligere dukket opp i GTDB, hvorav 2790 ble oppdaget ved å bruke MAG rekonstruert i denne studien (fig. 1d).I tillegg fant vi at ulike typer genomer er svært komplementære: 55 %, 26 % og 11 % av artene består utelukkende av henholdsvis MAG, SAG og REF (fig. 1e).I tillegg dekket MAG alle 49 typer funnet i vannsøylen, mens SAG og REF kun representerte henholdsvis 18 og 11 av dem.Imidlertid representerer SAG bedre mangfoldet av de vanligste kladene (utvidede data, fig. 3a), slik som Pelagic Bacteriales (SAR11), med SAG som dekker nesten 1300 arter og MAG bare 390 arter.Spesielt overlappet REF-er sjelden med MAG-er eller SAG-er på artsnivå og representerte >95 % av de omtrent 1000 genomene som ikke ble funnet i de metagenomiske settene for åpent hav som er studert her, hovedsakelig på grunn av interaksjoner med andre typer isolerte representative marine prøver (f.eks. sedimenter) .eller vertsmedarbeider).For å gjøre den allment tilgjengelig for det vitenskapelige samfunnet, kan denne marine genomressursen, som også inkluderer uklassifiserte fragmenter (f.eks. fra predikerte fager, genomiske øyer og genomfragmenter som det ikke er tilstrekkelig med data for MAG-rekonstruksjon), sammenlignes med taksonomiske data. .Få tilgang til merknader sammen med genfunksjon og kontekstuelle parametere i Ocean Microbiology Database (OMD; https://microbiomics.io/ocean/).
Deretter satte vi ut for å utforske rikdommen og nyheten til biosyntetisk potensial i mikrobiomer i åpne hav.For dette formål brukte vi først antiSMASH for alle MAG-er, SAG-er og REF-er funnet i 1038 marine metagenomer (metoder) for å forutsi totalt 39 055 BGC-er.Vi grupperte disse deretter i 6907 ikke-redundante GCF-er og 151 genklyngepopulasjoner (GCC-er; tilleggstabell 2 og metoder) for å ta hensyn til iboende redundans (dvs. den samme BGC-en kan kodes i flere genomer) og metagenomiske data Fragmentering av konsentrerte BGC-er.Ufullstendige BGC-er økte ikke signifikant, hvis noen (tilleggsinformasjon), antallet henholdsvis GCF-er og GCC-er som inneholdt minst ett intakt BGC-medlem i 44 % og 86 % av tilfellene.
På GCC-nivå fant vi et bredt utvalg av forutsagte RiPPs og andre naturlige produkter (fig. 2a).Blant dem tilhører for eksempel arylpolyener, karotenoider, ektoiner og sideroforer GCC-er med en bred fylogenetisk fordeling og høy overflod av oseaniske metagenomer, noe som kan indikere en bred tilpasning av mikroorganismer til det marine miljøet, inkludert motstand mot reaktive oksygenarter, oksidativt og osmotisk stress..eller jernabsorpsjon (mer informasjon).Dette funksjonelle mangfoldet står i kontrast til en nylig analyse av omtrent 1,2 millioner BGCs blant omtrent 190 000 genomer lagret i NCBI RefSeq-databasen (BiG-FAM/RefSeq, heretter referert til som RefSeq)29, som viste at ikke-ribosomale syntetasepeptider (NRPS) og polyketide (PKS) BGCs (tilleggsinformasjon).Vi fant også 44 (29 %) GCC-er bare fjernt relatert til RefSeq BGC (\(\bar{d}\)RefSeq > 0,4; Fig. 2a og metoder) og 53 (35 %) GCC-er bare i MAG , noe som fremhever potensialet for å oppdage tidligere ubeskrevne kjemikalier i OMD.Gitt at hver av disse GCC-ene sannsynligvis representerer svært forskjellige biosyntetiske funksjoner, analyserte vi data videre på GCF-nivå i et forsøk på å gi en mer detaljert gruppering av BGC-er som er spådd å kode for lignende naturlige produkter29.Totalt 3861 (56%) identifiserte GCF-er overlappet ikke med RefSeq, og >97% av GCF-er var ikke til stede i MIBiG, en av de største databasene med eksperimentelt validerte BGC-er (figur 2b).Selv om det ikke er overraskende å oppdage mange potensielle nye veier i omgivelser som ikke er godt representert av referansegenomet, skiller metoden vår for å fjerne BGC-er i GCF-er før benchmarking seg fra tidligere rapporter 16 og lar oss gi en objektiv vurdering av nyhet.Det meste av det nye mangfoldet (3012 GCF eller 78%) tilsvarer predikerte terpener, RiPP eller andre naturlige produkter, og det meste (1815 GCF eller 47%) er kodet i ukjente typer på grunn av deres biosyntetiske potensial.I motsetning til PKS- og NRPS-klynger, er det mindre sannsynlig at disse kompakte BGC-ene blir fragmentert under metagenomisk montering 31 og tillater mer tids- og ressurskrevende funksjonell karakterisering av produktene deres.
Totalt 39 055 BGC-er ble gruppert i 6 907 GCF-er og 151 GCC-er.a, datarepresentasjon (intern ekstern).Hierarkisk klynging av BGC-avstander basert på GCC, hvorav 53 bare er fastsatt av MAG.GCC inneholder BGC-er fra forskjellige taxa (ln-transformert portfrekvens) og forskjellige BGC-klasser (sirkelstørrelsen tilsvarer dens frekvens).For hver GCC representerer det ytre laget antall BGCer, prevalensen (prosentandel av prøver) og avstanden (minimum BGC cosinusavstand (min(dMIBiG))) fra BiG-FAM til BGC.GCC-er med BGC-er nært relatert til eksperimentelt verifiserte BGC-er (MIBiG) er uthevet med piler.b Ved å sammenligne GCF med predikerte (BiG-FAM) og eksperimentelt validerte (MIBiG) BGC-er, ble 3861 nye (d–>0,2) GCF-er funnet.De fleste (78%) av disse koder for RiPP, terpener og andre antatte naturlige produkter.c, alle genomene i OMD funnet i 1038 marine metagenomer ble plassert i GTDB-basetreet for å vise den fylogenetiske dekningen av OMD.Klader uten genomer i OMD er vist i grått.Antallet BGCer tilsvarer det største antallet predikerte BGCs per genom i en gitt klade.For klarhetens skyld er de siste 15 % av nodene kollapset.Piler indikerer klader rike på BGC (>15 BGC), med unntak av Mycobacterium, Gordonia (nest andre etter Rhodococcus) og Crocosphaera (nest andre etter Synechococcus).d, ukjent c.Eremiobacterota viste det høyeste biosyntetiske mangfoldet (Shannon-indeks basert på naturlig produkttype).Hvert bånd representerer genomet med flest BGC i arten.T1PKS, PKS type I, T2/3PKS, PKS type II og type III.
I tillegg til rikdom og nyhet, utforsker vi den biogeografiske strukturen til det biosyntetiske potensialet til det marine mikrobiomet.Gruppering av prøver etter gjennomsnittlig metagenomisk GCF-kopinummerfordeling (Methods) viste at lavbreddegrad, overflate-, prokaryotrike og virusfattige samfunn, for det meste fra overflate eller dypere solbelyst vann, var rike på RiPP- og BGC-terpener.Derimot var polare, dyphavs-, virus- og partikkelrike samfunn assosiert med høyere forekomster av NRPS og PKS BGC (utvidede data, fig. 4 og tilleggsinformasjon).Til slutt fant vi at godt studerte tropiske og pelagiske samfunn er de mest lovende kildene til nye terpener (Augmented Data Figure).Høyest potensial for PKS, RiPP og andre naturprodukter (Figur 5a med utvidede data).
For å komplementere vår studie av det biosyntetiske potensialet til marine mikrobiomer, hadde vi som mål å kartlegge deres fylogenetiske fordeling og identifisere nye BGC-anrikede klader.For dette formål plasserte vi genomene til marine mikrober i et normalisert GTDB13-bakterie- og arkealt fylogenetisk tre og overla de antatte biosyntetiske banene de koder for (fig. 2c).Vi har lett oppdaget flere BGC-anrikede klader (representert av over 15 BGCs) i sjøvannsprøver (metoder) kjent for sitt biosyntetiske potensial, som cyanobakterier (Synechococcus) og Proteus-bakterier, som Tistrella32,33, eller nylig tiltrukket seg oppmerksomhet for deres naturlige produkter.som Myxococcota (Sandaracinaceae), Rhodococcus og Planctomycetota34,35,36.Interessant nok fant vi flere tidligere uutforskede avstamninger i disse kladdene.For eksempel tilhørte de artene med det rikeste biosyntetiske potensialet i phyla Planctomycetota og Myxococcota til ukarakteriserte kandidatordener og slekter (tilleggstabell 3).Til sammen antyder dette at OMD gir tilgang til tidligere ukjent fylogenetisk informasjon, inkludert mikroorganismer, som kan representere nye mål for enzym- og naturlig produktoppdagelse.
Deretter karakteriserte vi den BGC-anrikede kladden ved ikke bare å telle det maksimale antallet BGC-er kodet av medlemmene, men også ved å vurdere mangfoldet av disse BGC-ene, noe som forklarer frekvensen av forskjellige typer naturlige kandidatprodukter (fig. 2c og metoder) )..Vi fant at de mest biosyntetisk mangfoldige artene var representert av spesielt konstruerte bakterielle MAG-er i denne studien.Disse bakteriene tilhører den ukultiverte phylum Candidatus Eremiobacterota, som forblir stort sett uutforsket bortsett fra noen få genomiske studier37,38.Det er bemerkelsesverdig at «ca.Slekten Eremiobacterota har bare blitt analysert i et terrestrisk miljø39 og er ikke kjent for å inkludere noen medlemmer beriket i BGC.Her har vi rekonstruert åtte MAG av samme art (nukleotididentitet > 99%) 23. Vi foreslår derfor artsnavnet “Candidatus Eudoremicrobium malaspinii”, oppkalt etter nereiden (sjønymfen), en vakker gave i gresk mytologi og ekspedisjoner.'Ka.I følge fylogenetisk annotasjon 13 har E. malaspinii ingen tidligere kjente slektninger under sekvensnivået og tilhører dermed en ny bakteriefamilie som vi foreslår «Ca.E. malaspinii" som typeart og "Ca.Eudormicrobiaceae" som det offisielle navnet (tilleggsinformasjon).Kort metagenomisk rekonstruksjon av 'Ca.E. malaspinii-genomprosjektet ble validert ved svært lav input, lang lest metagenomisk sekvensering og målrettet sammenstilling av en enkelt prøve (metoder) som et enkelt 9,63 Mb lineært kromosom med en 75 kb duplisering.som den eneste gjenværende tvetydigheten.
For å etablere den fylogenetiske konteksten til denne arten, søkte vi etter 40 nært beslektede arter i ytterligere eukaryote-anrikede metagenomiske prøver fra Tara Ocean-ekspedisjonen gjennom målrettet genomrekonstruksjon.Kort fortalt har vi koblet metagenomiske avlesninger til genomiske fragmenter assosiert med "Ca.E. malaspinii” og antok at en økt rekrutteringsrate i dette utvalget indikerer tilstedeværelsen av andre slektninger (metoder).Som et resultat fant vi 10 MAG-er, en kombinasjon av 19 MAG-er som representerer fem arter i tre slekter innenfor en nylig definert familie (dvs. "Ca. Eudormicrobiaceae").Etter manuell inspeksjon og kvalitetskontroll (utvidede data, fig. 6 og tilleggsinformasjon), fant vi at «Ca.Eudormicrobiaceae-arter presenterer større genomer (8 Mb) og rikere biosyntetisk potensial (14 til 22 BGC per art) enn andre "Ca"-medlemmer.Clade Eremiobacterota (opptil 7 BGC) (fig. 3a–c).
a, fylogenetiske posisjoner av de fem 'Ca.Arter av Eudormicrobiaceae viste BGC-rikdom spesifikk for de marine linjene identifisert i denne studien.Det fylogenetiske treet inkluderer alle 'Ca.MAG Eremiobacterota og medlemmer av andre phyla (genomnummer i parentes) gitt i GTDB (versjon 89) ble brukt for evolusjonær bakgrunn (metoder).De ytterste lagene representerer klassifikasjoner på familienivå («Ca. Eudormicrobiaceae» og «Ca. Xenobiaceae») og på klassenivå («Ca. Eremiobacteria»).De fem artene som er beskrevet i denne studien er representert med alfanumeriske koder og foreslåtte binomiale navn (tilleggsinformasjon).b, ok.Eudormicrobiaceae-arter deler syv vanlige BGC-kjerner.Fraværet av BGC i A2-kladen skyldtes ufullstendigheten til den representative MAG (tilleggstabell 3).BGC-er er spesifikke for "Ca.Amphithomicrobium" og "Ca.Amphithomicrobium” (kledde A og B) er ikke vist.c, Alle BGC-er kodet som "Ca.Eudoremicrobium taraoceanii ble funnet å være uttrykt i 623 metatranskriptomer hentet fra havet i Tara.Heltrukne sirkler indikerer aktiv transkripsjon.Oransje sirkler angir log2-transformerte foldendringer under og over husholdningsgenekspresjonshastigheten (metoder).d, relative overflodskurver (metoder) som viser 'Ca.Arter av Eudormicrobiaceae er utbredt i de fleste havbassenger og i hele vannsøylen (fra overflaten til en dybde på minst 4000 m).Basert på disse estimatene fant vi at 'Ca.E. malaspinii' står for opptil 6 % av prokaryote celler i dyphavspelagiske kornassosierte samfunn.Vi anså en art å være tilstede på et sted hvis den ble funnet i en brøkdel av størrelsen på et gitt dybdelag.IO – Indiahavet, NAO – Nord-Atlanteren, NPO – Nord-Stillehavet, RS – Rødehavet, SAO – Sør-Atlanteren, SO – Sørishavet, SPO – Sør-Stillehavet.
Studerer overflod og distribusjon av Ca.Eudormicrobiaceae, som, som vi fant, dominerer i de fleste havbassenger, så vel som i hele vannsøylen (fig. 3d).Lokalt utgjør de 6 % av det marine mikrobielle samfunnet, noe som gjør dem til en viktig del av det globale marine mikrobiomet.I tillegg fant vi det relative innholdet av Ca.Eudormicrobiaceae-arter og deres BGC-ekspresjonsnivåer var høyest i den eukaryote anrikede fraksjonen (fig. 3c og utvidede data, fig. 7), noe som indikerer en mulig interaksjon med partikulært materiale, inkludert plankton.Denne observasjonen har en viss likhet med 'Ca.Eudoremicrobium BGCs som produserer cytotoksiske naturlige produkter gjennom kjente veier, kan vise rovadferd (tilleggsinformasjon og utvidede data, figur 8), lik andre rovdyr som spesifikt produserer metabolitter som Myxococcus41.Oppdagelsen av Ca.Eudormicrobiaceae i mindre tilgjengelige (dyphav) eller eukaryote snarere enn prokaryote prøver kan forklare hvorfor disse bakteriene og deres uventede BGC-mangfold forblir uklare i sammenheng med naturlig matforskning.
Til syvende og sist forsøkte vi å eksperimentelt validere løftet om vårt mikrobiombaserte arbeid med å oppdage nye veier, enzymer og naturlige produkter.Blant de forskjellige klassene av BGC-er er RiPP-veien kjent for å kode for et rikt kjemisk og funksjonelt mangfold på grunn av forskjellige post-translasjonelle modifikasjoner av kjernepeptidet av modne enzymer42.Så vi valgte to 'Ca.Eudoremicrobium' RiPP BGCs (figur 3b og 4a-e) er basert på det samme som alle kjente BGC (\(\bar{d}\)MIBiG og \(\bar{d}\)RefSeq over 0.2) .
a–c, in vitro heterolog ekspresjon og in vitro enzymatiske analyser av en ny (\(\bar{d}\)RefSeq = 0,29) klynge av RiPP-biosyntese spesifikk for dyphavs Ca-arter.E. malaspinii' førte til produksjon av difosforylerte produkter.c, modifikasjoner identifisert ved bruk av høyoppløselig (HR) MS/MS (fragmentering indikert med b- og y-ioner i den kjemiske strukturen) og NMR (utvidede data, fig. 9).d, dette fosforylerte peptidet viser lav mikromolar inhibering av pattedyrnøytrofil elastase, som ikke finnes i kontrollpeptidet og det dehydrerende peptidet (kjemisk fjerningsindusert dehydrering).Eksperimentet ble gjentatt tre ganger med lignende resultater.For eksempel belyser heterolog ekspresjon av en andre ny \(\bar{d}\)RefSeq = 0,33) klynge av proteinbiosyntese funksjonen til fire modne enzymer som modifiserer kjernepeptidet på 46 aminosyrer.Rester farges i henhold til modifikasjonsstedet forutsagt av HR-MS/MS, isotopmerking og NMR-analyse (tilleggsinformasjon).Stiplet farge indikerer at modifikasjonen skjer ved en av de to restene.Figuren er en samling av tallrike heterologe konstruksjoner for å vise aktiviteten til alle modne enzymer på samme kjerne.h, Illustrasjon av NMR-data for ryggradsamid-N-metylering.Fullstendige resultater er vist i fig.10 med utvidede data.i, Fylogenetisk plassering av det modne FkbM-proteinklyngeenzymet blant alle FkbM-domener funnet i MIBiG 2.0-databasen avslører et enzym fra denne familien med N-metyltransferaseaktivitet (tilleggsinformasjon).Skjematiske diagrammer av BGC-er (a, e), forløperpeptidstrukturer (b, f) og antatte kjemiske strukturer av naturlige produkter (c, g) er vist.
Den første RiPP-veien (\(\bar{d}\)MIBiG = 0,41, \(\bar{d}\)RefSeq = 0,29) ble bare funnet i dyphavsarter "Ca.E. malaspinii" og koder for Peptid-forløper (fig. 4a, b).I dette modne enzymet har vi identifisert et enkelt funksjonelt domene homologt med dehydreringsdomenet til lantipeptidsyntase som normalt katalyserer fosforylering og påfølgende fjerning av 43 (tilleggsinformasjon).Derfor spår vi at modifikasjonen av forløperpeptidet innebærer en slik to-trinns dehydrering.Men ved å bruke tandem massespektrometri (MS/MS) og kjernemagnetisk resonansspektroskopi (NMR), identifiserte vi et polyfosforylert lineært peptid (fig. 4c).Selv om det var uventet, fant vi flere bevis som støtter at det er sluttproduktet: to forskjellige heterologe verter og ingen dehydrering i in vitro-analyser, identifisering av nøkkelrester mutert i det katalytiske dehydreringsstedet til det modne enzymet.alt rekonstruert av "Ca".E. malaspinii-genomet (utvidede data, fig. 9 og tilleggsinformasjon) og til slutt den biologiske aktiviteten til det fosforylerte produktet, men ikke den kjemisk syntetiserte dehydrerte formen (fig. 4d).Faktisk fant vi at den viser en lav mikromolar proteasehemmende aktivitet mot nøytrofil elastase, sammenlignbar med andre relaterte naturprodukter i konsentrasjonsområdet (IC50 = 14,3 μM) 44, til tross for at den økologiske rollen gjenstår å belyse.Basert på disse resultatene foreslår vi å kalle veien "fosfeptin".
Det andre tilfellet er en kompleks RiPP-vei spesifikk for 'Ca.Slekten Eudoremicrobium (\(\bar{d}\)MIBiG = 0,46, \(\bar{d}\)RefSeq = 0,33) ble spådd å kode for naturlige proteinprodukter (fig. 4e).Disse banene er av spesiell bioteknologisk interesse på grunn av den forventede tettheten og variasjonen av uvanlige kjemiske modifikasjoner etablert av enzymene kodet av de relativt korte BGCs45.Vi fant at dette proteinet skiller seg fra tidligere karakteriserte proteiner ved at det mangler både hoved-NX5N-motivet til polyceramider og lantioninløkken til landornamider 46 .For å overvinne begrensningene til vanlige heterologe uttrykksmønstre, brukte vi dem sammen med et tilpasset Microvirgula aerodenitrificans-system for å karakterisere fire modne enzymer (metoder).Ved å bruke en kombinasjon av MS/MS, isotopmerking og NMR, oppdaget vi disse modne enzymene i 46-aminosyrekjernen til peptidet (fig. 4f, g, utvidede data, fig. 10–12 og tilleggsinformasjon).Blant modne enzymer karakteriserte vi den første opptredenen av et FkbM O-metyltransferase-familiemedlem 47 i RiPP-veien og fant uventet at dette modne enzymet introduserer ryggrads-N-metylering (fig. 4h, i og tilleggsinformasjon).Selv om denne modifikasjonen er kjent i naturlige NRP48-produkter, er enzymatisk N-metylering av amidbindinger en kompleks, men bioteknologisk signifikant reaksjon49 som så langt har vært av interesse for RiPP-familien av borosiner.Spesifisitet 50,51.Identifikasjonen av denne aktiviteten i andre familier av enzymer og RiPP kan åpne for nye applikasjoner og utvide det funksjonelle mangfoldet av proteiner 52 og deres kjemiske mangfold.Basert på de identifiserte modifikasjonene og den uvanlige lengden på den foreslåtte produktstrukturen, foreslår vi et rutenavn "pythonamid".
Oppdagelsen av en uventet enzymologi i en funksjonelt karakterisert familie av enzymer illustrerer løftet om miljøgenomikk for nye oppdagelser, og illustrerer også den begrensede kapasiteten for funksjonell slutning basert på sekvenshomologi alene.Sammen med rapporter om ikke-kanoniske bioaktive polyfosforylerte RiPP-er, viser resultatene våre ressurskrevende, men kritisk verdi for syntetisk biologi-innsats for å fullt ut avdekke den funksjonelle rikdommen, mangfoldet og uvanlige strukturene til biokjemiske forbindelser.
Her demonstrerer vi spekteret av biosyntetisk potensial kodet av mikrober og deres genomiske kontekst i det globale marine mikrobiomet, og letter fremtidig forskning ved å gjøre den resulterende ressursen tilgjengelig for det vitenskapelige samfunnet (https://microbiomics.io/ocean/).Vi fant ut at mye av dens fylogenetiske og funksjonelle nyhet bare kan oppnås ved å rekonstruere MAG-er og SAG-er, spesielt i underutnyttede mikrobielle samfunn som kan lede fremtidig bioprospekteringsinnsats.Selv om vi her vil fokusere på 'Ca.Eudormicrobiaceae" som en avstamning spesielt biosyntetisk "talentfull", mange av BGC-ene som er spådd i den uoppdagede mikrobiotaen koder sannsynligvis for tidligere ubeskrevne enzymologier som gir forbindelser med miljømessig og/eller bioteknologisk betydningsfulle virkninger.
Metagenomiske datasett fra store oseanografiske og tidsseriestudier med tilstrekkelig sekvenseringsdybde ble inkludert for å maksimere dekningen av globale marine mikrobielle samfunn i havbassenger, dype lag og over tid.Disse datasettene (tilleggstabell 1 og figur 1) inkluderer metagenomikk fra prøver samlet i havet i Tara (viralt anriket, n=190; prokaryot beriket, n=180)12,22 og BioGEOTRACES-ekspedisjonen (n=480).Hawaiian Oceanic Time Series (HOT, n = 68), Bermuda-Atlantic Time Series (BATS, n = 62)21 og Malaspina-ekspedisjonen (n = 58)23.Sekvenseringsavlesninger fra alle metagenomiske fragmenter ble filtrert for kvalitet ved å bruke BBMap (v.38.71) ved å fjerne sekvenseringsadaptere fra avlesninger, fjerne avlesninger kartlagt til kvalitetskontrollsekvenser (PhiX-genomer), og bruke trimq=14, maq=20 forkaster dårlig lesekvalitet, maxns = 0 og minlength = 45. Påfølgende analyser ble kjørt eller slått sammen med QC-avlesninger hvis spesifisert (bbmerge.sh minoverlap=16).QC-avlesninger ble normalisert (bbnorm.sh mål = 40, minddepth = 0) før bygging ved bruk av metaSPAder (v.3.11.1 eller v.3.12 om nødvendig)53.De resulterende stillaskontiggene (heretter referert til som stillaser) ble til slutt filtrert etter lengde (≥1 kb).
De 1038 metagenomiske prøvene ble delt inn i grupper, og for hver gruppe prøver ble de metagenomiske kvalitetskontrollavlesningene av alle prøvene matchet med parentesene til hver prøve separat, noe som resulterte i følgende antall parvise gruppeavlesninger: Tara Marine Viruses – Enriched (190×190 ), Prokaryoter beriket (180×180), BioGEOTRACER, HOT og FLATGERMULE (610×610) og Malaspina (58×58).Kartlegging ble gjort ved å bruke Burrows-Wheeler-Aligner (BWA) (v.0.7.17-r1188)54 som gjør det mulig å matche avlesninger til sekundære steder (ved å bruke flagget -a).Justeringer ble filtrert til å være minst 45 baser lange, ha ≥97 % identitet og spenn ≥80 % avlesninger.De resulterende BAM-filene ble behandlet ved å bruke jgi_summarize_bam_contig_depths-skriptet for MetaBAT2 (v.2.12.1)55 for å gi intra- og inter-prøvedekning for hver gruppe.Til slutt ble parentes gruppert for å øke følsomheten ved å kjøre MetaBAT2 individuelt på alle prøver med –minContig 2000 og –maxEdges 500. Vi bruker MetaBAT2 i stedet for en ensemblebokser fordi det i uavhengige tester har vist seg å være den mest effektive enkeltbokseren.og 10 til 50 ganger raskere enn andre vanlige boksere57.For å teste for effekten av overflodskorrelasjoner, brukte et tilfeldig utvalgt underutvalg av metagenomikk (10 for hvert av de to Tara Ocean-datasettene, 10 for BioGEOTRACES, 5 for hver tidsserie og 5 for Malaspina) bare prøver.Interne prøver grupperes for å få dekningsinformasjon.(Tilleggsinformasjon).
Ytterligere (eksterne) genomer ble inkludert i den påfølgende analysen, nemlig 830 manuelt utvalgte MAG-er fra en undergruppe av Tara Oceans26-datasettet, 5287 SAG-er fra GORG20-datasettet og data fra MAR-databasen (MarDB v. 4) fra 1707 isolerte REF-er og 682 SAG-er) 27. For MarDB-datasettet velges genomer basert på tilgjengelige metadata hvis prøvetypen samsvarer med følgende regulære uttrykk: '[S|s]ingle.?[C|c]ell|[C|c]kultur| [I|i] isolert'.
Kvaliteten på hver metagenomisk beholder og eksterne genomer ble vurdert ved å bruke CheckM (v.1.0.13) og Anvi'o's Lineage Workflow (v.5.5.0)58,59.Hvis CheckM eller Anvi'o rapporterer ≥50 % fullstendighet/fullstendighet og ≤10 % kontaminering/redundans, lagre metagenomiske celler og eksterne genomer for senere analyse.Disse skårene ble deretter kombinert til gjennomsnittlig fullstendighet (mcpl) og gjennomsnittlig kontaminering (mctn) for å klassifisere genomkvalitet i henhold til fellesskapskriterier60 som følger: høy kvalitet: mcpl ≥ 90 % og mctn ≤ 5 %;god kvalitet: mcpl ≥ 70 %, mctn ≤ 10 %, middels kvalitet: mcpl ≥ 50 % og mctn ≤ 10 %, rimelig kvalitet: mcpl ≤ 90 % eller mctn ≥ 10 %.De filtrerte genomene ble deretter korrelert med kvalitetspoeng (Q og Q') som følger: Q = mcpl – 5 x mctn Q' = mcpl – 5 x mctn + mctn x (stammevariabilitet)/100 + 0,5 x log[N50] .(implementert i dRep61).
For å tillate komparativ analyse mellom ulike datakilder og genomtyper (MAG, SAG og REF), ble 34 799 genomer dereferert basert på genomomfattende gjennomsnittlig nukleotididentitet (ANI) ved bruk av dRep (v.2.5.4).Gjentas)61 med 95% ANI-terskler28,62 (-comp 0 -con 1000 -sa 0,95 -nc 0,2) og enkeltkopimarkørgener ved bruk av SpecI63 som gir genomklynger på artsnivå.Et representativt genom ble valgt for hver dRep-klynge i henhold til den maksimale kvalitetsskåren (Q') definert ovenfor, som ble ansett som representativ for arten.
For å evaluere kartleggingshastigheten ble BWA (v.0.7.17-r1188, -a) brukt til å kartlegge alle 1038 sett med metagenomiske avlesninger med 34 799 genomer inneholdt i OMD.Kvalitetskontrollerte avlesninger ble kartlagt i single-ended modus og de resulterende justeringene ble filtrert for å beholde bare justeringer ≥45 bp i lengde.og identitet ≥95 %.Visningsforholdet for hver prøve er prosentandelen av avlesninger som gjenstår etter filtrering delt på det totale antallet kvalitetskontrollavlesninger.Ved å bruke samme tilnærming ble hvert av de 1038 metagenomene redusert til 5 millioner inserts (utvidede data, fig. 1c) og matchet med GORG SAG i OMD og i alle GEM16.Mengden MAG-er som ble utvunnet fra sjøvann i GEM16-katalogen ble bestemt av nøkkelordspørringer fra metagenomiske kilder, valg av sjøvannsprøver (f.eks. i motsetning til marine sedimenter).Spesifikt velger vi "akvatisk" som "økosystemkategori", "marin" som "økosystemtype", og filtrerer "habitat" som "dyp hav", "marin", "maritim oseanisk", "pelagisk marine", "marint vann" , "Ocean", "Sea Water", "Surface Sea Water", "Surface Sea Water".Dette resulterte i 5903 MAG-er (734 høy kvalitet) fordelt på 1823 OTU-er (visninger her).
Prokaryote genomer ble taksonomisk annotert ved bruk av GTDB-Tk (v.1.0.2)64 med standardparametere rettet mot GTDB r89 versjon 13. Anvi'o ble brukt til å identifisere eukaryote genomer basert på domeneprediksjon og tilbakekalling ≥50 % og redundans ≤ 10 %.Den taksonomiske merknaden til en art er definert som et av dens representative genomer.Med unntak av eukaryoter (148 MAG), ble hvert genom først funksjonelt kommentert ved å bruke prokka (v.1.14.5)65, navngi komplette gener, definerte "archaea" eller "bakterier" parametere etter behov, som også er rapportert for ikke- kodende gener.og CRISPR-regioner, blant andre genomiske trekk.Annoter predikerte gener ved å identifisere universelle enkeltkopi-markørgener (uscMG) ved hjelp av fetchMG (v.1.2)66, tilordne ortologgrupper og spørre ved hjelp av emapper (v.2.0.1)67 basert på eggNOG (v.5.0)68.KEGG-database (publisert 10. februar 2020) 69. Det siste trinnet ble utført ved å matche proteiner til KEGG-databasen ved å bruke DIAMOND (v.0.9.30)70 med en spørring og emnedekning på ≥70 %.Resultatene ble ytterligere filtrert i henhold til NCBI Prokaryotic Genome Annotation Pipeline71 basert på bitrate ≥ 50 % av maksimal forventet bitrate (link selv).Gensekvenser ble også brukt som input for å identifisere BGC-er i genomet ved å bruke antiSMASH (v.5.1.0)72 med standardparametere og forskjellige klyngeeksplosjoner.Alle genomer og merknader har blitt samlet inn i OMD sammen med kontekstuelle metadata tilgjengelig på nettet (https://microbiomics.io/ocean/).
I likhet med tidligere beskrevne metoder12,22 brukte vi CD-HIT (v.4.8.1) for å gruppere >56,6 millioner proteinkodende gener fra bakterielle og arkeale genomer fra OMD til 95 % identitet og kortere gener (90 % dekning)73 opp til >17,7 millioner genklynger.Den lengste sekvensen ble valgt som det representative genet for hver genklynge.De 1038 metagenomene ble deretter matchet til >17,7 millioner BWA (-a)-klyngemedlemmer og de resulterende BAM-filene ble filtrert for å beholde bare justeringer med ≥95 % prosent identitet og ≥45 basejusteringer.Lengdenormalisert genoverflod ble beregnet ved først å telle inserts fra den beste unike justeringen og deretter, for fuzzy-mapped inserts, å legge til fraksjonelle tellinger til de tilsvarende målgenene proporsjonalt med deres antall unike inserts.
Genomene fra den utvidede OMD (med ytterligere MAG-er fra "Ca. Eudormicrobiaceae", se nedenfor) ble lagt til mOTUs74 metagenomiske analyseverktøydatabasen (v.2.5.1) for å lage en utvidet mOTU-referansedatabase.Bare seks enkeltkopi-genomer (23 528 genomer) overlevde av ti uscMG-er.Utvidelsen av databasen resulterte i 4 494 ekstra klynger på artsnivå.1038 metagenomer ble analysert ved å bruke standard mOTU-parametere (v.2).Totalt 989 genomer inneholdt i 644 mOTU-klynger (95% REF, 5% SAG og 99,9% tilhørende MarDB) ble ikke oppdaget av mOTU-profilen.Dette gjenspeiler ulike tilleggskilder til marin isolasjon av MarDB-genomene (de fleste av de uoppdagede genomene er assosiert med organismer isolert fra sedimenter, marine verter, etc.).For å fortsette å fokusere på det åpne havmiljøet i denne studien, ekskluderte vi dem fra nedstrømsanalysen med mindre de ble oppdaget eller inkludert i den utvidede mOTU-databasen som ble opprettet i denne studien.
Alle BGC-er fra MAG, SAG og REF i OMD (se ovenfor) ble kombinert med BGC-er identifisert i alle metagenomiske stillaser (antiSMASH v.5.0, standardparametere) og karakterisert ved bruk av BiG-SLICE (v.1.1) (PFAM-domene )75.Basert på disse funksjonene beregnet vi alle cosinusavstander mellom BGC-er og grupperte dem (gjennomsnittlige koblinger) i GCF og GCC ved å bruke avstandsterskler på henholdsvis 0,2 og 0,8.Disse terskelverdiene er en tilpasning av terskler som tidligere ble brukt ved bruk av euklidisk avstand75 sammen med cosinusavstand, noe som lindrer noe av feilen i den opprinnelige BiG-SLICE klyngestrategien (tilleggsinformasjon).
BGC-er ble deretter filtrert for å beholde bare ≥5 kb kodet på stillaser for å redusere risikoen for fragmentering som tidligere beskrevet16 og for å ekskludere MarDB REF-er og SAG-er som ikke finnes i 1038 metagenomer (se ovenfor).Dette resulterte i at totalt 39 055 BGC-er ble kodet av OMD-genomet, med ytterligere 14 106 identifisert på metagenomiske fragmenter (dvs. ikke kombinert til MAG-er).Disse "metagenomiske" BGC-ene ble brukt til å estimere andelen av biosyntesepotensialet for marint mikrobiom som ikke fanges opp i databasen (tilleggsinformasjon).Hver BGC ble funksjonelt karakterisert i henhold til prediktive produkttyper definert av anti-SMASH eller grovere produktkategorier definert i BiG-SCAPE76.For å forhindre prøvetakingsskjevhet i kvantifisering (taksonomisk og funksjonell sammensetning av GCC/GCF, avstand mellom GCF og GCC til referansedatabaser, og metagenomisk overflod av GCF), ved å holde bare den lengste BGC per GCF for hver art, ble 39 055 BGC ytterligere deduplisert, resulterer i totalt 17 689 BGC.
Nyheten til GCC og GCF ble vurdert basert på avstanden mellom den beregnede databasen (RefSeq-databasen i BiG-FAM)29 og den eksperimentelt verifiserte (MIBIG 2.0)30 BGC.For hver av de 17 689 representative BGCene valgte vi den minste cosinusavstanden til den respektive databasen.Disse minimumsavstandene beregnes deretter gjennomsnittlig (gjennomsnittlig) i henhold til GCF eller GCC, etter behov.En GCF anses som ny hvis avstanden til databasen er større enn 0,2, noe som tilsvarer en ideell separasjon mellom (gjennomsnittlig) GCF og referansen.For GCC velger vi 0,4, som er det dobbelte av terskelen definert av GCF, for å låse inn et langsiktig forhold med lenker.
Den metagenomiske forekomsten av BGC ble estimert som den gjennomsnittlige forekomsten av dets biosyntetiske gener (som bestemt av anti-SMASH) tilgjengelig fra profiler på gennivå.Den metagenomiske forekomsten av hver GCF eller GCC ble deretter beregnet som summen av representative BGCs (av 17 689).Disse overflodskartene ble deretter normalisert for cellulær sammensetning ved å bruke mOTU-tellingen per prøve, som også sto for sekvenseringsinnsats (utvidede data, fig. 1d).Prevalensen av GCF eller GCC ble beregnet som prosentandelen av prøver med en overflod > 0.
Den euklidiske avstanden mellom prøvene ble beregnet fra den normaliserte GCF-profilen.Disse avstandene ble redusert i størrelse ved å bruke UMAP77, og de resulterende innebyggingene ble brukt til uovervåket tetthetsbasert clustering ved bruk av HDBSCAN78.Det optimale minimumsantallet for en klynge (og dermed antallet klynger) som brukes av HDBSCAN, bestemmes ved å maksimere den kumulative sannsynligheten for klyngemedlemskap.De identifiserte klyngene (og et tilfeldig balansert underutvalg av disse klyngene for å ta hensyn til skjevheter i permutasjonell multivariat variansanalyse (PERMANOVA)) ble testet for signifikans mot ikke-reduserte euklidiske avstander ved bruk av PERMANOVA.Den gjennomsnittlige genomstørrelsen til prøvene ble beregnet basert på den relative overfloden av mOTU og den estimerte genomstørrelsen til medlemmene av genomene.Spesielt ble den gjennomsnittlige genomstørrelsen til hver mOTU estimert som gjennomsnittet av genomstørrelsene til medlemmene korrigert for fullstendighet (etter filtrering) (for eksempel har et 75 % komplett genom med en lengde på 3 Mb en justert størrelse på 4 Mb).for middels genom med integritet ≥70 %.Den gjennomsnittlige genomstørrelsen for hver prøve ble deretter beregnet som summen av mOTU-genomstørrelser vektet etter relativ overflod.
Et filtrert sett med genomkodede BGC-er i OMD er vist i bakterielle og arkeale GTDB-trær (i ≥5 kb rammer, unntatt REF og SAG MarDB som ikke finnes i 1038 metagenomer, se ovenfor) og deres predikerte produktkategorier basert på fylogenetisk posisjonen til genomet (se ovenfor).Vi reduserte først dataene etter art, og brukte genomet med flest BGC i den arten som representativt.For visualisering ble representantene videre delt inn i tregrupper, og igjen, for hver cellede kladde, ble genomet som inneholdt det største antallet BGCs valgt som en representant.BGC-anrikede arter (minst ett genom med >15 BGCs) ble videre analysert ved å beregne Shannon Diversity Index for produkttypene kodet i disse BGCene.Hvis alle predikerte produkttyper er de samme, anses kjemiske hybrider og andre komplekse BGC-er (som forutsagt av anti-SMAH) å tilhøre samme produkttype, uavhengig av rekkefølgen i klyngen (f.eks. protein-bakteriocin og bakteriocin-proteoprotein-fusjon kropp).hybrid).
Gjenværende DNA (estimert til å være 6 ng) fra Malaspina-prøve MP1648, tilsvarende biologisk prøve SAMN05421555 og matchet med Illumina SRR3962772 metagenomisk lesesett for kort avlesning, behandlet i henhold til PacBio-sekvenseringsprotokoll med ultralav inngang for å bruke PacBio-amplifikasjons-gDNA-prøven sett (100-980-000) og SMRTbell Express 2.0 malforberedelsessett (100-938-900).Kort fortalt ble gjenværende DNA kuttet, reparert og renset (ProNex-kuler) ved bruk av Covaris (g-TUBE, 52104).Renset DNA utsettes deretter for bibliotekpreparering, amplifikasjon, rensing (ProNex-kuler) og størrelsesvalg (>6 kb, Blue Pippin) før et siste rensetrinn (ProNex-kuler) og sekvensering på Sequel II-plattformen.
Rekonstruksjon av de to første ca.For MAG Eremiobacterota identifiserte vi seks ekstra ANI-er > 99 % (disse er inkludert i figur 3), som opprinnelig ble filtrert basert på forurensningsscore (senere identifisert som genduplikasjoner, se nedenfor).Vi fant også et brett merket "Ca".Eremiobacterota» fra forskjellige studier23 og brukte dem sammen med åtte MAG-er fra vår studie som referanse for metagenomiske avlesninger fra 633 eukaryote berikede (>0,8 µm) prøver ved bruk av BWA (v.0.7.17) Ref -r1188, – et flagg) for nedsamplet kartlegging (5 millioner avlesninger).Basert på anrikningsspesifikke kart (filtrert etter 95 % justeringsidentitet og 80 % lesedekning), ble 10 metagenomer (forventet dekning ≥5×) valgt for montering og ytterligere 49 metagenomer (forventet dekning ≥1×) for innholdskorrelasjon.Ved å bruke samme parametere som ovenfor, ble disse prøvene lagret og 10 ekstra 'Ca'er ble lagt til.MAG Eremiobacterota har blitt restaurert.Disse 16 MAG-ene (ikke teller de to som allerede er i databasen) bringer det totale antallet genomer i den utvidede OMD til 34.815.MAG-er tildeles taksonomiske rangeringer basert på deres genomiske likhet og posisjon i GTDB.18 MAG-er ble dereplikert ved bruk av dRep i 5 arter (intraspesifikk ANI >99%) og 3 slekter (intragenerisk ANI 85% til 94%) innenfor samme familie79.Artsrepresentanter ble valgt manuelt basert på integritet, forurensning og N50.Foreslått nomenklatur er gitt i tilleggsinformasjonen.
Vurder integriteten og forurensningen til 'Ca.MAG Eremiobacterota, vurderte vi tilstedeværelsen av uscMG, så vel som avstamnings- og domenespesifikke enkeltkopimarkørgensett brukt av CheckM og Anvi'o.Identifikasjonen av 2 duplikater av 40 uscMG ble bekreftet ved fylogenetisk rekonstruksjon (se nedenfor) for å utelukke enhver potensiell kontaminering (dette tilsvarer 5% basert på disse 40 markørgenene).En tilleggsstudie av fem representative MAG-er 'Ca.Det lave nivået av forurensninger i disse rekonstruerte genomene ble bekreftet for Eremiobacterota-arter ved å bruke det interaktive Anvi'o-grensesnittet basert på overflod og sekvenssammensetningskorrelasjoner (tilleggsinformasjon)59.
For fylogenomisk analyse valgte vi fem representative MAG-er "Ca".Eudormicrobiaceae", alle arter "Ca.Genomet til Eremiobacterota og medlemmer av andre phyla (inkludert UBP13, Armatimonadota, Patescibacteria, Dormibacterota, Chloroflexota, Cyanobacteria, Actinobacteria og Planctomycetota) er tilgjengelig fra GTDB (r89)13.Alle disse genomene ble annotert som tidligere beskrevet for enkeltkopimarkørgenekstraksjon og BGC-annotering.GTDB-genomene ble bevart i henhold til de ovennevnte integritets- og kontamineringskriteriene.Fylogenetisk analyse ble utført ved bruk av Anvi'o Phylogenetics59 arbeidsflyt.Treet ble konstruert ved bruk av IQTREE (v.2.0.3) (standardalternativer og -bb 1000)80 på en justering av 39 tandem ribosomale proteiner identifisert av Anvi'o (MUSCLE, v.3.8.1551)81.Stillingene hans ble redusert.for å dekke minst 50 % av genomet82 og Planctomycecota ble brukt som en utgruppe basert på GTDB-tretopologien.Ett tre på 40 uscMGs ble bygget med de samme verktøyene og parameterne.
Vi brukte Traitar (v.1.1.2) med standardparametere (fenotype, fra nukleotider)83 for å forutsi vanlige mikrobielle egenskaper.Vi utforsket en potensiell predatorisk livsstil basert på en tidligere utviklet predatorisk indeks84 som avhenger av innholdet av et proteinkodende gen i genomet.Spesifikt bruker vi DIAMOND for å sammenligne proteiner i genomet mot OrthoMCL-databasen (v.4)85 ved å bruke alternativene –more-sensive –id 25 –query-cover 70 –subject-cover 70 –top 20 OG telle genene som tilsvarer markørgenene for rovdyr og ikke-rovdyr.Indeksen er forskjellen mellom antall rov- og ikke-rov-markeringer.Som en tilleggskontroll analyserte vi også "Ca"-genomet.Entotheonella TSY118-faktoren er basert på dens tilknytning til Ca.Eudoremicrobium (stor genomstørrelse og biosyntetisk potensial).Deretter testet vi potensielle koblinger mellom rovdyr- og ikke-rovdyrmarkørgener og det biosyntetiske potensialet til Ca.Eudormicrobiaceae" og fant at ikke mer enn ett gen (fra noen type markørgen, dvs. predator/ikke-predatorgen) overlapper med BGC, noe som tyder på at BGC ikke forvirrer predasjonssignaler.Ytterligere genomisk annotering av krypterte replikoner ble utført ved bruk av TXSSCAN (v.1.0.2) for å spesifikt undersøke sekresjonssystemet, pili og flagella86.
Fem representative 'Ca'er ble kartlagt ved å kartlegge 623 metatranskriptomer fra de prokaryote og eukaryote anrikningsfraksjonene i Tara-havet22,40,87 (ved å bruke BWA, v.0.7.17-r1188, -a flagg).Eudormicrobiaceae genom.BAM-filer ble behandlet med FeatureCounts (v.2.0.1)88 etter 80 % lesedekning og 95 % identitetsfiltrering (med alternativer featureCounts –primary -O –fraction -t CDS,tRNA -F GTF -g ID -p ) Teller antall inserts per gen.De genererte kartene ble normalisert for genlengde og markørgenoverflod mOTU (lengdenormalisert gjennomsnittlig innsettingstall for gener med innsettingstall >0) og log-transformert til 22,74 for å oppnå det relative uttrykket per celle for hvert gennivå, som også forklarer variasjon fra prøve til prøve under sekvensering.Slike forhold tillater komparativ analyse, og reduserer sammensetningsproblemer ved bruk av relativ overflodsdata.Bare prøver med >5 av de 10 mOTU-markørgenene ble vurdert for videre analyse for å tillate at en stor nok del av genomet ble oppdaget.
Den normaliserte transkriptomprofilen til 'Ca.E. taraoceanii ble utsatt for dimensjonalitetsreduksjon ved bruk av UMAP og den resulterende representasjonen ble brukt for uovervåket klynging ved bruk av HDBSCAN (se ovenfor) for å bestemme ekspresjonsstatus.PERMANOVA tester betydningen av forskjeller mellom identifiserte klynger i det opprinnelige (ikke reduserte) avstandsrommet.Differensiell uttrykk mellom disse forholdene ble testet på tvers av genomet (se ovenfor) og 201 KEGG-veier ble identifisert i 6 funksjonelle grupper, nemlig: BGC, sekresjonssystem og flagellære gener fra TXSSCAN, nedbrytningsenzymer (protease og peptidaser), og predatoriske og ikke- rovgener.rov indeksmarkører.For hver prøve beregnet vi median normalisert uttrykk for hver klasse (merk at selve BGC-ekspresjonen beregnes som medianekspresjonen av biosyntetiske gener for den BGC) og testet for signifikans på tvers av tilstander (Kruskal-Wallis-test justert for FDR).
Syntetiske gener ble kjøpt fra GenScript og PCR-primere ble kjøpt fra Microsynth.Phusion-polymerase fra Thermo Fisher Scientific ble brukt til DNA-amplifisering.NucleoSpin-plasmider, NucleoSpin-gel og PCR-rensesett fra Macherey-Nagel ble brukt til DNA-rensing.Restriksjonsenzymer og T4 DNA-ligase ble kjøpt fra New England Biolabs.Andre kjemikalier enn isopropyl-β-d-1-tiogalaktopyranosid (IPTG) (Biosynth) og 1,4-ditiotreitol (DTT, AppliChem) ble kjøpt fra Sigma-Aldrich og brukt uten ytterligere rensing.Antibiotika kloramfenikol (Cm), spectinomycin dihydroklorid (Sm), ampicillin (Amp), gentamicin (Gt) og karbenicillin (Cbn) ble kjøpt fra AppliChem.Bacto Trypton og Bacto Yeast Extract mediekomponenter ble kjøpt fra BD Biosciences.Trypsin for sekvensering ble kjøpt fra Promega.
Gensekvenser ble ekstrahert fra anti-SMASH predikert BGC 75.1.E. malaspinii (Tilleggsinformasjon).
Genene embA (locus, MALA_SAMN05422137_METAG-framework_127-gene_5), embM (locus, MALA_SAMN05422137_METAG-framework_127-gene_4), og embAM (inkludert intergene regioner i synthetic5) ble konstruert med codon5-optimerte og optimerte sekvenser i pUC7. utviklet for uttrykk i E når.embA-genet ble subklonet inn i det første multiple kloningssetet (MCS1) av pACYCDuet-1(CmR) og pCDFDuet-1(SmR) med BamHI- og HindIII-spaltningsseter.embM- og embMopt-genene (kodonoptimalisert) ble subklonet inn i MCS1 pCDFDuet-1(SmR) med BamHI og HindIII og plassert i det andre multiple kloningssetet til pCDFDuet-1(SmR) og pRSFDuet-1(KanR) (MCS2) med NdeI/ChoI.embAM-kassetten ble subklonet inn i pCDFDuet1(SmR) med BamHI- og HindIII-spaltningsseter.orf3/embI-genet (locus, MALA_SAMN05422137_METAG-scaffold_127-gene_3) ble konstruert ved overlappende forlengelse PCR ved bruk av primere EmbI_OE_F_NdeI og EmbI_OE_R_XhoI, fordøyd med NdeI/XhoI, og ligert inn i (-1 pSCDEF-enzymer) og ligert inn i (-1 pSCDEF-enzymer) lementær bord).6).Restriksjonsenzymfordøyelse og ligering ble utført i henhold til produsentens protokoll (New England Biolabs).
Innleggstid: 14. mars 2023