Otázka:
Právě jsem nechal sekvenovat svůj genom. Může mi někdo říct, jaké jsou tyto různé formáty souborů?
PedroD
2020-04-08 07:24:32 UTC
view on stackexchange narkive permalink

Právě jsem nechal sekvenovat celý svůj genom a teď si chci trochu pohrát s bioinformatikou. Dokumentace k použitým souborovým standardům je však velmi vzácná.

Toto jsou soubory, které jsem dostal („surová“ data):

Image of various file-format icons

Může mi někdo s určitými podrobnostmi vysvětlit, jaký je každý formát souboru a k čemu se používá?

Přepsaný seznam formátů souborů z obrázku:

  • Indel (TBI)
  • Indel (VCF)
  • SNP (VCF)
  • SNP (TBI)
  • CNV (TBI)
  • CNV (VCF)
  • BAM (BAI)
  • BAM
  • FASTQ R2
  • FASTQ R1
Hlasuji pro uzavření této otázky mimo téma, protože to není biologická otázka, jak je definována pro tento web. Projděte si prosím [prohlídku] a poté si projděte stránky nápovědy počínaje otázkami [Zeptejte se] na tomto webu, kde získáte podrobnosti. Mohlo by se to hodit do [Bioinformatics.SE], ale před odesláním příspěvku prosím zkontrolujte jejich stránky nápovědy. Dík!
„Právě jsem sekvenoval celý svůj genom“: Jak jsi to ze zvědavosti udělal?
@tyersome promiňte, prosím, odpusťte mi. Vlastně jsem hledal zásobu bioinformatiky, ale google mě sem přivedl: X
@bli Žiji s tímto stavem téměř 20 let a nemělo to žádný pokrok, takže jsem: Pravděpodobně to není „rakovina / leukémie / MPN“ (tj. Zhoubný projev PV). Bylo tedy důležité získat surová data k porovnání mých genů s nejnovějšími objevy literatury (standardní testy sekvenování nepokrývají většinu genů, které to ospravedlňují). Nyní mám nezpracovaná data a pro procházení a vyhledávání těchto genů jsem již používal aplikace na sequencing.com (DanteLabs má také Gene Browser, ale rád porovnávám). Co jsem tedy dnes našel: (další komentář)
@bli test použil sliny, a tam je debata, jestli sliny jsou plně zárodečné nebo ne, ale v každém případě, vzhledem k tomu, že můj JAK2 je negativní, a já žiji s tímto "PV" po dobu nejméně 20 let (mám 30), pochybuji, že mít nějakou somatickou mutaciion, takže to musí být vrozené ... Kdyby to byla pravda PV, mohl bych být teď mrtvý. Takže bez dalších okolků jsem zjistil, že: (i) mám velmi vysokou šanci na rozvoj dědičné hemochromatózy (HFE, ELAC2), (ii) poté vyhledám všechny geny, které mohu pro PV, a našel jsem familiární mutace erytrocytózy, několik SNP mutací ve dvou velkých genech (EPAS1, EGLN1) a (iii) ...
@bli ... a (iii) měl jsem podezření, že mám také velmi vysokou afinitu k kyslíkům (brzy otestuji moji p50), takže jsem hledal (zjevně POUZE?) Dokumentovaný gen, který může způsobit erytrocytózu s vysokou afinitou, tyto geny jsou a2 -globin gen, a mám velmi velmi jasnou mutaci, jako je tato: chr16 173,183 G> A. Příspěvek, který jsem se naučil od: doi: 10.1111 / j.1365-2796.2008.02014.x (vyhodnocení krve p50 zvyšuje diagnostickou definici izolované erytrocytózy)
@bli jde o dědičnou hemochromatózu, pravděpodobně ji stále nemám, protože moje hladiny železa jsou normální ... Ale opět mám tuto formu PV, takže se mohou navzájem rušit ... lol
@bli pravděpodobně budu organizovat tato data a publikovat je online volně dostupné světu (DNA, diagnostika atd.).
„Polycythemia vera (PV) je chronický myeloproliferativní novotvar. Prakticky všichni pacienti s PV mají nedostatek železa při prezentaci a / nebo v průběhu onemocnění.“ || Takže lol, jaké byly šance? Nemám žádný nedostatek železa, takže možná můj Hematochroma už je tady a PV to zruší, protože moje hladiny železa byly v minulosti vždy měřeny normálně (stejně jako moje hladiny EPO btw - ne sekundární PV)
Související: [Jaký je rozdíl mezi formáty souborů FASTA, FASTQ a SAM?] (Https://bioinformatics.stackexchange.com/q/14/29).
@PedroD Konkrétně také ze zvědavosti, jak „sekvenujete svůj genom“ od slin? Děláte to sami pomocí stroje dostupného ve vaší výzkumné laboratoři? Nebo posíláte své sliny do laboratoře (jaká je to laboratoř?), Jakou cenu má za to, že vám bude zaslán celý genom jako počítačové soubory?
„Právě jsem sekvenoval celý svůj genom“: je to skvělé, zní to jako sci-fi :)
Ne, lol, udělal jsem to v Dante Labs (jsou z Itálie) a kromě klasických přehledů vám také poskytnou všechna nezpracovaná data ve výše uvedených formátech.
Stroj, který použili, byl Illumina nextseq 6000, zaplatil jsem ~ 250 €, trvá to asi 2 měsíce
@PedroD Pak by snad měl nadpis znít „Měl jsem sekvenován genom ...“
@CarstenS Lepší nyní?
Jeden odpovědět:
Alex Reynolds
2020-04-08 10:51:49 UTC
view on stackexchange narkive permalink

To je skvělá biologická otázka! Ptá se hodně na to, jak se dělá empirická věda v oblasti moderní biologie. Jsem rád, že takové otázky podporujeme od zvědavých lidí, kteří se chtějí dozvědět více.


Váš genom má sekvenci, která je pro vás jedinečná, nadaná vašimi rodiči a malými změnami z náhodného výběru náhoda.

Váš genom je velmi blízký tomu, co se nazývá referenční genom, který se aktualizuje - zřídka 1 - jak se mění platformy, potrubí a algoritmy sekvenování.

Referenční genom je „standardní nositel“. Všechny ostatní jednotlivé genomy jsou porovnány proti němu. Díky tomu může každý porovnávat jablka s jablky, když se snaží říci něco o genomu v souhrnném nebo „velkém obraze“.

Soubory spojené s formátem VCF určují místa v váš genom, který se liší od referenčního genomu - a jak se liší. Mezi tyto rozdíly patří:

  1. Indels - inzerce nebo delece DNA ve srovnání s referencí.
  2. SNP - jednotlivé báze, které se liší od reference.
  3. CNVs - opakované úseky DNA, které se liší od opakování v referenci.
  4. ol>

    Specifika každé z těchto tříd variant mohou být spojena s různými chorobami nebo jinými atributy, díky nimž jste jedineční a zajímaví. O tom později.

    Každý z těchto souborů VCF ve vaší datové sadě má přidružený soubor TBI. Toto je indexový soubor, který vám pomůže rychle načíst prvky zájmu z těchto datových sad pomocí nástroje příkazového řádku s názvem tabix .

    Pokud hledáte rozdíly v konkrétním genomovém intervalu - řekněme všechny rozdíly na chromozomu 4, od bází 123456 do 567890 - můžete tento interval předat tabix spolu se souborem VCF zájmu a vrátí všechny indexy, SNP nebo CNV v tomto rozsahu, pokud v tomto intervalu existují. Tato podmnožina má formát VCF, takže pokud znáte formát, získáte další podrobnosti o těchto rozdílech.

    Soubor ve formátu BAM shromažďuje všechna jednotlivá sekvenční čtení. ve formě, která je mapována nebo srovnávána s referenčním genomem, spolu s některými souhrnnými informacemi, které vám řeknou, jak se tyto čtení liší od referenčního genomu.

    Stejně jako u souborů VCF má i tento soubor BAM indexový soubor BAI. Stejně jako tabix můžete použít samtools nástroj příkazového řádku k extrakci sady čtení přes vaši genomickou oblast zájmu, pokud chcete prozkoumejte je dále.

    Oba tabix a samtools jsou k dispozici od stejného autora. Pokud máte dotazy týkající se těchto nástrojů, je Bioinformatics Stack Exchange skvělým místem pro dotazy 3 . Spousta bioinformatiků tam má s těmito nástrojovými sadami velké zkušenosti a mohou pomoci odpovědět na konkrétnější otázky.

    Dva soubory FASTQ jsou nezpracovaná data sekvence vycházející ze sekvenceru spolu s kvalitními údaji. Čtení sekvence v těchto dvou souborech je spárováno pro vyšší kvalitu a delší čtení, díky čemuž je platforma pro sekvenování rychlejší, levnější a lepší.

    Šel jsem trochu dozadu, tady, schválně.

    Surové soubory FASTQ jsou výchozím materiálem pro výrobu souboru BAM. Soubor BAM se pak zase používá se softwarem pro volání variant ( příklad) ke generování datových sad variant (VCF).

    Proč procházet zpětně těmito datovými sadami?

    Většina lidí se nestará o surová data FASTQ, snad kromě manuálního zarovnání nebo kontroly kvality dat. Pro většinu lidí je často zajímavější nebo užitečnější to, jak se něčí genom liší od reference, která je zachycena v údajích o variacích.

    Souhrnně tyto rozdíly spočívají v tom, jak společnosti jako 23andme prodávají produkt 2 který vám řekne, že jste více příbuzní tak a tak populaci než tak a tak populaci, nebo zda je více či méně pravděpodobné, že budete mít nějaké onemocnění nebo jiný zvláštní, zajímavý fenotypový znak.

    1. I když jsou každých několik let vydávány nové verze tohoto referenčního genomu, pokud víte, jaký původní referenční genom byl použit ke generování vašich souborů BAM a VCF, můžete na základě těchto znalostí opakovat analýzy. Je pravděpodobné, že s vašimi výsledky sekvenování jsou spojena některá metadata, která můžete vyhledat, abyste to zjistili, nebo můžete požádat centrum sekvenování, odkud jste tyto výsledky získali.

    2. Pro trochu více kontextu v této odpovědi na další otázku SE mluvím trochu o SNP a o tom, jak se používají k testování asociace s takzvanými Mendelianovými poruchami, chorobami způsobenými změnami jedné báze, které by vás mohly zajímat co vás motivovalo k sekvencování vašeho genomu, na prvním místě: https://biologie.stackexchange.com/a/88839/5075

    3. I zde se můžete na ně zeptat, ale jistým lidem uděláte mrzutost. Raději za tím přejděte na jiný web SE.

OMG, toto je nejúplnější vysvětlení, jaké jsem četl. Děkuji! S tímto byste měli vytvořit příspěvek na blogu, nemohl jsem najít žádný, který by takto zavedl všechny formáty, ve skutečnosti jsou informace rozptýleny neorganizovaným způsobem. Dík!
+1, ale zdá se, že mu chybí podstatná informace. Pokud je referenční genom pravidelně aktualizován, jak lze zjistit, ke které verzi referenčního genomu jsou data relativní?
@JBentley nemůžete poznat z formátů souborů (o kterých je tato otázka). Někdy mohou bam soubory mít indikace, ale jediný způsob, jak jistým způsobem je požádat osobu, která soubory vygenerovala.
Referenční genomy @JBentley nejsou příliš často aktualizovány. Ale mění se každých několik let a výběr reference určuje výsledek souborů BAM a VCF, což jsou analytické produkty surových čtení FASTQ. Pro člověka je několik běžných klíčových slov referenčního genomu `hg38` a, méně méně,` hg19`. Možná, že některý soubor metadat, který zde není uveden v otázce, využívá jeden z těchto štítků, ale jak uvedl @Nicolai,, který žádá centrum sekvenování, odkud data pocházejí, by také mělo dostat odpověď.
Prosím, hlasujte! Jsem také bioinformatik a to je vynikající odpověď. Také jen skutečnost, že někdo dokáže položit tuto otázku, najednou zaostřila na to, jak daleko se posunula sekvence od doby, kdy jsem začal.


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 4.0, pod kterou je distribuován.
Loading...