Právě jsem nechal sekvenovat svůj genom. Může mi někdo říct, jaké jsou tyto různé formáty souborů?

PedroD

2020-04-08 07:24:32 UTC

view on stackexchange narkive permalink

Právě jsem nechal sekvenovat celý svůj genom a teď si chci trochu pohrát s bioinformatikou. Dokumentace k použitým souborovým standardům je však velmi vzácná.

Toto jsou soubory, které jsem dostal („surová“ data):

Může mi někdo s určitými podrobnostmi vysvětlit, jaký je každý formát souboru a k čemu se používá?

Přepsaný seznam formátů souborů z obrázku:

Indel (TBI)

Indel (VCF)

SNP (VCF)

SNP (TBI)

CNV (TBI)

CNV (VCF)

BAM (BAI)

BAM

FASTQ R2

FASTQ R1

Hlasuji pro uzavření této otázky mimo téma, protože to není biologická otázka, jak je definována pro tento web. Projděte si prosím [prohlídku] a poté si projděte stránky nápovědy počínaje otázkami [Zeptejte se] na tomto webu, kde získáte podrobnosti. Mohlo by se to hodit do [Bioinformatics.SE], ale před odesláním příspěvku prosím zkontrolujte jejich stránky nápovědy. Dík!

„Právě jsem sekvenoval celý svůj genom“: Jak jsi to ze zvědavosti udělal?

@tyersome promiňte, prosím, odpusťte mi. Vlastně jsem hledal zásobu bioinformatiky, ale google mě sem přivedl: X

@bli Žiji s tímto stavem téměř 20 let a nemělo to žádný pokrok, takže jsem: Pravděpodobně to není „rakovina / leukémie / MPN“ (tj. Zhoubný projev PV). Bylo tedy důležité získat surová data k porovnání mých genů s nejnovějšími objevy literatury (standardní testy sekvenování nepokrývají většinu genů, které to ospravedlňují). Nyní mám nezpracovaná data a pro procházení a vyhledávání těchto genů jsem již používal aplikace na sequencing.com (DanteLabs má také Gene Browser, ale rád porovnávám). Co jsem tedy dnes našel: (další komentář)

@bli test použil sliny, a tam je debata, jestli sliny jsou plně zárodečné nebo ne, ale v každém případě, vzhledem k tomu, že můj JAK2 je negativní, a já žiji s tímto "PV" po dobu nejméně 20 let (mám 30), pochybuji, že mít nějakou somatickou mutaciion, takže to musí být vrozené ... Kdyby to byla pravda PV, mohl bych být teď mrtvý. Takže bez dalších okolků jsem zjistil, že: (i) mám velmi vysokou šanci na rozvoj dědičné hemochromatózy (HFE, ELAC2), (ii) poté vyhledám všechny geny, které mohu pro PV, a našel jsem familiární mutace erytrocytózy, několik SNP mutací ve dvou velkých genech (EPAS1, EGLN1) a (iii) ...

@bli ... a (iii) měl jsem podezření, že mám také velmi vysokou afinitu k kyslíkům (brzy otestuji moji p50), takže jsem hledal (zjevně POUZE?) Dokumentovaný gen, který může způsobit erytrocytózu s vysokou afinitou, tyto geny jsou a2 -globin gen, a mám velmi velmi jasnou mutaci, jako je tato: chr16 173,183 G> A. Příspěvek, který jsem se naučil od: doi: 10.1111 / j.1365-2796.2008.02014.x (vyhodnocení krve p50 zvyšuje diagnostickou definici izolované erytrocytózy)

@bli jde o dědičnou hemochromatózu, pravděpodobně ji stále nemám, protože moje hladiny železa jsou normální ... Ale opět mám tuto formu PV, takže se mohou navzájem rušit ... lol

@bli pravděpodobně budu organizovat tato data a publikovat je online volně dostupné světu (DNA, diagnostika atd.).

„Polycythemia vera (PV) je chronický myeloproliferativní novotvar. Prakticky všichni pacienti s PV mají nedostatek železa při prezentaci a / nebo v průběhu onemocnění.“ || Takže lol, jaké byly šance? Nemám žádný nedostatek železa, takže možná můj Hematochroma už je tady a PV to zruší, protože moje hladiny železa byly v minulosti vždy měřeny normálně (stejně jako moje hladiny EPO btw - ne sekundární PV)

Související: [Jaký je rozdíl mezi formáty souborů FASTA, FASTQ a SAM?] (Https://bioinformatics.stackexchange.com/q/14/29).

@PedroD Konkrétně také ze zvědavosti, jak „sekvenujete svůj genom“ od slin? Děláte to sami pomocí stroje dostupného ve vaší výzkumné laboratoři? Nebo posíláte své sliny do laboratoře (jaká je to laboratoř?), Jakou cenu má za to, že vám bude zaslán celý genom jako počítačové soubory?

„Právě jsem sekvenoval celý svůj genom“: je to skvělé, zní to jako sci-fi :)

Ne, lol, udělal jsem to v Dante Labs (jsou z Itálie) a kromě klasických přehledů vám také poskytnou všechna nezpracovaná data ve výše uvedených formátech.

Stroj, který použili, byl Illumina nextseq 6000, zaplatil jsem ~ 250 €, trvá to asi 2 měsíce

@PedroD Pak by snad měl nadpis znít „Měl jsem sekvenován genom ...“

@CarstenS Lepší nyní?