To je skvělá biologická otázka! Ptá se hodně na to, jak se dělá empirická věda v oblasti moderní biologie. Jsem rád, že takové otázky podporujeme od zvědavých lidí, kteří se chtějí dozvědět více.
Váš genom má sekvenci, která je pro vás jedinečná, nadaná vašimi rodiči a malými změnami z náhodného výběru náhoda.
Váš genom je velmi blízký tomu, co se nazývá referenční genom, který se aktualizuje - zřídka 1 - jak se mění platformy, potrubí a algoritmy sekvenování.
Referenční genom je „standardní nositel“. Všechny ostatní jednotlivé genomy jsou porovnány proti němu. Díky tomu může každý porovnávat jablka s jablky, když se snaží říci něco o genomu v souhrnném nebo „velkém obraze“.
Soubory spojené s formátem VCF určují místa v váš genom, který se liší od referenčního genomu - a jak se liší. Mezi tyto rozdíly patří:
- Indels - inzerce nebo delece DNA ve srovnání s referencí.
- SNP - jednotlivé báze, které se liší od reference.
- CNVs - opakované úseky DNA, které se liší od opakování v referenci.
ol> Specifika každé z těchto tříd variant mohou být spojena s různými chorobami nebo jinými atributy, díky nimž jste jedineční a zajímaví. O tom později.
Každý z těchto souborů VCF ve vaší datové sadě má přidružený soubor TBI. Toto je indexový soubor, který vám pomůže rychle načíst prvky zájmu z těchto datových sad pomocí nástroje příkazového řádku s názvem tabix
.
Pokud hledáte rozdíly v konkrétním genomovém intervalu - řekněme všechny rozdíly na chromozomu 4, od bází 123456 do 567890 - můžete tento interval předat tabix
spolu se souborem VCF zájmu a vrátí všechny indexy, SNP nebo CNV v tomto rozsahu, pokud v tomto intervalu existují. Tato podmnožina má formát VCF, takže pokud znáte formát, získáte další podrobnosti o těchto rozdílech.
Soubor ve formátu BAM shromažďuje všechna jednotlivá sekvenční čtení. ve formě, která je mapována nebo srovnávána s referenčním genomem, spolu s některými souhrnnými informacemi, které vám řeknou, jak se tyto čtení liší od referenčního genomu.
Stejně jako u souborů VCF má i tento soubor BAM indexový soubor BAI. Stejně jako tabix
můžete použít samtools
nástroj příkazového řádku k extrakci sady čtení přes vaši genomickou oblast zájmu, pokud chcete prozkoumejte je dále.
Oba tabix
a samtools
jsou k dispozici od stejného autora. Pokud máte dotazy týkající se těchto nástrojů, je Bioinformatics Stack Exchange skvělým místem pro dotazy 3 . Spousta bioinformatiků tam má s těmito nástrojovými sadami velké zkušenosti a mohou pomoci odpovědět na konkrétnější otázky.
Dva soubory FASTQ jsou nezpracovaná data sekvence vycházející ze sekvenceru spolu s kvalitními údaji. Čtení sekvence v těchto dvou souborech je spárováno pro vyšší kvalitu a delší čtení, díky čemuž je platforma pro sekvenování rychlejší, levnější a lepší.
Šel jsem trochu dozadu, tady, schválně.
Surové soubory FASTQ jsou výchozím materiálem pro výrobu souboru BAM. Soubor BAM se pak zase používá se softwarem pro volání variant ( příklad) ke generování datových sad variant (VCF).
Proč procházet zpětně těmito datovými sadami?
Většina lidí se nestará o surová data FASTQ, snad kromě manuálního zarovnání nebo kontroly kvality dat. Pro většinu lidí je často zajímavější nebo užitečnější to, jak se něčí genom liší od reference, která je zachycena v údajích o variacích.
Souhrnně tyto rozdíly spočívají v tom, jak společnosti jako 23andme prodávají produkt 2 který vám řekne, že jste více příbuzní tak a tak populaci než tak a tak populaci, nebo zda je více či méně pravděpodobné, že budete mít nějaké onemocnění nebo jiný zvláštní, zajímavý fenotypový znak.
1. I když jsou každých několik let vydávány nové verze tohoto referenčního genomu, pokud víte, jaký původní referenční genom byl použit ke generování vašich souborů BAM a VCF, můžete na základě těchto znalostí opakovat analýzy. Je pravděpodobné, že s vašimi výsledky sekvenování jsou spojena některá metadata, která můžete vyhledat, abyste to zjistili, nebo můžete požádat centrum sekvenování, odkud jste tyto výsledky získali.
2. Pro trochu více kontextu v této odpovědi na další otázku SE mluvím trochu o SNP a o tom, jak se používají k testování asociace s takzvanými Mendelianovými poruchami, chorobami způsobenými změnami jedné báze, které by vás mohly zajímat co vás motivovalo k sekvencování vašeho genomu, na prvním místě: https://biologie.stackexchange.com/a/88839/5075
3. I zde se můžete na ně zeptat, ale jistým lidem uděláte mrzutost. Raději za tím přejděte na jiný web SE.