本教程將使用短讀取下一代測(cè)序數(shù)據(jù)來(lái)執(zhí)行金黃色葡萄球菌基因組的部分重新組裝。這些基因組是高度重復(fù)的,對(duì)于短閱讀的組裝者來(lái)說(shuō)是一個(gè)挑戰(zhàn),無(wú)需額外的信息就可以進(jìn)行重建。
大多數(shù)新一代測(cè)序平臺(tái),如Illumina,Solid,Ion Torrent和454都提供了雙端測(cè)序的選項(xiàng)。這會(huì)從相同的DNA片段中產(chǎn)生兩個(gè)序列讀數(shù),這些片段被已知的插入片段長(zhǎng)度分開(kāi),這有助于數(shù)據(jù)的組裝。維基百科對(duì)如何在這里生成和使用配對(duì)的數(shù)據(jù)提供了很好的描述。
練習(xí)1:簡(jiǎn)短閱讀匯編在本練習(xí)中,您將匯編短期閱讀數(shù)據(jù),而不使用配對(duì)結(jié)束信息,并通過(guò)將結(jié)果與您嘗試重建的基因組的原始部分進(jìn)行比較來(lái)了解匯編程序的效果。
練習(xí)2:組裝雙端數(shù)據(jù)接下來(lái),您將使用雙端信息重新運(yùn)行組件。您將學(xué)習(xí)如何設(shè)置配對(duì)讀取,并了解額外信息如何影響程序集。
練習(xí)3:共識(shí)校正最后,您將看到從程序集產(chǎn)生的共有序列,并將其與您嘗試重建的基因組的原始部分對(duì)齊。然后,您將學(xué)習(xí)如何修改共識(shí)生成器來(lái)處理由原始數(shù)據(jù)中的讀取錯(cuò)誤引入的任何不正確的堿基調(diào)用。