練習2b:檢查程序集并提取共識
從組裝子文件夾打開aru2重疊群,了解正向和反向序列是如何組裝的。
在序列查看器右側的“?顯示”?選項卡下,檢查調(diào)用共有序列的選項。當從同一個基因組裝正向和反向序列時,從每個基地的最高質(zhì)量序列中調(diào)用共識是合理的,因此選擇共識下的最高質(zhì)量。
在高級選項卡下,將基本號碼設置為全部序列。這將顯示來自每個序列上原始序列讀數(shù)的堿基編號,并使您能夠看到兩個序列是如何組裝的。您可以看到R序列現(xiàn)在處于相反的方向。
在Graphs?選項卡下,選中Coverage?和Identity?框。覆蓋圖顯示共有序列基于多少個序列,并且同一性圖表指示參與序列是否相同。盡管您仍然可以看到質(zhì)量差的序列已被標記為修剪(粉紅色條),但您可以看到匯編器沒有使用此序列調(diào)用共有序列或計算覆蓋率 - 只有該區(qū)域中的單個良好序列具有已被使用。
對于Aru2,只有一個堿基在正向和反向序列之間存在分歧。放大并找到這個基地。您可以使用cntrl /命令D鍵盤快捷鍵快速跳轉(zhuǎn)到存在分歧的地方。在這個位置,反向序列中的堿基被錯誤地稱為 - 它應該是A,但被稱為C.
如果您愿意,您可以在此位置編輯錯誤序列調(diào)用,但由于我們選擇基于最高質(zhì)量調(diào)用共有序列,所以共有序列中的堿基是正確的。這是用于下游分析的共有序列,因此如果共識是正確的,則不必編輯個體閱讀中的每個不同意見。選擇共識序列并單擊提取。命名您提取的序列(例如aru2 consensus)并單擊確定。
現(xiàn)在打開ort1程序集。這個序列有幾個雜合堿基被注釋,應該檢查它們以確保它們被正確地調(diào)用。單擊ort1_R序列上的第一個雜合性注釋(在共有序列的基數(shù)68處)并放大到100%。在這個堿基上,單個“G”峰已被正確調(diào)用,所以這被錯誤地鑒定為雜合堿基,因為與相鄰的“C”堿基重疊很小。通過右鍵單擊并刪除此注釋并選擇注釋→刪除。
現(xiàn)在使用cntrl / command-D跳轉(zhuǎn)到下一個雜合基。在此基礎上(共有序列上的第170位),在正向和反向讀數(shù)中存在真正的雙峰,其中C和T峰疊加在彼此之上,表明這是真正的雜合基。被稱為共有序列的堿基應該是“Y”,表示該位置含有C和T核苷酸(見IUPAC注釋)。
現(xiàn)在檢查本裝配中剩余的雜合堿基,并根據(jù)需要添加IUPAC模糊編碼來編輯共有序列,以反映雜合位置。嘗試進行任何更改之前,請勿忘記單擊允許編輯。保存更改并選擇是當系統(tǒng)詢問是否要應用更改原來的順序,然后選擇保守序列并提取它。
打開每個其他重疊群,并檢查正向和反向閱讀和雜合體堿基之間的不一致。如果需要,編輯它們,然后提取每個序列的共有序列。