Welcome!

This community is for professionals and enthusiasts of our products and services. Share and discuss the best content and new marketing ideas, build your professional profile and become a better marketer together.

Hide Intro Register

Geneious中使用Sanger測序數據進行系統發育和群體遺傳研究

提供于

Johnson

在 18-5-20 下午1:07 ? 9,697 瀏覽次數

Flag

回復
備注
共享

這個問題已經包含在官方文檔.

--Johnson--

Johnson

開 18-5-20 下午1:08

基于機器學習翻譯，僅供參考

在本教程中，您將學習從Sanger測序運行產生的典型原始序列數據，并學習如何編輯和對齊下游分析的色譜圖，如構建系統發育樹或計算核苷酸多樣性。本教程涵蓋批量修剪質量差的序列，編輯序列或程序集的序列，發現雜合體和錯誤地稱為堿基，以及從同一基因的正向和反向讀取構建共有序列。

練習1：編輯線粒體DNA序列??編輯和比對藍山雀特有的一組線粒體DNA序列。

練習2：?處理雙向核序列數據編輯和組裝來自三個蘆葦鳴鳥物種的核基因序列的正向和反向讀數。

本教程需要安裝Heterozygotes插件。要安裝它，請轉至工具 - >插件，在可用插件列表中找到它，然后單擊安裝。

線粒體DNA序列 - 簡介

藍雀物種復合體包括在整個歐洲發現的C. caeruleus，在北非和加那利群島發現的C. teneriffae，以及在亞洲和東歐發現的C. cyanus。線粒體DNA數據可用于研究這些物種的系統地理學和種群結構。

這里提供的數據集包括來自C. caeruleus和C. teneriffae的線粒體DNA控制區的34個序列。還包括來自大山雀帕魯斯大學的序列，因為這將是用于系統發育分析的合適的外群。

下表給出了本教程中序列的采樣位置和代碼

碼	種類	起源
CEH	C. teneriffae	加那利群島 - 埃爾耶羅
CFU	C. teneriffae	加那利群島 - 富埃特文圖拉
CGC	C. teneriffae	加那利群島 - 大加那利島
CLG	C. teneriffae	加那利群島 - 戈梅拉
CLP	C. teneriffae	加那利群島 - 拉帕爾馬
CLA	C. teneriffae	加那利群島 - 蘭薩羅特島
CTE	C. teneriffae	加那利群島 - 特內里費島
MCE	C. teneriffae	摩洛哥 - 休達
ECA	C. caeruleus	西班牙 - 加的斯
SRE	C. caeruleus	瑞典 - Revinge
GB	C. caeruleus	英國 - 牛津
Pmaj	體育專業	瑞典 - Kvismaren

練習1：編輯線粒體DNA序列

選擇包含來自線粒體DNA控制區域的原始序列數據的序列列表。雙擊列表在新窗口中打開它。在序列視圖右側的常規選項卡中，選擇根據質量顯示顏色。這將根據該基地的序列質量突出顯示堿基電話 - 藍色越深，質量越低。

縮小時，您將看不到各個堿基或色譜峰，但會顯示一張圖表，顯示序列質量。如果向下滾動序列，您會看到每個序列結束時序列質量顯著下降。放大至少50％，查看色譜圖在良好質量區域和低質量區域中的效果。其中一個序列（CLG3）沒有序列，表明測序反應失敗，因此將其從列表中刪除。在序列變得不可讀之前，序列SRE1只有一小段高質量的序列，因此也要刪除這一序列。保存編輯后的序列列表并關閉窗口。

通過單擊注釋和預測→修剪結束來修剪序列末端的質量較差的基礎。選擇“從序列中刪除新的修剪區域”，并將錯誤概率限制設置為0.01，如下面的屏幕截圖所示。點擊確定，然后在修整完成后保存。

從這里開始清理和編輯序列一旦對齊后，效率會更高。再次選擇序列列表（Cyanistes CR序列），然后單擊對齊/組裝→多重對齊。選擇MUSCLE?對齊算法并使用默認設置運行它。

雙擊對齊將其打開并放大到約50％，以便可以看到堿基調用和色譜圖。您可能需要檢查顯示圖形的圖形選項卡中才能看到的色譜圖。滾動到3'末端的堿基，您會看到在GGGGGGGGAAGGGGGGGGG motif之后堿基調用變弱（請參閱下面的截圖）。在許多序列中，這個主題之后的區域已經被刪除。通過單擊允許編輯來修剪剩余的序列，然后從共同序列的堿基563開始選擇堿基并敲擊刪除鍵。編輯共有序列會將更改應用于對齊中的所有序列。您還應該刪除比對開始時的前20個堿基，以使序列長度相同，因為該區域已在多個序列中被刪除。

單擊保存并在詢問您是否要將更改應用于原始序列時選擇是。請注意，如果要保留原始原始數據文件，有時最好不要將更改應用于原始序列。

現在可以使用Geneious中的Tree?函數，利用這種比對來構建這些序列的系統發生樹。有關構建和解釋系統發育樹的更多信息，請參閱我們網站上提供的Geneious系統發育分析教程。

練習2：處理雙向核子序列數據

本練習將為您提供更多練習處理和編輯Sanger測序產生的原始序列數據。

Acrocephalus序列列表包含來自3種不同尖頭war鶯物種的核基因的正向和反向序列。序列用三個字母的代碼來命名，以表明它們的物種（aru =?A. arundinaceus，大蘆葦鶯; dum =?A. dumetorum，Blyth's reed warbler;或=?orientalis，Oriental reed warbler），并用'F'或'R'來表明它們是用正向引物還是反向引物進行測序。

雙擊Acrocephalus序列列表以在新窗口中打開它。向下滾動以獲得序列的概述。請注意，在一些序列中，序列質量會下降（例如dum2和dum4序列）。

通過單擊注釋和預測→修剪結束來修剪序列末端的質量差序列。這次我們將注釋修剪區域而不是完全刪除它們，所以選擇“注釋新修剪區域”。將錯誤概率限制設置為0.01，然后單擊確定。修剪完成后保存順序列表并關閉順序列表窗口。

我們現在需要從列表中提取序列文件以設置讀取方向并使用雜合子查找程序，因為這些選項在序列列表中不起作用。選擇Acrocephalus序列列表并單擊序列→從列表中提取序列。選擇將序列保存在稱為Acrocephalus序列的子文件夾中。

我們現在將在各個序列文件上運行Heterozygote Finder，以識別并注釋在相同位置上調用兩個不同核苷酸的堿基。由于這些核序列均代表兩個等位基因，所以可能存在兩個等位基因具有不同堿基且存在雙色譜峰的雜合位置。選擇Acrocephalus Sequences文件夾中的所有文件并單擊Annotate and Predict→Find Heterozygotes?。取消選中已修整區域中的搜索，因為序列質量差的區域不會給出準確的結果。將峰相似性設置為50％，并選擇注釋雜合體堿基。

點擊確定并在分析完成后保存序列。在我們組裝正向和反向序列之后，我們將回到被標注為雜合體的堿基。

我們現在將為每個人組裝正向和反向序列。為確保序列在每一對中以相同方向組裝，我們首先需要設置讀取方向。按住命令/ cntrl鍵，選擇文件夾中的所有轉發序列（以F作為最后一個字母命名），然后選擇序列→設置讀取方向。選中Forward?框并點擊OK?。不需要設置反向讀取的方向。

現在選擇文件夾中的所有序列，然后選擇對齊/組裝→De Novo組裝。點擊Assemble by?，然后選擇名稱的第一部分，用下劃線分隔。這將為每對正向和反向序列產生一個重疊群。將靈敏度設置為最高靈敏度/慢速，并確保保存裝配報告，保存未使用讀數的列表，保存子文件夾并保存重疊群。選擇使用現有修剪區域- 使用此選項，匯編器將忽略注釋為修剪的區域，但您仍然能夠在序列中看到這些區域。點擊好的。

現在已創建一個名為Assembly的子文件夾，其中包含重疊群和Assembly報告。您還會看到未使用的讀取序列列表，其中包含無法組合的序列。看看這個序列列表，你會發現這些序列只包含一小段優質序列（dum2和dum4）。

練習2b：檢查程序集并提取共識

從組裝子文件夾打開aru2重疊群，了解正向和反向序列是如何組裝的。

在序列查看器右側的“?顯示”?選項卡下，檢查調用共有序列的選項。當從同一個基因組裝正向和反向序列時，從每個基地的最高質量序列中調用共識是合理的，因此選擇共識下的最高質量。

在高級選項卡下，將基本號碼設置為全部序列。這將顯示來自每個序列上原始序列讀數的堿基編號，并使您能夠看到兩個序列是如何組裝的。您可以看到R序列現在處于相反的方向。

在Graphs?選項卡下，選中Coverage?和Identity?框。覆蓋圖顯示共有序列基于多少個序列，并且同一性圖表指示參與序列是否相同。盡管您仍然可以看到質量差的序列已被標記為修剪（粉紅色條），但您可以看到匯編器沒有使用此序列調用共有序列或計算覆蓋率 - 只有該區域中的單個良好序列具有已被使用。

對于Aru2，只有一個堿基在正向和反向序列之間存在分歧。放大并找到這個基地。您可以使用cntrl /命令D鍵盤快捷鍵快速跳轉到存在分歧的地方。在這個位置，反向序列中的堿基被錯誤地稱為 - 它應該是A，但被稱為C.

如果您愿意，您可以在此位置編輯錯誤序列調用，但由于我們選擇基于最高質量調用共有序列，所以共有序列中的堿基是正確的。這是用于下游分析的共有序列，因此如果共識是正確的，則不必編輯個體閱讀中的每個不同意見。選擇共識序列并單擊提取。命名您提取的序列（例如aru2 consensus）并單擊確定。

現在打開ort1程序集。這個序列有幾個雜合堿基被注釋，應該檢查它們以確保它們被正確地調用。單擊ort1_R序列上的第一個雜合性注釋（在共有序列的基數68處）并放大到100％。在這個堿基上，單個“G”峰已被正確調用，所以這被錯誤地鑒定為雜合堿基，因為與相鄰的“C”堿基重疊很小。通過右鍵單擊并刪除此注釋并選擇注釋→刪除。

現在使用cntrl / command-D跳轉到下一個雜合基。在此基礎上（共有序列上的第170位），在正向和反向讀數中存在真正的雙峰，其中C和T峰疊加在彼此之上，表明這是真正的雜合基。被稱為共有序列的堿基應該是“Y”，表示該位置含有C和T核苷酸（見IUPAC注釋）。

現在檢查本裝配中剩余的雜合堿基，并根據需要添加IUPAC模糊編碼來編輯共有序列，以反映雜合位置。嘗試進行任何更改之前，請勿忘記單擊允許編輯。保存更改并選擇是當系統詢問是否要應用更改原來的順序，然后選擇保守序列并提取它。

打開每個其他重疊群，并檢查正向和反向閱讀和雜合體堿基之間的不一致。如果需要，編輯它們，然后提取每個序列的共有序列。

練習2c：裝配參考

為了組裝兩個以前不能工作的A.umeumeum序列（因為序列的重疊部分質量差并且被修剪掉），我們將組裝部分序列對照參考。點擊Assembly?上的Unused Reads?序列列表，然后按住控制/命令鍵，點擊我們將用作參考的dum3一致序列。點擊對齊/組裝→映射到參考。確保將dum3一致性序列設置為引用，然后選擇Assemble by?，然后選擇名稱的第一部分，并用下劃線分隔。設置其他選項，如下面的截圖所示。

現在應該有兩個新的重疊群組件，一個用于dum2，一個用于dum4。打開dum2組件。您現在應該能夠明白為什么這些不使用de-novo assembly進行組裝，因為有一個4 bp的區域，沒有高質量的序列在F和R序列之間重疊。在這兩個序列中進行了修剪的雙峰區域從這里開始 - 這可能表示一個indel，其中兩個等位基因之一包含一個缺失。

通過在共有序列中選擇4 bp缺口并單擊添加注釋，為共有序列添加注釋以突出顯示indel?。將注釋類型設置為Polymorphism?，并將其命名為Indel?。點擊確定，你現在應該看到這個注釋添加到共識序列。單擊保存，然后將dum2共有序列提取到新文件。

對包含dum4序列的其他引用程序集重復此過程。

練習2d：分析共識序列

您現在應該已經為所有9個樣本生成了共有序列。這些序列可以進行比對，以便它們可以用于群體遺傳或系統發育分析。選擇所有共有序列，然后單擊對齊/組裝→多重對齊。使用Geneious Aligner進行默認設置。

打開對齊并單擊距離選項卡以獲得物種內部和物種之間核苷酸多樣性的概述。如你所料，序列在物種內比物種間更相似。事實上，A. arundinaceus（aru）的序列是相同的。您現在可以使用Geneious中的Tree構建工具對序列進行系統發育分析，或者對于更高級的群體遺傳分析，可以將Fasta或Nexus格式的比對輸出到DNAsp等程序中進行分析。

教程結束。

備注
Flag

新的討論

隨時了解最新的技術快訊

關于這個技術問答社區

Geneious最新版生物信息學軟件相關的技術文檔、技術手冊、技術教程、技術資料分享和問答閱讀指南

問題工具

1 關注者

統計數據

問: 18-5-20 下午1:07
看到: 9697 時間
最后更新： 18-5-20 下午1:08

国内精品久久久久久影院8f-国内精品久久久久久中文字幕-国内精品久久久久丫网址-国内精品久久久久影-国内精品久久久久影院6

Welcome!

Geneious中使用Sanger測序數據進行系統發育和群體遺傳研究

Johnson

線粒體DNA序列 - 簡介

練習1：編輯線粒體DNA序列

練習2：處理雙向核子序列數據

練習2b：檢查程序集并提取共識

練習2c：裝配參考

練習2d：分析共識序列

隨時了解最新的技術快訊

關于這個技術問答社區

問題工具

統計數據