2016年12月,國際學(xué)術(shù)期刊核酸學(xué)習(xí)(Nucleic Acids Research)發(fā)表了中國科學(xué)院北京生命科學(xué)學(xué)習(xí)院計(jì)算基因組學(xué)實(shí)驗(yàn)室趙方慶團(tuán)隊(duì)題為The combination of direct and paired link graphs can boost repetitive genome assembly 的最新學(xué)習(xí)成果。該學(xué)習(xí)基于序列重疊局部構(gòu)建了contig的直接連接信息圖,并在其配對(duì)連接信息的幫助下,解決了由短片段重復(fù)序列造成的基因組拼接碎片化問題,在保證準(zhǔn)確性的前提下延伸了序列的長度,獲得了更完整、間隙更少的基因組序列。 一直以來,重復(fù)序列都是基因組拼接的主要限制因素,而富含短片段重復(fù)序列區(qū)域的組裝更是難以跨越的障礙。這局部序列的缺失會(huì)導(dǎo)致基因斷裂,使某些關(guān)鍵遺傳信息在后續(xù)的學(xué)習(xí)分析中被遺漏。此前的序列組裝算法僅僅使用配對(duì)連接信息,忽視了contig本身的連接關(guān)系,不僅使算法難度增加,而且拼接結(jié)果也存在間隙序列多、錯(cuò)誤連接多等問題。特別是對(duì)于短片段重復(fù)序列,歷來的組裝算法都選擇直接丟棄,使得短片段重復(fù)序列富集區(qū)域無法有效拼接。 針對(duì)這種情況,趙方慶團(tuán)隊(duì)開發(fā)了基于直接連接信息的基因組組裝算法inGAP-sf。該方法根據(jù)德布魯因圖的特征,基于contig的重疊局部構(gòu)建了直接連接信息圖,在配對(duì)連接信息的監(jiān)督下拓?fù)渎窂剑?duì)這些路徑進(jìn)行整合,同時(shí)引入了貝葉斯模型用于去除錯(cuò)誤路徑,從而得到高質(zhì)量的拼接結(jié)果。通過在多個(gè)模擬數(shù)據(jù)和真實(shí)測序數(shù)據(jù)上的測試,inGAP-sf的結(jié)果與其他方法得到的拼接序列相比,連續(xù)性、準(zhǔn)確性、完整性都有明顯的提高。該學(xué)習(xí)使用的拼接策略極大程度地完善了已有序列組裝算法的缺乏,為序列拼接提供了新的思路。inGAP-sf已發(fā)布在http://sourceforge.net/projects/ingap-sf,供相關(guān)學(xué)習(xí)人員使用。 該工作由趙方慶課題組的史文聿和冀培豐共同完成,并得到國家自然科學(xué)基金委和科技部重點(diǎn)研發(fā)計(jì)劃的經(jīng)費(fèi)支持。 論文鏈接 ![]() inGAP-sf算法流程 來源:北京生命科學(xué)學(xué)習(xí)院 編輯:葉瑞優(yōu)北京生科院提出基因組重復(fù)區(qū)域組裝新算法 | 責(zé)任編輯:蟲子 |