2016年11月,國際學(xué)術(shù)期刊基因組生物學(xué)(Genome Biology)在線發(fā)表了中國科學(xué)院北京生命科學(xué)學(xué)習(xí)院計(jì)算基因組學(xué)實(shí)驗(yàn)室學(xué)習(xí)員趙方慶團(tuán)隊(duì)題為A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes 的最新學(xué)習(xí)成果。該學(xué)習(xí)提出一種基于密碼子de Bruijn圖的新算法,使用非拼接策略直接對轉(zhuǎn)錄組測序數(shù)據(jù)進(jìn)行編碼基因識別和重建,解決了編碼基因識別效率低且不完整的難題,該方法在非模式生物的進(jìn)化基因組學(xué)習(xí)領(lǐng)域具有很大的應(yīng)用前景。 近年來,高性能計(jì)算技術(shù)和高通量測序技術(shù)的快速發(fā)展促進(jìn)了大量基因組測序計(jì)劃的實(shí)施完成,從而獲得了海量的生物組學(xué)數(shù)據(jù)。面對轉(zhuǎn)錄組數(shù)據(jù),科學(xué)家們的首要任務(wù)是獲得它們的編碼基因信息。傳統(tǒng)的基因識別工具主要依賴于RNA-seq組裝軟件得到的轉(zhuǎn)錄本進(jìn)行基因鑒定。這些工具的缺點(diǎn)之一是組裝軟件對測序錯(cuò)誤高度敏感并且不能有效處理重復(fù)序列區(qū)域,因此導(dǎo)致在此基礎(chǔ)上進(jìn)行基因識別會(huì)產(chǎn)生大量高度冗余和片段化的基因序列。此外,這些工具需要過度依賴同源基因數(shù)據(jù)庫或參考基因組,不能有效地應(yīng)用于非模式物種的轉(zhuǎn)錄組數(shù)據(jù)的基因識別。因此,一種基于轉(zhuǎn)錄組數(shù)據(jù)重建編碼基因的新算法亟待開發(fā)。 北京生科院趙方慶團(tuán)隊(duì)針對轉(zhuǎn)錄組數(shù)據(jù)分析中的編碼基因識別問題,開發(fā)了一種基于密碼子de Bruijn圖的新算法inGAP-CDG。該方法不依賴于參考基因組,直接從未拼接的轉(zhuǎn)錄組測序數(shù)據(jù)中進(jìn)行基因識別。通過使用模擬數(shù)據(jù)集和公共數(shù)據(jù)庫的真實(shí)轉(zhuǎn)錄組測序數(shù)據(jù),他們對預(yù)測基因的長度、靈敏度、冗余度、錯(cuò)誤率和雜合度進(jìn)行了系統(tǒng)性的評估。與其它方法相比,inGAP-CDG構(gòu)建出的編碼基因序列具有長度更長、冗余度更低和特異度更高的優(yōu)勢。該學(xué)習(xí)為基因識別提供了新的思路和方法,進(jìn)而對此后的系統(tǒng)發(fā)育和功能基因組學(xué)學(xué)習(xí)具有重要的應(yīng)用價(jià)值。inGAP-CDG已公開發(fā)布在免費(fèi)的開源網(wǎng)站SourceForge上(http://sourceforge.net/projects/ingap-cdg/),以方便相關(guān)學(xué)習(xí)者下載使用。 該工作由趙方慶課題組的博士學(xué)習(xí)生彭公信和冀培豐共同完成,并得到國家自然科學(xué)基金委和科技部重點(diǎn)研發(fā)計(jì)劃的經(jīng)費(fèi)支持。 論文鏈接 ![]() 基于轉(zhuǎn)錄組數(shù)據(jù)(左)和基因組數(shù)據(jù)(右)的de Bruijn圖 來源:北京生命科學(xué)學(xué)習(xí)院 編輯:葉瑞優(yōu)北京生科院提出編碼基因重建的新方法 | 責(zé)任編輯:蟲子 |