近些年在生物醫(yī)學(xué)領(lǐng)域除了腫瘤免疫,最火的莫過于生物信息學(xué)。那么什么是生物信息學(xué)?
生物信息學(xué)(bioinformatics)利用應(yīng)用數(shù)學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的方法研究生物學(xué)的問題。生物信息學(xué)以各種各樣的生物學(xué)數(shù)據(jù)為研究材料,通過計(jì)算機(jī)處理后再進(jìn)行結(jié)果解讀,處理方法包括對生物學(xué)數(shù)據(jù)的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計(jì)算、模擬)。
當(dāng)前主要的研究方向有:序列比對、序列組裝、基因識別、基因重組、蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因表達(dá)、蛋白質(zhì)反應(yīng)的預(yù)測,以及進(jìn)化模型創(chuàng)建等。
從以上定義可以看出生物信息學(xué)的興起有賴于測序技術(shù),生物樣本庫以及計(jì)算機(jī)科學(xué)等的高速發(fā)展。生物信息學(xué)的發(fā)展也衍生出了一系列組學(xué)研究,包括轉(zhuǎn)錄組學(xué),基因組學(xué),蛋白質(zhì)組學(xué),代謝組學(xué)和微生物組學(xué)等,所有這些組學(xué)都是由一個個小型或大型的數(shù)據(jù)庫構(gòu)成的。
比如我們最熟知的TCGA數(shù)據(jù)庫,其內(nèi)存儲了33種腫瘤的轉(zhuǎn)錄組,基因組,甲基化組等多種類型的數(shù)據(jù),而對TCGA等數(shù)據(jù)庫進(jìn)行研究即我們常說數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡稱:KDD)。KDD,是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或者其他信息庫中的大量數(shù)據(jù)中挖掘出隱藏的有用信息(知識)的技術(shù)。他被廣泛應(yīng)用到各個領(lǐng)域,挖掘數(shù)據(jù)之間的潛在模式,找出有價值的信息。KDD的基本過程包括數(shù)據(jù)庫的清理,集成形成數(shù)據(jù)倉庫,經(jīng)過選擇變化后將“臟”數(shù)據(jù)變成“清潔”數(shù)據(jù),即預(yù)處理后的數(shù)據(jù),隨后通過數(shù)據(jù)挖掘構(gòu)建不同的模型和模式,用來評估和表示各種知識(圖1)。數(shù)據(jù)挖掘(Data mining)又譯為資料探勘、數(shù)據(jù)采礦,是KDD的核心部分,是采用機(jī)器學(xué)習(xí)、運(yùn)籌學(xué)、統(tǒng)計(jì)方法等進(jìn)行知識發(fā)現(xiàn)的階段。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法“自動”搜索隱藏于其中有著特殊關(guān)系性信息的過程,但是從廣義上講,數(shù)據(jù)挖掘的定義就是從海量數(shù)據(jù)中提取知識的過程,也就是等同于KDD。
圖片
圖1 KDD的過程
數(shù)據(jù)挖掘應(yīng)用于我們生活的各個方面 并且有很多經(jīng)典案例
生活上:全球零售業(yè)巨頭沃爾瑪在對消費(fèi)者購物行為進(jìn)行分析時發(fā)現(xiàn),男性顧客在購買尿布時,常常會順便搭配幾瓶啤酒來犒勞自己,于是將啤酒和尿布擺在一起進(jìn)行促銷,使尿布和啤酒的銷量都大幅增加,現(xiàn)如今很多中國超市的商品擺放模式也都是學(xué)習(xí)沃爾瑪?shù)摹捌【?尿布”案例。
軍事上:一則“數(shù)據(jù)”新聞引起英國撤軍,2010年10月23日《衛(wèi)報》利用維基解密數(shù)據(jù)發(fā)布了一側(cè)“數(shù)據(jù)新聞”(圖2),他們將伊拉克戰(zhàn)爭中所有人員的傷亡情況均標(biāo)注于地圖之上,每一個紅點(diǎn)代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后會彈出帶有詳細(xì)的說明框口,標(biāo)注傷亡人數(shù)、時間,造成傷亡的具體原因等,圖片中密布的紅點(diǎn)多達(dá)39萬,顯得格外觸目驚心,一經(jīng)刊出引起政府和社會的強(qiáng)烈反應(yīng),最終推動英國做出撤出駐伊拉克軍隊(duì)的決定。
政治上:2012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母傔x團(tuán)隊(duì)進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘,在各個選區(qū)推行的政策和演講的內(nèi)容的基礎(chǔ)均來自于大數(shù)據(jù)的支持。
醫(yī)藥衛(wèi)生方面:蘋果的創(chuàng)始人喬布斯是世界上第一個對自身所有組織進(jìn)行基因測序的自然人,為此他得到了自身所有基因組的信息,醫(yī)生根據(jù)他的基因組信息對他進(jìn)行精準(zhǔn)治療,最終這種方式幫助喬布斯延長了好幾年的生命。
而在我們最感興趣的生物醫(yī)學(xué)領(lǐng)域:數(shù)據(jù)挖掘也正在慢慢的改變我們的研究方式,TCGA數(shù)據(jù)庫和GEO等公共數(shù)據(jù)庫的組學(xué)聯(lián)合分析對我們常見腫瘤分子特征進(jìn)行了廣泛的研究,使我們對這些腫瘤的分子機(jī)制有了更深的了解。
圖片
圖2維基百科伊拉克戰(zhàn)爭日志:每一次死亡地圖
數(shù)據(jù)挖掘的常見功能如下
分類(classification)按照分析個體的屬性狀態(tài)分別加以區(qū)分,并建立類組
估計(jì)(estimation)根據(jù)已有的數(shù)量型變量和相關(guān)的分類變量,以獲得某一屬性的估計(jì)值和預(yù)測值
預(yù)測(prediction)根據(jù)個體屬性的已有觀測值來估計(jì)個體在某一屬性上的預(yù)測值
關(guān)聯(lián)分組(affinity grouping)從所有對象決定哪些相關(guān)對象應(yīng)該放在一起
同質(zhì)分組(clustering)將異質(zhì)總體分成為同質(zhì)性類別(clusters),即聚類
分類,關(guān)聯(lián)分組和同質(zhì)分組即通過轉(zhuǎn)錄組,基因組或其他一些特征將不同的樣本分成多個亞型,如乳腺癌的luminal和basal型,而估計(jì)和預(yù)測則是通過分析某個變量來預(yù)估另一個變量的變化情況,如高腫瘤突變負(fù)荷的患者更傾向于對免疫治療有效,其生存時間更長等等。
數(shù)據(jù)挖掘的過程如下
理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)
獲取相關(guān)知識與技術(shù)(acquisition)
整合與檢查數(shù)據(jù)(integration and checking)
去除錯誤或不一致的數(shù)據(jù)(data cleaning)
建立模型和假設(shè)(model and hypothesis development)
實(shí)際數(shù)據(jù)挖掘工作(data mining)
測試和驗(yàn)證挖掘結(jié)果(testing and verification)
解釋和應(yīng)用(interpretation and use)
首先我們需要從數(shù)據(jù)庫或數(shù)據(jù)倉庫中獲得原始數(shù)據(jù),隨后學(xué)習(xí)相關(guān)知識,對原始的“臟”數(shù)據(jù)進(jìn)行清理和整合,去掉錯誤和不一致的數(shù)據(jù),最終得到“清潔”數(shù)據(jù),比如我們從測序儀得到是最原始信號數(shù)據(jù),我們需要通過不同測序儀的序列比對參數(shù)將原始信號轉(zhuǎn)變成count數(shù),這一步一般是稱之為上游分析,是所有數(shù)據(jù)挖掘過程中最復(fù)雜,最費(fèi)時,最費(fèi)事的步驟,同時只有這一步處理得當(dāng),我們后面的所有分析才是正確,反之亦然。作為生物學(xué)或醫(yī)學(xué)的研究人員一般很少會接觸到這一步,因?yàn)闇y序公司一般會直接提供清潔數(shù)據(jù),讓我們可以直接進(jìn)行下游分析。
當(dāng)我們得到“清潔”數(shù)據(jù)以后,我們就可以根據(jù)自己不同的需求來構(gòu)建模型和假設(shè),進(jìn)行實(shí)際數(shù)據(jù)挖掘工作,并通過其他途徑測試和驗(yàn)證挖掘結(jié)果,并最后對我們的結(jié)果進(jìn)行解釋和應(yīng)用。比如我們想研究促進(jìn)腫瘤發(fā)生發(fā)展的基因,我們選取10對腫瘤和癌旁樣本進(jìn)行轉(zhuǎn)錄組和基因測序,進(jìn)行差異表達(dá)分析和單因素回歸分析,篩選出在腫瘤中表達(dá)量增高,與TNM分期成正比,并與患者的生存成負(fù)相關(guān)的基因。隨后我們在更多的臨床樣本組織中進(jìn)行驗(yàn)證我們的結(jié)果,并在細(xì)胞和動物中研究該基因的作用機(jī)制,最后證明該基因?yàn)樵撃[瘤的癌基因。
生物信息數(shù)據(jù)挖掘越來越受到國家和科研工作者的重視,近10年,國家在863、973、“十二五”,“十三五”、國自然等各層次國家級課題中體現(xiàn)生物信息的重要性,而且“大數(shù)據(jù)”一詞已寫入政府工作報告,在未來臨床醫(yī)學(xué)方面數(shù)據(jù)挖掘是實(shí)現(xiàn)“精準(zhǔn)醫(yī)療”的關(guān)鍵技術(shù),因此生物信息數(shù)據(jù)挖掘會極大地推動了相應(yīng)學(xué)科和臨床的的發(fā)展。計(jì)算機(jī)科學(xué)技術(shù)是生物信息學(xué)的基本工具,隨著其迭代更新速度的加快,生物信息學(xué)的發(fā)展必然迎來新的發(fā)展高度,未來幾年,機(jī)器學(xué)習(xí)和人工智能將大大改變現(xiàn)有的科研和醫(yī)療現(xiàn)狀,同時科學(xué)數(shù)據(jù)的大量積累將導(dǎo)致重要的科學(xué)規(guī)律的發(fā)現(xiàn)。
本文轉(zhuǎn)載自《醫(yī)學(xué)研究與發(fā)表》
近年最火的生物信息學(xué),你真的了解嗎? |