亚州av综合色区无码一区,午夜一区二区三区亚洲影院电影网,天堂а√在线地址,性人久久网av,无码内射成人免费喷射

曉木蟲
學(xué)術(shù)數(shù)據(jù)庫客戶端

文獻(xiàn)閱讀的文本分析流派

 找回密碼
 注冊新賬號

QQ登录

微信登录

文獻(xiàn)閱讀的文本分析流派

摘要: 讀文獻(xiàn)是科研人員的基本功,一方面是了解學(xué)科發(fā)展,另一方面更現(xiàn)實(shí)一點(diǎn),就是為了發(fā)文章。起步階段讀論文一般是模仿與研究,但到了中后期如果你的視野不夠開闊,很容易陷入到安全區(qū)陷阱,認(rèn)為自己做自己那一小攤 ...

  讀文獻(xiàn)是科研人員的基本功,一方面是了解學(xué)科發(fā)展,另一方面更現(xiàn)實(shí)一點(diǎn),就是為了發(fā)文章。起步階段讀論文一般是模仿與研究,但到了中后期如果你的視野不夠開闊,很容易陷入到安全區(qū)陷阱,認(rèn)為自己做自己那一小攤就挺好,其實(shí)很有可能大浪過來,全軍覆沒,說直白點(diǎn)就是申不到錢,課題與項(xiàng)目運(yùn)轉(zhuǎn)不下去,思路也會枯竭。當(dāng)你去開學(xué)術(shù)會議時,那些大會報告的報告人的開場總有個全局概覽的視野,這種評論是需要經(jīng)驗(yàn)去堆的,但其實(shí)也挺虛的:你回頭去看容易知道哪里有坑哪里有丘,但身處時代浪潮之中是不太容易感知趨勢的。
  但傳統(tǒng)基于核心關(guān)鍵詞的檢索跟全局觀是本質(zhì)相悖的,核心關(guān)鍵詞往往限制了內(nèi)容,雖然有利于聚焦但不利于發(fā)散與概覽。不過當(dāng)前文獻(xiàn)數(shù)據(jù)空前開放,如果你有類似全局視野問題,是可以自己探索的。這里要用到一個名為自然語言處理(NLP)的工具,簡單說就是我不去看單篇文獻(xiàn)或薈萃分析,而是通過語義關(guān)系探索大量文獻(xiàn)中的潛在模式,進(jìn)而找出熱點(diǎn)。今天我用pubmed這個免費(fèi)的文摘數(shù)據(jù)庫來做個演示,探索下科學(xué)學(xué)習(xí)的整體前沿,結(jié)論不一定對,但方法思路如果你能掌握并舉一反三,會有發(fā)現(xiàn)新大陸的感覺。
  數(shù)據(jù)獲取
  數(shù)據(jù)獲取思路是這樣的:如果想知道整體前沿,最需要的是綜合類期刊,全文的數(shù)據(jù)量我的筆記本也跑不了,就考慮摘要,這樣也過濾了那些沒有摘要的評論與觀點(diǎn),更多關(guān)注學(xué)習(xí)性論文。期刊選擇為綜合類的科學(xué)、自然與美國科學(xué)院院刊,收集2016年一整年的論文摘要,用easyPubmed包來搜索并整理成相對干凈的數(shù)據(jù)集。這里我只收集了題目、摘要、出版期刊與日期進(jìn)行文本數(shù)據(jù)挖掘。
  發(fā)文量
  首先我們先看看著三份期刊的發(fā)文量:



  這三份期刊里,PNAS發(fā)文量最大,占總數(shù)一半。
  高頻詞
  然后我們看一下各期刊的前十大摘要高頻詞:



  這里解釋一下,如果我們單純尋找高頻詞其實(shí)這幾個期刊都應(yīng)該差不多,但這里我們用的是TF-IDF來加權(quán)篩選,這個加權(quán)不嚴(yán)謹(jǐn)?shù)恼f就是這個詞出現(xiàn)在該期刊的詞頻與出現(xiàn)在所有期刊詞頻的比例,通過這個值我們可以找到單個期刊比較重要的詞。我們可以看到腫瘤與行為均出現(xiàn)在三個期刊的十大關(guān)鍵詞中,推測相關(guān)學(xué)習(xí)應(yīng)該是去年的重點(diǎn)。此外,自然與美國科學(xué)院院刊都出現(xiàn)了模型這個詞。就特色而言,自然去年更關(guān)注造血過程、信號傳遞與衰老問題;科學(xué)雜志則關(guān)心磷酸化、spo11蛋白與火山口還有小尺度問題;美國科學(xué)院院刊主題特色不算明顯,但比較喜歡強(qiáng)調(diào)學(xué)習(xí)重要性。
  如果我們只考慮題目里的文字呢?



  這里我們可以看出,自然上的論文題目跟摘要內(nèi)容契合度比較高;科學(xué)上論文題目喜歡出現(xiàn)中美的國家標(biāo)簽;美國科學(xué)院院刊看意思題目里專業(yè)名詞比較多。此外,三份期刊的題目里都出現(xiàn)了勘誤,這倒是前沿高影響力期刊的特點(diǎn):容易被質(zhì)疑。
  詞關(guān)系
  看完整體你應(yīng)該想到,單個詞并非孤立,那么這些詞之間會不會有相關(guān)性呢?這個問題我們也可以用NLP工具來學(xué)習(xí):






  其實(shí)這個技術(shù)更常見,平時你用的輸入法就實(shí)現(xiàn)去考察一些字詞的關(guān)系,然后讓其出現(xiàn)的排序更符合常識。這里我們可以看到,從題目里我們能看到氣候變化、干細(xì)胞以及前面提到的勘誤問題。從摘要里我們則會發(fā)現(xiàn)大多數(shù)是生物相關(guān)的主題,也就是前沿科研應(yīng)該是生命科學(xué)在導(dǎo)向。但到目前為止我們都是把這一些文本當(dāng)成一個整體,但科學(xué)是分科的,也就是有不同的主題,此時我們就要用到主題模型來探索去年前沿科研關(guān)注的主題分類。
  主題模型分類
  所謂主題模型,就是通過探索字詞間內(nèi)部關(guān)系對文本進(jìn)行分類的模型,舉例來說某個潛在的主題包含7個關(guān)鍵詞,如果某篇文章命中6個,那么這篇文章大概率就屬于這個潛在主題。當(dāng)然,現(xiàn)實(shí)生活我們并不知道這些潛在主題會是什么,但通過隱含狄利克雷分布,也就是LDA方法我們就可以去探索結(jié)構(gòu),然后去擬合實(shí)際經(jīng)驗(yàn)。



  從上面我們可以看出,有些探索出來的主題大概我們知道是哪個領(lǐng)域的,有些則屬于誤判或者說界限不明顯的綜合領(lǐng)域,這說明跨學(xué)科學(xué)習(xí)正在崛起。其中,我能識別出來的主題大體有癌癥、腦科學(xué)、病毒、社會行為、基因組、膜蛋白結(jié)構(gòu)、氣候變化、進(jìn)化、動態(tài)系統(tǒng)、材料?傮w來看,細(xì)胞生物學(xué)與分子生物學(xué)還是主流,但病毒、氣候變化等問題導(dǎo)向的學(xué)科也在發(fā)展。其實(shí)也可以直接分析10年的時間變化趨勢,不過這個就留成課后題吧(其實(shí)是我個人電腦跑不動)。
  情感分析
  一般認(rèn)為科研人員都是比較樂觀的,但其實(shí)文字背后究竟是否樂觀可以用文本的情感分析來回答。這個分析的原理就是事先找個標(biāo)注過情感的語料庫,然后通過語料庫與詞頻來分析具體文本的情感傾向性。正常這個語料庫是要自己根據(jù)語境去構(gòu)建的,例如商品的好評差評,但作為資深懶漢,我直接用了現(xiàn)成的AFINN語料庫:



  結(jié)果基本符合樂觀為主的預(yù)期,不過按說有些詞在科研中屬于中性詞,我們可以通過這個分析來考慮論文寫作的用詞方法。
  其他
  其實(shí)這只是一個很初步的分析,我甚至沒用用到引用與被引用的關(guān)系,也沒有考慮作者與學(xué)習(xí)機(jī)構(gòu)的時空分布特征,但類似這樣的文本分析應(yīng)該是一個現(xiàn)代科研人員所具備的屬性。這種分析的好處在于你不是在采樣,而是直接分析所擁有的整體,也就幾十兆的文本量,如果你電腦跑得動,把十年二十年的文獻(xiàn)沿革都可以概覽一下,這是這個時代給我們的紅利,不要白不要。
  你可以學(xué)習(xí)一個大牛幾十年的論文發(fā)表來發(fā)現(xiàn)其獨(dú)到的眼光;也可以針對某個期刊挖掘其關(guān)注點(diǎn)的變更;還可以構(gòu)建自己認(rèn)可的課題組的文獻(xiàn)庫,通過其發(fā)表內(nèi)容探索同行那些自己都沒意識到的行為改變。這個時代學(xué)科內(nèi)的經(jīng)驗(yàn)貶值飛速,很多東西沒必要閉門造車慢慢悟,利用開放數(shù)據(jù)的便利性你可以很快了解整體學(xué)術(shù)動態(tài),這樣不至于隨波逐流。更麻煩的是如果你不懂而別人懂,那你將很容易體會到別人眼神中的憐憫,做一個好奇心使然的科研人員,現(xiàn)在起步從來都不晚。
  更重要的是,這類技術(shù)本質(zhì)是讓你滿足好奇心的,你可以用這個來了解社會,例如紐約時報就給個人提供API,你可以看看其對川普用詞風(fēng)格的變化;為什么最近比特幣搜索指數(shù)集中在拉美?歐洲吸引難民究竟是政治正確還是勞動力人口缺乏?不要等著看新聞來指導(dǎo)自己,要學(xué)會發(fā)現(xiàn)生活中的閃光點(diǎn);不要通過鍵盤上情感喧囂來面對社會,要用鍵盤甚至語音編程(我果然很自然的想到了最懶的方法)從繁復(fù)的公開數(shù)據(jù)中挖掘趨勢;不要總是等著大牛來帶,在未知的領(lǐng)域人人都可能成為大牛,你需要掌握一些實(shí)現(xiàn)方法而已,你甚至不需要太了解算法細(xì)節(jié)(會忘,比如我),但要有自己的兵器庫隨想隨用。你不需要帶著目的性去學(xué),這說到底只是一種生活方式,你變強(qiáng)了也禿了的可能性是存在的(你能否感到我最近在看漫畫)。
文獻(xiàn)閱讀的文本分析流派  |  責(zé)任編輯:蟲子
返回頂部