新藥研發(fā)是一個(gè)漫長(zhǎng)且昂貴的過(guò)程,海量的化合物在經(jīng)過(guò)一系列的測(cè)試后,往往只有一種具備成為可行的藥物的潛質(zhì)。任何工具或技術(shù),只要能在這個(gè)漫長(zhǎng)的多步驟過(guò)程中加快其中一個(gè)步驟,就會(huì)對(duì)整個(gè)鏈條產(chǎn)生重大影響。 比如在臨床試驗(yàn)階段,通常有10%的藥物能夠通過(guò)第一階段,而如果通過(guò)技術(shù)手段(如AI)將成功率提高幾個(gè)百分點(diǎn),達(dá)到14%或16%,將為整個(gè)行業(yè)帶來(lái)數(shù)十億美元的價(jià)值。 分子對(duì)接,作為計(jì)算機(jī)輔助藥物設(shè)計(jì)(Computer Aided Drug Design,CADD)的重要方法,已廣泛應(yīng)用于藥物發(fā)現(xiàn)階段的早期虛擬篩選、藥物分子設(shè)計(jì)、先導(dǎo)化合物優(yōu)化、藥物潛在作用靶點(diǎn)發(fā)現(xiàn)、藥物-靶點(diǎn)相互作用機(jī)制、為重要的藥物代謝酶尋找特異性配體等。 目前,限于算力,或者高效靈活地調(diào)用大規(guī)模計(jì)算集群的能力,當(dāng)前基于分子對(duì)接技術(shù)的虛擬篩選通常僅采樣百萬(wàn)到千萬(wàn)個(gè)分子,而事實(shí)上目前可用于藥物發(fā)現(xiàn)的有機(jī)分子已經(jīng)超過(guò)10的60次方。 2020年3月,哈佛大學(xué)醫(yī)學(xué)院的研究人員論證了:分子化合物的質(zhì)量會(huì)隨著虛擬篩選規(guī)模的擴(kuò)大而提升。 如何在本地資源有限的情況下,提高虛擬篩選規(guī)模和質(zhì)量,把漫長(zhǎng)的藥物研發(fā)周期縮短一點(diǎn)? 最近,速石科技(fastone)在其一站式云端計(jì)算分析平臺(tái)使用AutoDock Vina對(duì)接了2800萬(wàn)個(gè)分子,并成功地將運(yùn)算時(shí)間從本地預(yù)估5年縮短到了云端15.23小時(shí),該案例具有兩大特點(diǎn): 1. 任務(wù)數(shù)量多,云上同一地區(qū)某種類(lèi)型機(jī)型可能不足,因此會(huì)涉及到多區(qū)域資源調(diào)度; 2. 可根據(jù)用戶(hù)偏好匹配合適的資源調(diào)度策略,滿(mǎn)足用戶(hù)不同需求。 背景信息 某大型藥企在本地建設(shè)有機(jī)房,計(jì)算資源總計(jì)為104核。使用AutoDock Vina進(jìn)行小分子對(duì)接:當(dāng)設(shè)定exhaustiveness=8時(shí),篩選56643個(gè)原始分子共需90小時(shí);當(dāng)設(shè)定exhaustiveness=1時(shí),耗時(shí)需18小時(shí)。 (AutoDock Vina是用于分子對(duì)接和虛擬篩選的開(kāi)源程序,由Scripps研究所分子圖形實(shí)驗(yàn)室的Oleg Trott博士設(shè)計(jì)和實(shí)現(xiàn),是目前使用最為廣泛的分子對(duì)接軟件之一。exhaustiveness是AutoDock Vina中的一個(gè)設(shè)定參數(shù),用來(lái)控制對(duì)接的細(xì)致程度,會(huì)影響計(jì)算時(shí)間。) 當(dāng)篩選范圍擴(kuò)大到整個(gè)VS數(shù)據(jù)庫(kù)(2800萬(wàn)個(gè)分子)時(shí),不同參數(shù)條件下本地資源所需的運(yùn)算時(shí)間在約2.6-5年不等。 研發(fā)負(fù)責(zé)人認(rèn)為這么長(zhǎng)的時(shí)間周期是無(wú)法接受的,其本地現(xiàn)有IT架構(gòu)和資源完全無(wú)法滿(mǎn)足研發(fā)需求。 案例目標(biāo) 1、AutoDock Vina任務(wù)能否在云端有效運(yùn)行? 2、fastone平臺(tái)能否大幅度縮短任務(wù)運(yùn)行時(shí)間? 3、fastone平臺(tái)能否有效控制任務(wù)運(yùn)行成本? 4、針對(duì)AutoDock Vina任務(wù)小、數(shù)量大的特點(diǎn),fastone平臺(tái)是否有針對(duì)性策略? 案例參數(shù) 平臺(tái): fastone企業(yè)版產(chǎn)品 應(yīng)用: AutoDock Vina 適用場(chǎng)景: 分子對(duì)接,研究配體(藥物分子)與其受體(已知的靶蛋白或活性位點(diǎn))之間的詳細(xì)相互作用,預(yù)測(cè)其結(jié)合模式及親合力,還可以用來(lái)發(fā)現(xiàn)并優(yōu)化藥物先導(dǎo)物分子,進(jìn)而實(shí)現(xiàn)基于結(jié)構(gòu)的藥物設(shè)計(jì) 云端硬件配置: AutoDock Vina在運(yùn)行時(shí)需要對(duì)接海量分子,對(duì)計(jì)算性能要求較高,因此平臺(tái)為用戶(hù)推薦選擇了匹配其應(yīng)用特點(diǎn)的計(jì)算優(yōu)化型實(shí)例機(jī)型。 技術(shù)架構(gòu)圖: 以下是兩個(gè)場(chǎng)景。 場(chǎng)景一:我們通過(guò)10000分子分別進(jìn)行了AutoDock Vina的云端線(xiàn)性擴(kuò)展性驗(yàn)證及成本驗(yàn)證; 場(chǎng)景二:基于不同用戶(hù)策略,我們幫用戶(hù)進(jìn)行了2800萬(wàn)量級(jí)的大規(guī)模分子對(duì)接。 1、時(shí)間優(yōu)先策略以速度為第一優(yōu)先級(jí):資源選擇以O(shè)D按需實(shí)例為主,在滿(mǎn)足用戶(hù)時(shí)間要求的前提下盡可能通過(guò)搶占SPOT實(shí)例來(lái)優(yōu)化成本。 2、成本優(yōu)先策略以成本為第一優(yōu)先級(jí):資源選擇以SPOT實(shí)例為主,并在滿(mǎn)足用戶(hù)成本要求的前提下使用OD按需實(shí)例來(lái)優(yōu)化時(shí)間效率。 SPOT:可被搶占實(shí)例,又稱(chēng)競(jìng)價(jià)實(shí)例。價(jià)格最低可達(dá)到按需實(shí)例價(jià)格的10%,相當(dāng)于秒殺,手快有手慢無(wú),價(jià)格可高可低波動(dòng)大,隨時(shí)可能被搶占中斷,需要有一定的技術(shù)實(shí)力才能使用。 OD:On-Demand,按需實(shí)例。針對(duì)短期彈性需求,按小時(shí)計(jì)費(fèi),靈活精準(zhǔn),避免浪費(fèi),但價(jià)格比較高,通常為SPOT實(shí)例的3-10倍。 場(chǎng)景一:10000分子 AutoDock Vina云端線(xiàn)性擴(kuò)展性及成本驗(yàn)證 結(jié)論一:在云端調(diào)度不同核數(shù)的計(jì)算資源對(duì)接10000分子,驗(yàn)證AutoDock Vina在云上具有線(xiàn)性擴(kuò)展性,即當(dāng)處理器數(shù)量增加一倍,運(yùn)算時(shí)間也會(huì)縮短一半。 過(guò)程: 1、云端調(diào)度36核計(jì)算資源對(duì)接10000分子,采用時(shí)間優(yōu)先策略需耗時(shí)527分鐘; 2、云端調(diào)度80核計(jì)算資源對(duì)接10000分子,采用時(shí)間優(yōu)先策略需耗時(shí)314分鐘; 3、云端調(diào)度144核計(jì)算資源對(duì)接10000分子,采用時(shí)間優(yōu)先策略需耗時(shí)215分鐘; 4、云端調(diào)度288核計(jì)算資源對(duì)接10000分子,采用時(shí)間優(yōu)先策略需耗時(shí)98分鐘; 5、云端調(diào)度540核計(jì)算資源對(duì)接10000分子,采用時(shí)間優(yōu)先策略需耗時(shí)52分鐘; 6、云端調(diào)度1080核計(jì)算資源對(duì)接10000分子,采用時(shí)間優(yōu)先策略需耗時(shí)20分鐘。 結(jié)論二:在云端調(diào)度不同核數(shù)的計(jì)算資源對(duì)接10000分子,當(dāng)用戶(hù)選擇成本優(yōu)先策略時(shí),fastone平臺(tái)以SPOT實(shí)例為主要資源選擇,確保成本為第一優(yōu)先級(jí)。 比時(shí)間優(yōu)先策略,成本降幅最多可達(dá)67%-90%。 過(guò)程: 1、云端調(diào)度36核計(jì)算資源對(duì)接10000分子,采用成本優(yōu)先策略搶占SPOT實(shí)例,耗費(fèi)82元; 2、云端調(diào)度80核計(jì)算資源對(duì)接10000分子,采用成本優(yōu)先策略搶占SPOT實(shí)例,耗費(fèi)84元; 3、云端調(diào)度144核計(jì)算資源對(duì)接10000分子,采用成本優(yōu)先策略搶占SPOT實(shí)例,耗費(fèi)79元; 4、云端調(diào)度288核計(jì)算資源對(duì)接10000分子,采用成本優(yōu)先策略搶占SPOT實(shí)例,耗費(fèi)64元; 5、云端調(diào)度540核計(jì)算資源對(duì)接10000分子,采用成本優(yōu)先策略搶占SPOT實(shí)例,耗費(fèi)58元; 6、云端調(diào)度1080核計(jì)算資源對(duì)接10000分子,采用成本優(yōu)先策略搶SPOT實(shí)例,耗費(fèi)68元。 場(chǎng)景二:2800萬(wàn)分子 大規(guī)模業(yè)務(wù)驗(yàn)證:基于不同用戶(hù)策略 fastone基于用戶(hù)2800萬(wàn)分子對(duì)接需求,提供時(shí)間優(yōu)先和成本優(yōu)先兩種策略供用戶(hù)選擇。 1、用戶(hù)以時(shí)間為第一優(yōu)先級(jí) 結(jié)論: 1、通過(guò)fastone平臺(tái)采用時(shí)間優(yōu)先策略調(diào)用10萬(wàn)核計(jì)算優(yōu)化型實(shí)例對(duì)接2800萬(wàn)個(gè)分子,耗時(shí)約15.23小時(shí),運(yùn)算效率提高2920倍; 2、fastone平臺(tái)根據(jù)用戶(hù)計(jì)算需求,自動(dòng)化構(gòu)建并調(diào)度云上10萬(wàn)核大規(guī)模算力集群,完成計(jì)算任務(wù); 3、時(shí)間優(yōu)先策略下,當(dāng)任務(wù)數(shù)量達(dá)到一定規(guī)模時(shí),云上同一地區(qū)某種類(lèi)型機(jī)型可能不足,fastone平臺(tái)可跨區(qū)、跨類(lèi)型自動(dòng)為用戶(hù)調(diào)度云資源,以最快速度完成計(jì)算任務(wù); 4、fastone平臺(tái)自動(dòng)幫用戶(hù)確定中斷可能性最低的SPOT池,保障任務(wù)順利高效完成,本次案例任務(wù)的中斷率為0.95%(通常<5%)。 過(guò)程: 1、設(shè)定exhaustiveness=8,本地104核計(jì)算資源對(duì)接約2800萬(wàn)個(gè)分子,經(jīng)估算需耗時(shí)約1853天; 2、設(shè)定exhaustiveness=8,云端調(diào)度10萬(wàn)核計(jì)算資源對(duì)接約2800萬(wàn)個(gè)分子,采用時(shí)間優(yōu)先策略需耗時(shí)約15.23小時(shí)(含配置,安裝,調(diào)度等時(shí)間)。 計(jì)算資源越多,運(yùn)算時(shí)間越短。 在滿(mǎn)足用戶(hù)時(shí)間要求的前提下,可通過(guò)盡可能搶占SPOT實(shí)例來(lái)幫助用戶(hù)優(yōu)化成本。當(dāng)所需的計(jì)算資源達(dá)到十萬(wàn)核這個(gè)數(shù)量級(jí)以后,單個(gè)區(qū)域內(nèi)我們的目標(biāo)類(lèi)型資源可能會(huì)瞬間告罄,造成任務(wù)排隊(duì),從而大大拖慢運(yùn)算時(shí)間。 我們需要通過(guò)fastone平臺(tái)的Auto-Scale功能自動(dòng)調(diào)度本區(qū)域及其他區(qū)域的目標(biāo)類(lèi)型或相似類(lèi)型SPOT實(shí)例資源,以最快速地完成任務(wù)。 簡(jiǎn)單說(shuō),就是優(yōu)先搶低價(jià)的SPOT實(shí)例,搶完同類(lèi)型的再搶其他類(lèi)型的,搶完同區(qū)域的再搶其他區(qū)域的。 這只是Auto-Scale功能的一部分。fastone的Auto-Scale功能可以自動(dòng)監(jiān)控用戶(hù)提交的任務(wù)數(shù)量和資源的需求,動(dòng)態(tài)按需地開(kāi)啟所需算力資源,在提升效率的同時(shí)有效降低成本。可以讓用戶(hù)根據(jù)自身需求,設(shè)置調(diào)度集群規(guī)模上下限,且所有操作都是自動(dòng)化完成,無(wú)需用戶(hù)干預(yù)。 2、用戶(hù)以成本為第一優(yōu)先級(jí) 使用AutoDock Vina進(jìn)行分子對(duì)接的一大特征是任務(wù)數(shù)量龐大而單個(gè)任務(wù)計(jì)算時(shí)間短,單個(gè)分子對(duì)接的時(shí)間通常在幾分鐘以?xún)?nèi)(與參數(shù)設(shè)置有關(guān))。這一特征天然匹配云端的SPOT實(shí)例。 云端SPOT實(shí)例有四大特點(diǎn): 1、 便宜是真便宜。 2、 不是人人都能用好。 3、 不是你想要啥就有,不是你想用的時(shí)候就能用。 4、 或遲或早,最終一定會(huì)被搶走。 OD按需實(shí)例價(jià)格通常為SPOT實(shí)例的3-10倍。 當(dāng)便宜且隨時(shí)可能被搶占中斷的SPOT實(shí)例遇到迷你卻海量的分子對(duì)接任務(wù),簡(jiǎn)直就是天造地設(shè)的一對(duì)。 1、常規(guī)分子對(duì)接任務(wù)幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態(tài); 2、fastone平臺(tái)具備自動(dòng)重試功能,一個(gè)任務(wù)被中斷可以自動(dòng)重新提交,任務(wù)之間互相不影響,重新提交單個(gè)任務(wù)影響很小。 fastone平臺(tái)會(huì)按以下順序依次進(jìn)行自動(dòng)化調(diào)度: 1、同一區(qū)域目標(biāo)類(lèi)型的SPOT實(shí)例; 2、同一區(qū)域其他類(lèi)型的SPOT實(shí)例; 3、其他區(qū)域目標(biāo)類(lèi)型的SPOT實(shí)例; 4、其他區(qū)域其他類(lèi)型的SPOT實(shí)例; 5、同一區(qū)域目標(biāo)類(lèi)型的OD實(shí)例; 6、同一區(qū)域其他類(lèi)型的OD實(shí)例; 7、其他區(qū)域目標(biāo)類(lèi)型的OD實(shí)例; 8、其他區(qū)域其他類(lèi)型的OD實(shí)例。 小結(jié) 最后回顧一下目標(biāo): 1、AutoDock Vina任務(wù)能在云端有效運(yùn)行; 2、fastone平臺(tái)能夠大幅度縮短任務(wù)運(yùn)行時(shí)間; 3、fastone平臺(tái)能夠有效控制任務(wù)運(yùn)行成本; 4、fastone平臺(tái)的Auto-Scale功能可完美匹配AutoDock Vina任務(wù)小、數(shù)量大的特點(diǎn); 5、fastone平臺(tái)能根據(jù)用戶(hù)不同需求,為用戶(hù)提供不同的自動(dòng)化調(diào)度策略。 至此,由速石科技實(shí)施的本次生信行業(yè)Cloud HPC實(shí)操案例已經(jīng)取得了預(yù)期的結(jié)果,未來(lái)速石科技還會(huì)帶給大家更多領(lǐng)域的用云“真香”案例,請(qǐng)保持關(guān)注哦! 關(guān)于速石: 速石科技(fastone)為有高算力需求的用戶(hù)提供一站式多云算力運(yùn)營(yíng)解決方案,基于本地+公有混合云環(huán)境的靈活部署及交付,幫助用戶(hù)提升10-20倍業(yè)務(wù)運(yùn)算效率,降低成本達(dá)到75%以上,加快市場(chǎng)響應(yīng)速度。速石平臺(tái)對(duì)藥物研發(fā)/基因分析/CAE/EDA/AI等行業(yè)應(yīng)用進(jìn)行分析與加速,通過(guò)Serverless框架屏蔽底層IT技術(shù)細(xì)節(jié),實(shí)現(xiàn)用戶(hù)對(duì)本地和公有云資源無(wú)差別訪(fǎng)問(wèn),產(chǎn)品包括:云上的SaaS平臺(tái)、多云PaaS平臺(tái)、軟硬一體算力解決方案。 想了解更多,可添加小F微信(ID:imfastone) 速石科技全力加速新藥研發(fā),AutoDock Vina上云提速2920倍 | 責(zé)任編輯:曉木蟲(chóng) |