速石科技藥物研發(fā)云平臺，調(diào)度155個GPU賦能Amber自由能分析

摘要: 在上一篇生信云實證《速石科技全力加速新藥研發(fā)，Autodock Vina上云提速2920倍》里，我們基于不同用戶策略，調(diào)用10萬核CPU資源，幫用戶進(jìn)行了2800萬量級的大規(guī)模分子對接，將運算效率提高2920倍。對藥物分子的虛擬篩 ...

在上一篇生信云實證《速石科技全力加速新藥研發(fā)，Autodock Vina上云提速2920倍》里，我們基于不同用戶策略，調(diào)用10萬核CPU資源，幫用戶進(jìn)行了2800萬量級的大規(guī)模分子對接，將運算效率提高2920倍。

生信云實證Vol.3-AutoDock Vina軟件分析

對藥物分子的虛擬篩選，僅僅實現(xiàn)分子對接是不夠的，往往會面臨一個問題就是藥物分子活性的評價。許多藥物和其它生物分子的活性都是通過與受體大分子之間的相互作用表現(xiàn)出來的，是動態(tài)的。

受體和配體之間結(jié)合自由能（Binding Afinity）評價是基于結(jié)構(gòu)的計算機輔助藥物分子設(shè)計的核心問題。

基于分子動力學(xué)（Molecular Dynamics, MD）模擬的煉金術(shù)自由能（Alchemical Free Energy，AFE）計算是提高我們對各種生物過程的理解以及加快多種疾病的藥物設(shè)計和優(yōu)化的關(guān)鍵工具。

MD模擬實驗數(shù)據(jù)量大，計算周期長，常用軟件包括Amber、NAMD、GROMACS、Schrödinger等等。GPU的并行處理技術(shù)能大大加速計算效率，所以很多MD模擬軟件都開始支持GPU。

生信分析軟件-Gromacs,SCHRODINGER,Amber

GROMACS作為一款開源軟件，完全免費，但其成熟版本對于GPU的支持并不理想，教程相對少，對用戶的要求比較高。

Schrödinger是商用軟件，功能全面，GPU支持很好，但License是按使用核數(shù)計算的，價格相對昂貴。

Amber軟件包包括兩個部分：AmberTools和Amber。

AmberTools可以在Amber官網(wǎng)免費下載和使用，Tools中包含了Amber絕大部分模塊，但不支持PMEMD和GPU加速。

Amber是收費的，從Amber11開始支持GPU加速仿真，Amber18開始支持GPU計算自由能，且教程齊全易操作，不限制CORE的使用數(shù)量。2020年4月，已經(jīng)更新到Amber20版本。

學(xué)術(shù)/非營利組織/政府：500美元

企業(yè)：新Amber20用戶 20000美元（原Amber18用戶 15000美元）

今天實證的主角是Amber，有幾個重點我們先說為敬：

第一、不同GPU型號價格差異極大，對Amber自由能計算的適配度和運算效率也不同，如何為用戶選擇最匹配的資源類型；

第二、用戶對GPU的需求量比較大，而不同云廠商提供的可用GPU資源數(shù)量不確定，價格差異也很大，可能需要跨多家云廠商調(diào)度，如何實現(xiàn)？同時，盡可能降低成本；

第三、用戶使用的Amber18版本，根據(jù)我們的經(jīng)驗，在使用GPU計算時存在10%-15%的失敗概率。一旦任務(wù)失敗，需要調(diào)度CPU重新計算，能否及時且自動地處理失敗任務(wù)，將極大影響運算周期。

用戶需求

某高校研究所對一組任務(wù)使用Amber18進(jìn)行自由能計算，使用本地48核CPU資源需要12小時，而使用1張GPU卡運算該組任務(wù)只需3小時。

該研究所目前面臨16008個任務(wù)需要使用Amber18進(jìn)行自由能計算，負(fù)責(zé)人根據(jù)以往數(shù)據(jù)估算使用本地CPU資源可能要1年以上才能完成任務(wù)，使用單個GPU需要至少4個月，周期過長，課題等不了。

因此，他們迫切希望通過使用云上資源，尤其是GPU資源來快速補充本地算力的不足，更快完成任務(wù)。

實證目標(biāo)

1、Amber自由能計算能否在云端有效運行？
2、fastone是否能為用戶選擇合適的GPU實例類型？
3、fastone平臺是否能在短時間內(nèi)獲取足夠的GPU資源，大幅度縮短項目周期？
4、Amber18版本運行GPU的失敗概率問題，fastone平臺是否能有效處理？

實證參數(shù)

平臺：
fastone企業(yè)版產(chǎn)品

應(yīng)用：
Amber18

操作系統(tǒng)：
CentOS 7.5

適用場景：
基于分子動力學(xué)模擬的自由能預(yù)測

云端硬件配置：
NVIDIA Tesla K80
NVIDIA Tesla V100

調(diào)度器：
Slurm

技術(shù)架構(gòu)圖：

多云GPU集群調(diào)度-fastone高性能計算平臺的架構(gòu)

實證場景一

GPU實例類型驗證—120個任務(wù)

新版的GPU資源，運行速度快，但是價格高。
老版的GPU資源，價格是便宜了，但是運行速度也慢。

老機型就一定劃算嗎？這可不一定。

結(jié)論：

1、無論是從時間效率還是成本的角度，都應(yīng)選擇更新型的NVIDIA Tesla V100；

2、在云端運算相同的Amber18任務(wù)時，NVIDIA Tesla K80的耗時是NVIDIA Tesla V100的約5-6倍，從時間效率的角度，V100明顯占優(yōu)；

3、NVIDIA Tesla K80云端GPU實例的定價約為NVIDIA Tesla V100云端GPU實例的不到三分之一（某公有云廠商官網(wǎng)上單個K80的按需價格為0.9美元/小時，V100則為3.06美元/小時），綜合計算得出V100的性價比是K80的約1.4-1.8倍。

NVIDIA Tesla K80和NVIDIA Tesla V100計算集群的任務(wù)耗時

實證過程：

1、云端調(diào)度1個NVIDIA Tesla K80云端GPU實例運算A組Amber任務(wù)，耗時16.5小時；
2、云端調(diào)度1個NVIDIA Tesla K80云端GPU實例運算B組Amber任務(wù)，耗時2.5小時；
3、云端調(diào)度1個NVIDIA Tesla V100云端GPU實例運算A組Amber任務(wù)，耗時3.3小時；
4、云端調(diào)度1個NVIDIA Tesla V100云端GPU實例運算B組Amber任務(wù)，耗時0.4小時。

實證場景二

大規(guī)模GPU多云場景驗證—16008個任務(wù)

結(jié)論：

fastone平臺根據(jù)用戶任務(wù)需要和特性，跨兩家公有云廠商，智能自動化調(diào)度云端GPU/CPU異構(gòu)資源，包括155個NVIDIA Tesla V100和部分CPU資源，將運算16008個Amber任務(wù)的耗時從單GPU的4個月縮短到20小時。

155個NVIDIA Tesla V100計算集群耗時20小時,1個NVIDIA Tesla V100云服務(wù)器計算耗時4個月

1、怎么通過Auto-Scale功能提高GPU資源的利用率？

用戶的Amber任務(wù)運算時存在依從機制，即每12個任務(wù)中包含1個主任務(wù)，只有當(dāng)主任務(wù)運行結(jié)束后，其他11個任務(wù)才能開始并行運算。

在本場景中，由于任務(wù)數(shù)量高達(dá)16008個，這就意味著有1334個主任務(wù)需要率先跑完。

通過Auto-Scale彈性計算功能提高GPU資源的利用率-并行運算先跑主任務(wù)

本次實證中：

第一，任務(wù)有先后，所以需要先跑主任務(wù)，在每個主任務(wù)完成之后自動調(diào)度資源并行運算其他11個任務(wù)；

第二，不同任務(wù)完成時間可能不同，對資源的需求量可能時高時低有波動，最終結(jié)束關(guān)機時間也不同。

fastone平臺使用Slurm調(diào)度器按順序調(diào)度任務(wù)排隊，Auto-Scale功能可自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求，動態(tài)按需地開啟與關(guān)閉所需算力資源，在提升效率的同時有效降低成本。

關(guān)鍵是，一切都是自動的。

隨任務(wù)需要自動化開機和關(guān)機到底有多省錢省心，誰用誰知道。

fastone Auto-Scale彈性計算,按需配備算力

用戶還可根據(jù)自己需求，設(shè)置自動化調(diào)度集群規(guī)模上下限，相比手動模式能夠節(jié)省大量時間與成本。

調(diào)度器是干嘛的，為什么大規(guī)模集群需要用到調(diào)度器，有哪些流派，不同調(diào)度器之間區(qū)別是什么等等問題可以參考《億萬打工人的夢：16萬個CPU隨你用》。

2、任務(wù)用GPU運算失敗，怎么及時用CPU自動重算？

Amber18在使用GPU時計算時有10-15%概率失敗，需要及時調(diào)度CPU資源重新計算，這里會涉及到一個問題：錯誤的任務(wù)能否及時重新用CPU運行（注：該問題已在Amber20中修復(fù)）。

fasotne計算平臺-GPU運算任務(wù)失敗，可用CPU自動重算

跟上一點一樣，自動化還是手動的部署差別非常大。

失敗任務(wù)自動跳出來重新運行，嗯，就是這么乖巧。

自動化模式和手動模式到底多大差別，多省錢省心可以看這篇：《EDA云實證Vol.1：從30天到17小時，如何讓HSPICE仿真效率提升42倍？》

本次實證中：

由于任務(wù)總數(shù)高達(dá)16008個，全部使用GPU計算，預(yù)計將會有1600-2400個任務(wù)算錯，對自動化調(diào)度CPU資源的響應(yīng)速度和規(guī)模提出了很高的要求。

fastone平臺提供的智能調(diào)度策略，能在使用GPU資源計算失敗時，自動定位任務(wù)并按需開啟CPU資源，對該任務(wù)重新進(jìn)行計算，直到計算完成為止。

3、GPU資源的多云調(diào)度，如何兼顧成本和效率，最大化用戶利益？

云上的GPU可用資源有限，155個NVIDIA Tesla V100不是一個小數(shù)目，單個公有云廠商單區(qū)域資源未必能夠隨時滿足需求。

本次實證中：

第一，涉及到跨兩家公有云廠商之間的資源調(diào)度；
第二，GPU資源的在不同云廠商之間有著顯著的差異，而且往往資源多的售價高，便宜的資源少，怎么兼顧成本和效率。

以各大公有云廠商在北京地區(qū)的GPU實例（V100）按需價格為例，最高價格超過最低價2倍。

多云資源比較-GPU按需實例-北京區(qū)域

關(guān)于不同云廠商之間的價格比較和SPOT競價實例到底能有多便宜，可以看這篇：《【2020新版】六家云廠商價格比較：AWS/阿里云/Azure/Google Cloud/華為云/騰訊云》。

fastone平臺可綜合考量用戶對完成任務(wù)所需時間和成本的具體要求，在多個云廠商的資源之間選擇最適配的組合方案，為用戶跨地區(qū)、跨云廠商調(diào)度所需資源。

下圖場景是出于成本優(yōu)化目的，我們?yōu)橛脩糇詣诱{(diào)度本區(qū)域及其他區(qū)域的目標(biāo)類型或相似類型SPOT實例資源。

具體看這篇：《生信云實證Vol.3：提速2920倍！用AutoDock Vina對接2800萬個分子》。

競價資源如何搶-Spot計算類型

本次實證，fastone平臺完美解決了以上三個挑戰(zhàn)：

第一，自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求，動態(tài)按需地自動化開啟與關(guān)閉所需算力資源，提高GPU資源利用率；

第二，在GPU資源計算失敗時，自動定位任務(wù)并按需開啟CPU資源，對該任務(wù)重新進(jìn)行計算，直到計算完成為止；

第三，在多個云廠商的資源之間選擇最適配的組合方案，為用戶跨地區(qū)、跨云廠商調(diào)度所需GPU資源。

實證小結(jié)

1、Amber任務(wù)能夠在云端有效運行；
2、fastone為用戶任務(wù)推薦最適配的GPU資源類型；
3、fastone平臺能夠在短時間內(nèi)跨區(qū)域，跨云廠商獲取足夠的GPU資源，滿足用戶短時間算力需求，大幅度縮短項目周期；
4、針對Amber18版本運行GPU任務(wù)失敗概率問題，fastone平臺可自動調(diào)度CPU資源重新計算，降低。

本次生信云實證就到這里了，未來我們還會帶給大家更多領(lǐng)域的用云“真香”實證，請保持關(guān)注哦！

關(guān)于速石:

速石科技（fastone）致力于構(gòu)建為應(yīng)用定義的云，讓任何應(yīng)用程序，始終以自動化、更優(yōu)化和可擴(kuò)展的方式，在任何基礎(chǔ)架構(gòu)上運行。
我們?yōu)橛懈咚懔π枨蟮挠脩籼峁┮徽臼蕉嘣扑懔︖\營解決方案，基于本地+公有混合云環(huán)境的靈活部署及交付，幫助用戶提升10-20倍業(yè)務(wù)運算效率，降低成本達(dá)到75%以上，加快市場響應(yīng)速度。速石平臺對藥物研發(fā)/基因分析/CAE/EDA/AI等行業(yè)應(yīng)用進(jìn)行分析與加速，通過Serverless框架屏蔽底層IT技術(shù)細(xì)節(jié)，實現(xiàn)用戶對本地和公有云資源無差別訪問。我們的產(chǎn)品包括：fastone COMPUTE PLATFORM和fastone COMPUTE CLOUD。

想了解更多，可添加小F微信（ID：imfastone）

速石科技藥物研發(fā)云平臺，調(diào)度155個GPU賦能Amber自由能分析 | 責(zé)任編輯：曉木蟲

收藏分享邀請

上一篇：速石科技打造CAE云平臺，突發(fā)性Fluent仿真計算時間從45天到4天下一篇：無源鎖走出國門榮獲新加坡發(fā)明金獎

賬號		自動登錄	找回密碼
密碼			注冊新賬號

亚州av综合色区无码一区,午夜一区二区三区亚洲影院电影网,天堂а√在线地址,性人久久网av,无码内射成人免费喷射

速石科技藥物研發(fā)云平臺，調(diào)度155個GPU賦能Amber自由能分析

曉木蟲

速石科技藥物研發(fā)云平臺，調(diào)度155個GPU賦能Amber自由能分析