河南快三今日推荐号码:榮之聯極道BIOSTACK助力諾禾致源基因測序分析

關于諾禾致源

河南快三走势图一定牛 www.viydkz.com.cn 北京諾禾致源科技股份有限公司于20113月在北京中關村生命科學園注冊成立,專注于開拓前沿分子生物學技術和高性能計算在生命科學研究和人類健康領域的應用,致力于成為全球領先的基因組學產品和服務提供者。

業務挑戰

       諾禾致源全基因組重測序采用先進的測序平臺,快速、高效地讀取高質量的測序數據。隨著公司業務的發展,高性能計算平臺將會持續更新并擴容,以保證高效的數據處理和安全的數據存儲。然而隨著計算集群規模的不斷擴大,海量數據的存儲、管理等方面臨著諸多的挑戰:

      • 面對爆發式增長的基因數據,如何有效的存儲和存取大規模生物數據,以適應基因研究的需要;
      • 不同的測序技術、不同的分析階段訪問數據的模式、對于存儲的帶寬、IOPS和延遲等性能指標都有不同的要求,所以無法通過單一的存儲系統,來解決生物信息分析所面對的所有問題;
      • 除了解決數據存儲空間問題,生物數據分析經常有通過不同維度組織數據分析的需求,如何根據多樣化的生物數據特征從海量數據中快速發現數據和組織數據集?

      解決方案

      整體方案理念


      在充分理解用戶需求的基礎上,榮之聯極道存儲系統針對不同數據存儲模型,做了極致的性能優化,集合多套存儲系統,把他們有效的整合在一起,達到物盡其用的效果。同時通過與數據管理與計算系統的結合,使得數據不再僵化的存儲在一個大池子里面,而是能夠智能的流動起來。


      二代基因分析存儲方案

      應用特征分析

      二代基因分析業務對存儲性能、存儲容量要求都非常高,主要體現在如下方面:?

      • 存儲數據量大: 例如:一套 HiSeq X10 系統三天一輪測序分析產生的數據量約為 73TB, 其中 26TB 需要永久或長期保留,一年產生的數據需要大約3PB 的有效存儲空間;?
      • 存儲帶寬要求高: 基因分析過程對存儲和網絡帶寬要求高,至少需要存儲系統具備 3GB/S 以上的吞吐能力,且對實時性要求非常高,否則可能導致數據不完整。
      • 小文件很多:此類文件用于存儲原始或臨時的基因組信息,例如:BCL格式文件,通常小于64KB。與處理大文件不同,因為每個文件的I/O都需要對數據和元數據進行兩次操作,生成和訪問大量文件的負載會非常大,對底層存儲系統的IOPS性能也具有很高的要求。

      解決方案

      榮之聯極道生物數據存儲為了解決生物信息數據空間和數據持久化問題而設計,能夠理解應用場景,實現極致性能優化。

      其中極道Alamo-D存儲系統針對高帶寬為主的應用類型設計,能夠提供卓越的帶寬性能(每個節點1GB以上),針對頻繁的元數據操作和訪問,存儲還具有SSD元數據加速、緩存加速技術來保證高IOPS響應。

      同時榮之聯極道生物數據存儲能夠智能追蹤元數據的變化,自動提取數據特征信息,與數據管理系統結合實現快速發現數據、數據多維有序、動態組織數據集和數據溯源等功能;


      方案拓撲示意圖


      【三代基因分析存儲方案】

      應用特征分析

      二代測序和三代測序都屬于高通量測序技術,測序數據產出量很大,需要結合高性能計算技術來進行后續的測序數據分析。三代基因測序組裝這類應用對于系統的計算性能、存儲性能等方面都有很高的要求。

      目前,由Pacbio公司開發的FALCON是第三代基因測序組裝領域的主流軟件。FALCON由于把測序數據(rawdata)切割成KB級別的卷來進行糾錯,因而需要頻繁的磁盤I/O,所以在計算過程中,磁盤I/O經?;岢晌低稱烤?。

      FALCON應用特征:

      1.磁盤IO 方面,程序運行過程會產生并產生大量小文件,IO操作較為頻繁;

      2.raw_data merge 部分,IO壓力較大;

      解決方案

      為了應對三代測序對于高磁盤IO操作的應用特點,榮之聯極道采用Anna存儲系統-----一款針對IO性能優化的分布式存儲系統。利用NVMeSSD 硬盤構成高速緩存池,極大的優化了IO響應性能,并且通過智能分層技術動態的將數據從SSD層遷移至HDD層,降低總體成本的同時,進一步提升了數據的可靠性。

      存儲規劃:

      ?     存儲節點:3Anna分布式存儲節點

      ?     數據?;ぃ?/span>雙副本

      ?     存儲空間規劃:

      √CachePool 3 3.2TB NVMe SSD/節點;

      √MetaData1 800GB SATA SSD/節點;

      √DataPool10 8TB 7.2K HDD/節點;

      方案價值

      1)理解應用場景,極致性能優化

      榮之聯極道分布式存儲系統是為解決生物信息數據空間和數據持久化的問題而設計的。推出Alamo-D、AnnaAlamo三個系列的分布式集群存儲系統,分別滿足應用對高帶寬、高 IOPS、數據歸檔的需求。多套存儲系統能夠實現統一部署、統一管理,構成統一的生物數據空間。

      2) 與“管”結合: 數據感知,多維數據呈現;

      通過獨有的數據感知引擎,實時跟蹤記錄數據特征,實現快速的數據發現和組織。

      3) 與“算” 結合: 應用感知,智能數據空間分配;

      通過與計算系統的緊密結合,能夠智能感知應用負載類型,調用合適的存儲空間。

      相關新聞

      產品推薦