大數據平臺
在大數據時代,隨著數據的數量、類型和生成速度不斷增長,以存儲、運算、展現作為目的和如何充分利用“活力”數據實現業務創新突破,則是企業搭建大數據平臺的根本目的所在。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用于大數據的技術,包括大規模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網,和可擴展的存儲系統。
慧點與主流的大數據平臺廠商有著悠久的合作歷史,如戴爾易安信、IBM、SAP、Oracle、微軟、新華三、華為等;可幫助用戶提供咨詢、規劃、部署和售后支持服務。
慧點在大數據平臺搭建方面有著多年的實踐經驗,可在數據同步、數據脫敏、數據歸檔方面進行按需定制開發,同時也對整個數據流過程進行有效的安全管控;在大數據平臺的部署時會兼顧客戶現有數據結構和模型,既能幫助用戶節省大數據平臺的搭建成本,同時也能縮減建設周期。
選擇超融合一體機是搭建大數據平臺的趨勢
從2017年開始,業界已經有企業開始推廣人工智能(AI)+大數據+云計算三種能力整合的一體機產品,超融合一體機更適合互聯網行業的應用屬性,因此在云、大數據、AI時代,一體機會是一個趨勢,截至到2018年,35%的服務器都將以集成系統方式交付,這里的集成系統就包括超融合、軟硬一體機等多種形態。
所謂一體機,是軟件與硬件相結合的集成系統產品,其一般集數據處理、數據傳輸、數據存儲三方面于一體。一體機通過預先集成、測試、優化,能夠實現快速部署、簡化IT基礎架構,節省資源,提升系統高可用性和可擴展性。
為什么要選擇超融合一體機
目前市場上接受度較高的就是數據庫一體機,其主要原因是:
1.數據庫加速,為取得更好的數據庫性能,會在硬件層、彈性存儲層做垂直深入的調優,例如采用讀寫更快的SSD盤,采用面向數據庫獨特的讀寫算法。
2.數據庫加固,為保證數據庫數據不丟失、不損壞,會在中間件服務層增加數據庫的備份/恢復、容災、定期校驗等服務,提高數據的可用性。
超融合一體機的優勢
簡化(預集成)、優化的基礎設施,降低部署管理難度
而從IT基礎設施發展角度看,復雜的計算、網絡、存儲等系統的集成模式已經成為業務創新的“絆腳石”。簡化(預集成)、優化的基礎設施才能為數據驅動“智能化”提供更好的保障,解放IT人員的部署運維工作,真正有精力關注業務創新、數據智能等領域。
大數據處理軟件的設計原則是“本地化計算”,“計算與存儲一體”
以Hadoop、Spark為代表的大數據處理框架,架構設計原則之一就是:本地化計算。這摒棄了傳統計算和存儲系統分開的架構,而采用服務器的CPU和硬盤作為計算存儲能力。本地化計算(計算隨數據分布)是指并行計算框架智能地將計算任務指派到存儲著該任務所需數據的節點,從而避免傳統分布式計算中嚴重的數據傳輸瓶頸。
深度學習、神經網絡算法需特殊硬件
以卷積神經網絡CNN
為例,訓練深度學習模型所需要的計算力是超大規模的,比如基于ImageNet數據集訓練CNN,數據集一共大約120萬張圖片,訓練算法需要對這個數據集掃描100遍(epoch),這意味著10^18次浮點計算,即1exaFlops。簡單演算一下,基于一個主頻為2.0GHz的CPU
core來訓練這樣的模型需要好幾年的時間。而采用GPU(NVIDIA Tesla
P40),單塊只需50小時。按照一臺2U服務器裝載4塊GPU計算,只需要12.5小時。這也就是GPU比CPU在人工智能上的侵略性優勢、而谷歌的TPU處理性能號稱比GPU快百倍。
而大數據一體機可很方便的加入GPU、TPU、FPGA
等專有硬件,就形成了特有的競爭力。(上訴神經網絡算法只是這類專有硬件應用的冰山一角,其他例如:數據庫加速、語言識別、視頻處理等,都需要大量專有硬件)
數據驅動:客戶最終都需要有一個自己的“大腦”
數據資產正變得越來越重要,因此誰也不希望自己的數據被某幾個云巨頭存儲和分析。因此未來各行各業的客戶勢必需要一個自己的“大腦”,而大數據一體機是很好的承載平臺。一方面保證數據資產留在自己的IDC機房,另一方面也具備便捷運維、高效分析的能力。