① 如何實現NewSQL,NoSQL與OldSQL的混合部署
在大數據時代,「多種架構支持多類應用」成為資料庫行業應對大數據的基本思路,資料庫行業出現互為補充的三大陣營,適用於事務處理應用的OldSQL、適用於數據分析應用的NewSQL和適用於互聯網應用的NoSQL。但在一些復雜的應用場景中,單一資料庫架構都不能完全滿足應用場景對海量結構化和非結構化數據的存儲管理、復雜分析、關聯查詢、實時性處理和控制建設成本等多方面的需要,因此不同架喊塌悶構數衫早據庫混合部署應用成為滿足復雜應用的必然選擇。不同架構資料庫混合使用的模式可以概括為:OldSQLNewSQL、OldSQLNoSQL、NewSQLNoSQL三種主要模式。下面通過三個案例對不同架構資料庫的混合應用部署進行介紹。
OldSQLNewSQL 在數據中心類應用中混合部署
採用OldSQLNewSQL模式構建數據中心,在充分發揮OldSQL資料庫的事務處理能力的同時,藉助NewSQL在實時性、復雜分析、即席查詢等方面的獨特優勢,以及面對海量數據時較強的擴展能力,滿足數據中心對當前「熱」數據事務型處理和海量歷史「冷」數據分析兩方面的需求。OldSQLNewSQL模式在數據中心類應用中的互補作用體現在,OldSQL彌補了NewSQL不適合事務處理的不足,NewSQL彌補了OldSQL在海量數據存儲能力和處理性能方面的缺陷。
商業銀行數據中心採用OldSQLNewSQL混合部署方式搭建,OldSQL資料庫滿足各業務系統數據的歸檔備份和事務型應用,NewSQL MPP資料庫集群對即席查詢、多維分析等應用提供高性能支持,並且通過MPP集群架構實現應對海量數據存儲的擴展能力。
商業銀行數據中心存儲架構
與傳統的OldSQL模式相比,商業銀行數據中心採用OldSQLNewSQL混合搭建模式,數據載入性能提升3倍以上,即席查詢和統計分析性能提升6倍以上。NewSQL MPP的高可擴展性能夠應對新的業務需求,可隨著數據量的增長採用集群方式構建存儲容量更大的數據中心。
OldSQLNoSQL 在互聯網大數據應用中混合部署
在互聯網大數據應用中採用OldSQLNoSQL混合模式,能夠很好的解決互聯網大數據應用對海量結構化和非結構化數據進行存儲和快速處理的需求。在諸如大型電子商務平台、大型SNS平台等互聯網大數據應用場景中,OldSQL在應用中負責高價值密度結構化數據的存儲和事務型處理,NoSQL在應用中負責存儲和處理海量非結構化的數據和低價值密度結構化數據。OldSQLNoSQL模式在互聯網大數據應用中的互補作用體現在,OldSQL彌補了NoSQL在ACID特性和復鄭彎雜關聯運算方面的不足,NoSQL彌補了OldSQL在海量數據存儲和非結構化數據處理方面的缺陷。
數據魔方是淘寶網的一款數據產品,主要提供行業數據分析、店鋪數據分析。淘寶數據產品在存儲層採用OldSQLNoSQL混合模式,由基於MySQL的分布式關系型資料庫集群MyFOX和基於HBase的NoSQL存儲集群Prom組成。由於OldSQL強大的語義和關系表達能力,在應用中仍然占據著重要地位,目前存儲在MyFOX中的統計結果數據已經達到10TB,占據著數據魔方總數據量的95%以上。另一方面,NoSQL作為SQL的有益補充,解決了OldSQL資料庫無法解決的全屬性選擇器等問題。
淘寶海量數據產品技術架構
基於OldSQLNoSQL混合架構的特點,數據魔方目前已經能夠提供壓縮前80TB的數據存儲空間,支持每天4000萬的查詢請求,平均響應時間在28毫秒,足以滿足未來一段時間內的業務增長需求。
NewSQLNoSQL 在行業大數據應用中混合部署
行業大數據與互聯網大數據的區別在於行業大數據的價值密度更高,並且對結構化數據的實時處理、復雜的多表關聯分析、即席查詢、數據強一致性等都比互聯網大數據有更高的要求。行業大數據應用場景主要是分析類應用,如:電信、金融、政務、能源等行業的決策輔助、預測預警、統計分析、經營分析等。
在行業大數據應用中採用NewSQLNoSQL混合模式,充分利用NewSQL在結構化數據分析處理方面的優勢,以及NoSQL在非結構數據處理方面的優勢,實現NewSQL與NoSQL的功能互補,解決行業大數據應用對高價值結構化數據的實時處理、復雜的多表關聯分析、即席查詢、數據強一致性等要求,以及對海量非結構化數據存儲和精確查詢的要求。在應用中,NewSQL承擔高價值密度結構化數據的存儲和分析處理工作,NoSQL承擔存儲和處理海量非結構化數據和不需要關聯分析、Ad-hoc查詢較少的低價值密度結構化數據的工作。
當前電信運營商在集中化BI系統建設過程中面臨著數據規模大、數據處理類型多等問題,並且需要應對大量的固定應用,以及占統計總數80%以上的突發性臨時統計(ad-hoc)需求。在集中化BI系統的建設中採用NewSQLNoSQL混搭的模式,充分利用NewSQL在復雜分析、即席查詢等方面處理性能的優勢,及NoSQL在非結構化數據處理和海量數據存儲方面的優勢,實現高效低成本。
集中化BI系統數據存儲架構
集中化BI系統按照數據類型和處理方式的不同,將結構化數據和非結構化數據分別存儲在不同的系統中:非結構化數據在Hadoop平台上存儲與處理;結構化、不需要關聯分析、Ad-hoc查詢較少的數據保存在NoSQL資料庫或Hadoop平台;結構化、需要關聯分析或經常ad-hoc查詢的數據,保存在NewSQL MPP資料庫中,短期高價值數據放在高性能平台,中長期放在低成本產品中。
結語
當前信息化應用的多樣性、復雜性,以及三種資料庫架構各自所具有的優勢和局限性,造成任何一種架構的資料庫都不能完全滿足應用需求,因此不同架構資料庫混合使用,從而彌補其他架構的不足成為必然選擇。根據應用場景採用不同架構資料庫進行組合搭配,充分發揮每種架構資料庫的特點和優勢,並且與其他架構資料庫形成互補,完全涵蓋應用需求,保證數據資源的最優化利用,將成為未來一段時期內信息化應用主要採用的解決方式。
目前在國內市場上,OldSQL主要為Oracle、IBM等國外資料庫廠商所壟斷,達夢、金倉等國產廠商仍處於追趕狀態;南大通用憑借國產新型資料庫GBase 8a異軍突起,與EMC的Greenplum和HP的Vertica躋身NewSQL市場三強;NoSQL方面用戶則大多採用Hadoop開源方案。
② 為什麼要用NoSQL資料庫管理系統
無法應對每秒上萬次的讀寫請求,硬碟IO此時也將變為性能瓶頸
表中存儲記錄數量有限,橫向可擴展能力有限,縱向數據可承受能力也是有限的,面對海量數據,勢必涉及到分庫分表,難以維護。大數據查詢SQL效率極低,數據量到達一定程度時,查詢時間會呈指數級別增長
難以橫向擴展,無法簡單地通過增加硬體、服務節點來提高系統性能。對於需要24小時不間斷提供服務的網站來說,資料庫升級、擴展將是一件十分麻煩的事,往往需要停機維護,數據遷移,為了避免服務間斷,如果網站使用伺服器集群,則根據集群策略,需要相應的考慮主從一致性、集群擴展性等一系列問題
海量數據下,讀寫性能優異
數據模型靈活
數據間無關系,易於擴展
三、NoSQL資料庫分類:
1,鍵值存儲資料庫。代表資料庫:Redis
適用場景:會話信息,用戶配置信息,購物車
2,列存儲資料庫
代表資料庫:BigTable,Cassandra,HBase
適用場景:事件記錄,內容管理,博客平台
不適合需要ACID事務的場合
3,文檔型資料庫
代表資料庫:MongoDB
適用場景:事件記錄,內容管理,博客平台,網站分析,實時分析,電子商務應用
4,圖資料庫:可以使用圖結構相關演算法,比如最短路徑定址
代表資料庫:Neo4j
適用場景:社交網路,推薦引擎,基於位置的服務