這些年,大數據作為一個時髦概念,出現頻率很高,關注度也很高。它不只是一項數據存儲技術,而是一系列和海量數據相關的抽取、集成、管理、分析、解釋技術,是通過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術構。
大數據的處理過程可以分為大數據采集、存儲、結構化處理、隱私保護、挖掘、結果展示(發布)等。各種領域的大數據應用一般都會涉及到這些基本過程,但不同應用可能會有所側重。
選擇合適的大數據技術平臺應當考慮以下因素:
(1)平臺的集成度
好的平臺應該具有較高的集成度,為用戶提供良好的操作界面,具有完善的幫助和使用手冊、系統易于配置、移植性好。同時隨著目前軟件開源的趨勢,開源平臺有助于其版本的快速升級,盡快發現其中的bug,此外,開源的架構也比較容易進行擴展,植入更多的新算法,這對于最終用戶而言也是比較重要的。
(2)平臺的功能與性能
由于不同平臺側重的功能不同,平臺的性能也就有很多需要考察的方面。比如對于存儲平臺來說,數據的存儲效率、讀寫效率、并發訪問能力、對結構化與非結構化數據存儲的支持,所提供的數據訪問接口等方面就是比較重要的。對于大數據挖掘平臺來說,所支持的挖掘算法、算法的封裝程度、數據挖掘結果的展示能力、挖掘算法的時間和空間復雜度等,是比較重要的指標。
(3)是否符合技術發展趨勢
大數據技術是當前發展和研究的熱點,其最終將走向逐步成熟,可以預見在這個過程中,并非所有的技術平臺都能生存下來。只有符合技術發展趨勢的技術平臺才會被用戶、被技術開發人員所接受。因此,一些不支持分布式、集群計算的平臺大概只能針對較小的數據量,側重于對挖掘算法的驗證。而與云計算、物聯網、人工智能聯系密切的技術平臺將成為主流,是技術發展趨勢。