濮阳杆衣贸易有限公司

主頁 > 知識庫 > 簡要了解Hadoop集群技術(shù)與Spark集群技術(shù)的對比

簡要了解Hadoop集群技術(shù)與Spark集群技術(shù)的對比

熱門標簽:百應(yīng)電話機器人價值 周口權(quán)威的不封卡電話外呼系統(tǒng) 地圖標注不顯示 外呼系統(tǒng)2273649Z空間 河北crm外呼系統(tǒng)平臺 金蘭灣地圖標注app 河南語音外呼系統(tǒng)平臺 福州公司外呼系統(tǒng)加盟 南京400電話辦理到易號網(wǎng)


Hadoop:分布式批處理計算,強調(diào)批處理,常用于數(shù)據(jù)挖掘、分析。
Spark:是一個基于內(nèi)存計算的開源的集群計算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速, Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。
Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。
盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統(tǒng)中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實驗室 (Algorithms,Machines,and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。
雖然 Spark 與 Hadoop 有相似之處,但它提供了具有有用差異的一個新的集群計算框架。首先,Spark 是為集群計算中的特定類型的工作負載而設(shè)計,即那些在并行操作之間重用工作數(shù)據(jù)集(比如機器學(xué)習(xí)算法)的工作負載。為了優(yōu)化這些類型的工作負載,Spark 引進了內(nèi)存集群計算的概念,可在內(nèi)存集群計算中將數(shù)據(jù)集緩存在內(nèi)存中,以縮短訪問延遲.
在大數(shù)據(jù)處理方面相信大家對hadoop已經(jīng)耳熟能詳,基于GoogleMap/Reduce來實現(xiàn)的Hadoop為開發(fā)者提供了map、reduce原語,使并行批處理程序變得非常地簡單和優(yōu)美。Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多種操作類型,他們把這些操作稱為Transformations。同時還提供Count,collect, reduce, lookup, save等多種actions。這些多種多樣的數(shù)據(jù)集操作類型,給上層應(yīng)用者提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名,物化,控制中間結(jié)果的分區(qū)等??梢哉f編程模型比Hadoop更靈活.

Hadoop和Spark均是大數(shù)據(jù)框架,都提供了一些執(zhí)行常見大數(shù)據(jù)任務(wù)的工具。但確切地說,它們所執(zhí)行的任務(wù)并不相同,彼此也并不排斥。雖然在特定的情況下,Spark據(jù)稱要比Hadoop快100倍,但它本身沒有一個分布式存儲系統(tǒng)。而分布式存儲是如今許多大數(shù)據(jù)項目的基礎(chǔ)。它可以將PB級的數(shù)據(jù)集存儲在幾乎無限數(shù)量的普通計算機的硬盤上,并提供了良好的可擴展性,只需要隨著數(shù)據(jù)集的增大增加硬盤。因此,Spark需要一個第三方的分布式存儲。也正是因為這個原因,許多大數(shù)據(jù)項目都將Spark安裝在Hadoop之上。這樣,Spark的高級分析應(yīng)用程序就可以使用存儲在HDFS中的數(shù)據(jù)了。

與Hadoop相比,Spark真正的優(yōu)勢在于速度。Spark的大部分操作都是在內(nèi)存中,而Hadoop的MapReduce系統(tǒng)會在每次操作之后將所有數(shù)據(jù)寫回到物理存儲介質(zhì)上。這是為了確保在出現(xiàn)問題時能夠完全恢復(fù),但Spark的彈性分布式數(shù)據(jù)存儲也能實現(xiàn)這一點。

另外,在高級數(shù)據(jù)處理(如實時流處理和機器學(xué)習(xí))方面,Spark的功能要勝過Hadoop。在Bernard看來,這一點連同其速度優(yōu)勢是Spark越來越受歡迎的真正原因。實時處理意味著可以在數(shù)據(jù)捕獲的瞬間將其提交給分析型應(yīng)用程序,并立即獲得反饋。在各種各樣的大數(shù)據(jù)應(yīng)用程序中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、制造業(yè)中的工業(yè)機械性能監(jiān)控。Spark平臺的速度和流數(shù)據(jù)處理能力也非常適合機器學(xué)習(xí)算法。這類算法可以自我學(xué)習(xí)和改進,直到找到問題的理想解決方案。這種技術(shù)是最先進制造系統(tǒng)(如預(yù)測零件何時損壞)和無人駕駛汽車的核心。Spark有自己的機器學(xué)習(xí)庫MLib,而Hadoop系統(tǒng)則需要借助第三方機器學(xué)習(xí)庫,如Apache Mahout。

實際上,雖然Spark和Hadoop存在一些功能上的重疊,但它們都不是商業(yè)產(chǎn)品,并不存在真正的競爭關(guān)系,而通過為這類免費系統(tǒng)提供技術(shù)支持贏利的公司往往同時提供兩種服務(wù)。例如,Cloudera就既提供Spark服務(wù)也提供Hadoop服務(wù),并會根據(jù)客戶的需要提供最合適的建議。

標簽:呼和浩特 自貢 撫州 臺州 南京 贛州 瀘州 長治

巨人網(wǎng)絡(luò)通訊聲明:本文標題《簡要了解Hadoop集群技術(shù)與Spark集群技術(shù)的對比》,本文關(guān)鍵詞  簡要,了解,Hadoop,集群,技術(shù),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《簡要了解Hadoop集群技術(shù)與Spark集群技術(shù)的對比》相關(guān)的同類信息!
  • 本頁收集關(guān)于簡要了解Hadoop集群技術(shù)與Spark集群技術(shù)的對比的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    丹江口市| 巴彦县| 广宁县| 云阳县| 嘉兴市| 利津县| 新巴尔虎右旗| 桂东县| 方正县| 昭觉县| 宜春市| 方山县| 普定县| 西峡县| 荃湾区| 乌拉特后旗| 宜城市| 山丹县| 通州区| 新绛县| 巴林右旗| 万州区| 隆昌县| 和政县| 宽城| 夏河县| 壤塘县| 蒲江县| 赣榆县| 宝坻区| 桃江县| 巴彦县| 澄城县| 泉州市| 黄陵县| 黑龙江省| 台山市| 内丘县| 阿鲁科尔沁旗| 德州市| 宾阳县|