下載手機(jī)汽配人

impala為什么比spark快

提問者:網(wǎng)友 2018-08-25
最佳回答
應(yīng)該不會,Impala是相當(dāng)專注于傳統(tǒng)企業(yè)客戶和OLAP和數(shù)據(jù)倉庫工作負(fù)載。Shark支持傳統(tǒng)OLAP。 比較: 一、總體上 Shark擴(kuò)展了Apache Hive,大大加快在內(nèi)存和磁盤上的查詢。而Impala是企業(yè)級數(shù)據(jù)倉庫系統(tǒng), 可以很好地使用Hive/ HDFS,從架構(gòu)層來說,類似于傳統(tǒng)的并行數(shù)據(jù)庫。這兩個系統(tǒng)有著很多共同的目標(biāo),但也有很大差異。 二、與現(xiàn)有系統(tǒng)的兼容性 Shark直接建立在Apache/Hive代碼庫上,所以它自然支持幾乎所有Hive特點(diǎn)。它支持現(xiàn)有的Hive SQL語言,Hive數(shù)據(jù)格式(SerDes),用戶自定義函數(shù)(UDF),調(diào)用外部腳本查詢。因?yàn)镮mpala使用自定義的C++運(yùn)行,它不支持Hive UDF。這兩個系統(tǒng)將會與許多BI工具整合,這一直是Impala的主要目標(biāo)。Shark正在被用于一些BI工具,如Tableau,不過這并沒有被探索更多。 三、內(nèi)存中的數(shù)據(jù)處理 Shark允許用戶顯式地加載在內(nèi)存中的數(shù)據(jù),以加快查詢處理,其內(nèi)存使用有效率的,壓縮的面向列的格式。Impala還沒有提供在內(nèi)存中的存儲。 四、容錯 Shark被設(shè)計為支持短期和長時間運(yùn)行的查詢。它可以從查詢故障恢復(fù)(感謝底層Spark引擎)。Impala目前是更側(cè)重于短查詢,不容錯(如果節(jié)點(diǎn)發(fā)生故障,查詢必須重新啟動,對短查詢來說這無疑是可以接受的)。 五、性能 做全面的比較太早了點(diǎn)。Shark和Impala都報告比Hive快10-100倍,但這都依賴具體情況和系統(tǒng)負(fù)載。兩個項(xiàng)目也都在未來6個月內(nèi)會做重要優(yōu)化。以我們的經(jīng)驗(yàn)來看,Sharkr當(dāng)前版本,如果是內(nèi)存的數(shù)據(jù)一般比Hive快100倍,如果是磁盤上的數(shù)據(jù)一般快5-10倍,這取決于查詢(帶關(guān)聯(lián)連接的查詢,能比Hive快很多)。
回答者:網(wǎng)友
產(chǎn)品精選
在移動端查看: impala為什么比spark快
搜索問答
還沒有汽配人賬號?立即注冊

我要提問

汽配限時折扣

本頁是網(wǎng)友提供的關(guān)于“impala為什么比spark快”的解答,僅供您參考,汽配人網(wǎng)不保證該解答的準(zhǔn)確性。