汽配人首頁 > 問答首頁

impala為什么比spark快

: 問提問者：網(wǎng)友 | 2018-08-25

最佳回答

應(yīng)該不會，Impala是相當(dāng)專注于傳統(tǒng)企業(yè)客戶和OLAP和數(shù)據(jù)倉庫工作負(fù)載。Shark支持傳統(tǒng)OLAP。比較：一、總體上 Shark擴(kuò)展了Apache Hive，大大加快在內(nèi)存和磁盤上的查詢。而Impala是企業(yè)級數(shù)據(jù)倉庫系統(tǒng), 可以很好地使用Hive/ HDFS，從架構(gòu)層來說，類似于傳統(tǒng)的并行數(shù)據(jù)庫。這兩個系統(tǒng)有著很多共同的目標(biāo)，但也有很大差異。二、與現(xiàn)有系統(tǒng)的兼容性 Shark直接建立在Apache/Hive代碼庫上，所以它自然支持幾乎所有Hive特點(diǎn)。它支持現(xiàn)有的Hive SQL語言，Hive數(shù)據(jù)格式（SerDes），用戶自定義函數(shù)（UDF），調(diào)用外部腳本查詢。因?yàn)镮mpala使用自定義的C++運(yùn)行，它不支持Hive UDF。這兩個系統(tǒng)將會與許多BI工具整合，這一直是Impala的主要目標(biāo)。Shark正在被用于一些BI工具，如Tableau，不過這并沒有被探索更多。三、內(nèi)存中的數(shù)據(jù)處理 Shark允許用戶顯式地加載在內(nèi)存中的數(shù)據(jù)，以加快查詢處理，其內(nèi)存使用有效率的，壓縮的面向列的格式。Impala還沒有提供在內(nèi)存中的存儲。四、容錯 Shark被設(shè)計為支持短期和長時間運(yùn)行的查詢。它可以從查詢故障恢復(fù)(感謝底層Spark引擎)。Impala目前是更側(cè)重于短查詢，不容錯（如果節(jié)點(diǎn)發(fā)生故障，查詢必須重新啟動，對短查詢來說這無疑是可以接受的）。五、性能做全面的比較太早了點(diǎn)。Shark和Impala都報告比Hive快10-100倍，但這都依賴具體情況和系統(tǒng)負(fù)載。兩個項(xiàng)目也都在未來6個月內(nèi)會做重要優(yōu)化。以我們的經(jīng)驗(yàn)來看，Sharkr當(dāng)前版本，如果是內(nèi)存的數(shù)據(jù)一般比Hive快100倍，如果是磁盤上的數(shù)據(jù)一般快5-10倍，這取決于查詢（帶關(guān)聯(lián)連接的查詢，能比Hive快很多）。: 回答者：網(wǎng)友

產(chǎn)品精選

我來回答