基于批處理模式的實時流處理系統.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯網的快速發(fā)展和各類智能設備的普及,人類產生的數據量呈爆炸式增長。如何實時有效地處理這些大數據已經成為當今學界和工業(yè)界的研究熱點。為此,涌現出許多分布式流處理框架。它們大致可以分為兩大類:以Storm、S4等為代表的連續(xù)流處理系統,以及以Spark Streaming、HOP為代表的離散流處理系統。離散流處理系統吞吐率大,容錯恢復快速容易,易于與批處理應用結合。但由于它們是基于批處理模式,在面臨實時性要求較高的流計算應用以及系統中

2、大量微小任務時往往表現出負載不均衡、延遲較高等不適應性,導致流計算應用得不到及時快速的響應,甚至影響到整個系統的穩(wěn)定。
  在分布式集群環(huán)境下,基于批處理模式的實時流處理系統可以解決上述問題。其通過在流計算應用處理過程中監(jiān)控作業(yè)的運行狀態(tài),動態(tài)地計算節(jié)點處理能力,并根據輸入流的歷史輸入速率數據預測未來的輸入流速率,設計并實現了一種前瞻式的負載均衡機制。系統采用微小批次作為數據單元,在接收數據的同時根據各個工作節(jié)點處理能力的不同分發(fā)

3、與之能力相適應的數據量到特定節(jié)點。從而在數據處理階段,擁有數據的節(jié)點能夠在本地發(fā)起任務,達到更好的數據本地性和系統負載均衡,實現更低的處理延遲。此外,系統通過在數據接收階段就進行了數據的分發(fā),使得數據接收節(jié)點因為數據輸入速率過快而成為系統瓶頸的可能性降低,有效地提高了吞吐率。
  實驗結果表明,基于批處理模式的實時流處理系統對傳統離散流處理系統在處理延遲和吞吐率性能上都有很大的提升,分別可達50%和200%。并且隨著流應用復雜度的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論