无套内谢少妇毛片免费看看_人人入人人爱_又粗又大又硬毛片免费看_蜜桃AV无码国产丝袜在线观看

第九周 深圳市模具廠應用 大數據 hadoop spark

2019-10-27 17:00:03

帶著很對疑問,到了書城18樓,


1、centos 如何開啟  8888|888|88|8080|80|22|21等等端口

2、建立一個能使用的大數據集群最好需要多少臺服務器, 而且都是 centos 7.5 的嗎?

3、區塊鏈 和 我們學習的大數據中的 BlocK 有無聯系, 64MB 一個 塊, 還是128M一個塊。


復習上周


image.png


發送心跳, 告訴 ZooKeeper ,  這個是有問題才動手的軟件,  再由ZooKeePer 分配KafKA

producr 生產者產生數據, 記錄放入 Kafka .   Topic 的創建, 寫入多少條, 都由 ZooKeeper 管理。

 消費者, 也是有

KAFKA作為一個集群,  宕機后, 主節點宕機后無法消費, 由ZooKeeper負責重新選舉。


zookeeper  安裝  三種模式


image.png


/bin  目錄下有很多腳本 , 

image.png


Myid 是不一樣的, 每臺機都要安裝   ZooKEEPER ,  不同的 ID 

2888   仲裁通訊

3888   群首選舉


每臺服務器上都要啟動一下,  每臺機都需要啟動

image.png


再看看  偽集群模式,    如果只有一臺機器, 也可以配置  zoo1.cfg  ........    僅僅是端口改為不一樣了  2181   3181   4181


image.png


啟動, 一臺機器, 也要啟動三次  

image.png


不同端口模擬不同集群

image.png



image.png


image.png


image.png

image.png

一個領導者和多個跟隨者的。



image.png

image.png

image.png

image.png


image.png


image.png


image.png


image.png


image.png


image.png



fluke   和 spark 都差不多, 原理還是結構spark ,   rdd  dij  


image.png


image.png

image.png



復習完成,  繼續SPARK 的學習。


SPARK核心編程模型


Spark 數據運算核心機制:


image.png



RDD概述:


RDD: 彈性分布式數據集


RDD是 SPARK中重要的數據結構。

image.png

image.png

什么是  RDD  ,


顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數據集。

它是Spark提供的核心抽象。

RDD在抽象上來講是一種抽象的分布式的數據集。它是被分區的,每個分區分布在集群中的不同的節點上。從而可以讓數據進行并行的計算

它主要特點就是彈性和容錯性。

彈性:RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤

容錯性:RDD可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition,因為節點故障,導致數據丟了,那么RDD會自動通過自己的數據來源重新計算該partition。

RDD來源:通常是Hadoop的HDFS,Hive 表等等;也可以通過Linux的本地文件;應用程序中的數組;jdbc(mysql 等);也可以是kafka、flume數據采集工具、中間件等轉化而來的RDD。


image.png

image.png

image.png


總體都在RAM中運行的, 現在看看 CACHE ,  


image.png

image.png


image.png


image.png


image.png


不斷的轉化, 就是得到  DMG圖,  TSK 何在一起就是   TSK site    ,  最終得到   TSK  scuhle 


image.png

image.png





image.png

image.png

image.png

image.png


image.png

image.png

image.png



image.png




下節課, 講解  spark  讀取  kafka 數據進行講解