Hadoop大數據培訓課程
2015-05-26

Hadoop課程介紹

         這是一個信息爆炸的年代。經過數十年的積累,很多企業都聚集了大量的數據。這些數據也是企業的核心財富之一,怎樣從累積的數據里尋找價值,變廢為寶則成為當務之急。但數據增長的速度往往比CPU和MEMORY性能增長的速度還要快得多。要處理海量數據,如果求助于昂貴的專用主機甚至超級計算機,成本無疑很高,有時即使是保存數據,也需要面對高成本的問題,因為具有海量數據容量的存儲設備,價格往往也是天文數字。成本和IT能力成為了海量數據分析的主要瓶頸。

        Hadoop這個開源產品的出現,打破了對數據力量的壓制。Hadoop源于Nutch這個小型的搜索引擎項目。而Nutch則出自于著名的開源搜索引擎解決方案Lucene,而Lucene則來源于對Google的學習模仿。在Hadoop身上有著明顯的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想來源于Goolge對Page rank的計算方法,HBase模仿的是Big Table,Zookeeper則學習了Chubby。Google巨人的力量盡管由于商業的原因被層層封鎖,但在Hadoop身上得到了完美的重生和發展。從2006年Apache基金會接納Hadoop項目以來。Hadoop已經成為云計算軟件的一個事實標準,以及開源云計算解決方案的幾乎唯一選擇。對于想用低成本(包括軟硬件)實現云計算平臺或海量數據分析平臺的用戶,Hadoop集群是首選的對象。正是由于此新興技術的產生,才給當下大數據企業帶來了新方向,為此我們特意編輯此專業技術課程,提升大家的小宇宙。幫助大家從傳統數據庫領域提升到分布式計算領域。

授課群體

风暴魔域手游如何强化装备:         該課程設計內容采用逐層遞進,對Hadoop生態圈的了解逐步加深,課程服務的群體包括:

风暴魔域官网公告 www.afifg.icu 1,未畢業的大學生

2,職場小白,工作經驗在1-2年

3,想要從事大數據開發卻沒有Hadoop基礎

4,對Hadoop有過了解,未系統學習

5,有過Hadoop程序編寫經驗,未參與企業級大數據項目開發的

6,想從事Hadoop集群管理

7,未來想從事Hadoop首席架構師

 

培訓目標

         

         該課程的培訓目標是讓學員對Hadoop生態圈的常用組件有所了解,對Hadoop產生整體認知,理解分布式存儲和分布式計算的原理,對Hive、HBase、HDFS、MR、Yarn、Impala等達到入門級別。經過培訓,提高學員在大數據方向的核心競爭力,面對面試官的提問,可以靈活應對,從而找到心儀的大數據相關工作。

課程介紹

         該培訓課程主要從課程??檣杓?、授課時間、授課內容三方面進行細化,課程中包括普通課程和高級課程,普通課程即對初級學員或零基礎學員開課,高級課程是針對有一定開發基礎或者想深入學習的學員開課。

         課程的具體情況如下:

Ø  所有課程共計130小時,共26天

Ø  基礎課程共80小時,共計16天

Ø  高級課程共50小時,共計10天

 

初級課程大綱(Hadoop生態圈基礎知識為主)

 

???/p>

子???/p>

課時(時)

初級

內容

了解Hadoop

初識

1

初級

自我介紹、培訓目的、目標,大綱介紹

認識大數據

1

初級

對大數據整體認知

Hadoop起源、發展

1

初級

了解Hadoop的由來

Hadoop生態圈介紹

2

初級

對生態圈組件認識

崗位特點

1

初級

對于不同技能所從事的崗位整體認知

Hadoop部署

Hadoop部署方式

2

初級

初步了解Hadoop的部署方式

環境準備

2

初級

部署Hadoop需要的基礎環境介紹,準備

介紹CM

3

初級

對CM有整體認知,可以使用CM中的基本功能

實戰CM

3

初級

利用CM安裝集群,讓學員學會快速搭建集群

手動安裝集群

3

初級

如何手動安裝開源Hadoop

HDFS管理

HDFS原理

3

初級

介紹HDFS文件存儲原理

HDFS參數配置

2

初級

了解HDFS的基本參數配置情況

HDFS常用操作

2

初級

了解HDFS常用命令

HA介紹

2

初級

NameNode 高可靠性介紹

Yarn介紹

MapReduce介紹

2

初級

介紹分布式計算框架原理

Yarn框架介紹

2

初級

Hadoop2.0后新框架與0.23的不同

參數講解

3

初級

主要參數用途講解

Yarn配置

3

初級

Yarn框架下基本配置

Yarn隊列調度原理

2

初級

介紹Yarn框架中隊列調研的原理

Hive介紹

Hive體系介紹

2

初級

介紹Hive基本原理,架構

Hive安裝配置

2

初級

介紹如何安裝Hive,如何進行配置

HQL介紹

1

初級

介紹Hive的基本SQL

 Spark介紹

Sqoop介紹

1

初級

介紹sqoop數據原理

Spark簡介

1

初級

介紹Spark的基本原理

Spark參數配置

2

初級

講解Spark中參數基本配置

Spark編程

2

初級

介紹Spark的程序開發過程

Spark Shell介紹

2

初級

介紹spark shell基本操作

Spark on Yarn介紹

1

初級

介紹Spark on Yarn的原理和框架

Spark SQL

2

初級

介紹Spark SQL的開發過程

Impala介紹

Impala原理

2

初級

介紹Impala實時計算框架的原理

Impala參數配置

2

初級

介紹Impala在使用過程中參數情況

Impala安裝

3

初級

Impala安裝部署

Impala使用

2

初級

講解Impala命令及元素

HBase介紹

HBase簡介

1

初級

介紹HBase的基本原理

HBase架構分析

2

初級

講解HBase架構與其他架構的異同點

HBase參數配置

2

初級

介紹HBase的參數配置情況

HBase Shell介紹

2

初級

介紹HBase Shell的使用

MapRedue

MR開發簡介

2

初級

介紹MR程序開發基本原理

MR語法介紹

2

初級

介紹MR的語法規則,開發規則

MR任務分配

3

初級

介紹MR任務分配方式

MR作業監控

3

初級

監控作業運行狀態、進度等

 

高級課程大綱(實戰企業級應用案例為主)

???/p>

子???/p>

課時(時)

高級

內容

 

HDFS高級管理

HDFS高級特性

3

高級

深入了解HDFS

Zookeeper介紹

1

高級

原理和應用場景介紹

 

 

 

Hive案例

HQL高級功能

1

高級

Hive自定義SQL介紹及優化

Hive JDBC使用

4

高級

介紹使用jdbc方式操作Hive數據倉庫

Hive設計

3

高級

Hive表結構的設計原則

Hive應用案例

4

高級

講解Hive企業應用案例場景

Spark案例

Spark應用案例

4

高級

講解Spark企業案例應用場景

Impala案例

Impala應用案例

4

高級

講解Impala企業案例應用場景

 

HBase案例

HBase高級特性

3

高級

介紹HBase高級特性及參數優化

HBase應用案例

4

高級

講解HBase企業案例應用場景

MapRedue案例

MR清洗數據

3

高級

介紹編寫清洗數據的MR程序

MR數據分析

4

高級

介紹典型數據分析的開發過程

企業級大數據項目實戰

項目分析

3

高級

項目背景、項目目標、項目規劃等

環境就緒

4

高級

軟硬件環境準備

項目開發過程

3

高級

完整開發過程

項目總結

2

高級

項目總結