班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每個班級的人數限3到5人,互動授課, 保障效果,小班授課。 |
上間和地點 |
上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈 最近開間(周末班/連續班/晚班):2019年1月26日 |
實驗設備 |
◆小班教學,教學效果好 ☆注重質量☆邊講邊練 ☆合格學員免費推薦工作 ★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽; 2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。 3、培訓合格學員可享受免費推薦就業機會。☆合格學員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。 |
部份程大綱 |
|
- 第1章 初探大數據
本章將介紹為什么要學習大數據、如何學好大數據、如何快速轉型大數據崗位、本項目實戰課程的內容安排、本項目實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹項目中涉及的Hadoop、Hive相關的知識
- 1-1 導學
1-2 -如何學好大數據
1-3 -開發環境介紹
1-4 -OOTB鏡像文件使用介紹
1-5 -大數據概述
1-6 -Hadoop概述
1-7 -HDFS概述及設計目標
1-8 -HDFS架構
1-9 -HDFS副本機制
1-10 -Hadoop下載及JDK安裝
1-11 -機器參數設置
1-12 -HDFS核心配置文件內容配置
1-13 -HDFS格式化及啟停
1-14 -HDFS shell常用操作
1-15 -HDFS優缺點
1-16 -MapReduce概述
1-17 -MapReduce編程模型及WordCount案例
1-18 -YARN產生背景
1-19 -YARN架構和執行流程
1-20 -YARN環境搭建及提交作業到YARN上運行
1-21 -Hive產生背景及Hive是什么
1-22 -為什么要使用Hive及Hive發展歷程
1-23 -Hive體系架構及部署架構
1-24 -Hive環境搭建
1-25 -Hive基本使用
第2章 Spark及其生態圈概述
Spark作為近幾年最火爆的大數據處理技術,是成為大數據工程師必備的技能之一。本章將從如下幾個方面對Spark進行一個宏觀上的介紹:Spark產生背景、特點、發展史、Databricks官方調查結果、Spark與Hadoop的對比、Spark開發語言及運行模式介紹 ...
- 2-1 -課程目錄
2-2 -Spark概述及特點
2-3 -Spark產生背景
2-4 -Spark發展歷史
2-5 -Spark Survey
2-6 -Spark對比Hadoop
2-7 -Spark和Hadoop的協作性
第3章 實戰環境搭建
工欲善其事必先利其器,本章講述Spark源碼編譯、Spark Local模式運行、Spark Standalone模式運行
- 3-1 -課程目錄
3-2 -Spark源碼編譯
3-3 補錄:Spark源碼編譯中的坑
3-4 Spark Local模式環境搭建
3-5 Spark Standalone模式環境搭建
3-6 Spark簡單使用
第4章 Spark SQL概述
Spark SQL面世已來,它不僅接過了Shark的接力棒,繼續為Spark用戶提供高性能SQL on Hadoop解決方案,還為Spark帶來了通用、高效、多元一體的結構化數據處理能力。本章將從Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架構,這幾個角度進行展開講解...
- 4-1 課程目錄
4-2 -Spark SQL前世今生
4-3 -SQL on Hadoop常用框架介紹
4-4 -Spark SQL概述
4-5 -Spark SQL愿景
4-6 -Spark SQL架構
第5章 從Hive平滑過渡到Spark SQL
Hive是SQL-on-Hadoop的解決方案和默認的標準,如何將數據處理從Hive過渡到Spark SQL上來是我們必須要掌握的。本章我們將講解在Spark中操作Hive中的數據幾種方式
- 5-1 -課程目錄
5-2 -A SQLContext的使用
5-3 -B HiveContext的使用
5-4 -C SparkSession的使用
5-5 spark-shell&spark-sql的使用
5-6 -thriftserver&beeline的使用
5-7 -jdbc方式編程訪問
第6章 DateFrame&Dataset
DataFrame&Dataset是Spark2.x中最核心的編程對象,Spark2.x中的子框架能夠使用DataFrame或Dataset來進行數據的交互操作。本章將從DataFrame的產生背景、DataFrame對比RDD、DataFrame API操作等方面對DataFrame做詳細的編程開發講解
- 6-1 -課程目錄
6-2 -DataFrame產生背景
6-3 -DataFrame概述
6-4 -DataFrame和RDD的對比
6-5 -DataFrame基本API操作
6-6 -DataFrame與RDD互操作方式一
6-7 -DataFrame與RDD互操作方式二
6-8 -DataFrame API操作案例實戰
6-9 -Dataset概述及使用
第7章 External Data Source
Spark SQL中的核心功能,可以使用外部數據源非常方便的對存儲在不同系統上的不同格式的數據進行操作。本章將講解如何使用外部數據源來操作Hive、Parquet、MySQL中的數據以及綜合使用
- 7-1 -課程目錄
7-2 -產生背景
7-3 -概述
7-4 -目標
7-5 -操作Parquet文件數據
7-6 -操作Hive表數據
7-7 -操作MySQL表數據
7-8 -Hive和MySQL綜合使用
第8章 SparkSQL愿景
本章將講解Spark的愿景:寫更少的代碼、讀更少的數據、讓優化器自動優化程序
- 8-1 -A SparkSQL愿景之一寫更少的代碼(代碼量和可讀性)
8-2 -B SparkSQL愿景之一寫更少的代碼(統一訪問操作接口)
8-3 -C SparkSQL愿景之一寫更少的代碼(強有力的API支持)
8-4 -D SparkSQL愿景之一些更少的代碼(Schema推導)
8-5 -E SparkSQL愿景之一寫更少的代碼(Schema Merge)
8-6 -F SparkSQL愿景之一寫更少的代碼(Partition Discovery)
8-7 -G SparkSQL愿景之一寫更少的代碼(執行速度更快)
8-8 -SparkSQL愿景之二讀取更少的數據
8-9 -SparkSQL愿景之三讓查詢優化器幫助我們優化執行效率
8-10 -SparkSQL愿景總結
第9章 慕課網日志實戰
本章使用Spark SQL對慕課網主站的訪問日志進行各個維度的統計分析操作,涉及到的過程有:數據清洗、數據統計、統計結果入庫、數據的可視化、調優及Spark on YARN。通過本實戰項目將Spark SQL中的知識點融會貫通,達到舉一反三的效果 ...
- 9-1 -課程目錄
9-2 -用戶行為日志概述
9-3 -離線數據處理架構
9-4 -項目需求
9-5 imooc網主站日志內容構成
9-6 數據清洗之第一步原始日志解析
9-7 -數據清洗之二次清洗概述
9-8 -數據清洗之日志解析
9-9 -數據清洗之ip地址解析
9-10 -數據清洗存儲到目標地址
9-11 -需求一統計功能實現
9-12 -Scala操作MySQL工具類開發
9-13 -需求一統計結果寫入到MySQL
9-14 -需求二統計功能實現
9-15 -需求二統計結果寫入到MySQL
9-16 -需求三統計功能實現
9-17 -需求三統計結果寫入到MySQL
9-18 -代碼重構之刪除指定日期已有的數據
9-19 -功能實現之數據可視化展示概述
9-20 -ECharts餅圖靜態數據展示
9-21 -ECharts餅圖動態展示之一查詢MySQL中的數據
9-22 -ECharts餅圖動態展示之二前端開發
9-23 -使用Zeppelin進行統計結果的展示
9-24 -Spark on YARN基礎
9-25 -數據清洗作業運行到YARN上
9-26 -統計作業運行在YARN上
9-27 -性能優化之存儲格式的選擇
9-28 -性能調優之壓縮格式的選擇
9-29 -性能優化之代碼優化
9-30 -性能調優之參數優化
第10章 Spark SQL擴展和總結
本章將列舉Spark SQL在工作中經常用到的方方方面的總結
- 10-1 -課程目錄
10-2 -Spark SQL使用場景
10-3 -Spark SQL加載數據
10-4 -DataFrame與SQL的對比
10-5 -Schema
10-6 -SaveMode
10-7 -處理復雜的JSON數據
10-8 -SQL的覆蓋程度
10-9 -外部數據源
|