班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每期人數限3到5人。 |
上課時間和地點 |
上課地點:【上海】:同濟大學(滬西)/新城金郡商務樓(11號線白銀路站) 【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院 【北京分部】:北京中山學院/福鑫大樓 【南京分部】:金港大廈(和燕路) 【武漢分部】:佳源大廈(高新二路) 【成都分部】:領館區1號(中和大道) 【沈陽分部】:沈陽理工大學/六宅臻品 【鄭州分部】:鄭州大學/錦華大廈 【石家莊分部】:河北科技大學/瑞景大廈 【廣州分部】:廣糧大廈 【西安分部】:協同大廈
最近開課時間(周末班/連續班/晚班):2020年3月16日 |
實驗設備 |
☆資深工程師授課
☆注重質量
☆邊講邊練
☆合格學員免費推薦工作
★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
3、培訓合格學員可享受免費推薦就業機會。 |
課程大綱 |
互聯網點擊數據、傳感數據、日志文件、具有豐富地理空間信息的移動數據和涉及網絡的各類評論,成為了海量信息的多種形式。當數據以成百上千TB不斷增長的時候,我們在內部交易系統的歷史信息之外,需要一種基于大數據分析的決策模型和技術支持。
????
目前對大數據的分析工具,有Hadoop/Yarn上基于Java語言的Mahout,有Spark上基于Scala的MLlib,但這些工具都由于比較年輕以及側重于計算背景的分布式,與傳統的行業應用聯系還不是太緊密,在傳統行業中應用,至少目前效果和影響還有待提高。
????
R語言是一個數據分析和圖形顯示的程序設計環境,廣泛用于統計分析、繪圖的語言和操作。同時R也是一個用于統計計算和統計制圖的優秀工具,也是GNU的一個自由、免費、源代碼開放的軟件。R包括一套完整的數據處理、計算和制圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能。
????
事實上,R是目前廣大企業通用的數據挖掘與統計分析工具,為此Spark等大數據平臺從2014年就開始在SparkR等技術中,將R引入到大數據統計分析中,未來形成以R語言為代表的SparkR, 以類SQL為代表的SparkQL,以及Hive on Tez三足鼎立的大數據統計分析工具和平臺。
????
本課程從R語言數據挖掘和統計分析實戰的角度,結合理論和實踐,全方位地介紹R這一高性能數據分析工具的開發技巧。本課程涉及的主題包括:本培訓將介紹基于R語言進行數據處理、數據探索的基本方法,利用R語言實現模型選擇、Logistic回歸及決策樹算法,以及貝葉斯算法及支持向量機、神經網絡等算法原理及實現進行講解。
????
本課程教學過程中還從國內外經典R語言教材和應用中,提取了大量的案例分析來幫助學員了解如何用R系列工具來解決數據統計分析的具體問題,并介紹了從數據中挖掘出有價值的信息的關鍵。
????
本課程不是一個泛泛的理論性、概念性的介紹課程,而是針對問題討論解決方案的深入課程。教師對于上述領域有深入的理論研究與實踐經驗,在課程中將會針對這些問題與學員一起進行研究,在關鍵點上還會搭建實驗環境進行實踐研究,以加深對于這些解決方案的理解。通過本課程學習,希望推動R相關的項目開發上升到一個新水平。
培訓目標
1,全面了解R語言數據挖掘的相關知識。
2,學習R的數據挖掘核心技術方法以及應用特征。
3,深入使用R在數據挖掘和分析中的使用。
4,了解R與Hadoop、Spark等技術的融合使用。
課程大綱
第一講、數據挖掘和R簡介
1.1 數據挖掘
1.2 R語言
1.3 Iris數據集
1.4Bodyfat數據集
第二講、數據的導入與導出
2.1 R數據的保存與加載
2.2 CSV文件的導入與導出
2.3 通過ODBC從數據庫中讀取數據
2.4 從Excel中導入與導出數據
第三講、數據可視化展現
3.1 查看數據
3.2 單個變量展現
3.3 多個變量展現
3.4 更多探索
3.5 將圖表保存到文件中
第四講、決策樹與隨機森林
4.1 使用party包構建決策樹
4.2 使用rpart包構建決策樹
4.3 隨機森林
第五講、回歸分析
5.1 線性回歸
5.2 邏輯回歸
5.3 廣義線性回歸
5.4 非線性回歸
第六講、聚類分析
6.1 k-means聚類
6.2 k-medoids聚類
6.3 層次聚類
6.4 基于密度的聚類
第七講、離群點檢測
7.1 單變量的離群點檢測
7.2 局部離群點因子檢測
7.3 用聚類方法進行離群點檢測
7.4 時間序列數據的離群點檢測
第八講、時間序列分析
8.1 R中的時間序列數據
8.2 時間序列分解
8.3 時間序列預測
8.4 時間序列聚類
8.5 時間序列分類
第九講、關聯規則
9.1 關聯規則的基本概念
9.2 Titanic數據集
9.3 關聯規則挖掘
9.4 消除冗余
9.5 解釋規則
9.6 關聯規則的可視化
第十講、社交網絡分析
10.1 詞項網絡
10.2 推文網絡
10.3 雙模式網絡
第十一講、 R與Hadoop/Spark等大數據技術的融合
1)R/Hadoop數據處理技術介紹
2)SparkR數據處理技術介紹
3)基于Hadoop/Yarn集群的應用展望
課程主講
????
由業界知名大數據專家親自授課:
????
楊老師?? 主要研究網絡信息分析以及云計算相關技術,長期從事通信網管系統、網絡信息處理、商務智能(BI)以及電信決策支持系統的研究開發工作,主持和參與了多個國家和省部級基金項目,具有豐富的工程實踐及軟件研發經驗。
課程對象
1,系統架構師、系統分析師、高級程序員、資深開發人員。
2,牽涉到數據挖掘和統計分析的數據中心運行、規劃、設計負責人。
3,政府機關,金融保險、移動和互聯網等大數據來源單位的負責人。
4,高校、科研院所牽涉到數據挖掘與統計分析處理的項目負責人。
學員基礎
1,對IT系統設計有一定的理論與實踐經驗。
2,對數據挖掘和數據處理方法有一定的基礎知識。
3,對Hadoop/Spark等大數據技術有一定的了解。 |
|
|
|
|
|
|