大数据学习路线(2018年最新整理)
星期 |
课程内容 |
|
|||||||||||||||||||||||
内容安排 |
“领会平台”实验文档 |
|
|||||||||||||||||||||||
第一阶段(java基础+MySql数据库+爬虫+java web可视化) |
|||||||||||||||||||||||||
1 |
Java环境搭建+数据类型 |
Java数据类型 |
|
||||||||||||||||||||||
2 |
运算符+流程控制(if-else、switch) |
Java运算符1 Java运算符2 |
|
||||||||||||||||||||||
3 |
流程控制(循环) |
Java流程控制 |
|
||||||||||||||||||||||
4 |
Java数组(定义、遍历、二维数组) |
Java基础训练-数组 图书管理系统 |
|
||||||||||||||||||||||
5 |
面向对象:类和对象、方法定义、重载、方法传参 封装:Pricate 访问修饰符:static、this、final |
Java封装Private |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
继承和多态 抽象类和接口 |
继承和多态 Java抽象类和接口 |
|
||||||||||||||||||||||
2 |
Java常用类+异常处理 |
Java常用类实现双色球功能 Java异常处理 |
|
||||||||||||||||||||||
3 |
集合: List:ArrayList、LinkedList Set:HashSet、TreeSet Map:HashMap、TreeMap
|
集合-list 集合-map |
|
||||||||||||||||||||||
4 |
IO流处理: 文件处理:File类(递归算法) 字节流:InputStream、OutputStream 字符流:BufferedReader、BufferedWriter 高级打印流:PrintWriter 序列化和反序列化: |
IO流--File类 IO流--字节流 IO流--字符流 |
|
||||||||||||||||||||||
5 |
垃圾回收机制 Java多线程:购票 总结回顾Java内容体系 |
Java--线程的创建和启动 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
MySql数据库安装 创建数据库、表等命令 删除表、数据增删改查、 |
MySql常用操作--DDL MySql常用操作--DML |
|
||||||||||||||||||||||
2 |
JDBC连接数据库 |
JavaWeb-JDBC连接数据库 |
|
||||||||||||||||||||||
3 |
Html+css选择器 |
Html制作网页 CSS网页样式--选择器 CSS网页样式--DIV盒子模型 CSS网页样式--常用样式 |
|
||||||||||||||||||||||
4 |
Js:语法+事件 |
javaScript基础语法 javaScript HTML DOM事件 |
|
||||||||||||||||||||||
5 |
爬虫:Jsoup Java网络连接 URLConnection XPath数据解析 |
Java爬虫--Jsoup内容解析 Java爬虫--Xpath解析 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
WebMagic框架爬虫: 智联+豆瓣电影 |
WebMagic之网页采集 WebMagic之爬取各网站首页并存储到HBase |
|
||||||||||||||||||||||
2 |
JavaWeb:tomcat配置、环境介绍 Jsp+servlet |
|
|
||||||||||||||||||||||
3 |
Echarts可视化 |
Web+Echarts日剧电影信息可视化--柱状图 |
|
||||||||||||||||||||||
4 |
综合练习:爬取数据并可视化 |
|
|
||||||||||||||||||||||
5 |
综合练习:爬取数据并可视化 |
四、Web+Echarts日剧电影信息可视化--折线图 |
|
||||||||||||||||||||||
第二阶段:Hadoop大数据生态系统 |
|||||||||||||||||||||||||
1 |
大数据概述:由来、发展、特点 Hadoop组成、原理、特性 Hadoop Shell操作 Yarn 大数据概述:由来、发展、特点 Hadoop生态系统介绍 Hadoop三种安装模式介绍 |
Hadoop伪分布模式安装 Hadoop开发插件安装
|
|
||||||||||||||||||||||
2 |
HDFS原理 Hadoop Shell操作 HDFS Java API |
HDFS JAVA API Hadoop Shell基本操作 |
|
||||||||||||||||||||||
3 |
MapReduce原理(map、reduce、shuffle) MapReduce程序代码结构 |
Mapreduce实例-wordcount Mapreduce实例——去重 Mapreduce实例—求平均值
|
|
||||||||||||||||||||||
4 |
MapReduce常见案例原理 资源调度工具Yarn |
Mapreduce实例——排序 Mapreduce实例——二次排序 Mapreduce实例——倒排索引 Mapreduce实例——Map端join Mapreduce实例——Reduce端join Mapreduce实例——单表join Mapreduce实例——ChainMapReduce 开发YARN客户端应用 |
|
||||||||||||||||||||||
5 |
MapReduce实战算法实现 |
MapReduce 最优路径算法 MapReduce 社交好友推荐算法 MapReduce实战PageRank算法 MapReduce 互联网精准广告推送算法 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
数据仓库Hive 原理、作用、环境搭建、基本操作 |
Hive安装部署 Hive基本操作 |
|
||||||||||||||||||||||
2 |
数据仓库Hive 查询、分组排序 |
Hive查询 Hive分组排序 |
|
||||||||||||||||||||||
3 |
数据仓库Hive JDBC连接Hive、Hive自定义函数 |
Hive JDBC连接 Hive UDF |
|
||||||||||||||||||||||
4 |
数据迁移工具Sqoop安装 数据导入导出 |
Sqoop安装 Sqoop数据导入导出(Mysql,HDFS,Hive,HBase) |
|
||||||||||||||||||||||
5 |
Sqoop增量数据导入 综合案例 |
Sqoop增量数据导入 综合案例—基本流程图 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
Zookeeper开发 |
Zookeeper安装 |
|
||||||||||||||||||||||
2 |
分布式数据库Hbase概述 HBase基本操作及表操作 |
HBase安装 HBase Shell基本操作 |
|
||||||||||||||||||||||
3 |
HBase数据库操作 |
HBase JAVA API |
|
||||||||||||||||||||||
4 |
HBase过滤器 自定义过滤器 |
HBase的过滤器 |
|
||||||||||||||||||||||
5 |
分布式数据库Hbase |
Sqoop导入数据到HBase |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
Kafka基本介绍 |
Kafka安装及测试 |
|
||||||||||||||||||||||
2 |
Kafka和Java API |
Kafka Java API Kafka分布式消息队列 |
|
||||||||||||||||||||||
3 |
Flume分布式日志框架 Flume配置文件 |
Flume安装部署 Flume配置Source、Channel、Sink |
|
||||||||||||||||||||||
4 |
Flume分布式日志框架 自定义来源 传输数据到kafka |
Flume自定义来源 Flume多source多sink组合搭建框架 Flume传输数据到kafka |
|
||||||||||||||||||||||
5 |
Flume分布式日志框架 |
Flume Interceptors相关配置 Flume AVRO Client开发 Flume Sink Processors相关配置 Flume selector相关配置 综合案例-大数据平台 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
项目实战一 电商评论数据分析与展示 |
三、利用HiveSql语句离线分析评论数据 四、利用Sqoop导出Hive数据到MySQL库 五、开发JavaWeb+ECharts完成数据图表展示过程
|
|
||||||||||||||||||||||
2 |
|
||||||||||||||||||||||||
3 |
项目实战二 北京市政信件项目开发 |
电商实战一:北京市政百姓信件内容分析 电商实战二:编写MapReduce程序清洗信件内容数据 电商实战三:利用HiveSql语句离线分析信件内容数据 电商实战四:利用Sqoop导出Hive数据到MySQL库 电商实战五:开发JavaWeb+ECharts完成数据图表展示过程 电商实战六:利用IKAnalyzer分词&词频统计算法(TF-IDF)分析信件内容关键词
|
|
||||||||||||||||||||||
4 |
|
||||||||||||||||||||||||
5 |
|
||||||||||||||||||||||||
第三阶段:Python编程+数据分析库+机器学习 |
|||||||||||||||||||||||||
1 |
Python环境搭建 数据类型:数字、字符串 变量 注释、运算符 |
Python安装 Python解释器介绍 Python基本数据类型:数字、字符串 Python输入输出 Python运算符与表达式 |
|
||||||||||||||||||||||
2 |
流程控制: 分支结构 循环结构 |
Python分支结构 Python循环结构 |
|
||||||||||||||||||||||
3 |
序列: 列表、元组、字符串
|
Python基本数据类型:集合、字典 Python数据结构:字典语法及应用 Python Python字符串数据结构:集合语法及应用 |
|
||||||||||||||||||||||
4 |
列表切片和推导式 迭代器和生成器 |
Python数据结构:列表切片操作 Python数据结构:列表推导式 Python迭代器与生成器 |
|
||||||||||||||||||||||
5 |
字典、集合 |
Python基本数据类型:集合、字典 Python数据结构:字典语法及应用 Python数据结构:集合语法及应用 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
内置函数 函数(自定义、lambda) |
Python内置函数 Python函数设计与使用 |
|
||||||||||||||||||||||
2 |
内建模块: Math、sys、random等 |
Python模块的使用 Python标准库 Python日期和时间 |
|
||||||||||||||||||||||
3 |
面向对象编程 |
Python面向对象:入门 Python面向对象:类的成员 Python面向对象:三大特性 |
|
||||||||||||||||||||||
4 |
Python文件操作 异常处理 |
Python文件操作 Python异常处理 |
|
||||||||||||||||||||||
5 |
数据分析模块Numpy |
numpy——基本操作(一) numpy——基本操作(二) numpy——linalg线性代数 numpy——random类 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
数据分析模块Pandas |
pandas——DataFrame基本操作(一) pandas——DataFrame基本操作(二) Pandas——Series操作 Pandas——字符串处理 Pandas——groupby操作 Pandas——基本函数 Pandas——可视化
|
|
||||||||||||||||||||||
2 |
绘图模块Matplotlib seaborn pyecharts |
matplotlib——条形图matplotlib——饼状图 matplotlib——直方图 matplotlib——散点图 matplotlib——绘制多个子图 matplotlib——3D图 matplotlib——文本说明(一) matplotlib——文本说明(二) |
|
||||||||||||||||||||||
3 |
机器学习sk-learn: 多元线性回归 逻辑回归 |
机器学习--线性回归 机器学习--多元线性回归 机器学习--逻辑回归 |
|
||||||||||||||||||||||
4 |
机器学习sk-learn: 朴素贝叶斯 支持向量机 KNN算法 |
机器学习--朴素贝叶斯 机器学习--支持向量机(SVM) 机器学习--KNN算法 |
|
||||||||||||||||||||||
5 |
机器学习sk-learn:
PCA数据降维 随机森林 |
机器学习--KMeans算法 机器学习--Random Forest算法 机器学习--PCA数据降维 |
|
||||||||||||||||||||||
|
|||||||||||||||||||||||||
1 |
Spark介绍 Spark RDD介绍 |
Spark Local模式安装 Spark Standalone伪分布模式安装 Spark Shell操作 |
|
||||||||||||||||||||||
2 |
Spark SQL |
SparkSQL,创建表,查询数据 SparkSQL,加载文件,处理文件,存储文件 |
|
||||||||||||||||||||||
3 |
Spark Streaming |
Spark Streaming Wordcount 综合案例—Kafka传输数据给Spark Streaming处理 |
|
||||||||||||||||||||||
4 |
PySpark开发 |
pyspark安装 在IPython Notebook中使用Spark 详解PySpark SQL、DataFrame、RDD |
|
||||||||||||||||||||||
5 |
PySpark MLlib |
PySpark Mllib 逻辑回归 PySpark Mllib 随机森林 PySpark MLlib决策树二元分类 PySpark MLlib决策树回归分析--Bike Sharing |
|
||||||||||||||||||||||
|
同步视频课程请从这里观看:http://www.ipieuvre.com/brochure