大数据学习路线（2018年最新整理）

创建时间：2018-10-12 投稿人：浏览次数：389

星期

课程内容

内容安排

“领会平台”实验文档

第一阶段（java基础+MySql数据库+爬虫+java web可视化）

Java环境搭建+数据类型

Java数据类型

运算符+流程控制（if-else、switch）

Java运算符1

Java运算符2

流程控制（循环）

Java流程控制

Java数组（定义、遍历、二维数组）

Java基础训练-数组

图书管理系统

面向对象：类和对象、方法定义、重载、方法传参

封装:Pricate

访问修饰符：static、this、final

Java封装Private

继承和多态

抽象类和接口

继承和多态

Java抽象类和接口

Java常用类+异常处理

Java常用类实现双色球功能

Java异常处理

集合：

List：ArrayList、LinkedList

Set：HashSet、TreeSet

Map：HashMap、TreeMap

集合-list

集合-map

IO流处理：

文件处理：File类（递归算法）

字节流：InputStream、OutputStream

字符流：BufferedReader、BufferedWriter

高级打印流：PrintWriter

序列化和反序列化：

IO流--File类

IO流--字节流

IO流--字符流

垃圾回收机制

Java多线程：购票

总结回顾Java内容体系

Java--线程的创建和启动

MySql数据库安装

创建数据库、表等命令

删除表、数据增删改查、

MySql常用操作--DDL

MySql常用操作--DML

JDBC连接数据库

JavaWeb-JDBC连接数据库

Html+css选择器

Html制作网页

CSS网页样式--选择器

CSS网页样式--DIV盒子模型

CSS网页样式--常用样式

Js：语法+事件

javaScript基础语法

javaScript HTML DOM事件

爬虫：Jsoup

Java网络连接 URLConnection

XPath数据解析

Java爬虫--Jsoup内容解析

Java爬虫--Xpath解析
Java爬虫--网络请求

WebMagic框架爬虫：

智联+豆瓣电影

WebMagic之网页采集

WebMagic之爬取各网站首页并存储到HBase

JavaWeb：tomcat配置、环境介绍

Jsp+servlet

Echarts可视化

WebMagic之采集日剧电影信息存储MySql数据库

Web+Echarts日剧电影信息可视化--柱状图

综合练习：爬取数据并可视化
智联、豆瓣、当当、天气网

Web+Echarts日剧电影信息可视化--饼状图

综合练习：爬取数据并可视化
智联、豆瓣、当当、天气网

四、Web+Echarts日剧电影信息可视化--折线图

第二阶段：Hadoop大数据生态系统

大数据概述：由来、发展、特点

Hadoop组成、原理、特性

Hadoop Shell操作

Yarn

大数据概述：由来、发展、特点

Hadoop生态系统介绍

Hadoop三种安装模式介绍

Hadoop伪分布模式安装

Hadoop开发插件安装

HDFS原理

Hadoop Shell操作

HDFS Java API

HDFS JAVA API

Hadoop Shell基本操作

MapReduce原理（map、reduce、shuffle）

MapReduce程序代码结构

Mapreduce实例-wordcount

Mapreduce实例——去重

Mapreduce实例—求平均值

MapReduce常见案例原理

资源调度工具Yarn

Mapreduce实例——排序

Mapreduce实例——二次排序

Mapreduce实例——倒排索引

Mapreduce实例——Map端join

Mapreduce实例——Reduce端join

Mapreduce实例——单表join

Mapreduce实例——ChainMapReduce

开发YARN客户端应用

MapReduce实战算法实现

MapReduce 最优路径算法

MapReduce 社交好友推荐算法

MapReduce实战PageRank算法

MapReduce 互联网精准广告推送算法

数据仓库Hive

原理、作用、环境搭建、基本操作

Hive安装部署

Hive基本操作

数据仓库Hive

查询、分组排序

Hive查询

Hive分组排序

数据仓库Hive

JDBC连接Hive、Hive自定义函数

Hive JDBC连接

Hive UDF

数据迁移工具Sqoop安装

数据导入导出

Sqoop安装

Sqoop数据导入导出（Mysql，HDFS，Hive，HBase）

Sqoop增量数据导入

综合案例

Sqoop增量数据导入

综合案例—基本流程图

Zookeeper开发

Zookeeper安装

分布式数据库Hbase概述

HBase基本操作及表操作

HBase安装

HBase Shell基本操作

HBase数据库操作

HBase JAVA API

HBase过滤器

自定义过滤器

HBase的过滤器

分布式数据库Hbase

Sqoop导入数据到HBase

Kafka基本介绍

Kafka安装及测试

Kafka和Java API

Kafka Java API

Kafka分布式消息队列

Flume分布式日志框架

Flume配置文件

Flume安装部署

Flume配置Source、Channel、Sink

Flume分布式日志框架

自定义来源

传输数据到kafka

Flume自定义来源

Flume多source多sink组合搭建框架

Flume传输数据到kafka

Flume分布式日志框架

Flume Interceptors相关配置

Flume AVRO Client开发

Flume Sink Processors相关配置

Flume selector相关配置

综合案例-大数据平台

项目实战一

电商评论数据分析与展示

采集电商网站交易及评论数据
电商评论数据清洗

三、利用HiveSql语句离线分析评论数据

四、利用Sqoop导出Hive数据到MySQL库

五、开发JavaWeb+ECharts完成数据图表展示过程

项目实战二

北京市政信件项目开发

电商实战一：北京市政百姓信件内容分析

电商实战二：编写MapReduce程序清洗信件内容数据

电商实战三：利用HiveSql语句离线分析信件内容数据

电商实战四：利用Sqoop导出Hive数据到MySQL库

电商实战五：开发JavaWeb+ECharts完成数据图表展示过程

电商实战六：利用IKAnalyzer分词&词频统计算法（TF-IDF）分析信件内容关键词

第三阶段：Python编程+数据分析库+机器学习

Python环境搭建

数据类型：数字、字符串

变量

注释、运算符

Python安装

Python解释器介绍

Python基本数据类型：数字、字符串

Python输入输出

Python运算符与表达式

流程控制：

分支结构

循环结构

Python分支结构

Python循环结构

序列：

列表、元组、字符串

Python基本数据类型：集合、字典

Python数据结构：字典语法及应用

Python

Python字符串数据结构：集合语法及应用

列表切片和推导式

迭代器和生成器

Python数据结构：列表切片操作

Python数据结构：列表推导式

Python迭代器与生成器

字典、集合

Python基本数据类型：集合、字典

Python数据结构：字典语法及应用

Python数据结构：集合语法及应用

内置函数

函数（自定义、lambda）

Python内置函数

Python函数设计与使用

内建模块：

Math、sys、random等

Python模块的使用

Python标准库

Python日期和时间

面向对象编程

Python面向对象：入门

Python面向对象：类的成员

Python面向对象：三大特性

Python文件操作

异常处理

Python文件操作

Python异常处理

数据分析模块Numpy

numpy——基本操作(一)

numpy——基本操作(二)

numpy——linalg线性代数

numpy——random类

数据分析模块Pandas

pandas——DataFrame基本操作(一)

pandas——DataFrame基本操作(二)

Pandas——Series操作

Pandas——字符串处理

Pandas——groupby操作

Pandas——基本函数

Pandas——可视化

绘图模块Matplotlib seaborn pyecharts

matplotlib——条形图matplotlib——饼状图

matplotlib——直方图

matplotlib——散点图

matplotlib——绘制多个子图

matplotlib——3D图

matplotlib——文本说明（一）

matplotlib——文本说明（二）

机器学习sk-learn：
线性回归

多元线性回归

逻辑回归

机器学习--线性回归

机器学习--多元线性回归

机器学习--逻辑回归

机器学习sk-learn：

朴素贝叶斯

支持向量机

KNN算法

机器学习--朴素贝叶斯

机器学习--支持向量机(SVM)

机器学习--KNN算法

机器学习sk-learn：

Means

PCA数据降维

随机森林

机器学习--KMeans算法

机器学习--Random Forest算法

机器学习--PCA数据降维

Spark介绍

Spark RDD介绍

Spark Local模式安装

Spark Standalone伪分布模式安装

Spark Shell操作

Spark SQL

SparkSQL，创建表，查询数据

SparkSQL，加载文件，处理文件，存储文件

Spark Streaming

Spark Streaming Wordcount

综合案例—Kafka传输数据给Spark Streaming处理

PySpark开发

pyspark安装

在IPython Notebook中使用Spark

详解PySpark SQL、DataFrame、RDD

PySpark MLlib

PySpark Mllib 逻辑回归

PySpark Mllib 随机森林

PySpark MLlib决策树二元分类

PySpark MLlib决策树回归分析--Bike Sharing

第十四周	1	项目实战三中国房价信息分析项目	一、爬取全国近10年各省市区房价数据二、PySpark分析房产数据并可视化展示三、使用房价数据制作中国地图的热力图四、舆情数据采集-微博评论数据五、随机森林回归模型预测房价
	2
	3	项目实战四股票数据分析项目	一、使用Python爬取股票数据二、数据清洗并上传至HDFS 三、使用PyHive对股票数据进行分析四、使用Django Echarts对分析数据进行可视化五、Python数据分析--量化交易
	4
	5

第十五周	1	项目整理、辅导、答辩准备
	2
	3
	4
	5

同步视频课程请从这里观看：http://www.ipieuvre.com/brochure

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇：ipsec VPN防重放的实现过程-图解（参考strongswan)
下一篇：Redis详解（一）幸运快三源码开发带你了解Redis

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...