Spark-Internal

deployDoc 项目是在研究生期间做的一些工作的总结和学习，时间过了近两年了，Spark也由当时的1.2.0到现在的 2.0.x了，Spark在整个过程中，经过了好多次大改，akka通信被废除，取而代之的是Netty,Alluxio的数据传输也是采用的Netty,在下面相应的模块下会进行介绍分析, 功能也更加趋于完善，许久没接触Spark，现在重新开始学习Spark，对Spark来个较为透彻的学习。以前很多模糊的地方也就一带而过，现在开始需要追根究底。

##简单介绍

Spark项目太火了，经过这几年的发展，已经渐渐的成熟，许多公司都开始运用到生产上，最主要的有三大模块：1.Spark Streaming用来从kafka接入并过滤数据然后落地到数据仓库；2.Spark SQL从数据仓库中查询数据生成报表；3.Spark MLlib进行机器学习相关的运算。本项目首先会对Spark core进行深入的分析，然后分析Spark Streaming 和Spark SQL。机器学习水太深，并且平时工作中接触不到，就不涉水了。

##主要内容对Spark进行比较全面的分析，将从以下几个方面着手。

RDD RDD的分析
Job and Task Scheduling Spark的作业和任务调度
Architecture Spark的架构分析
Shuffle Spark Shuffle分析
Spark Streaming Spark Streaming源码分析
Spark SQL Spark SQL源码分析

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
markdown		markdown
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spark-Internal

About

Releases

Packages

gjhkael/Spark-Internal

Folders and files

Latest commit

History

Repository files navigation

Spark-Internal

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages