02_Spark_Java開發(fā)_RDD五大特性
04_Spark_持久化策略_緩存優(yōu)化
05_Spark_Standalone集群模式_ZK配合搭建HA_以及測試
06_Spark_Yarn集群模式_以及測試
07_Spark_操作算子本質(zhì)_RDD的容錯
10_Spark_調(diào)度流程剖析_調(diào)度流程源碼剖析
11_Spark_DAG源碼剖析_Task最佳計算位置源碼剖析
12_Spark_源碼學習總結_SparkPi代碼剖析
15_Spark_更多算子操作剖析
17_Spark_textFile詳解_分組取TopN_二次排序
18_Spark_共享變量_SparkSQL初識
19_Spark_隱式轉(zhuǎn)換和隱式參數(shù)_DataFrame初探_RDD反射轉(zhuǎn)為DataFrame
20_Spark_RDD動態(tài)轉(zhuǎn)為DataFrame
21_Spark_JSON數(shù)據(jù)源_JDBC數(shù)據(jù)源_以及Standalone集群測試
22_Spark_Hive數(shù)據(jù)源_以及Yarn集群測試_SQL來做分組取TopN
23_Spark_自定義函數(shù)_自定義聚合函數(shù)_Spark源碼PageRank的問題
24_Spark_SparkStreaming初識
25_Spark_HDFS數(shù)據(jù)源_DStream的持久化存儲
26_Spark_UpdateStateByKey算子_Tranform算子
28_Spark_Kafka數(shù)據(jù)源_Receiver方式接收數(shù)據(jù)_Direct方式接收數(shù)據(jù)
29_Spark_基于滑動窗口的操作_Spark和MR在Yarn運行的區(qū)別
30_Spark_對于內(nèi)存的使用_靜態(tài)模式_統(tǒng)一模式