图书介绍

数据馆员的SPARK简明手册【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

数据馆员的SPARK简明手册
  • 顾立平,马景源编著 著
  • 出版社: 北京:科学技术文献出版社
  • ISBN:9787518930159
  • 出版时间:2017
  • 标注页数:83页
  • 文件大小:6MB
  • 文件页数:93页
  • 主题词:数据处理软件-技术手册

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据馆员的SPARK简明手册PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Spark生态介绍1

1.1 MapReduce、 Storm和Spark模型比较1

1.2 Spark产生背景3

1.3 Spark的内存计算框架5

1.4 Spark Streaming:流式计算框架6

1.5 Spark SQL7

1.6 Spark MLlib:机器学习8

1.7 Spark GraphX和取代Bagel的理由8

1.8 BlinkDB9

1.9 SparkR9

第2章 Spark的安装与运行10

2.1 Spark的安装10

2.1.1 Spark的源码编译方式10

2.1.2 Spark Standalone安装12

2.1.3 Spark应用程序部署工具spark-submit14

2.1.4 Spark的高可用性部署15

2.2 Spark的运行架构16

2.2.1 基本术语16

2.2.2 运行架构17

2.2.3 Spark on Standalone的运行过程19

2.2.4 Spark on YARN的运行过程20

2.3 Spark的运行22

2.3.1 Spark on Standalone22

2.3.2 Spark on YARN22

2.3.3 Standalone与YARN模式优缺点比较23

第3章 Spark的Scala编程25

3.1 Scala开发环境搭建25

3.2 Scala开发Spark应用程序25

3.3 编程实现26

3.3.1 使用Java编程26

3.3.2 使用Python编程27

第4章 Spark的编程模型和解析28

4.1 Spark的编程模型28

4.2 RDD的特点、操作、依赖关系28

4.3 Spark应用程序的配置31

4.4 Spark的架构31

4.5 Spark的容错机制32

4.6 数据的本地性32

4.7 缓存策略介绍33

4.8 宽依赖和窄依赖35

第5章 Spark数据挖掘38

5.1 MLlib38

5.2 GraphX39

5.2.1 GraphX原理39

5.2.2 Table Operator和Graph Operator的区别40

5.2.3 Vertices、 Edges和Triplets介绍42

5.2.4 GraphX图构造者43

5.3 SparkR45

5.3.1 SparkR原理45

5.3.2 如何运行SparkR46

第6章 Spark Streaming48

6.1 Spark Streaming与Storm的区别48

6.2 Kafka的部署49

6.3 Kafka与Spark Streaming的整合50

6.4 Spark Streaming原理52

6.4.1 Spark流式处理架构52

6.4.2 DStream的特点53

6.4.3 Dstream的操作和RDD的区别54

6.4.4 无状态转换操作与有状态转换操作54

6.4.5 优化Spark Streaming55

6.5 Streaming的容错机制56

6.6 Streaming在YARN模式下的注意事项57

第7章 Spark优化59

7.1 序列化优化——Kryo59

7.2 Spark参数优化60

7.3 Spark任务的均匀分布策略61

7.4 Partition key倾斜的解决方案63

7.5 Spark任务的监控63

7.6 GC的优化65

7.7 Spark Streaming吞吐量优化69

7.8 Spark RDD使用内存的优化策略70

第8章 SQL on Spark72

8.1 BDAS数据分析软件栈72

8.2 Spark SQL工具74

8.3 Spark SQL原理76

8.4 Spark SQL编程78

热门推荐