图书介绍

数据算法 Hadoop/Spark大数据处理技巧【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

（美）马哈默德·帕瑞斯安（Mahmoud Parsian）著
出版社：北京：中国电力出版社
ISBN：9787512395947
出版时间：2016
标注页数：680页
文件大小：72MB
文件页数：694页
主题词：数据处理－算法分析

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：3205cd61b7988328415a1a2c7058eac6

下载说明

数据算法 Hadoop/Spark大数据处理技巧PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

序1

前言3

第1章二次排序：简介19

二次排序问题解决方案21

MapReduce/Hadoop的二次排序解决方案25

Spark的二次排序解决方案29

第2章二次排序：详细示例42

二次排序技术43

二次排序的完整示例46

运行示例——老版本Hadoop API50

运行示例——新版本Hadoop API52

第3章 Top10列表54

TopN设计模式的形式化描述55

MapReduce/Hadoop实现：唯一键56

Spark实现：唯一键62

Spark实现：非唯一键73

使用takeOrdered（）的Spark Top10解决方案84

MapReduce/Hadoop Top10解决方案：非唯一键91

第4章左外连接96

左外连接示例96

MapReduce左外连接实现99

Spark左外连接实现105

使用leftOuterJoin（）的Spark实现117

第5章反转排序127

反转排序模式示例128

反转排序模式的MapReduce/Hadoop实现129

运行示例134

第6章移动平均137

示例1：时间序列数据（股票价格）137

示例2：时间序列数据（URL访问数）138

形式定义139

POJO移动平均解决方案140

MapReduce/Hadoop移动平均解决方案143

第7章购物篮分析155

MBA目标155

MBA的应用领域157

使用MapReduce的购物篮分析157

Spark解决方案166

运行Spark实现的YARN脚本179

第8章共同好友182

输入183

POJO共同好友解决方案183

MapReduce算法184

解决方案1：使用文本的Hadoop实现187

解决方案2：使用ArrayListOfLongsWritable的Hadoop实现189

Spark解决方案191

第9章使用MapReduce实现推荐引擎201

购买过该商品的顾客还购买了哪些商品202

经常一起购买的商品206

推荐连接210

第10章基于内容的电影推荐225

输入226

MapReduce阶段1226

MapReduce阶段2和阶段3227

Spark电影推荐实现234

第11章使用马尔可夫模型的智能邮件营销253

马尔可夫链基本原理254

使用MapReduce的马尔可夫模型256

Spark解决方案269

第12章 K-均值聚类282

什么是K-均值聚类？285

聚类的应用领域285

K-均值聚类方法非形式化描述：分区方法286

K-均值距离函数286

K-均值聚类形式化描述287

K-均值聚类的MapReduce解决方案288

K-均值算法Spark实现292

第13章 k-近邻296

kNN分类297

距离函数297

kNN示例298

kNN算法非形式化描述299

kNN算法形式化描述299

kNN的类Java非MapReduce解决方案299

Spark的kNN算法实现301

第14章朴素贝叶斯315

训练和学习示例316

条件概率319

深入分析朴素贝叶斯分类器319

朴素贝叶斯分类器：符号数据的MapReduce解决方案322

朴素贝叶斯分类器Spark实现332

使用Spark和Mahout347

第15章情感分析349

情感示例350

情感分数：正面或负面350

一个简单的MapReduce情感分析示例351

真实世界的情感分析353

第16章查找、统计和列出大图中的所有三角形354

基本的图概念355

三角形计数的重要性356

MapReduce/Hadoop解决方案357

Spark解决方案364

第17章 K-mer计数375

K-mer计数的输入数据376

K-mer计数应用376

K-mer计数MapReduce/Hadoop解决方案377

K-mer计数Spark解决方案378

第18章 DNA测序390

DNA测序的输入数据392

输入数据验证393

DNA序列比对393

DNA测试的MapReduce算法394

第19章 Cox回归413

Cox模型剖析414

使用R的Cox回归415

Cox回归应用416

Cox回归POJO解决方案417

MapReduce输入418

使用MapReduce的Cox回归419

第20章 Cochran-Armitage趋势检验426

Cochran-Armitage算法427

Cochran-Armitage应用432

MapReduce解决方案435

第21章等位基因频率443

基本定义444

形式化问题描述448

等位基因频率分析的MapReduce解决方案449

MapReduce解决方案，阶段1449

MapReduce解决方案，阶段2459

MapReduce解决方案，阶段3463

染色体X和Y的特殊处理466

第22章 T检验468

对bioset完成T检验469

MapReduce问题描述472

输入472

期望输出473

MapReduce解决方案473

Spark实现476

第23章皮尔逊相关系数488

皮尔逊相关系数公式489

皮尔逊相关系数示例491

皮尔逊相关系数数据集492

皮尔逊相关系数POJO解决方案492

皮尔逊相关系数MapReduce解决方案493

皮尔逊相关系数的Spark解决方案496

运行Spark程序的YARN脚本516

使用Spark计算斯皮尔曼相关系数517

第24章 DNA碱基计数520

FASTA格式521

FASTQ格式522

MapReduce解决方案：FASTA格式522

运行示例524

MapReduce解决方案：FASTQ格式528

Spark解决方案：FASTA格式533

Spark解决方案：FASTQ格式537

第25章 RNA测序543

数据大小和格式543

MapReduce工作流544

RNA测序分析概述544

RNA测序MapReduce算法548

第26章基因聚合553

输入554

输出554

MapReduce解决方案（按单个值过滤和按平均值过滤）555

基因聚合的Spark解决方案567

Spark解决方案：按单个值过滤567

Spark解决方案：按平均值过滤576

第27章线性回归586

基本定义587

简单示例587

问题描述588

输入数据589

期望输出590

使用SimpleRegression的MapReduce解决方案590

Hadoop实现类593

使用R线性模型的MapReduce解决方案593

第28章 MapReduce和幺半群600

概述600

幺半群的定义602

幺半群和非幺半群示例603

MapReduce示例：非幺半群606

MapReduce示例：幺半群608

使用幺半群的Spark示例612

使用幺半群的结论618

函子和幺半群619

第29章小文件问题622

解决方案1：在客户端合并小文件623

解决方案2：用CombineFileInputFormat解决小文件问题629

其他解决方案634

第30章 MapReduce的大容量缓存635

实现方案636

缓存问题形式化描述637

一个精巧、可伸缩的解决方案637

实现LRUMap缓存640

使用LRUMap的MapReduce解决方案646

第31章 Bloom过滤器651

Bloom过滤器性质651

一个简单的Bloom过滤器示例653

Guava库中的Bloom过滤器654

MapReduce中使用Bloom过滤器655

附录A Bioset657

附录B Spark RDD659

参考书目677