借阅:0 收藏:0

:基于Spark与R /(美) Javier Luraschi, Kevin Kuo, Edgar Ruiz著 go魏博译

ISBN/ISSN::978-7-111-66101-6

出版:北京 :机械工业出版社 ,2020

载体形态:245页 :图 go24cm

丛编:O'Reilly精品图书系列

简介:这本书的目的是帮助所有人通过R使用Apache Spark。章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。0章~3章涵盖一些不错主题,包括分布式R、Streaming和社区贡献等。

统一题名:Mastering spark with R : the complete guide to large-scale analysis and modeling

其他题名:基于Spark与R

中图分类号:TP274

责任者:卢拉辛 ((Luraschi, Javier)) 著 郭 ((Kuo, Kevin)) 著 鲁伊斯 ((Ruiz, Edgar)) 著 魏博 译

    • 评分:
    • 加入暂存架

    豆瓣内容简介:

    这本书的目的是帮助所有人通过 R 使用 Apache Spark。第1章~第5章简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用 Spark 进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式 R、Streaming 和社区贡献等。

    豆瓣作者简介:

    Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。
    Kevin Kuo构建了机器学习库,并领导了Kasa AI的开放保险研究。
    Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。

    目录:

    序言1
    前言3
    第1章 引言9
    1.1 概述10
    1.2 Hadoop10
    1.3 Spark12
    1.4 R16
    1.5 sparklyr19
    1.6 小结20
    第2章 开始21
    2.1 概述21
    2.2 预备操作22
    2.2.1 安装sparklyr23
    2.2.2 安装Spark23
    2.3 连接24
    2.4 使用Spark25
    2.4.1 网络接口25
    2.4.2 分析28
    2.4.3 建模28
    2.4.4 数据30
    2.4.5 扩展30
    2.4.6 分布式R31
    2.4.7 流式数据31
    2.4.8 日志32
    2.5 断开连接33
    2.6 使用RStudio33
    2.7 资源35
    2.8 小结36
    第3章 分析37
    3.1 概述37
    3.2 数据导入40
    3.3 数据整理41
    3.3.1 内置函数42
    3.3.2 相关性43
    3.4 可视化45
    3.4.1 使用ggplot246
    3.4.2 使用dbplot47
    3.5 建模49
    3.6 沟通51
    3.7 小结54
    第4章 建模56
    4.1 概述56
    4.2 探索性数据分析58
    4.3 特征工程65
    4.4 监督式学习68
    4.4.1 广义线性回归72
    4.4.2 其他模型73
    4.5 非监督式学习73
    4.5.1 数据准备74
    4.5.2 主题建模75
    4.6 小结77
    第5章 管道操作78
    5.1 概述78
    5.2 创建工作80
    5.3 用例81
    5.4 操作模式83
    5.5 交互性84
    5.6 部署86
    5.6.1 批打分87
    5.6.2 实时打分88
    5.7 小结90
    第6章 集群92
    6.1 概述92
    6.2 本地化94
    6.2.1 管理器94
    6.2.2 发行版98
    6.3 云端100
    6.3.1 亚马逊101
    6.3.2 Databricks102
    6.3.3 谷歌103
    6.3.4 IBM105
    6.3.5 微软106
    6.3.6 Qubole107
    6.4 Kubernetes107
    6.5 工具108
    6.5.1 RStudio108
    6.5.2 Jupyter109
    6.5.3 Livy110
    6.6 小结111
    第7章 连接112
    7.1 概述112
    7.1.1 边缘节点114
    7.1.2 Spark主目录114
    7.2 本地模式115
    7.3 单机模式116
    7.4 YARN116
    7.4.1 YARN客户端117
    7.4.2 YARN集群117
    7.5 Livy118
    7.6 Mesos120
    7.7 Kubernetes121
    7.8 云模式121
    7.9 批量模式122
    7.10 工具123
    7.11 多次连接123
    7.12 故障排除124
    7.12.1 记录日志124
    7.12.2 Spark Submit124
    7.12.3 Windows126
    7.13 小结126
    第8章 数据127
    8.1 概述127
    8.2 读取数据129
    8.2.1 路径129
    8.2.2 模式130
    8.2.3 内存131
    8.2.4 列132
    8.3 写入数据133
    8.4 复制数据134
    8.5 文件格式135
    8.5.1 CSV136
    8.5.2 JSON137
    8.5.3 Parquet138
    8.5.4 其他139
    8.6 文件系统140
    8.7 存储系统140
    8.7.1 Hive141
    8.7.2 Cassandra142
    8.7.3 JDBC142
    8.8 小结143
    第9章 调试144
    9.1 概述144
    9.1.1 计算图146
    9.1.2 时间线148
    9.2 配置148
    9.2.1 连接设置150
    9.2.2 提交设置151
    9.2.3 运行时设置152
    9.2.4 sparklyr设置153
    9.3 分区156
    9.3.1 隐式分区156
    9.3.2 显式分区157
    9.4 缓存158
    9.4.1 检查点159
    9.4.2 内存159
    9.5 重洗160
    9.6 序列化161
    9.7 配置文件161
    9.8 小结162
    第10章 扩展163
    10.1 概述163
    10.2 H2O165
    10.3 图模型169
    10.4 XGBoost173
    10.5 深度学习176
    10.6 基因组学179
    10.7 空间数据181
    10.8 故障排除183
    10.9 小结183
    第11章 分布式R185
    11.1 概述185
    11.2 用例187
    11.2.1 定制解析器188
    11.2.2 分区建模189
    11.2.3 网格搜索191
    11.2.4 Web API192
    11.2.5 模拟193
    11.3 分区194
    11.4 分组195
    11.5 列196
    11.6 context参数197
    11.7 函数198
    11.8 程序包199
    11.9 集群需求200
    11.9.1 安装R200
    11.9.2 Apache Arrow201
    11.10 故障排除203
    11.10.1 工作节点日志204
    11.10.2 解决超时205
    11.10.3 检查分区206
    11.10.4 调试工作节点206
    11.11 小结207
    第12章 数据流208
    12.1 概述208
    12.2 转换211
    12.2.1 分析212
    12.2.2 建模213
    12.2.3 管道214
    12.2.4 分布式R215
    12.3 Kafka216
    12.4 Shiny218
    12.5 小结220
    第13章 社区贡献221
    13.1 概述221
    13.2 Spark API223
    13.3 Spark扩展224
    13.4 使用Scala代码226
    13.5 小结228
    附录A 补充参考代码229

    分馆名 馆藏部门 图书条码 索书号 登录号 状态 馆员代借
    A 三层自然科学流通图书区 12000001566748 TP274/2150 1566748 在架可借 馆员代借
    A 三层自然科学流通图书区 12000001566747 TP274/2150 1566747 在架可借 馆员代借
    序号 图书条码 索书号 登录号 藏书部门 流通状态 年卷期 装订册 装订方式 装订颜色
      类型 说明 URL
      评 论
      评分:
      发表

      北京创讯未来软件技术有限公司 版权所有 ALL RIGHTS RESERVED 京ICP备 09032139

      欢迎第117631位用户访问本系统