题名:
|
深入大型数据集 / (美) John T. Wolohan著 , 张若飞译 |
ISBN:
|
978-7-121-40368-2 价格: CNY99.00 |
语种:
|
chi |
载体形态:
|
XX, 300页 图 24cm |
出版发行:
|
出版地: 北京 出版社: 电子工业出版社 出版日期: 2021 |
内容提要:
|
本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。 |
主题词:
|
软件工具 程序设计 |
中图分类法:
|
TP311.56 版次: 5 |
中图分类法:
|
TP311.56 版次: 4 |
其它题名:
|
并行与分布化Python代码 |
主要责任者:
|
沃勒翰 著 |
次要责任者:
|
张若飞 译 |
责任者附注:
|
责任者Wolohan汉译姓: 沃勒翰取自CIP数据 |