题名:	深入大型数据集 / (美) John T. Wolohan著 , 张若飞译
ISBN:	978-7-121-40368-2 价格： CNY99.00
语种:	chi
载体形态:	XX, 300页图 24cm
出版发行:	出版地：北京出版社：电子工业出版社出版日期： 2021
内容提要:	本书共分3部分，主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架，以及如何使用mrjob库来编写Hadoop作业，如何实现PageRank算法，如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWS S3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。
主题词:	软件工具程序设计
中图分类法:	TP311.56 版次： 5
中图分类法:	TP311.56 版次： 4
其它题名:	并行与分布化Python代码
主要责任者:	沃勒翰著
次要责任者:	张若飞译
责任者附注:	责任者Wolohan汉译姓: 沃勒翰取自CIP数据