汇名家网 — 一站式企业培训服务平台

北京曼顿企业管理咨询有限公司

培训公司

培训课程

培训讲师

培训公司

培训视频

基于Python的Spark大数据挖掘技术培训(北京,6月12-14日)

最后更新:2018-04-16 08:39
课程价格 市场原价:¥5800/人/天 汇名家报名优惠价:¥5800/人/天
开课时间 2018-06-12 (3天) 距离开课时间还有:
课程内容介绍

基于Python的Spark大数据挖掘技术培训(北京,6月12-14日)
【举办单位】北京曼顿培训网  ******** 中国培训资讯网  ******** Spark是一个开源的强大的分布式查询和处理引擎。本培训用详尽的案例介绍如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署模型。
本培训结合实例来介绍PySpark大数据挖掘。内容包括对Apache Spark基础知识介绍,弹性分布式数据集RDD的内部运行方式讲解,分析利用DataFrame加速PySpark,准备数据建模,检查重复数据及异常数据,分析描述性统计、数据相关性,介绍MLlib数据挖掘工具应用,讲解ML机器学习包功能,使用Blaze实现持久化,讲解Tensorflow基础,分析结构化流Streaming,以及打包Spark应用程序,提交作业和监控执行等。
本培训将合实例,对Python和Spark进行讲解,通过实际操作,了解云环境下,大数据处理、数据探索的基本方法。
 
【学员基础】
1,对IT系统设计有一定的理论与实践经验。
2,对数据挖掘和数据处理方法有一定的基础知识。
3,对Hadoop/Spark等大数据技术有一定的了解。

【培训目标】
1, 学习Python和Spark的相关基础知识。
2,学习Python和Spark的核心技术方法及应用。
3,了解Python和Spark在数据分析中的使用。

【课程大纲】
第一讲 Spark基础知识
1)什么是Apache Spark
2)Spark作业和API
3)DataFrame和Dataset
4)Spark 2.0的架构
5)SparkSession介绍
6)Tungsten Phase 2
7)结构化流
第二讲 弹性分布式数据集
1)RDD的内部运行方式
2)创建RDD
3)全局作用域和局部作用域
4)RDD转换
5)RDD操作
第三讲 利用DataFrame加速PySpark
1)Python到RDD之间的通信
2)Catalyst优化器刷新
3)创建DataFrame
4)RDD的交互操作
5)利用DataFrame API查询
6)利用SQL查询
7)DataFrame应用实例
第四讲 准备数据建模
1)检查重复数据及异常数据
2)描述性统计
3)数据相关性
4)数据可视化
5)直方图
第五讲 MLlib数据挖掘工具
1)MLlib包概述
2)加载和转换数据
3)数据相关性和描述性统计
4)创建最终数据集
5)MLlib应用实例-预测婴儿生存机会
第六讲 ML机器学习包
1)ML包的概述
2)分类、回归和聚类
3)使用ML预测婴儿生存率
4)ML超参调优
5)ML的特征提取
6)ML的其他功能
第七讲 使用Blaze实现持久化
1)安装Blaze
2)混合持久化
3)使用NumPy和pandas数据
4)与关系型数据库进行交互
5)数据操作和访问
6)数据连接
第八讲 Tensorflow基础
1)神经网络和深度学习
2)TensorFlow介绍和安装
3)配置和设置TensorFlow
4)使用TensorFlow进行矩阵分析
5)TensorFlow操作示例
第九讲 结构化流Streaming
1)Streaming介绍
2)Streaming的基本组件
3)Streaming应用程序数据流
4)用DStream简化Streaming应用程序
5)全局聚合
6)结构化流介绍
第十讲 打包Spark应用程序
1)spark-submit命令
2)以编程方式部署应用程序
3)配置你的SparkSession
4)创建SparkSession
5)模块化代码
6)提交作业和监控执行

 【讲师介绍】
   杨老师,曼顿培训网(******** (每月在全国开设四百多门公开课,欢迎报名学习)


该课程已开课,禁止报名,请报名其它课程。
如果您有培训需求,想聘请《北京曼顿企业管理咨询有限公司》安排培训,请马上提交您的需求:
请用一句话描述您的需求:

交易流程

新手上路
帮助中心 服务规则 快速注册 会员帮助
服务交易
相关定义我是买家 我是卖家
公司信息
关于我们网站公告
微信公众号
汇名家网微信公众号二维码
微博账号

新浪:weibo.com/hmj168

服务热线

全国:151-0207-5573

广州:159-9998-6198

手机(微信):159-9998-6198

服务QQ:2927794428

在线
客服