曙海教学优势
本课程以项目实现为导向,面向企事业项目实际需要,秉承二十一年积累的教学品质,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。线上/线下/上门皆可,课程可定制,热线:4008699035。
曙海培训的课程培养了大批受企业欢迎的工程师。曙海培训的课程在业内有着响亮的知名度。大批企业和曙海
建立了良好的合作关系,合作企业30万+。
Spark及其在机器学习中的应用
课程目标:
通过该课程的学习,学员应能够熟练掌握 Spark 并能利用 Spark 解决机器学习的相关问题; 具体的,学员将了解: 1.Spark在Ubuntu虚拟机上的分布式集群环境搭建; 2.基于Python的Spark编程基础; 3.Spark MLlib的使用(.py文件)包括回归预测、聚类、关联规则、神经网络预测; 4.Spark在阿里云的使用(.py文件) ; 5.Spark在AWS亚马逊云的使用。
课程大纲:
时间 |
主题 |
内容 |
|
第一天
|
上午 |
Spark简介及环境搭建 |
l Spark 简介 l Spark 环境搭建(Ubuntu , 分布式集群).使用的是 Hadoop 2.7.3 和 Spark 2.0.1 版本
|
下午 |
基于Python的Spark 编程
|
l 基于 Python 的 Spark 常用函数及其使用方法。map/reduce/groupByKey/reduceByKey/filter/ flatMap/saveAsTextFile/join 等 l 基于 Python 的 Spark 编程样例。通过基本的统计分析和数据处理样例说明该怎样进行基于 Python 的 Spark 编程
|
|
第二天
|
上午 |
Spark 和机器学习
|
l MLLib 全方位介绍 。MLLib 包含的各种算法函数的介绍。个别算法根据情况可以讲解源代码 l MLLib 编程样例 (回归预测 , 聚类 , 关联规则, 神经网络预测等)
|
下午 |
云环境下的 Spark 以及预测的简介 |
l Spark 在阿里云的使用 l Spark 在 AWS 亚马逊云的使用 l 预测方法简介:包括时间序列预测,机器学习方法进行预测(GBDT, 逻辑回归等)
|