曙海教学优势
本课程,秉承二十一年积累的教学品质,以项目实现为导向,面向企事业项目实际需要,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。课程可定制,线上/线下/上门皆可,热线:4008699035。
曙海培训的课程培养了大批受企业欢迎的工程师。大批企业和曙海
建立了良好的合作关系,合作企业30万+。曙海培训的课程在业内有着响亮的知名度。
Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。
深刻理解Hadoop原理与调优 深刻理解Hive原理掌握程序开发 深刻理解Hbase 掌握程序开发 深刻理解Hadoop 日常运维管理
课程主题 |
课程内容 |
Hadoop和传统数据库技术优劣势对比 |
Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势 Hadoop 如何和传统IT系统配合完成原来不可能的任务 Hadoop版本讲解及Hadoop新旧版本使用对比 |
案例及实验 |
|
Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本 |
|
Hadoop的来源和动机 |
传统大规模系统存在的问题 Hadoop概述 Hadoop分布式文件系统 MapReduce工作原理 Hadoop集群剖析 Hadoop生态系统对一种新的解决方案的需求 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 非结构化数据与半结构化数据在大数据中的应用 |
案例及实验 |
|
某银行数据统一处理平台,通过Hadoop进行系统优化 某电信运营商用户行为分析系统 某电力行业数据采集大数据分析案例 联通使用Hadoop/Hbase解决3G详单查询问题。 |
|
Hadoop生态系统介绍和演示 |
Hadoop HDFS 和 MapReduce Hadoop数据库之HBase ● HBase架构及如何应用与编程开发相结合 Hadoop数据仓库之Hive ● Hive架构及如何应用与编程开发相结合 Hadoop数据处理脚本Pig ● Pig架构及如何应用与编程开发相结合 Hadoop数据接口Sqoop和Flume ● Sqoop和Flume架构及如何应用与编程开发相结合 Hadoop工作流引擎 Oozie ● Oozie架构及如何应用与编程开发相结合 Hadoop生态系统各模块应用与编程开发相结合 |
案例及实验 |
|
某银行如何使用Hadoop统一数据平台 手机上网日志分析 移动GPRS上网日志查询系统 国家电网城区用电量分析 联通不良信息检测系统 电厂海量数据监控分析系统 某银行数据统一处理平台 海量指纹比对系统 |
|
Hadoop集群调优 |
l 选择适合hadoop的硬件配置 l Hadoop配置项优化 ? Hadoop配置优化 - core-site.xml ? Hadoop配置优化 - hdfs-site.xml ? Hadoop配置优化 - mapred-site.xml ? Hadoop配置优化 - 机架感知 l 网络带宽参数调优 ? 系统参数调优 ? 配置文件管理 ? 严格控制root权限 ? Java的GC模式 l 选择正确的JDK l hadoop作业调优 ? Map side tuning设置 ? Map side设置 l Linux操作系统优化 l 其他配置和参数调优 |
案例及实验 |
|
l Hadoop硬件优化 l 不是所有的硬件都合适拿来直接使用 ? 安装调优的第一步服务器硬件的选型的窍门 ? 如何选择适合业务使用的CPU ? 内存越大越好吗?设置合理的的内存配置 ? 连接网络的选择和优化 ? 高速硬盘的选择注意事项 l 硬盘为什么不做raid? l 设置网络的注意事项 l 中间结果压缩对磁盘和网络的优化 l 机架感知,网络和磁盘IO优化作用,确定存储的具体位置, l 内存参数,map/reduce槽位数的计算方法。 l 对磁盘和网络的优化 l Java工具使用,jstack使用 l Sun和open之间的区别,JIT编译器的使用 l inux系统参数调优 ? Linux监控系统的使用 ? cacti, ? ganglia ? 常用的linux排错工具lsof,strace,iostat,vmstat,netstat... l 常见异常现象级处理方法 ? 网卡流量导致连接失败 ? 权限错误 ? 主机名IP转换错误 ? NN与DN namespaceID不一致 ? 磁盘满导致报错 ? Jave heap size OOM |
|
Hadoop 2.0 |
l Hadoop 1.0 存在的问题及现有的解决方案 l Hadoop 2.0 各厂商版本对比 l Apahce and CDH4 l Hadoop 2.0 项目结构解析 l Hadoop 2.0 环境搭建 l Yarn 与MapReduce的不同 l Yarn 原理与架构 l Apache YARN基本框架 l Apache YARN工作流程 l Apache YARN设计细节 l MapReduce与YARN结合 l 如何与Yarn来结合 l yarn的优化、资源管理、优先级管理。 l Hadoop 生态系统解析 l Hadoop 小图档方案 l Hadoop 2.0 HDFS 运维管理 n 丢失block的情况分析 常见的故障排查 |
HDFS高级程序实战演练 |
HDFS实战-命令行等使用 HDFS命令行工具 启动、停止HDFS服务 如何查看HDFS日志 如何查看HDFS Web控制台 HDFS参数配置 |
案例及实验 |
|
HDFS实战-Java API使用 Eclipse 开发环境介绍 HDFS 开发基本步骤 HDFS Java API详解 Configuration Path FileSystem Stream、IOUtils |
|
Hadoop HDFS HA方案介绍 |
Hadoop 1.0 系 HA的一些办法 Hadoop 2.0 介绍 |
MapReduce高级程序实战演练 |
使用 Hadoop MapReduce Streaming 编程 MapReduce流程 剖析一个MapReduce程序 基本MapReduceAPI 概念 驱动代码 Mapper、Reducer Hadoop流 API 使用Eclipse进行快速开发 新MapReduce API MapReduce的优化 MapReduce的任务调度 MapReduce编程实战 满足解决实际数据分析问题的高级Hadoop API |
案例及实验 |
|
Hadoop Streaming 和 Java MapReduce Api 差异。 MapReduce 实现数据库功能 利用Combiners来减少中间数据 编写Partitioner来优化负载平衡 直接访问Hadoop分布式文件系统(HDFS) Hadoop的join操作 辅助排序在Reducer方的合并 定制Writables和WritableComparables 使用SequenceFiles和Avro文件保存二进制数据 创建InputFormats OutputFormats Hadoop的二次排序 Hadoop的海量日志分析 在Map方的合并 |
|
Hadoop SQL 接口Hive |
Hive基础 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用 Hadoop/Hive仓库数据数据流 Hive Cli 的基本用法 HQL基本语法 自行编写数据库与Hadoop相互ETL工具的思路 |
案例及实验 |
|
使用JDBC 连接Hive进行查询和分析 使用正则表达式加载数据 HQL高级语法 编写UDF函数 编写UDAF自定义函数 执行嵌套sql的优化 |
|
Hadoop数据库之HBase及HBase优化 |
hbase概念与架构 hbase核心知识点 hbase安装、部署 HBase配置优化综述 表设计优化相关参数 监控工具使用方法及注意事项 常见异常现象级处理方法 |
案例及实验 |
|
hot region造成读请求瓶颈 region预划分 Memstore合并设置的时机选择 合并storefile策略设置技巧 Memstore flush设置时机选择 Hbase-env.sh、Single、multi-thread、CMS使用及参数调整 GC回收垃圾时机、GC日志打印设置 GC阶段,region无法提供服务如何如何处理 Split时机控制(增大、disable)方法 CF数量多少对读写性能的影响 自动关闭flush的目的 |