CCA Spark and Hadoop Developer (CCA175) 公开课
【时间地点】会议时间:2017-06-27 至 2017-06-30
会议地点:上海 上海长阳谷 上海市杨浦区长阳路1687号
课时:28h/4天
【课程介绍】
Hadoop 及生态系统介绍
· 传统大规模系统的问题
· Hadoop !
· Hadoop 生态系统
Hadoop 体系结构及 HDFS
· 机群环境下的分布式处理
· 存储:HDFS 体系结构
· 存储:使用 HDFS
· 资源管理:YARN 体系结构
· 资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据
· Sqoop 简介
· 数据的基本导入导出
· 减少传输的数据量
· 改善 Sqoop 性能
· Sqoop 2
Impala 及 Hive 介绍
· 简介
· 为什么使用 Impala 及 Hive
· Hive 和传统数据库的比较
· Hive 应用场景
使用 Impala 及 Hive 管理数据及建模
· 数据存储
· 创建数据库及表
· 表数据导入
· HCatalog
· Impala 元数据缓存
数据格式
· 选择文件格式
· 支持不同文件格式的工具
· Avro 数据格式定义模式
· 在 Hive 及 Sqoop 里使用 Avro
· Avro 格式数据模式变更
· 压缩 数据分区
· 分区概述
· Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集
· 什么是 Apache Flume
· Flume 基本体系结构
· Flume 源
· Flume 槽
· Flume 通道
· Flume 配置
Spark 基础
· 什么是 Apache Spark
· 使用 Spark Shell
· RDDs( 可恢复的分布式数据集)
· Spark 里的函数式编程 Spark RDD
· RDD
· 键值对 RDD
· MapReduce
· 其他键值对 RDD 操作
编写和部署 Spark 应用
· Spark 应用对比 Spark Shell
· 创建 SparkContext
· 创建 Spark 应用(Scala 和 Java)
· 运行 Spark 应用
· Spark 应用 WebUI
· 配置 Spark 属性
· 运行日志
Spark 的并行处理
· 回顾:机群环境里的 Spark
· RDD 分区
· 基于文件 RDD 的分区
· HDFS 和本地化数据
· 执行并行操作
· 执行阶段及任务
Spark 缓存和持久化
· RDD 演变
· 缓存
· 分布式持久化
Spark 数据处理的常见模式
· 常见 Spark 应用案例
· 迭代式算法
· 图处理及分析
· 机器学习
· 例子:K-Means 预览:Spark SQL
· Spark SQL 和 SQL Context
· 创建 DataFrames
· 变更及查询 DataFrames
· 保存 DataFrames
· Spark SQL 对比 Impala
【参会指南】
参会费:¥7360
大会报名地址:https://www.huodongjia.com/event-951795901.html
页:
[1]