CCA Spark and Hadoop Developer (CCA175) 公开课

小雪崩 发表于 2017-12-18 12:37:31

　　【时间地点】
　　会议时间：2017-06-27 至 2017-06-30
　　会议地点：上海上海长阳谷上海市杨浦区长阳路1687号
　　课时：28h/4天

　　【课程介绍】
　　Hadoop 及生态系统介绍
　　· 传统大规模系统的问题
　　· Hadoop ！
　　· Hadoop 生态系统
　　Hadoop 体系结构及 HDFS
　　· 机群环境下的分布式处理
　　· 存储：HDFS 体系结构
　　· 存储：使用 HDFS
　　· 资源管理：YARN 体系结构
　　· 资源管理：使用 YARN
　　使用 Apache Sqoop 导入关系数据
　　· Sqoop 简介
　　· 数据的基本导入导出
　　· 减少传输的数据量
　　· 改善 Sqoop 性能
　　· Sqoop 2
　　Impala 及 Hive 介绍
　　· 简介
　　· 为什么使用 Impala 及 Hive
　　· Hive 和传统数据库的比较
　　· Hive 应用场景
　　使用 Impala 及 Hive 管理数据及建模
　　· 数据存储
　　· 创建数据库及表
　　· 表数据导入
　　· HCatalog
　　· Impala 元数据缓存
　　数据格式
　　· 选择文件格式
　　· 支持不同文件格式的工具
　　· Avro 数据格式定义模式
　　· 在 Hive 及 Sqoop 里使用 Avro
　　· Avro 格式数据模式变更
　　· 压缩数据分区
　　· 分区概述
　　· Impala 及 Hive 里的数据分区
　　Apache Flume 实时数据采集
　　· 什么是 Apache Flume
　　· Flume 基本体系结构
　　· Flume 源
　　· Flume 槽
　　· Flume 通道
　　· Flume 配置
　　Spark 基础
　　· 什么是 Apache Spark
　　· 使用 Spark Shell
　　· RDDs( 可恢复的分布式数据集）
　　· Spark 里的函数式编程 Spark RDD
　　· RDD
　　· 键值对 RDD
　　· MapReduce
　　· 其他键值对 RDD 操作
　　编写和部署 Spark 应用
　　· Spark 应用对比 Spark Shell
　　· 创建 SparkContext
　　· 创建 Spark 应用（Scala 和 Java）
　　· 运行 Spark 应用
　　· Spark 应用 WebUI
　　· 配置 Spark 属性
　　· 运行日志
　　Spark 的并行处理
　　· 回顾：机群环境里的 Spark
　　· RDD 分区
　　· 基于文件 RDD 的分区
　　· HDFS 和本地化数据
　　· 执行并行操作
　　· 执行阶段及任务
　　Spark 缓存和持久化
　　· RDD 演变
　　· 缓存
　　· 分布式持久化
　　Spark 数据处理的常见模式
　　· 常见 Spark 应用案例
　　· 迭代式算法
　　· 图处理及分析
　　· 机器学习
　　· 例子：K－Means 预览：Spark SQL
　　· Spark SQL 和 SQL Context
　　· 创建 DataFrames
　　· 变更及查询 DataFrames
　　· 保存 DataFrames
　　· Spark SQL 对比 Impala
　　【参会指南】
　　参会费：¥7360
　　大会报名地址：https://www.huodongjia.com/event-951795901.html

页: [1]

运维网's Archiver

CCA Spark and Hadoop Developer (CCA175) 公开课