小雪崩 发表于 2017-12-18 12:37:31

CCA Spark and Hadoop Developer (CCA175) 公开课

  【时间地点】
  会议时间:2017-06-27 至 2017-06-30
  会议地点:上海 上海长阳谷 上海市杨浦区长阳路1687号
  课时:28h/4天

  【课程介绍】
  Hadoop 及生态系统介绍
  · 传统大规模系统的问题
  · Hadoop !
  · Hadoop 生态系统
  Hadoop 体系结构及 HDFS
  · 机群环境下的分布式处理
  · 存储:HDFS 体系结构
  · 存储:使用 HDFS
  · 资源管理:YARN 体系结构
  · 资源管理:使用 YARN
  使用 Apache Sqoop 导入关系数据
  · Sqoop 简介
  · 数据的基本导入导出
  · 减少传输的数据量
  · 改善 Sqoop 性能
  · Sqoop 2
  Impala 及 Hive 介绍
  · 简介
  · 为什么使用 Impala 及 Hive
  · Hive 和传统数据库的比较
  · Hive 应用场景
  使用 Impala 及 Hive 管理数据及建模
  · 数据存储
  · 创建数据库及表
  · 表数据导入
  · HCatalog
  · Impala 元数据缓存
  数据格式
  · 选择文件格式
  · 支持不同文件格式的工具
  · Avro 数据格式定义模式
  · 在 Hive 及 Sqoop 里使用 Avro
  · Avro 格式数据模式变更
  · 压缩 数据分区
  · 分区概述
  · Impala 及 Hive 里的数据分区
  Apache Flume 实时数据采集
  · 什么是 Apache Flume
  · Flume 基本体系结构
  · Flume 源
  · Flume 槽
  · Flume 通道
  · Flume 配置
  Spark 基础
  · 什么是 Apache Spark
  · 使用 Spark Shell
  · RDDs( 可恢复的分布式数据集)
  · Spark 里的函数式编程 Spark RDD
  · RDD
  · 键值对 RDD
  · MapReduce
  · 其他键值对 RDD 操作
  编写和部署 Spark 应用
  · Spark 应用对比 Spark Shell
  · 创建 SparkContext
  · 创建 Spark 应用(Scala 和 Java)
  · 运行 Spark 应用
  · Spark 应用 WebUI
  · 配置 Spark 属性
  · 运行日志
  Spark 的并行处理
  · 回顾:机群环境里的 Spark
  · RDD 分区
  · 基于文件 RDD 的分区
  · HDFS 和本地化数据
  · 执行并行操作
  · 执行阶段及任务
  Spark 缓存和持久化
  · RDD 演变
  · 缓存
  · 分布式持久化
  Spark 数据处理的常见模式
  · 常见 Spark 应用案例
  · 迭代式算法
  · 图处理及分析
  · 机器学习
  · 例子:K-Means 预览:Spark SQL
  · Spark SQL 和 SQL Context
  · 创建 DataFrames
  · 变更及查询 DataFrames
  · 保存 DataFrames
  · Spark SQL 对比 Impala
  【参会指南】
  参会费:¥7360
  大会报名地址:https://www.huodongjia.com/event-951795901.html
页: [1]
查看完整版本: CCA Spark and Hadoop Developer (CCA175) 公开课