uyfrjk 发表于 2018-10-29 08:31:03

CCA Spark and Hadoop Developer (CCA175) 公开课信息

  CCA Spark and Hadoop Developer (CCA175) 开发者认证
  认证准备建议:Spark andHadoop开发者培训
  考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题
  线上:长期开课
  线下北京、上海定期开课(最近一次培训时间:北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))
  课时:28h/4天
  咨询:Q1438118790
  课程介绍
  Hadoop及生态系统介绍
  传统大规模系统的问题
  Hadoop !
  Hadoop 生态系统
  Hadoop体系结构及 HDFS   
  机群环境下的分布式处理
  存储:HDFS 体系结构
  存储:使用 HDFS
  资源管理:YARN 体系结构
  资源管理:使用 YARN
  使用Apache Sqoop 导入关系数据   
  Sqoop 简介
  数据的基本导入导出
  减少传输的数据量
  改善 Sqoop 性能
  Sqoop 2
  Impala及 Hive 介绍   
  简介
  为什么使用 Impala 及 Hive
  Hive 和传统数据库的比较
  Hive 应用场景
  使用Impala 及 Hive 管理数据及建模   
  数据存储
  创建数据库及表
  表数据导入
  HCatalog
  Impala 元数据缓存
  数据格式   
  选择文件格式
  支持不同文件格式的工具
  Avro 数据格式定义模式
  在 Hive 及 Sqoop 里使用 Avro
  Avro 格式数据模式变更
  压缩 数据分区
  分区概述
  Impala 及 Hive 里的数据分区
  ApacheFlume 实时数据采集   
  什么是 Apache Flume
  Flume 基本体系结构
  Flume 源
  Flume 槽
  Flume 通道
  Flume 配置
  Spark基础   
  什么是 Apache Spark
  使用 Spark Shell
  RDDs( 可恢复的分布式数据集)
  Spark 里的函数式编程 Spark RDD
  RDD
  键值对 RDD
  MapReduce
  其他键值对 RDD 操作
  编写和部署 Spark 应用   
  Spark 应用对比 Spark Shell
  创建 SparkContext
  创建 Spark 应用(Scala 和Java)
  运行 Spark 应用
  Spark 应用 WebUI
  配置 Spark 属性
  运行日志
  Spark的并行处理   
  回顾:机群环境里的 Spark
  RDD 分区
  基于文件 RDD 的分区
  HDFS 和本地化数据
  执行并行操作
  执行阶段及任务
  Spark缓存和持久化   
  RDD 演变
  缓存
  分布式持久化
  Spark数据处理的常见模式   
  常见 Spark 应用案例
  迭代式算法
  图处理及分析
  机器学习
  例子:K-Means 预览:SparkSQL
  Spark SQL 和 SQL Context
  创建 DataFrames
  变更及查询 DataFrames
  保存 DataFrames
  Spark SQL 对比 Impala

页: [1]
查看完整版本: CCA Spark and Hadoop Developer (CCA175) 公开课信息