link 发表于 2018-10-31 09:46:13

hadoop(适合大数据的分布式存储和分布式计算平台)---总结

  HADOOP:
  是一个适合大数据的分布式存储(HDFS)和并行计算(MapReduce)平台.
  是由Doug Cutting编写的。原来是nutch下的一个子项目,主要用来做搜索引擎。
  特点:1.扩容能力强,
  2.成本低:可使用普通pc集群来实现
  3.高效率:通过分发数据,可以实现并行处理数据,使得处理速度很快
  4.可靠性:能够自动维护数据的多个副本,计算任务失败后能自动的重新部署计算任务。
  架构图:
  Hadoop两大核心:-----------------------------
  1.HDFS:hadoop Distributed FileSystem(分布式的文件存储系统)
  2.MapReduce:并行的计算框架。
  HDFS的架构:
  HDFS采用主从结构(master/slave)
  主节点:NameNode---- 只有一个
  从节点:DataNode ---- 可以有多个
  NameNode的职责:
  1.接受用户的操作请求
  2.维护文件系统的目录结构
  3.管理文件与block块之间,block与DataNode之间的关系
  DataNode的职责:
  1.存储文件
  2.文件被分成了一个个的block块存储在DataNode节点的磁盘上
  3.为了保证数据的安全,文件会存在多个副本(副本的存放策略:默认有3个副本,一个副本存放在本地机架节点上,一个存放在本地机架的另一个节点上,最后一个存放在另一个机架的节点上,这样就减少了机架之间的数据传输,加快了写操作的速率)
  2.MapReduce的架构:
  MapReduce采用了主从架构:
  主节点:JobTracker----只有一个
  从节点:TaskTracker---可以有多个
  jobTracker:
  1.接受客户提交的计算请求
  2.把计算任务分配给TaskTracker执行
  3.监控TaskTracker的执行情况
  TaskTracker:
  1.执行JobTracker分配的计算任务。

页: [1]
查看完整版本: hadoop(适合大数据的分布式存储和分布式计算平台)---总结