hadoop1和hadoop2的区别2020年2月11日 | hadoop资源调度方式的改变 在1.x, 使用Jobtracker负责任务调度和资源管理,单点负担过重,在2.x中,新增了yarn作为集群的调度工具.在yarn中,使用ResourceManager进行 资源管理, 单独开启一个Conta……阅读全文
10分钟快速了解hadoop MapReduce 编程模型2020年2月5日 | hadoopmapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑 什么是map,什么是renduce ? MapReduce 基础编程模型:把一个大任务拆分成小任务,再进行汇总 MR任务:Job = Map + Reduce Map的输出是Reduc……阅读全文
10分钟熟悉hadoop 操作2020年2月5日 | hadoop启动相关 启动zookeeper: zkServer.sh start 启动HDFS : 不管在集群中的那个节点都可以 start-dfs.sh 启动YARN : 只能在YARN主节点中进行启动 start-yarn.sh HDFS : http://hadoop02:50070 YARN : http://hadoop05:8088 HDFS的常用命令及示例 ls: 显示目录信息 hadoop fs -ls / hadoop fs -ls -R / ---->级联递归的……阅读全文
10小时Hadoop基础快速入门2020年2月5日 | hadoop基础概念 大数据的本质 一、数据的存储:分布式文件系统(分布式存储) 二、数据的计算:分部署计算 学习路线 (1)Java基础和Linux基础 (2)Hadoop的学习:体系结构、原理、编程 第一阶段:HDFS、MapReduce、H……阅读全文
hadoop安全需求2020年2月5日 | hadoophadoop在安全方面的需求主要有: 用户认证安全。hadoop最早通过ugi认证,用户名、密码以明文传输,mr作业都用同一个账户运行,隔离性差。后来通过读取当前账户信息作为hadoop账户,却不对用户进行认证,感觉安全性……阅读全文
Hadoop的Shuffle是什么2020年2月5日 | hadoopmap 端的细节图 Shuffle的作用 首先来看看Shuffle在reduce端的过程,也能用图上标明的三点来概括。当前reduce copy数据的前提是它要从JobTracker获得有哪些map task已执行结束,这段过程不表,……阅读全文
hadoop的安全管理2020年2月5日 | hadoopHDFS数据管理 1 一旦数据发生异常,可以设置NameNode为安全模式,这时NameNode为只读模式; 2 每一个DataNode都会运行一个数据扫描线程,它可以检测并通过修复命令来修复坏块或丢失的数据块,通过属性设置扫描……阅读全文
hadoop怎么分片2020年2月5日 | hadoop分块与分片 分块: HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。存储在 HDFS上的文件均存储为多个块,如果某文件大小没有到达64MB,该文件不会占据整个块空间……阅读全文
hadoop中的Combiner 过程2020年2月5日 | hadoopcombiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。 combiner的目的是减少map网络流量。 combiner的对象是对于map combiner具有和reduce相似的功能。 只不……阅读全文
HDFS文件上传流程细解2020年2月5日 | hadoopHDFS文件上传流程 1 用户即客户端想要上传文件,就先要给namenode发个请求,告诉它说我要上传文件了(即写数据), 2 然后namenode会返回一个响应,这个响应是namenode根据自身情况,比如会先查一下namen……阅读全文