博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HDFS集中式缓存管理
阅读量:6150 次
发布时间:2019-06-21

本文共 548 字,大约阅读时间需要 1 分钟。

Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文 件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在

DataNode的内存当中。

优势

  • 防止那些被频繁使用的数据从内存中清除
  • 因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓 存的列表,使用一个被缓存的块副本能够提高读性能
  • 当块被DataNode缓存之后,客户端可以使用一个新的、高效的、zero-copy的读API,因 为缓存中的数据已经被计算过checksum,当使用新API时,客户端基本上是零开销的
  • 可以提高集群的内存利用率。当使用操作系统的缓存时,对一个块的重复读会导致所有 的副本都会被放到缓冲区当中,当使用集中式缓存时,用户可以指定n个副本中的m个 才会被缓存,可以节约n-m的内存

使用场景

  • 集中式缓存对那些频繁访问的的文件是非常有用的,例如hive中经常被使用的fact表就 非常适合缓存
  • 另一方面,缓存一年的查询结果可能没那么有用了,因为这个结果可能只会被查看一次
    有助于提高混合类型作业的SLA性能,把高优先级的数据缓存起来可以确保它不会与低 优先级的数据竞争磁盘IO

命令行

image.png

转载地址:http://pjqya.baihongyu.com/

你可能感兴趣的文章
gsoap 使用
查看>>
HTML5移动开发即学即用(双色)
查看>>
Flume日志收集
查看>>
经典.net面试题
查看>>
为什么我没有拔出钥匙 ——开锁引发的程序bug解决方案的思考
查看>>
【玩转Golang】beego下实现martini中的透明式静态文件服务(static folder)效果。
查看>>
qt creator中使用qwt插件
查看>>
WebSocket实战
查看>>
【Kylin实战】Hive复杂数据类型与视图
查看>>
Windows下安装使用curl命令
查看>>
Nginx反向代理+DNS轮询+IIS7.5 千万PV 百万IP 双线 网站架构案例
查看>>
Maven转换成Eclipse/Idea/MyEclipse工程,以及配置Web工程
查看>>
gcc/g++ 命令的经常使用选项
查看>>
SVN学习(三)——在Eclipse 中安装和使用SVN客户端插件
查看>>
Oracle数据库中number类型在java中的使用
查看>>
HDU 4786(最小生成树 kruskal)
查看>>
2. ZooKeeper的ZAB协议。
查看>>
洛谷P3178 [HAOI2015]树上操作
查看>>
苏宁易购Android架构演进史
查看>>
0604-Zuul构建API Gateway-Zuul的回退
查看>>