1、HDFS采用一种称为机架感知的策略来改进数据的可靠性、可用性和网络带宽的利用率。
2、目前实现的副本存放策略只是在这稍僚敉视个方向上的第一步。实现这个策略的短期目标是验证它在生产环境下的有效性,观察它的行为,为实现更先进的策略打下测试和研究的基础。
3、大型HDFS集群系统往往运行在跨越多个机架的数据中心,不同机架上的两台机器之间的通信需要经过交换机。
4、在大多数情况下,同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。
5、通过一个机架感知的过程,Node可以确定每个Data所属的机架ID。一个简单但没有优化的策略就是将副本存放在不同的机架上。
6、这样可以有效防止当整个机架失效时数据的丢失,并且允许读数据的时候充分利用多个机架的带宽。
7、这种策略设置可以将副本均匀分布在集群中,有利于组件失效情况下的负载均衡。但是,因为这种策略的一个写操作需要传输数据块到多个机架,因此增加了写的代价。