yarnHA使用
CAP理论应用: 3.容错性:
1. am重启
2. nn断线,重启container
3. 没startcontainer或外界原因导致失败rm转告给am处理
4. rm ha
RM HA:
1. 共享存储(active写,standby读,保持sysc)
2. 保证最终一致后,切换
3. 共享存贮方式:
- 最适合的是zk,一致性(事务,锁,同步队列)
- NFS
- HDFS单点故障
- bookkeeper
- qurom joural manager 2n+1 n+1机器写该次成功即成功
自动模式HA:
1. masterhademon
2. sharedstorage
3. zkfailovercontroller(activestandbyelector,healthMonitor)
4. zk
故障演绎:
1.
1. brain split 客户端或slave误以为有两个master
2. master行为是一个:sharedstorage一个写,response一个,command一个。
3. sshfence shellfence 栅栏
zkrmstatestore内容 class(不保存,内存,hdfs,zk)
application state
application attempt
application rmdtsecretmanagerstate
资源和使用通过心跳重建
jira: yarn-149 128