监控


运维监控

部署安装

* 操作系统的安装: 实体机和虚拟机操作系统安装,优先级较低,目前暂不支持。
* hadoop安装:
* 前提:在建好用户的机器上进行hadoop的部署安装
* 过程:安装SSH,建立互信脚本,安装JDK,安装hadoop
* 要求:环境变量配置到用户级别;考虑异构机器的配置问题。

监控:三大指标

* 硬件指标监控:
* 整个Hadoop集群设备状况,包括设备可用性,设备整体负载情况(CPU、网络、内存、IO等)。
* 单个节点设备状况,包括设备可用性,设备整体负载情况(CPU、网络、内存、IO等)。
* mapreduce任务监控:为调度系统提供任务的实行情况,通过hadoop自带的任务监控系统实现,。
* Hadoop服务整体运行情况。包括节点数、异常节点数、主服务状态、Job数、Map/Reduce任务、HDFS文件使用情况等。
* 单个节点服务情况,包括DataNode服务、TaskTracker服务状态、单节点上运行的Map/Reduce任务、HDFS使用情况等。
* hadoop指标监控: IMC可通过jmx从hadoop集群中获取监控数据,目前IMC比ganglia少几个参数,ET 供 L可以考虑在mbean中添加所缺参数,供IMC获取。

控制:

* 节点控制:
* 新增节点:将主机添加至集群。如该主机未安装过hadoop,则自动安装hadoop至默认路径下;如该主机安装过hadoop,走手动安装,由用户选择是否使用现有hadoop,如不使用,则指定安装路径。

删除节点:将主机移出集群。在删除节点之前,需保证该节点上所有hadoop服务都处于停止状态。删除节点不做hadoop卸载操作。

PS:增删节点可选择是否自动执行集群数据平衡操作,也可手动执行数据平衡操作。

* 节点迁移:从集群外添加一个新节点替换原节点,包括hadoop安装,数据的复制,集群配置的变更。目前主要实现DataNode的迁移,其他节点迁移暂不支持。
* 服务启停:
* 集群级别启停: 集群停指杀掉集群中所有节点上所有服务的进程,如有正在运行的任务可提示是否立即暂停
* 主机级别启停: 主机停指杀掉该主机上所有集群所有服务的进程
* 服务级别启停
* 数据平衡: hadoop自带数据平衡脚本,手动进行数据平衡时可直接调用。
* 配置管理:
* 集群级别配置变更
* 节点级别配置变更
* 日志查看:
* mapreduce任务执行日志查看:为调度系统提供任务日志查看功能,通过hadoop自带功能实现。
* 运维系统操作日志查看: 优先级较低,可押后实现
大山 /
Published under (CC) BY-NC-SA in categories 监控  tagged with hbase  metrics