赞
踩
Dashboard | 概述显示任何警报和多个集群的仪表板。 仪表板显示性能指标监测的概况。 可以在仪表板中添加和编辑图表。 |
配置管理 | 基本的集群配置。 管理任务,比如使用简单的单击操作添加集群。 可视化的集群配置。 使用agent管理多个集群。 多个node管理。 下载PDF的集群报告。 |
only企业版的功能 | 仅支持DataStax Enterprise版本。 监控DSE内存tables的功能。 查看spark console。 主备切换,自动失效转移。 安全,可以定义用户角色。 DSE管理服务:
当新node添加或删除时,Rebalance数据。 生成诊断的tarball,支持问题的排除。 Hadoop Job Tracker集成。 查看过去一周的历史指标。 |
端口号 | 描述 |
OpsCenter端口号 | |
8888 | OpsCenter web地址端口。Opscenterd监听来自浏览器的HTTP端口号,在opscenterd.conf中配置。 |
50031 | OpsCenter对于Job Tracker的HTTP代理端口。Opscenterd进程监听浏览器查看Hadoop Job Tracker页面的HTTP端口号,在opscenterd.conf中配置(只支持DataStax Enterprise) |
61620 | OpsCenter监控端口号。Opscenterd进程监听来自agent的TCP交互。在opscenterd.conf中配置。 |
DataStax agent端口号 | |
7199 | JMX监控端口号。每个agent节点会打开一个JMX连接 |
8012 | Hadoop Job Tracker client端口号(只支持DataStax Enterprise) |
8012 | Hadoop Job Tracker website端口号(只支持DataStax Enterprise) |
8012 | Hadoop Task Tracker website端口号(只支持DataStax Enterprise) |
9042 | native transport端口号,在cassandra.yaml中配置的native_transport_port |
61621 | DataStax agent端口号 |
22 | SSH端口号。在opscenterd.conf中配置。 |
Solr和Demo applications端口号 | |
8983 | Solr端口号和Demo applications端口号 |
LDAP服务端口号 | |
389 | 非SSL LDAP和AD默认端口号。在opscenterd.conf中配置。 |
636 | SSL LDAP和AD默认端口号。在opscenterd.conf中配置。 |
Directory | Location |
/agent | Agent安装文件 |
/bin | 启动和配置二进制命令 |
/content | Web应用文件 |
/conf | 配置文件 |
/doc | License文件 |
/lib and /src | Library文件 |
/log | OpsCenter日志文件 |
/ssl | agent交互的SSL文件 |
Field | Description | Example |
api_source_ip | 发送请求的原IP地址 | 67.169.50.240 |
target_node | STREAMING操作的目的地址 | 10.1.1.11 |
event_source | 事件产生的组件 | OpsCenter (i.e., restart, start) |
user | 事件产生的OpsCenter user | opscenter_user |
time | 事件时间 | 1311025650414527 |
action | 事件类型 | 20 |
subject | 邮件告警主题 | [WARN] OpsCenter Event - Node reported as being down: 127.0.0.1 |
message | 事件描述 | Garbage Collecting node 10.1.1.13 |
level | 日志级别的数值 | 1 |
source_node | 事件发生的原节点 | 10.1.1.13 |
level_str | 事件日志级别 | INFO |
Client写响应平均时长(以毫秒为单位)。依赖于consistencylevel和replication factor,也包含了写replicas的网络延迟
Read Requests
在coordinator节点上每秒的读请求数,类似与client读请求
Client读响应平均时长(以毫秒为单位)。read latency受到硬盘,网络和应用程序读的方式等影响。比如,使用二级索引,读请求数据大小,client需要的consistency level都将影响read latency。I/O的争用也会增加read latency。当SSTables有很多碎片,compaction跟不上写负载则读也会变慢。
JVM每秒并发标记-清除(CMS)垃圾的数量。
CMS垃圾收集时间(ms/sec)
JVM每秒并行执行的新一代垃圾收集的数量
ParNew垃圾收集时间(ms/sec)
Cassandra存储数据的大小。建议不超过磁盘的70%,留一些空间维护compaction和repair操作。
SSTable每秒数据压缩的字节数
每秒压缩的数量
Flush进程flush memtables到SSTables。这个指标展示了flushmemtables队列的数量。最优数量为0(或较少数量)。值大于0表示有I/O竞争,降低了磁盘性能
当插入或修改一行时,此行将会复制到其他节点。调用的是ReplicateOnWriteStage。这个指标跟踪了写进程阶段。在一个低或适中的写负载时,你应该看到0 pending replicate在写任务上(或比较低的数字)。持续的高值表示需要检查下磁盘I/O或网络连接问题
到达集群等待处理的读请求的数量。在一个低或适中的写负载时,你应该看到0 pending read在写任务上(或比较低的数字)。持续的高值表示需要检查下磁盘I/O或网络连接问题。Pending reads也可能表示应用设计没有以有效的方式来访问数据
读修复操作队列,等待系统资源的数量。最优数量为0(或比较低的数字)。值大于0表示读修复操作与其他操作存在I/O竞争。对于表来说,降低此table参数read_repair_chance,你需要容忍一定程度的旧数据。
Compactions队列的数量,等待系统资源。最优数量为0(或比较低的数字)。值大于0表示读操作与compaction操作竞争I/O连接,表示读性能下降。这种情况常常是由于执行频繁的small writes和持久的reads。如果一个节点或集群展示了pending compactions,表示你可能需要增大I/O能力,通过添加节点到集群。你也可以减少I/O连接,通过减少插入/更新请求(比如批量写入)。或则减少SSTables创建的数量,通过增大memtable大小,flush频率。
Repair操作数量。Repair是一个资源敏感操作,需要执行:比较副本间的数据,发送改变的row到副本来保证数据的一致性,删除过期的tombstones,重建索引和bloom filters。跟踪这个指标的状态可以帮助你确定repaire操作的过程。它常常不会出现很大的值。
Cassandra使用gossip协议来发现其他节点的位置和状态信息。每个节点每秒发送一次gossip,与其他节点交换状态信息。Gossip tasks pending表示gossip messages等待发送或接受的数量。最优数量为0(或比较低的数字)。值大于0表示网络可能有问题。
当一个节点offline,其他节点在节点不可用期间将会保存rows更新的提示。当节点重新online,它对应的副本将会修复。hinted handoff pending指标表示等待发送给failed节点hints的数量。查看这个指标可以确定failed节点数据是否恢复。Hinted handoff是Cassandra可选的功能。Hints可以配置保存周期(默认1小时)。
系统修改schema后的等待任务数量。Schema修改需要传播给所有的节点,所以这个指标能够表示schema 不一致的错误。
5.5.4. Table性能指标 TBL:Local Writes表的写负载。指标包含所有的写请求到此table,包含来自其他节点的写请求。
成功写入表后的响应事件,单位毫秒。writelatency受到硬盘,网络和写入性质影响(比如consistency levels)
写数据的响应事件,包含min,median, max, 90%和99%
读负载
成功读取数据后的响应事件
读数据的响应事件,包含min, median, max, 90%和99%
存活的SSTables使用的磁盘空间,不包含过时的SSTables
SSTables使用的磁盘空间,包含过时的SSTables
SSTables当前数量
读取多少SSTables:包含min,median, max, 90%和99%
表在分区中存在多少个cells:包含min,median, max, 90%和99%
表的分区大小:包含min, median,max, 90%和99%
表的读写等待数量。
bloomfilter文件在磁盘的大小。
bloom filter误报的数量,比如bloomfilter表示row存在,但实际上不存在的数量
bloomfilter误报的百分比
bloomfilters使用的heap memory
索引使用的heapmemory
compressionmetadata使用的heap memory
表当前的memtable使用的heapmemory
所有的memtables使用内存的空间
在row key cache读请求的数量
在row keycache读请求命中的数量
在row keycache读请求命中的比率
在row key cache读请求的数量,这个指标只是展示配置的row caching(row caching默认不可用)
在row key cache读请求命中的数量,这个指标只是展示配置的row caching(row caching默认不可用)
在row key cache读请求命中的比率,这个指标只是展示配置的row caching(row caching默认不可用)
表当前SSTables当前大小
5.5.5. 操作系统性能指标 OS:Memory展示系统内存的使用:cached,buffered和free
系统和用户进程使用CPU的时间
系统work数量
Cassandra使用磁盘空间
Cassandra使用磁盘空间的百分比
读写操作的百分比,通过测量每秒的MB
磁盘对于读写操作的平均速度
磁盘查找消耗的平均时间,单位毫秒
请求的平均大小
请求队列的平均数量,对于磁盘延迟问题
磁盘I/O消耗CPU时间的百分比
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。