1.服务端//服务作为服务器的性能指标
2.客户端//服务作为客户端发送请求的性能指标
3.日志//日志监控
服务端
1.进程状态指标系//进程性能指标
2.容器状态指标系//宿主机性能指标
3.服务状态指标系//具体url服务响应指标
4.应用状态指标系//应用响应指标
5.应用服务器状态指标系//服务器响应指标
6.java虚拟机状态指标系//服务器jvm性能指标+自定义指标
客户端
1.调用状态指标系//作为客户端调用其他服务性能指标
日志
1.应用ID//应用名(war包名)
2.指定日志//指定日志全路径文件名
1.此行可不填,若不填则为全局策略;
2.所填实例的预警以此策略为准,全局策略对其失效。
3.若有多个实例,则在此栏填写监控实例组名(自行命名),下一栏填写各监控实例名,以","(半角逗号)分隔。
4.监控实例名与第二行的监控指标组名相关,填写规则见下表。
监控指标组名 | 监控实例名 | 示例 |
进程状态指标系 | IP_进程名或IP | 127.0.0.1_java |
容器状态指标系 | 具体IP | 127.0.0.1 |
服务状态指标系 | 具体服务url地址或上级地址 | http://127.0.0.1:8080/isign/isign/signPDF |
应用状态指标系 | 应用地址 | http://127.0.0.1:8080/isign |
应用服务器状态指标系 | 服务器地址 | http://127.0.0.1:8080 |
java虚拟机状态指标系 | 服务器地址 | http://127.0.0.1:8080 |
调用状态指标系 | 服务器ip:端口#应用实例名#调用服务类型(redis,http,mongo,mysql等)://调用服务ip:端口 | 127.0.0.1:9090#smsmanager#redis://127.0.0.1:6379 |
填写对此策略的描述
触发条件可以增加多个,各条件之间的关系为或。
1.触发表达式:形式为 [指标参数名][比较符][值],比较符有<、>、=,示例:os.cpu.load>90。对于每种监控指标组名,只能使用对应的指标参数名。监控指标组名与指标参数名的对应见附表。
2.持续时间: 策略判断的时间长度,单位为秒。(可不填,不填表示表达式条件发生则触发预警)
3.聚集操作: 选择对时间范围内的参数值做的聚集操作类型。
1.短信:预警接收者的手机号码,如有多个以","(半角逗号)分隔。
2.邮箱:预警接收者的邮箱地址,如有多个以","(半角逗号)分隔。
监控指标组名 | 指标参数名 |
容器状态指标系 |
os.cpu.load (系统cpu 占用百分比) os.cpu.avgload(系统cpu 平均占用百分比) os.cpu.freemem (系统空闲内存 单位:Byte) os.conn.cur (系统服务连接数) os.io.disk.挂载目录(目录中/用.代替).free(挂载目录磁盘空闲量 单位:KB) os.io.disk.挂载目录(目录中/用.代替).use(挂载目录磁盘使用量 单位:KB) os.io.disk.挂载目录(目录中/用.代替).useRate(挂载目录磁盘使用率) (具体挂载目录的空闲量、使用量、使用率 例: os.io.disk.data.free) os.io.disk.sda(b/c..).disk_write(disk_read) (系统物理磁盘读写速度 单位:KB/s) |
进程状态指标系 |
cpu (进程占用cpu百分比) mem(进程占用内存,单位:KB) memRate(进程内存占用百分比) conn(进程连接数) conn_PORT(进程指定端口连接数,例:conn_8080) in (进程入口流量 单位:KB/s) out (进程出口流量 单位:KB/s) in_PORT(进程指定端口入口流量,例:in_8070) out_PORT(进程指定端口出口流量,例:out_8070) disk_read (进程读磁盘速度 单位:KB/s) disk_write (进程写磁盘速度 单位:KB/s) |
应用服务器状态指标系 |
tavg (平均响应时间,单位:ms) tmax(最长响应时间,单位:ms) tmin(最短响应时间 ,单位:ms) tsum(响应时间总和,单位:ms) err(错误数,响应400以上) warn(警告计数) RC+响应代码(如RC500,RC502 出现次数) count(访问计数,总访问量) |
应用状态指标系 | |
服务状态指标系 | |
java虚拟机状态指标系 |
自定义指标名 cpu_p (jvm进程cpu消耗) cpu_s (jvm采集的系统cpu 占用百分比,与top命令采集的os.cpu.load不同) thread_live (活跃线程计数) thread_daemon (守护线程计数) thread_peak (线程峰值计数) thread_started (线程启动计数) class_load (类加载计数) class_unload (类卸载计数) class_total (全部类计数) mgc_count (MinorGC计数) mgc_time (minor gc,时间 单位:ms) fgc_count (FullGC计数) fgc_time (full gc,时间 单位:ms) 指标通用模式: 内存管理指标_use (已使用容量,单位:Byte) 内存管理指标_init (初始化容量,单位:Byte) 内存管理指标_commit (已提交容量,单位:Byte) 内存管理指标_max (最大容量,单位:Byte) 内存管理指标包含:heap(堆)、noheap(非堆)、perm(持久代)、code(代码缓存)、eden(新生代-Eden)、surv(新生代-survior)、old(老生代) |
调用状态指标系 |
tavg (平均响应时间,单位:ms) tmax(最长响应时间,单位:ms) tmin(最短响应时间 ,单位:ms) tsum(响应时间总和,单位:ms) err(错误数,响应400以上) count(访问计数,总访问量) AC+方法名(方法访问计数) |
日志 | content(内容) 另:log的策略表达式为content:=XXX 表示日志包含XXX内容 |
此策略为对进程指标的监控,且策略适用对象为127.0.0.1和127.0.0.1上的进程。
预警触发条件为进程cpu占用率在300秒内的平均值超过90%。
预警触发后通过邮件发送给xxx@yyyy。
此策略为对具体应用服务响应指标的监控,且策略适用对象为http://127.0.0.1:8080/ smsgateway和http://127.0.0.1:8080/smsgateway这两个应用服务。
预警触发条件为最长响应时间tmax超过2000ms,或者60秒内平均响应时间tavg在60秒内超过1000ms,或者60秒内响应代码400以上的次数超过2。
预警触发后通过短信发送给152XXXXXX。
此策略为日志的监控,且策略适用对象为ccsp应用中/app/t7-ccsp/logs/ccsp.log和/app/t7-ccsp/logs/ccsp_err.log这两个日志文件。
预警触发条件为日志内容包含ERROR字段。
预警触发后通过邮件和短信报警。