诊断平安城市视频网性能问题

平安城市已经是一个关系你我他的民生工程 , 但由于本身系统的复杂性 , 给运维工作带来了极大的挑战 。如何保障摄像头在线率?如何在系统中找到视频系统故障的问题所在?在我们某一次项目经历中 , 优云APM在发现问题 , 定位故障等方面 , 起了很大作用 , 帮助我们顺利的定位到了系统的故障所在 。
平安城市是一个特大型、综合性非常强的管理系统 , 不仅需要满足治安管理、城市管理、交通管理、应急指挥等需求 , 而且还要兼顾灾难事故预警、安全生产监控等方面对图像监控的需求 , 同时还要考虑报警、门禁等配套系统的集成以及与广播系统的联动 。
处于平安城市系统核心地位的视频监控系统 , 架构复杂 。组成系统有成千上万的高清摄像头、数以千计视频系统、数以百计的卡口系统、以及背后复杂的存储和管理系统;同时横跨多种网络 , 包括4G , 以太网 , 光纤网 。摄像头在线率 , 随时随地迅速调取视频 , 就是整个视频系统成效的关键指标 。
最近接到客户反馈 , 视频网看起来挺正常 , 监控看到摄像头在线率也挺好 , 各个市级子系统检测结果都挺正常 , 但就是打开视频很慢 。接到情况 , 优云马上组织了技术人员前往 。
>>>>业务请求跟踪 , 什么慢?
在初步了解后 , 我们对视频应用平台整体结构进行了梳理 , 整个应用平台分成两个层次 , 省级和各个市级 , 多达十几个个子系统 , 这里我们介绍一下主要的架构 , 并且选定关键路径侦听镜像 。

诊断平安城市视频网性能问题

文章插图

诊断平安城市视频网性能问题

文章插图
通过安装部署优云APM , 跟踪观察省级SIP信令 , 横向综合比较请求多维度信息 。我们发现成功率和响应时间与请求量存在明显的关系 , 当请求量上升时 , 系统成功率大幅下降 , 而响应时间大幅上升 。省级SIP请求次数与成功率、响应时间的变化关系如下图所示:
诊断平安城市视频网性能问题

文章插图
>>>>单次业务链跟踪 , 哪里慢?
在发现了请求响应迟缓之后 , 我们进一步用优云APM单笔跟踪功能 , 跟踪单一次SIP请求过程 , 发现大量的错误和时延 , 确定最终错误根源在某市级SIP服务器 , 即省级向市级发起SIP调用过程 , 市级返回错误 , 调用失败 。
诊断平安城市视频网性能问题

文章插图

诊断平安城市视频网性能问题

文章插图
从一次摄像头视频请求的过程来看 , 从省级发起视频请求 , 到返回 , 市级SIP服务器响应时间过长 。
>>>> 模拟分析 , 为什么慢?
到目前为止 , 问题基本上锁定在市级的SIP服务器一端 。我们对市级的两万多摄像头巡检 。发现成功率4.4% , 有返回 , 但是错误返回9.6% , 无返回超时86% 。
【诊断平安城市视频网性能问题】从市级SIP服务器指令监控结果来看 , 同样发现成功率和响应时间与请求量存在明显的关系 , 当请求量上升时 , 系统成功率大幅下降 , 同时响应时间大幅上升 。甚至有到1分钟以上 。