综述:边缘视频分析在安全领域的应用

随着大量的公共安全摄像头和交通摄像头的安装,视频分析正在公共安全领域发挥越来越重要的作用。传统视频分析是全部在云端完成的,然而,在云端分析大型在线视频流是不现实的,但是将这些分析任务放在边缘来解决给我们提供了一些新的思路。本文完整阐述了边缘视频分析的发展以及一些思考。

边缘视频分析在安全领域的应用

原文:Edge Video Analytics for Public Safety: A Review
作者:QINGYANG ZHANG, Student Member IEEE, HUI SUN, XIAOPEI WU,AND HONG ZHONG

摘要

  随着大量的公共安全摄像头和交通摄像头的安装,视频分析正在公共安全领域发挥越来越重要的作用。简单来讲,视频分析就是同时利用CV和AI技术来解决Four-W问题。所谓Four-W问题,其实是Who,What,When,Where,即一个人在哪里和什么时候做了些什么工作。根据延迟需求的不同,视频分析可以应用于:1.事件后的回顾性分析,如档案管理、搜索、法医调查。2.实时视频流分析,如位置感知,预警和对象检测(犯罪嫌疑人/失踪车辆)。后者的特点是对硬件资源的要求较高,比如底层复杂的图像处理算法。然而,在云端分析大型在线视频流是不现实的,但是将这些分析任务放在边缘来解决给我们提供了一些新的思路。在边缘上分析实时视频流并非易事,因为边缘上的硬件资源有限。基于AI的视频分析现在需要更高的带宽,消耗更多的CPU/GPU资源,需要更大的内存来存储。本文回顾了促进公共安全领域的边缘视频分析的一些应用、算法、和解决方案。

1.简介

  在过去的十年里,由于实际的需求,视频监控和视频分析得到了长足的发展,这都要归功于公共安全领域内广泛的应用,比如在全市范围的视频监控系统中识别犯罪行为,或通过共享消防视频视图来监控消防中心的消防安全。在过去,大多数视频监控系统将视频传输到公共或私有云进行视频分析。然而,随着视频监控系统规模的增大,大量的视频数据传输和计算密集型的视频分析给基于云计算和网络基础设施的解决方案带来了不堪重负的负担。此外,对于消防和应急医疗服务(EMS)中使用的移动摄像头,由于网络连接不稳定,视频数据并不总是可靠的。他们也不能及时到达基于云的视频分析服务,他们只能在现场进行轻量级的视频分析,并在云中进行后期分析。目前,随着大规模的视频监控,越来越多的智能摄像头被用于公共安全系统,它使得部分视频分析工作负载(如人脸检测)可以在边缘设备上执行,减少了云的计算负担,节省了大量的视频数据传输到云上,这与边缘视频分析是一致的。然而,目前的智能相机只能通过内置的固定算法来分析视频。
  受新兴的边缘计算Edge Computing(也叫雾计算Fog Computing)的启发,边缘视频分析是为了将部分或者全部视频分析工作负载放置在边缘设备,比如摄像机、边缘服务器。边缘视频安全分析EVAPS(edge video analytics for public safety)的显著优点包括:
  1.数据传输开销低
  2.低延迟
  3.应用多样性
  特别的,对于警察携带的移动摄像机,无人机、火警机器人,边缘视频分析可以避免在带宽和连接不稳定的网络上进行大规模的数据传输。以随身相机的edge视频分析为例,它可以自动捕获周围的物体和事件,并且在云端进行数据传输和处理时不会出现高延迟,从而大大提高了公共安全,也大大提高了警务人员的安全。然而,如何利用实时视频分析在边缘云环境中优化和动态地卸载工作负载,仍然是业界和学术界都无法解决的问题
  在这篇文章中,我们回顾了最近被提出或部署来促进EVAPS的应用程序、视频分析算法和平台。首先,我们回顾了公安、交通、消防、EMS(Emergency medical services)四个部门的各种公共安全应用,并解释了它们的工作原理,以及它们对公共安全的积极影响,如降低犯罪率。然而,据我们所知,EVAPS应用程序的开发并不均衡。目前,最受欢迎和最成功的公共安全应用是犯罪识别,通过识别全市视频监控系统中的人脸。对于EMS, edge视频分析只在少数情况下使用,例如,患者监控。其次,为了理解视频是如何被分析的,以及哪部分工作负载可以被转移到边缘,我们剖析了一般的视频分析过程,并回顾了在公共安全领域这些特殊应用中使用的典型视频分析算法。我们测试了警察部门的人脸识别、交通部门的车辆识别和消防部门的火焰检测。最后,我们对EVAPS现有的平台进行了回顾,其中部分平台已经部分支持了工作负载的卸载,可以为其他EVAPS框架、平台、系统和应用提供参考。
  本文剩余部分组织如下:第二部分,我们首先介绍公共安全和边缘计算的视频分析,然后讨论EVAPS是怎么受益于边缘视频分析的。第三部分讨论公共安全的应用。第四部分淘乐视频分析技术。第五部分讨论已经应用的视频分析平台。这些平台可以用于改善公共安全,在基于云的和新兴的基于边缘的系统方面。第六部分讨论EVAPS的发展,并提出了今后的工作重点。最后第七部分,我们总结了这篇文章。

2.公共安全领域的边缘视频分析(EVAPS)

  通常,视频分析是为了综合利用高级计算机视觉(CV)和人工智能(AI)来解决4w问题。那就是识别谁在某个特定的地方在某个时间做了什么事(Who,What,When,Where)。因此,视频分析技术被广泛应用于公安部门,包括警察局,交通局,,消防局,EMS(Emergency medical services)。以人脸检测与识别技术为例,它可以在视频中识别犯罪行为,这将为许多公共安全应用带来巨大的变革。它的主要应用是在警察部门使用的全市视频监控系统中识别犯罪行为。此外,消防部门可以利用人脸检测在红外拍摄的视频中寻找幸存者。
  然而,公共安全视频数据的来源越来越多,包括视频监控摄像头、随身摄像头、dash摄像头、无人机、机器人摄像头等。它导致了对计算能力、存储能力和网络带宽要求很高的集中式基于云的解决方案的高负担。此外,随着硬件的发展,越来越多的相机有望配备强大的计算单元,如GPU、现场可编程门阵列(FPGA),甚至AI芯片。在这种情况下,边缘视频分析的概念被提出,以改变公共安全应用。
  新兴边缘计算是指“允许在网络边缘计算下游数据(代表云服务的)、上游数据(代表物联网服务)的技术”。请注意,edge是现有云计算模型的补充。对于延迟敏感的应用程序,利用数据源近端而不是远程云中的资源是很有前途的,这将节省大量的数据传输时间。受边缘计算的启发,边缘视频分析允许在摄像机附近的边缘进行视频分析。如图所示,视频分析工作负载分布在相机到云的路径上。

  Edge video analytics并没有将传统的视频数据传输到云端,而是让edge设备能够针对不同的公共安全应用程序执行不同的检测算法,例如警察局的人脸检测和交通部门的车辆检测。此外,目标跟踪算法的结果可以用来直接控制相机或模糊算法保护公民的隐私。最后,提取视频中有价值的信息,发送到云端进行分析。例如,通过多个摄像头描绘一个人的轨迹。这种提取程序能够有效的减少向云端的数据传输。一个有望使用边缘视频分析的公共安全应用程序,一定是是剪辑和传输视频的感兴趣区域,例如,受益处,而不是视频的完整视图,这将大大提高了视频传输的服务质量(QoS),特别是在移动中的救护车(通常网络并不稳定)。此外,在一些国家,如中国,执法部门要求视频数据存储几个月。Edge视频分析还可以降低这些部件的成本。在大多数情况下,由于已经执行了视频分析,它可以避免实时视频数据传输,除非工作人员需要激活该功能。这意味着视频数据可以通过各种技术进行压缩,从而降低云的数据传输成本和存储成本。

3.EVAPS的应用

  在这一节中,我们回顾了世界上一些公共安全的典型应用,在警察部门、交通部门、消防部门和EMS。下表列出了受益于视频分析技术的典型应用程序或事件。

A.Police Applications

  视频分析在公安部门最大的应用领域是智能视频监控,它利用各种视频分析技术来识别人、车辆,甚至是犯罪活动,如有犯罪历史的人或有枪击事件的人。在这一节中,我们介绍了这个领域的几个典型的应用。由于提高公共安全的能力,越来越多的视频监控系统正在产生,以保护全世界人民的安全。大量的视频数据是通过视频分析技术处理的。根据英国广播公司(BBC)报道,在中国警方将一名英国记者的面部照片添加到数据库后,该记者在7分钟内被中国警方的一架相机确认身份。据报道,中国有一个超过1.7亿个摄像头的庞大监控网络。未来三年内,预计将安装4亿台新相机。这里的关键技术是基于视频的人脸识别。
  同样,新加坡政府建立了一个安全城市平台(Safe City Test Bed),2013年投入使用,广泛应用视频监控和视频分析技术,旨在提高城市安全。此外,还有一种叫做NeoFace Watch的人脸识别技术,部署在印度苏拉特,它能使警察在监视区内发现可疑罪犯或活动时得到实时警报。结果,犯罪率下降了27%,系统部署后,150个案件得到了解决。此外,使检测大型活动的应用对公共安全也很重要,如反恐和人群监控。
  此外,视频监控系统不仅用于寻找罪犯,还可以帮助市民寻找失踪的儿童,如在全市视频监控中识别失踪儿童。Zhang et al.还提出了一个绑架者跟踪应用程序,以增强美国失踪追踪的技术:Broadcasting Emergency
Response (AMBER)通过跟踪绑匪的车辆来建立警报系统。此外,许多其他的应用已经提出了有关视频分析在视频监控系统。Arroyo et al.提出了实时检测商场潜在可疑行为的完整应用。
  除了视频监控之外,还有一些基于移动摄像头的公共安全应用,如随身摄像头和基于无人机的摄像头,这些都被广泛应用于警察局。比如Motlagh et al.提出了一种利用无人机快速获取面部图像的应用。此外,Wang et al.还提到了一个利用无人机探测海难幸存者的应用。此外,Zhang et al.构思了一个应用程序,其中周围的物体和事件可以被随身携带的相机自动捕获和报告。当警察遇到有犯罪史的危险人物或发生枪击或火灾事件时,警察可以实时得到警报。

B.Transportation Applications

  智能交通系统(ITS)被广泛应用于我国城市,用于检测和跟踪通过控制区的车辆,以发现异常的公共安全事件,如交通拥堵、超速违章、非法驾驶行为等。在这篇文章中,我们主要介绍了三种基于视觉的技术:车牌自动识别(ALPR)、交通分析、车内行为识别。
  ALPR系统是ITS的重要组成部分,它能够在城市中分析和跟踪车辆。在执法方面,全国各地的执法机构广泛采用ALPR系统,以加强执法和调查能力,扩大相关数据的收集,并加快将车辆公司与被盗车辆、通缉车辆和其他有兴趣的车辆名单进行比较的繁琐和耗时的过程。加利福尼亚的ALPR警报提供了堪萨斯州一起谋杀案的调查线索,在路易斯安那州,ALPR的检测帮助找回了一辆被盗的汽车。此外,在印第安纳州一起交通事故中,一辆汽车差点撞到警察局长,ALPR帮助确认了这名嫌疑人。此外,ALPR系统还可用于受限区域的安全控制、高速公路电子收费、红灯违章执法、停车管理系统等。
  交通分析多用于获取十字路口的交通流,十字路口是车辆与行人以各种行为相互作用的高比例事故现场之一。Ki和Lee设计了一个系统,可以了解参与者的行为,检测冲突和事故,并根据分析的交通参数来控制交通信号,从而提高ITS的流动性和交通安全性,减少交通拥堵。此外,异常行为也会影响公共安全,基于视频的技术使用CV方法分析和识别车辆的运动模式能够及时发现异常行为,如违规停车、违规转弯、违规变道、违规交通线路等。
  此外,驾驶员和乘客的行为是影响公共安全的最重要因素,如嗜睡和分心是导致交通事故发生的两个主要原因,这严重影响了公共安全。在这种情况下,监控系统可以用来识别这些危险的行为,例如,未系安全带和驾驶时使用手机的行为。随着Uber等拼车服务的发展,乘客和司机的安全仍然是一个很大的挑战。 Liu et al.设计了一个攻击检测应用程序来保证车内安全,可以识别车辆的语音并检测驾驶员的行为,即,异常轨迹,在危险时捕捉视频,并上传视频到云端进行进一步分析。

C.Firefighting Applications

  消防部门的视频分析工作主要集中在火灾监控方面,即、森林火灾监测和灭火现场。消防队员或移动设备携带的各种摄像机,如消防队员手持红外摄像机、消防机器人、无人机等,这些摄像机收集了大部分的视频数据。但是由于网络的限制,大部分的数据都是在设备上处理的,比如机器人,或者是网络的边缘,即,本地控制中心。
  由于森林基础设施的限制,很难通过传统的方法,依靠瞭望塔、人类观察员和卫星来监测整个地方。无人机有望改变这一困境。许多基于无人机的系统已经被提出,它们通常不仅装备红外摄像机,因为它们可以方便地根据温度捕获火灾,而且还装备了用于烟雾探测的视觉摄像机。例如,Yuan et al.提出了基于无人机摄像机捕获的视觉和热视频来探测森林中的火焰。另外,根据Ma et al的研究,烟雾检测通常用于预警。
  消防机器人通常配备多个摄像头,即以及用于传感环境的视觉摄像机和红外摄像机,以及用于灭火的喷嘴和用于远程监控的通信模块等部件的反馈控制。例如,商业消防机器人Thermite足够小,可以通过门,滑过走廊,甚至可以使用电梯,但足够强大,可以携带一个强大的双灭火系统和一个机械臂,用来救出受害者。Kim et al.提出了一种利用红外摄像机和雷达传感器对热视频数据中目标的距离进行定位和测量的消防机器人。为了减少室内烟雾环境中火源的搜索时间,Kim et al. 提出了基于贝叶斯估计的火源探测方法,根据热像中烟雾的方向来确定火源的位置。为了实现自动灭火,消防机器人通常会识别喷雾并反馈信息。

D.EMS Applications

  卫生保健包括响应式急救护理和常规护理。EMS系统提供运输和医疗服务,最大限度地提高患者的生存几率。在本文中,我们主要关注的是基于边缘视频的EMS,它是医疗保健中的一个重要的子类别,新兴的边缘计算技术需要大量的实时操作才能更好的保证。我们将这些服务分为prehospital急救服务和病人紧急监护服务。
  大多数情况下需要具有特定技能和知识的护理人员,这些技能和知识在医院很常见,但在prehospital急救服务中较少。于视频的远程医疗是提高prehospital护理质量的最有效途径之一。休斯顿消防部门启动了一个试点项目,ETHAN。它是一个基于实时视频聊天的筛选系统,允许医务人员参与医疗控制医师的实时视频会诊。Wu等人研究了可穿戴传感、智能移动设备和视频技术在EMS中的应用,提出了一种高效、智能的院前EMS实时应急系统,利用各种传感器和实时视频流提高了EMS的质量。此外,还开发了几个支持glass的EMS应用程序,这种佩戴眼镜的方式允许用户在执行远程视频时继续工作。例如,2014年启动了一个使用Google Glass辅助护理的项目,但Google Glass很快就显示出缺乏连接稳定性和非常短的电池寿命。
  此外,一些患者紧急情况监测应用程序使用基于视频的系统进行监测和识别人们的不同的活动。例如,跌倒检测。目前,跌倒是老年人受伤的主要原因之一。Rougier等设计了一种基于人体形态变形的八摄像头监控系统来检测跌倒。此外,有人研究了Kinect等深度摄像机,开发了一种高精度的监控系统。

4.EVAPS使用的算法

  视频分析算法通常是计算密集型的,将所有工作负载转移到边缘设备会带来巨大的负担。在本节中,为了了解哪些部分的工作负载可以被转移到边缘,我们简要介绍了视频分析在不同公共安全应用程序中的一般流程,然后介绍了几种常见的算法。然后,针对这四类公共安全应用,介绍了典型的算法,并进行了简要的讨论。

A.General Process of Video Analytics

  视频分析的过程通常可以分为几个阶段,如下图所示:

为了更好地理解视频分析对视频的影响,我们采用了一个典型的带人脸识别的视频分析过程作为例子。通常,随着边缘视频分析的进展,输出数据量会减少,需要的工作量也会增加。这些阶段的作用如下所述。具体介绍了这些常用算法,然后分别介绍了这四类公共安全应用中出现的特殊算法。
1) 视频解码(Video Decoding):目前,摄像机能够提供一个实时流协议(RTSP)或实时消息传递协议(RTMP)为基础的接口来提取视频数据。因此,第一步是将视频数据解码成一系列具有不同参数的帧,即,分辨率和帧/秒(FPS)。视频编码格式有很多,比如H.264,MPEG,h.265等等。
2) 预处理(Preprocessing):在本文中,我们将视频解码和图像分割之间的所有操作都视为预处理操作,包括图像增强、降噪、镜头校正等各种图像编辑操作。因此这是操作是为了提高图片的质量,纠正图像失真。例如,在黑暗中由倾斜的交通摄像头拍摄的图像,可以通过图像增强使其变得更亮,并将其扭曲成正常的图像进行剩余操作。
3) 图像分割(Image Segmentation):图像分割是将图像分割成多个部分的过程(例如,运动,前景和背景)。这种操作通常用于视频序列中可疑区域的分割。运动检测广泛应用于EVAPS中,EVAPS是对运动区域进行检测的过程。典型的运动检测算法可分为以下三类:
  1)背景差分法:是最常用的方法之一,它基于当前帧和背景图像之间的差异来检测运动区域。
  2)光流法:利用运动物体随时间变化的光流特性,实现对独立运动物体的检测。该方法的优点是即使在有摄像机运动的情况下也能检测出独立的运动目标,例如无人机中的摄像机。
  3)帧差法:受光照变化影响较小,在连续视频序列中采用基于像素的时间差和相邻两帧或三帧之间的阈值提取运动区域。
4) 目标检测:这个过程的目的通常是将感兴趣的区域(roi)划分为某个类(例如,人、建筑物或汽车)。公共安全中常见的对象包括人脸、行人、车辆、火焰、烟雾等,可以通过相应的检测算法进行检测。详细信息将在不同的应用场景中介绍。
5) 目标识别:目标识别技术的目标是将观测到的目标按语义意义分类。例如,基于卷积神经网络(CNN)的对象识别模型Inception v3可以识别图像中的1000种对象。
6) 目标跟踪:对象跟踪是在视频中定位一个移动对象(或多个对象)的过程。因此,它可以节省重复的识别操作导致总视频分析延迟的减少。在这四个场景中也使用了对象跟踪,典型的对象跟踪算法可以分为几个类别。例如,一种基于区域的跟踪方法通常是针对背景相减后的前景区域或斑点进行跟踪,而基于特征的跟踪是利用视频中的各种特征对目标进行跟踪。例如,方向梯度直方图(histogram of oriented gradient, HOG), Haar-like、color和edges。此外,基于深度CNN的模型主导了最近的视觉跟踪研究。此外,多目标跟踪算法是近年来的研究热点[78],与单目标跟踪算法相比,多目标跟踪算法在实际视频监控系统中难度更大,但更有用。
7) 数据融合:数据融合是通过整合来自不同视频源的多个视频分析结果来获得比单个视频源提供的更一致、更有用的信息。使用数据融合的典型应用是在多个城市摄像头中识别同一个人,也称为人的重新识别。
  此外,以下内容在视频分析中也很重要。
  1) 通常情况下,图像分割是提取图像中的区域,可能包括感兴趣的对象,例如,从1920×1080的图像中提取200×200的区域。然后,对象检测算法检测一个对象是否包含在一个固定大小的窗口中,如30×30,然后使用滑动窗口方法对该区域进行扫描
  2) 在上述七个阶段中,几个阶段可以整合成一个步骤进行深度学习(DL)为基础的算法(模型),通过将目标检测层插入具有选择性搜索的神经网络中,无需图像分割和目标检测操作,即可直接识别图像中的目标。然而,常规的CV算法在视频分析中也扮演着重要的角色,尤其是在预处理和目标跟踪领域。

B.Algorithms in Police

  在警察局中最常用和最基本的算法是人脸检测和人脸识别。此外,行为识别也很重要,因为一系列的出现的活动可能预示着恐怖袭击。此外,人员重新识别技术对于在多个摄像机中自动搜索人员的存在也很重要。

  1. Face Detection:人脸检测用于寻找图像中的人脸感兴趣区域,通常计算量较小,大大减少了数据传输的开销,因此适合于被剥离到边缘。人脸检测技术的发展可以分为三个阶段。首先,人脸检测算法使用模板匹配技术将人脸模板图像与图像中的每个ROI进行匹配,以确定是否存在人脸。机器学习技术也被用于检测人脸图像,包括神经网络和支持向量机(SVM)。其次,Viola和Jones设计了一种新的人脸检测算法,提出了基于AdaBoost框架的分类器(cascade classifier),该分类器利用haar类特征,通过多个简单的弱分类器构造出高精度的强分类器。这种级联分类器允许一个强大的子分类器在初始简单分类器中消除大量的非人脸图像。第三,提出了许多DL模型。级联CNN在级联分类器中使用了卷积层来代替分类器,多任务级联卷积网络(MTCNN)也采用了类似的方法,但是更加巧妙和合理。R-CNN是提出一种避免使用高性能滑动窗口的新模型的突破性工作,而fast R-CNN和faster R-CNN是对R-CNN的改进。基于R-CNN,提出了人脸R-CNN,针对人脸检测的特殊性进行了优化。
  2. Face Recognition:人脸检测的研究起步阶段,使用了多种算法来区分不同的人脸,如基于几何特征的算法、基于模板的匹配算法、子空间算法等。代表作品有EigenFace和FisherFace。第二阶段,结合人工特征和分类器对人脸图像进行识别。常用的分类器有神经网络、SVM、Bayesian等,在人脸识别问题中使用了许多特征,如HOG、scaleconstant feature transform (SIFT)、Gabor、local binary pattern等。目前,许多DL模型已经被提出并部署到实际系统中。DeepFace是Facebook在2014年提出的,它是deep CNN在人脸识别方面的基础工作,对野生(LFW)数据库中的标记人脸的识别准确率达到了97.35%。之后,谷歌在2015年提出了FaceNet[95],其对LFW数据库的准确率达到了99.63%。Sun等也提出了一套人脸识别模型,即、DeepID1、DeepID2和DeepID3。然而,训练后的模型太大,需要大量的计算和存储开销,无法卸载到资源受限的边缘设备中,因此人脸识别通常是在云环境中进行的。
  3. 其他:除了上述算法外,EVAPS中还广泛使用了许多其他算法。活动识别算法[99]的目的是通过对人的行为和环境条件的一系列观察,来识别一个或多个人的行为和目标,可以用来检测射击事件。人员重新识别算法用于在不同的非重叠摄像机视图上找到不同位置的个体[100],从而能够在全市范围内跟踪一个人。

C.Algorithms in Transportation

  在这一节中,我们主要介绍了在交通应用中广泛应用的ALPR算法、车辆检测和行为分析。

  1. ALPR Algorithm:LP(车牌)的识别通常分为LP检测、字符分割和字符识别三个阶段,后两个阶段利用扫描光学字符识别(OCR)引擎对LP编号进行识别。应用图像分割,如运动检测,生成运动区域。然后,利用边缘检测来选择少量可疑的LP区域。边缘检测中定义了许多算子,如Sobel、Laplacian-of-Gaussian (LoG)、Canny和Prewitt等。然后,提出了许多分类器,如SVM和模式识别。此外,还提出了许多DL模型。孟等提出了一种十层的CNN模型LocateNet,用于预测检测中的四个顶点坐标。Selmi等集成了以CNN模型为代表的DL架构,对LPs和非LPs进行过滤和区分,进行LP检测。与人脸检测相似,ALPR可以被剥离到边缘。但是需要注意的是,ALPR是一个耗时的任务,我们可以利用压电传感器在道路上减少它的耗时,避免了大量无效的ALPR任务。
  2. Vehicle Detection:车辆检测能够检测车辆,测量交通参数,并从图像或视频剪辑分析车辆。通常,首先提取目标样本中的特征,然后使用分类器对提取的特征进行车辆检测,如颜色特征上的贝叶斯分类器、类haar特征上的增强分类器、HOG特征上的AdaBoost分类器。此外,Wu和Juang提出了一种自适应车辆检测方法。它使用直方图均衡化来消除光线和天气的影响。然后,利用RGB图像中不同的通道图像对感兴趣区域进行检测,利用运动目标的合并和分割机制对感兴趣区域进行检测。此外,And - Or图模型通过车辆的窗口边缘、尾灯、LP颜色、轮廓和纹理特征来检测车辆。随着人工智能的发展,DL算法也被提出。一般情况下,车辆检测算法适合被卸到边缘。
  3. 其他:对车辆的行为分析,交通行为,甚至司机的行为对公共安全也很重要。传统的流程还包括几个步骤,即、特征提取和分类。例如,事件检测算法分为基于模式识别的算法、基于统计的算法、基于人工智能的算法等。检测安全带违章和驾驶时非法使用手机是行为分析的重点。

D.Algorithms in Firefighting

  在消防工作中,视频分析通常被用来增强对火场的理解和对森林火灾的监控;因此,我们将介绍这两种情况下的算法,即、火焰探测、烟雾探测和目标识别。请注意,这些场景中最大的不同是使用了IR相机,因此图像分割阶段使用的算法也不同于其他场景。根据我们的观察,由于网络连接的限制,火焰检测和烟雾检测,以及图像分割通常在边缘上执行。

  1. Image Segmentation:由于相机载体的移动性,运动检测的效果不佳,目前有几种运动检测算法。对于视频来说,火焰和烟雾的颜色是一个典型的有用的特征,可以分割和检测图像中的候选区域。对于热视频,红外摄像机捕获的温度强度是图像分割的有用特征。
  2. Flame Detection:对roi进行分割后,可以执行火焰检测算法,通过将特征值输入各个分类器,最终判断该区域是否是火焰图像。比如:SVM,贝叶斯分类器,马尔科夫模型,blob计数器方法。一般来说,有几个特征可以用于火焰识别,如纹理、闪烁和运动矢量。大多数火焰检测算法同时依赖于几个特性。例如Yuan综合考虑了颜色、形状波动、生长速度基数等因素。此外,已有几个基于cnn的火焰检测模型没有进行图像分割。
  3. Smoke Detection:基于颜色的算法更适合于摄像机的运动。然后,大多数方法使用颜色和运动特征来检测候选区域是否为烟雾。特别是由于烟的颜色是千变万化的,在工作中准备了一个预处理操作来非线性地增强烟的颜色,然后测量烟的显著性来估计候选烟区随运动能量。此外,还提出了少数基于DL的方法,如基于CNN,基于深度归一化和卷积神经网络。
  4. 其他:人识别算法也被用于搜索受害者。例如,Ulrich等提出利用微多普勒和红外摄像机识别人,可用于消防员和消防机器人在火灾和烟雾环境中寻找人。为了让消防员更容易理解火场,利用基于cnn的算法来识别红外摄像机中的目标。在消防机器人领域的某些情况下,需要进行数据融合。一个典型的例子是融合多个相机的分析结果,以确定喷雾和火焰的准确位置。例如,McNeil和Lattimer建议使用两个红外摄像机来识别和定位喷雾和火焰。机器人可以根据喷射物和火焰的位置调整喷嘴的角度,以达到最佳灭火效果。

E.Algorithms in Emergency Medical Service

  目前,在prehospital急救系统中,视频会议技术通常用于远程帮助,它使用视频编码/解码进行数据传输。除了视频会议技术,跌落检测还被应用于患者紧急监控服务中,它可以被卸载到边缘,如家庭、医院等的摄像头和本地服务器。

  1. Fall Detection:Lee和Mihailidis提出用五元素构成的形状特征向量来表示人的轮廓,即,重心,物体的周长,搜查直径,和检测跌倒的人的重心速度。Sehairi等也提出了一种基于形状特征和运动分析相结合的下落检测算法,由于基于跟踪滤波的方法通常耗费较多的资源和时间,因此无需跟踪滤波即可计算头部的垂直速度。同时,该方法避免了依赖皮肤或基于头发颜色的检测来估计头部坐标,这往往限制了这种算法的能力。然后使用分类器检测视频中的人是否跌倒,如SVM。还提出并部署了几种神经网络模型。例如,Alhimale等利用神经网络实现了一种智能的、基于视频的跌倒检测系统。

F.Discussion

  我们介绍了视频分析的一般过程和几种常用的公共安全视频分析算法。随着视频分析的处理,需要传输的数据量减少。比如,一个预处理的视频可能与原视频大小相同或略低于原视频。然而,对于人脸检测后的视频,只需要传输人脸图像即可识别。以全高清视频(1920×1080)为例。它的网络带宽成本和传输延迟分别约为6mb/s和120ms,而面部图像的大小可能只有50kb。此外,使用跟踪算法可以进一步减少数据传输,因为人脸图像只能在人出现或走出监控区域时传输。
  虽然edge视频分析可以带来很多好处,但是由于各种原因,将所有的工作负载都转移到edge是不可能的。一个典型的原因是许多视频分析算法消耗了许多计算资源,比如基于滑动窗口的对象检测,以及各种各样的DL模型。以Inception v3为例。在Intel i7-6700 CPU, NVIDIA Jetson TX2上运行,时间消耗分别是153毫秒和242.8毫秒,这两种CPU经常应用在边缘设备上。请注意,根据FPS的值,一个视频可能包含数十帧。因此,在平台的设计阶段,我们应该在网络、计算资源和延迟方面考虑这些权衡因素。在下一节中,我们将介绍几个最近提出的视频分析平台,特别是edge视频分析平台。

5.EVAPS平台

  在本节中,我们将介绍目前已经应用的EVAPS平台和视频分析的通用平台。如下图:

在这里,我们根据论文中的详细实现对这些平台进行了分类,哪些可能是最合适的领域。此外,它们中的一部分在经过修改之后,也可以部署到其他领域。动态意味着平台支持在边缘或边缘云之间卸载工作负载,而空中位置指示器(API)提供了开发接口,例如定制的卸载策略或定制的视频分析算法。

A.Police Department

1)云计算平台:随着云计算的快速发展,云服务提供商提出了大量基于云的视频分析服务。此外,由于公安机关公共空间视频的私密性和法律规定,他们大多使用私有云来处理视频分析和存储。因此,提出了许多基于商业私有云的视频分析平台。
a)商业视频分析平台(IBM S3):IBM提出了一个商业智能视频分析系统(S3)。如下如图所示:

它使用自动视频分析技术从监控数据中提取信息。例如,行为分析,人脸识别,LP识别。这里应该提到的是IBM S3是一个通用平台,我们在这里介绍它,因为警察使用的一些平台是基于IBM S3实现的,这也意味着IBM S3提供了用于开发的api。IBM S3的第一个版本主要包括两个组件:智能监视引擎(SSE)和用于大规模监视的中间件(MILS)。SSE提供前端视频分析功能。MILS提供数据管理和检索功能。如上图所示,SSEs处理来自摄像头的数据,产生预警和通用元数据。比如,面部检测,对象检测,和对象追踪。为了提高S3的性能,可以实现几种处理视频分析算法。比如,跟踪算法,减少重复计算对事件的识别。MILS提供数据管理服务,包括元数据摄取服务(MIS)、模式管理服务(SchemaMS)和系统管理服务(SystemMS)。MIS允许引擎将事件输入到MILS的数据库中进行索引和搜索。该模式允许开发人员管理自己的元数据模式进行视频分析。该系统提供管理监视系统的设施,包括摄像机管理(例如,添加/删除摄像机)、引擎管理(例如,添加/删除摄像机,启动/停止相机的分析引擎)、用户管理和查询响应(例如,在S3数据库中搜索一个事件)。   此外,S3为开发人员提供了接口,开发人员可以开发自己的基本视频分析算法,如具有较高的准确性的人脸检测算法,这是基于XML格式的,高级事件检测算法可以实现分析事件,例如,通过多个摄像头重新识别同一个人。另外,开发人员可以通过提供xml编写的配置文件,轻松实现由基本事件构建的复杂事件检测。例如,一个人群拥挤事件可以定义为数十个人脸检测事件。在这种情况下,Prati等人为了适应真实的用户需求,实现了基于S3的自己的视频分析系统,实现了与多个摄像头视频相结合的人员重新识别,这一点很重要,在警察局中得到了广泛的应用。   此外,许多公司,如IBM、Hikvision、Dahua等,也提出了具有内置视频分析算法的开箱即用的智能摄像头,如人脸检测、线交叉检测等。在过去基于云的解决方案中,这些内置算法通常是在服务器端实现的。目前,一些基于智能相机的平台正在被提出。例如,Shao等人提出了一个智能存储和快速检索的平台,该平台利用时空关联分析对不同监测中的异常事件进行分析。
b)云中的目标检测与分类平台:近年来,随着视频监控的规模越来越大,视频分析算法的复杂度也越来越高。例如,DL模型,云上的视频分析已经成为一个巨大的负担。为了解决这个问题,Anjum等提出了一种用于高性能视频分析的云对象检测与分类平台,它可以为视频分析提供一个可扩展的解决方案,具有最小的延迟和用户干预,而目标检测和分类是其基本任务和其他复杂应用的起点。在他们的论文中,作者使用人脸/车辆检测作为视频分析的对象,实验结果表明人脸检测具有更高的准确性,这也是我们将这个平台引入这一类别的原因。如下图所示,所提出的视频分析平台包括用于从摄像机捕获视频流的流捕获、用于视频流存储的存储服务器和用于视频分析的分析处理服务器(APS)。
APS服务器的主服务器处理视频分析任务并将其发送到一个Compute APS节点。虽然Compute APS节点接收任务,但它从存储服务器请求视频数据,并将其解码为多个视频帧,然后通过详细的算法进行多线程分析,即、特征提取算法和基于级联的分类算法。
  在实现中,此应用基于Hadoop MapReduce实现了多线程分析。一个视频被解码成若干帧作为MapReduce的输入。Map任务用于处理视频帧进行目标检测和分类,Reduce任务用于将结果保存到数据库中。
2)基于边缘的平台:为了验证基于边缘计算的解决方案以减轻云计算的负担,目前已经有人构建了大量的视频分析平台。在这里,我们将介绍两个基于边缘的平台。一个是混合的边缘云人脸识别平台。另一个是基于边缘的实时绑架者跟踪平台。
a)混合人脸识别平台:Hu et al.提出了一种基于边缘的人脸识别系统,如下图所示,在边缘处计算人脸标识符(图中雾),在云端进行匹配,避免了大量的视频传输。
该系统由5个组件组成,其中4个组件位于云端。这五个节点分别为:1)雾节点;2)管理服务器(MS);3)信息服务器(IS);4)解析服务器(RS);5)数据中心。在他们的系统中,视频分析的部分工作负载被卸载到雾节点,即、视频解码、预处理、人脸检测、人脸特征提取,使用人脸特征向量作为人脸标识符。MS连接边缘节点,管理云中的IS和RS的资源调度和计算任务分配。RS执行详细的人脸标识符匹配,并返回个人身份信息所在的地址,而is负责管理个人身份信息。RS和IS作为数据库共享同一个数据中心,具有强大的数据存储能力。实验结果表明,基于边缘的系统具有较好的网络传输性能和响应时间。
b)基于边缘的实时绑架者跟踪平台:Zhang et al.提出了一个分布式框架(如下图所示)。
它是通过跟踪绑匪的车辆来实现绑匪跟踪应用程序AMBER Alert Assistant (A3),可以让周边设备进行实时视频分析。上图说明了该框架的架构,包括三层。executor Management作为一个适配器,为视频分析作业分配计算资源。比如,运动检测和车牌识别。task Management包括三个主要的组成部分,用来管理任务,并将其任务分配给自己的执行者管理层或协作边缘节点(当它的计算资源无法满足更多的任务执行),从而提供了动态特性。以A3为例,它的任务是利用相机跟踪绑匪车辆,它的工作是视频处理,包括视频解码、运动检测、运动和车牌识别(LPR),同时运动检测是用来减少不同边缘节点之间的数据传输和由LP识别引起的计算延迟。对于一个摄像头,它利用作业调度模块将视频处理作业发送到协作边缘节点进行实时视频分析,并在阈值时间后,在其视频中找不到车辆时,利用任务调度模块,将跟踪任务分散到周围的摄像头。它还利用了多线程机制来最大限度地利用硬件性能,其中所有executors都与消息队列通信。上层service management用于发现周围的协作边缘节点,并为运行的任务(配置如何连接摄像头与任务参数)提供简单的配置(参考API),以及整个平台的安全机制。
  基于该平台,边缘节点可以实时协同跟踪绑匪车辆。结果还表明,LPR算法是边缘节点的计算密集型任务。因此,在基于边缘的视频分析平台中,我们应该考虑几种技术来减少计算负担,例如,使用对象追踪算法来避免重复的LPR操作。

B.Transportation Department

  交通部门使用的基于云的视频分析平台与警察的类似。例如,通过在IBM S3中实现车辆跟踪算法,可以使IBM S3成为一个运输平台。因此,在本节中,我们主要介绍了几个基于edge的平台,重点介绍了一个已经应用的平台,以及一个通过分析车载视频为新兴的拼车服务提升公共安全的平台。
c) Real-world运输平台:Ananthanarayanan et a.提出了一个分层的地理分布式基础设施,以支持交通场景中的广泛的视频分析,包括摄像头、edge和私有集群、公共云以及一个名为Rocket的视频分析堆栈(如下图所示)。

视频管道优化器(VPO)将视频查询转换为包含许多视觉模块的视频分析管道。例如,视频解码器,接着是一个对象检测器和一个对象跟踪器。VPO还可以通过计算从众包的标记数据,计算每个模块的每个knobs和实现的总资源成本和准确性,从而估计查询的资源准确性,进而去计算精度。集中式全局资源管理器(RM)根据VPO计算的配置文件,对所有执行的查询管道及其对资源的访问(如CPU和GPU计算、网络甚至摄像头参数)进行响应。RM还定期确定每个查询的最佳配置,并跨可用计算节点(例如,edge和私有集群以及公共云)放置组件。详细的资源管理由标准的操作系统机制、摄像头管理器和GPU管理器实现。特别是,深度神经网络(DNN)执行服务(在视觉模块和DNNs中)在每台机器上运行,以有效地处理GPU上的所有DNN请求。
  基于所提出的软件栈Rocket,一个实现的系统可以动态地决定vision modules在管道中的位置。即,摄像头、边缘和私有集群,或云,涉及考虑多种资源的能力,如计算能力和网络能力。最后,自2016年以来,基于rocket的traffic分析解决方案得到了积极部署。例如,在华盛顿的贝尔维尤,一个多模型对象计数器已经全天候运行,以帮助城市了解和跟踪汽车、行人和自行车,并对异常的交通模式发出警报。
d)SafeShareRide platform:Liu et al. 建立了ShareRide,一个保护乘客和司机安全的共享服务平台(如下图所示)。
它由两个组件组成:edge或移动设备和云。edge组件有一个三级检测模型,用于检测车辆上发生的攻击:
1)速度识别模型识别实时音频中的关键词,即,help;
2)驾驶安全检测模型利用车载诊断数据和其他传感器,判断驾驶行为是否正常,如之字形路线;
3)边缘视频压缩,节省上传带宽,云端视频分析,资源强大。在这两个检测阶段,任何异常事件都会触发第三阶段的检测。
  在SafeShareRide平台中,视频捕获和分析采用边缘云协作模型。相关的视频剪辑被压缩并发送到云端。在云计算中,视频分析使用了两种检测方法,即动作检测和目标识别。动作检测用于检测驾驶员和乘客的过度动作,物体识别利用基于cnn的模型识别视频中的物体,如枪和刀。最后是提醒视频,即,如有不正常的移动或危险物件,则会透过保安网络与执法人员联系。

C.Fire Department

  与我们介绍的消防应用类似,我们还介绍了几个与火场和森林火灾监测相关的平台,这些平台提高了公共安全。由于网络的限制,大多数平台都是基于边缘的,并且比基于云的平台有更好的性能。
1)Fireground平台:为了介绍这个平台,我们首先介绍一种支持边缘的智能火警平台,FAST。它利用基于边缘的智能设备来保护消防员的安全。然后介绍了几种可用于火场的消防机器人平台。
a)FAST: Edge-enabled smart firefighting platform:为了使消防智能化,Wu等利用边缘计算对智能消防领域进行了探索,讨论了系统架构,构建了基于边缘的智能消防。下图说明了设想的边缘计算支持智能消防的架构。

在fireground平台中,在消防车上,有一个本地集中的数据中心,也称为基站,通常部署在笔记本电脑上,为消防员的安全提供监控和跟踪的用户界面,以及用于各种传感器的高级通信系统,即4G、WiFi和一个特别的无线网络。在这种情况下,本地集中的数据中心可以作为一个边缘节点,处理来自传感器的主要任务,例如视频分析,特别是对于大多数摄像机,包括现有的监视摄像机、手持红外热成像摄像机以及无人机和消防机器人携带的摄像机。此外,边缘节点可以将结果上传到云上,或者将次要任务上传到云上,例如,建筑物的三维映射。
  为了模拟基于边缘的火场视频分析,作者评估了不同解决方案下火焰检测的性能,包括基于云的和基于边缘的。这里的数据源可以是手持摄像机、消防机器人或无人机,它们可以通过各种无线技术与边缘节点通信。由于数据传输的延迟是相同的,所以作者没有考虑这个延迟,初步的结果表明,启用边缘的智能消防将显著提高系统的响应速度,平均减少50%的系统延迟。
b)消防机器人平台:消防机器人被广泛应用于火场,因为它可以与被困在火灾现场的受伤者进行通信,并向控制单元发送描述建筑内火灾环境的视频和音频。许多自主灭火灭火机器人已经被提出。例如,由McNeil and Lattimer设计的机器人,它由一系列基于视频分析的组件组成:火灾定位、水分类、轨迹建模、喷雾定位、俯仰和偏航角估计、PI控制、视觉伺服控制。因此,前四部分的结果反馈到俯仰和偏航角的估计中,得到控制指令,通过调节PI和伺服,实现对喷管的自动熄火控制。此外,为了获得准确的火情和喷雾定位,该机器人配备了多个摄像头,包括两个红外热像仪和一个视觉摄像头,从而获取多视角视频数据。一般来说,多个消防机器人可以在远程控制单元的帮助下一起工作。
c)森林火灾监测平台:因为无人机可以很容易地监视空中的森林火灾,所以很多 提出了基于无人机的森林火灾监测平台。由于网络的限制,大多数无人机处理的是视频分析的全部或部分工作负载,这些工作负载可以分为基于边缘的平台。Kalatzis等提出了一种基于边缘的无人机森林火灾探测平台,如下图所示,
该平台由具有强大的云资源、具有丰富资源的边缘服务器和具有传感能力的无人机组成。火灾监视的主要组件包括使用DNN模型进行火灾/烟雾探测的图像分类服务、用于服务管理(即、创建、运行、扩展和停止应用程序特定的虚拟服务)和用于检测紧急级别情况的决策服务。此外,还提出了几个维护系统的正常运行的组成部分,例如,用于监视所有参数的日志服务(CPU、存储),NSGI客户端用于不同层之间的数据传输,Orion Context Broker用于安全地维护接收到NSGI客户机数据。作者对该平台的性能进行了评估,结果表明,虽然图像分类在边缘上运行,但与云具有类似的延迟,但数据传输量更小。请注意,与无人机上的NVIDIA Jetson TX2相比,树莓派3模型B作为车载计算单元具有较低的计算能力。
  类似地,Luo等人提出了一个灾难感知应用平台,包括火灾。UAV捕获视频数据并将预处理的视频数据提供给上下文感知的视频调度器,该调度器决定是否将视频发送到云上进行更严格的分析,例如,对象检测。然而,由于无线通信的限制,如通信半径,通信质量随着距离的增加而降低。为了提高服务质量基于无人机的系统,Wang等提出了一种采用multipl无人机视频传输平台,它使用多个无人机作为由边缘服务器协调的中继。
  此外,在直升机-无人机系统中,直升机不仅具有重载能力,而且具有高性能计算能力,可以执行机上所有计算密集型任务。因此,基站只能起到数据融合的作用,接收来自无人机的森林火灾报警,包括图片和视频。例如,Merino等人提出了一个由多个无人机和一个中心站组成的体系结构,所有的结构都有两个主要部分:决策系统和感知系统。感知系统使无人机能够携带各种设备,如视觉摄像机、红外摄像机和计算单元。决策系统的目标是在路径点之间自主导航,从而执行特定的任务,由四种不同的机制实现:任务分配、任务规划、协调和监督。虽然无人机执行火灾监测任务,但它通过机载红外和视觉摄像头提取火灾轮廓,然后将这些信息发送到中心站,并从各种无人机传感器感知数据。通过多架无人机的协作,可以覆盖中央车站视野范围内更大的区域或火灾的互补视图。此外,Pastor等人也提出了类似的架构,即使用强大的计算单元(如基于fpga的单元)处理板上的视频数据。

D.Emergency Medical Services

  EMS是一种公共服务,为受伤的病人提供快速反应、运输和紧急医疗护理。基于边缘视频的EMS在很大程度上是依赖在一个实时高效的平台上。本文介绍了两种基于边缘视频的院前EMS平台,常用的视频相关算法主要包括视频编码/解码。
1)Teleconsultant Platform: Elgamal等提出了一种远程医疗系统Teleconsultant,它提供了医护人员和医生之间近乎实时的通信和治疗信息。如下图所示,

Teleconsultant部署在事故地区,地区包括救护车和医院。假设医护人员可以同救护车通过特设的笔记本电脑交流(无线P2P网络),电脑作为视频服务器并同时通过Nginx web服务器(两个模块:RTMP和HTTP直播)把视频发送到医院客户端。救护车安装了一个无线基站,使笔记本电脑可以无线连接互联网。
  在医院里,医生可以从装有流媒体客户端查看事故现场的视频。流客户端与流服务器通信,根据客户端带宽获取最合适的比特率视频流。流内处理器用于解码视频,并在解码帧上执行任意图像处理功能,如口下垂检测。类似地,Rogar等人也提出了一种医疗平台,利用智能眼镜作为可穿戴相机用于紧急医疗情况。借助该平台,医护人员可以通过基于智能眼镜的视频会议获取医疗知识,并从事故现场的医院专家那里获得帮助。
2)Strems Platform: Wu等人提出了一种高效、智能的院前EMS系统,探索利用可穿戴传感、智能移动设备和视频技术来提高EMS的QoS。它由EMS、云中心、医院组成,EMS和医院扮演着边缘的角色。EMS元素实际上包含可穿戴传感装置和一个在救护车上的移动应用程序,它收集数据,例如,心电图,生命体征,和实际位置的全球定位系统,以及捕捉影像或短视频剪辑的病人,并把这些数据传送给云计算中心。医院可以从云中获取prehospita的可视化数据和进行EMS远程医疗实时视频会议。医院可以查看所有的急诊数据,缩短了即将到来的病人的交接时间。此外,急救护理人员可以使用实时视频通信进行额外的医疗检查、三胞胎或其他早期医疗干预。云中心由三部分组成,即实时视频服务器、数据库系统和用户身份验证。建立了一个特殊的实时视频服务器来管理点对点视频通信。数据库系统存储所有报告的救护车紧急数据。用户身份验证用于对用户进行身份验证。实时数据库系统,即firebase,是用来同步EMS和医院之间的数据,包括GPS、心电图等。
  作为一项初步研究,作者评估了在救护车以不同速度运行时,EMS与医院之间的实时视频通信性能。结果表明,基于用户数据报协议(UDP)的实时协议(作为RTSP的一部分)实现的全高清视频的高速时延接近1秒,帧丢失率超过40%,低于低速时延。
3)小结:通过对EMS中多个平台的考察,我们发现视频质量对于医院医生获取准确的现场信息是非常重要的。一般情况下,大多数EMS平台都没有在edge上进行视频分析,主要集中在提高视频质量上。因此,视频编码/解码技术应该得到更多的关注。此外,我们相信增强现实技术有望通过更清晰的视觉提醒来提高视频质量。

E.General-Purpose Platforms

  除了这些领域专用平台之外,还有一些高级数据分析平台,他们之中的绝大多数都可以别运用到公共安全场景中,只需要将数据分析算法置换为公共安全视频算法即可。
1)VideoStorm Platform and Its Improvements:视频分析对于实时分析视频有很高的资源需求。微软集为了提高视频数据查询的准确性和云计算的使用做了一系列的工作。
a)VideoStorm: Zhang et al. 提出VideoStorm,它是一个视频分析平台,用来在云中处理成千上万的视频直播,它的资源管理对于改善视频分析的成本来说是至关重要的,其中两个关键特征为:
1)多维配置中资源质量的权衡
2)处理目标和质量的多样性。下图展示了VideoStorm的高级架构和视频查询规范(即,两个示例查询)。

  每个查询被定义为转换的有向无环图(DAG)。每个转换处理一个时间顺序的消息流(比如视频帧),它的输出被传递到下一个处理单元。通过实现详细的视频分析算法,该平台可以是一个特定于领域的平台,所有视频数据都会上传到云上。VideoStorm由一个集中的manager和几个 worker machines组成。每个worker machines都有一个machine管理器来管理工作进程。machine manager向集中的manager报告每个转换的资源使用情况和状态。利用报告的信息,集中的manager上的调度器可以为查询分配资源。
  VideoStorm允许任意的DAG,包括转换的多个输入和输出,因此,调度器可以通过动态调整离线分析和在线阶段来权衡查询配置和高质量结果。脱机分析器生成查询资源质量概要文件,这些文件会被在线调度器使用,用来向每一次查询分配资源,力求最大化质量和延迟的表现。在在线阶段,调度器定期调整资源分配、机器放置和配置、需求变化和/或基于正向概要文件的所有运行查询的容量。
b)Chameleon:此外,Jiang等设计了一种控制器Chameleon,它可以动态地设置基于深度卷积神经网络的视频分析管道的最佳配置。视频处理管道经过一段时间的调整以避免低精度。一个简单的重新分析是非常昂贵的。然而,Chameleon有望使用几种技术来显著降低分析成本和提高准确性。
c)VideoEdge:VideoStorm的一个关键假设是,有足够的带宽来确保视频数据从摄像头传输到云上。然而,在私有集群(作为边缘)和公共云之间是不可能的。因此,Hung等人提出了VideoEdge来识别多资源和准确性之间的最佳权衡,同时他们发现视频分析查询有许多实现选项,影响其资源需求和输出的准确性。 d)总结: Hung et al.的工作揭示了VideoStorm只在单一集群中使用了CPU资源来最大化查询和资源分配,VideoStorm不能简单地适用于问题设置(比如分层云资源)。Chameleon可以根据视频帧之间的时空相关性,不断调整DNN配置以优化精度或降低资源成本。然而,Chameleon并没有解决查询合并的机会,这有助于显著提高准确性,而这正是VideoEdge的目标。
2)LAVEA Platform:Yi等人提出了一种对延迟敏感的基于边缘计算的视频分析平台,称为LAVEA,用于探索对延迟敏感的应用程序的视频分析任务,并在边缘和云上执行协作视频分析。这使得实现公共安全应用程序很容易,比如,使用ALPR算法创建一个docker image,然后制作一个基于ALPR的车辆跟踪应用程序。LAVEA(如下图所示)主要由边缘计算节点(ECN)和边缘客户端(EC)组成。
ECN比EC有更多的资源,但与云相比有限。当EC执行任务时,附近有ECN可用,可以在本地或远程执行任务,即,在ECN或云上运行。
  ECNs:在LAVEA中,ECNs向附近的移动设备提供边缘计算服务,而与EC连接到相同接入点或基站的ECN称为边缘前端。边缘前端始终扮演主节点和与其他边缘和云节点协调的角色。此外,多个ECN可以协作。为了在ECN上隔离不同客户机的任务和资源,这里使用了虚拟化技术,即,使用docker技术,以及容器管理器的管理。基于多个内部微服务,如队列服务和调度服务,实现了识别工作负载、管理队列优先级和调度任务的功能。因此,客户端可以通过客户端API向LAVEA提交任务,而LAVEA可以通过协作计划、执行和管理这些任务。
  EC:它的资源有限,但可以处理大量客户的请求。因此,繁重的计算任务可以转移到附近的ECN,只有轻量级任务在本地运行。分析器和卸载控制器作为分析器和卸载服务的参与者,使得EC可以向边缘前端节点提供卸载信息,完成卸载决策。
  为了在LAVEA中实现这样的节点,需要实现三个主要的服务,包括分析器服务、监视服务和卸载服务。分析器服务收集任务的性能指标在不同的设备上,例如,任务队列的长度。监控服务是用来收集运行时信息,例如,不同的设备之间的网络带宽和延迟。所以卸载服务由另外两个服务根据收集到的信息可以决定卸载的位置。此外,作者将卸载问题转化为一个优化问题,并实施了卸载策略以最小化视频分析的响应时间。
3)UAV-Based Platforms: 现在的警察已经开始利用无人机作为移动和飞行的摄像头来扩大视野。目前已经提出了一些基于无人机的平台,它们具有类似的架构,如下图所示。Qazi等人初步研究了基于无人机的实时视频监控系统在4G局部热平衡(LTE)下的技术性能,使用了吞吐量、损失率和延迟等指标,这些指标与无线传播的物理方面有关:多路径传播损耗、阴影和衰落模型。 此外,Motlagh et al.提出了一种基于无人机的人群监视平台,其中无人机(称为hexacopter)装备一个树莓Pi作为机载计算单元,一台笔记本电脑作为边缘节点。作者建立了一个LTE服务器,无人机和笔记本电脑都配备了LTE收发器。因此,无人机可以将原始的视频数据传输到笔记本电脑,或者在本地分析视频数据,只将识别结果传输到笔记本电脑,这可以是两种不同的基于边缘的解决方案。由于无人机的计算资源有限,因此后者具有更高的性能。在上述基于无人机的平台中,我们需要实现特定领域的视频分析算法来构建我们自己的EVAPS应用程序。
  Wang等人提出了一种基于无人机的视频分析平台,无人机可以通过无线网络将捕获的全部或部分视频传输到地面的cloudlet。为了减少从无人机到cloudlet的视频传输的带宽需求,作者提出了四种策略: EarlyDiscard (ED), just-in-timelearning (JITL), ReachBack (RB), and ContextAware (CA)。在ED中,采用改进的MobileNet DNN模型对无人机摄像机中的视频帧进行滤波,将有用的帧流到远程云计算中。一个典型的应用场景是无人机检测一个面部帧,将其发送到cloudlet进行识别或更准确地检测。JITL策略是基于ED strategy,使用级联滤波器来区分ED DNN的真阳性和假阳性,这可以提高精度。尽管无人机是执行任务的,处理能力更强的cloudlet能够运行更精确的DNNs模型来识别真阳性和假阳性。。然后,利用这些信息,一个小型的JITL过滤器被训练并推送到无人机上,而不是训练和推送具有高延迟的原始DNN模型。同时,以前一种情况为例,利用JITL策略,无人机能够以更高的精度检测人脸帧。RB策略被设计用于允许cloudlet请求无人机上的一些前几帧,这些前几帧已被检测为坏帧,但对于事件识别至关重要。这种机制在活动检测上下文中特别有用。CA策略的目标是动态地选择任务的最优滤波器。例如,当无人机在海难后在海洋中搜索幸存者时,云图中的视频分析结果表明,颜色特征更适合于人员检测。因此,cloudlet可以调整无人机上的模型或过滤器以适应场景。基于这四种策略的实验结果表明,在不影响结果准确性和结果延迟的情况下,将基于无人机的处理和基于边缘的处理明智地结合起来可以节省大量的无线带宽,从而提高可伸缩性。因此,基于这个平台,我们可以通过提供训练过的模型,例如消防部门应用程序的火焰检测模型文件,轻松实现特定领域的应用程序。
4)Wireless Video Surveillance Platform:此外,也由于无线连接网络带宽的限制,提出了许多基于边缘的带有视频分析的无线监控系统,将视频分析处理推到边缘可以显著降低带宽需求。例如,Zhang等人提出并评估了一种新颖的面向无线视频监控的架构,其中每个ECN连接到一个摄像头,执行简单的视频分析功能,只将视频的相关部分上传到云端的控制器。提出的体系结构为开发自己的应用程序frameUtility提供了一个回调接口,它返回一个整数值来评估视频帧对该应用程序的重要性。以人员计数应用程序为例,一个实现的框架利用人脸检测算法返回框架中的人员数量,参考框架的值。尽管所有的ECN都接收查询来计数拥有frameUtility函数定义的人员,但是每个ECN都在每一帧上调用这个函数并将返回的值发送给控制器。此外,多个监控区域的ecn组成一个集群。该平台有效地将来自ECNs的观测结果融合在一个集群中,并通过互相通信来进一步减少带宽。同样,以前面的应用程序为例,集群中两个摄像机上的frameUtility函数返回相同的值。因此,只选择其中一个视频数据上传到控制器。本文提出了两种主要的数据融合策略:基本帧选择算法和复杂的帧选择算法。基本的帧选择算法依赖于选择ECN的最大值来将其图像上传到具有动态调整的集群中。复杂的帧选择算法的目标是集群中的一个相机看到其他相机看不到的对象,从而选择一个以上的ECN来上传图像。这里使用的主要思想是对象再识别技术。此外,作者还提出了一种簇间流量整形方案,以避免网络拥塞,从而最大限度地提高每秒向控制器发送的有用对象的数量。

6.未解决问题与未来展望

  在前面的章节中,我们已经描述了一些公共安全应用程序、基本的视频分析技术以及一些潜在的平台。在本节中,我们将进一步总结这些问题,并提出一些值得进一步研究的潜在解决方案和机会。

A.Edge-Enabled Applications

  随着专用硬件的开发和定制的芯片的发展,如人工智能芯片,它使需要大量算力的AI算法可以运行在边缘设备,例如,静态摄像头,以及各种新颖应用的实现,特别是在移动环境中,例如,穿在身上相机和智能眼镜的警察。然而,新的场景和应用程序给体系结构带来了一些新的挑战。例如,执法人员配备了随身携带的摄像头,当他们执勤时,执法车辆就在附近。因此,如何设计一个平台,使车辆作为边缘服务器有一个更强大的计算单元,去执行实时视频分析的随身相机仍然是一个开放的问题。

B.Algorithm Optimizing

  一方面,部分视频分析算法在准确率上有很好的表现,甚至超过了人类的准确率,例如人脸识别。然而,现有算法的准确性有待提高,如人员重新识别,并应开发一些特定领域的算法,如在火场中的人员检测和犯罪活动识别。此外,结合多种特性和模式可能是潜在的解决方案。例如,采用多模态数据融合来结合来自edge视频和其他方面的信息,这种方式与基于视频的方法相比,为决策提供更全面、更准确的理解。

  另一方面,虽然基于cnn的算法提供了良好的准确性,但它也需要大量的计算开销,导致在资源有限的设备(如相机)上的高延迟。这意味着大多数算法必须运行在云上或功能强大的设备上,并具有及时响应。因此,如何降低基于cnn的算法的计算开销,实现边缘视频分析,减轻云的负担,是一个很大的挑战。幸运的是,有几种方法有望解决这个问题,包括结构优化和模型压缩。

C.Functional Partitioning

  在edge视频分析中,一个关键的问题是如何通过划分整个进程在不同的设备上执行来获得优化的性能。摄像头、边缘服务器和云。在目前的工作中,他们中的大多数是在视频分析的层次上按经验划分的。例如,Zhang等人通过交换人脸图像而不是视频数据的方法,他们将人脸识别分为边缘人脸检测和云端人脸识别两个子过程。这值得关注。Kang等评估了在边缘和云上运行的几种CNN算法的不同层的性能,证明将一部分CNN工作负载转移到边缘并保留在云上比在云上的所有工作负载有更好的性能。因此,如何从平台和编程的角度支持这种类型的工作负载卸载是一个挑战,特别是对于异构的移动设备,例如公共安全应用中的智能眼镜和随身相机。

D.Dynamic Strategy

  许多外部因素,如照明,相机内部配置,如白平衡和感光测量,经常影响相机的成像,以及视频分析算法的准确性,如人脸检测,人脸识别等。因此,使用预处理操作来协调不同视频数据与训练数据之间的差异。然而,在一个城市范围内的视频监控系统中,不同的摄像头通常会有不同的成像,例如,亮度不同,对于一个摄像头来说,成像也会随着时间变化。因此,需要根据外部环境的变化,对不同相机进行动态配置,以防止此类问题的发生。此外,随着执法任务的进展,环境和任务目标也在变化,这可能需要不同的视频分析算法以及DL模型来获得更高的准确率。因此,设计一个灵活的体系结构来支持大规模的动态配置视频监控系统,特别是对于这些系统,包括移动设备(如随身相机),仍然是一个挑战。

E.System Operation and Maintenance

  根据希捷科技有限公司的一项研究,在2016年在世界范围内新安装的视频监控系统每天产生的数据大小是566PB,这个值在2023年有望达到3500PB,这将导致系统操作和维护一些挑战,例如,发现摄像机故障或缩短视频数据存储。例如,在视频分析技术检测故障之前(如内容分析、移动目标检测、动作分析技术等),故障摄像头不间断地上传无用的视频数据,加重了网络的过载,浪费了云中的存储空间。
  因此,在大型视频监控系统中,基于边缘的运维系统是解决此类问题的理想选择。关键技术是双重的。首先,一个边缘启用的故障检测系统旨在发现视频监控系统中的故障,以减少不需要的视频数据的传输和存储。其次,基于边缘的视频语义分析系统可以减少无价值视频数据的传输和存储。例如,在监控区域没有变化的情况下,视频会降低视频的质量。

F.Security & Privacy

  安全对于任何系统都是重要的,特别是对于视频监控系统。例如,一旦摄像头被破坏,攻击者可以利用它作为跳板来攻击其他设备、数据中心,甚至警察局的其他系统。这意味着边缘器件是整个系统的薄弱环节。2016年的Dyn网络攻击利用大量的IP摄像头,针对域名系统提供商Dyn发起了一系列分布式拒绝服务(DDoS)攻击,导致欧洲和北美的用户无法使用主要的互联网平台和服务。与数据中心相比,各种地理分布和资源有限的边缘设备和服务器缺乏严格的安全措施.
  隐私是另一个问题。视频监控系统,尤其是随身携带的摄像头,会影响警察和急救人员以及他们的工作方式。因此,了解他们的隐私问题,甚至刑事权利的保护,是一个重要的挑战。此外,视频监控系统通常部署在城市范围内的公共空间,这经常引发公民的隐私问题。2011年8月骚乱后的调查,视频监控提供了许多图像和视频片段,这表明EVAPS在解决和预防犯罪和恐怖主义行为方面的潜在力量。视频分析提供了许多有价值和有用的信息,是公共安全的迫切需要,但也可能泄露隐私。因此,当我们构建EVAPS应用程序时,我们也应该考虑公众的隐私,特别是伦理问题和政府法规。总之,我们需要更好地理解如何平衡隐私和监视需求。在这种情况下,edge计算支持的隐私感知视频管理系统是未来有用和有价值的工作,即在上传之前模糊视频中的面部区域。

7.总结

  边缘视频分析是由边缘计算的日益普及所推动的,它可以广泛应用于各种视频监控中,无论是静态的还是移动的,以提高我们日常生活中的公共安全。在这篇论文中,我们回顾了最近公共安全的成功或潜在的应用。我们的调查表明,不同方面的发展不平衡,边缘视频分析有望改善公共安全。然后,我们介绍了一般的视频分析流程,并回顾了用于公共安全的典型视频分析算法,然后进行了简短的讨论,以帮助理解edge视频分析的好处,以及哪些部分可以卸载到edge。要启用EVAPS应用程序,需要为其公共安全应用程序提供合适的体系结构,特别是在支持最优和动态的工作负载卸载方面。因此,我们回顾了几个视频分析平台,包括特定领域的平台和通用平台,以展示它们在架构设计方面的经验。由于边缘是对现有云计算模式的补充,我们还对几个基于云的平台进行了比较。最后,提出了值得我们努力的挑战和机遇。我们希望这篇论文能够引起社会的关注,并激发更多这方面的研究。


综述:边缘视频分析在安全领域的应用
http://example.com/2020/01/03/综述:边缘视频在公共安全领域的应用/
发布于
2020年1月3日
许可协议