才智城市开展众所周知,作为一个生态体系,感知是重要一部,经过以视频监控等为根底建立的感知物联网是数据搜集的重要环节,而对数据进行存储、剖析则成为种种之中。那么在万物联网的国际,视频监控编码剖析、存储有何应战?又怎样处理?
视频编码与剖析的技能应战
在编码功率方面,咱们或许知道,到现在为止,一切视频体系里边用的都是十分惯例的,通用的视频编码的算法和芯片。这个用法对不对呢?实践上这是不对的,可是现在现已构成这种习惯了,都是这么用的,你不这么用,人家反倒会质疑你。当然从市场化、从减小本钱这个视点来说它是对的。可是从视频监控的意图来看,实践上是不对的。由于那个通用的编码技能,它是为电视服务的,自身它这个起点便是错的。
现在视频的主动剖析做得欠好。由于它在体系规划的时分,不是为了视频主动剖析这个意图,而是为了视频存储和以人为中心的视频盯梢,便是必定要有一个人坐在那里看那个大的显示屏。靠这样的一套指导思想来规划现有的才智城市里边的视频体系,用这样的一个架构去做主动剖析,是底子无法完结的。
跟着时刻的推移,监控视频的数据占整个大数据的比重基本上都在一半或许一半以上这样一个数量级。所以数据的存储和处理做好了,大数据的问题就处理了大部分。现在这些大数据之所以没有有用的运用起来,里边许多常识还没有概括总结出来,也是和现有的数据堆集进程,以及这个体系规划的起点是有相关的。
针对这些问题,咱们要找到一个技能上的切入点来处理。这个切入点,要更多的看现在才智城市里急需的究竟是什么。实践上便是急需作业的追寻。例如说,有一个人报案,说某家银行被抢了,劫匪坐了一辆白色的车跑掉了,你有没有办法在比较短的时刻内查到这辆车的方位。
才智城市中视频技能面临的应战,便是咱们现在面临的三大问题,一个是监控视频的数据存不下,一个是查禁绝,一个是挡不住。假如咱们把这三个问题整理一下,从技能上来说便是,一个是编码的问题,一个是视频剖析与盯梢的问题,交融起来还有跟GPS、音视频结合起来运用的问题。
假如咱们把它概括为技能应战,那便是两个应战,一个是高效视频编码的应战,当然是面向监控视频的。第二个便是怎样对剖析和检索进行支撑。假如咱们对视频编码和视频剖析略微了解一点的话,你会发现一个很独特的现象,便是做视频编码的人对视频剖析不感兴趣,或许说不太做。反过来,做视频剖析的人对编码怎样编,基本上做的也不多。为什么会呈现这样的状况?做编码的人处理的方针是像素和块,而做剖析的人面临的是特征。这两个一个是踩在地上上,一个是在山头上,所以这两伙人很难交汇。咱们现在是期望处理这个问题,由于有必要把这两个事一起来做,你才或许做成一个面向才智城市的技能。
高效视频编码规范
从规范的历史上来看,实践上前30年中,基本上一切的奉献、一切的技能都是围绕着通讯范畴的视频编码和播送里边的视频编码做的,前期主要是面向播送的视频编码。当然也有面向通讯的视频编码,后来也呈现了统筹通讯和播送的视频编码,可是一切这些编码都不是面向监控的。你或许会说,视频通讯不便是监控的一种吗?有的专家就说,假如你要看现在的视频监控,实践上它是开展了三代,第一代是模仿,第二代是数字,第三代是IP监控。这个IP监控是在网络上,可是不是和编码有针对性的,所以面向监控的编码,现在国际上没有人做这样的规范,只要我国人在做。
现在的编码结构一个是改换编码,一个是猜测编码,还有一个是商务编码,把这三块组合起来,称为混合编码结构结构。这种编码技能现已运用了30多年。我国从2002年开端,也组织了一个自己的规范,2006年第一版出来之后被ITUT承受为IPTV的一个格局。再后来被广电和工信部联合承受为咱们国家地上数字电视机顶盒和地上数字电视一体机的规范,上一年AVS的增强档成了咱们国家广电的行业规范。上一年咱们为了把这个规范国际化,也专门在IEEE的规范化协会下面成立了一个AVS的作业组,现在这个作业组现已把第一版编码一切的流程走完了。
到现在为止,监控层次实践上是AVS若干个层次傍边的一个。AVS的监控层次引入了一个布景建模技能,这是现在其它的规范里边还没有十分清晰的作业。咱们做了一些数据剖析发现,关于监控而言,它看的场景是比较固定的,不论摄像头是固定不动的仍是旋转的,这都没关系,实践上它的场景是固定的,一旦这个摄像头安在这个当地,它就在这个场景下,假如你有办法把这个场景学习下来,用它参加编码,能够进步编码功率。假如你用场景建模,它就能够下降曾经的码率,这样就能够进步它的编码功率。场景模型这方面就没有太大的难度,便是我给你一个视频,把视频分为远景和后景,远景是场景没有的东西,布景是本来的场景,假如能这样有用的分隔,任何一个视频就能够分为远景和布景的组合,就能够分隔进行编码,对远景能够多用一点比特,使它几乎没有丢失,关于布景,能够用适当的参数替代它的场景,削减它的比特。
整个体系作业起来,需求对整个码流进行界说,这些界说会告知你现在参阅的是布景模型,仍是实践码流。一般咱们编码的时分,它的参阅帧都是固定给你的。咱们现在就变成需求换参阅帧的时分,你能够用模型,也能够用实践的帧,哪个作用更好,就用哪个。这样咱们就从语法上把这个机制建立起来了,并且这个机制能够答应你在本来的结构中添加布景建模。有了这样一个机制,咱们运用布景建模技能,不单在AVS上能够进步一倍的编码功率,还能够把它嵌到H.264和HEVC里边,结果是相同的,都能够进步本来一倍以上的编码的功率。这是面向视频监控,面向布景建模的编码技能。
关于视频剖析
现在的剖析技能都是依据把本来的编码图象解开了以后来做。现在的问题是有没有办法不必解码就进行剖析。这个也是咱们需求做实时呼应的要害。现在的体系规划,彻底不是面向视频剖析的,由于它是存在那里,要用的时分把它解开,然后再进行剖析的。咱们现在企图找一种办法,便是不必解开,或许不必全解,就来进行剖析。
AVS有一个监控层次,就能够支撑这件事。为了阐明这件事能够支撑,它能够从帧、区域、方针、作业等不同层面临这个东西进行描绘。这儿最要害的一个便是ROI区域,你要对它进行描绘和表达,将来编码进行论述的时分,是对这一块独自来做的,当进行视频的时分,你只需求对远景,或许说对ROI来剖析。
这种思路其实不仅仅是能够用在AVS上,我有几个学生专门把这种思路嵌到HEVC、H.264里边,不光编码能够进步1倍以上,还能够把感兴趣的区域定位出来。从处理速度上来讲,不同的算法或许有的时刻长一点,有的时刻短一点。HEVC的块的结构组合更灵敏,运用它的块的组合的特色,也能够做许多ROI的描绘,也能够依据这种可变块结构描绘,做很高的编码和辨认的作业。
人脸辨认是十分重要的,咱们也有一个专门的课题做人脸辨认的作业。人脸辨认最理想的分辨率是100×100,最低的也要50×50,假如再小的话,辨认功率就会差。编码紧缩的力度越大,辨认率就会下降得越快。
咱们现在寻求的方针不是光用人脸,实践是人脸和身体组合在一起去做盯梢,这样才会比较有用。由于光看人脸的话,假如分辨率不行,你很难完结盯梢的使命,特别是有时分他是背过身来的。咱们要把这个方针从头到脚盯梢下来,然后找到他正面的图象,看看是不是你要找的人,假如是的话,你就能够悉数回溯,假如不是的话,你就把它丢掉。
现在才智城市傍边的视频体系的规划,并不是面向智能剖析和辨认的,所以咱们有必要去对这个体系规划进行一些影响,在高效的视频编码,咱们应该能够有一些改善。别的依据感兴趣区域的表达,咱们也能够有所作为。假如把这两者联合起来,将会是一个很好的立异。