“ 当时的首要距离不再是关于谁可以搜集更多的数据;而是关于谁可以快速了解所搜集的数据。”
—— Matt Wood, 首席数据科学家, 亚马逊公司
曩昔,硬件的采样速率遭到模数(A/D)转 换速度的约束,在物理上约束了所可以搜集到的数据的多少。但时至今日,硬件供货商现已加快了数据搜集速率,使工程师和科学家迅速地打破了速率和分辨率的障 碍,他们终究引发了新一轮的数据胀大浪潮。简略地说,在搜集使用中,硬件不再是约束要素;对所搜集到的数据怎么进行有用的办理才是未来的应战。
计算技术的前进——包含微处理速度的进步和硬盘贮存容量的添加,以及硬件和软件本钱的下降——极快地引发了数据的大爆炸。特别是在丈量使用中,工程师和科学家们可以在一天中的每秒搜集许多的数据。在欧洲核子研讨中心(CERN)的大型强子对撞机运转的试验中,仪器每秒可以生成40 TB的数据。一架波音喷气发动机在作业过程中,体系每30分钟将会生成10TB的运转信息。关于跨过大西洋的单程飞翔过程中,一个四引擎的大型喷气式客机可以生成640 TB的数据。算一算每天国际上有超越25,000次的航班,您就会了解了为什么会存在如此许多的数据。这便是“海量数据”的由来。
技术研讨公司IDC最 近进行了一项针对数字数据的研讨,其间包含国际范围内的丈量文件、视频文件和音乐文件等。这项研讨标明,可获取的数据量每两年就会翻一番。这个现实类似于 电子范畴最著名的规律:摩尔规律。假如数字数据的发生速度持续仿照摩尔规律,那么一个公司或安排能否取得成功的要害将在于它能否快速地将所搜集的数据改变 为有用的定论。
海量数据的出现为数据分 析、查找、整合、陈述以及体系维护带来了新的应战,它们有必要可以满意与数据的指数型增加速度坚持同步。数据的来历许多。可是,其间工程师和科学家最感兴趣 的是实在国际生成的模仿数据。它是从振荡、射频信号、温度、压力、声响、图画、光、磁和电压等丈量中搜集而来。一般数据的特色由四个V组成——数量(volume)、品种(variety)、速度(velocity)和价值(value)。但另一个“V”——可视化(visibility),正逐渐成为一个要害的决定性特性。也便是说,全球企业一个日益增加的需求便是拜访不同区域的商业、工程和科学数据。这就需求云等互联信息技术(IT)体系与数据搜集体系(DAQ)紧密连接,这是现在数据搜集范畴所引起的革命性的理念打破。
具体来说,工程师正在寻觅如上图所示的三级解决方案体系架构,以构建一个一致的集成解决方案,然后改进前端传感器的实时数据捕获和后端IT基础设施的数据剖析。数据流开始于榜首级的传感器,被第二级的体系节点捕获。这些节点履行初始的实时、动态和前期数据剖析。被以为重要的信息经过软硬件“边际”传输至传统IT设备。第3级的IT基础设施(服务器、存储和网络设备)担任办理、收拾和深入剖析前期数据或静态数据。最终,对数据进行存档以备后用。经过数据流的不同阶段,不断发展的海量数据剖析范畴正在为人们供给前有未有的有用信息。例如,NI公司与Duke Energy动力公司共同开发的InsightCM(下图)状况监控体系,将硬件监控改变为软件和网络级,完成了一共3万多个传感器,200多个节点,60个不同地域的智能电网监控。
可以预见,前史最久、速 度最快、数据量最大的海量模仿数据正具有着日益严重的科学、工程和商业含义。为了发掘这一巨大的资源,开发人员正在转向根据东西和渠道的解决方案,这些工 具和渠道应可以彼此集成,并且可以与其他合作伙伴供给的东西和渠道相集成。因为这个三级大模仿数据解决方案可解决科研、产品测验以及机器状况和财物监测等 要害使用范畴的难题,其需求正在不断增加。