您的位置 首页 主动

Stay foolish:初学者轻松了解“大数据”

Stay foolish:初学者轻松了解“大数据”-当你搜索“大数据”或者“big data solution”等关键字时,搜索出的海量相关知识铺天盖地,对初学者而言,仍然很难在短时间内入门。本文目的

  网络上流传着这么的一句盛行语:“万事不明白问度娘”。自从有了各种查找引擎,新名词新技能对群众而言,已不再奥秘。可是,当你查找“大数据”或许“big data solution”等关键字时,查找出的海量相关常识漫山遍野,对初学者而言,依然很难在短时刻内入门。本文意图,是以傻瓜式发问的办法让初学者轻松的了解“大数据”。

  大数据的概念

  “大数据”,是不是—-数据很大就叫大数据?

  实际上简略的这样了解也没有错,在明晰界说时,会比较着重大数据的4个V的特性: Volume,Variety,Value,Velocity。也便是:

  一、数据存储空间占用大(至PB及以上等级);

  二、数据类型繁复;

  三、价值密度低;

  四、处理速度快。

  查找的信息中,你会发现有某些名词呈现的频率十分高,心里也随之会发生一些疑问。“PB是多大?”“Map-Reduce是啥?”“Hadoop是啥?”“大数据跟云核算啥联络?跟传统含义的数据库啥联络?”等等。

  这么多的信息量,咱们仍是依照大数据的根本界说,四个V来逐个整理吧。

  从第一个V开端,Volume。

  数据量很大,究竟能抵达什么程度呢?先来学习一下数量级的常识吧。

  1KB(Kilobyte 千字节) = 2^10 B = 1024 B;

  1MB(Megabyte 兆字节) = 2^10 KB = 1024 KB = 2^20 B;

  1GB(Gigabyte 吉字节) = 2^10 MB = 1024 MB = 2^30 B;

  1TB(Trillionbyte 太字节) = 2^10 GB = 1024 GB = 2^40 B;

  1PB(Petabyte 拍字节) = 2^10 TB = 1024 TB = 2^50 B;

  1EB(Exabyte 艾字节) = 2^10 PB = 1024 PB = 2^60 B;

  1ZB(Zettabyte 泽字节) = 2^10 EB = 1024 EB = 2^70 B;

  1YB(YottaByte 尧字节) = 2^10 ZB = 1024 ZB = 2^80 B;

  1BB(Brontobyte ) = 2^10 YB = 1024 YB = 2^90 B;

  1NB(NonaByte ) = 2^10 BB = 1024 BB = 2^100 B;

  1DB(DoggaByte) = 2^10 NB = 1024 NB = 2^110 B;

  ……

  “哇!坑爹啊,整出这么多名词,跟大数据都有联络吗?需求咱们把握吗?”别激动!其实,KB,MB,GB咱们在日常电脑操作中现已常常碰到了。乃至TB级的大硬盘,也现已运用于家用电脑中了。咱们所说的“大数据”,现在大多产品还处在了安身PB展望EB的等级。后边的那些什么ZB、YB、BB、NB、 DB……等,就暂时先当他们是浮云吧~

  第二个V, Variety。

  关于这一点,百度百科里是这么说的“网络日志、视频、图片、地理方位信息等等”。从专业一点的视点,咱们能够说“大数据”中,能够有结构化数据,但更多的是许多的非结构化和半结构化数据。

  结构化和非结构化数据是什么意思?

  结构化数据是指,能够存储在数据库里,能够用二维表结构来逻辑表达完成的数据。

  非结构化数据,是指不方便用数据库二维逻辑表来体现的数据,包含一切格局的作业文档、文本、图片、XML、HTML、各类报表、图画和音频/视频信息等等。

  而半结构化数据,便是介于彻底结构化数据(如联络型数据库、面向对象数据库中的数据)和彻底无结构的数据(如声响、图画文件等)之间的数据,HTML文档就归于半结构化数据。它一般是自描绘的,数据的结构和内容混在一同,没有显着的差异。

  上述的描绘,其实仍是有点不明晰。用数据模型的列表来看,差异就更明晰一点了:

  

  第三个V,Value。

  价值密度低。以视频为例,接连不间断监控进程中,或许有用的数据仅仅有一两秒。

  第四个V,Velocity。

  处理速度快。如此巨大的数据量,需求在短时刻内敏捷呼应。所运用的技能,当然是有别于传统的数据发掘技能的。

  释疑解惑

  “整理完了四个V,咋仍是云山雾罩的呢?”

  下面来答复几个初学者或许思考到的问题吧!

  针对大数据的四个V,有没有什么对应的技能来应对呢?

  现在,查询“大数据”,你会发现度娘给出的各种信息中,Hadoop这个词呈现的很频频。并且,许多厂商供给的产品,也都会打上一个标签:“**产品现已并入Hadoop分布式核算渠道,以及将Hadoop引进**产品。”

  什么是Hadoop?

  Hadoop是由Apache基金会开发的一个分布式体系根底架构。它是一个能够对许多数据进行分布式处理的软件结构。用户能够在不了解分布式底层细节的状况下,开发分布式程序,充沛运用集群的威力高速运算和存储。

  Hadoop包含了如下子项目:

  1. Hadoop Common: 在0.20及曾经的版别中,包含HDFS、MapReduce和其他项目公共内容,从0.21开端HDFS和MapReduce被别离为独立的子项目,其他内容为Hadoop Common

  2. HDFS: Hadoop 分布式文件体系 (Distributed File System) - HDFS (Hadoop Distributed File System)

  3. MapReduce:并行核算结构,0.20前运用 org.apache.hadoop.mapred 旧接口,0.20版别开端引进org.apache.hadoop.mapreduce的新API

  4. HBase: 相似Google BigTable的分布式NoSQL列数据库。

  5. Hive:数据仓库东西,由Facebook奉献。

  6. Zookeeper:分布式锁设备,供给相似Google Chubby的功用,由Facebook奉献。

  7. Avro:新的数据序列化格局与传输东西,将逐步替代Hadoop原有的IPC机制。

  8. Pig: 大数据剖析渠道,为用户供给多种接口。

  作为初学者,咱们先拨开一些浮云,看看这里边究竟有些什么。有三个主体部分,是咱们需求要点重视的:HDFS、MapReduce、HBase。

  实际上,Apache Hadoop的HDFS是Google File System(GFS)的开源完成。MapReduce是Google MapReduce的开源完成。HBase是Google BigTable的开源完成。

  Hadoop是一个能够让用户轻松架构和运用的分布式核算渠道。它首要有以下几个长处:1高可靠性2高扩展性3高效性4高容错性。用户能够轻松地在Hadoop上开发和运转处理海量数据的运用程序。而实际上,许多公司供给的大数据产品也是依据Hadoop进行开发的。

  数据存储空间占用大

  针对数据存储空间占用大,咱们需求用到的是“分布式存储”。分布式存储体系,便是将数据涣散存储在多台独立的设备上。传统的网络存储体系选用会集的存储服务器寄存一切数据,存储服务器成为体系功能的瓶颈,也是可靠性和安全性的焦点,不能满意大规模存储运用的需求。分布式网络存储体系选用可扩展的体系结构,运用多台存储服务器分管存储负荷,运用方位服务器定位存储信息,它不光提高了体系的可靠性、可用性和存取功率,还易于扩展。

  前面咱们介绍到的Hadoop,其间的HDFS便是如今最盛行的分布式存储渠道之一。

  HDFS原理扼要描绘

  HDFS(Hadoop Distributed File System),是一个分布式文件体系。HDFS有着高容错性(fault-tolerent)的特色,并且规划用来布置在低价的(low-cost)硬件上。它供给高吞吐量(high throughput)来拜访运用程序的数据,合适那些有着超大数据集(large data set)的运用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样能够完成流的方法拜访(streaming access)文件体系中的数据。

  HDFS是一个主从结构的体系,一个HDFS集群是由一个姓名节点,它是一个办理文件的命名空间和调理客户端拜访文件的主服务器,当然还有的数据节点,一个节点一个,它来办理存储。HDFS露出文件命名空间和答运用户数据存储成文件。

  对外部客户机而言,HDFS 就像一个传统的分级文件体系。能够创立、删去、移动或重命名文件,等等。

  内部机制,是将一个文件分割成一个或多个的块,这些块存储在一组数据节点中。姓名节点(NameNode)操作文件命名空间的文件或目录操作,如翻开,封闭,重命名,等等。它一同确认块与数据节点的映射。数据节点(DataNode)来担任来自文件体系客户的读写恳求。数据节点一同还要履行块的创立,删去,和来自姓名节点的块仿制指示。这与传统的 RAID 架构大不相同。块的巨细(一般为 64MB)和仿制的块数量在创立文件时由客户机决议。NameNode 能够操控一切文件操作。

  HDFS 内部的一切通讯都依据规范的 TCP/IP 协议。

  数据类型繁复

  大数据处理,有如下需求:对数据库高并发读写的需求、对海量数据的高功率存储和拜访的需求、对数据库的高可扩展性和高可用性的需求。传统的联络型数据库在此类需求面前束手无策。此刻,一个新的概念被引进了—-NoSQL。

  什么是NoSQL?

  NoSQL=Not Only SQL,指的是非联络型的数据库。

  非联络型数据库以键值对存储,它的结构不固定,每一个元组能够有不一样的字段,每个元组能够依据需求添加一些自己的键值对,这样就不会局限于固定的结构,能够削减一些时刻和空间的开支。

  应该阐明的是,NoSQL在处理超许多数据时功能杰出,并且能够在PC服务器集群上运转,本钱低价,具有高扩展性和实用性。可是,现在大多数NoSQL是开源项目,没有供货商正是支撑,并且在数据完整性等方面远不如联络型数据库,企业级运用不多。

  HBASE 的原理扼要介绍,怎么存储非结构化数据

  HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop渠道内的结构化数据的分布式存储体系。HBase与传统联络型数据库的差异在于,它是一个合适非结构化数据存储的数据库,并且HBase是依据列而不是依据行的方法。

  HBase运用Hadoop HDFS作为其文件存储体系,HBase坐落结构化存储层,HDFS为HBase供给了高可靠性的底层存储支撑;用Hadoop MapReduce来处理海量数据,MapReduce为HBase供给了高功能的核算才干;用Hadoop Zookeeper作为协同服务,Zookeeper为HBase供给了安稳服务和failover机制。

  HBase数据模型如下:

  

  Ø Row Key: 行键,Table的主键,Table中的记载依照Row Key排序

  Ø Timestamp: 时刻戳,每次数据操作对应的时刻戳,能够看作是数据的version number

  Ø Column Family:列簇,Table在水平方向有一个或许多个Column Family组成,一个Column Family中能够由恣意多个Column组成,即Column Family支撑动态扩展,无需预先界说Column的数量以及类型,一切Column均以二进制格局存储,用户需求自行进行类型转化。

  当Table跟着记载数不断添加而变大后,会逐步分裂成多份splits,成为regions,一个region由[startkey,endkey)表明,不同的region会被Master分配给相应的RegionServer进行办理。

  HBase中有两张特别的Table,-ROOT-和.META。

  .META.:记载了用户表的Region信息,.META.能够有多个regoin

  -ROOT-:记载了.META.表的Region信息,-ROOT-只要一个region

  Zookeeper中记载了-ROOT-表的location

  Client拜访用户数据之前需求首要拜访zookeeper,然后拜访-ROOT-表,接着拜访.META.表,最终才干找到用户数据的方位去拜访,中心需求屡次网络操作, client端会做cache缓存。

  价值密度低

  Mapreduce是在大数据中发掘价值的有用办法

  把MapReduce独自列出来,是有必要的,由于它太重要了。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,和他们的首要思维,都是从函数式编程言语里借来的,还有从矢量编程言语里借来的特性。

  MapReduce 本身便是用于并行处理大数据集的软件结构。MapReduce 的本源是函数性编程中的 map 和 reduce 函数。它由两个或许包含有许多实例(许多 Map 和 Reduce)的操作组成。Map 函数承受一组数据并将其转化为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数承受 Map 函数生成的列表,然后依据它们的键(为每个键生成一个键/值对)缩小键/值对列表。

  详细分进程描绘为:

  1) 在正式履行map函数前,需求对输入进行“分片”(便是将海量数据分红大约持平的“块”,hadoop的一个分片默许是64M),以便于多个map一同作业,每一个map使命处理一个“分片”。

  2) 分片结束后,多台机器就能够一同进行map作业了。map函数要做的工作,相当于对数据进行“预处理”,输出所要的“键值”。map对每条记载的输出以《key,value》对的方法输出。

  3) 在进入reduce阶段之前,还要将各个map中相关的数据(key相同的数据)归结到一同,发往一个reducer。这里边就涉及到多个map的输出“混合地”对应多个reducer的状况,这个进程叫做“洗牌”。

  4) 接下来进入reduce阶段。相同的key的map输出会抵达同一个reducer。reducer对key相同的多个value进行reduce操作,最终一个key的一串value经过reduce函数的作用后,变成了一个value。

  处理速度快

  MapReduce除了能发掘大数据价值,一同也是一种分布式/并行核算模型。尽管它是一个很好的笼统,但不能有用地处理核算范畴的任何问题。为了满意大数据及时呼应的特性,数据流核算的研讨被提上了日程。实时核算方向重要的一个模块便是实时数据流核算。

  在数据流模型中,需求处理的输入数据(悉数或部分)并不存储在可随机拜访的磁盘或内存中,但它们却以一个或多个“接连数据流”的方法抵达。数据流不同于传统的存储联络模型,首要差异有如下几个方面:

  流中的数据元素在线抵达;

  体系无法操控即将处理的新抵达的数据元素的次序,不管这些数据元素是在一个数据流中仍是跨多个数据流;也即重放的数据流或许和前次数据流的元素次序不一致;

  数据流的潜在巨细也许是无穷无尽的;

  一旦数据流中的某个元素经过处理,要么被丢掉,要么被归档存储。因而,除非该数据被直接存储在内存中,不然将不简略被检索。相关于数据流的巨细,这是一种典型的极小相关。

  数据流模型中的操作并不扫除传统联络型数据的存在。一般,数据流操作将树立数据流和联络型数据的联络。在数据流处理进程中,更新存储联络的一同或许会发生传输处理问题。

  近年来,业界呈现了不少实时数据流核算体系,尽管没有一个相似于Hadoop的集大成者,可是也都各具特色。由于网络数据的不断胀大和用户需求的不断涌现,近年来互联网企业开端广泛研讨和运用数据流处理,诞生了Yahoo! S4、Twitter Storm、IBM StreamBase、Facebook的Puma/Puma2 及学术界开源的Borealis等体系。

  大数据是云核算吗?

  假如有人问你这句话,你看完本文,能够很自傲的答复他“Absolutely!”

  为了答复这个问题,咱们有需求引进一个概念—-云核算是什么。

  维基百科给云核算下的界说:云核算将IT相关的才干以服务的办法供给给用户,答运用户在不了解供给服务的技能、没有相关常识以及设备操作才干的状况下,经过Internet获取需求服务。

  我国云核算网将云界说为:云核算是分布式核算(Distributed Computing)、并行核算(Parallel Computing)和网格核算(Grid Computing)的开展,或许说是这些科学概念的商业完成。

  云核算分为三个层次:根底设备即服务(IaaS),渠道即服务(PaaS)和软件即服务(SaaS)。

  “在说什么,云啊云啊,很多的云啊,好大的棉花糖啊~~”

  云核算的核心技能是海量数据分布式存储和海量数据分布式核算,现在云核算体系首要选用Map-Reduce模型。

  “Map-Reduce?哪里看到过?”没错,在前面临大数据的解读的时分,咱们就现已明晰描绘过这一段。总算看到了解的内容了,无比振奋啊。

  实际上,云核算的数据存储技能首要有谷歌的非开源的GFS(Google File System)和 Hadoop 开发团队开发的GFS的开源完成HDFS(Hadoop Distributed File System)。大部分IT厂商,包含yahoo、Intel的“云”方案选用的都是HDFS的数据存储技能。

  经过对简略的云核算的界说及技能剖析,加上前面咱们对大数据的了解,不难得出结论,大数据当然是能够归为云核算的范畴。

  运用范畴有哪些?

  

  说些咱们熟知的当地吧,哪些咱们接触到的当地用到了Hadoop?

  要答复这个问题,举几个比如,很简略。在国内,包含我国移动、百度、网易、淘宝、腾讯、金山和华为等很多公司都在研讨和运用它。

  职业动态及展望

  “大数据”的影响,添加了对信息办理专家的需求,甲骨文,IBM,微柔和SAP花了超越15亿美元的在软件智能数据办理和剖析的专业公司。这个职业本身价值超越1000亿美元,增加近10%,大数据现已呈现,由于咱们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人拜访互联网。根本上,人们比以往任何时分都与数据或信息交互。1990年至2005年,全球超越1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增加。思科公司估计,到2013年,在互联网上活动的交通量将抵达每年667艾字节。

  最早提出“大数据”年代现已到来的组织是全球闻名咨询公司麦肯锡。麦肯锡在研讨陈述中指出,数据现已渗透到每一个职业和事务功能范畴,逐步成为重要的出产要素;而人们关于海量数据的运用将预示着新一波出产率增加和顾客盈利浪潮的到来。

  麦肯锡的陈述发布后,大数据敏捷成为了核算机职业争相传诵的抢手概念,也引起了金融界的高度重视。跟着大数据年代的全面敞开,你是否做好了充沛的预备迎候这个年代的到来呢?

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/ziliao/zhudong/165554.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部