您的位置 首页 知识

大数据职业有必要把握的25个大数据术语

提到大数据可能有些令人生畏。在了解一定基本概念的基础上,掌握其中一些关键术语也是至关重要的。本文列出了 25 个必须掌握的大数据术语。算法(Algor

说到大数据或许有些令人生畏。在了解必定基本概念的基础上,掌握其间一些要害术语也是至关重要的。

本文列出了 25 个有必要掌握的大数据术语。

算法(Algorithm)

指用于履行数据剖析的数学公式或核算进程。那么算法与大数据有什么联系呢?尽管算法是一个通用术语,但大数据剖析使得这个词变得更具年代性,更受欢迎。

剖析(Analytics)

你的信用卡公司会将附有你全年买卖状况的年终报表寄给你。假如详细看在食物,衣服,文娱等方面花了多少钱呢?那么你就在进行“剖析”。你正在从原始数据中取得一些见地,这能够协助你决议来年的开销。

假如你对朋友、网络或许自己的公司发的推文以及 facebook 帖子进行相同的操作,那咱们现在就触及的便是大数据剖析了。它是经过运用许多数据进行推论并得出结论。共有三种不同类型的剖析。

1. 描述性剖析(Descriptive Analytics)

假如你告诉我,上一年你的信用卡消费中 25% 用于食物,35% 用于服装,20% 用于文娱活动,其他的用于杂物,这便是描述性的剖析。当然,你也能够进行更详细的了解。

2. 猜测剖析(Predictive Analytics)

假如你剖析了曩昔5年的信用卡记载,发现傍边有必定的一致性,那么你能够较有掌握地猜测,下一年的状况将与曩昔几年相似。值得注意的是,这并不是“猜测未来”,而是“猜测作业发生的或许性”。在大数据猜测剖析中,数据科学家会运用数据发掘,机器学习和高档核算进程等先进技能,进行气候,经济等方面的猜测。

3.标准剖析(Prescriptive Analytics)

仍是用信用卡的比如,你或许会想知道哪些消费方针(例如食物、文娱、服装等)会对你的全体消费发生巨大的影响。标准剖析经过包含“行为”(即削减购买食物、衣服或文娱)和对成果进行剖析,然后猜测标准相应方针,然后削减你的总开销。将此扩展到大数据,你能够幻想办理人员怎么经过研讨各种行为影响,然后做出数据驱动的决议计划。

批量处理(Batch processing)

尽管从大型核算机年代开端,批量处理就现已呈现了。由于处理大型数据集,批量处理对大数据具有额定的含义。批量数据处理是处理一段时间内搜集的许多数据的有用方法。稍后我将介绍的 Hadoop 便是专心于批量数据处理。

Cassandra

是由 Apache 软件基金会办理的一个盛行的开源数据库办理体系。Apache 归于大数据技能,Cassandra 旨在处理跨散布式服务器的许多数据。

云核算(Cloud computing)

云核算现已变得无所不在,所以在这里仅处于完整性的考虑将其概括在内。它本质上是在长途服务器上保管和运转的软件及数据,并可从互联网的任何地方进行拜访。

集群核算(Cluster computing)

这是一个运用多个服务器调集资源的“集群”的核算术语。要想更技能性的话,就会触及到节点,集群办理层,负载平衡和并行处理等概念。

暗数据(Dark Data)

基本上指的是,由企业搜集和处理的,但并不用于任何含义性意图的数据,因而它是“暗”的,或许永久不会被剖析。它能够是交际网络反应,呼叫中心日志,会议笔记等等。有许多人估量,一切企业数据中的 60-90% 或许是“暗数据”,但谁又真实知道呢?

数据湖(Data lake)

当第一次听到这个概念,我还以为是在恶作剧。但这真是一个术语。数据湖是原始格局的企业级数据的大型存储库。与此同时咱们能够触及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在整理、与其他来历集成之后是以结构化格局。数据仓库一般用于惯例数据(但不是专有的)。数据湖使得拜访企业级数据愈加简单,你需求清晰你要寻觅什么,以及怎么处理它并明智地试用它。

数据发掘(Data mining)

数据发掘是经过运用杂乱的形式识别技能,然后找到有含义的形式,并得出许多数据的见地。这与咱们之前评论的“数据剖析”术语密切相关,由于你将经过发掘数据进行剖析。为了取得有含义的形式,数据发掘者运用核算,机器学习算法和人工智能。

数据科学家(Data Scientist)

一个抢手的作业。指的是经过提取原始数据,对其进行处理,并提出自己的见地的人。数据科学家需求具有超人般的技能:剖析,核算,核算机科学,创造力,故事叙述和了解环境的才能。难怪他们薪水这么高。

散布式文件体系(Distributed File System)

由于大数据太大而无法存储在单个体系上,散布式文件体系是一种数据存储体系用于存储跨多个存储设备的许多数据,并有助于下降存储许多数据的本钱和杂乱性。

ETL

ETL 指的是提取,转化和加载。详细指的是“提取”原始数据的进程,经过整理、丰厚数据将其“转化”成合适运用的,并“加载”到恰当的存储库中以供体系运用。尽管它源于数据仓库,但ETL进程也被用来从大数据体系的外部资源中获取和吸收数据。

Hadoop

当想到大数据时,人们当即会想到 Hadoop 。Hadoop(具有心爱的大象标志)是一个开源软件结构,由所谓的 Hadoop 散布式文件体系(HDFS)组成,并答应运用散布式硬件对非常大的数据集进行存储,检索和剖析。假如你真的想给他人留下深入的形象,还能够谈谈 YARN,望文生义,这是一种资源调度程序。取姓名的人真太有才了。Apache 基金会还推出了 Hadoop,Pig,Hive 以及 Spark(是的,这些都是各种软件的称号)。真是服了这些姓名。

内存核算(In-memory computing)

一般来说,任何能够在不拜访 I / O 的状况下完结的核算都是很快的。内存核算是一种将作业数据集彻底放在集群的团体内存中,防止将中心核算写入磁盘的技能。Apache Spark 是一个内存核算体系,它在速度超越 I / O 绑定体系(如 Hadoop 的MapReduce)方面具有巨大的优势。

物联网(IoT)

最新的盛行语是物联网(IOT)。IOT 经过互联网将嵌入式目标(传感器,可穿戴设备,轿车,冰箱等)中的核算设备进行互连,而且能够发送以及接纳数据。IOT 生成许多数据,供给了许多大数据剖析的时机。

机器学习(Machine learning)

机器学习是指经过供给的数据,使体系能够学习,调整和改善。经过猜测和核算算法,他们不断学习“正确”的行为和洞察力,跟着更多的数据流经过该体系,得以不断地改善。

MapReduce

MapReduce 或许会有点难明。MapReduce 是一个编程模型,为了更好的了解,需注意 Map 和 Reduce 其实是两个独立的部分。在这种状况下,编程模型首先将大数据数据集分解成多个部分(在技能术语中称为“元组”),因而能够散布在不同方位的不同核算机上(即前面所述的集群核算),这基本上便是 Map 部分。然后,该模型搜集成果并将其“削减”为一个陈述。MapReduce 的数据处理形式与Hadoop 的散布式文件体系严密相关。

NoSQL

听起来像是 SQL (结构化查询言语)的不和,SQL 是传统联系数据库办理体系(RDBMS)的主要内容。但 NOSQL 实际上意味着不仅仅是 SQL (Not ONLY SQL)。NoSQL 实际上是指的是用于处理许多数据的数据库办理体系,它们不具有结构,或被称为“架构”(相似联系数据库)。NoSQL 数据库一般合适大型数据体系,由于它们具有大型非结构化数据库所需的灵活性和散布式的优先体系结构。

R

R 是一种编程言语,在核算核算方面很超卓。假如你不知道 R,你就称不上是数据科学家。R 是数据科学中最受欢迎的言语之一。

Spark(Apache Spark)

Apache Spark 是一种快速的内存数据处理引擎,用于高效履行流,机器学习或需求快速迭代拜访数据集的 SQL 作业负载。Spark 一般比咱们前面提及的 MapReduce 快许多。

流处理(Stream processing)

流处理旨在对有“接连”要求的实时和流数据进行处理。结合流剖析,即在流内不间断地核算数学或核算剖析的才能。流处了解决方案旨在对高流量进行实时处理。

结构化 v 非结构化数据(Structured v Unstructured Data)

这是大数据中的“V”之一,即多样性。结构化数据基本上指任何能够放在联系数据库中,并以该方法组织起来,经过表与其他数据相关。非结构化数据则反之,如无法发电子邮件,发交际媒体帖子和录制的人类语音等。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/zhishi/155334.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部