记录一下课堂笔记:
定义:spark是一个快速的,通用的分析大数据处理引擎。
DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。
DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。
由于受制于某些任务必须比另一些任务较早执行的限制,必须排序为一个队 列的任务集合可以由一个DAG图来呈现,其中每个顶点表示一个任务,每条边表示一种限制约束,拓扑排序算法可以用来生成一个有效的序列。
DAG也可以用来模拟信息沿着一个一 致性的方向通过处理器网络的过程。
DAG中得可达性关系构成了一个局 部顺序,任何有限的局部顺序可以由DAG使用可达性来呈现。
此外,DAG的可作为一个序列集合的高效利用空间的重叠的子序列的代表性。
相对应的概念,无向图是一个森林,无环的无向图。
选择森林的一个方向,产生了一种特殊的有向无环图称为polytree 。
不过,也有其他种类的向无环图,它们不是由面向无向无环图的边构成的。
出于这个原因,称其为有向无环图比无环有向图或者无环图更确切。
spark 与mapreduce比较优势:
spark计算速度在内存中比mp快近100X,在dist中近10X
spark支持链式编程
spark一站式部署,无需在部署其他插件。
基本原理方面:
mapreduce:基于磁盘的大数据批量处理系统
spark:基于rdd(弹性分布式数据集)数据处理,显式的讲RDD数据存储到内存和磁盘中
模型上:
mapreduce处理超大规模数据,运行周期长,迭代较少,适合数据挖掘
spark:适合多轮迭代
容错方面:
spark的子rdd出现错误,会给予spark linage 去执行父节点的rdd重新获取数据。
定义:spark是一个快速的,通用的分析大数据处理引擎。
DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。
DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。
由于受制于某些任务必须比另一些任务较早执行的限制,必须排序为一个队 列的任务集合可以由一个DAG图来呈现,其中每个顶点表示一个任务,每条边表示一种限制约束,拓扑排序算法可以用来生成一个有效的序列。
DAG也可以用来模拟信息沿着一个一 致性的方向通过处理器网络的过程。
DAG中得可达性关系构成了一个局 部顺序,任何有限的局部顺序可以由DAG使用可达性来呈现。
此外,DAG的可作为一个序列集合的高效利用空间的重叠的子序列的代表性。
相对应的概念,无向图是一个森林,无环的无向图。
选择森林的一个方向,产生了一种特殊的有向无环图称为polytree 。
不过,也有其他种类的向无环图,它们不是由面向无向无环图的边构成的。
出于这个原因,称其为有向无环图比无环有向图或者无环图更确切。
spark 与mapreduce比较优势:
spark计算速度在内存中比mp快近100X,在dist中近10X
spark支持链式编程
spark一站式部署,无需在部署其他插件。
基本原理方面:
mapreduce:基于磁盘的大数据批量处理系统
spark:基于rdd(弹性分布式数据集)数据处理,显式的讲RDD数据存储到内存和磁盘中
模型上:
mapreduce处理超大规模数据,运行周期长,迭代较少,适合数据挖掘
spark:适合多轮迭代
容错方面:
spark的子rdd出现错误,会给予spark linage 去执行父节点的rdd重新获取数据。
发表评论
-
翻译一下spark sql and dataframes
2016-03-23 15:20 1578概述 spark sql 是一个结构化执行的数据模块,它并不像 ... -
Sort-based Shuffle的设计与实现
2016-03-15 08:49 769原文 http://www.cnblogs.com/hsea ... -
spark 中GC的调优
2016-03-14 11:02 1312注:本文转自:http://www.csdn.net/arti ... -
spark Tungsten-将硬件性能彻底压榨
2016-03-08 11:06 987Tungsten项目将是Spark自诞生以来内核级别的最大改动 ... -
关于Spark的Broadcast解析
2016-02-20 08:37 4494本文重点关注 数据块切分方法以及P2P下载数据方法 Broad ... -
spark的几个重要概念
2015-12-04 14:09 0本节主要记录以下几个概念 一:RDD的五大特点 二:RDD 窄 ... -
spark部署安装调试
2015-12-02 11:28 709本节记录spark下载-->编译-->安装--&g ... -
hadoop计算能力调度器配置
2015-10-29 10:39 975问题出现 hadoop默认调度器是FIFO,其原理就是先按照作 ... -
HBase在各大应用中的优化和改进
2015-10-28 14:59 649Facebook之前曾经透露过Facebook的hbase架构 ... -
一篇很好的解决系统问题过程描述文章
2015-09-23 08:40 465在网上看到的一篇解决h ... -
通过GeoHash核心原理来分析hbase rowkey设计
2015-09-08 15:49 3483注:本文是结合hbase ... -
从OpenTsdb来分析rowkey设计
2015-09-06 16:04 4910讨论此问题前,先理解 ... -
HBase中asynchbase的使用方式
2015-08-25 10:32 8116Hbase的原生java 客户端是完全同步的,当你使用原生AP ... -
Mapreduce优化的点滴
2015-07-16 15:18 798注:转载 1. 使用自定义Writable 自带的Text ... -
hadoop 如何自定义类型
2015-07-15 09:37 1214记录一下hadoop 数据类型章节的笔记,以便后期使用,本文是 ... -
napreduce shuffle 过程记录
2015-07-10 11:23 731在我看来 hadoop的核心是mapre ... -
ZooKeeper伪分布式集群安装及使用
2015-02-13 08:29 8871. zookeeper介绍 ZooKeeper是一个为分 ... -
hadoop-mahout 核心算法总结
2015-02-07 10:08 1507其实大家都知道hadoop为我们提供了一个大的框架,真正的 ... -
推荐引擎内部原理--mahout
2015-01-22 11:11 547转载自:https://www.ibm.com/devel ... -
hadoop 动态添加删除节点
2015-01-20 13:39 642转自:http://www.cnblogs.com/rill ...
相关推荐
Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能...
大数据 Spark Storm 流计算 storm基本概念及架构 案例讲解及开发实践 spark基本概念与架构
2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 ...
LTE 基本概念.doc
基本概念 依赖 初始化 StreamingContext Discretized Streams(DStreams)(离散化流) Input DStreams 和 Receivers DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 ...
spark的总体最新最全总结,spark的简介及部署,sparkcore的基本概念,RDD编程实践以及高级功能,sparksql,sparkStreaming的简介及整合kafka的方式
本文详细的介绍了sparkstreaming的基本概念,如何使用等问题
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同...本文将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。
文档中附带了一些基础的案例,也附带了相应的代码,可用于基础性学习,一开始不要急着写代码,先看文档,一些基本的概念懂了之后,再开始试着慢慢的写代码,即可入门 。。。 当然,学习 Spark 时最好还是有一些前置...
Spark_for_Data_Science,针对spark的原理,对spark的基础架构、基本概念进行详细介绍,同时重点介绍spark在数据科学中的用法。
本书从Spark的基本概念开始,逐步深入到Scala在Spark中的应用,以及如何利用Spark进行大规模数据处理。全书内容涵盖了以下几个主要部分: Spark简介:介绍Spark的起源、核心概念、架构以及与其他大数据处理框架(如...
- RDD是Spark的基本抽象,代表一个不可变、可分区、可并行计算的数据集。RDD可以在集群上进行分布式计算。 2. **数据流处理:** - Spark 提供了弹性分布式数据流(DStream)用于实时数据处理。它是以微批处理的...
001 - Spark框架 - 简介.avi 002 - Spark框架 - Vs Hadoop.avi 003 - Spark框架 - 核心模块 - 介绍.avi 005 - Spark框架 - ...020 - Spark框架 - 核心概念 - Executor & Core & 并行度.avi 023 - SparkCore - 分布式
《Spark 快速大数据分析》是一本为 Spark 初学者准备的书,它没有过多深入实现细节,...不过,本书绝不仅仅限于 Spark 的用法,它对 Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
spark快速大数据分析,这是一本比较适合初学者的使用教材,它绝不仅仅限于spark的用法,它对spark的核心概念和基本原理也有较为全面的介绍,本书把spark应用到实践当中,非常值的观看
不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了开源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,...
■ 计算框架在Hadoop 中的作用 ■ YARN 的设计目的和基本架构 ...■ Apache Spark 概念 ■ YARN 如何分配集群资源 ■ YARN 如何处理故障 ■ 如何查看和管理YARN 应用程序 ■ 如何访问YARN 应用程序日志
大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识。 Hadoop部分重点考查了Hadoop的核心组成、特性、生态系统组件以及HDFS相关的理论和操作。 HBase部分着重考查了HBase作为...