`

spark基本概念

阅读更多
记录一下课堂笔记:

定义:spark是一个快速的,通用的分析大数据处理引擎。
DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。
DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。
由于受制于某些任务必须比另一些任务较早执行的限制,必须排序为一个队 列的任务集合可以由一个DAG图来呈现,其中每个顶点表示一个任务,每条边表示一种限制约束,拓扑排序算法可以用来生成一个有效的序列。
DAG也可以用来模拟信息沿着一个一 致性的方向通过处理器网络的过程。
DAG中得可达性关系构成了一个局 部顺序,任何有限的局部顺序可以由DAG使用可达性来呈现。
此外,DAG的可作为一个序列集合的高效利用空间的重叠的子序列的代表性。
相对应的概念,无向图是一个森林,无环的无向图。
选择森林的一个方向,产生了一种特殊的有向无环图称为polytree 。
不过,也有其他种类的向无环图,它们不是由面向无向无环图的边构成的。
出于这个原因,称其为有向无环图比无环有向图或者无环图更确切。

spark 与mapreduce比较优势:
spark计算速度在内存中比mp快近100X,在dist中近10X
spark支持链式编程
spark一站式部署,无需在部署其他插件。


基本原理方面:
mapreduce:基于磁盘的大数据批量处理系统
spark:基于rdd(弹性分布式数据集)数据处理,显式的讲RDD数据存储到内存和磁盘中

模型上:
mapreduce处理超大规模数据,运行周期长,迭代较少,适合数据挖掘
spark:适合多轮迭代

容错方面:
spark的子rdd出现错误,会给予spark linage 去执行父节点的rdd重新获取数据。



  • 大小: 131.5 KB
  • 大小: 179.9 KB
分享到:
评论

相关推荐

    spark基础概念

    Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能...

    大数据Spark入门教程

    大数据 Spark Storm 流计算 storm基本概念及架构 案例讲解及开发实践 spark基本概念与架构

    Spark-Core学习知识笔记整理

    2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 ...

    LTE 基本概念

    LTE 基本概念.doc

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    基本概念 依赖 初始化 StreamingContext Discretized Streams(DStreams)(离散化流) Input DStreams 和 Receivers DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 ...

    Spark知识体系脑图.xmind

    spark的总体最新最全总结,spark的简介及部署,sparkcore的基本概念,RDD编程实践以及高级功能,sparksql,sparkStreaming的简介及整合kafka的方式

    sparkstreaming

    本文详细的介绍了sparkstreaming的基本概念,如何使用等问题

    Spark RDD.docx

    Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同...本文将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。

    Apache Spark 2.0.2 中文官方文档

    文档中附带了一些基础的案例,也附带了相应的代码,可用于基础性学习,一开始不要急着写代码,先看文档,一些基本的概念懂了之后,再开始试着慢慢的写代码,即可入门 。。。 当然,学习 Spark 时最好还是有一些前置...

    Spark_for_Data_Science

    Spark_for_Data_Science,针对spark的原理,对spark的基础架构、基本概念进行详细介绍,同时重点介绍spark在数据科学中的用法。

    Spark 编程基础(Scala 版)-机房上机实验指南

    本书从Spark的基本概念开始,逐步深入到Scala在Spark中的应用,以及如何利用Spark进行大规模数据处理。全书内容涵盖了以下几个主要部分: Spark简介:介绍Spark的起源、核心概念、架构以及与其他大数据处理框架(如...

    spark介绍及分析.docx

    - RDD是Spark的基本抽象,代表一个不可变、可分区、可并行计算的数据集。RDD可以在集群上进行分布式计算。 2. **数据流处理:** - Spark 提供了弹性分布式数据流(DStream)用于实时数据处理。它是以微批处理的...

    大数据Spark入门到精通v3.0版

    001 - Spark框架 - 简介.avi 002 - Spark框架 - Vs Hadoop.avi 003 - Spark框架 - 核心模块 - 介绍.avi 005 - Spark框架 - ...020 - Spark框架 - 核心概念 - Executor & Core & 并行度.avi 023 - SparkCore - 分布式

    Spark 快速大数据分析

    《Spark 快速大数据分析》是一本为 Spark 初学者准备的书,它没有过多深入实现细节,...不过,本书绝不仅仅限于 Spark 的用法,它对 Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。

    spark快速大数据分析

    spark快速大数据分析,这是一本比较适合初学者的使用教材,它绝不仅仅限于spark的用法,它对spark的核心概念和基本原理也有较为全面的介绍,本书把spark应用到实践当中,非常值的观看

    Spark快速数据分析-高清

    不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。  本书介绍了开源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,...

    03_MapReduce 和Spark on YARN.docx

    ■ 计算框架在Hadoop 中的作用 ■ YARN 的设计目的和基本架构 ...■ Apache Spark 概念 ■ YARN 如何分配集群资源 ■ YARN 如何处理故障 ■ 如何查看和管理YARN 应用程序 ■ 如何访问YARN 应用程序日志

    大数据习题(2024)-大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识

    大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识。 Hadoop部分重点考查了Hadoop的核心组成、特性、生态系统组件以及HDFS相关的理论和操作。 HBase部分着重考查了HBase作为...

Global site tag (gtag.js) - Google Analytics