【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

作者：admin 日期：2025-05-11 12:57:57 人气：5297 栏目：世界杯段子

文章目录

1 Spark 简介2 Spark 的核心组成（5大模块）3 Spark 的主要特征（4大特征）4 Spark 对比 MapReduce

1 Spark 简介

初步了解一项技术，最好的方式就是去它的官网首页，一般首页都会有十分官方且准确的介绍，学习 Spark 也不例外，官方介绍：Apache Spark ™是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。我们可以得知，Spark 可以单节点运行，也可以搭建集群来保证可靠性和负载均衡等等，同时，除了我们熟知的可以处理大数据场景业务外，Spark 还可以进行数据科学和机器学习（如 Spark MLlib 就是 Spark 提供的一个机器学习算法库）。

Spark 也拥有十分庞大的生态系统，支持多种框架的集成，有助于将它们扩展到数千台机器。

2 Spark 的核心组成（5大模块）

1、Spark Core：包含了 Spark 最核心与基础的功能，为其他 Spark 功能模块提供了核心层的支撑，可类比 Spring 框架中的 Spring Core。

2、Spark SQL：官方文档的介绍如下图，Spark SQL 适用于结构化表和非结构化数据的查询，并且可以在运行时自适配执行计划，支持 ANSI SQL（即标准的结构化查询语言）。 3、Spark Streaming：是 Spark 平台上针对实时数据进行流式计算的组件，而流式数据指的是实时或接近实时的时效性处理的大数据流，常见的流式数据处理使用Spark、Storm和Samza等框架。

4、Spark MLlib：是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能，还提供了一些更底层的机器学习原语。

5、Spark GraphX：是 Spark 面向图计算提供的框架与算法库。

3 Spark 的主要特征（4大特征）

为了准确，也是按官方文档学习就可以，总结了一下，主要有 4 个特点：

适合批处理、实时流式数据的计算处理能够快速执行分布式的 SQL 查询支持 PB 级大数据的科学计算可用于机器学习，且支持集群训练机器学习算法

4 Spark 对比 MapReduce

与其说是 Spark 对比 Hadoop，不如说得准确一点，Spark 对比 Hadoop 中的 MapReduce。

MapReduce 对比 Spark：

在适用场景上：MapReduce 不适合循环迭代式数据流处理以及可复用的多并行运行的数据，而 Spark 与之相反，Spark 的出现晚于 MapReduce，Spark 适合循环迭代式数据流处理以及可复用的多并行运行的数据，这也就是为什么在上一篇文章中提到，Spark 的核心模块中有机器学习和图算法的模块，Spark 的这种特性使得它可以处理机器学习、图挖掘算法等问题，效率远远高于 MapReduce。

开发语言：虽然有时说语言不是问题，但不同语言也是有不同特性的，MapReduce 是用 Java 语言开发的，而 Spark 是用 Scala 语言开发的，Scala 十分擅长函数的处理。

根本差别：Spark 和Hadoop 的根本差异是多个作业任务之间的数据通信问题，Spark 多个作业之间数据通信是基于内存，而 Hadoop 是基于磁盘，这也是为什么 Spark 更加适合循环迭代式数据流处理的原因，因为省去了多余的磁盘调度开销。

执行任务：Spark 执行新任务采用 fork 线程的方式，而 Hadoop 采用创建新的进程的方式。

随便看看

2025-05-10 16:34:03禁书列表
2025-05-10 05:09:04你知道龙争虎斗代表的是哪个生肖吗？指代什么动物？
2025-05-11 01:28:19昆恩法印
2025-05-10 15:21:38视频分辨率/帧率/码率选择参考
2025-05-08 06:11:39富士康项目管理跳槽去哪里
2025-05-11 06:07:37MicroKMS神龙版 v23.07.02 去更新纯净版（无弹窗版，2023年9月最新可用）
2025-05-08 12:43:49红塔山香烟价格表图大全一览表2025最新价格
2025-05-10 05:09:04你知道龙争虎斗代表的是哪个生肖吗？指代什么动物？
2025-05-03 10:49:44王者荣耀新赛季是什么时间，什么时候结束？
2025-05-03 19:46:10开通银联在线支付

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

随便看看

404 Not Found