当前位置: 首页 > news >正文

spark全面个人总结(20个面试点)非网文 持续更新中

1.  请简述Spark的工作原理和架构?

  1. 基于RDD,一种数据结构,含数据项、处理函数、血缘。
  2. spark解析任务,生成rdd,并将系列rdd转换成一系列物理计划,然后发送到集群上的各个节点执行。
  3. spark负责管理这些任务,并分配到集群中的各个执行器,利用分区存储副本实现容错

2.  Spark与Hadoop MapReduce相比,主要有哪些优势?

  1. 速度快 (1.基于内存计算 2.spark更灵活,job数更少)
  2. 易用性,支持多种编程语言 scala java python R
  3. 功能更强大 ,可以做批处理、准实时处理、机器学习和图计算

3.  Spark有哪几种运行模式?请详细解释它们之间的区别。

   spark local 、 spark on mesos、spark standalone、 spark on yarn

Local mode: 在本地模式下,spark作业在单个机器上运行,通常用于开发和测试

Standalone: spark使用自己的集群管理器来调度作业

yarn模式:yarn是hadoop的资源管理器,spark可以运行在yarn之上

mesos模型:mesos是一个开源的资源管理器和资源调度器

kubernetes:Kubernetes是一个容器编排平台,Spark可以利用Kubernetes来部署和运行

4.  Spark的RDD(弹性分布式数据集)是什么?它有哪些特性?

 

rdd:抽象数据结构,也是spark最小的计算单元,含数据分区、数据项、转换函数、rdd血缘、 (但并不会存储数据)

特性:

  1. rdd有多个分区构成
  2. 对rdd的每个分区做计算
  3. rdd之间有依赖关系,可以溯

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C语言 ——— 常见的动态内存错误(上篇)
  • Parallels Desktop 19 for Mac 安装虚拟机需要激活吗
  • 在不训练模型的情况下强化语言模型
  • 在idea中的git选择某一次记录拉出一个新分支
  • 软考:软件设计师 — 15.数据结构及算法应用
  • 企业级NoSql数据库Redis集群
  • Go 语言切片(Slice)
  • 结构化克隆算法是啥?
  • GoFly快速开发框架已经全部支持市面上见到的主流数据库
  • 语言基础/单向链表的构建和使用(含Linux中SLIST的解析和使用)
  • 【webpack】wabpack5 常用配置
  • 【ORACLE】minus() 函数
  • [数据集][目标检测]快递包裹检测数据集VOC+YOLO格式5382张1类别
  • 聚星文社——Ai推文工具
  • docker-harbor 仓库上传下载镜像以及仓库之间的镜像复制
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • Android 架构优化~MVP 架构改造
  • Angular js 常用指令ng-if、ng-class、ng-option、ng-value、ng-click是如何使用的?
  • ECMAScript入门(七)--Module语法
  • flask接收请求并推入栈
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • vue 配置sass、scss全局变量
  • 创建一种深思熟虑的文化
  • 工程优化暨babel升级小记
  • 工作踩坑系列——https访问遇到“已阻止载入混合活动内容”
  • 基于遗传算法的优化问题求解
  • 在Unity中实现一个简单的消息管理器
  • 追踪解析 FutureTask 源码
  • AI算硅基生命吗,为什么?
  • Java数据解析之JSON
  • 组复制官方翻译九、Group Replication Technical Details
  • ​​​​​​​ubuntu16.04 fastreid训练过程
  • #stm32驱动外设模块总结w5500模块
  • #vue3 实现前端下载excel文件模板功能
  • #传输# #传输数据判断#
  • (1)SpringCloud 整合Python
  • (1综述)从零开始的嵌入式图像图像处理(PI+QT+OpenCV)实战演练
  • (2.2w字)前端单元测试之Jest详解篇
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (pojstep1.1.2)2654(直叙式模拟)
  • (安全基本功)磁盘MBR,分区表,活动分区,引导扇区。。。详解与区别
  • (二十三)Flask之高频面试点
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)spring boot基于Java的电影院售票与管理系统毕业设计 011449
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (强烈推荐)移动端音视频从零到上手(上)
  • (译) 函数式 JS #1:简介
  • (转)项目管理杂谈-我所期望的新人
  • .locked1、locked勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .net mvc actionresult 返回字符串_.NET架构师知识普及
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • :=
  • :not(:first-child)和:not(:last-child)的用法
  • @ComponentScan比较
  • @selector(..)警告提示