网站首页 spark算子 第4页
-
美团图灵机器学习平台性能起飞的秘密(一)
美团图灵机器学习平台在长期的优化实践中,积累了一系列独特的优化方法。本文主要介绍了图灵机器学习平台在内存优化方面沉淀的优化技术,我们深入到源码层面,介绍了Spark算子的原理并提供了最佳实践。希望为读者带来一些思路上的启发。...
2024-10-12 btikc 技术文章 6 ℃ 0 评论 -
大数据Spark面试知识点总结,大数据面试必备指南
1Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个...
2024-10-12 btikc 技术文章 11 ℃ 0 评论 -
面试必问Spark调优之算子调优 sparkaction算子
Spark算子是用于在Spark分布式计算框架中对数据集进行操作和转换的函数。这些算子提供了丰富的功能,可以在大规模数据集上进行高效的并行处理。开发工作中使用最多的就是Spark算子的应用,相对于而言对于RDD算子的优化也很重要,本文就来重...
2024-10-12 btikc 技术文章 5 ℃ 0 评论 -
Spark 系统的理论基石——RDD spark rdma
首发自公众号:木鸟杂记概述RDD,学名可伸缩的分布式数据集(ResilientDistributedDataset)。是一种对数据集形态的抽象,基于此抽象,使用者可以在集群中执行一系列计算,而不用将中间结果落盘。而这正是之前MR抽象...
2024-10-12 btikc 技术文章 3 ℃ 0 评论 -
三位清华大佬,花两年时间写出:Spark大数据商业实战三部曲
前言本篇基于Spark2.2.X最新版本,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。...
2024-10-12 btikc 技术文章 2 ℃ 0 评论 -
spark运行的基本流程 简述spark的运行模式
前言:由于最近对spark的运行流程非常感兴趣,所以阅读了《Spark大数据处理:技术、应用与性能优化》一书。通过这本书的学习,了解了spark的核心技术、实际应用场景以及性能优化的方法。本文旨在记录和分享下spark运行的基本流程。一、s...
2024-10-12 btikc 技术文章 4 ℃ 0 评论 -
Flink进阶教程:以flatMap为例,如何进行算子自定义,先马后看
之前的四篇文章对Flink常用的算子进行了详细讲解并附上了大量使用案例:Flink算子使用方法及实例演示:map、filter和flatMap...
2024-10-12 btikc 技术文章 4 ℃ 0 评论 -
「每日一道大数据面试题系列」spark如何调优
如果面试时被问到spark任务如何调优,我们该如何回答呢?下面我们从四大方面回答这个问题,保证吊打面试官。一、spark性能调优1、分配更多的资源比如增加执行器个数(num_executor)、增加执行器个数(executor_cores)...
2024-10-12 btikc 技术文章 2 ℃ 0 评论 -
30分钟理解Spark的基本原理 简述spark的运行原理
文章发布于公号【数智物语】(ID:decision_engine),关注公号不错过每一篇干货。作者|梁云1991转载自Python与算法之美(ID:Python_Ai_Road)01Spark优势特点作为大数据计算框架MapRedu...
2024-10-12 btikc 技术文章 4 ℃ 0 评论 -
大数据Hadoop之——计算引擎Spark
一、概述ApacheSpark是专为大规模数据处理而设计的快速通用的...
2024-10-12 btikc 技术文章 5 ℃ 0 评论
- 控制面板
- 网站分类
- 最新留言
-