Spark — 不仅仅是基础：处理100GB数据所需的Spark内存

2024/10/12 21:02:37

本文主要是介绍Spark — 不仅仅是基础：处理100GB数据所需的Spark内存，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

当你核心少但任务多时，就会出现这种情况哦，手忙脚乱的 🤷

贪多不一定是好事！不相信吗？问问数据工程师，他一接到任务就揽下来，从不会拒绝。（哎呀，不好意思，是不是冒犯到你了🙈🤐？）

你也可以问问那个刚刚多了5个新任务的家伙，因为他搞不定你的Spark作业需要多少核心！ 🙃

但是，说真的，假设你被交给一个任务，即搭建一个能“高效”处理100GB数据的Spark集群。

你准备怎么开始呢？

我来给你展示一下老板他是怎么做的。😏

第一步：需要多少执行核心？

我们先决定需要多少执行核心 🤔

步骤 2: 需要多少执行者？

既然我们知道了核心数量，接下来我们就得确定需要多少执行器。

显然地，这个数字会根据你在一个执行器里保留了多少执行核心而变化 😄

步骤 3：所需的总执行内存？

重要的一点！给每个执行器分配多少内存？🤔

执行器核心的总内存通常

默认分区内存的4倍 = 4×128 = 512 MB

所以，总执行内存 = 核心数 512 = 4 512 = 2GB

总结：处理100GB数据总共需要多少内存

我们来了！🥳让我们确认处理100GB数据所需的总内存吧

因此，要处理100GB的数据，需要至少400GB的总内存来实现完全并行处理。

也就是说，所有任务都会一起运行 😲

说，运行一个任务要花5分钟，处理100GB的数据量需要多久？——答案还是5分钟!! 因为所有任务都并行运行

另外一步：驱动程序内存应该设置为多少？

伙计，这就是高效处理100GB数据的方法 😉

需要注意的一点是，这是一个理想的方案，可以很容易地调整以适应项目的预算需求完全没问题

如果项目预算比较紧张，你可以将人员数量减半或减至原来的四分之三。不过这样做的话，处理的时间肯定会因此变长。

如果你喜欢，请点赞 👏，让更多数据工程师看到它。

谢谢你的阅读， 😁

这篇关于Spark — 不仅仅是基础：处理100GB数据所需的Spark内存的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！