搜索内容

包含标签:大数据 的文章
  • Sprak配置项详解:哪些参数会影响应用程序执行性能?
    技术

    Sprak配置项详解:哪些参数会影响应用程序执行性能?

    我们学习了Broadcast Join这种执行高效的Join策略。要想触发Spark SQL选择这类Join策略,可以利用SQL Functions中的broadcast函数来强制广播基表。在这种情况……
    削笔刀 2024年10月10日
  • 数据关联优化:都有哪些Join策略,开发者该如何取舍?
    技术

    数据关联优化:都有哪些Join策略,开发者该如何取舍?

    我们知道, 在分布式环境中,Spark支持两类数据分发模式。一类是我们在[第7讲]学过的Shuffle,Shuffle通过中间文件来完成Map阶段与Reduce阶段的数据交换,因……
    削笔刀 2024年10月10日
  • Spark存储系统
    技术

    Spark存储系统

    我们前面学了Shuffle管理、RDD Cache和广播变量,这些功能与特性,对Spark作业的执行性能有着至关重要的影响。而想要实现这些功能,底层的支撑系统正是Spark存……
    削笔刀 2024年9月27日
  • 内存管理:Spark如何使用内存?
    技术

    内存管理:Spark如何使用内存?

    我们拜访了斯巴克建筑集团的分公司,熟悉了分公司的办公环境与人员配置,同时用“工地搬砖的任务”作类比,介绍了Spark Shuffle的工作原理。 今天这一讲,我们再……
    削笔刀 2024年9月26日
  • Spark学习笔记
    技术

    Spark学习笔记

    spark和sparkContext spark和sparkContext分别是两种不同的开发入口实例: spark是开发入口SparkSession实例(Instance),SparkSession在spark-shel……
    削笔刀 2024年9月25日
  • 如何让 Spark 跑得更快?分片大小与内存的供需之道
    技术

    如何让 Spark 跑得更快?分片大小与内存的供需之道

    在大数据计算框架 Apache Spark 中,如何合理地配置计算资源和分配数据处理任务至关重要。特别是在处理大规模数据集时,数据分片的大小与任务(Task)可用内存……
    削笔刀 2024年9月13日
  • Spark调度系统:如何把握分布式计算的精髓?
    技术

    Spark调度系统:如何把握分布式计算的精髓?

    在上一讲,我们通过“包工头与施工工人”的例子,初步认识了Spark进程模型中的Driver和Executors、以及它们之间的交互关系。Driver负责解析用户代码、构建计算流……
    削笔刀 2024年8月7日
  • Spark进程模型
    技术

    Spark进程模型

    我们先来说区别。首先,Word Count计算流图是一种抽象的流程图,而土豆工坊的流水线是可操作、可运行而又具体的执行步骤。然后,计算流图中的每一个元素,如……
    削笔刀 2024年8月7日