百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章
万字详文:腾讯研究员详解 Spark 部署与工作原理

作者:royran,腾讯CSIG应用研究员一、Spark概述Spark是UCBerkeleyAMPLab开源的通用分布式并行计算框架,目前已成为Apache软件基金会的顶级开源项...

Spark3 针对SQL有哪些优化手段 spark sql 优化器

相对于Spark2.3/2.4,Spark3提供了一些新特性,极大优化了超大数据量的查询。主要有三点:引入AdaptiveQueryExecution自适应执行,解决了热点数据倾斜的问...

画像笔记21- (标签挖掘过程中)开发性能调优

感觉下一个阶段学习的重点会是sparkrdd+scala相关的编程(sparksql+scala)。这章节原书内容比较简洁,还是要有一定的功底才能看懂。----------------...

实时计算引擎Spark笔试题:一些常见的比较总结

1Sparkrepartition和coalesce的区别1.1.repartition只是coalesce接口中shuffle为true的实现1.2.不经过shuffle,也就是coale...

分享几点 Spark Streaming 调优实践经验

本文主要介绍SparkStreaming调优实践经验。将从以下几个方面入手:数据序列化广播变量并行度批处理间隔内存管理...在使用Spark和SparkStreaming时,当我们将应...

Spark RDD介绍 spark中的rdd有哪些特征

Spark中重要设计RDD(ResilientDistributedDataSet),弹性分布式数据集。它是MR模型的拓展。能够在并行计算阶段进行数据共享。在Spark中,RDD大致可以分为两...

repartition和coalesce区别,怎么选择,你清楚吗

本文章向大家介绍Spark中的coalesce算子和repartition算子,主要包括coalesce和repartition的区别和使用场景、应用技巧。附带知识点总结,有需要的进来了解一下吧。一、...

15分钟教你快速学会!JVM内存区域异常分析

Java虚拟机在执行java程序时会把它所管理的内存会分为若干个不同的数据区域,不同的区域在内存不足时会抛出不同的异常。接下来将对各区域分别进行分析介绍,内容包括触发各区域OutOfMemoryErr...

Android内存优化大盘点 android内存性能优化

内存优化是性能优化的重头戏,因此这部分也花了很多时间来梳理。老规矩,先上大纲:1.1Android内存管理框架:这里针对上图进行简单描述:1)物理地址与虚拟地址:虚拟内存是程序和物理内存之间引入的中...

聊聊flink的MemoryStateBackend flink direct buffer memory

序本文主要研究一下flink的MemoryStateBackendStateBackendflink-runtime_2.11-1.7.0-sources.jar!/org/apache/flink/...