个人随笔
网站介绍
火龙的爷爷
2116759078
2116759078@qq.com
一个程序员的学习笔记
网站统计
访问 1052255
网站标签
当前位置:
首页
大数据
数据存储:行存储 VS 列存储
摘要:行存储,列存储概述目前大数据存储有两种方案可供选择:行存储(Row-Based)和列存储(Column-Based)。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行...
大数据
2020-05-14 23:40:43
Spark:常用转换操作:sortByKey()和sortBy()
1.sortByKey()功能:返回一个根据键排序的RDD示例val list = List(("a",3),("b",2),("c",1))val pairRdd = sc.parallelize(list)pairRdd.sortByKey().collect.foreach(println)结果(a,3)(b,2)(c,1)如果我们想逆向排序,就在后边加上false参数。
大数据
2019-11-30 23:52:42
Spark:一行代码实现wordcount
在Hadoop中实现wordcount要写一个map和一个reduce,要用FileSystem把文件读取进来,但是在spark-shell中超级简单,如下:sc.textFile("file:///home/hadoop/lwh.txt").flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b)....
大数据
2019-11-30 23:43:34
Spark:Spark 原理简述与 shuffle 过程介绍
Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口,这篇文章阐述一下Spark 原理简述与 shuffle 过程。1 引言1.1 Hadoop 和 Spark 的关系Google 在 2003 年和 2004 年先后发表了 Google 文件系统 GFS 和 MapReduce 编程模型两篇文章,. ...
大数据
2019-11-27 23:00:20
Spark:CentOS7-Spark3.0.0环境搭建(多种模式)
Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的,而且跟Hadoop集群的搭建流程也很相似,只是没有Hadoop集群那么多的配置文件要修改。本文中,我将详细介绍Spark的本地模式、Standalone模式(伪分布)、Standalone模式(全分布)、Yarn集群模式的搭建。准备工作Spark运行模式了解搭建之前,我们得了解Spark运行模式的种类,有如下四种:Local:多...
大数据
2019-11-26 23:41:48
Spark:认识Spark
1.什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS...
大数据
2019-11-26 23:01:58
mapreduce二次排序详解
什么是二次排序待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序。如何在mapreduce中实现二次排序mapreduce的工作原理MR的工作原理如下图(如果看不清可右键新标签页查看):还可以参考博文: MapReduce运行机制,MapReduce中Shuffle机制详解——Map端Shuffle,...
大数据
2019-11-22 23:13:06
MapReduce优化——Combiner与Partitioner
Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率。Combiner集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner(就像mapper,reducer)。combiner函数的输出作为reduce函数的输入。...
大数据
2019-11-21 23:19:25
MapReduce中Shuffle机制详解——Reduce端Shuffle
Reduce端的shuffle主要包括三个阶段,copy,sort(merge),reduceMap的输出文件放置在运行MapTask的NodeManager的本地磁盘上,它是运行ReduceTask的TaskTracker所需要的输入数据,但是Reduce输出不是这样的,它一般写到HDFS中(Reduce阶段)。1、Copy阶段Reduce进程启动一些数据copy线程,通过HTTP方式请求...
大数据
2019-11-21 23:02:33
MapReduce中Shuffle机制详解——Map端Shuffle
Shuffle阶段是指从Map的输出开始,包括系统执行排序以及传送Map输出到Reduce作为输入的过程。Sort阶段是指对Map端输出的Key进行排序的过程。不同的Map可能输出相同的Key,相同的Key必须发送到同一个Reduce端处理。Shuffle阶段可以分为Map端的Shuffle和Reduce端的Shuffle。shuffle是MapReduce的心脏,属于不断被优化和改进的代码...
大数据
2019-11-21 23:24:30
首页
<
1/4
36
>
尾页
有疑问发邮件到 : suibibk@qq.com 侵权立删
Copyright : 个人随笔
备案号 : 粤ICP备18099399号-2