大数据

个人随笔

当前位置：

首页

大数据

数据存储：行存储 VS 列存储

摘要：行存储，列存储概述目前大数据存储有两种方案可供选择：行存储（Row-Based）和列存储（Column-Based）。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行...

大数据 2020-05-14 23:40:43

Spark：常用转换操作：sortByKey()和sortBy()

1.sortByKey()功能：返回一个根据键排序的RDD示例val list = List(("a",3),("b",2),("c",1))val pairRdd = sc.parallelize(list)pairRdd.sortByKey().collect.foreach(println)结果(a,3)(b,2)(c,1)如果我们想逆向排序，就在后边加上false参数。

大数据 2019-11-30 23:52:42

Spark：一行代码实现wordcount

在Hadoop中实现wordcount要写一个map和一个reduce，要用FileSystem把文件读取进来，但是在spark-shell中超级简单，如下：sc.textFile("file:///home/hadoop/lwh.txt").flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b)....

大数据 2019-11-30 23:43:34

Spark：Spark 原理简述与 shuffle 过程介绍

Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口,这篇文章阐述一下Spark 原理简述与 shuffle 过程。1 引言1.1 Hadoop 和 Spark 的关系Google 在 2003 年和 2004 年先后发表了 Google 文件系统 GFS 和 MapReduce 编程模型两篇文章,. ...

大数据 2019-11-27 23:00:20

Spark：CentOS7-Spark3.0.0环境搭建（多种模式）

Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的，而且跟Hadoop集群的搭建流程也很相似，只是没有Hadoop集群那么多的配置文件要修改。本文中，我将详细介绍Spark的本地模式、Standalone模式（伪分布）、Standalone模式（全分布）、Yarn集群模式的搭建。准备工作Spark运行模式了解搭建之前，我们得了解Spark运行模式的种类，有如下四种：Local：多...

大数据 2019-11-26 23:41:48

Spark：认识Spark

1.什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS...

大数据 2019-11-26 23:01:58

mapreduce二次排序详解

什么是二次排序待排序的数据具有多个字段，首先对第一个字段排序，再对第一字段相同的行按照第二字段排序，第二次排序不破坏第一次排序的结果，这个过程就称为二次排序。如何在mapreduce中实现二次排序mapreduce的工作原理MR的工作原理如下图（如果看不清可右键新标签页查看）：还可以参考博文： MapReduce运行机制，MapReduce中Shuffle机制详解——Map端Shuffle，...

大数据 2019-11-22 23:13:06

MapReduce优化——Combiner与Partitioner

Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率。Combiner集群上的可用带宽限制了MapReduce作业的数量，因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner（就像mapper,reducer）。combiner函数的输出作为reduce函数的输入。...

大数据 2019-11-21 23:19:25

MapReduce中Shuffle机制详解——Reduce端Shuffle

Reduce端的shuffle主要包括三个阶段，copy，sort(merge)，reduceMap的输出文件放置在运行MapTask的NodeManager的本地磁盘上，它是运行ReduceTask的TaskTracker所需要的输入数据，但是Reduce输出不是这样的，它一般写到HDFS中（Reduce阶段）。1、Copy阶段Reduce进程启动一些数据copy线程，通过HTTP方式请求...

大数据 2019-11-21 23:02:33

MapReduce中Shuffle机制详解——Map端Shuffle

Shuffle阶段是指从Map的输出开始，包括系统执行排序以及传送Map输出到Reduce作为输入的过程。Sort阶段是指对Map端输出的Key进行排序的过程。不同的Map可能输出相同的Key，相同的Key必须发送到同一个Reduce端处理。Shuffle阶段可以分为Map端的Shuffle和Reduce端的Shuffle。shuffle是MapReduce的心脏，属于不断被优化和改进的代码...

大数据 2019-11-21 23:24:30

首页<1/436>尾页

回到顶部

有疑问发邮件到 : suibibk@qq.com 侵权立删

Copyright : 个人随笔备案号 : 粤ICP备18099399号-2