大数据知识体系图

在我看来，学习大数据最起码要有如下四项前提：

大数据知识体系

首先，我们必须清楚的吗，明白自己学习大数据是要学什么东西，如果愣头青这里学一点那里学一点都不知道是干啥的，只会浪费很多时间。比如今天学一点Hadoop,明天学一点Spark，后天学一点flume没有系统的知识体系图是很抽象的，很难有高效益。

我们必须清楚的知道，各种大数据技术之间的区别和优缺点，为什么会有这项技术，比如Hadoop2明明都有MapReduce了，为何还需要Spark，Spark又有什么优点。学习Hadoop要学习那些内容，学习Spark又要学习哪些内容，为啥要掌握数学知识以及提高自己的英语水平，最后是否需要转人工智能。

所以，我们第一步一定要清楚的了解大数据的知识体系，以防在海量知识里迷失自己。

因为没有时间去系统的培训学习，所以我这边的大数据学习流程是，先学Hadoop，弄懂Hadoop的三大知识点：HDFS、Yarn、MapReduce。

然后学习Spark，弄懂Spark的源码，期间学习Scala语言的使用，因为Spark的源码就是scala写的。然后再去学习Hadoop的Hive，Hbase等等，流程大概这样子。

自己的大数据平台

学习大数据，必须有自己的大数据平台，因为搭建好环境是第一步，所以必须有一台电脑，然后安装虚拟机，搭建完全分布式环境来练习。当然有条件的可以用云服务器，或者多台电脑。

大数据项目
学习了大数据，必须要想办法去做项目，只有通过项目才能进一步的掌握大数据的使用，了解哪一些业务场景是可以用的.

阅读源码
如果说我们学习接口的调用的话，那么很简单，但是作为一个大数据工程师，必须知道原理，所以我们必须去阅读源码，像Hadoop就是java写的，Spark就是scala写的，我们要去专研源码。

当然这个过程中，我们要去提高我们的数据结构算法分析能力以及英语水平。

好啦，下面给出一张大数据知识体系图：

路漫漫其修远兮吾将上下而求索！