石家庄海文国际

智能化学习系统,小班制,专业师资

学校课程咨询服务:
400-666-4820
培训世界 >石家庄海文国际 >新闻中心 >新手大数据学习路线规划

新手大数据学习路线规划

2020-05-04 09:50:36来源: 石家庄海文国际
新手大数据学习路线规划
导读:

大数据如此火热的现在,想必许多小伙伴都想要加入这个行业。也是我们今天就要拿出收藏已久的大数据学习计划。帮助你不走弯路,迈向大数据之路。

文章详情
1
新手大数据学习路线规划

 步
  大数据应用离不开基础软件的支撑,且大部分大数据组件部署在Linux操作系统上的用户空间,也有很多组件也借鉴了Linux操作系统的一些设计精髓,所以Linux既是大数据的强力支撑,也是很多性能问题的支撑者。
  同时数据库的相关知识也是必要的基础,熟悉MySQL数据库的安装与部署,还有备份和恢复等都是重点。
  所以在部分的学习中我们需要达到以下目标:
  1、通过对Linux操作系统体系结构、服务管理、包管理、NTP协议时间服务器、关系型数据库理论和MySQL数据库等相关知识的学习,
  掌握大部分安装部署Hadoop集群操作系统层面的技能,为后续搭建Hdoop集群、对比RDBMS与NoSQL数据库打基础。
  2、通过对Linux文件系统、内核参数、内存结构、以及Java虚拟机等相关知识的学习,为后续学习分布式文件系统,Hadoop集群优化扫清操作系统层面知识的障碍
  第二步
  Hadoop由许多元素构成。其最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce引擎,通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
  还有Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。在大数据中也起到一定作用。
  本模块通过学习HDFS,YARN(MapReduce)Spark等核心组件,了解Hadoop的基本运行框架。
  所以在第二部分的学习中我们需要达到以下目标:
  1、搭建单节点模拟分布式集群,熟悉HDFS命令;
  掌握HDFS体系结构,读写流程,能dump HDFS元数据文件;
  理解Flume组件架构,并能用Flume向HDFS平台导入文本日志;
  2、搭建多节点、可扩展集群;
  部署HDFS HA架构;
  理解并实现Hadoop YARN的多租户架构
  掌握Zookeeper组件原理;
  掌握Hadoop集群优化路径;
  第三步
  传统数据仓库在面对更大规模数据时显得力不从心,在寄希望于大数据平台时,MapReduce编程门槛让很多数据分析师望而却步,而Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  本模块通过学习Hive、Impala等大数据SQL分析组件,让用户将隐匿在泥沙之下的数据价值挖掘出来。
  所以在第三部分的学习中我们需要达到以下目标:
  1、安装部署Hive;
  理解Hive架构及执行原理;
  Hive的优化(分区、桶);
  Hive SQL语句优化;
  Hive常见故障诊断
 第四步
  在上个模块中,OLAP类型的需求得到了很好的解决方案,即针对数据查询分析的应用。但是这些组件对于数据的随机删改并不擅长。针对此种OLTP类型应用,大数据生态系统中有另外一类组件处理这样的问题,那就是NoSQL家族。这部分将介绍NoSQL的数据模型和分类,着重讲述代表的HBase。
  ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。在本部分也会涉及。
  所以在第四部分的学习中我们需要达到以下目标:
  1、理解HBase体系结构水平扩展的优势;部署HBase;
  设计HBase表;
  2、理解zookeeper在HBase集群中的作用;
  掌握HBase Schema设计注意事项;
  理解HBase协处理器;
  掌握HBase备份恢复步骤;
 第五步
  SQL语句属于声明式编程语言,这种Relational方式擅长处理结构化数据。大数据的数据来源种类繁多,数据类型多种多样,SQL并不能处理所有问题。所以需要用procedural方式,即编程方式处理复杂多变的数据类型和应用。本章介绍MapReduce、Spark编程模型,着重讲述利用Python在Spark平台做数据转换和分析。
  所以在第五部分的学习中我们需要达到以下目标:
  1、能指出Spark组件的产生背景;
  掌握Spark与RDD的关系;
  了解RDD使用场景,熟悉RDD操作;使用RDD方法做日志分析;
  理解Spark-on-YARN运行原理;
  掌握数据持久化方法。
  2、理解Spark共享变量及使用场景;
  在程序中使用广播变量和累加器;
  理解Spark SQL的产生的历史背景;
  创建DataFrame和DataSet;
  使用SparkSQL关联结构数据与非机构化数据;
  能够利用Spark实现客户群的分类;
 第六步
  前面5部分学习完毕之后,对于大数据平台的大部分问题,相比大家都会有思路去解决了。系统稳定运行之后,就要考虑运行的好不好,快不快。本模块针对HDFS数据、HBase数据、实时抓取数据加索引,以及Spark Streaming流式处理技术做重点介绍,为大数据处理提速
  所以在第六部分的学习中我们需要达到以下目标:
  1、理解Solr Cloud组件架构及原理;
  掌握MapReduce对静态数据索引过程;
  掌握Flume对实时数据索引过程;
  理解HBase索引实现原理-协处理器;掌握HBase Lily对HBase数据索引过程;
  介绍Cloudera Search
  2、了解流式计算的基本概念及分类方式;
  掌握Flume、Kafka组件的架构及原理;
  用Flume、Kafka、Spark Streaming搭建简单的流式处理应用;
  学会使用状态保持及滑动窗口等流式计算特性;
  第七步
  事物的原理和规律隐藏在纷繁杂乱的数据中,如何从数据中将他们挖掘出来服务生产生活,大数据的核心价值体现在此。本模块我们一起学习数据科学的数学基础、机器学习的算法。因为Spark正在取代MapReduce成为大数据平台数据处理的全新引擎,它也使得在大数据环境下高效的运用数据科学成为可能,所以我们着重介绍基于Spark的机器学习的实现,把握大数据的发展趋势,步入数据科学的殿堂。
  所以在第七部分的学习中我们需要达到以下目标:
  1、掌握数据科学的数据基础,掌握统计学基础知识。
  2、掌握机器学习理论;掌握推荐系统和决策系统原理
  3、掌握Spark Mllib组件架构;利用Spark Mllib实现推荐器;.学会引用常用机器学习算法。
  选修
  1.大数据Hadoop生态系统的组建大部分是java编写,但95%的企业是直接使用不会修改组建,所以培训课程包含冗长的java是不科学的。不过对于Java能做到一点了解还是不错的。
  2.web开发html及java,只是在大数据可视化阶段才会用到,并不是大数据课程的核心内容,所以有需要的同学再去学习吧。
  3.R语言具有丰富的统计方法,大多数人使用R语言是因为其具有强大的统计功能,R语言内部包含了许多经典统计技术的环境。通过对R语言基础知识的学习,了解R数据分析的通用流程。同时学习R语言在Spark计算框架的基本使用方法,可以为实现更强大的数据分析打基础。
  4.大数据时代需要数据开放,同时又需要保障敏感数据的安全。企业如何保障数据中心的安全性成为即将面临的重大课题,所以Hadoop集群的安全机制可以学习一下。
  同时可以在学习路上对照一下下面这张大数据知识体系。相信你完成这份学习计划后,任何大数据方面的工作都可以胜任。




石家庄海文国际

海文国际是一家专业的开发编程培训机构,海文是一家专注于IT职业培训服务的高端培训血学校,十分注重教学品质,拥有专业强大专家师资团队,用先进的人才服务改变青年

展开更多

咨询热线:400-666-4820

课程导航

1