武汉北大青鸟

武汉北大青鸟一直致力于培养中国IT技能型紧缺人才。

学校课程咨询服务:
400-888-4851
培训世界 >武汉北大青鸟 >新闻中心 >大数据必备核心技术

大数据必备核心技术

2020-03-15 09:19:34来源: 武汉北大青鸟
大数据必备核心技术
导读:

大数据系统的技术庞大而复杂,互联网高速发展的时代,大数据发展前景广阔,学习大数据就要掌握核心技术,今天小编为大家整理了一些资料,一起来跟随小编了解一下吧。

文章详情

大数据系统的技术庞大而复杂,互联网高速发展的时代,大数据发展前景广阔,学习大数据就要掌握核心技术,今天小编为大家整理了一些资料,一起来跟随小编了解一下吧。

数据采集
  对于来自不同来源的数据,包括移动互联网数据、社交网络数据等,这些结构化和非结构化的海量数据是分散的,即所谓的数据孤岛,这些数据在此时是没有意义的。数据采集是将这些数据写入数据仓库,将分散的数据集成在一起,并对数据进行分析。数据采集包括文件日志采集、数据库日志采集、关系数据库访问和应用程序访问。当数据量较小时,可以编写常规脚本将日志写入存储系统,但随着数据量的增长,这些方法不能提供数据安全性,且操作维护困难,需要较强的解决方案。
数据存储
  Hadoop作为一个开源框架,专为离线和大规模数据分析而设计。HDFS作为其核心存储引擎,在数据存储中得到了广泛的应用。HBase是一个分布式的、面向列的开源数据库,可以看作是HDFS的封装,HDFS本质上是一个数据存储和NoSQL数据库。HBase是一个关键/值系统,部署在HDFS上,以克服HDFS在随机读写方面的缺点。与Hadoop一样,HBase的目标主要依靠横向扩展,通过不断增加廉价的商用服务器来增加计算和存储容量。
数据清洗
  maprect作为hadoop的查询引擎,用于大规模数据集的并行计算。“地图”和“减少”是其主要思想。它极大地便利了程序员在不进行分布式并行编程的分布式系统中运行自己的程序。随着业务数据量的增加,需要进行培训和清理的数据将变得越来越复杂。此时,需要任务调度系统(如Oozie或Azkaban)来调度和监视关键任务。
数据分析
  蜂巢的核心工作是将sql语句转化为mr程序,将结构化数据映射到数据库表中,并提供hql(hellsql)查询功能。蜂巢本身不存储和计算数据。它完全依赖于hdfs和maprect。您可以将蜂巢理解为一个客户端工具,将sql操作转换为相应的映射减少任务,然后在hadoop上运行。蜂巢支持标准的sql语法,消除了用户编写地图程序的过程。它的出现使精通sql技能但不熟悉maprect、编程能力弱、不擅长java语言的用户可以轻松地使用sql语言查询、聚合和分析hdfs大型数据集上的数据。
上一篇: 下一篇: 大数据发展前景解析

武汉北大青鸟

武汉北大青鸟一直致力于培养中国IT技能型紧缺人才,学校采取小班教学,每个班级人数不超过30个人,让每一位学生都能受到老师的重视。

展开更多

咨询热线:400-888-4851

课程导航

1