平台中实现大数据分析服务的步骤有哪些?
大家好,今天小六子来为大家解答以下的问题,关于平台中实现大数据分析服务的步骤有哪些?这个很多人还不知道,现在让我们一起来看看吧!
1、大数据平台的搭建步骤:linux系统安装 一般使用开源版的Redhat系统--CentOS作为底层平台。
2、为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。
3、2、分布式计算平台/组件安装 国内外的分布式系统的大多使用的是Hadoop系列开源系统。
4、Hadoop的核心是HDFS,一个分布式的文件系统。
5、在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。
6、2)开源组件一般免费,学习和维护相对方便。
7、3)开源组件一般会持续更新,提供必要的更新服务『当然还需要手动做更新操作』。
8、4)因为代码开源,若出bug可自由对源码作修改维护。
9、3、数据导入数据导入的工具是Sqoop。
10、用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。
11、4、数据分析数据分析一般包括两个阶段:数据预处理和数据建模分析。
12、数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。
13、这个过程可能会用到Hive SQL,Spark QL和Impala。
14、数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。
15、这一块最好用的是Spark。
16、常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。
17、5、结果可视化及输出API可视化一般式对结果或部分原始数据做展示。
18、一般有两种情况,行数据展示,和列查找展示。
19、要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。
20、Hbase提供快速『ms级别』的行查找。
21、 ElasticSearch可以实现列索引,提供快速列查找。
22、 大数据平台搭建中的主要问题稳定性 Stability 理论上来说,稳定性是分布式系统最大的优势,因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。
23、但也由于大数据平台部署于多台机器上,配置不合适,也可能成为最大的问题。
24、 2、可扩展性 Scalability 如何快速扩展已有大数据平台,在其基础上扩充新的机器是云计算等领域应用的关键问题。
25、在实际2B的应用中,有时需要增减机器来满足新的需求。
26、如何在保留原有功能的情况下,快速扩充平台是实际应用中的常见问题。
本文分享完毕,希望对你有所帮助。