Hadoop技术在商业智能BI中的应用

news/2025/2/9 2:15:35 标签: Hadoop, 大数据, 云计算, 商业智能

Hadoop是个很流行的分布式计算解决方案,是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系统,MapReduce是分布式计算引擎。时至今日,Hadoop在技术上已经得到验证、认可甚至到了成熟期,同时也衍生出了一个庞大的生态圈,比较知名的包括HBase、Hive、Spark等。HBase是基于HDFS的分布式列式数据库,HIVE是一个基于HBase数据仓库系统。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能,基于HIVE服务,并可共享HIVE的元数据。Spark是一个类似MapReduce的并行计算框架,也提供了类似的HIVE的Spark SQL查询接口,Hive是基于hadoop的数据分析工具。

很多企业比如银行流水作业很多,数据都是实时更新且数据量很大。会采用hadoop作为底层数据库,借由中间商处理底层数据,然后通过BI系统去连接这些中间数据处理厂商的中间表,接入处理数据,尤其以星环、华为这类hadoop大数据平台商居多,使用也较为广泛。

这里以星环大数据平台与帆软大数据BI工具FineBI的结合应用来简单介绍下。

由于星环也是处理hadoop下的hive数据库,其本质都是差不多的,可以使用Hive提供的jdbc驱动,这个驱动同样可以让FineBI连接星环的数据库并进行一些类关系型数据库的sql语句查询等操作,部分特殊sql的公式需要与星环人员确认是否可以使用。

首先将这些驱动拷贝到报表工程下面,然后重启BI服务器。重启后可以建立与星环数据库的数据连接,最后通过连接进行数据查询。

1、本地部署

下图是FineBI内部测试用的hadoop的jar包(将以下jar包放置于webinf-lib文件夹下),亲测,可连接成功,如下图所示:

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

2、数据连接

数据连接如下图所示:

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

测试连接成功之后,点击确定,可直接选择数据库中对应的表加入业务包中,类似于Mysql这些最常见的数据库取表方式。

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

3、实际分析案例

某银行的总行层面-机构维度-四象限图

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

(2)总行层面-机构维度-趋势分析

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

(3)总行层面-产品维度-盈利产品

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

4.关于FineBIFineIndexFineDirect功能

<a class=Hadoop技术在商业智能BI中的应用" style="border:0px; max-width:100%; display:block; margin:10px auto" />

hadoop是底层,hive是数据库,上述案例采用的是FineIndex(cube连)连接,用的是hiveserver的方式进行数据连接的;数据连接成功之后,将hive数据库中的表添加到业务包中,也就是将库中数据拿到我们的多维数据库(FineIndex),当然抓取的过程中也可以读取数据库关联和转义,也可以手动转义和进行关联,同时也可以做一些etl操作如新增公式列/行列转换/join/union/过滤/分组统计/自循环列/新增分组列/使用部分字段等,做过处理的这些数据表用于前端分析。

也就是说数据库-FineIndex-前端分析,这里的FineIndex相当于一个中间库的形式,用来存储数据表,关联转义索引等。这些都对后续前台分析处理数据效率有很大的提升(因为直接sql取数,效率受数据库本身的限制,数据量大时,一般分析工具很容易就卡死升职内存溢出导致系统无响应),这也是FineIndex方案的初衷。FineIndex存在有两个意义,一个是提升效率,一个就是对数据进行二次整合处理。

FineBI还有一个连接方式FineDirect(数据库直连),主要是应对如下需求:

  • 分析结果的实时性

企业用户在使用BI工具的时候,多数情况下是对大量的历史数据进行OLAP分析,但是也有部分用户需要展现结果的实时性。例如金融行业对于交易风险的分析,是对每一笔流水实时进行分析的,如果需要经过构建多维数据库的过程,数据到来就会有延迟,影响分析结果的准确性。但是因为计算的过程交给了数据库,响应速度更多的取决于数据库的性能。

随着各种分布式计算方案的不断优化,数据的计算性能也有了快速的发展,计算能力有了显著的提高,不少企业已经有了自己的大数据计算平台,例如hadoop,kylin,greenplum,vertica等,这些平台的对于大数据量的处理性能已经足以满足使用需求,不再有建模的需求,因此FineBI直连引擎提供了对接这些数据平台的功能。


http://www.niftyadmin.cn/n/1132568.html

相关文章

关于Cisco SDM软件的一些常见问题及解决办法(转)

关于Cisco SDM软件的一些常见问题及解决办法 Cisco SDM软件是一款非常强大的图形化配置界面&#xff0c;但是在安装启动上经常会遇到一些问题&#xff08;红色标出&#xff09;&#xff0c;本人经过调试&#xff0c;总结了一些常见问题及解决方案希望对想做实验的朋友有所帮助。…

基于局部均方差相关信息的图像去噪及其在实时磨皮美容算法中的应用。

在1979年Lee发表的论文《Lee Filter Digital Image Enhancement and Noise Filtering by Use of Local Statistics》中&#xff0c;提出了基于局部信息去除加性噪音、乘性噪音及加性乘性混合噪音的方法&#xff0c;经过仔细的学习和编码&#xff0c;发现其去除加性噪音的方法效…

企业构建大数据分析体系的4个层级

关于企业的大数据体系构建&#xff0c;可以分为4个层级&#xff0c;每个层级之间可以是递进的关系&#xff0c;虽然业务主导不同&#xff0c;但构建思路相通。 下面这张图&#xff0c;是本文的精华概括&#xff0c;接下来将一一展开与大家探讨。 一、数据基础平台 基础的数据平…

点击高德地图上的Marker,如何避免地图自动跳转至以marker为中心

2019独角兽企业重金招聘Python工程师标准>>> 其实这个问题在api中已经有说明&#xff0c;就是在onMarkerClick的方法中&#xff0c;设置返回值为true即可。 onMarkerClick boolean onMarkerClick(Marker marker) 当一个marker 对象被点击时调用此方法。 参数:ma…

HP-UX col

col - filter reverse line-feeds and backspaces Export to txt file,and download to windows 7 use securefx,open it use notepad in windows 7. # man col >col.txt # man col | col -b>colcol.txt 转载于:https://blog.51cto.com/lightguide/1032176

大数据系列修炼-Scala课程05

Scala多重继承、构造器的执行顺序、AOP实现 多重继承的trait实现&#xff1a;Scala中接口可以继承具体的类&#xff0c;trait接口可以实现多重继承&#xff0c;并且某个类也可以继承特定的类&#xff0c;在继承后面可以混入&#xff0c;接口的实现多重继承构造器执行顺序&#…

价值百万的企业大数据分析报告是如何炼成的?

很多企业往往会花高额价钱来请咨询公司对企业的整体经营情况做一个分析&#xff0c;生成一个报告。但是对于多数已经有数据管理的企业&#xff0c;可以针对一个具体企业、一个具体问题开展针对性的数据分析&#xff0c;从点到面地解决问题。现如今企业有了更多的数据来源途径和…

ubuntu 重启输入法

killall ibus-daemon // killall 杀死进程 &#xff0c; ibus-daemon 进程名 ibus-daemon -d // -d 后台运行 | &