Apache Kylin二在EMR上搭建Kylin

作者: ZacksTang

EMR上搭建kylin

  1. 启动EMR集群

根据官网说明: http://kylin.apache.org/docs21/install/kylin_aws_emr.html

启动EMR时,若是 hbase 数据存储在 s3 ,则需指定以下配置:
[ { “Classification”: “hbase-site”, “Properties”: { “hbase.rpc.timeout”: “3600000”, “hbase.rootdir”: “s3://yourbucket/EMRROOT” } }, { “Classification”: “hbase”, “Properties”: { “hbase.emr.storageMode”: “s3” } } ]

如果使用 s3 作为 HBase 的存储,则需要增加 hbase.rpc.timeout 的时间。因为bulk load 到s3 是一个copy 操作,如果数据量很大的话,HBase region server 需要更多的时间完成(相较于HDFS)。

  1. 安装kylin sudo mkdir /usr/local/kylin sudo chown hadoop /usr/local/kylin cd /usr/local/kylin/ wget https://mirror.bit.edu.cn/apache/kylin/apache-kylin-2.6.5/apache-kylin-2.6.5-bin-hbase1x.tar.gz tar -zxvf apache-kylin-2.6.5-bin-hbase1x.tar.gz
  2. 配置 Kylin

从 /etc/hbase/conf/hbase-site.xml 中复制以下配置: hbase.zookeeper.quorum ip-10-0-3-107.cn-north-1.compute.internal

并填充到kylin_job_conf.xml 中。 EMR 推荐使用 HDFS 作为临时/中间文件存储,S3仅用作初始输入数据以及最终输出结果的存储。Kylin中有个配置 hdfs-working-dir,用于存放中间数据如Cube building、cuboid files,以及一些元数据文件(例如字典、以及表的snapshots,这些都不适合放在 HBase中);所以最好是为HDFS配置HDFS。

如果使用 HDFS 作为 Kylin 的工作目录,们直接使用Kylin的默认配置即可。在 kylin.properties 中,有以下配置: kylin.env.hdfs-working-dir=/kylin

在们关闭集群前,务必要备份 /kylin 目录下的数据(在HDFS上)到 S3,使用 s3-dist-cp即可。否则可能会丢失数据并且在之后无法恢复集群。

而如果要使用 S3 作为 “kylin.env.hdfs-working-dir”,则需要修改kylin.properties 中的以下配置: kylin.env.hdfs-working-dir=s3://your_bucket/kylin kylin.storage.hbase.cluster-fs=s3://your_bucket kylin.source.hive.redistribute-flat-table=false

这样中间临时文件以及HFile会都写入到S3,build 的性能也会慢于 HDFS。

  1. Hadoop 配置

为了在 S3 上有更好的性能以及避免一些数据一致性的问题,有些Hadoop 配置需要修改:
io.file.buffer.size 65536 mapred.map.tasks.speculative.execution false mapred.reduce.tasks.speculative.execution false mapreduce.map.speculative false mapreduce.reduce.speculative false

主要是加大 io buffer,以及关闭 speculative 执行。

如果kylin 的 hdfs 工作目录不存在的话,首先创建这个工作目录: hadoop fs -mkdir /kylin

若是工作目录在 s3 的话,则: hadoop fs -mkdir s3://your_bucket/kylin

  1. 启动 Kylin

启动方式与 Hadoop 方式基本一样: export KYLIN_HOME=/usr/local/kylin/apache-kylin-3.0.1-bin-hbase1x $KYLIN_HOME/bin/sample.sh $KYLIN_HOME/bin/kylin.sh start

如果期间出现了类似 spark home 不存在的报错,则执行以下命令: export SPARK_HOME=$ Kylin 的 web 服务端口启动在 7070,所以需要将主节点安全组的 7070 端口对访问客户端 ip 开放。

登录后的界面为:



原文创作:ZacksTang

原文链接:https://www.cnblogs.com/zackstang/p/12748061.html

文章列表

更多推荐

更多
  • Pulsar消息队列-一套高可用实时消息系统实现 实时消息【即时通信】系统,有群聊和单聊两种方式,其形态异于消息队列:1 大量的 group 信息变动,群聊形式的即时通信系统在正常服务形态下,瞬时可能有大量用户登入登出。2 ...
  • Pulsar消息队列-Pulsar对比Kafka笔记 很多人查看 Pulsar 之前可能对 Kafka 很熟悉,参照上图可见二者内部结构的区别,Pulsar 和 Kafka 都是以 Topic 描述一个基本的数据集合,Topic 数据又分为若干 Partition,即对数据进行逻辑上的 ...
  • Pulsar消息队列-对 2017 年一套 IM 系统的反思 信系统的开发,前前后后参与或者主导了六七个 IM 系统的研发。上一次开发的 IM 系统的时间点还是 2018 年,关于该系统的详细描述见 [一套高可用实时消息系统实现][1] ...
  • Apache APISIX文档-快速入门指南-如何构建 Apache APISIX 如何构建 Apache APISIX,步骤1:安装 Apache APISIX,步骤2:安装 etcd,步骤3:管理 Apache APISIX 服务,步骤4:运行测试案例,步骤5:修改 Admin API key,步骤6:为 Apac
  • Apache APISIX文档-快速入门指南-快速入门指南 快速入门指南,概述,前提条件,第一步:安装 Apache APISIX,第二步:创建路由,第三步:验证,进阶操作,工作原理,创建上游服务Upstream,绑定路由与上游服务,添加身份验证,为路由添加前缀,APISIX Dashboard
  • Apache APISIX文档-架构设计-APISIX APISIX,软件架构,插件加载流程,插件内部结构,配置 APISIX,插件加载流程,比如指定 APISIX 默认监听端口为 8000,并且设置 etcd 地址为 http://foo:2379, 其他配置保持默认。在 ...
  • Apache APISIX文档-架构设计-Service Service 是某类 API 的抽象(也可以理解为一组 Route 的抽象)。它通常与上游服务抽象是一一对应的,Route 与 Service 之间,通常是 N:1 的关系,参看下图。不同 Route 规则同时绑定到一个 Service ...
  • Apache APISIX文档-架构设计-Plugin Config 如果你想要复用一组通用的插件配置,你可以把它们提取成一个 Plugin config,并绑定到对应的路由上。举个例子,你可以这么做:创建 Plugin config,如果这个路由已经配置了 plugins,那么 Plugin config ...
  • Apache APISIX文档-架构设计-Debug Mode 注意:在 APISIX 2.10 之前,开启基本调试模式曾经是设置 conf/config.yaml 中的 apisix.enable_debug 为 true。设置 conf/debug.yaml 中的选项,开启高级调试模式。由于 ...
  • Apache APISIX文档-架构设计-Consumer 如上图所示,作为 API 网关,需要知道 API Consumer(消费方)具体是谁,这样就可以对不同 API Consumer 配置不同规则。授权认证:比如有 [key-auth] 等。获取 consumer_...
  • 近期文章

    更多
    文章目录

      推荐作者

      更多