Pekey‘s Blog

Pekey‘s Blog

卖马为生

Incremental ETL Pipeline Scheduling for Near RealTime Data Warehouses
Abstract本文工作基于一种针对按需数据仓库维护的增量ETL管道流水线技术,通过管道并行性来同时执行一系列的维护工作,其中每一个维护工作都需要从源本地事务中提取一批增量元组并附带一个提交时间戳,然后计算最终的增量,使相关数据库达到最新的状态。 每一个流水线操作都在一个独立的,不停止的线程中执行一个Job,每处理完一个任务,再新建一个新的。 但是,要连续执行增量连接或维护缓慢变化的维度表,可以同时访问和更新相同的临时表或维表,这些操作可以在不同的作业上工作。如果没有正确的线程协调,可能会产生不一致问题。 本文就将提出集中调度算法来解决这些问题。 Introduction针对数据仓库实时...
kylin开发环境搭建
maven安装下载所需的文件http://maven.apache.org/download.cgi 1234cd ~wget http://xenia.sote.hu/ftp/mirrors/www.apache.org/maven/maven-3/3.2.5/binaries/apache-maven-3.2.5-bin.tar.gztar -xzvf apache-maven-3.2.5-bin.tar.gzln -s /root/apache-maven-3.2.5/bin/mvn /usr/bin/mvn nodejs安装下载所需的包文件,当下node的最新稳定版本为6.10...
Kylin Cube构建过程学习
参考文献:https://blog.bcmeng.com MapReduce 计算引擎 批量计算Cube,其输入是Hive表,输出是HBase的KeyValue,整个构建过程主要包含以下6步: 建立Hive的大宽表; (MapReduce计算) 对需要字典编码的列计算列基数; (MapReduce计算) 构建字典; (JobServer计算 or MapReduce计算) 分层构建Cuboid; (MapReduce计算) 将Cuboid转为HBase的KeyValue结构(HFile); (MapReduce计算) 元数据更新和垃圾回收。Cube Build流程 CubeCont...
Speeding ETL Processing in Data Warehouses Using High-Performance Joins for Changed Data Capture 论文学习
本文主要介绍如下两种操作,来优化数据操作, 加速数据仓库处理 1.Join and 2.Aggregation – which will play an integral role during preprocessing as well in manipulating and consolidating data in a data warehouse. 1.连接和2.聚合 - 在预处理过程中以及在数据仓库中操纵和合并数据时,它们将扮演不可或缺的角色。 数据处理的挑战 ETL systems move data from OLTP systems to a data wareh...
Implementation of Change Data Capture in ETL Process for Data Warehouse Using HDFS and Apache Spark 论文学习
论文旨在提高ETL过程的效率,通过使用分布式的CDC技术来减少处理时间。 没什么干货,参考文献中的几篇有价值 可以参考这篇文章关于etl基本术语的介绍 snapshot difference技术 快照差分 介绍 Apache Spark can process data in large amounts using a relational scheme that can be manipulated to achieve maximum performance. Apache Hadoop was used to facilitate distributed storage i...
Hive环境搭建
Mysql安装关闭selinux 服务 vim /etc/selinux/config···SELINUX=disabled··· 卸载MariaDB 查看当前安装的mariadb包: rpm -qa | grep mariadb强制卸载: rpm -e –nodeps mariadb-libs-5.5.44-2.el7.centos.x86_64 查看是否已经安装了MySQL rpm -qa | grep -i mysqlfind / -name mysql 删除分散mysql文件 find / -name mysql / # whereis mysql 删除配置文档 ...
Spark Java API
参考文献:http://lxw1234.comRDD如何创建    首先创建JavaSparkContext对象实例sc 1JavaSparkContext sc = new JavaSparkContext("local","SparkTest"); 接受2个参数:第一个参数表示运行方式(local、yarn-client、yarn-standalone等)第二个参数表示应用名字 直接从集合转化 sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))从HDFS文件转化 sc.textFile("hdf...
Hbase环境搭建
配置过程 hbase-env.sh 1234export JAVA_HOME=/home/grid/jdk1.7.0_75 export HBASE_HOME=/home/grid/hbase export HBASE_LOG_DIR=/tmp/grid/logs export HBASE_MANAGES_ZK=true hbase-site.xml 1234567891011121314151617181920212223242526<configuration> <property> <name>hbase....
Hadoop环境搭建
配置过程 hadoop-env.sh 12export JAVA_HOME=/opt/java/jdk1.7.0_80export HADOOP_PREFIX=/opt/hadoop-2.6.4 core-site.xml 12345678910<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <prope...
pekey
莫把湖中倒影,错当漫天繁星
FRIENDS
老田