张恒 发布的文章

Hive是一个使用类SQL管理分布式存储上大规模数据集的数据仓库,它提供了命令行工具和JDBC驱动程序帮助用户使用Hive。

hive基于hadoop,它的具体功能如下:

  • 通过SQL轻松访问数据的工具,从而实现数据仓库任务,例如提取/转换/加载(ETL),报告和数据分析。
  • 一种将结构强加于各种数据格式的机制
  • 访问直接存储在Apache HDFS ™ 或其他数据存储系统(例如Apache HBase ™)中的文件
  • 通过Apache Tez ™, Apache Spark ™或 MapReduce执行查询
  • HPL-SQL的过程语言
  • 通过Hive LLAP,Apache YARN和Apache Slider进行亚秒级查询检索。

以上内容来自Apache Hive官网,hive在1.x版本中只支持MapReduce,从2.x开始开始支持其他分布式计算引擎。

- 阅读剩余部分 -

CodeMirror(下面简称为cm)是一款基于JavaScript、面向语言的前端代码编辑器。它支持开箱即用,自带了超过100种语言的库,同时还有很多附加功能,目前得到了jetbrains等公司的支持。在这个分类下,能够与cm并驾齐驱的另一个编辑器则是ACE。由于笔者并没有使用过ACE,因此就不对两者做对比了。接下来笔者会分几个章节来具体介绍介绍cm的基本使用方法和高级功能。

- 阅读剩余部分 -

HBase是一种列式的分布式数据库,它的实时查询性能相对较好,因此应用在很多即时查询场景中。在BI分析中,主要应用是多维立方体(Cube)。

在前一篇文章hadoop伪分布式安装中,我们安装好了MapReduce和hdfs相关组件,在上一篇安装的基础上,接下来记录一下hbase的安装。

- 阅读剩余部分 -