标签 hadoop 下的文章

Hive是一个使用类SQL管理分布式存储上大规模数据集的数据仓库,它提供了命令行工具和JDBC驱动程序帮助用户使用Hive。

hive基于hadoop,它的具体功能如下:

  • 通过SQL轻松访问数据的工具,从而实现数据仓库任务,例如提取/转换/加载(ETL),报告和数据分析。
  • 一种将结构强加于各种数据格式的机制
  • 访问直接存储在Apache HDFS ™ 或其他数据存储系统(例如Apache HBase ™)中的文件
  • 通过Apache Tez ™, Apache Spark ™或 MapReduce执行查询
  • HPL-SQL的过程语言
  • 通过Hive LLAP,Apache YARN和Apache Slider进行亚秒级查询检索。

以上内容来自Apache Hive官网,hive在1.x版本中只支持MapReduce,从2.x开始开始支持其他分布式计算引擎。

- 阅读剩余部分 -

HBase是一种列式的分布式数据库,它的实时查询性能相对较好,因此应用在很多即时查询场景中。在BI分析中,主要应用是多维立方体(Cube)。

在前一篇文章hadoop伪分布式安装中,我们安装好了MapReduce和hdfs相关组件,在上一篇安装的基础上,接下来记录一下hbase的安装。

- 阅读剩余部分 -