标签 hadoop 下的文章

Hive安装步骤及HQL使用学习

Hive是一个使用类SQL管理分布式存储上大规模数据集的数据仓库，它提供了命令行工具和JDBC驱动程序帮助用户使用Hive。

hive基于hadoop，它的具体功能如下：

以上内容来自Apache Hive官网，hive在1.x版本中只支持MapReduce，从2.x开始开始支持其他分布式计算引擎。

在之前的文章记hadoop伪分布式安装中，我们已经成功地安装了Hadoop，并且在文章在java中通过API读写hdfs入门学习中实现了通过java代码访问hdfs文件系统，接下来就进入到了MapReduce的学习。

在之前的文章hdfs API学习中，我们已经能够成功连接hdfs，并对文件进行读写。hbase数据库的操作也非常简单，但你需要先大致了解一下hbase的架构。

HBase是一种列式的分布式数据库，它的实时查询性能相对较好，因此应用在很多即时查询场景中。在BI分析中，主要应用是多维立方体（Cube）。

在前一篇文章hadoop伪分布式安装中，我们安装好了MapReduce和hdfs相关组件，在上一篇安装的基础上，接下来记录一下hbase的安装。

在上一篇文章hadoop安装中，我们安装好了MapReduce和HDFS，接下来看看如何在java中读写hdfs文件。

最近在系统性学习大数据相关知识，看了一些教学视频，因为教学视频录的比较早了，中间也踩了一些坑，这里记录一下hadoop3.3.0的整个安装过程。