一文教你在 Windows 上安装 Hadoop

前期准备

在 Windows 上安装 Hadoop,首先咱们得准备好一些必要的东西。像 Java 环境就是必须要有的,因为 Hadoop 是基于 Java 开发的。得先去官网下载适合你系统的 JDK 安装包,安装的时候记得配置好环境变量,这样系统才能找到 Java 程序。

hadoop 在Windows安装

还有就是 Hadoop 安装包,去 Apache Hadoop 的官方网站下载稳定版本,下载完解压到你指定的文件夹,比如说 C:hadoop

配置环境变量

这一步很关键。咱们要在系统的环境变量里添加 Hadoop 相关的路径。先新建一个 HADOOP_HOME 变量,值就是你解压 Hadoop 的路径,像刚才说的 C:hadoop。然后在 Path 变量里追加 %HADOOP_HOME%bin%HADOOP_HOME%sbin,这样系统就能在任何位置找到 Hadoop 的可执行文件了。

配置 Hadoop 文件

  1. core - site.xml:这个文件主要是配置 Hadoop 的核心参数。打开在 Hadoop 安装目录下的 etchadoopcore - site.xml 文件,在 <configuration> 标签里添加下面这段内容:

    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
    </property>
    <property>
    <name>hadoop.tmp.dir</name>
    <value>C:hadooptmp</value>
    </property>

    这里设置了默认的文件系统和临时目录。

  2. hdfs - site.xml:这个文件用于配置 HDFS 的相关参数。同样在 etchadoop 目录下找到 hdfs - site.xml,在 <configuration> 标签里添加:

    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
    <property>
    <name>dfs.namenode.name.dir</name>
    <value>C:hadoopdfsnamenode</value>
    </property>
    <property>
    <name>dfs.datanode.data.dir</name>
    <value>C:hadoopdfsdatanode</value>
    </property>

    这里设置了数据副本数量,以及 NameNode 和 DataNode 的存储目录。

  3. mapred - site.xml:这个文件是配置 MapReduce 相关参数的。先把 etchadoop 目录下的 mapred - site.xml.template 复制一份,重命名为 mapred - site.xml,然后打开在 <configuration> 标签里添加:

    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>

    表示使用 YARN 作为 MapReduce 的框架。

  4. yarn - site.xml:用于配置 YARN 的相关参数。在 etchadoop 目录下找到 yarn - site.xml,在 <configuration> 标签里添加:

    <property>
    <name>yarn.nodemanager.aux - services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
    </property>

    这里配置了 NodeManager 的辅助服务和 ResourceManager 的主机名。

解决 Windows 下的兼容性问题

Hadoop 原本是为 Linux 设计的,在 Windows 下运行有些地方得处理一下。咱们需要下载 winutils.exe 文件,把它放到 HADOOP_HOMEbin 目录下。

启动 Hadoop

一切准备好后,就可以启动 Hadoop 了。以管理员身份打开命令提示符,先格式化 NameNode,输入 hdfs namenode -format。格式化完成后,启动 Hadoop 相关服务,输入 start - all.cmd。如果启动过程没有报错,就可以通过浏览器访问 http://localhost:50070 查看 HDFS 的 Web 界面,访问 http://localhost:8088 查看 YARN 的 Web 界面。

这样,Hadoop 在 Windows 上就安装成功啦,你可以开始用它进行大数据处理相关的学习和实践咯。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。