packet23/hadoop-base Docker Image Overview

packet23/hadoop-base

packet23

Hadoop沙箱项目的Docker镜像，用于快速部署Hadoop环境，支持相关开发、测试与学习场景。

1 次收藏下载次数: 0状态：社区镜像维护者：packet23仓库类型：镜像最近更新：3 个月前

轩辕镜像，加速的不只是镜像。点击查看

中文简介版本下载

轩辕镜像，加速的不只是镜像。点击查看

Hadoop Sandbox Docker镜像文档

1. 镜像概述和主要用途

Hadoop Sandbox Docker镜像是Hadoop Sandbox项目的容器化实现，提供Hadoop集群核心组件的容器化部署方案。该镜像集合将Hadoop生态系统的关键组件（HDFS、YARN、MapReduce等）拆分为独立镜像，旨在简化Hadoop环境的搭建、配置和管理，适用于Hadoop开发、测试、学习及小型演示场景。

2. 核心功能和特性

2.1 镜像组件说明

Hadoop Sandbox镜像包含以下核心组件，各组件功能如下：

hadoop-base：基础镜像，包含Hadoop发行版、运行时依赖库及预配置的系统用户，作为其他组件镜像的基础。
hadoop-client：客户端节点镜像，内置SSH服务器，支持通过SSH连接集群，提供Hadoop命令行工具（hdfs、yarn、mapred等）。
hadoop-hdfs-namenode：HDFS分布式文件系统的Namenode组件，负责管理文件系统元数据（如目录结构、文件位置）。
hadoop-hdfs-datanode：HDFS分布式文件系统的Datanode组件，负责存储实际文件数据块。
hadoop-yarn-resourcemanager：YARN资源管理器组件，负责集群资源（CPU、内存）的分配与调度。
hadoop-yarn-nodemanager：YARN节点管理器组件，运行在每个计算节点，负责启动和监控容器（Container）及任务执行。
hadoop-mapred-jobhistoryserver：MapReduce作业历史服务器，负责记录和查询已完成的MapReduce作业信息。

2.2 核心特性

组件化部署：各Hadoop组件独立封装为镜像，支持按需部署，灵活组合集群规模。
预配置依赖：内置Hadoop运行所需的JDK、SSH等依赖，无需手动安装配置。
用户隔离：预配置Hadoop专用系统用户（如hadoop），确保运行环境隔离与安全。
简化管理：通过容器化方式统一生命周期管理（启动、停止、重启），降低环境维护成本。

3. 使用场景和适用范围

适用场景

开发环境：供开发人员在本地搭建Hadoop测试环境，验证HDFS操作、MapReduce作业或YARN任务调度。
学习实践：帮助Hadoop初学者快速部署完整集群，实践HDFS、YARN、MapReduce等组件的基本操作。
测试验证：测试Hadoop集群配置（如副本数量、资源调度策略）对作业性能的影响。
小型演示：构建轻量级Hadoop集群，用于技术演示或教学展示。

不适用场景

生产环境：缺乏高可用（HA）配置、数据持久化机制不完善，无法满足生产级稳定性和可靠性要求。
大规模集群：容器化部署在资源隔离、网络性能上存在限制，不适合超大规模节点集群。

4. 使用方法和配置说明

4.1 前提条件

已安装Docker（20.10+）及Docker Compose（2.0+）。
主机需分配足够内存（建议至少4GB），Hadoop组件（尤其是Namenode、ResourceManager）对内存要求较高。

4.2 镜像拉取

假设镜像托管于Docker Hub（实际需替换为项目官方仓库地址），拉取命令如下：

bash
# 拉取基础镜像
docker pull hadoop-sandbox/hadoop-base:latest

# 拉取客户端镜像
docker pull hadoop-sandbox/hadoop-client:latest

# 拉取HDFS组件镜像
docker pull hadoop-sandbox/hadoop-hdfs-namenode:latest
docker pull hadoop-sandbox/hadoop-hdfs-datanode:latest

# 拉取YARN组件镜像
docker pull hadoop-sandbox/hadoop-yarn-resourcemanager:latest
docker pull hadoop-sandbox/hadoop-yarn-nodemanager:latest

# 拉取MapReduce作业历史服务器镜像
docker pull hadoop-sandbox/hadoop-mapred-jobhistoryserver:latest

4.3 单个镜像运行示例

以下为独立运行hadoop-client（客户端节点）的示例，用于通过SSH连接集群：

bash
docker run -d \
  --name hadoop-client \
  -p 2222:22 \  # 映射SSH端口到主机2222
  --network hadoop-net \  # 建议使用自定义网络隔离集群
  hadoop-sandbox/hadoop-client:latest

运行后，通过SSH连接客户端节点：

bash
ssh -p 2222 hadoop@localhost  # 默认用户：hadoop，密码：hadoop（需参考镜像实际配置）

4.4 集群部署（docker-compose配置示例）

Hadoop集群需多组件协同工作，推荐使用docker-compose编排部署。以下为最小化集群配置示例（docker-compose.yml）：

yaml
version: '3.8'

networks:
  hadoop-net:
    driver: bridge

volumes:
  hdfs-namenode-data:  # 持久化Namenode元数据
  hdfs-datanode-data:  # 持久化Datanode数据块

services:
  # HDFS Namenode
  namenode:
    image: hadoop-sandbox/hadoop-hdfs-namenode:latest
    container_name: hadoop-namenode
    networks:
      - hadoop-net
    volumes:
      - hdfs-namenode-data:/hadoop/dfs/name
    environment:
      - HDFS_NAMENODE_HOST=namenode  # 容器内主机名（与service名一致）
      - HDFS_REPLICATION_FACTOR=1  # 测试环境副本数设为1
    ports:
      - "9870:9870"  # HDFS WebUI端口
    restart: unless-stopped

  # HDFS Datanode
  datanode:
    image: hadoop-sandbox/hadoop-hdfs-datanode:latest
    container_name: hadoop-datanode
    networks:
      - hadoop-net
    volumes:
      - hdfs-datanode-data:/hadoop/dfs/data
    environment:
      - HDFS_NAMENODE_URI=hdfs://namenode:9000  # 连接Namenode地址
    depends_on:
      - namenode
    restart: unless-stopped

  # YARN ResourceManager
  resourcemanager:
    image: hadoop-sandbox/hadoop-yarn-resourcemanager:latest
    container_name: hadoop-resourcemanager
    networks:
      - hadoop-net
    ports:
      - "8088:8088"  # YARN WebUI端口
    environment:
      - YARN_RESOURCEMANAGER_HOST=resourcemanager
    depends_on:
      - namenode
    restart: unless-stopped

  # YARN NodeManager
  nodemanager:
    image: hadoop-sandbox/hadoop-yarn-nodemanager:latest
    container_name: hadoop-nodemanager
    networks:
      - hadoop-net
    environment:
      - YARN_RESOURCEMANAGER_HOST=resourcemanager
      - YARN_NODEMANAGER_HOST=nodemanager
    depends_on:
      - resourcemanager
    restart: unless-stopped

  # MapReduce JobHistoryServer
  jobhistoryserver:
    image: hadoop-sandbox/hadoop-mapred-jobhistoryserver:latest
    container_name: hadoop-jobhistoryserver
    networks:
      - hadoop-net
    ports:
      - "***:***"  # JobHistory WebUI端口
    environment:
      - MAPRED_HISTORY_SERVER_HOST=jobhistoryserver
    depends_on:
      - resourcemanager
    restart: unless-stopped

  # Hadoop Client（SSH访问）
  client:
    image: hadoop-sandbox/hadoop-client:latest
    container_name: hadoop-client
    networks:
      - hadoop-net
    ports:
      - "2222:22"  # SSH端口映射
    depends_on:
      - namenode
      - resourcemanager
    restart: unless-stopped

部署步骤：

创建docker-compose.yml文件，复制上述配置。

执行部署命令：

bash
docker-compose up -d  # 后台启动所有服务

验证集群状态：
- 访问HDFS WebUI：http://localhost:9870
- 访问YARN WebUI：http://localhost:8088
- 通过SSH连接客户端节点执行Hadoop命令：hdfs dfs -ls /

4.5 环境变量与配置参数

各镜像支持通过环境变量自定义配置，常用参数如下（具体以镜像版本为准）：

环境变量	组件	说明	默认值示例
`HADOOP_HOME`	所有组件	Hadoop安装路径	`/opt/hadoop`
`HDFS_NAMENODE_HOST`	namenode	Namenode主机名	`namenode`
`HDFS_NAMENODE_URI`	datanode/client	Namenode访问地址	`hdfs://namenode:9000`
`HDFS_REPLICATION_FACTOR`	namenode	HDFS默认副本数	`3`（测试环境建议设为`1`）
`YARN_RESOURCEMANAGER_HOST`	resourcemanager/nodemanager	ResourceManager主机名	`resourcemanager`
`MAPRED_HISTORY_SERVER_HOST`	jobhistoryserver	JobHistoryServer主机名	`jobhistoryserver`

5. 注意事项

数据持久化：生产环境需通过volumes持久化Namenode元数据和Datanode数据，避免容器删除导致数据丢失。
资源配置：根据集群规模调整容器内存/CPU限制（通过docker run --memory或docker-compose的deploy.resources配置）。
网络隔离：使用自定义Docker网络（如示例中的hadoop-net）确保集群组件通信隔离。
安全性：默认配置可能包含弱密码（如hadoop/hadoop），生产环境需修改用户密码并限制SSH访问。
版本兼容性：不同Hadoop版本的组件端口（如HDFS的9870端口对应Hadoop 3.x）可能不同，需根据镜像Hadoop版本调整端口映射。