Apache Gluten Docker镜像是预配置的容器化环境,用于快速部署和运行Apache Gluten加速的Apache Spark集群。Gluten作为Spark的查询加速器,通过集成高效的执行引擎(如Meta Velox、ClickHouse)和优化技术(向量化执行、列式存储),可将Spark SQL查询性能提升2-10倍,同时保持与原生Spark的兼容性,降低迁移成本。
bashdocker run -d \ --name gluten-spark \ -e SPARK_MASTER="local[*]" \ -e GLUTEN_BACKEND="velox" \ -e SPARK_DRIVER_MEMORY="4g" \ -e SPARK_EXECUTOR_MEMORY="8g" \ -p 4040:4040 \ apache/gluten:latest
| 环境变量 | 描述 | 默认值 |
|---|---|---|
SPARK_MASTER | Spark集群Master地址(如spark://host:7077或local[*]) | local[*] |
GLUTEN_BACKEND | 选择Gluten后端引擎(支持velox、clickhouse、arrow) | velox |
SPARK_DRIVER_MEMORY | Spark Driver内存大小 | 2g |
SPARK_EXECUTOR_MEMORY | Spark Executor内存大小 | 4g |
GLUTEN_LOG_LEVEL | Gluten日志级别(DEBUG/INFO/WARN/ERROR) | INFO |
SPARK_SQL_EXTENSIONS | Spark SQL扩展类(启用Gluten需设置为io.glutenproject.sql.GlutenSparkSessionExtension) | 自动配置 |
通过spark-defaults.conf自定义Spark和Gluten属性,可通过挂载配置文件实现:
bashdocker run -d \ --name gluten-spark \ -v ./spark-defaults.conf:/opt/spark/conf/spark-defaults.conf \ apache/gluten:latest
示例spark-defaults.conf配置:
ini# 启用Gluten加速 spark.sql.extensions io.glutenproject.sql.GlutenSparkSessionExtension # 配置Velox后端内存限制 spark.gluten.velox.memory_pool.size 16g # 启用向量化执行 spark.gluten.sql.columnar.backend.velox.vectorized true # 优化Shuffle性能 spark.shuffle.manager org.apache.spark.shuffle.sort.ColumnarShuffleManager
yamlversion: '3' services: gluten-spark: image: apache/gluten:latest container_name: gluten-spark environment: - SPARK_MASTER=local[4] - GLUTEN_BACKEND=velox - SPARK_DRIVER_MEMORY=8g - SPARK_EXECUTOR_MEMORY=16g ports: - "4040:4040" # Spark UI端口 - "18080:18080" # Spark History Server端口 volumes: - ./data:/opt/spark/data # 挂载数据目录 - ./spark-defaults.conf:/opt/spark/conf/spark-defaults.conf restart: unless-stopped
http://localhost:4040bashdocker exec -it gluten-spark /opt/spark/bin/spark-sql \ -e "SELECT count(*) FROM parquet.`/opt/spark/data/sample.parquet`"
bashdocker logs gluten-spark | grep "Gluten backend initialized with"
clickhouse后端需提前部署ClickHouse集群)spark.gluten.velox.memory_pool.size)您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务