
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
iomete公共Spark镜像是由iomete提供的Docker镜像,基于Apache Spark官方版本构建,旨在简化Spark应用程序的部署与运行流程。该镜像预先集成了常用依赖库(如Hadoop、AWS SDK、JDBC驱动等)和性能优化配置,使开发者无需手动配置环境即可快速启动Spark集群或提交Spark作业。
spark.memory.offHeap.enabled=true)3.3.0、3.4.0、3.5.0),适配不同应用需求spark-submit、spark-shell等工具的快捷启动脚本spark-shell或pyspark交互模式)通过Docker Hub拉取最新版本:
bashdocker pull iomete/spark:latest
拉取指定Spark版本(如3.4.0):
bashdocker pull iomete/spark:3.4.0
启动Spark Shell(交互式测试)
bash# Scala Shell docker run -it --rm iomete/spark:latest spark-shell # Python Shell (PySpark) docker run -it --rm iomete/spark:latest pyspark
提交Spark作业
本地有打包好的Spark应用JAR包(如my-spark-app.jar)时,通过spark-submit提交:
bashdocker run -v /local/path/to/my-spark-app.jar:/app.jar \ iomete/spark:latest \ spark-submit \ --class com.example.MyApp \ --master local[*] \ # 本地模式,使用所有CPU核心 /app.jar
启动伪分布式集群(Docker Compose)
创建docker-compose.yml文件:
yamlversion: '3' services: spark-master: image: iomete/spark:latest command: bin/spark-class org.apache.spark.deploy.master.Master ports: - "7077:7077" # Master通信端口 - "8080:8080" # Web UI端口 environment: - SPARK_MASTER_HOST=spark-master spark-worker: image: iomete/spark:latest command: bin/spark-class org.apache.spark.deploy.worker.Worker spark://spark-master:7077 environment: - SPARK_WORKER_MEMORY=2g # Worker内存分配 - SPARK_WORKER_CORES=2 # Worker CPU核心数 depends_on: - spark-master
启动集群:
bashdocker-compose up -d
访问 http://localhost:8080 可查看Spark Master Web UI。
环境变量配置
通过-e参数传递环境变量调整Spark配置:
| 环境变量 | 说明 | 默认值 |
|---|---|---|
SPARK_MASTER | Spark Master地址(如spark://host:7077) | local[*](本地模式) |
SPARK_DRIVER_MEMORY | Driver进程内存分配 | 1g |
SPARK_EXECUTOR_MEMORY | Executor进程内存分配 | 1g |
SPARK_EXECUTOR_CORES | 每个Executor的CPU核心数 | 1 |
PYSPARK_PYTHON | PySpark使用的Python解释器路径 | /usr/bin/python3 |
示例:调整Driver内存为4G并指定Master地址
bashdocker run -e SPARK_DRIVER_MEMORY=4g -e SPARK_MASTER=spark://master:7077 iomete/spark:latest spark-submit ...
自定义Spark配置文件
通过挂载本地spark-defaults.conf覆盖默认配置:
bashdocker run -v /local/path/to/spark-defaults.conf:/opt/spark/conf/spark-defaults.conf \ iomete/spark:latest \ spark-submit ...
3.4.0)而非latest,避免版本变更导致兼容性问题--executor-memory、--num-executors等参数调整资源分配AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY)以下是 iomete/spark 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。



来自真实用户的反馈,见证轩辕镜像的优质服务