Apache Spark 是一款专为大规模数据处理打造的统一分析引擎,它集成了批处理、流处理、机器学习、图计算等多种数据处理能力,通过基于内存的计算模型显著提升数据处理速度,具备高效、易用且可扩展的特性,能为企业和开发者提供一站式的大数据分析解决方案,支持从数据提取、清洗、转换到深度分析与应用部署的全流程,满足各类复杂数据场景下的处理需求,助力实现数据驱动的高效决策与业务创新。
收藏数: 113
下载次数: 1375832
类型:

library/sparkApache Spark 团队
Apache Spark™ 社区
以下是可用的镜像标签及其对应的 Dockerfile 源码链接,标签按功能和版本分类:
4.0.0 版本(Java 21 基础)
4.0.0-scala2.13-java21-python3-ubuntu、4.0.0-java21-python3、4.0.0-java21、python3、latest4.0.0-scala2.13-java21-r-ubuntu、4.0.0-java21-r4.0.0-scala2.13-java21-ubuntu、4.0.0-java21-scala4.0.0-scala2.13-java21-python3-r-ubuntu4.0.0 版本(Java 17 基础)
4.0.0-scala2.13-java17-python3-ubuntu、4.0.0-python3、4.0.0、python3-java174.0.0-scala2.13-java17-r-ubuntu、4.0.0-r、r4.0.0-scala2.13-java17-ubuntu、4.0.0-scala、scala4.0.0-scala2.13-java17-python3-r-ubuntu3.5.7 版本(Java 17/11 基础)
3.5.7-scala2.12-java17-python3-ubuntu、3.5.7-java17-python3、3.5.7-java17 等3.5.7-scala2.12-java11-python3-ubuntu、3.5.7-python3、3.5.7 等Apache JIRA SPARK 项目
amd64:amd64/sparkarm64v8:arm64v8/sparkdocs 仓库的 spark 目录(含历史记录)
Apache Spark™ 是一个多语言引擎,用于在单机或集群上执行数据工程、数据科学和机器学习任务。它提供 Scala、Java、Python 和 R 的高级 API,以及支持数据分析通用计算图的优化引擎。同时,它还包含丰富的高级工具:用于 SQL 和 DataFrames 的 Spark SQL、用于 pandas 工作负载的 pandas API on Spark、机器学习库 MLlib、图处理工具 GraphX,以及流处理工具 Structured Streaming。
最新 Spark 文档(含编程指南)可在 项目官网 查看。本文档仅包含基础使用说明。
启动 Scala 交互式 shell 的最简单方式:
consoledocker run -it spark /opt/spark/bin/spark-shell
示例代码(应返回 ***):
scalascala> spark.range(1000 * 1000 * 1000).count()
启动 PySpark 交互式 shell:
consoledocker run -it spark:python3 /opt/spark/bin/pyspark
示例代码(应返回 ***):
python>>> spark.range(1000 * 1000 * 1000).count()
启动 SparkR 交互式 shell:
consoledocker run -it spark:r /opt/spark/bin/sparkR
详细指南:官方文档
环境变量说明:spark-docker 仓库 OVERVIEW.md
Apache Spark、Spark、Apache、Apache 羽标 logo 及 Apache Spark 项目 logo 均为 Apache 软件基金会的商标。
本软件基于 Apache 许可证 2.0 版 授权。
与所有 Docker 镜像一样,本镜像可能包含其他软件(如基础系统的 Bash 等),这些软件可能采用其他许可证。部分自动检测到的许可证信息可在 repo-info 仓库的 spark 目录 查看。
使用预构建镜像时,用户需自行确保对镜像中所有软件的使用符合相关许可证要求。
以下是 spark 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。






manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务