如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
Apache Beam 是一个用于定义批处理和流处理数据并行处理管道的统一模型,同时提供一组特定语言的SDK用于构建管道,以及在分布式处理后端执行管道的运行器(Runner),包括Apache Apex、Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet。
Beam提供了一种通用方法来表达易并行化的数据处理管道,并支持三类用户,每类用户具有不同的背景和需求:
Beam背后的模型源于Google的多个内部数据处理项目,包括MapReduce、FlumeJava 和 Millwheel。该模型最初被称为“Dataflow模型”。
要了解更多关于Beam模型(仍使用原名称Dataflow)的信息,请参阅O'Reilly的Radar网站上的“批处理之外的世界”:Streaming 101 和 Streaming 102,以及 VLDB 2015论文。
Beam编程模型中的关键概念包括:
PCollection:表示数据集合,大小可以是有界的或无界的。PTransform:表示将输入PCollection转换为输出PCollection的计算。Pipeline:管理准备执行的PTransforms和PCollections的有向无环图。PipelineRunner:指定管道应在何处以及如何执行。Beam支持针对Beam模型编写管道的多种特定语言SDK。
目前,该仓库包含Java、Python和Go的SDK。
有关新SDK或DSL的想法?请参阅JIRA。
Beam通过PipelineRunners支持在多个分布式处理后端上执行程序。目前,可用的PipelineRunners如下:
DirectRunner:在本地机器上运行管道。ApexRunner:在Apache Hadoop YARN集群(或嵌入式模式)上运行管道。DataflowRunner:将管道提交到Google Cloud Dataflow。FlinkRunner:在Apache Flink集群上运行管道。代码从https://github.com/dataArtisans/flink-dataflow ***,现已成为Beam的一部分。SparkRunner:在Apache Spark集群上运行管道。代码从https://github.com/cloudera/spark-dataflow ***,现已成为Beam的一部分。JetRunner:在Hazelcast Jet集群上运行管道。代码从https://github.com/hazelcast/hazelcast-jet ***,现已成为Beam的一部分。有关新运行器的想法?请参阅JIRA。
要了解如何编写Beam管道,请阅读我们网站上提供的[Java、Python 或 Go]快速入门指南。
要参与Apache Beam:
有关构建和测试Beam本身的说明,请参见贡献指南。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。

来自真实用户的反馈,见证轩辕镜像的优质服务