apache/beam_spark_job_serverApache Beam 是一个用于定义批处理和流处理数据并行处理管道的统一模型,提供特定于语言的SDK用于构建管道,并支持通过Runner在多种分布式处理后端(包括Apache Apex、Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet)执行。
Beam提供了一种通用方法来表达易并行化的数据处理管道,并支持三类背景和需求各异的用户:
Beam模型源于Google多个内部数据处理项目,包括MapReduce、FlumeJava 和 Millwheel,最初被称为“Dataflow模型”。
要深入了解Beam模型,可参考O'Reilly Radar的文章:Streaming 101、Streaming 102 以及 VLDB 2015论文。
Beam编程模型的关键概念包括:
Beam支持通过多种特定于语言的SDK基于Beam模型编写管道。目前,仓库包含以下SDK:
有关新SDK或DSL的想法,可查看 JIRA。
Beam通过PipelineRunners支持在多种分布式处理后端执行程序,当前可用Runner包括:
有关新Runner的想法,可查看 JIRA。
Beam适用于以下三类用户场景:
要学习编写Beam管道,可参考官网的快速入门指南:[Java、Python 或 Go]。
参与Apache Beam社区:
构建和测试Beam的详细说明参见 贡献指南。

manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务