
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
Feathr是LinkedIn开源的企业级高性能特征存储,已在生产环境使用超过6年,于2022年4月开源。本Docker镜像包含Feathr的UI和API层,提供特征定义、注册、共享及生产部署能力,支持批处理和流数据源,确保点时间正确性以避免数据泄露,助力机器学习模型训练与推理的特征管理。
如需在Python环境中安装Feathr客户端,执行:
bashpip install feathr
或安装GitHub最新代码:
bashpip install git+https://github.com/linkedin/feathr.git#subdirectory=feathr_project
Azure部署
Databricks部署
阅读https://linkedin.github.io/feathr/quickstart_databricks.html
Azure Synapse部署
阅读https://linkedin.github.io/feathr/quickstart_synapse.html
自定义UDF示例
pythondef add_new_dropoff_and_fare_amount_column(df: DataFrame): df = df.withColumn("f_day_of_week", dayofweek("lpep_dropoff_datetime")) df = df.withColumn("fare_amount_cents", df.fare_amount.cast('double') * 100) return df batch_source = HdfsSource(name="nycTaxiBatchSource", path="abfss://feathrazuretest3fs@feathrazuretest3storage.dfs.core.windows.net/demo_data/green_tripdata_2020-04.csv", preprocessing=add_new_dropoff_and_fare_amount_column, event_timestamp_column="new_lpep_dropoff_datetime", timestamp_format="yyyy-MM-dd HH:mm:ss")
窗口聚合特征示例
pythonagg_features = [Feature(name="f_location_avg_fare", key=location_id, # 查询/连接键 feature_type=FLOAT, transform=WindowAggTransformation( # 窗口聚合转换 agg_expr="cast_float(fare_amount)", agg_func="AVG", # 聚合函数 window="90d")), # 90天窗口 ] agg_anchor = FeatureAnchor(name="aggregationFeatures", source=batch_source, features=agg_features)
派生特征示例
python# 基于现有特征计算新特征 derived_feature = DerivedFeature(name="f_trip_time_distance", feature_type=FLOAT, key=trip_key, input_features=[f_trip_distance, f_trip_time_duration], transform="f_trip_distance * f_trip_time_duration") # 嵌入向量相似度计算示例 user_embedding = Feature(name="user_embedding", feature_type=DENSE_VECTOR, key=user_key) item_embedding = Feature(name="item_embedding", feature_type=DENSE_VECTOR, key=item_key) user_item_similarity = DerivedFeature(name="user_item_similarity", feature_type=FLOAT, key=[user_key, item_key], input_features=[user_embedding, item_embedding], transform="cosine_similarity(user_embedding, item_embedding)")
Feathr支持以下云服务集成:
| Feathr组件 | 云集成服务 |
|---|---|
| 离线存储(对象存储) | Azure Blob Storage、Azure ADLS Gen2、AWS S3 |
| 离线存储(SQL) | Azure SQL DB、Azure Synapse专用SQL池、Azure SQL VM、*** |
| 流数据源 | Kafka、EventHub |
| 在线存储 | Azure Cache for Redis |
| 特征注册与治理 | Azure Purview |
| 计算引擎 | Azure Synapse Spark池、Databricks |
| 机器学习平台 | Azure Machine Learning、Jupyter Notebook、Databricks Notebook |
| 文件格式 | Parquet、ORC、Avro、JSON、Delta Lake |
| 凭证管理 | Azure Key Vault |
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务