
opea/dataprepDataprep微服务旨在预处理来自各种来源(结构化或非结构化数据)的数据为文本数据,并将文本数据转换为嵌入向量后存储到数据库中。
bashapt-get update apt-get install libreoffice
非结构化数据偶尔会包含图像数据,要将图像数据转换为文本数据,可使用LVM(大视觉模型)对图像进行总结。如需使用LVM,请先参考此文档启动LVM微服务,然后在启动任何dataprep微服务之前设置以下环境变量。
bashexport SUMMARIZE_IMAGE_VIA_LVM=1
Dataprep微服务支持多种数据库,如下表所示,详情请参考以下各自的文档。
| 数据库 | 文档 |
|---|---|
Redis | 使用Redis的Dataprep微服务 |
Milvus | 使用Milvus的Dataprep微服务 |
Qdrant | 使用Qdrant的Dataprep微服务 |
Pinecone | 使用Pinecone的Dataprep微服务 |
PGVector | 使用PGVector的Dataprep微服务 |
VDMS | 使用VDMS的Dataprep微服务 |
Multimodal | 使用Multimodal的Dataprep微服务 |
ElasticSearch | 使用ElasticSearch的Dataprep微服务 |
OpenSearch | 使用OpenSearch的Dataprep微服务 |
neo4j | 使用neo4j的Dataprep微服务 |
financial domain data | ***领域数据的Dataprep微服务 |
MariaDB | 使用MariaDB Vector的Dataprep微服务 |
ArangoDB | 使用ArangoDB Vector的Dataprep微服务 |
在离线环境(即无互联网访问的环境)中运行dataprep微服务的通用步骤如下,适用于所有数据库后端:
huggingface-cli download --cache-dir <模型数据目录> <模型>dataprep微服务:<模型数据目录>挂载为dataprep容器内的/data目录dataprep微服务时设置环境变量HF_HUB_OFFLINE为1例如:docker run -d -v <模型数据目录>:/data -e HF_HUB_OFFLINE=1 ... ...






manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务