clowder/extractors-wordcount本镜像为一个简单的文本统计提取器,核心功能是计算文本文件中的字符数、单词数和行数。作为Clowder数据管理框架的组件,需配合运行中的Clowder实例使用,支持通过Docker容器化部署,也可通过命令行、Systemd或Upstart方式启动,适用于需对文本文件进行基础统计分析的场景。
适用于需要对文本文件(如.txt格式)进行基础统计分析的场景,需集成到Clowder数据管理框架中使用,典型用户为使用Clowder进行数据管理和处理的研究人员或开发人员。
需先启动Clowder实例,启动帮助可参考Clowder安装指南。
bash# 从当前目录执行: docker build -t clowder_wordcount .
bashdocker run -t -i --rm --net clowder_clowder -e "RABBITMQ_URI=amqp://guest:guest@rabbitmq:5672/%2f" --name "wordcount" clowder_wordcount
运行容器后,打开Clowder Web应用,在.txt文件(或类似文本文件)上运行wordcount提取器即可完成分析。
支持任意Python 3版本,默认使用python:3.8。如需修改,编辑Dockerfile首行的FROM python:3.8,替换为目标Python 3版本镜像(如python:3.10)。
--net:将提取器连接到Clowder Docker网络(可通过docker network ls查看本地网络列表)-e RABBITMQ_URI=:设置RabbitMQ连接地址环境变量,格式为amqp://<用户名>:<密码>@<主机>:<端口>/<虚拟主机>,用于控制提取器与RabbitMQ服务器的绑定;也可设置RABBITMQ_EXCHANGE环境变量指定交换机,或使用--link参数直接链接到RabbitMQ容器--name:为容器分配名称,便于在Docker Desktop中识别需创建Python虚拟环境并安装依赖:
bashvirtualenv /home/clowder/virtualenv/wordcount . /home/clowder/virtualenv/wordcount/bin/activate pip install -r /home/clowder/extractors/wordcount/requirements.txt
bash. /home/clowder/virtualenv/wordcount/bin/activate /home/clowder/extractors/wordcount/wordcount.py
示例服务文件可实现在系统启动时自动运行Docker容器,适用于CoreOS或RedHat系统(需已安装Docker)。
clowder-wordcount.service文件复制到/etc/systemd/system目录bashsystemctl enable clowder-wordcount.service systemctl start clowder-wordcount.service
bashjournalctl -f -u clowder-wordcount.service
示例配置文件适用于Ubuntu系统,基于命令行执行方式,可在系统启动时自动启动提取器。配置中可指定与Docker容器相同的环境变量,控制台输出日志位于/var/log/upstart/wordcount.log。
如遇到任何问题,请通过Clowder Slack的#pyclowder频道寻求帮助。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务