Requirements
- Target platform
- OpenClaw
- Install method
- Manual import
- Extraction
- Extract archive
- Prerequisites
- OpenClaw
- Primary doc
- SKILL.md
为OpenClaw提供中文文本处理、翻译、OCR、语音识别等功能的综合工具包。支持中文分词、拼音转换、中英文翻译、关键词提取、文本分析等功能。
为OpenClaw提供中文文本处理、翻译、OCR、语音识别等功能的综合工具包。支持中文分词、拼音转换、中英文翻译、关键词提取、文本分析等功能。
Hand the extracted package to your coding agent with a concrete install brief instead of figuring it out manually.
I downloaded a skill package from Yavira. Read SKILL.md from the extracted folder and install it by following the included instructions. Tell me what you changed and call out any manual steps you could not complete.
I downloaded an updated skill package from Yavira. Read SKILL.md from the extracted folder, compare it with my current installation, and upgrade it while preserving any custom configuration unless the package docs explicitly say otherwise. Summarize what changed and any follow-up checks I should run.
为OpenClaw提供中文文本处理、翻译、OCR、语音识别等功能的综合工具包。
• 处理中文文本内容 • 中英文翻译需求 • 中文语音识别和合成 • 中文文档处理和分析 • 中文内容创作和优化
基础处理: • 中文分词 (jieba) • 词性标注 • 命名实体识别 • 关键词提取 • 文本摘要 高级处理: • 情感分析 • 文本分类 • 相似度计算 • 文本纠错 • 风格转换
翻译服务: • 百度翻译API集成 • 谷歌翻译API集成 • 腾讯翻译API集成 • 本地翻译模型 翻译功能: • 文本翻译 • 文档翻译 • 实时翻译 • 批量翻译
图像文字识别: • 图片中文文字提取 • PDF文档文字识别 • 手写文字识别 • 表格识别 支持格式: • 图片: JPG, PNG, BMP • 文档: PDF, Word, Excel • 扫描件: 各种扫描格式
语音识别: • 中文语音转文字 • 方言识别支持 • 实时语音识别 • 音频文件处理 语音合成: • 文字转中文语音 • 多种音色选择 • 情感语音合成 • 批量语音生成
Python库: 基础库: • jieba: 中文分词 • pypinyin: 拼音转换 • opencc: 简繁转换 • snowland: 中文NLP 高级库: • transformers: 预训练模型 • paddlepaddle: 百度飞桨 • torch: PyTorch深度学习 命令行工具: • curl: API调用 • tesseract: OCR识别 • ffmpeg: 音频处理 • pandoc: 文档转换
免费API: • 百度翻译API (免费额度) • 腾讯云AI (试用额度) • 阿里云智能语音 (试用) • 讯飞开放平台 (试用) 本地服务: • 本地OCR服务 • 本地翻译模型 • 本地语音识别 • 本地文本分析
中文分词: # 使用技能进行中文分词 openclaw技能调用 chinese-toolkit --function segment --text "今天天气真好" 中英翻译: # 中译英 openclaw技能调用 chinese-toolkit --function translate --text "你好世界" --from zh --to en # 英译中 openclaw技能调用 chinese-toolkit --function translate --text "Hello World" --from en --to zh
文档处理: # 提取PDF中的中文文字 openclaw技能调用 chinese-toolkit --function ocr --file document.pdf --language zh # 中文文档摘要 openclaw技能调用 chinese-toolkit --function summarize --file report.txt --language zh --length 200 语音处理: # 中文语音识别 openclaw技能调用 chinese-toolkit --function speech2text --audio recording.wav --language zh # 文字转语音 openclaw技能调用 chinese-toolkit --function text2speech --text "欢迎使用中文工具包" --output welcome.mp3
chinese-toolkit/ ├── SKILL.md # 技能说明文档 (本文件) ├── requirements.txt # Python依赖库 ├── chinese_tools.py # 核心Python模块 ├── config.json # 配置文件 ├── scripts/ # 脚本目录 │ ├── install_deps.sh # 安装依赖脚本 │ ├── test_functions.sh # 功能测试脚本 │ └── update_models.sh # 模型更新脚本 ├── models/ # 模型文件目录 │ ├── segmentation/ # 分词模型 │ ├── translation/ # 翻译模型 │ └── speech/ # 语音模型 └── examples/ # 使用示例 ├── basic_usage.py # 基础使用示例 ├── advanced_usage.py # 高级使用示例 └── api_integration.py # API集成示例
{ "api_keys": { "baidu_translate": { "app_id": "YOUR_APP_ID", "app_key": "YOUR_APP_KEY" }, "tencent_cloud": { "secret_id": "YOUR_SECRET_ID", "secret_key": "YOUR_SECRET_KEY" } }, "local_services": { "ocr_enabled": true, "translation_enabled": true, "speech_enabled": false }, "performance": { "cache_enabled": true, "cache_ttl": 3600, "parallel_processing": true } }
# 通过clawhub安装 npx clawhub install chinese-toolkit # 或手动安装 git clone https://github.com/openclaw/chinese-toolkit.git cp -r chinese-toolkit ~/.openclaw/workspace/skills/
# 安装Python依赖 pip install -r requirements.txt # 安装系统依赖 (Ubuntu/Debian) sudo apt-get install tesseract-ocr tesseract-ocr-chi-sim ffmpeg # 安装系统依赖 (macOS) brew install tesseract tesseract-lang ffmpeg
# 设置百度翻译API export BAIDU_TRANSLATE_APP_ID="your_app_id" export BAIDU_TRANSLATE_APP_KEY="your_app_key" # 设置腾讯云API export TENCENT_CLOUD_SECRET_ID="your_secret_id" export TENCENT_CLOUD_SECRET_KEY="your_secret_key"
• 翻译结果缓存: 减少API调用 • 分词结果缓存: 加速文本处理 • OCR结果缓存: 避免重复识别 • 语音结果缓存: 提高响应速度
• 多文档并行处理 • 批量翻译优化 • 并发API调用 • 分布式计算支持
• 内存使用优化 • 磁盘空间管理 • 网络带宽控制 • 计算资源分配
• 本地处理优先: 敏感数据本地处理 • 加密传输: API调用使用HTTPS • 数据清理: 处理完成后清理临时数据 • 访问控制: API密钥安全存储
• 用户数据保护: 不存储用户原始数据 • 匿名化处理: 去除个人识别信息 • 合规使用: 遵守数据保护法规 • 透明操作: 明确数据处理流程
• 代码安全审查 • 依赖库安全检查 • API使用监控 • 异常行为检测
1. 分词不准确 • 原因: 词典不完整或模型过时 • 解决: 更新分词词典和模型 2. 翻译质量差 • 原因: API限制或网络问题 • 解决: 更换翻译服务或检查网络 3. OCR识别错误 • 原因: 图片质量差或语言设置错误 • 解决: 优化图片质量,正确设置语言 4. 语音识别失败 • 原因: 音频质量差或方言不支持 • 解决: 提高音频质量,使用标准普通话
# 启用调试模式 export CHINESE_TOOLKIT_DEBUG=true # 查看详细日志 tail -f ~/.openclaw/logs/chinese-toolkit.log # 运行测试套件 python -m pytest tests/
• 中文分词: 1000字/秒 • 中英翻译: 500字/秒 (API) • OCR识别: 1页/秒 • 语音识别: 实时 (1x速度)
• 中文分词: >95% • 命名实体识别: >90% • 翻译质量: >85% (专业翻译对比) • OCR识别: >98% (清晰文档) • 语音识别: >95% (标准普通话)
• 内存占用: <500MB • 磁盘空间: <2GB (含模型) • CPU使用: 中等 • 网络带宽: 按需使用
1. 增加更多方言支持 2. 优化本地模型性能 3. 扩展API服务集成 4. 改进用户体验
1. 深度学习模型优化 2. 实时处理能力提升 3. 多模态处理支持 4. 生态系统建设
1. 自主AI模型训练 2. 边缘计算支持 3. 全球化扩展 4. 开源社区建设
1. 报告问题: GitHub Issues 2. 提交代码: Pull Requests 3. 改进文档: 文档更新 4. 测试反馈: 使用反馈
• 代码风格: PEP 8 • 文档标准: Google风格 • 测试要求: 单元测试覆盖>80% • 提交规范: Conventional Commits
• 讨论区: GitHub Discussions • 即时聊天: Discord中文频道 • 邮件列表: 开发组邮件 • 线下活动: 技术分享会 中文工具包技能版本: 1.0.0 最后更新: 2026-02-23 维护者: OpenClaw中文社区 让OpenClaw更好地理解和处理中文! 🇨🇳🔧🤖 中文智能,全球共享! 🌍🚀🌟
Long-tail utilities that do not fit the current primary taxonomy cleanly.
Largest current source with strong distribution and engagement signals.