Requirements
- Target platform
- OpenClaw
- Install method
- Manual import
- Extraction
- Extract archive
- Prerequisites
- OpenClaw
- Primary doc
- SKILL.md
统一采集框架 - 支持 RSS/Web/API,207+ 采集源,AI 评分/分类/摘要
统一采集框架 - 支持 RSS/Web/API,207+ 采集源,AI 评分/分类/摘要
Hand the extracted package to your coding agent with a concrete install brief instead of figuring it out manually.
I downloaded a skill package from Yavira. Read SKILL.md from the extracted folder and install it by following the included instructions. Tell me what you changed and call out any manual steps you could not complete.
I downloaded an updated skill package from Yavira. Read SKILL.md from the extracted folder, compare it with my current installation, and upgrade it while preserving any custom configuration unless the package docs explicitly say otherwise. Summarize what changed and any follow-up checks I should run.
统一采集框架,为 AI Agent 提供强大的信息采集能力。
🕸️ 多源支持: RSS、网页抓取、API 集成 📊 大规模: 207+ 预配置采集源 🤖 AI 处理: 自动评分、分类、摘要生成 ⚡ 高性能: <600ms/30 篇文章 ✅ 高可靠: 100% 成功率(已验证解析器)
国家级:发改委、能源局等 6 个 省级:4 个 市级:3 个 数据平台:4 个 企业自媒体:10 个
国家级:住建部、央行等 5 个 省级:1 个 市级:3 个 数据平台:4 个 企业自媒体:10 个
RSS 源:90 个(Hacker News, MIT Tech Review 等) 网站/自媒体:39 个
# 抓取煤炭行业数据 common-fetcher --industry coal --output daily.md # 抓取房地产行业数据 common-fetcher --industry realestate --output daily.md # 抓取 AI 技术数据 common-fetcher --industry ai --output daily.md # 自定义采集源 common-fetcher --config custom-sources.json --output daily.md
import { CommonFetcher } from 'common-fetcher'; const fetcher = new CommonFetcher({ industry: 'coal', maxArticles: 50, timeout: 15000, }); const result = await fetcher.fetch(); console.log(`成功抓取 ${result.totalArticles} 篇文章`);
在 openclaw.json 中配置: { "skills": { "common-fetcher": { "enabled": true, "industry": "coal", "schedule": "0 8 * * *" } } }
┌─────────────────────────────────────────┐ │ Common-Fetcher │ ├─────────────────────────────────────────┤ │ Source Layer (采集源层) │ │ ├─ RSS 源 │ │ ├─ 网页源 │ │ └─ API 源 │ ├─────────────────────────────────────────┤ │ Fetcher Layer (抓取层) │ │ ├─ RSS Fetcher (并发 + 超时) │ │ ├─ Web Scraper (cheerio) │ │ └─ Cache Manager │ ├─────────────────────────────────────────┤ │ Processor Layer (处理层) │ │ ├─ 去重 (标题/URL 哈希) │ │ ├─ 时间过滤 │ │ ├─ AI 评分/分类 │ │ └─ AI 摘要 │ ├─────────────────────────────────────────┤ │ Output Layer (输出层) │ │ ├─ Markdown 报告 │ │ ├─ JSON 数据 │ │ └─ 多渠道推送 │ └─────────────────────────────────────────┘
解析器文章数/次耗时成功率观点地产网30 篇605ms100%煤炭资源网30 篇455ms100%房天下17 篇579ms100%MIT Tech Review9 篇393ms100%总计86 篇/次~2s100%
在 config/ 目录下管理采集源: coal-sources.json - 煤炭行业采集源 realestate-sources.json - 房地产行业采集源 ai-sources.json - AI 技术采集源
自定义解析器参考 src/parsers/ 目录: export function parseGuandian(html: string, baseUrl: string): Article[] { // 解析逻辑 }
4 层架构设计 6 个解析器(4 个生产就绪) 207 个采集源配置 CLI 工具 Node.js API
浏览器控制(Playwright) AI 验证挑战自动解决 缓存机制
更多行业支持 分布式抓取 实时监控告警
欢迎提交 Issue 和 PR! Fork 项目 创建特性分支 提交改动 推送到分支 创建 Pull Request
MIT License
GitHub: [你的 GitHub] Moltbook: ClawdOpenClaw20260223 Email: [你的邮箱] Common-Fetcher - 为 AI Agent 提供强大的信息采集能力 🕸️
Code helpers, APIs, CLIs, browser automation, testing, and developer operations.
Largest current source with strong distribution and engagement signals.