【Code With SOLO】用 SOLO 10 分钟搭建一个自动抓取行业资讯的工具

用户41066 · 2026 年5 月 8 日 03:44

财政绩效资讯自动化：用 SOLO 打造每日行业情报站

1. 摘要

作为财政绩效咨询从业者，我每天需要追踪财政部及各省市的政策动态。用 TRAE SOLO 搭建了一套全自动资讯采集系统：每天上午 9 点自动搜索最新财政资讯，过滤、排序后生成 Excel/Word/Markdown 三份报告，彻底告别手动翻网站的低效工作，确保第一时间掌握政策风向。

2. 背景

我是谁：财政绩效咨询顾问，日常工作是为政府部门和国企提供预算绩效管理、绩效评价、零基预算改革等领域的政策解读和实施方案设计。

我的痛点：

财政资讯分散在财政部官网、各省财政厅、中国财经报等几十个渠道
每天手动浏览、筛选、整理需要 1-2 小时，且容易遗漏重要政策
客户经常问"这个最新政策你怎么看"，反应速度就是竞争力
团队内部需要统一格式的日报共享，手工复制粘贴格式混乱

目标：实现每日自动采集 → 智能筛选 → 标准格式输出的全流程自动化

3. 实践过程

任务拆解

步骤	关键问题	解决方案
① 搜索	如何确保搜到最新资讯？	动态生成含当前年月的关键词，如"预算绩效管理 2026年5月"
② 筛选	如何避免旧资讯混入？	日期校验机制，自动过滤超过60天的文章
③ 排序	如何按重要性呈现？	按发布日期倒序，最新的放最前
④ 输出	如何满足多场景使用？	同时生成 Excel（数据分析）、Word（公众号排版）、Markdown（知识库）

使用的 SOLO 能力

WebSearch：批量搜索 8 组关键词，覆盖财政部官网和权威媒体
WebFetch：抓取文章详情，提取标题、作者、日期、摘要
Code 工具：用 Python 实现日期校验、排序、文件生成
Schedule：定时任务，每天 9:00 自动执行
File 工具：生成 .xlsx / .docx / .md 三种格式文件

关键 Prompt 设计

核心防错机制——动态日期获取：

# 绝不硬编码年份！所有日期从系统动态获取
from datetime import datetime

today = datetime.now()      # 2026-05-08
year = today.year           # 2026
month = today.month         # 5
search_keyword = f"预算绩效管理 {year}年{month}月 site:mof.gov.cn"

日期校验与过滤：

class DateHelper:
    def __init__(self):
        self.cutoff = datetime.now() - timedelta(days=60)
    
    def filter_articles(self, articles):
        # 自动过滤超过60天的旧资讯
        return [a for a in articles if self.parse(a['date']) >= self.cutoff]

定时任务配置：

每天 9:00 执行：
1. 运行 finance_news_bot.py
2. 自动生成 8 组搜索关键词（基于当前年月）
3. 搜索 → 校验 → 排序 → 生成三份文件
4. 保存到 /workspace/财政行业资讯_YYYYMMDD.*

踩过的坑

坑	原因	解决方案
年份错误	最初硬编码了"2025年5月"，搜到的是去年旧资讯	全部改为 `datetime.now()` 动态获取
日期格式混乱	不同网站日期格式不统一（2026-05-08 / 2026/05/08 / 2026.05.08）	写兼容解析函数，尝试多种格式
Word 生成失败	Python 的 docx 库对中文支持不好	改用 Node.js 的 docx 库，通过 subprocess 调用
重复生成	定时任务每天执行，会覆盖已有文件	添加文件存在检查，当天文件已存在则跳过

4. 成果展示

生成的三份文件：

格式	用途	预览
Excel	数据筛选、排序、分析	斑马纹表格，含日期/标题/作者/链接/摘要
Word	微信公众号排版发布	标题居中、分隔线、适合手机阅读
Markdown	知识库归档、全文检索	标准 Markdown，方便导入各种工具

示例内容（2026年5月8日）：

1. 财政部天津监管局：全面开展2025年度中央对地方转移支付绩效自评复核工作

发布日期：2026-05-07

来源：财政部天津监管局

摘要：采取资料审核与现场核查相结合的方式，从分配科学性、使用规范性、执行准确性等8个维度进行全面体检…

代码仓库：

主脚本：/data/user/work/finance_news_bot.py（单文件，300行，开箱即用）
测试脚本：/data/user/work/test_finance_bot.py（端到端测试）

定时任务截图：

任务名称：财政行业资讯日报
执行频率：每天 09:00（北京时间）
状态：Active
下次执行：2026-05-09 09:00:00

5. 效果与总结

提效数据

指标	之前	现在	提升
耗时	1-2 小时/天	0 分钟（全自动）	100% 自动化
资讯覆盖	3-5 个渠道	8 组关键词全覆盖	3倍+ 信息源
遗漏率	偶尔漏看重要政策	系统抓取，按日期过滤	接近 0 遗漏
格式统一	手工复制，格式混乱	标准模板，三份文件	专业可复用

SOLO 在我的流程中做了什么

信息抓取层：WebSearch + WebFetch 替代了我手动浏览 20+ 网站
智能处理层：Python 脚本完成日期校验、排序、去重，比我人工判断更准确
输出层：一键生成三份格式文件，满足我自己看、发公众号、存知识库三种场景
调度层：Schedule 定时任务，完全无需惦记，到点自动运行

可复用的方法

动态日期防错法：任何涉及时效的自动化，都用 datetime.now() 动态获取，绝不硬编码
多格式输出法：同样的内容生成多种格式，适配不同使用场景
日期校验过滤法：设置合理的 cutoff（如60天），自动淘汰过期内容
存在检查防重法：生成文件前检查是否已存在，避免定时任务重复执行

一句话总结

SOLO 让我从"资讯搬运工"变成了"政策解读者"——省下的时间用来深度分析政策影响，为客户提供真正的价值。