【Code With SOLO】用 SOLO 10 分钟搭建一个自动抓取行业资讯的工具


财政绩效资讯自动化:用 SOLO 打造每日行业情报站

1. 摘要

作为财政绩效咨询从业者,我每天需要追踪财政部及各省市的政策动态。用 TRAE SOLO 搭建了一套全自动资讯采集系统:每天上午 9 点自动搜索最新财政资讯,过滤、排序后生成 Excel/Word/Markdown 三份报告,彻底告别手动翻网站的低效工作,确保第一时间掌握政策风向。


2. 背景

我是谁:财政绩效咨询顾问,日常工作是为政府部门和国企提供预算绩效管理、绩效评价、零基预算改革等领域的政策解读和实施方案设计。

我的痛点

  • 财政资讯分散在财政部官网、各省财政厅、中国财经报等几十个渠道
  • 每天手动浏览、筛选、整理需要 1-2 小时,且容易遗漏重要政策
  • 客户经常问"这个最新政策你怎么看",反应速度就是竞争力
  • 团队内部需要统一格式的日报共享,手工复制粘贴格式混乱

目标:实现每日自动采集 → 智能筛选 → 标准格式输出的全流程自动化


3. 实践过程

任务拆解

步骤 关键问题 解决方案
① 搜索 如何确保搜到最新资讯? 动态生成含当前年月的关键词,如"预算绩效管理 2026年5月"
② 筛选 如何避免旧资讯混入? 日期校验机制,自动过滤超过60天的文章
③ 排序 如何按重要性呈现? 按发布日期倒序,最新的放最前
④ 输出 如何满足多场景使用? 同时生成 Excel(数据分析)、Word(公众号排版)、Markdown(知识库)

使用的 SOLO 能力

  • WebSearch:批量搜索 8 组关键词,覆盖财政部官网和权威媒体
  • WebFetch:抓取文章详情,提取标题、作者、日期、摘要
  • Code 工具:用 Python 实现日期校验、排序、文件生成
  • Schedule:定时任务,每天 9:00 自动执行
  • File 工具:生成 .xlsx / .docx / .md 三种格式文件

关键 Prompt 设计

核心防错机制——动态日期获取

# 绝不硬编码年份!所有日期从系统动态获取
from datetime import datetime

today = datetime.now()      # 2026-05-08
year = today.year           # 2026
month = today.month         # 5
search_keyword = f"预算绩效管理 {year}年{month}月 site:mof.gov.cn"

日期校验与过滤

class DateHelper:
    def __init__(self):
        self.cutoff = datetime.now() - timedelta(days=60)
    
    def filter_articles(self, articles):
        # 自动过滤超过60天的旧资讯
        return [a for a in articles if self.parse(a['date']) >= self.cutoff]

定时任务配置

每天 9:00 执行:
1. 运行 finance_news_bot.py
2. 自动生成 8 组搜索关键词(基于当前年月)
3. 搜索 → 校验 → 排序 → 生成三份文件
4. 保存到 /workspace/财政行业资讯_YYYYMMDD.*

踩过的坑

原因 解决方案
年份错误 最初硬编码了"2025年5月",搜到的是去年旧资讯 全部改为 datetime.now() 动态获取
日期格式混乱 不同网站日期格式不统一(2026-05-08 / 2026/05/08 / 2026.05.08) 写兼容解析函数,尝试多种格式
Word 生成失败 Python 的 docx 库对中文支持不好 改用 Node.js 的 docx 库,通过 subprocess 调用
重复生成 定时任务每天执行,会覆盖已有文件 添加文件存在检查,当天文件已存在则跳过

4. 成果展示

生成的三份文件

格式 用途 预览
Excel 数据筛选、排序、分析 斑马纹表格,含日期/标题/作者/链接/摘要
Word 微信公众号排版发布 标题居中、分隔线、适合手机阅读
Markdown 知识库归档、全文检索 标准 Markdown,方便导入各种工具

示例内容(2026年5月8日):

1. 财政部天津监管局:全面开展2025年度中央对地方转移支付绩效自评复核工作

  • 发布日期:2026-05-07
  • 来源:财政部天津监管局
  • 摘要:采取资料审核与现场核查相结合的方式,从分配科学性、使用规范性、执行准确性等8个维度进行全面体检…

代码仓库

  • 主脚本:/data/user/work/finance_news_bot.py(单文件,300行,开箱即用)
  • 测试脚本:/data/user/work/test_finance_bot.py(端到端测试)

定时任务截图

任务名称:财政行业资讯日报
执行频率:每天 09:00(北京时间)
状态:Active
下次执行:2026-05-09 09:00:00

5. 效果与总结

提效数据

指标 之前 现在 提升
耗时 1-2 小时/天 0 分钟(全自动) 100% 自动化
资讯覆盖 3-5 个渠道 8 组关键词全覆盖 3倍+ 信息源
遗漏率 偶尔漏看重要政策 系统抓取,按日期过滤 接近 0 遗漏
格式统一 手工复制,格式混乱 标准模板,三份文件 专业可复用

SOLO 在我的流程中做了什么

  • 信息抓取层:WebSearch + WebFetch 替代了我手动浏览 20+ 网站
  • 智能处理层:Python 脚本完成日期校验、排序、去重,比我人工判断更准确
  • 输出层:一键生成三份格式文件,满足我自己看、发公众号、存知识库三种场景
  • 调度层:Schedule 定时任务,完全无需惦记,到点自动运行

可复用的方法

  1. 动态日期防错法:任何涉及时效的自动化,都用 datetime.now() 动态获取,绝不硬编码
  2. 多格式输出法:同样的内容生成多种格式,适配不同使用场景
  3. 日期校验过滤法:设置合理的 cutoff(如60天),自动淘汰过期内容
  4. 存在检查防重法:生成文件前检查是否已存在,避免定时任务重复执行

一句话总结

SOLO 让我从"资讯搬运工"变成了"政策解读者"——省下的时间用来深度分析政策影响,为客户提供真正的价值。