我把一个"AI 炒股系统"拆开 看它怎么拉数据、做量化、把 AI 用在刀刃上

硬核拆解 · 60 位大师评审团 · 17 维体检 · 以图搜股 · 四套防作弊回测 · 全程基于源码

市面上的"AI 炒股",大多停在"我问了一句 AI 该买啥"。这次不一样——我手上是一套能跑起来的真实代码工程。本文讲透四件最硬的事:数据怎么一条条抓60 位大师怎么把它量化成多空打开一只股票能看到的 17 个分析维度,以及最关键的——AI 到底被用在了哪一层。读完你会发现,它最聪明的地方,恰恰是没让 AI 直接荐股

一句话交代背景:这套系统底层用到了开源模型 Kronos(清华团队、AAAI 2026,第一个面向金融 K 线的基础模型,能像 GPT 预测"下一个字"一样预测"下一根 K 线")。但本文不展开模型内部,我们直接上楼,看盖在它上面的那套 A 股分析引擎每天在干什么。

一、数据:聪明钱的动作,怎么被抓下来

再聪明的算法,喂垃圾数据也只能产出垃圾。这套系统在"拉数据"上的功夫,比算法本身还重。

1. 多源拉取:一个数据,三条腿走路

数据源 角色
Tushare
官方,需 token
主力或备路,提供规范的基本面/龙虎榜等
akshare
免 token
主力回填源。“查库没有→在线拉→写库→再读
爬虫
东财/同花顺/雪球
Playwright + 反爬,抓新闻/论坛/热点

2. 把"游资/机构"的动作量化成数字

龙虎榜
量化席位识别 + 机构净买额
北向资金
陆股通 30 日持股比变化
筹码分布
控盘度 / 成本集中度 / 获利比例
股东户数
户数减少 = 筹码集中 = 利多

① "量化席位"识别——给游资派大师的弹药

系统维护一份量化席位名册,收录标准白纸黑字写着:“量化交易占比 > 60% 的席位”。识别用双通道:先精确匹配名册;没命中就用关键词兜底——席位名出现 “量化 / DMA / 程序化 / 算法” 也算。再统计近 90 天龙虎榜出现次数,直接喂给"赵老哥"的判断。

② 控盘度——只用 K 线就能估

控盘度 = (1 − 波动率因子) × 40    ← 波动越小越像被控盘
       +  量能稳定度       × 30
       +  低换手因子       × 30    ← 截断到 [0, 100]

3. 一个细节,暴露"人品":三态诚实

fresh 在线取数成功 stale 走历史落库(T-1) unavailable 取不到,必须写明原因

当某指标"数据不足"时,它不会伪装成自信的"中性值"糊弄你记住这个三态——它后面会决定"AI 能不能开口"。

二、60 位投资大师评审团

“是真的让 60 个大模型 24 小时吵架吗?”

不是,恰恰相反,这才是它聪明的地方。这 60 位不是 60 个大模型,而是 60 套手写规则——把每位大师公开的投资哲学,蒸馏成可执行、可解释、零成本、永不编造的判断逻辑。

流派 人数 代表成员
价值派 9 巴菲特、芒格、格雷厄姆…
成长派 9 费雪、林奇、木头姐、张磊…
宏观派 9 索罗斯、达里奥、德鲁肯米勒…
技术派 9 利弗莫尔、欧奈尔、海龟·丹尼斯…
中国价投 8 段永平、张坤、但斌、冯柳…
游资派 8 赵老哥、章盟主、徐翔、炒股养家…
量化派 8 西蒙斯、格里芬、索普…

合计正好 60 人。其中 12 位"旗舰"各有专属手写规则,48 位"替补"走流派默认 + 个人偏好微调。

看巴菲特和赵老哥的规则——同一只股票,两副眼光(所有人从中性 50 分起评):

巴菲特 ROE≥20% → +25
行业估值分位≤30 → +15
利润负增长 → −10
赵老哥 量化席位 90 日≥3 次 → +26
主力净流入 → +12
量比≥1.8 → +10

每人输出 0~100 分 → ≥60 看多≤40 看空。60 票投完,引擎做三件事:① 共识(按股票"风格"加权——给小盘妖股做共识时游资派话语权调高、价值派调低,比一人一票科学);② 大分歧(挑最强多头 vs 最强空头,自动生成一句金句);③ 流派倾向(7 派各自偏多偏空一目了然)。

又见"诚实":若一位大师关注的指标全无数据,系统标记他"暂不表态",而不是投一张假中性票稀释真实信号。

三、评审团吃的"饲料":特征与策略

规则再精巧,也要靠输入特征说话。系统把所有数据压成一个统一字典,覆盖五面:基本面(PE/PB/ROE/估值分位/净利同比)、资金面技术面(RSI/MACD/KDJ/均线/布林/量比)、筹码面模型面

填个坑:"30 模型共振"到底是啥

特征里有个"30 模型共振",听着像 30 个 AI。真相:这是 30 个传统量化技术策略——海龟交易、一目均衡云、随机森林、多因子 Alpha、配对套利、MACD 金叉、布林挤压……每个对最新 K 线投一票(买/卖/持),数票得出多空比。量化派规则吃这个比例:≥60% 看多 → +22 分。

这 30 个策略横跨趋势、动量、量价、套利、机器学习多个流派,等于让一只票同时接受 30 种交易体系的"会诊"——单个策略会看走眼,30 个一起投票,信号就稳健得多。

连买卖点都算好:ATR 量化风控

止损 现价 − ATR×1.5,算出对应跌幅%
5 档建仓 现价 10%→浅回调 20%→中度 30%→深度 25%→极限 15%
4 级止盈 前高 30%→+15% 卖 30%→+30% 卖 25%→+50% 卖 15%
风险信号 最大回撤、60 日年化波动率、夏普比率

四、打开一只股票:一份 17 维度"体检报告"

输入一个股票代码,系统一次返回 17 个分析维度(界面上是 17 个 Tab)。它们不是堆砌——而是按"快速概览 → 单维深挖 → 资金筹码 → 模型推演 → 决策落地 → AI 综合"层层递进。下表是这份"体检报告"的全部科目:

分组 维度 看什么
速览 快速信息 大盘周期/仓位上限/主力阶段/可信度速读卡
综合总览 5 维能力雷达 + 关键信号
单维
深挖
市场周期 大盘牛/震荡/熊 + 资金流入比
主力阶段 强势主导/承接/撤离
量价博弈 30 策略买入信号占比
筹码结构 成本集中度 + 获利比例
业绩预期 PE 分位 + ROE + 净利同比
资金
筹码
主力深度 龙虎榜量化席位 + 北向资金
机构持仓 股东户数 + 重仓基金 + 调研
筹码·控盘雷达 控盘度 + 成本集中度可视化
模型
推演
量化矩阵 30 策略逐一信号 + 当前态势
概率推演 ★ 看多/看空/震荡三情景概率
涨停筛选 打板时机 / 涨停相关信号
决策
落地
操盘风控 ATR 止损 / 5 档建仓 / 4 级止盈
多空评审团 ★ 60 位大师投票 + 共识 + 大分歧
形态回测 ★ 同类形态历史 5/10/20 日胜率
AI AI 解读 ★ 把以上全部喂给大模型 → 7 小节深度报告

★ 为下文重点展开的维度。注意最后一行——"AI 解读"是唯一由大模型主笔的维度,它站在前 16 个维度的肩膀上。

值得单独说的"概率推演"

它不玄。就是把 30 个量化策略的投票归一化成三个情景概率

看多概率 = 买入票 / 总票数 × 100%
看空概率 = 卖出票 / 总票数 × 100%
震荡概率 = 剩下的部分
票数为 0 时 → 直接显示"数据不足",不硬编概率

朴素,但可追溯、不黑箱——你能一路点回去看到是哪些策略投了哪一票。这正是它和"AI 拍一个涨跌概率给你"的区别。

五、王牌功能:以图搜图 + 以股搜股

这是整套系统最差异化、最适合演示的功能:你脑子里有一个"理想走势",系统帮你从全 A 股里把长得最像的票捞出来。两个入口,共用同一个引擎:

:paintbrush: 以图搜图

在画布上手绘一条 K 线形态(至少 5 个点),系统重采样成 30 点曲线,去全市场指纹库里找最像的票。

:chart_increasing: 以股搜股

输入一只股票(如 600519),载入它近期的真实走势当模板,找出全市场形态最相似的"同款"。

背后的相似度算法很干净:

相似度 = 皮尔逊形状相似 × 0.7 + 斜率匹配 × 0.3

全 A 股每只票被压成一条"30 点归一化曲线指纹",存进本地指纹库,每天收盘后(默认 15:30)自动重建。检索是秒级的,还自动剔除 ST/退市、支持按市场/行业过滤。

两个加分细节,看得出用心:

+ 命中即回测:找到一批"同款"后,一键回测这个形态在历史上出现后、5/10/20 日的真实胜率(相似度阈值 0.85)——形态好不好,用历史数据说话
+ 叠加实时报价 + 形态沉淀:命中结果贴当日实时涨跌,判断"今天是否已偏离形态";满意的形态可保存成模板,连同检索条件一起存档,下次一键重跑。

六、关键问题:AI 到底融入在哪一层?

讲了这么多维度,“AI"到底在哪?答案是——它分三层融入,各司其职,而不是"一个大模型搞定一切”。看懂这张三层图,就看懂了整套系统的设计哲学:

第 1 层 · 计算智能 机器学习 + 神经网络 + 统计模型

30 量化策略里的随机森林、多因子 Alpha,加上底层的 Kronos 神经网络(预测未来 K 线)。它们把原始行情变成信号——产出"量价博弈"“量化矩阵”“概率推演”。

第 2 层 · 规则智能(知识工程) 60 位大师评审团 + 各维度评分算法

把投资大师的经验蒸馏成规则,把第 1 层的信号变成有立场的判断(看多/看空 + 理由)。这是一种"老派但可靠"的 AI——确定、可解释、可回测、零幻觉

第 3 层 · 生成智能(大模型 LLM) "AI 解读"Tab + 评审团金句润色

大模型登场,但只干一件事:把前两层的所有结论"综合 + 翻译成人话"。它不做原始判断,只做跨维度的归纳表达。

第 3 层细看:"AI 解读"是怎么写出来的

点开"AI 解读",系统会把前 16 个维度的结论(5 维评分、关键信号、情景概率、风控数据、控盘度、量化矩阵…)打包成提示词,让大模型按固定结构输出一份 7 小节深度报告

① 核心定性 ② 价值与安全边际 ③ 主力博弈 ④ 多因子量化 ⑤ 情绪周期 ⑥ 预期差挖掘 ⑦ 操盘建议

而真正体现功力的,是它给大模型上的两道"嚼子":

**嚼子一|数据状态门控:**还记得第一章的"三态"吗?喂给大模型的提示词里,只纳入 fresh / stale 的字段,unavailable 的直接跳过。没有数据,就不给大模型留下"自由发挥"的空间——从源头掐断幻觉。

**嚼子二|规则在前、AI 在后:**多空结论由第 2 层的规则算定,大模型只负责润色成金句、风险清单、逐位大师点评,且被格式严格约束、失败重试、再不行就降级标注"未审核"。

这就是它和"直接让 AI 荐股"的本质区别:
后者让大模型又当运动员又当裁判,幻觉一来就胡说;
这套系统只让大模型当"播报员",判断权牢牢攥在
可回测的规则手里。

七、回测:凭什么信?

分析系统最容易自欺欺人的就是回测,两种经典作弊:偷看未来只晒赢家。这套系统里有 4 套回测,最硬核的一套文件名直接叫 true_backtest。它的两道铁闸:

**闸一:**评分只能看到 ≤ 回测日 的 K 线,收益只用 > 回测日 的真实价格。
**闸二:**回测日选股、次日开盘价买入,杜绝"当天收盘选、当天收盘买"的作弊。

更狠的是:回测历史日时,它把所有拿不到的实时维度(舆情、龙虎榜)全部归零,只用纯 K 线能算的约 77% 权重——宁可少用维度,也不偷看未来

回测报告会如实记录每一个交易日的结果,包括踩雷亏损的日子,绝不只挑赢家展示。它的目的从来不是证明"稳赚",而是回答一个更朴素的问题——**“这套选股方法,逻辑上站不站得住脚?”**一个敢把翻车日写进报告的系统,比晒收益截图的可信得多。

八、深度分析:全市场 5000 只票里,机会怎么"挖"出来

前面的 60 人评审团、17 维体检,都是对准一只票的"深挖"。但真实场景是:**全市场 5000 多只票,我该看哪只?**这就是"投资机会挖掘"要解决的——它和评审团是同一个漏斗的两端:机会挖掘负责海选,评审团负责精审。整套挖掘是一条三级漏斗:

① 多源海选
4 路撒网,初筛候选池
② 多维打分
+ 一票否决

10 维加权,硬风控淘汰
③ 深度钻取
+ 评级

五维复核,输出 Top10

第一步:多源海选——不只盯着"已经涨的"

很多选股工具只会推"今天涨得最猛的",这套系统同时从 4 个互补的角度撒网,尤其有一路是**“未涨先选”**:

:fire: 热门股 TOP100
实时人气榜,市场在看什么
:chart_decreasing: 超跌反弹
跌透了 + 出现反转信号
:money_bag: 主力资金流入榜
真金白银净流入前列
:bullseye: 低位放量待突破 ★
低位 + 放量蓄势,未涨先埋伏

开工前还会先评估大盘环境(沪深 300 近 5 日 / 20 日走势)——行情差就自动收紧候选门槛,行情好就放松,再去重、剔除 ST/退市、清洗热榜深位排名。

第二步:多维打分 + 一票否决

每只候选过一个多维加权打分模型(满分 100),权重不是拍脑袋——是用海量历史数据一版版回测迭代出来的,甚至发现了"量化分数过高反而存在反转效应"这类反直觉规律,据此动态调权:

打分维度 权重 看什么
量化模型 0.30 30 策略买入信号多寡
量价健康 0.24 量价结构验证主力行为
位置时机 0.12 是否在低位(防追高)
技术面 0.12 趋势 / 动量 / 形态
板块强度 0.08 所属板块是否走强
龙虎榜 / 流动性 / 基本面 0.14 游资席位、成交活跃度、ROE 等

更妙的是权重不是死的:系统按行情切换 4 套模板——基础 / 底部启动 / 趋势接力 / 消息驱动,不同模式下各维度权重自动重配(如"底部启动"模式会把"位置时机"权重大幅调高)。

同时挂着 5 条"一票否决"硬风控,踩中直接淘汰:

60 日涨幅 > 60% 20 日涨幅 > 40% 距年内高点 < 5% 连涨 > 6 天 利润同比降 > 70%

一句话——追高的、见顶的、业绩暴雷的,先一票拦在门外。

第三步:深度钻取 + 评级

通过筛选的票,再做一轮五维深度钻取,多角度交叉验证,避免"单一维度看走眼":

基本面 30% 技术面 20% 市场情绪 20% 催化剂 15% 风险因素 15%

最后给出投资评级,门槛定得很高(宁缺毋滥):

S 级 ≥85 强烈推荐 A+ / A 关注 B / C 不入选

最终只把分数最高的一批,整理成一份 Top10 机会报告从 5000 多只到 10 只,靠的全是可追溯的规则与回测,而不是"AI 觉得"。

九、还有这些亮点

除了上面的主线,它还塞了一堆实用功能,挑几个最酷的:

:bar_chart: 市场粒子大屏 把 AI/核聚变/航天等题材股映射成动态粒子流,炫酷呈现市场结构
:satellite_antenna: 实时情报栏 聚合金十快讯 + 雪球热门 + 板块资金流 + 异动,180s 刷新
:star: 自选股监控 批量实时报价 + 主力净流入,东财失败自动回退腾讯行情
:package: 批量分析 一键批量跑个股,结果直接抽取"通过"的票深入分析
:crystal_ball: K 线预测台 直接调用 Kronos 模型,对一只票预测未来 K 线走势
:rocket: 一键唤起券商 发现本机交易客户端并拉起,右键直达雪球/股吧

写在最后:值得学的不是算法,是价值观

**① 让 AI 各就各位。**计算智能产信号、规则智能下判断、生成智能做表达——大模型只当"播报员",判断权交给可回测的规则。
**② 把"诚实"写进代码。**数据三态、数据不足不投假票、AI 只吃有效数据、回测如实记亏损——每一处都在主动放弃"更好看"。
**③ 回测为证伪,不为表演。**它证明的不是"稳赚",而是"方法站得住脚"。

一图速记全流程

:inbox_tray: 多源拉数据
三态诚实
:robot: 计算智能
ML+Kronos+30策略
:balance_scale: 规则智能
60 人评审团
:clipboard: 17 维体检
+ 以图搜股
:speaking_head: 生成智能
AI 解读·只表达
:microscope: 回测验证
防前视·记亏损

**免责声明:**本文是对一套技术系统的工程拆解,所有评分、回测数据均为该系统的技术产出,不构成任何投资建议。市场有风险,决策需谨慎。代码逻辑均来自项目源码,如有版本差异以最新代码为准。

参考:Kronos 论文 arXiv:2508.02739(清华大学,AAAI 2026)|开源代码 GitHub - shiyu-coder/Kronos: Kronos: A Foundation Model for the Language of Financial Markets · GitHub

5 个赞

2 个赞