我把一个"AI 炒股系统"拆开看它怎么拉数据、做量化、把 AI 用在刀刃上

agent · 2026 年6 月 2 日 10:19

硬核拆解 · 60 位大师评审团 · 17 维体检 · 以图搜股 · 四套防作弊回测 · 全程基于源码

市面上的"AI 炒股"，大多停在"我问了一句 AI 该买啥"。这次不一样——我手上是一套能跑起来的真实代码工程。本文讲透四件最硬的事：数据怎么一条条抓、60 位大师怎么把它量化成多空、打开一只股票能看到的 17 个分析维度，以及最关键的——AI 到底被用在了哪一层。读完你会发现，它最聪明的地方，恰恰是没让 AI 直接荐股。

一句话交代背景：这套系统底层用到了开源模型 Kronos（清华团队、AAAI 2026，第一个面向金融 K 线的基础模型，能像 GPT 预测"下一个字"一样预测"下一根 K 线"）。但本文不展开模型内部，我们直接上楼，看盖在它上面的那套 A 股分析引擎每天在干什么。

一、数据：聪明钱的动作，怎么被抓下来

再聪明的算法，喂垃圾数据也只能产出垃圾。这套系统在"拉数据"上的功夫，比算法本身还重。

1. 多源拉取：一个数据，三条腿走路

数据源	角色
Tushare 官方，需 token	主力或备路，提供规范的基本面/龙虎榜等
akshare 免 token	主力回填源。“查库没有→在线拉→写库→再读”
爬虫东财/同花顺/雪球	Playwright + 反爬，抓新闻/论坛/热点

2. 把"游资/机构"的动作量化成数字

龙虎榜量化席位识别 + 机构净买额	北向资金陆股通 30 日持股比变化
筹码分布控盘度 / 成本集中度 / 获利比例	股东户数户数减少 = 筹码集中 = 利多

① "量化席位"识别——给游资派大师的弹药

系统维护一份量化席位名册，收录标准白纸黑字写着：“量化交易占比 > 60% 的席位”。识别用双通道：先精确匹配名册；没命中就用关键词兜底——席位名出现 “量化 / DMA / 程序化 / 算法” 也算。再统计近 90 天龙虎榜出现次数，直接喂给"赵老哥"的判断。

② 控盘度——只用 K 线就能估

控盘度 = (1 − 波动率因子) × 40    ← 波动越小越像被控盘
       +  量能稳定度       × 30
       +  低换手因子       × 30    ← 截断到 [0, 100]

3. 一个细节，暴露"人品"：三态诚实

fresh	在线取数成功	stale	走历史落库（T-1）	unavailable	取不到，必须写明原因

当某指标"数据不足"时，它不会伪装成自信的"中性值"糊弄你。记住这个三态——它后面会决定"AI 能不能开口"。

二、60 位投资大师评审团

“是真的让 60 个大模型 24 小时吵架吗？”

不是，恰恰相反，这才是它聪明的地方。这 60 位不是 60 个大模型，而是 60 套手写规则——把每位大师公开的投资哲学，蒸馏成可执行、可解释、零成本、永不编造的判断逻辑。

流派	人数	代表成员
价值派	9	巴菲特、芒格、格雷厄姆…
成长派	9	费雪、林奇、木头姐、张磊…
宏观派	9	索罗斯、达里奥、德鲁肯米勒…
技术派	9	利弗莫尔、欧奈尔、海龟·丹尼斯…
中国价投	8	段永平、张坤、但斌、冯柳…
游资派	8	赵老哥、章盟主、徐翔、炒股养家…
量化派	8	西蒙斯、格里芬、索普…

合计正好 60 人。其中 12 位"旗舰"各有专属手写规则，48 位"替补"走流派默认 + 个人偏好微调。

看巴菲特和赵老哥的规则——同一只股票，两副眼光（所有人从中性 50 分起评）：

巴菲特	ROE≥20% → +25 行业估值分位≤30 → +15 利润负增长 → −10	赵老哥	量化席位 90 日≥3 次 → +26 主力净流入 → +12 量比≥1.8 → +10

每人输出 0~100 分 → ≥60 看多、≤40 看空。60 票投完，引擎做三件事：① 共识（按股票"风格"加权——给小盘妖股做共识时游资派话语权调高、价值派调低，比一人一票科学）；② 大分歧（挑最强多头 vs 最强空头，自动生成一句金句）；③ 流派倾向（7 派各自偏多偏空一目了然）。

又见"诚实"：若一位大师关注的指标全无数据，系统标记他"暂不表态"，而不是投一张假中性票稀释真实信号。

三、评审团吃的"饲料"：特征与策略

规则再精巧，也要靠输入特征说话。系统把所有数据压成一个统一字典，覆盖五面：基本面（PE/PB/ROE/估值分位/净利同比）、资金面、技术面（RSI/MACD/KDJ/均线/布林/量比）、筹码面、模型面。

填个坑："30 模型共振"到底是啥

特征里有个"30 模型共振"，听着像 30 个 AI。真相：这是 30 个传统量化技术策略——海龟交易、一目均衡云、随机森林、多因子 Alpha、配对套利、MACD 金叉、布林挤压……每个对最新 K 线投一票（买/卖/持），数票得出多空比。量化派规则吃这个比例：≥60% 看多 → +22 分。

这 30 个策略横跨趋势、动量、量价、套利、机器学习多个流派，等于让一只票同时接受 30 种交易体系的"会诊"——单个策略会看走眼，30 个一起投票，信号就稳健得多。

连买卖点都算好：ATR 量化风控

止损	现价 − ATR×1.5，算出对应跌幅%
5 档建仓	现价 10%→浅回调 20%→中度 30%→深度 25%→极限 15%
4 级止盈	前高 30%→+15% 卖 30%→+30% 卖 25%→+50% 卖 15%
风险信号	最大回撤、60 日年化波动率、夏普比率

四、打开一只股票：一份 17 维度"体检报告"

输入一个股票代码，系统一次返回 17 个分析维度（界面上是 17 个 Tab）。它们不是堆砌——而是按"快速概览 → 单维深挖 → 资金筹码 → 模型推演 → 决策落地 → AI 综合"层层递进。下表是这份"体检报告"的全部科目：

分组	维度	看什么
速览	快速信息	大盘周期/仓位上限/主力阶段/可信度速读卡
综合总览	5 维能力雷达 + 关键信号
单维深挖	市场周期	大盘牛/震荡/熊 + 资金流入比
主力阶段	强势主导/承接/撤离
量价博弈	30 策略买入信号占比
筹码结构	成本集中度 + 获利比例
业绩预期	PE 分位 + ROE + 净利同比
资金筹码	主力深度	龙虎榜量化席位 + 北向资金
机构持仓	股东户数 + 重仓基金 + 调研
筹码·控盘雷达	控盘度 + 成本集中度可视化
模型推演	量化矩阵	30 策略逐一信号 + 当前态势
概率推演 ★	看多/看空/震荡三情景概率
涨停筛选	打板时机 / 涨停相关信号
决策落地	操盘风控	ATR 止损 / 5 档建仓 / 4 级止盈
多空评审团 ★	60 位大师投票 + 共识 + 大分歧
形态回测 ★	同类形态历史 5/10/20 日胜率
AI	AI 解读 ★	把以上全部喂给大模型 → 7 小节深度报告

★ 为下文重点展开的维度。注意最后一行——"AI 解读"是唯一由大模型主笔的维度，它站在前 16 个维度的肩膀上。

值得单独说的"概率推演"

它不玄。就是把 30 个量化策略的投票归一化成三个情景概率：

看多概率 = 买入票 / 总票数 × 100%
看空概率 = 卖出票 / 总票数 × 100%
震荡概率 = 剩下的部分
票数为 0 时 → 直接显示"数据不足"，不硬编概率

朴素，但可追溯、不黑箱——你能一路点回去看到是哪些策略投了哪一票。这正是它和"AI 拍一个涨跌概率给你"的区别。

五、王牌功能：以图搜图 + 以股搜股

这是整套系统最差异化、最适合演示的功能：你脑子里有一个"理想走势"，系统帮你从全 A 股里把长得最像的票捞出来。两个入口，共用同一个引擎：

以图搜图

在画布上手绘一条 K 线形态（至少 5 个点），系统重采样成 30 点曲线，去全市场指纹库里找最像的票。

以股搜股

输入一只股票（如 600519），载入它近期的真实走势当模板，找出全市场形态最相似的"同款"。

背后的相似度算法很干净：

相似度 = 皮尔逊形状相似 × 0.7 + 斜率匹配 × 0.3

全 A 股每只票被压成一条"30 点归一化曲线指纹"，存进本地指纹库，每天收盘后（默认 15:30）自动重建。检索是秒级的，还自动剔除 ST/退市、支持按市场/行业过滤。

两个加分细节，看得出用心：

+	命中即回测：找到一批"同款"后，一键回测这个形态在历史上出现后、5/10/20 日的真实胜率（相似度阈值 0.85）——形态好不好，用历史数据说话。
+	叠加实时报价 + 形态沉淀：命中结果贴当日实时涨跌，判断"今天是否已偏离形态"；满意的形态可保存成模板，连同检索条件一起存档，下次一键重跑。

六、关键问题：AI 到底融入在哪一层？

讲了这么多维度，“AI"到底在哪？答案是——它分三层融入，各司其职，而不是"一个大模型搞定一切”。看懂这张三层图，就看懂了整套系统的设计哲学：

第 1 层 · 计算智能	机器学习 + 神经网络 + 统计模型

30 量化策略里的随机森林、多因子 Alpha，加上底层的 Kronos 神经网络（预测未来 K 线）。它们把原始行情变成信号——产出"量价博弈"“量化矩阵”“概率推演”。

↓
第 2 层 · 规则智能（知识工程）	60 位大师评审团 + 各维度评分算法

把投资大师的经验蒸馏成规则，把第 1 层的信号变成有立场的判断（看多/看空 + 理由）。这是一种"老派但可靠"的 AI——确定、可解释、可回测、零幻觉。

↓
第 3 层 · 生成智能（大模型 LLM）	"AI 解读"Tab + 评审团金句润色

大模型登场，但只干一件事：把前两层的所有结论"综合 + 翻译成人话"。它不做原始判断，只做跨维度的归纳表达。

第 3 层细看："AI 解读"是怎么写出来的

点开"AI 解读"，系统会把前 16 个维度的结论（5 维评分、关键信号、情景概率、风控数据、控盘度、量化矩阵…）打包成提示词，让大模型按固定结构输出一份 7 小节深度报告：

① 核心定性 ② 价值与安全边际 ③ 主力博弈 ④ 多因子量化 ⑤ 情绪周期 ⑥ 预期差挖掘 ⑦ 操盘建议

而真正体现功力的，是它给大模型上的两道"嚼子"：

**嚼子一｜数据状态门控：**还记得第一章的"三态"吗？喂给大模型的提示词里，只纳入 fresh / stale 的字段，unavailable 的直接跳过。没有数据，就不给大模型留下"自由发挥"的空间——从源头掐断幻觉。

**嚼子二｜规则在前、AI 在后：**多空结论由第 2 层的规则算定，大模型只负责润色成金句、风险清单、逐位大师点评，且被格式严格约束、失败重试、再不行就降级标注"未审核"。

这就是它和"直接让 AI 荐股"的本质区别：
后者让大模型又当运动员又当裁判，幻觉一来就胡说；
这套系统只让大模型当"播报员"，判断权牢牢攥在
可回测的规则手里。

七、回测：凭什么信？

分析系统最容易自欺欺人的就是回测，两种经典作弊：偷看未来 和 只晒赢家。这套系统里有 4 套回测，最硬核的一套文件名直接叫 true_backtest。它的两道铁闸：

**闸一：**评分只能看到 ≤ 回测日 的 K 线，收益只用 > 回测日 的真实价格。
**闸二：**回测日选股、次日开盘价买入，杜绝"当天收盘选、当天收盘买"的作弊。

更狠的是：回测历史日时，它把所有拿不到的实时维度（舆情、龙虎榜）全部归零，只用纯 K 线能算的约 77% 权重——宁可少用维度，也不偷看未来。

回测报告会如实记录每一个交易日的结果，包括踩雷亏损的日子，绝不只挑赢家展示。它的目的从来不是证明"稳赚"，而是回答一个更朴素的问题——**“这套选股方法，逻辑上站不站得住脚？”**一个敢把翻车日写进报告的系统，比晒收益截图的可信得多。

八、深度分析：全市场 5000 只票里，机会怎么"挖"出来

前面的 60 人评审团、17 维体检，都是对准一只票的"深挖"。但真实场景是：**全市场 5000 多只票，我该看哪只？**这就是"投资机会挖掘"要解决的——它和评审团是同一个漏斗的两端：机会挖掘负责海选，评审团负责精审。整套挖掘是一条三级漏斗：

① 多源海选 4 路撒网，初筛候选池	→	② 多维打分 + 一票否决 10 维加权，硬风控淘汰	→	③ 深度钻取 + 评级五维复核，输出 Top10

第一步：多源海选——不只盯着"已经涨的"

很多选股工具只会推"今天涨得最猛的"，这套系统同时从 4 个互补的角度撒网，尤其有一路是**“未涨先选”**：

热门股 TOP100 实时人气榜，市场在看什么	超跌反弹跌透了 + 出现反转信号
主力资金流入榜真金白银净流入前列	低位放量待突破 ★ 低位 + 放量蓄势，未涨先埋伏

开工前还会先评估大盘环境（沪深 300 近 5 日 / 20 日走势）——行情差就自动收紧候选门槛，行情好就放松，再去重、剔除 ST/退市、清洗热榜深位排名。

第二步：多维打分 + 一票否决

每只候选过一个多维加权打分模型（满分 100），权重不是拍脑袋——是用海量历史数据一版版回测迭代出来的，甚至发现了"量化分数过高反而存在反转效应"这类反直觉规律，据此动态调权：

打分维度	权重	看什么
量化模型	0.30	30 策略买入信号多寡
量价健康	0.24	量价结构验证主力行为
位置时机	0.12	是否在低位（防追高）
技术面	0.12	趋势 / 动量 / 形态
板块强度	0.08	所属板块是否走强
龙虎榜 / 流动性 / 基本面	0.14	游资席位、成交活跃度、ROE 等

更妙的是权重不是死的：系统按行情切换 4 套模板——基础 / 底部启动 / 趋势接力 / 消息驱动，不同模式下各维度权重自动重配（如"底部启动"模式会把"位置时机"权重大幅调高）。

同时挂着 5 条"一票否决"硬风控，踩中直接淘汰：

60 日涨幅 > 60% 20 日涨幅 > 40% 距年内高点 < 5% 连涨 > 6 天利润同比降 > 70%

一句话——追高的、见顶的、业绩暴雷的，先一票拦在门外。

第三步：深度钻取 + 评级

通过筛选的票，再做一轮五维深度钻取，多角度交叉验证，避免"单一维度看走眼"：

基本面 30% 技术面 20% 市场情绪 20% 催化剂 15% 风险因素 15%

最后给出投资评级，门槛定得很高（宁缺毋滥）：

S 级 ≥85 强烈推荐 A+ / A 关注 B / C 不入选

最终只把分数最高的一批，整理成一份 Top10 机会报告。从 5000 多只到 10 只，靠的全是可追溯的规则与回测，而不是"AI 觉得"。

九、还有这些亮点

除了上面的主线，它还塞了一堆实用功能，挑几个最酷的：

市场粒子大屏	把 AI/核聚变/航天等题材股映射成动态粒子流，炫酷呈现市场结构
实时情报栏	聚合金十快讯 + 雪球热门 + 板块资金流 + 异动，180s 刷新
自选股监控	批量实时报价 + 主力净流入，东财失败自动回退腾讯行情
批量分析	一键批量跑个股，结果直接抽取"通过"的票深入分析
K 线预测台	直接调用 Kronos 模型，对一只票预测未来 K 线走势
一键唤起券商	发现本机交易客户端并拉起，右键直达雪球/股吧

写在最后：值得学的不是算法，是价值观

**① 让 AI 各就各位。**计算智能产信号、规则智能下判断、生成智能做表达——大模型只当"播报员"，判断权交给可回测的规则。
**② 把"诚实"写进代码。**数据三态、数据不足不投假票、AI 只吃有效数据、回测如实记亏损——每一处都在主动放弃"更好看"。
**③ 回测为证伪，不为表演。**它证明的不是"稳赚"，而是"方法站得住脚"。

一图速记全流程

多源拉数据三态诚实	→	计算智能 ML+Kronos+30策略	→	规则智能 60 人评审团

17 维体检 + 以图搜股	→	生成智能 AI 解读·只表达	→	回测验证防前视·记亏损

**免责声明：**本文是对一套技术系统的工程拆解，所有评分、回测数据均为该系统的技术产出，不构成任何投资建议。市场有风险，决策需谨慎。代码逻辑均来自项目源码，如有版本差异以最新代码为准。

参考：Kronos 论文 arXiv:2508.02739（清华大学，AAAI 2026）｜开源代码 GitHub - shiyu-coder/Kronos: Kronos: A Foundation Model for the Language of Financial Markets · GitHub

耿家威PhpJavaGo用户17 · 2026 年6 月 2 日 14:56

我把一个"AI 炒股系统"拆开 看它怎么拉数据、做量化、把 AI 用在刀刃上