硬核拆解 · 60 位大师评审团 · 17 维体检 · 以图搜股 · 四套防作弊回测 · 全程基于源码
市面上的"AI 炒股",大多停在"我问了一句 AI 该买啥"。这次不一样——我手上是一套能跑起来的真实代码工程。本文讲透四件最硬的事:数据怎么一条条抓、60 位大师怎么把它量化成多空、打开一只股票能看到的 17 个分析维度,以及最关键的——AI 到底被用在了哪一层。读完你会发现,它最聪明的地方,恰恰是没让 AI 直接荐股。
一句话交代背景:这套系统底层用到了开源模型 Kronos(清华团队、AAAI 2026,第一个面向金融 K 线的基础模型,能像 GPT 预测"下一个字"一样预测"下一根 K 线")。但本文不展开模型内部,我们直接上楼,看盖在它上面的那套 A 股分析引擎每天在干什么。
一、数据:聪明钱的动作,怎么被抓下来
再聪明的算法,喂垃圾数据也只能产出垃圾。这套系统在"拉数据"上的功夫,比算法本身还重。
1. 多源拉取:一个数据,三条腿走路
| 数据源 | 角色 |
|---|---|
| Tushare 官方,需 token |
主力或备路,提供规范的基本面/龙虎榜等 |
| akshare 免 token |
主力回填源。“查库没有→在线拉→写库→再读” |
| 爬虫 东财/同花顺/雪球 |
Playwright + 反爬,抓新闻/论坛/热点 |
2. 把"游资/机构"的动作量化成数字
| 龙虎榜 量化席位识别 + 机构净买额 |
北向资金 陆股通 30 日持股比变化 |
|---|---|
| 筹码分布 控盘度 / 成本集中度 / 获利比例 |
股东户数 户数减少 = 筹码集中 = 利多 |
① "量化席位"识别——给游资派大师的弹药
系统维护一份量化席位名册,收录标准白纸黑字写着:“量化交易占比 > 60% 的席位”。识别用双通道:先精确匹配名册;没命中就用关键词兜底——席位名出现 “量化 / DMA / 程序化 / 算法” 也算。再统计近 90 天龙虎榜出现次数,直接喂给"赵老哥"的判断。
② 控盘度——只用 K 线就能估
控盘度 = (1 − 波动率因子) × 40 ← 波动越小越像被控盘
+ 量能稳定度 × 30
+ 低换手因子 × 30 ← 截断到 [0, 100]
3. 一个细节,暴露"人品":三态诚实
| fresh | 在线取数成功 | stale | 走历史落库(T-1) | unavailable | 取不到,必须写明原因 |
|---|
当某指标"数据不足"时,它不会伪装成自信的"中性值"糊弄你。记住这个三态——它后面会决定"AI 能不能开口"。
二、60 位投资大师评审团
“是真的让 60 个大模型 24 小时吵架吗?”
不是,恰恰相反,这才是它聪明的地方。这 60 位不是 60 个大模型,而是 60 套手写规则——把每位大师公开的投资哲学,蒸馏成可执行、可解释、零成本、永不编造的判断逻辑。
| 流派 | 人数 | 代表成员 |
|---|---|---|
| 价值派 | 9 | 巴菲特、芒格、格雷厄姆… |
| 成长派 | 9 | 费雪、林奇、木头姐、张磊… |
| 宏观派 | 9 | 索罗斯、达里奥、德鲁肯米勒… |
| 技术派 | 9 | 利弗莫尔、欧奈尔、海龟·丹尼斯… |
| 中国价投 | 8 | 段永平、张坤、但斌、冯柳… |
| 游资派 | 8 | 赵老哥、章盟主、徐翔、炒股养家… |
| 量化派 | 8 | 西蒙斯、格里芬、索普… |
合计正好 60 人。其中 12 位"旗舰"各有专属手写规则,48 位"替补"走流派默认 + 个人偏好微调。
看巴菲特和赵老哥的规则——同一只股票,两副眼光(所有人从中性 50 分起评):
| 巴菲特 | ROE≥20% → +25 行业估值分位≤30 → +15 利润负增长 → −10 |
赵老哥 | 量化席位 90 日≥3 次 → +26 主力净流入 → +12 量比≥1.8 → +10 |
|---|
每人输出 0~100 分 → ≥60 看多、≤40 看空。60 票投完,引擎做三件事:① 共识(按股票"风格"加权——给小盘妖股做共识时游资派话语权调高、价值派调低,比一人一票科学);② 大分歧(挑最强多头 vs 最强空头,自动生成一句金句);③ 流派倾向(7 派各自偏多偏空一目了然)。
又见"诚实":若一位大师关注的指标全无数据,系统标记他"暂不表态",而不是投一张假中性票稀释真实信号。
三、评审团吃的"饲料":特征与策略
规则再精巧,也要靠输入特征说话。系统把所有数据压成一个统一字典,覆盖五面:基本面(PE/PB/ROE/估值分位/净利同比)、资金面、技术面(RSI/MACD/KDJ/均线/布林/量比)、筹码面、模型面。
填个坑:"30 模型共振"到底是啥
特征里有个"30 模型共振",听着像 30 个 AI。真相:这是 30 个传统量化技术策略——海龟交易、一目均衡云、随机森林、多因子 Alpha、配对套利、MACD 金叉、布林挤压……每个对最新 K 线投一票(买/卖/持),数票得出多空比。量化派规则吃这个比例:≥60% 看多 → +22 分。
这 30 个策略横跨趋势、动量、量价、套利、机器学习多个流派,等于让一只票同时接受 30 种交易体系的"会诊"——单个策略会看走眼,30 个一起投票,信号就稳健得多。
连买卖点都算好:ATR 量化风控
| 止损 | 现价 − ATR×1.5,算出对应跌幅% |
|---|---|
| 5 档建仓 | 现价 10%→浅回调 20%→中度 30%→深度 25%→极限 15% |
| 4 级止盈 | 前高 30%→+15% 卖 30%→+30% 卖 25%→+50% 卖 15% |
| 风险信号 | 最大回撤、60 日年化波动率、夏普比率 |
四、打开一只股票:一份 17 维度"体检报告"
输入一个股票代码,系统一次返回 17 个分析维度(界面上是 17 个 Tab)。它们不是堆砌——而是按"快速概览 → 单维深挖 → 资金筹码 → 模型推演 → 决策落地 → AI 综合"层层递进。下表是这份"体检报告"的全部科目:
| 分组 | 维度 | 看什么 |
|---|---|---|
| 速览 | 快速信息 | 大盘周期/仓位上限/主力阶段/可信度速读卡 |
| 综合总览 | 5 维能力雷达 + 关键信号 | |
| 单维 深挖 |
市场周期 | 大盘牛/震荡/熊 + 资金流入比 |
| 主力阶段 | 强势主导/承接/撤离 | |
| 量价博弈 | 30 策略买入信号占比 | |
| 筹码结构 | 成本集中度 + 获利比例 | |
| 业绩预期 | PE 分位 + ROE + 净利同比 | |
| 资金 筹码 |
主力深度 | 龙虎榜量化席位 + 北向资金 |
| 机构持仓 | 股东户数 + 重仓基金 + 调研 | |
| 筹码·控盘雷达 | 控盘度 + 成本集中度可视化 | |
| 模型 推演 |
量化矩阵 | 30 策略逐一信号 + 当前态势 |
| 概率推演 ★ | 看多/看空/震荡三情景概率 | |
| 涨停筛选 | 打板时机 / 涨停相关信号 | |
| 决策 落地 |
操盘风控 | ATR 止损 / 5 档建仓 / 4 级止盈 |
| 多空评审团 ★ | 60 位大师投票 + 共识 + 大分歧 | |
| 形态回测 ★ | 同类形态历史 5/10/20 日胜率 | |
| AI | AI 解读 ★ | 把以上全部喂给大模型 → 7 小节深度报告 |
★ 为下文重点展开的维度。注意最后一行——"AI 解读"是唯一由大模型主笔的维度,它站在前 16 个维度的肩膀上。
值得单独说的"概率推演"
它不玄。就是把 30 个量化策略的投票归一化成三个情景概率:
看多概率 = 买入票 / 总票数 × 100%
看空概率 = 卖出票 / 总票数 × 100%
震荡概率 = 剩下的部分
票数为 0 时 → 直接显示"数据不足",不硬编概率
朴素,但可追溯、不黑箱——你能一路点回去看到是哪些策略投了哪一票。这正是它和"AI 拍一个涨跌概率给你"的区别。
五、王牌功能:以图搜图 + 以股搜股
这是整套系统最差异化、最适合演示的功能:你脑子里有一个"理想走势",系统帮你从全 A 股里把长得最像的票捞出来。两个入口,共用同一个引擎:
在画布上手绘一条 K 线形态(至少 5 个点),系统重采样成 30 点曲线,去全市场指纹库里找最像的票。
输入一只股票(如 600519),载入它近期的真实走势当模板,找出全市场形态最相似的"同款"。
背后的相似度算法很干净:
相似度 = 皮尔逊形状相似 × 0.7 + 斜率匹配 × 0.3
全 A 股每只票被压成一条"30 点归一化曲线指纹",存进本地指纹库,每天收盘后(默认 15:30)自动重建。检索是秒级的,还自动剔除 ST/退市、支持按市场/行业过滤。
两个加分细节,看得出用心:
| + | 命中即回测:找到一批"同款"后,一键回测这个形态在历史上出现后、5/10/20 日的真实胜率(相似度阈值 0.85)——形态好不好,用历史数据说话。 |
|---|---|
| + | 叠加实时报价 + 形态沉淀:命中结果贴当日实时涨跌,判断"今天是否已偏离形态";满意的形态可保存成模板,连同检索条件一起存档,下次一键重跑。 |
六、关键问题:AI 到底融入在哪一层?
讲了这么多维度,“AI"到底在哪?答案是——它分三层融入,各司其职,而不是"一个大模型搞定一切”。看懂这张三层图,就看懂了整套系统的设计哲学:
| 第 1 层 · 计算智能 | 机器学习 + 神经网络 + 统计模型 |
|---|
30 量化策略里的随机森林、多因子 Alpha,加上底层的 Kronos 神经网络(预测未来 K 线)。它们把原始行情变成信号——产出"量价博弈"“量化矩阵”“概率推演”。
| ↓ | |
|---|---|
| 第 2 层 · 规则智能(知识工程) | 60 位大师评审团 + 各维度评分算法 |
把投资大师的经验蒸馏成规则,把第 1 层的信号变成有立场的判断(看多/看空 + 理由)。这是一种"老派但可靠"的 AI——确定、可解释、可回测、零幻觉。
| ↓ | |
|---|---|
| 第 3 层 · 生成智能(大模型 LLM) | "AI 解读"Tab + 评审团金句润色 |
大模型登场,但只干一件事:把前两层的所有结论"综合 + 翻译成人话"。它不做原始判断,只做跨维度的归纳表达。
第 3 层细看:"AI 解读"是怎么写出来的
点开"AI 解读",系统会把前 16 个维度的结论(5 维评分、关键信号、情景概率、风控数据、控盘度、量化矩阵…)打包成提示词,让大模型按固定结构输出一份 7 小节深度报告:
① 核心定性 ② 价值与安全边际 ③ 主力博弈 ④ 多因子量化 ⑤ 情绪周期 ⑥ 预期差挖掘 ⑦ 操盘建议
而真正体现功力的,是它给大模型上的两道"嚼子":
**嚼子一|数据状态门控:**还记得第一章的"三态"吗?喂给大模型的提示词里,只纳入 fresh / stale 的字段,unavailable 的直接跳过。没有数据,就不给大模型留下"自由发挥"的空间——从源头掐断幻觉。
**嚼子二|规则在前、AI 在后:**多空结论由第 2 层的规则算定,大模型只负责润色成金句、风险清单、逐位大师点评,且被格式严格约束、失败重试、再不行就降级标注"未审核"。
这就是它和"直接让 AI 荐股"的本质区别:
后者让大模型又当运动员又当裁判,幻觉一来就胡说;
这套系统只让大模型当"播报员",判断权牢牢攥在
可回测的规则手里。
七、回测:凭什么信?
分析系统最容易自欺欺人的就是回测,两种经典作弊:偷看未来 和 只晒赢家。这套系统里有 4 套回测,最硬核的一套文件名直接叫 true_backtest。它的两道铁闸:
**闸一:**评分只能看到 ≤ 回测日 的 K 线,收益只用 > 回测日 的真实价格。
**闸二:**回测日选股、次日开盘价买入,杜绝"当天收盘选、当天收盘买"的作弊。
更狠的是:回测历史日时,它把所有拿不到的实时维度(舆情、龙虎榜)全部归零,只用纯 K 线能算的约 77% 权重——宁可少用维度,也不偷看未来。
回测报告会如实记录每一个交易日的结果,包括踩雷亏损的日子,绝不只挑赢家展示。它的目的从来不是证明"稳赚",而是回答一个更朴素的问题——**“这套选股方法,逻辑上站不站得住脚?”**一个敢把翻车日写进报告的系统,比晒收益截图的可信得多。
八、深度分析:全市场 5000 只票里,机会怎么"挖"出来
前面的 60 人评审团、17 维体检,都是对准一只票的"深挖"。但真实场景是:**全市场 5000 多只票,我该看哪只?**这就是"投资机会挖掘"要解决的——它和评审团是同一个漏斗的两端:机会挖掘负责海选,评审团负责精审。整套挖掘是一条三级漏斗:
| ① 多源海选 4 路撒网,初筛候选池 |
→ | ② 多维打分 + 一票否决 10 维加权,硬风控淘汰 |
→ | ③ 深度钻取 + 评级 五维复核,输出 Top10 |
|---|
第一步:多源海选——不只盯着"已经涨的"
很多选股工具只会推"今天涨得最猛的",这套系统同时从 4 个互补的角度撒网,尤其有一路是**“未涨先选”**:
实时人气榜,市场在看什么 |
跌透了 + 出现反转信号 |
|---|---|
真金白银净流入前列 |
低位 + 放量蓄势,未涨先埋伏 |
开工前还会先评估大盘环境(沪深 300 近 5 日 / 20 日走势)——行情差就自动收紧候选门槛,行情好就放松,再去重、剔除 ST/退市、清洗热榜深位排名。
第二步:多维打分 + 一票否决
每只候选过一个多维加权打分模型(满分 100),权重不是拍脑袋——是用海量历史数据一版版回测迭代出来的,甚至发现了"量化分数过高反而存在反转效应"这类反直觉规律,据此动态调权:
| 打分维度 | 权重 | 看什么 |
|---|---|---|
| 量化模型 | 0.30 | 30 策略买入信号多寡 |
| 量价健康 | 0.24 | 量价结构验证主力行为 |
| 位置时机 | 0.12 | 是否在低位(防追高) |
| 技术面 | 0.12 | 趋势 / 动量 / 形态 |
| 板块强度 | 0.08 | 所属板块是否走强 |
| 龙虎榜 / 流动性 / 基本面 | 0.14 | 游资席位、成交活跃度、ROE 等 |
更妙的是权重不是死的:系统按行情切换 4 套模板——基础 / 底部启动 / 趋势接力 / 消息驱动,不同模式下各维度权重自动重配(如"底部启动"模式会把"位置时机"权重大幅调高)。
同时挂着 5 条"一票否决"硬风控,踩中直接淘汰:
60 日涨幅 > 60% 20 日涨幅 > 40% 距年内高点 < 5% 连涨 > 6 天 利润同比降 > 70%
一句话——追高的、见顶的、业绩暴雷的,先一票拦在门外。
第三步:深度钻取 + 评级
通过筛选的票,再做一轮五维深度钻取,多角度交叉验证,避免"单一维度看走眼":
基本面 30% 技术面 20% 市场情绪 20% 催化剂 15% 风险因素 15%
最后给出投资评级,门槛定得很高(宁缺毋滥):
S 级 ≥85 强烈推荐 A+ / A 关注 B / C 不入选
最终只把分数最高的一批,整理成一份 Top10 机会报告。从 5000 多只到 10 只,靠的全是可追溯的规则与回测,而不是"AI 觉得"。
九、还有这些亮点
除了上面的主线,它还塞了一堆实用功能,挑几个最酷的:
| 把 AI/核聚变/航天等题材股映射成动态粒子流,炫酷呈现市场结构 | |
|---|---|
| 聚合金十快讯 + 雪球热门 + 板块资金流 + 异动,180s 刷新 | |
| 批量实时报价 + 主力净流入,东财失败自动回退腾讯行情 | |
| 一键批量跑个股,结果直接抽取"通过"的票深入分析 | |
| 直接调用 Kronos 模型,对一只票预测未来 K 线走势 | |
| 发现本机交易客户端并拉起,右键直达雪球/股吧 |
写在最后:值得学的不是算法,是价值观
**① 让 AI 各就各位。**计算智能产信号、规则智能下判断、生成智能做表达——大模型只当"播报员",判断权交给可回测的规则。
**② 把"诚实"写进代码。**数据三态、数据不足不投假票、AI 只吃有效数据、回测如实记亏损——每一处都在主动放弃"更好看"。
**③ 回测为证伪,不为表演。**它证明的不是"稳赚",而是"方法站得住脚"。
一图速记全流程
三态诚实 |
→ | ML+Kronos+30策略 |
→ | 60 人评审团 |
|---|
+ 以图搜股 |
→ | AI 解读·只表达 |
→ | 防前视·记亏损 |
|---|
**免责声明:**本文是对一套技术系统的工程拆解,所有评分、回测数据均为该系统的技术产出,不构成任何投资建议。市场有风险,决策需谨慎。代码逻辑均来自项目源码,如有版本差异以最新代码为准。
参考:Kronos 论文 arXiv:2508.02739(清华大学,AAAI 2026)|开源代码 GitHub - shiyu-coder/Kronos: Kronos: A Foundation Model for the Language of Financial Markets · GitHub
