利用MCP实现PDF转MD的技能

PDF 转 Markdown 高效转换技能
核心痛点:市面上多数 PDF 转 MD 工具效果欠佳 —— 或仅能转出纯文本、代码格式混乱;面对多页的 PDF 文件,难以快速转换成 Claude code 可识别的规范资料。

训练skills之前已尝试的方案及问题复盘:
1、豆包 PC 版(专家模式)转写 MD:稳定性最优,支持图片识别,但存在内容压缩、准确性不足的问题;且效率极低,处理 10 个 PDF 文件需耗时约半小时,还需人工逐个操作。
2、WPS PDF 转 docx 后,通过 VSCode 插件 /pandoc 转 MD:可保留 PDF 原文,但仅能提取纯文字内容,图表数据错乱、排版混乱;即便后续用 GLM 等模型二次排版,表格数据错乱的问题仍无法解决。
3、大模型调用MCP转写成MD,我之前已经做了一个读PDF的MCP,我给doubao seed code的提示词大概是这样:“把XX文件完整转换为Markdown格式文档。转换过程中需确保所有文本内容准确迁移,同时将文档中的所有图表内容(包括图表标题、数据、坐标轴说明、图例及相关注释)以文字描述形式完整转写至Markdown文档中,不得遗漏任何图表信息。转换完成后需进行完整性检查,确保原始PDF文件中的所有内容元素(包括但不限于文本段落、表格、图表、公式、脚注等)均已正确转换并呈现。”,结果就是豆包偷懒了,转写了一部分就说自己完成了

解决方案:

这个技能主要是结合 MCP、大模型和 SKILL 来做的。我的核心做法是:把豆包的输出内容喂给 GLM,让 GLM 帮我制作 trae 的 SKILL 文件。经过几轮重构优化后,这个模式输出的文档质量,已经比豆包专家模式的效果更好了,目前可以顺利将PDF的文本信息保存到MD格式的同时,把表格和图也保存到MD里,特别是简单的图片可以用文字描述,复杂的图片(比如工艺图)skill会忽略,保持原文表达意思。

不知道怎么上传文件上来,发一个网盘地址:

通过网盘分享的文件:PDF转换MD技能导出.zip
链接: 百度网盘 请输入提取码 提取码: rwu7 复制这段内容后打开百度网盘手机App,操作更方便哦

现在还有待解决的问题是GLM偷懒,很多时候GLM不会老实一次性全量转换完PDF文件,而是会省略里面的章节,这个需要人工核查之后,让他重新输出,即使重构了整个skill也没有解决,目前这个还没有很好的解决方式

1 个赞