开云体育- 开云体育官方网站- APP下载让AI看了去年排名前10的基金这是我的真实记录
2026-04-14开云体育,开云体育官方网站,开云体育APP下载上一篇文章里我提到,想要直接分析10份pdf容易突破对话框上下文的token限制。
昨天到今天,我花了8个小时来处理这些季报,最后用claude做了综合的分析。
一般来说,一份年报的页数在70-80页之间,因为pdf是以图片形式传入上下文的,所以每页大概就要消耗1000-2000tokens。
那么一份年报对上下文的消耗大概在75000-15000tokens之间。
而且上一篇文章我提到了,模型的上下文一般都有打折,说的是可以支持1M,实际上到70-80万就不太行了。
所以,想要分析10份pdf季报,首先需要解决的问题是如何把pdf里面的关键信息给提取出来,最好能够提取到txt文档里。
有了这个思路之后,我就想着是否可以分析一下去年偏股型基金里排名前10的基金去年年报里都有啥,再做个横向对比。
这里我直接使用了claude code,让它搜索了去年收益排名前十的偏股型基金,并且自己找位置下载了pdf年报。
因为我是分开了两步操作的,第一步先试找出10只基金,我确认名单没问题后,第二步再下载相对应的季报pdf。
我看了它的思考链,它下载的地址一般都是大智慧、同花顺,反而没有去基金公司官网上看。
有意思的是,永赢科技智选没有自动下载下来,我claude code因为接的是claude模型,API太贵了就没有麻烦它再重新想办法下载了。
我最开始的想法是,是否可以直接走一个模块化的工作流,这样我只需要上传不同的季报,它就可以按照我的要求来做分析,最终输出结果。
为了省钱,我舍不得用claude的API,claude的API价格大家都明白有多贵。
时候看跟踪的情况,原因是季报里面有很多金融的敏感词汇,在提取信息的过程中,模型直接拒绝了。
然后我就把第一步的模型换成了智谱的glm-4-long,要说明的是这个模型并不聪明,但是它叫long则意味着有着很大的标记值。
因为信息提取不需要怎么思考,我也更希望提取的素材是原始素材不要加工,所以量大管饱就够。
理想很丰满,现实一塌糊涂,信息提取部分就出了各种问题,因为 glm-4-long不够聪明,它提取的信息有很多都是无用的。
还有个问题是,因为每份的pdf页数太多了,一般超过50页它就没办法一次性提取,所以它对pdf做了切割。
那么可想而知的是,最终再通过deepseek来去分析就完蛋了,因为数据不全且有各种错误,最终deepseek给我的成果就几乎全是联想。
它跑去分析各种价值型基金经理和成长型基金经理的情况和观点去了,完全没看我给的资料。
搞了半天之后,我决定放过自己,再给自己降低点难度,我只需要做好第一步,也就是把季报的关键信息提取出来就行。
上面我也说了,如果最终呈现的是txt文档,那么可以降低90%上下文tokens的消耗。
后面又整了一个小时,各种测试之后,发现虽然能提取,但是问题还是非常多,要么格式错误,要么信息不全。
当你把 PDF 丢进Gemini或Claude的对话框时,后台通常有一套非常成熟的文档解析引擎。它会预先处理版式、表格和 OCR,并以一种模型最容易理解的格式喂给它。
如果你只是通过API传字符串,缺乏了前端那种针对文档结构的优化。尤其是财经PDF往往包含大量的嵌套表格、多栏排版,API传过去的信息可能变成了“乱序堆砌”的文本,导致模型在提取时丢失逻辑关联。得,一晚上白干。
我知道其实还有个更简单的办法,那就是使用claude code,但是年轻人偏偏不信邪想要自己折腾。
最后,我用claude code直接把关键信息给提取了出来保存成了txt文档。
今后AI在做很多工作的时候,其实有些流程化和傻瓜化的操作并不需要模型多么聪明,够用、可靠就行了。
所以,在做Agent搭建的时候,往往不是所有流程中都用最好的模型是最优解,反而是跟觉这个流程选择最适合的模型是最优解。
我的claude code接的模型是claude,从性价比来看,用它做信息提取是很浪费的,因为claude的API很贵,而且充起来很麻烦。
我看有博主说,对于pdf的文件提取,Qwen是非常不错的,我因为没有充Qwen,所以也没试过。
所以在后面使用claude code提取pdf文档的时候我就能把提示词写的非常好了。
这里面有我们金融狗专业方面的一些优势,那就是你需要知道哪些数据是需要提取的,哪些数据是归纳总结下就行、哪些数据是可以忽略的。
我这次想重点分析的是去年排名前十基金的持仓重合度情况,以及各个管理人对投资运作的说明和展望。
所以,管理人对报告期内基金的投资策略和业绩说明部分我让它全文给我提取了。
提取完txt文档之后,我就把文档丢给了claude,让它根据我的要求对这10只基金进行分析。
,提示词是这样的——针对10只基金,请逐一分析其2024年的投资运作情况,每只基金包含以下维度:
2. 关键操作节点:2024年内有无明显加仓/减仓/调仓动作,时间节点是什么
,提示词是这样的——请整理10位基金经理在2024年四季报或最新公开发言中对2025年市场的展望观点,要求:
4. 最后输出一张观点对比速览表:行=基金经理,列=看多方向/风险关注/乐观程度(高/中/低)
,提示词是这样的——请基于上述10只基金最新披露的季报持仓数据,进行持仓同质化分析:
【第一步:持仓重叠度计算】 - 找出同时出现在3只及以上基金前十大持仓中的股票 - 统计每只重叠股票被几只基金持有,及合计持仓比例区间
【第二步:行业集中度对比】 - 列出每只基金前五大行业及占比 - 识别哪些行业在多只基金中高度集中
【第三步:同质化评分】 - 为每对基金计算Jaccard相似系数(基于前十大持仓股票) - 输出一个10×10的相似度矩阵热力图描述(文字版)
【第四步:结论】 - 点名同质化最严重的基金组合 - 分析同质化的潜在风险(抱团瓦解、流动性冲击等) - 找出持仓差异化最大的另类基金并解释原因
其实,做到这里,大家大概就能明白我昨天说的,为什么同样的AI不同人使用的差别会非常大。
比如,去年排名前十的基金收益率都爆炸了,那么它们的持仓情况就非常值得分析,看看是不是大量的同质化。
同时也需要看这些基金经理对后市的展望,毕竟动辄200%的收益,他们怎么看后市是需要重点关注的核心点。
这里我只截取的部分,claude分析还提到了兴证资管兴享和中欧数字经济在信息技术/互联网及医药生物方向保持了有意义的配置分散。
包括因为之前提取数据的时候基金经理的名称没有提取出来,它很多都给标注错了,这些都可以慢慢修改。
而且上面第二个模块里,对不同基金它也有不同的分析,比如中欧数字经济,它提取出来的关键观点是。
年报披露了全年组合结构的动态优化方向:一是大幅加仓推理侧基础设施——重点布局光模块及PCB等受益于海外算力需求持续攀升的标的,这些领域在推理侧算力扩张周期中展现了强劲业绩弹性;
(具体时间和比例未详细披露);三是逐步增加国产AI产业链权重,受益于年初国产大模型在推理能力上的重大突破。
年报指出2025年市场呈现资源+科技双主线,通信(代表AI产业链)全年上涨85%,电子、电力设备等成长赛道均表现突出。基金持续重仓这些方向,并通过组合结构优化(减配智能驾驶、加码推理算力)适时捕捉了行情主线的切换。
AI产业链深度研究型+多维度覆盖型。对AI产业的认知体系最为完整,从基础设施到应用再到端侧均有覆盖,追求AI板块内部的均衡配置。
好了,今天就聊到这,我去琢磨Qwen模型去了,看看用它提取pdf的效率和可操作性如何。
下一期我想试试把一位基金经理的10份季全部丢给AI,看看它能看出什么来。


