当前位置：首页 > news >正文

大模型接进开源情报系统十个月：我们尝到的的甜头和踩过的坑

news 2026/6/21 23:15:56

去年年中开始我们的系统就正式实施了大模型接入，到现在差不多十个多月了。最初团队里几个年轻技术特兴奋，说终于可以甩掉那些破关键词和正则匹配了。当时我其实也挺期待，但做了十几年采集和分析，本能觉得事情不会那么简单。十个月跑下来，我们调用和测试了上十种大模型，有本地也有接口模式，整体结果确实有甜头，但是也有坑！

今天聊聊我们怎么用的，遇到了啥问题，后来咋调的。不过，这也不是什么标准答案，就是我们的真实应用场景！！

一、智能检索：从“关键词猜谜”到“说人话”

这个用户感知最明显。

以前客户想查东西，得自己拆关键词。比如问“国产大飞机最近发动机有啥突破”，他得想：C919、CJ-1000A、商飞、商发、适航取证......，一个个试，碰上不熟的领域，搜半天还是可能漏掉关键信息。

接了智谱之后，系统能把自然语言自动拆成关键词组合，去库里查，回来再综合成一个回答。效率确实提了不少。

但有个坑：模型拆词有时候过度发挥。

记得有次客户问“某国高超音速武器进展”，系统自动拆出了十几个关键词，里面有个“HGV”。这缩写确实有几种解释，模型按最相关的取了“高超音速滑翔飞行器”，没问题。库里有一篇关于某次失败试验的报道，模型判断与问题相关，就关联上了。结果客户看到回答第一句就是“某国高超音速武器近期试验失败”，其实那是一次N年前的旧事，跟“进展”这个问法的相关性没那么强。客户来问我们，你们这系统是不是故意报忧不报喜，汗。。。

后来我们做了多次调整：比如拆出来的关键词先让用户确认下，或者至少展示系统用了哪些词去查，或者选择最相关的八个词等。另外综合回答的生成逻辑从“最相关”改成了“最权威+时间加权”，减少把偶发事件当主线的毛病。

现在检索效果确实不错，反馈好多了，但完全放手让模型干，我们暂时还不敢，还是需要不断优化和尝试改进中。

二、文章智能提取：实体、关系、摘要、伴读、翻译

这个模块我们投入精力较多，效果也比较杂，当前整体而言还不错。

先说实体和关系抽取。

一开始我们让模型自动抽所有实体——人名、机构、产品、技术、地点。结果存量文章跑了一遍，抽出来几百万个实体，乱得一塌糊涂。同一个机构有七八种写法，“洛克希德·马丁”和“Lockheed Martin”算两个，“洛马”又是另一个。关系更是五花八门，有的明显是错的。

后来做了两件事：

实体对齐，挂上行业词典。军工、能源、航空这些领域的专业词汇，先灌进去让模型参考。
不抽全量，只抽客户关注的那几类实体。不是每篇文章都需要知道“张三发表了论文”，但每一篇都得知道“是哪个单位发的、涉及什么技术方向”。

现在基本稳了，但偶尔还是会抽错。比如“华盛顿”有时候是地名有时候是人名，模型判断失误我们也没辙，只能靠用户手动纠正后反馈回来再训练。

摘要这块，比想象中顺利。

我们给客户提供两种：100字速览版和300字精读版。速览版给领导扫一眼，精读版给技术员判断要不要看原文。模型能按我们设定的风格生成，不瞎编专业词汇，这个挺满意。

伴读对话是我们觉得最有意思的功能。用户看一篇文章，遇到不懂的技术点可以直接问：“这个材料的耐温极限是多少？”模型基于全文和附带的参考文献回答，不用跳出页面再去搜。很多研究员反馈说这个省事，因为不用中断阅读流程。

翻译是老功能了，接了大模型之后，术语准确度提升了一截。以前调通用翻译接口，“单晶涡轮叶片”能翻成“单晶体涡轮的叶片”，现在基本能翻对。当然不是100%，军工客户对某些极冷门的术语还是会挑错，我们挂接了他们的内部术语表，慢慢在补。

三、智能对话：理想很丰满，现实有点骨感

内部对这个功能的定位分歧最大。有的人想做成“情报分析助手”，用户随便问什么都能答。我觉得不现实，坚持只做“本地数据范围内的问答”。

最后产品经理折中了一下：默认模式是基于本地数据库、知识库和上传文档回答，如果用户是能接互联网的模式，还可以手动开启“联网”，但会明确提醒联网内容的可信度由用户自己判断。

十个月跑下来，我当时的担心是对的。

有客户问“某型雷达的探测距离”，系统在本地没找到官方数据，就跑到网上找了一个论坛的讨论帖，说“据网友分析可能达到XXX公里”。客户差点没骂人，说你们这不是专业情报系统，是百度知道。

后来我们把这个“联网参考”默认关了。只有明确授权且数据来源限定在某些可信网站上时才能开。

还有一个问题：多轮对话的上下文管理。用户问“A国最近采购了什么防空系统”，系统答了。接着问“那它的拦截高度是多少”，系统不知道“它”指的是谁，得重新问一遍。后来引入了会话变量，但也没完全解决，涉及到跨实体的指代还是容易乱。

反正现在的策略是：对话助手辅助快速定位，复杂分析还是得人工来。

四、智能报告生成：能出初稿，别指望定稿

这个功能很多客户一开始特期待，觉得以后不用自己写报告了。

我们做的是：用户选定一批文章（按分类、关键词、时间范围筛选），选一个报告模板（比如“背景-现状-趋势-建议”），系统调用大模型按模板生成报告初稿，然后人工修改、导出。

好处是：以前写周报得花半天整理素材、组织语言，现在十分钟出一版初稿，改一改就能用。尤其对于周期性报告（每日快报、每周动态、每月汇总），效率提升很明显。

问题是：模型对“趋势”和“建议”的生成很弱。它能把几篇文章的结论堆在一起，但做不出真正的趋势判断。比如“过去三个月某领域论文数量增长了30%”，它能描述，但问它“为什么增长”，它只能泛泛说“可能因为技术突破”或者“国际竞争加剧”，没啥分析深度。

“建议”部分更尴尬。有次生成一份关于某国新能源政策的报告，建议里写“建议我方加强与对方的合作交流，。。。。。。”，说了几大段数百字，但是都是套话，跟没说一样。后来我们把建议模板改了，让模型只提“可进一步核实的信息点”而不是直接给建议。

现在的做法是：报告生成只负责“事实梳理”和“数据呈现”，给出框架和初稿，最终的结论和确认留给人写。客户也普遍接受了这个定位。

五、真实应用下来的几点实在感受

大模型不是降本，是增效。我们没有因为接了LLM而裁员，反而需要更多的人来做数据清洗、词典维护、结果验证。它帮分析师省了整理资料的时间，但没省掉分析判断的环节。
垂直领域必须挂术语库。通用模型不懂军工、不懂能源、不懂材料科学。我们花了很多精力整理行业词典，这个投资是必要的。
用户预期管理太重要了。有时候前期宣传得太猛，客户以为系统能自动写顶级报告。这个其实是不可取的，一定要告知真实的情况，大模型智能辅助写报告。
一个模型包打天下不现实。当前我们对接了八个模型(本地和接口两种模式)，有的擅长摘要，有的擅长检索意图理解，有的多语言好。不同场景用不同模型，效果更好。
最值钱的东西还是数据。大模型再强，也得有好数据喂。比如易海聚做了这么多年采集，积累了数万个经过验证的高价值信息源，以及一整套稳定获取数据的能力。这个底座没变，未来也不会变。