当前位置：首页 > news >正文

基于大语言模型的股票研报自动化生成：技术架构与工程实践

news 2026/5/13 2:04:16

1. 项目概述：当ChatGPT遇上股票研报

最近几年，AI在金融领域的应用已经从简单的新闻聚合，进化到了能够进行复杂分析和内容生成。作为一个对量化投资和自然语言处理都感兴趣的开发者，我一直在寻找一个能将两者结合起来的“玩具项目”。直到我遇到了ddobokki/chatgpt_stock_report这个开源项目，它提供了一个非常清晰的思路：利用类似ChatGPT的大语言模型能力，自动化生成结构化的股票研究报告。

这个项目的核心价值在于，它试图解决一个非常实际的痛点：信息过载与决策效率。对于个人投资者、小型投资团队甚至是一些需要快速了解行业动态的分析师来说，每天面对海量的财报、公告、新闻和研报，提炼有效信息是一个耗时耗力的过程。chatgpt_stock_report项目提供了一个技术框架，通过程序自动获取公开的金融数据，然后引导大语言模型（LLM）扮演分析师的角色，按照标准的研报格式，生成包含公司概况、财务分析、竞争力评估、风险提示和投资建议等模块的初步报告草稿。

它不是一个“黑箱”荐股系统，而是一个“增强智能”的分析辅助工具。它不预测股价，而是将散乱的数据结构化、语言化，帮助人类分析师或投资者更快地抓住重点，为最终的人工决策提供高质量的素材。无论你是想学习如何将LLM应用于垂直领域，还是想为自己构建一个个性化的投资分析助手，这个项目都是一个极佳的起点和参考。

2. 核心思路与技术架构拆解

这个项目的魅力不在于使用了多么高深莫测的算法，而在于其清晰、实用的工程化思路。它将一个复杂的“AI写研报”任务，拆解成了几个可执行、可迭代的标准化步骤。

2.1 核心工作流：从数据到报告的管道

项目的核心是一个数据处理与文本生成的管道（Pipeline）。整个流程可以概括为“数据获取 -> 信息处理 -> 提示工程 -> 报告生成”。

数据获取层：这是分析的基石。项目需要获取目标公司的结构化数据（如财务报表、基础信息）和非结构化数据（如近期新闻、公告）。通常，这会通过金融数据API（如Tushare、AkShare、Yahoo Finance等）或网络爬虫来实现。数据的质量和完整性直接决定了最终报告的可信度。
信息处理与摘要层：获取到的原始数据，尤其是非结构化的文本数据（新闻），是杂乱且冗长的。这一步需要利用文本处理技术（如关键词提取、文本摘要）或较小型的NLP模型，将长文本浓缩成包含核心事实的简短摘要，作为后续LLM加工的“原料”。
提示工程与上下文构建层：这是项目的灵魂所在。如何让LLM理解“你要写一份专业的股票研报”？这完全依赖于我们提供的“提示词”（Prompt）。项目需要精心设计一个系统提示词（System Prompt），来为LLM设定角色（如“你是一名资深证券分析师”）、任务目标和输出格式。同时，还需要将前两步处理好的结构化数据（如营收、利润增长率）和文本摘要，作为用户提示词（User Prompt）的一部分，喂给LLM。
大语言模型调用与报告生成层：将构建好的提示上下文，发送给LLM的API（如OpenAI的GPT系列、 Anthropic的Claude，或开源的Llama、ChatGLM等）。LLM根据指令和材料，生成符合格式要求的研报正文。这里通常采用“分步生成”策略，即先让LLM生成大纲，再针对每个章节逐步生成内容，以保证结构稳定和内容深度。
后处理与格式化输出层：将LLM生成的Markdown或纯文本报告，转换为更美观的格式，如PDF、HTML或Word。同时，可能包含一些简单的后处理，比如检查关键数据是否被正确引用，格式化表格等。

2.2 技术栈选型背后的考量

项目的技术选型体现了实用主义导向，主要围绕Python生态展开。

核心语言：Python。这是数据科学和AI领域的事实标准，拥有最丰富的库支持，从数据处理到模型调用都能找到成熟的工具。
数据获取：Pandas + 金融数据API。Pandas是处理表格数据（如财务报表）的不二之选。选择具体的金融数据API时，需要权衡数据覆盖范围（A股、美股、港股）、数据质量、更新频率和成本（免费额度与付费）。对于国内开发者，Tushare和AkShare是获取A股数据的热门选择。
文本处理：Jieba / SnowNLP + Hugging Face Transformers。对于中文文本摘要和关键词提取，Jieba分词是基础，结合TextRank等算法可以实现简单的摘要。若追求更好效果，可以使用Hugging Face上的轻量级摘要模型（如BART,PEGASUS的微调版本）。
大语言模型核心：OpenAI API 或开源LLM本地部署。
- OpenAI API (GPT-3.5/4)：优势是效果稳定、功能强大、接口简单，能快速验证想法。劣势是持续使用有成本，且数据需要出境，需考虑合规与隐私风险。
- 开源LLM (如 Llama 3, ChatGLM3, Qwen)：优势是数据完全本地处理，隐私性好，长期成本可能更低。劣势是需要本地或自有服务器的计算资源，且模型效果调优需要更多技术投入。项目初期验证阶段，使用API更快捷；产品化阶段，考虑开源模型是更可持续的方向。
提示工程框架：LangChain / LlamaIndex。这两个框架专门为构建基于LLM的应用程序而生。它们提供了连接数据源、构建索引、管理提示词模板、组织复杂调用链（Chain）的高级抽象。使用它们可以让你更专注于业务逻辑，而不是底层的API调用和上下文管理细节。例如，可以用LlamaIndex轻松地将公司公告文档建立索引，实现基于语义的检索，让LLM在生成报告时能引用最相关的原文内容。
输出与调度：Markdown / Jinja2 + 定时任务。报告内容通常先用Markdown格式生成，再利用Jinja2等模板引擎嵌入到更复杂的HTML模板中，最后用WeasyPrint等库转为PDF。如果需要定期生成报告，可以引入APScheduler或Celery来管理定时任务。

注意：在选择LLM服务时，必须严格遵守数据安全与合规要求。处理境内公司的敏感财务数据时，应优先考虑符合境内法规的云服务或本地化部署方案，确保数据不违规出境。

3. 关键模块深度解析与实操要点

理解了整体架构，我们深入看看几个关键模块如何实现，以及实操中会遇到哪些“坑”。

3.1 数据获取与清洗：确保分析的基石稳固

数据质量决定上限。你不能指望LLM从错误的数据中分析出正确的结论。

1. 结构化数据获取（以A股为例，使用Tushare Pro）：

import tushare as ts import pandas as pd # 初始化（需要Token） ts.set_token('你的Tushare Pro Token') pro = ts.pro_api() # 示例：获取贵州茅台（600519.SH）的利润表 income_df = pro.income(ts_code='600519.SH', start_date='20220101', end_date='20231231', fields='ts_code,ann_date,f_ann_date,end_date,report_type,operate_profit,total_profit,n_income') # 清洗：确保日期格式正确，排序，处理缺失值 income_df['end_date'] = pd.to_datetime(income_df['end_date']) income_df = income_df.sort_values('end_date').reset_index(drop=True) # 计算关键增长率 income_df['n_income_yoy'] = income_df['n_income'].pct_change() * 100 # 净利润同比增长率

实操心得：金融API返回的数据字段可能因版本而异，务必查阅最新文档。对于财务数据，要特别注意报告期（end_date）和公告日（ann_date）的区别，分析时通常基于报告期。另外，API常有调用频率限制，在批量获取多只股票或多期数据时，需要加入适当的延时（如time.sleep(0.5)）以避免被封。

2. 非结构化数据获取（新闻/公告）：这通常涉及爬虫或使用专门的新闻API。使用爬虫时务必遵守网站的robots.txt协议，并设置合理的请求头（User-Agent）和请求间隔。

import requests from bs4 import BeautifulSoup import time def fetch_news_summary(stock_name, pages=3): """一个简化的示例函数，实际应用需适配具体网站结构""" news_list = [] # 模拟搜索某财经网站新闻 for page in range(1, pages+1): # 注意：此处为示例URL，实际需替换为目标网站的真实搜索接口 url = f"https://example-news-site.com/search?q={stock_name}&page={page}" headers = {'User-Agent': 'Mozilla/5.0'} resp = requests.get(url, headers=headers) soup = BeautifulSoup(resp.text, 'html.parser') # 解析新闻标题、链接、时间（此处为伪代码） # articles = soup.find_all('div', class_='news-item') # for art in articles: # title = art.find('h2').text.strip() # link = art.find('a')['href'] # pub_time = art.find('span', class_='time').text # news_list.append({'title': title, 'link': link, 'time': pub_time}) time.sleep(1) # 礼貌性延时 return news_list[:10] # 返回最近10条

注意事项：直接爬取可能不稳定且法律风险高。更可靠的做法是订阅专业的金融数据服务，它们通常提供稳定、清洗过的新闻和公告数据流。对于个人项目，也可以考虑使用一些聚合平台提供的有限免费API。

3.2 提示工程的艺术：如何与LLM有效“对话”

这是项目成败的关键。一个糟糕的提示词会得到一篇泛泛而谈、甚至胡言乱语的“报告”。

一个基础的系统提示词设计：

你是一名经验丰富、风格严谨的证券公司行业分析师。你的任务是根据提供的公司财务数据和市场信息，撰写一份专业、客观、结构完整的股票投资分析报告。 **报告必须严格遵循以下结构：** 1. 公司概况与近期动态：简要介绍公司主营业务，并总结近期（近3个月）重要的经营事件或市场关注点。 2. 财务分析：基于提供的财务数据，分析公司的盈利能力、成长性、营运效率与财务健康状况。要求使用具体数据（如增长率、比率）支持观点。 3. 核心竞争力与行业地位：分析公司的主要竞争优势（如品牌、技术、渠道）及其在行业内的地位。 4. 风险提示：系统地列出公司面临的主要风险，包括行业风险、公司经营风险和市场风险。 5. 投资建议：给出明确的投资建议（如“增持”、“中性”、“减持”），并简要陈述理由。建议必须基于前述分析逻辑推导得出。 **写作要求：** - 语言专业、精炼，避免口语化和主观臆断。 - 所有结论必须有数据或信息依据，禁止编造不存在的数据。 - 对于不确定的信息，应明确标注“根据公开信息”或“可能存在不确定性”。 - 报告总字数控制在1500字左右。

进阶技巧：

分步生成（Chain of Thought）：不要一次性让LLM生成完整报告。可以先让它输出报告大纲，然后针对每个章节，单独发起一次对话，并提供该章节所需的特定数据。这样能获得更深度的分析和更好的上下文控制。
提供“范例”（Few-Shot Learning）：在提示词中附带一两个你期望的报告格式片段（例如，一个写得很好的“财务分析”段落），能极大地引导LLM的输出风格和质量。

结构化数据输入：将财务数据整理成清晰的表格或键值对形式，放在用户提示中。例如：

以下是贵州茅台2022-2023年度部分财务数据（单位：亿元）： | 报告期 | 营业收入 | 同比增长 | 归母净利润 | 同比增长 | |---|---|---|---|---| | 2022-12-31 | 1275.5 | 16.5% | 627.2 | 19.6% | | 2023-12-31 | 1505.6 | 18.0% | 747.3 | 19.2% | 请基于以上数据，分析该公司的盈利能力和成长性。

温度（Temperature）和Top_p参数：对于研报这种需要严谨、确定性输出的任务，应将温度设置得较低（如0.1-0.3），以减少随机性和“创造性”。Top_p也可以设置较低（如0.9），让模型集中在概率最高的词上。

3.3 集成与调用：使用LangChain构建可靠流程

直接裸调用API在简单场景下可行，但当任务变复杂时，代码会变得难以维护。使用LangChain可以优雅地组织整个流程。

示例：构建一个简单的报告生成链

from langchain.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate from langchain.chat_models import ChatOpenAI # 或 ChatAnthropic, ChatOllama等 from langchain.schema import StrOutputParser from langchain_core.runnables import RunnablePassthrough # 1. 定义提示词模板 system_template = “你是一名资深分析师...（同上文系统提示词）” system_message_prompt = SystemMessagePromptTemplate.from_template(system_template) human_template = “”” 请为以下公司生成分析报告。 公司名称：{company_name} 股票代码：{stock_code} **核心财务数据：** {financial_table} **近期重要新闻摘要：** {news_summary} “”” human_message_prompt = HumanMessagePromptTemplate.from_template(human_template) chat_prompt = ChatPromptTemplate.from_messages([system_message_prompt, human_message_prompt]) # 2. 初始化LLM llm = ChatOpenAI(model_name=“gpt-4-turbo-preview”, temperature=0.2, openai_api_key=“your_key”) # 3. 构建处理链 def format_financial_data(raw_data): # 将Pandas DataFrame格式化为字符串表格 return raw_data.to_markdown() def format_news_summary(news_list): # 将新闻列表格式化为字符串 return “\n”.join([f”- {n[‘time’]}: {n[‘title’]}” for n in news_list]) # 假设我们已经有了数据获取函数 financial_df = fetch_financial_data(“600519.SH”) news_list = fetch_news_summary(“贵州茅台”) chain = ( { “company_name”: RunnablePassthrough(), # 这里可以传入变量或固定值 “stock_code”: RunnablePassthrough(), “financial_table”: lambda x: format_financial_data(financial_df), “news_summary”: lambda x: format_news_summary(news_list), } | chat_prompt | llm | StrOutputParser() ) # 4. 执行调用 report = chain.invoke({ “company_name”: “贵州茅台”, “stock_code”: “600519.SH” }) print(report)

实操心得：使用LangChain或LlamaIndex的最大好处是“可组合性”。你可以轻松地将数据获取、处理、生成、后处理等步骤链接起来，形成一个可视化的工作流。当需要从PDF公告中提取信息时，可以插入一个DocumentLoader和TextSplitter；当需要让LLM基于大量文档进行问答时，可以插入一个VectorStoreRetriever。这为项目的持续迭代和功能扩展提供了坚实的基础。

4. 从零到一的完整实现流程

让我们抛开框架，从一个更落地的视角，看看如何一步步搭建一个最小可行产品（MVP）。

4.1 环境准备与依赖安装

首先，创建一个干净的Python环境（推荐使用conda或venv），然后安装核心依赖。

# 创建并激活虚拟环境 conda create -n stock_report python=3.10 conda activate stock_report # 安装核心库 pip install pandas tushare # 数据处理与金融数据 pip install requests beautifulsoup4 lxml # 网络请求与网页解析（备用） pip install openai langchain langchain-community # LLM核心与框架 pip install jinja2 weasyprint # 报告模板与PDF生成 # 如果使用开源模型，例如通过Ollama本地运行 # pip install ollama langchain-ollama

依赖选择说明：Tushare是获取A股数据的利器，但需要注册获取Token。AkShare是另一个优秀的免费替代品，无需Token，但接口稳定性可能略有差异。LangChain生态正在快速演进，注意版本兼容性，建议锁定主要版本（如langchain==0.1.x）。

4.2 构建核心数据管道

创建一个data_fetcher.py模块，封装所有数据获取逻辑。

# data_fetcher.py import tushare as ts import pandas as pd from typing import Dict, List, Optional import time class StockDataFetcher: def __init__(self, tushare_token: str): ts.set_token(tushare_token) self.pro = ts.pro_api() def get_basic_info(self, ts_code: str) -> Dict: """获取公司基础信息""" df = self.pro.stock_basic(ts_code=ts_code, fields=“ts_code,name,area,industry,market,list_date”) return df.iloc[0].to_dict() if not df.empty else {} def get_income_statement(self, ts_code: str, years: int = 3) -> pd.DataFrame: """获取近几年的利润表数据""" # 计算起始日期 from datetime import datetime end_date = datetime.now().strftime(“%Y%m%d”) start_date = (datetime.now().replace(year=datetime.now().year - years)).strftime(“%Y%m%d”) df = self.pro.income(ts_code=ts_code, start_date=start_date, end_date=end_date, fields=“ts_code,ann_date,end_date,report_type,operate_profit,total_profit,n_income”) # 清洗与转换 df[‘end_date’] = pd.to_datetime(df[‘end_date’]) df = df.sort_values(‘end_date’).reset_index(drop=True) # 只保留年报和半年报？根据需求筛选 df = df[df[‘report_type’].isin([‘1’, ‘2’])] # 假设1为年报，2为半年报 return df def get_news_from_web(self, company_name: str, limit: int = 5) -> List[Dict]: """模拟从财经网站获取新闻（需根据实际网站结构重写）""" # 此处应替换为真实的爬虫逻辑或第三方新闻API调用 # 返回示例数据 return [ {“title”: f“{company_name}发布年度ESG报告，绿色制造获认可”, “date”: “2024-04-15”, “source”: “模拟财经网”}, {“title”: f“行业政策利好，{company_name}所在板块迎来机遇”, “date”: “2024-04-10”, “source”: “模拟证券报”}, ]

关键点：将数据获取封装成类，便于管理和配置（如Token、请求重试策略）。对于新闻数据，强烈建议在MVP阶段使用模拟数据或简单的关键词搜索API，避免陷入复杂的反爬虫斗争。

4.3 设计提示词模板与报告生成器

创建一个report_generator.py模块，这里我们暂时不使用LangChain，以最直接的方式展示核心逻辑。

# report_generator.py import openai from typing import Dict, Any class ReportGenerator: def __init__(self, api_key: str, model: str = “gpt-4-turbo-preview”): openai.api_key = api_key self.model = model self.system_prompt = “””你是...（此处填入完整的系统提示词）”“” def _build_user_prompt(self, company_info: Dict, financial_df: pd.DataFrame, news_list: List[Dict]) -> str: """构建用户提示词""" # 格式化财务数据 fin_table = financial_df[[‘end_date’, ‘operate_profit’, ‘n_income’]].to_markdown(index=False) # 格式化新闻 news_text = “\n”.join([f”- {n[‘date’]} [{n[‘source’]}] {n[‘title’]}” for n in news_list]) prompt = f””” 分析目标： 公司全称：{company_info.get(‘name’, ‘N/A’)} 股票代码：{company_info.get(‘ts_code’, ‘N/A’)} 所属行业：{company_info.get(‘industry’, ‘N/A’)} 核心财务数据（利润表摘要）： {fin_table} 近期市场动态： {news_text} 请根据以上信息，严格按照指令要求撰写分析报告。 “”” return prompt def generate(self, company_info: Dict, financial_df: pd.DataFrame, news_list: List[Dict]) -> str: """生成报告""" user_prompt = self._build_user_prompt(company_info, financial_df, news_list) try: response = openai.ChatCompletion.create( model=self.model, messages=[ {“role”: “system”, “content”: self.system_prompt}, {“role”: “user”, “content”: user_prompt} ], temperature=0.2, max_tokens=3000, ) return response.choices[0].message.content except Exception as e: return f“报告生成失败：{str(e)}”

参数详解：temperature=0.2确保输出稳定；max_tokens=3000为报告长度留出足够空间，但需注意成本。对于复杂的分析，可以考虑使用stream=True进行流式输出，提升用户体验。

4.4 组装与输出：主程序与报告美化

最后，创建一个main.py作为入口，串联所有模块，并生成最终报告。

# main.py from data_fetcher import StockDataFetcher from report_generator import ReportGenerator import config # 假设配置文件，存放API KEY等 def main(): # 1. 初始化 fetcher = StockDataFetcher(config.TUSHARE_TOKEN) generator = ReportGenerator(config.OPENAI_API_KEY) # 2. 指定目标公司 target_ts_code = “600519.SH” # 贵州茅台 # 3. 获取数据 print(“正在获取公司基础信息...”) company_info = fetcher.get_basic_info(target_ts_code) print(f“分析对象：{company_info.get(‘name’)} ({target_ts_code})”) print(“正在获取财务数据...”) financial_data = fetcher.get_income_statement(target_ts_code, years=3) print(“正在获取市场动态...”) news = fetcher.get_news_from_web(company_info.get(‘name’, ‘’), limit=5) # 4. 生成报告 print(“正在调用AI生成分析报告...”) report_content = generator.generate(company_info, financial_data, news) # 5. 输出报告 output_file = f“{target_ts_code}_分析报告_{pd.Timestamp.now().strftime(‘%Y%m%d’)}.md” with open(output_file, ‘w’, encoding=‘utf-8’) as f: f.write(f“# {company_info.get(‘name’)} ({target_ts_code}) 投资分析报告\n\n”) f.write(f“**生成时间：** {pd.Timestamp.now().strftime(‘%Y-%m-%d %H:%M:%S’)}\n\n”) f.write(“---\n\n”) f.write(report_content) print(f“报告已生成：{output_file}”) # （可选）转换为PDF # convert_md_to_pdf(output_file) if __name__ == “__main__”: main()

报告美化：生成的Markdown文件可以直接阅读。如果需要更专业的PDF，可以使用WeasyPrint或markdown+pdfkit（依赖wkhtmltopdf）进行转换。更好的方式是使用Jinja2模板引擎，将Markdown内容嵌入到设计好的HTML模板中，再转为PDF，这样可以控制页眉、页脚、样式等。

5. 常见问题、优化方向与避坑指南

在实际开发和运行过程中，你一定会遇到各种各样的问题。下面是我在复现和改造类似项目时积累的一些经验。

5.1 典型问题与解决方案速查表

问题现象	可能原因	排查步骤与解决方案
LLM生成的报告内容空洞、泛泛而谈	1. 提示词不够具体，未限定角色和格式。 2. 输入的数据太少或太笼统。 3. Temperature参数过高。	1.强化系统提示词：明确分析师角色、报告结构、写作风格。提供输出范例。 2.丰富输入数据：提供更多维度的财务指标（毛利率、负债率等）、分业务数据、同行对比数据。 3.降低Temperature：设为0.1-0.3，增加确定性。
报告中出现“幻觉”，编造数据或事实	1. LLM本身的知识截止日期限制。 2. 提示词未强调“基于提供数据”。 3. 提供的上下文过长，关键数据被淹没。	1.在提示词中强调：“所有分析和结论必须严格基于下方提供的财务数据和信息，禁止编造或推测未提供的数据。” 2.分步查询：先让LLM基于数据总结关键事实，再基于事实进行分析。 3.使用检索增强生成（RAG）：将公司公告、年报原文向量化，让LLM生成时优先引用检索到的原文片段。
生成速度慢或API调用频繁失败	1. 网络问题或API服务不稳定。 2. 请求的token数超限（上下文太长）。 3. 免费额度用尽或达到速率限制。	1.添加重试机制：使用`tenacity`库为API调用添加指数退避重试。 2.精简输入：对长文本（如新闻）先做摘要，再输入。只提供最关键的数据。 3.监控用量与限流：在代码中记录token消耗，对于大批量任务，主动添加延迟（如`time.sleep(1)`）。
财务数据分析角度单一，缺乏深度	数据仅做了简单呈现，未进行加工和解读。	在数据输入前进行预处理：计算关键财务比率（如ROE、毛利率、资产负债率）、同比增长率、环比增长率、与行业平均的对比等。将这些加工后的分析结论作为输入的一部分提供给LLM，引导其进行深度解读。
报告格式混乱，不符合要求	LLM未能严格遵守提示词中的格式指令。	1.使用结构化输出：如果使用的LLM支持（如GPT-4 Turbo的JSON模式），直接要求其以JSON格式输出，再转换为Markdown。 2.后处理正则匹配：编写正则表达式或规则，对生成的报告进行格式检查和修正。

5.2 项目进阶优化方向

一个基础的自动化报告生成器只是起点，要让其真正产生价值，可以考虑以下优化：

引入向量数据库与RAG（检索增强生成）：这是提升报告专业性和准确性的关键一步。将公司的历史年报、招股说明书、券商研报（公开部分）等全文文档切片、向量化后存入ChromaDB或Milvus等向量数据库。在生成报告的每个章节时，先根据问题从向量库中检索最相关的原文片段，将这些片段作为上下文提供给LLM。这能极大减少“幻觉”，并让报告内容有据可查。
实现多轮对话与迭代润色：首版报告生成后，可以设计一个“审核-修改”循环。例如，让LLM自己扮演风控合规员，检查报告中的风险提示是否充分；或者让用户提出修改意见（如“请更加强调供应链风险”），系统根据意见进行迭代修改。
搭建自动化定时任务与推送系统：使用APScheduler或Celery配置定时任务（如每周一早上9点），自动为自选股列表生成报告，并通过邮件、企业微信、飞书机器人等方式推送结果。这使其从一个工具变成一个服务。
开发简单的Web界面：使用Streamlit或Gradio快速构建一个前端界面，让用户输入股票代码，点击按钮即可生成报告，并在线查看和下载。这大大降低了使用门槛。
集成更多数据源与分析维度：除了基础财务和新闻，可以接入产业链数据、舆情情感分析、技术指标等，让报告维度更加立体。例如，加入“市场情绪分析”章节，基于社交媒体和新闻的情感分析结果来阐述。

5.3 成本控制与开源模型替代方案

使用GPT-4等商用API生成长篇报告成本不菲。一份1500字的报告可能消耗数千tokens。对于个人或高频使用场景，成本是必须考虑的。

策略一：混合模型：对于需要强推理和复杂分析的部分（如投资建议、风险综合评估），使用能力强但贵的模型（如GPT-4）。对于格式固定、描述性的部分（如公司概况、财务数据罗列），使用便宜但可靠的模型（如GPT-3.5-Turbo）。这需要更精细的提示词设计和流程拆分。
策略二：转向开源模型：在本地或自有服务器上部署开源大模型。目前，70亿参数（7B）级别的模型（如Llama 3 8B、Qwen 7B、ChatGLM3-6B）在指令跟随和中文理解上已有不错表现，在专业领域微调后，完全有能力完成研报撰写任务。使用Ollama或vLLM等工具可以简化部署和调用过程。虽然前期有部署和调优成本，但长期来看边际成本极低。
策略三：缓存与复用：对于变动不频繁的数据（如公司简介、历史财务数据），其对应的分析段落可以缓存起来，下次生成时只需更新变动部分（如最新季度数据）的分析，从而减少重复计算和API调用。

最后的个人体会：ddobokki/chatgpt_stock_report这类项目最大的启示在于，它展示了如何将前沿的LLM技术“降维”应用到具体的垂直领域。整个过程更像是一个“人机协作”的流程设计：人类负责定义框架、提供高质量数据、设定规则和审核结果；AI负责执行繁重的信息整合、初步分析和文本撰写。它不能替代人类分析师的深度洞察和最终判断，但能成为一个不知疲倦的初级助理，极大地提升信息处理的效率。在实现过程中，最大的挑战往往不是技术本身，而是对业务（金融分析）的理解深度，这决定了你能否设计出有效的提示词和数据预处理流程。从这个项目出发，你可以将它定制成任何你感兴趣领域的分析助手，比如竞品分析报告、行业研究简报、甚至读书笔记生成器。核心模式是相通的：定义结构 -> 准备数据 -> 设计提示 -> 生成并迭代。

查看全文

http://www.jsqmd.com/news/805869/