经管科研数据使用指南:一站式数据资源推荐清单
写在前面:本文整理了经管领域常用的科研数据资源,涵盖上市公司、地级市、省级、县域等多个层面,以及微观调查、文本分析等多种数据类型。无论你是研究企业创新、ESG表现,还是区域经济发展,都能在这里找到适用的数据推荐。建议收藏备用!
目录导航
一、上市公司数据资源
上市公司数据是经管实证研究的核心素材,主要来源包括CSMAR、Wind等数据库,以及学者们整理的特色数据集。
1.1 财务与治理基础数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 上市公司数据大全 | 1372个变量,覆盖财务报表、公司治理、股票交易等 | 各类企业研究的基础面板 |
| 常用控制变量 | 企业规模、资产负债率、盈利能力、成立年限等 | 回归分析的标配控制变量集 |
| 内部控制指数 | 内部控制质量评分、缺陷数量等 | 公司治理、风险管理研究 |
| 盈余管理数据 | 应计盈余管理、真实盈余管理指标 | 财务报告质量研究 |
| 审计费用 | 审计费用金额、审计意见类型 | 审计市场、代理成本研究 |
| 审计时滞 | 审计报告披露时间 | 信息披露及时性研究 |
| 财务舞弊数据 | 舞弊案例标记、造假类型等 | 财务违规、审计失败研究 |
1.2 创新与专利数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 专利明细数据 | 专利申请量、授权量、专利类型(发明/实用新型/外观设计) | 企业创新能力基础指标 |
| 绿色专利 | 绿色创新专利数量、IPC分类 | 环境创新、ESG研究 |
| 数字经济专利 | 人工智能、云计算、区块链等数字技术专利 | 数字化转型、企业创新 |
| 专利引用数据 | 施引/被引次数、引用网络 | 知识溢出、创新质量评估 |
1.3 ESG与可持续发展数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 华证ESG评级 | ESG综合评分、环境(E)、社会(S)、治理(G)分项评分 | ESG投资、企业社会责任研究 |
| 环境信息披露 | 环境信息披露质量评分、环保投入 | 环境信息透明度研究 |
| 绿色投资 | 绿色投资支出、节能环保支出 | 绿色转型、财务绩效研究 |
| 碳排放数据 | 碳排放量、碳强度 | 碳减排、气候变化研究 |
| 污染物排放 | SO2、废水、固废排放量 | 环境规制效果研究 |
1.4 数字化转型数据
数字化转型是近年研究热点,学者们提供了多个版本的测算数据:
| 数据版本 | 主要变量 | 特点 |
|---|
| 吴非版 | 数字化转型关键词词频统计 | 应用最广泛,跨期长 |
| 袁淳版 | 数字化转型综合指标 | 覆盖面广 |
| 张永坤版 | 多维度数字化转型指标 | 指标体系完善 |
| 年报文本数据 | MD&A中数字化相关词汇频率 | 可自行补充测算 |
1.5 公司治理与高管数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 董监高特征 | 性别、年龄、学历、专业背景、任期 | 高管团队异质性研究 |
| 政治关联 | 高管政府背景、政治身份 | 政治关联与企业行为研究 |
| 高管薪酬 | 薪酬总额、薪酬差距、股权激励 | 薪酬激励、代理问题 |
| 高管团队稳定性 | 团队成员变动频率、任期波动 | 高管更替研究 |
| 断裂带数据 | 团队断裂带指标 | 团队异质性与决策质量 |
1.6 供应链数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 供应商客户明细 | 前五大供应商/客户占比、关系稳定性 | 供应链依赖、议价能力 |
| 供应链韧性 | 供应链多元化、风险暴露程度 | 供应链安全研究 |
| 供应链金融 | 供应链融资规模、应付账款周转 | 融资约束、供应链金融 |
1.7 投资者与市场数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 投资者情绪 | 情绪指数、资金流向 | 市场预期、资产定价 |
| 机构投资者持股 | 机构持股比例、持股结构 | 投资者保护、公司治理 |
| 分析师关注度 | 分析师跟踪人数、预测分歧度 | 信息环境、盈余管理 |
1.8 风险相关数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 股价崩盘风险 | 负收益偏态系数、收益上下波动比率 | 股价崩盘风险研究 |
| 违约风险 | KMV模型违约概率、信用利差 | 信用风险研究 |
| 经营风险 | 经营现金流波动、盈利波动性 | 企业风险承担研究 |
二、地级市面板数据
地级市层面数据是研究区域经济、城市发展、产业政策的重要支撑。
2.1 经济发展数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 城市统计年鉴面板 | GDP、人口、固定资产投资、社会消费品零售 | 城市经济增长研究 |
| GDP与增速 | 人均GDP、GDP增长率 | 区域经济发展评估 |
| 财政收入与支出 | 一般预算收入、支出、收支缺口 | 财政健康、转移支付研究 |
| 进出口数据 | 进出口总额、外资利用 | 对外开放、外商投资研究 |
2.2 数字经济发展数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 数字经济指数 | 数字经济综合发展水平 | 数字经济发展评估 |
| 数字基础设施 | 互联网普及率、移动电话普及率 | 数字基础设施研究 |
| 数字政府建设指数 | 政务服务数字化水平 | 数字政府、政策效果研究 |
2.3 环境与绿色发展数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 环境规制强度 | 污染治理投资、排污费征收 | 环境政策效果研究 |
| PM2.5数据 | 年均PM2.5浓度、空气质量指数 | 环境污染、健康经济研究 |
| 碳排放数据 | 碳排放总量、碳排放强度 | 低碳城市、碳减排政策 |
| 绿色金融指数 | 绿色信贷、绿色债券发展水平 | 绿色金融政策研究 |
2.4 社会发展数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 人口流动数据 | 流动人口规模、人口净流入 | 人口迁移、城镇化研究 |
| 城镇化率 | 城镇人口比重、常住人口城镇化率 | 城镇化进程评估 |
| 城乡居民收入 | 城镇居民可支配收入、农民纯收入、城乡收入差距 | 收入分配、共同富裕研究 |
2.5 政策DID数据
准自然实验是因果识别的利器,地级市层面的政策试点数据包括:
| 政策类型 | 处理组设定 | 适用研究 |
|---|
| 高铁开通 | 高铁开通城市/年份 | 交通基础设施的经济效应 |
| 低碳城市 | 低碳城市试点 | 环境政策效果 |
| 自贸区 | 自贸区设立城市 | 贸易便利化政策评估 |
| 创新政策 | 创新城市、高新区等 | 创新政策效果评估 |
三、省级面板数据
省级数据适用于宏观政策研究和区域比较分析。
3.1 市场化指数
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 樊纲指数 | 市场化总指数及五大分项指数(政府与市场关系、非国有经济发展、产品市场发展、要素市场发展、市场中介组织和法律制度环境) | 制度环境、市场化进程研究 |
| 市场化总指数 | 综合市场化水平 | 跨省制度比较研究 |
3.2 产业结构数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 产业结构合理化 | 产业结构合理化指数 | 产业结构调整效果 |
| 产业结构高级化 | 产业结构高级化指数 | 产业结构升级研究 |
3.3 经济政策数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 经济政策不确定性(EPU) | Baker et al.编制的EPU指数 | 政策不确定性对企业行为影响 |
| 贸易政策不确定性(TPU) | 贸易政策不确定性指数 | 贸易摩擦、关税政策研究 |
3.4 创新与生产率数据
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 专利数据 | 省域专利申请/授权量 | 区域创新能力比较 |
| R&D投入 | R&D经费支出、研发人员数 | 创新投入研究 |
| 全要素生产率(TFP) | TFP及其分解 | 经济增长质量研究 |
四、县域及农村数据
县域数据适用于县域经济、农业农村现代化等研究主题。
| 数据类型 | 主要变量 | 适用场景 |
|---|
| 县域统计年鉴面板 | 县域GDP、人口、农业产值、财政收支 | 县域经济发展研究 |
| 农村相关数据 | 农村居民收入、农业现代化指标 | 乡村振兴、农业现代化 |
五、微观调查数据库
微观调查数据是研究个体和家庭行为的重要数据源,四大数据库各有侧重:
| 数据库 | 全称 | 调查内容 | 适用研究 |
|---|
| CFPS | 中国家庭追踪调查 | 家庭经济、健康、社会参与 | 家庭经济决策、社会流动 |
| CGSS | 中国综合社会调查 | 社会态度、价值观、社会结构 | 社会分层、社会资本 |
| CHFS | 中国家庭金融调查 | 家庭金融资产、负债、保险配置 | 家庭金融、财富管理 |
| CLDS | 中国劳动力动态调查 | 劳动力就业、工作流动、健康 | 劳动力市场、人口质量 |
使用提示:微观调查数据通常需要申请获取,建议提前了解各数据库的抽样设计,选取适合研究需要的样本。
六、文本数据资源
文本数据为非结构化数据分析提供了丰富的素材。
| 数据来源 | 数据内容 | 主要应用 |
|---|
| 人民日报 | 1946年至今的报纸全文 | 政策导向、舆论环境研究 |
| 光明日报 | 重要历史时期的报纸全文 | 文化政策、意识形态研究 |
| 财经新闻 | 财经媒体报道文本 | 投资者情绪、媒体效应研究 |
| 政府工作报告 | 各省市县历年政府工作报告 | 政策重点、文本分析 |
| 年报MD&A文本 | 上市公司年报管理层讨论与分析 | 企业战略、信息披露研究 |
七、常用研究主题数据推荐
7.1 研究企业数字化转型
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 吴非/袁淳/张永坤数字化转型数据 | 数字化转型关键词词频 |
| 微观 | 数字经济专利数据 | 数字技术专利数量 |
| 微观 | 年报MD&A文本数据 | 可自行提取数字化相关内容 |
| 宏观 | 城市数字经济指数 | 地区数字经济发展水平 |
| 宏观 | 数字基础设施数据 | 互联网普及率等 |
7.2 研究企业创新
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 专利明细数据 | 专利申请/授权数量 |
| 微观 | 专利引用数据 | 专利质量、影响力 |
| 微观 | 研发投入数据 | R&D支出、研发强度 |
| 微观 | 高管特征数据 | CEO/董事长创新背景 |
| 宏观 | 省级创新指数 | 地区创新氛围 |
7.3 研究ESG与绿色发展
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 华证ESG评级 | ESG综合及分项评分 |
| 微观 | 环境信息披露数据 | 环境信息披露质量 |
| 微观 | 绿色专利数据 | 绿色创新产出 |
| 微观 | 碳排放/污染物数据 | 企业碳排放量 |
| 宏观 | PM2.5数据 | 地区空气污染程度 |
| 宏观 | 环境规制强度 | 地区环境政策力度 |
| 宏观 | 绿色金融指数 | 地区绿色金融发展 |
7.4 研究企业风险
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 股价崩盘风险 | 负收益偏态系数(NCSKEW) |
| 微观 | 违约风险 | KMV违约概率 |
| 微观 | 经营风险 | 盈利波动性、现金流波动 |
| 微观 | 审计相关 | 审计意见类型、审计费用 |
7.5 研究公司治理
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 内部控制指数 | 内控质量评分 |
| 微观 | 董监高特征 | 年龄、学历、任期等 |
| 微观 | 高管薪酬 | 薪酬水平、薪酬差距 |
| 微观 | 股权结构 | 股权集中度、机构持股 |
| 宏观 | 市场化指数 | 地区制度环境 |
7.6 研究供应链与企业关系
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 供应商客户明细 | 前五大供应商/客户占比 |
| 微观 | 供应链韧性数据 | 供应链多元化程度 |
| 微观 | 供应链金融数据 | 应付账款周转天数 |
7.7 研究投资者行为与市场
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 微观 | 投资者情绪指数 | 市场情绪度量 |
| 微观 | 机构投资者持股 | 机构持股比例、类型 |
| 微观 | 分析师关注度 | 分析师跟踪人数 |
| 宏观 | 经济政策不确定性 | EPU指数 |
7.8 研究区域经济
| 数据层级 | 推荐数据 | 核心变量 |
|---|
| 地级市 | 城市面板数据 | GDP、人口、投资 |
| 地级市 | 城镇化率 | 城镇化发展水平 |
| 地级市 | 人口流动数据 | 人口净流入/流出 |
| 省级 | 樊纲市场化指数 | 市场化制度环境 |
| 省级 | 产业结构指数 | 产业结构合理化/高级化 |
7.9 研究政策效果(DID设计)
| 政策类型 | 推荐数据 | 处理组设置 |
|---|
| 交通基础设施 | 高铁开通数据 | 高铁开通城市 |
| 环境政策 | 低碳城市试点 | 低碳城市 |
| 贸易政策 | 自贸区设立 | 自贸区城市 |
| 产业政策 | 高新区/经开区 | 开发区城市 |
| 金融政策 | 绿色金融改革创新试验区 | 试点城市 |
7.10 研究家庭与个体行为
| 数据库 | 推荐数据 | 适用研究 |
|---|
| CFPS | 家庭追踪调查 | 家庭金融决策、社会流动 |
| CGSS | 综合社会调查 | 社会态度、社会分层 |
| CHFS | 家庭金融调查 | 家庭资产配置、财富不平等 |
| CLDS | 劳动力调查 | 就业流动、人力资本 |
数据获取与使用建议
常用数据库推荐
- CSMAR(国泰安):最全面的中国上市公司数据库
- Wind:金融数据终端,含宏观、行业数据
- CNRDS(中国研究数据服务平台):学术友好的微观数据
- 锐思数据库:股票、债券、基金数据
- 中国工业企业数据库:工业企业层面数据
- 海关数据库:进出口微观数据
- 国家统计局: 宏观数据官方来源
数据使用注意事项
- 变量匹配:不同数据库的股票代码、公司名称可能有差异,需做好数据清洗和匹配
- 缺失值处理:注意数据的缺失模式和原因,区分"真缺失"与"数据不可得"
- 样本选择:明确研究样本的纳入标准(如是否包含金融业、ST公司等)
- 极端值处理:连续变量建议进行winsorize处理
- 面板平衡性:检查面板数据的平衡性,避免非平衡面板带来的估计偏误
- 数据更新:部分数据存在滞后发布,注意使用最新版本
稳健性检验建议
- 更换核心解释变量的衡量方式(如用授权专利替代申请专利)
- 改变样本范围(如剔除特殊行业、特殊年份)
- 更换控制变量集
- 使用不同的模型设定
结语
数据是实证研究的基石,选择合适的数据对于研究的成功至关重要。本文尽可能全面地整理了经管领域常用的科研数据资源,希望能为各位研究者提供参考。
实际研究中,建议:
- 明确研究问题:先确定研究主题和假设,再选择对应的数据
- 多源验证:重要变量可尝试多个数据来源交叉验证
- 关注数据质量:在使用前仔细检查数据的完整性和准确性
如有任何数据使用方面的问题,欢迎在交流讨论!