当前位置: 首页 > news >正文

经管科研数据选择指南:如何找到适合你研究的数据

写这篇文章的起因是发现很多同学在数据选择上走了弯路——要么数据太旧、要么变量不全、要么选了和模型不匹配的数据,导致返工。所以想把自己这些年踩过的坑整理一下,希望对你有帮助。

先想清楚你要研究什么

数据选得对不对,前提是你知道自己要研究什么。我见过不少人拿到一堆数据后临时找题目,这样做出来的研究往往逻辑不通。

简单来说,经管研究主要分三个层次:

  • 微观:企业、家庭、个人
  • 中观:行业、城市、区域
  • 宏观:国家、省份

每个层次用到的数据差异很大,先把这个定下来,后面的选择就清晰多了。

如果你研究的是企业层面

恭喜你,上市公司数据是实证研究里最成熟的领域,变量多、时间长、质量也相对有保障。

基础配置:财务报表 + 公司治理

做企业研究,财务数据是标配。你需要的数据应该包括:

  • 资产负债表、利润表、现金流量表的核心科目
  • 股票交易数据(收益率、换手率、波动率)
  • 基本公司信息(成立时间、行业分类、地区归属)

这些是所有回归模型的控制变量来源,没有的话研究根本跑不起来。

进阶配置:看你研究什么

同样是企业研究,不同方向的侧重点完全不一样。

如果你研究的是治理问题,比如股权结构、高管激励、内部控制在企业经营中起什么作用,你需要重点关注:

  • 内部控制指数(直接反映内部治理质量)
  • 董监高特征数据(年龄、学历、任期、政治背景)
  • 高管薪酬数据(薪酬差距、薪酬业绩敏感性)
  • 断裂带数据(衡量高管团队的分裂程度)

如果你关注的是财务质量或审计问题,这些数据可能更有用:

  • 盈余管理指标(判断利润是否被操纵)
  • 审计费用(审计成本的代理变量)
  • 财务舞弊样本(研究哪些企业容易出问题)

如果你研究的是企业风险,有几个指标特别实用:

  • 股价崩盘风险(NCSKEW、DUVOL)
  • 违约风险
  • 经营风险(资产收益率波动)

如果你想研究创新和专利

企业创新是近年的热门方向,但数据选择有点讲究。

基础创新指标

专利申请量、授权量是最常用的,但这里有个坑:不同数据库统计口径可能不一致,建议一开始就确定用哪个来源,后面别换来换去。

更精细的创新指标

如果你的研究想更深入,普通的专利数量就不够用了:

  • 绿色专利:研究环保创新时必备,可以区分环境相关技术和普通技术
  • 数字经济专利:研究数字化转型时,可以用人工智能、云计算、区块链等细分领域的专利来衡量
  • 专利引用数据:衡量创新质量的重要指标,被引用次数多的专利价值更高

如果你关注ESG和可持续发展

这个方向这几年特别火,但数据质量参差不齐,选的时候要小心。

华证ESG评级是目前国内覆盖最广、时间最长的ESG数据,适合做时间序列分析。

如果你研究绿色投资,环保投入、节能支出这类变量比较关键。

还有一块是碳排放数据,部分学者整理了上市公司层面的碳排放数据,但时间跨度有限,用之前先确认样本量够不够。

如果你想研究数字化转型

这是近年经管领域最热的方向之一,数据也相对成熟。

吴非老师团队、袁淳老师团队、张永坤老师团队都发布了数字化转型数据,各有侧重:

  • 有的偏重数字技术应用(人工智能、云计算)
  • 有的偏重数字化基础设施
  • 有的包含数字化战略、组织变革等软性指标

建议根据你的研究重点选择版本,比如你研究的是制造业数字化,就选技术应用类指标更详细的版本。

如果你研究供应链问题

供应链相关的实证研究需要两类数据:

  • 供应商和客户明细:前五大客户/供应商的占比、关系稳定性
  • 供应链韧性指标:衡量企业应对供应链冲击的能力
  • 供应链金融数据:应收账款、存货融资相关

这类数据最大的问题是缺失值多,尤其是客户信息很多上市公司不披露,选的时候要有心理准备。

如果你关注投资者行为

研究机构投资者、分析师、散户行为,数据选择也不一样:

  • 机构持股数据:看谁在买、谁在卖
  • 分析师关注度:研报覆盖数量、预测偏差
  • 投资者情绪指数:市场层面的情绪代理变量

如果你研究的是区域经济或城市问题

从微观跳到中观,你的数据库要从上市公司切换到城市层面。

地级市数据的主要来源

统计年鉴是最基础的数据,涵盖GDP、财政、人口、基础设施等核心指标。但有个现实问题:不同城市的数据完整度差异很大,东部沿海城市数据丰富,西部欠发达地区可能缺失严重。

做面板数据的时候,建议先做一个缺失值分析,如果某个变量缺失超过30%,要么换变量,要么想办法补数据。

环境研究相关数据

如果你研究环境问题,这些数据比较关键:

  • 环境规制强度(衡量地方政府治污力度)
  • PM2.5浓度(健康经济学必备)
  • 碳排放数据
  • 绿色金融发展指数

这些数据有个特点:空间粒度比较细,可以精确到区县层面,但时间跨度往往不如企业数据长。

政策评估类数据

做DID(双重差分)研究的同学注意了,政策冲击的时间节点很关键:

  • 高铁开通年份(基础设施冲击)
  • 低碳城市试点名单(环保政策)
  • 自贸区设立批次(对外开放政策)

用这些数据做政策评估时,要重点关注处理组和对照组的选取,选不好平行趋势假设容易出问题。

如果你做的是省级或县域研究

省级数据相对简单,樊纲市场化指数、产业结构升级指数、EPU指数(经济政策不确定性)都是常用变量。

县域数据来源比较单一,主要是县域统计年鉴,但数据质量是出了名的不稳定,很多偏远县城的指标要么缺失要么口径不统一,用之前务必仔细清洗。

如果你用的是微观调查数据

CFPS、CGSS、CHFS、CLDS这四个微观调查数据库是研究家庭和个人行为的主要来源。

这类数据和宏观数据的最大区别是:样本量相对较小,但变量信息更丰富,可以做很多宏观数据做不到的分析,比如家庭资产配置、教育代际传递等。

使用微观调查数据要注意:

  • 权重问题:不同家庭被抽中的概率不同,要用权重变量校正
  • 追踪调查:同一批人多年追踪的数据可以做面板分析,但样本流失是常见问题
  • 变量口径:同一概念在不同调查里的定义可能不一样,合并数据前要仔细核对

关于文本数据

这个方向这几年发展很快,但门槛也高。

  • 新闻数据:可以构建企业舆情、媒体报道情绪指标
  • 政府工作报告:研究地方政策取向、发展重点
  • 年报MD&A文本:管理层讨论与分析的文本特征

做文本分析需要一些NLP基础,Python的jieba、snownlp等工具可以帮助处理中文文本。

最后说几点个人感受

  1. 数据质量比数量重要。与其有一堆半成品数据,不如把核心变量做扎实。一篇用高质量数据写成的论文,远比用一堆低质量数据的论文更有说服力。

  2. 早点确定数据来源。很多同学论文写到一半发现数据不够或质量不行,只能临时换题,浪费大量时间。开题前一定要评估数据可得性。

  3. 变量的定义要统一。同一个概念,不同数据来源可能有不同的计算口径。比如资产负债率,有的用总负债/总资产,有的用带息负债/总资产,用之前一定要看清楚。

  4. 缺失值不是洪水猛兽,但处理要透明。没有完美无缺的数据,关键是处理方法要说清楚,稳健性检验要跟上。

数据是研究的基石,选对了事半功倍。希望这份指南能帮你少走一些弯路。

http://www.jsqmd.com/news/693992/

相关文章:

  • # 软考软件设计师 · 每日一练 | 2026-04-21
  • 2026年值得收藏的素材网站推荐,含人物、背景图片、插画、样机、节日素材 - 品牌2025
  • 3步实现双层PDF转换:让扫描文档重获编辑与搜索能力
  • PDF工具箱不止mutool:对比Python pdfplumber与命令行工具的高效用法
  • Midscene.js系统级性能调优深度解析:从架构到工程实践的实战指南
  • 2026版企业免费商用字体+个人商用免费字体推荐,安全商用不踩坑 - 品牌2025
  • 从“七桥问题”到快递路线规划:用Python NetworkX玩转图论基础概念
  • 去洛阳看花怎么订酒店最合适?美团住宿活动直达,少花一半钱 - 资讯焦点
  • 2026年自费出书流程与机构选择指南 - 科技焦点
  • SAP ABAP弹窗实战:告别硬编码,用POPUP_TO_CONFIRM_STEP和POPUP_GET_VALUES优雅交互
  • 程序员面试最常被问的10道题,答对7道算你厉害(文末免费领简历模板)
  • 免费网盘下载助手终极指南:解锁六大云盘高速下载通道
  • 如何快速掌握QQ截图独立版:免登录专业截图工具的3大核心功能
  • 抖音视频批量下载神器:从新手到高手的完整指南
  • 避开这3个坑,你的微型内窥镜成像才清晰:镜片选型、装配公差与照明实战心得
  • DeepSeek V4 预览版实测:Agent、世界知识、推理能力,跟 V3 和 GPT-5.5/Claude 4.6 比到底什么水平?
  • 物联网设备OTA升级避坑指南:Bootloader设计中的5个关键细节与常见错误
  • 告别打印难题:在Vue中优雅集成Lodop/C-Lodop实现网页精准打印
  • 【QML】QML中界面与业务逻辑分离的思路
  • 2026年个人出书材料准备与机构口碑评估指南 - 科技焦点
  • 2026年山东GEO优化服务商排行最新版:8家口碑服务商实力盘点
  • RPA工程师三年复盘:从12K到35K,这5个技术决策让我少走了两年弯路(附源码)
  • HS2-HF_Patch:为《Honey Select 2》注入全新活力的终极增强方案
  • 别再只玩Arduino了!用STM32的HAL库驱动RDA5807收音机模块,I2C通信保姆级教程
  • Kali Linux 2024.2 国内源一键配置脚本分享,告别 apt update 龟速
  • 【OpenClaw从入门到精通】第69篇:OpenClaw开源生态深度解析——2026 AI竞争格局演进与企业级落地实战
  • CVAT在线数据标注
  • 避坑指南:在x86服务器或FPGA项目中配置PCIe Switch时,关于VC数量与TC映射的那些坑
  • Windows上安装Android应用的终极指南:告别模拟器,APK Installer让你轻松搞定
  • 京东抢购神器:3分钟学会自动化秒杀茅台等热门商品