当前位置: 首页 > news >正文

非量表问卷信效度分析,用内容效度 + 重测信度评估数据质量

在进行问卷分析时,你是否遇见过下面这样的问题:

  • 我做的是非量表问卷,还需要做信效度分析吗?
  • 导师让我对自编非量表问卷进行信效度分析怎么办?
  • 看了好多教程,都说信效度分析是量表的‘专属’,非量表问卷怎么评估数据质量?

其实答案很明确:

  • 一般情况下,非量表问卷无需进行信效度分析——不同于量表问卷需要通过信效度检验确保测量的准确性和一致性,非量表问卷以收集具体事实、行为等基础信息为主,无需额外进行信效度评估;
  • 但如果遇到导师严格要求、期刊发表需要等特殊情况,需要评估问卷数据质量,那么非量表问卷核心评估维度就可以从内容效度重测信度下手,量表常用的克隆巴赫α系数(内部一致性信度)、因子分析(结构效度),完全不适合非量表问卷,强行使用会得出无效结论。

本文将深度解析如何通过“内容效度”与“重测信度”这两大核心工具,科学、严谨地评估非量表数据质量,并基于SPSSAU软件演示如何完成内容效度和重测信度分析。

一、非量表问卷VS量表问卷

在正式展开前,我们需要先明确一个基本问题:非量表问卷和量表问卷的区别?

1、量表问卷(又称李克特量表):通常采用五点或七点计分方式,如“非常不满意—非常满意”,每题得分可以累加,形成一个有连续意义的数值变量。这类问卷的信效度分析,通常使用克隆巴赫α系数和因子分析(探索性因子分析/验证性因子分析)进行检验。

2、非量表问卷由单选题、多选题、填空题等构成,每道题测量的是独立的事实或类别(如性别、职业、购买行为、品牌选择等),各题之间不具备同质性,无法通过累加得分获得有意义的“总分”。这也正是传统信效度分析方法(如内部一致性信度和结构效度)不适用于非量表问卷的根本原因。

对比维度

量表问卷

非量表问卷

测量目的

测量抽象的潜在变量(如满意度、忠诚度、自我效能)

收集具体事实、行为、简单态度(无潜在变量)

题目特点

多题项共同测量一个维度,题目高度相关(如5道题测“用户满意度”),多为Likert 1-5分制

每题独立,无关联(如“性别”“购买频率”“偏好类型”),题型多样(单选、多选、填空等)

信效度核心需求

检验题项间的一致性(内部一致性信度)、题项与理论维度的匹配度(结构效度)

检验题目设计的合理性(内容效度)、测量结果的稳定性(重测信度)

常用分析方法

克隆巴赫α系数、因子分析(EFA/CFA)

内容效度(专家评分法)、重测信度(相关分析/Kappa系数)

那么,非量表问卷就无法进行信效度分析了吗?当然不是。信度是指使用某研究工具所获得结果的一致程度或准确程度;效度是指研究工具能真正反映它所期望研究概念的程度。只要理解这两个概念的本质,就能找到适用于非量表问卷的分析方法。

二、非量表问卷内容效度评估

非量表问卷题目(单选、多选、填空等),无法使用因子分析等统计方法进行效度检验,这种情况下应对问卷的内容效度进行分析,以证明问卷设计的合理性和有效性。

内容效度的核心评估方法是专家评分法:邀请相关领域的专家,对问卷的每道题目进行评分,判断题目是否贴合调研目的、表述是否清晰、是否有冗余或遗漏。可使用文字论证法或内容效度指数法

1文字论证法

如果研究要求不是特别严格,或者专家资源有限,可以通过文字论证的方式来呈现内容效度。建议从以下几个方面展开:

  • 问卷设计过程说明:清晰阐述题目设计的逻辑和思路,说明每道题与测量目标之间的对应关系。
  • 参考文献依据:说明问卷设计参考了哪些权威文献或已有工具。
  • 预测试与修订过程:描述是否进行了小范围预测试,根据反馈做了哪些修改和优化。
  • 专家或同行认可:说明问卷设计是否经过了导师、专家或同行的审阅和认可。

2、内容效度指数法

如果希望在论文中呈现更严谨、可量化的效度指标,建议采用内容效度指数法。CVI是国际上广泛认可的内容效度量化指标,在量表开发和问卷质量评估中被普遍采用。

1I-CVI指标

内容效度的计算上较为简单,专家打分只能为1/2/3/4分,3/4分表示测量项较好或者好,那么首先计算出每项时打分为3/4分的专家数量,从而得到打分为3/4分的占比情况(即I-CVI指标),该指标值越大越好,可使用该指标进行内容效度判断。一般最少需要3位专家评估,其判断标准如下表格:

专家数量

判断标准

<=5个专家时

I-CVI小于1则不通过

I-CVI=1则通过

>5个专家时

I-CVI小于0.78则不通过

I-CVI>=0.78则通过

当专家人数≤5个时即专家个数较少时,此时希望专家打分均为3/4分。如果专家个数>5个时,此时只要78%的专家打分为3/4分即可。

2)校正内容效度(调整KappaK*值)

为防止专家打分出现随机性,还可计算专家打分随机一致性概率Pc值,并且计算校正内容效度(调整Kappa,K*值),进一步进行内容效度判断。

  • 专家打分随机一致性概率Pc值= C(n,A)*(0.5^n),此处n表示专家总数量,A表示某测量项时专家打分为3/4的个数,C表示数学上的组合计算。
  • 调整Kappa(K*值)= (I-CVI值 – Pc值) / (1 – Pc值)

如果是正常的专家打分数据,Pc值通常较高,最后结合调整Kappa值进行内容效度判断,其判断标准如下表格:

调整kappaK*值)

判断标准

<0.4

[0.4,0.6)

一般

[0.6,0.74)

良好

[0.74,1)

优秀

调整Kappa值越大越好,一般大于0.6即说明内容效度良好,但如果调整Kappa值小于0.4则无法接受。

3)整体内容效度S-CVI

I-CVI指标是针对具体每个题目,当然还可计算全部一起的问卷题目,即对整个问卷的内容效度进行评价。其有两个指标,分别全体一致S-CVI(也称S-CVI或UA值),还有平均S-CVI指标值。

  • 全体一致S-CVI = 打分全部都为3/4的测量项个数 / 总测量项个数,通常其判断标准是0.8,即需要有80%以上的测量项全部都被专家认为是良好或者好才行。
  • 平均S-CVI则是I-CVI指标的算术平均值,通常标准为0.9。一般情况下可能使用I-CVI较多。

参考文献:

[1] 史静琤, 莫显昆, & MO Xiankun. (2012). 量表编制中内容效度指数的应用. 中南大学学报:医学版, 37(2), 4.

[2] 柯友枝, 孙建刚, 李博, 刘阳. 问卷是否有效——基于2010-2020年CSSCI收录体育期刊文献的系统分析[J]. 上海体育学院学报, 2023, 47 (02): 37-47+103.

3SPSSAU内容效度软件操作

在SPSSAU【问卷研究】模块,选择【内容效度】,按提示将专家对每个问题的评分(只能是1/2/3/4分,分值越高越有效)粘贴或修改后,点击“开始分析”按钮,操作如下图:

4、内容效度分析结果解读

SPSSAU输出内容效度分析结果如下:

1)测量项内容效度专家评分及指标计算

分析上表可知:

  • CVI所有3个测量项的I-CVI值均为1.000,大于6位专家时的临界值(通常为0.78),说明每个测量项的内容效度均达标。
  • 调整Kappa K*值:所有3个测量项的K值均为1.000,大于0.74的“优秀”标准,说明校正后的内容效度非常优秀。

本次内容效度分析结果非常理想,问卷内容能有效反映所测特质。

【建议】通常情况下建议使用校正内容效度即针对调整Kappa K*值进行判断,因为K*值将专家打分独立性纳入考虑范围。

2)整体内容效度

上表格展示整体内容效度的两个指标——全体一致S-CVI和平均S-CVI指标。分析上表可知,全体一致S-CVI = 15/15=1≥0.8,通过。平均S-CVI指标,其为I-CVI指标的算术平均为1>=0.9,其通过。

【建议】全体一致S-CVI指标衡量的是所有测量项整体内容效度情况,而平均S-CVI指标衡量的是平均内容效度,一般查阅全体一致S-CVI可能更加适合。

3)不同专家人数各情况下I-CVI评估速查表

上表格为不同专家人数及打分为3/4分时专家个数不同情况时的评估速查表。I-CIV指标和调整Kappa这两个指标均可对内容效度进行评价,但二者评价结果可能出现不一致,原因在于二者计算公式和评价标准不一致。

以上即为非量表问卷有效性检验方法——内容效度分析的全部内容,该方法通过专家打分对问卷的有效性和合理性进行检验,内容效度指标的计算简单也比较通俗易懂。

三、非量表问卷重测信度分析

如果说内容效度是“检验题目设计是否合理”,那重测信度就是“检验测量结果是否稳定”。

1、重测信度

重测信度是指用同一研究工具两次测定同一研究对象,所得结果的一致程度。一致程度越高,说明研究工具的稳定性越高,重测信度也就越高。

对于测量事实或类别的非量表问卷,重测信度是最适合的信度评估方法。它通过对比同一批人在两个时间点(通常间隔2周)的回答是否一致,来判断问卷的可靠性。

比如你调研“大学生外卖购买行为”,让100名大学生今天填一次问卷,2周后再让这100名大学生填一次相同的问卷,如果两次填写的结果高度一致,说明重测信度高,数据稳定可靠;如果两次结果差异很大,说明问卷测量不稳定,数据不可信。

2、收集重测数据

1)选取同一批被试:重测的被试必须和第一次测量的被试完全一致,不能更换被试。在数据收集时,需要通过某种标识(如手机号后四位、学号等)进行匹配;

2)两次测量的问卷完全一致:题目、选项、表述都不能修改,确保测量工具相同;

3)两次测量的时间间隔:需要把握尺度,多数研究者推荐2周左右较为合适;

4)控制无关变量:两次测量的场景、时间、环境尽量一致(比如都是线上填写,都是晚上8点左右),避免无关因素影响被试的回答。

3、按题目类型选择分析方法

重测信度的分析需要根据不同的题目类型选择相应的统计方法。需要注意的是,重测信度不适用开放题和未处理的多选题。

1)数值型填空题(如年龄、收入、消费金额)推荐使用皮尔逊相关系数。

将同一批受访者两次测量的数值进行相关分析,相关系数越高,说明数值越稳定。一般认为相关系数大于0.7表示重测信度良好。

2)二分类定类题(如男/女,是/否)推荐使用Kappa系数。

Kappa系数专门用于评价分类变量结果的一致性。一般认为κ≤0.4表示一致性较差;0.4<κ≤0.6表示中度一致;0.6<κ≤0.8表示有较高的一致性;κ>0.8表示有极好的一致性。

3)多分类定类题(如职业、品牌偏好、教育程度)这类题目需要根据选项的性质区分处理:

  • 无序多分类(选项无顺序关系,如职业:学生/公务员/企业员工/自由职业):推荐使用简单Kappa系数,关注两次回答是否完全相同。
  • 有序多分类(选项有等级顺序,如满意度:非常不满意/不满意/满意/非常满意):推荐使用线性加权Kappa系数。加权Kappa认可“近似”回答的合理性,例如第一次选“不满意”、第二次选“非常不满意”的偏差,应比从“不满意”跳到“非常满意”的偏差更小,给予较轻的惩罚。

4SPSSAU重测信度软件操作

1)数据格式整理

重测信度的数据格式,核心是同一被试,两次测量结果在同一行。在Excel中,你需要将两次测量作为不同的问题(列)横向排列,数据格式示例如下图:

  • 行一一对应: 第一行必须是用户1的两次回答,第二行必须是用户2的两次回答。
  • 样本量一致: 两次测量的人数必须完全相等。如果第二次有人没填,那一整行(包括第一次的数据)通常都需要剔除。
  • 变量命名: 建议加上前缀(如T1代表Time1,T2代表Time2),方便在SPSSAU拖拽变量时快速区分。

2SPSSAU软件操作

将数据整理好后,上传至SPSSAU平台。按题目类型选择分析方法:例如针对连续变量“年龄”,使用【通用方法】模块【相关系数】进行重测信度分析,操作如下图:SPSSAU输出相关系数结果如下:分析上表可知,第一次测量与第二次测量年龄结果相关系数为1,意味着大家对年龄没有撒谎,两次测量结果完全一致,重测信度非常高。

  • 针对二分类变量“性别”或无序多分类变量“职业”,使用SPSSAU【实验/医学研究】模块【Kappa】中的“简单Kappa”进行重测信度分析;
  • 针对有序多分类变量“产品满意度”使用“加权Kappa(线性Cohens)”进行分析。

SPSSAU操作如下图:SPSSAU输出Kappa系数结果如下:分析上表可知,第一次与第二次测量产品满意度Kappa系数为0.795,说明一致性程度较强,重测信度较高。

最终每道题目得到的重测信度结果可整理为一个表格,如下表:

5、重测信度结果报告

  • 做法1:合并报告重测信度范围

非量表问卷的题目多为“独立信息收集”,每题无关联(如年龄、性别、职业),逐题报告只会增加冗余,无实际意义;导师一般更关注整体数据稳定性,而非单题稳定性,所以一般合并报告更符合学术规范。

最简单的做法可参考以下话术:

“本研究对问卷中的24项非量表题进行了间隔两周的重测信度分析。结果显示,各题项的 Pearson相关系数(或Kappa值)介于0.712至0.925之间,且均在0.01水平上呈现显著性。这表明问卷各题项在时间跨度上具有良好的测量稳定性,数据质量可靠。”

  • 做法2:分类按维度报告重测信度范围

如果你的非量表题可以归纳为几个大类(如:个人基本信息类、消费行为类、态度倾向类),可按类别报告重测信度结果范围,将最终结果整理成如下表格:

总结:

  • 非量表问卷无法使用克隆巴赫α系数和因子分析进行信效度检验,但可以采用“内容效度+重测信度”的方法来评估数据质量。
  • 内容效度的核心是证明问卷题目准确、全面地反映了测量目标。可以通过定性文字论述或定量CVI指标相结合的方式呈现。
  • 重测信度的核心是评估问卷的稳定性。关键在于根据题目类型选择正确的统计方法:数值题用相关系数,分类题用Kappa系数。
  • SPSSAU软件可进行内容效度与重测信度分析。
http://www.jsqmd.com/news/694955/

相关文章:

  • LED线性可控硅调光芯片VAS1106A+VAS1001调光方案
  • MIC(最大信息系数)的“公平性”争议与避坑指南:从理论到实践的冷思考
  • 2026 中小企业 AI 超级员工:5 款高性价比工具实测
  • 【python学习】进阶特性日常使用指南
  • 推荐一些可以用于论文降重的软件:哪些降重软件可以同时降低查重率和AIGC疑似率?高效论文降重方案:TOP10平台功能对比与选择建议!
  • Transformer有哪些并行逻辑?建议收藏!
  • Voxtral-4B-TTS-2603部署教程:24GB GPU显存占用分析与vLLM-Omni优化配置
  • python async with
  • 星铁速溶茶:如何用自动化脚本彻底解放你的崩坏星穹铁道游戏时间
  • 高通相机HAL层ImageBuffer内存池实战:从Gralloc/CSL申请到MPM线程回收的完整流程
  • 太空开发生存手册:从软件测试视角构建星海可靠基石
  • 03华夏之光永存:电磁弹射+一次性火箭航天入轨方案【第三篇:发射场建设全周期成本精准测算】
  • LumiPixel Canvas Quest 纯净人像创作站:5分钟快速上手,打造你的专属像素艺术
  • 如何在Windows上免费创建虚拟游戏手柄?vJoy完整指南帮你轻松实现
  • python async for
  • 【原创架构续篇】三进制芯片双CMOS基础逻辑单元:引脚定义与状态映射详解
  • 球类运动实测!带赛场数据分析的AI尚运动相机推荐
  • 20天速通LeetCodeday09:关于链表
  • 用C++写个小工具,让希沃管家锁屏在后台“隐身”(附源码与避坑指南)
  • 别再傻傻分不清CWE和CVE了!给开发者的5分钟快速扫盲指南
  • 数据库关系代数操作主要分为核心运算符和扩展运算符两大类
  • 数字永生伦理测试:软件测试从业者的专业视角与框架构建
  • 成年人最贵的错觉:试图在书房里把未来算死
  • 正点原子IMX6ULL开发板LVGL v8.2移植实战:从源码到触屏调试
  • 开发盲盒小程序,这些坑要避开
  • 安道利老师助力临夏腾顺驾校实现AI招生破局
  • MySQL学习笔记:乐观锁VS悲观锁/八股总结
  • SUSE Linux 11实战:用系统自带多路径连接华为OceanStor存储(iSCSI版)
  • VSCode多智能体调试正在淘汰传统单点断点模式!2024年Gartner技术成熟度报告证实:分布式调试已成为AI原生开发刚需
  • 西门子S7-1200 PLC如何通过Modbus TCP读写RFID标签?一个博图V14的实操案例