当前位置：首页 > news >正文

非量表问卷信效度分析，用内容效度 + 重测信度评估数据质量

news 2026/6/15 16:53:04

在进行问卷分析时，你是否遇见过下面这样的问题：

我做的是非量表问卷，还需要做信效度分析吗？
导师让我对自编非量表问卷进行信效度分析怎么办？
看了好多教程，都说信效度分析是量表的‘专属’，非量表问卷怎么评估数据质量？

其实答案很明确：

一般情况下，非量表问卷无需进行信效度分析——不同于量表问卷需要通过信效度检验确保测量的准确性和一致性，非量表问卷以收集具体事实、行为等基础信息为主，无需额外进行信效度评估；
但如果遇到导师严格要求、期刊发表需要等特殊情况，需要评估问卷数据质量，那么非量表问卷核心评估维度就可以从“内容效度”与“重测信度”下手，量表常用的克隆巴赫α系数（内部一致性信度）、因子分析（结构效度），完全不适合非量表问卷，强行使用会得出无效结论。

本文将深度解析如何通过“内容效度”与“重测信度”这两大核心工具，科学、严谨地评估非量表数据质量，并基于SPSSAU软件演示如何完成内容效度和重测信度分析。

一、非量表问卷VS量表问卷

在正式展开前，我们需要先明确一个基本问题：非量表问卷和量表问卷的区别？

1、量表问卷（又称李克特量表）：通常采用五点或七点计分方式，如“非常不满意—非常满意”，每题得分可以累加，形成一个有连续意义的数值变量。这类问卷的信效度分析，通常使用克隆巴赫α系数和因子分析（探索性因子分析/验证性因子分析）进行检验。

2、非量表问卷：由单选题、多选题、填空题等构成，每道题测量的是独立的事实或类别（如性别、职业、购买行为、品牌选择等），各题之间不具备同质性，无法通过累加得分获得有意义的“总分”。这也正是传统信效度分析方法（如内部一致性信度和结构效度）不适用于非量表问卷的根本原因。

对比维度	量表问卷	非量表问卷
测量目的	测量抽象的潜在变量（如满意度、忠诚度、自我效能）	收集具体事实、行为、简单态度（无潜在变量）
题目特点	多题项共同测量一个维度，题目高度相关（如5道题测“用户满意度”），多为Likert 1-5分制	每题独立，无关联（如“性别”“购买频率”“偏好类型”），题型多样（单选、多选、填空等）
信效度核心需求	检验题项间的一致性（内部一致性信度）、题项与理论维度的匹配度（结构效度）	检验题目设计的合理性（内容效度）、测量结果的稳定性（重测信度）
常用分析方法	克隆巴赫α系数、因子分析（EFA/CFA）	内容效度（专家评分法）、重测信度（相关分析/Kappa系数）

那么，非量表问卷就无法进行信效度分析了吗？当然不是。信度是指使用某研究工具所获得结果的一致程度或准确程度；效度是指研究工具能真正反映它所期望研究概念的程度。只要理解这两个概念的本质，就能找到适用于非量表问卷的分析方法。

二、非量表问卷内容效度评估

非量表问卷题目（单选、多选、填空等），无法使用因子分析等统计方法进行效度检验，这种情况下应对问卷的内容效度进行分析，以证明问卷设计的合理性和有效性。

内容效度的核心评估方法是专家评分法：邀请相关领域的专家，对问卷的每道题目进行评分，判断题目是否贴合调研目的、表述是否清晰、是否有冗余或遗漏。可使用文字论证法或内容效度指数法。

1、文字论证法

如果研究要求不是特别严格，或者专家资源有限，可以通过文字论证的方式来呈现内容效度。建议从以下几个方面展开：

问卷设计过程说明：清晰阐述题目设计的逻辑和思路，说明每道题与测量目标之间的对应关系。
参考文献依据：说明问卷设计参考了哪些权威文献或已有工具。
预测试与修订过程：描述是否进行了小范围预测试，根据反馈做了哪些修改和优化。
专家或同行认可：说明问卷设计是否经过了导师、专家或同行的审阅和认可。

2、内容效度指数法

如果希望在论文中呈现更严谨、可量化的效度指标，建议采用内容效度指数法。CVI是国际上广泛认可的内容效度量化指标，在量表开发和问卷质量评估中被普遍采用。

（1）I-CVI指标

内容效度的计算上较为简单，专家打分只能为1/2/3/4分，3/4分表示测量项较好或者好，那么首先计算出每项时打分为3/4分的专家数量，从而得到打分为3/4分的占比情况（即I-CVI指标），该指标值越大越好，可使用该指标进行内容效度判断。一般最少需要3位专家评估，其判断标准如下表格：

专家数量	判断标准
<=5个专家时	I-CVI小于1则不通过
<=5个专家时	I-CVI=1则通过
>5个专家时	I-CVI小于0.78则不通过
>5个专家时	I-CVI>=0.78则通过

当专家人数≤5个时即专家个数较少时，此时希望专家打分均为3/4分。如果专家个数＞5个时，此时只要78%的专家打分为3/4分即可。

（2）校正内容效度（调整Kappa，K*值）

为防止专家打分出现随机性，还可计算专家打分随机一致性概率Pc值，并且计算校正内容效度（调整Kappa，K*值），进一步进行内容效度判断。

专家打分随机一致性概率Pc值= C(n,A)*(0.5^n)，此处n表示专家总数量，A表示某测量项时专家打分为3/4的个数，C表示数学上的组合计算。
调整Kappa（K*值）= (I-CVI值 – Pc值) / (1 – Pc值)

如果是正常的专家打分数据，Pc值通常较高，最后结合调整Kappa值进行内容效度判断，其判断标准如下表格：

调整kappa（K*值）	判断标准
<0.4	差
[0.4,0.6)	一般
[0.6,0.74)	良好
[0.74,1)	优秀

调整Kappa值越大越好，一般大于0.6即说明内容效度良好，但如果调整Kappa值小于0.4则无法接受。

（3）整体内容效度S-CVI值

I-CVI指标是针对具体每个题目，当然还可计算全部一起的问卷题目，即对整个问卷的内容效度进行评价。其有两个指标，分别全体一致S-CVI(也称S-CVI或UA值)，还有平均S-CVI指标值。

全体一致S-CVI = 打分全部都为3/4的测量项个数 / 总测量项个数，通常其判断标准是0.8，即需要有80%以上的测量项全部都被专家认为是良好或者好才行。
平均S-CVI则是I-CVI指标的算术平均值，通常标准为0.9。一般情况下可能使用I-CVI较多。

参考文献：

[1] 史静琤, 莫显昆, & MO Xiankun. (2012). 量表编制中内容效度指数的应用. 中南大学学报：医学版, 37(2), 4.

[2] 柯友枝, 孙建刚, 李博, 刘阳. 问卷是否有效——基于2010-2020年CSSCI收录体育期刊文献的系统分析[J]. 上海体育学院学报, 2023, 47 (02): 37-47+103.

3、SPSSAU内容效度软件操作

在SPSSAU【问卷研究】模块，选择【内容效度】，按提示将专家对每个问题的评分（只能是1/2/3/4分，分值越高越有效）粘贴或修改后，点击“开始分析”按钮，操作如下图：

4、内容效度分析结果解读

SPSSAU输出内容效度分析结果如下：

（1）测量项内容效度专家评分及指标计算

分析上表可知：

CVI：所有3个测量项的I-CVI值均为1.000，大于6位专家时的临界值（通常为0.78），说明每个测量项的内容效度均达标。
调整Kappa K*值：所有3个测量项的K值均为1.000，大于0.74的“优秀”标准，说明校正后的内容效度非常优秀。

本次内容效度分析结果非常理想，问卷内容能有效反映所测特质。

【建议】通常情况下建议使用校正内容效度即针对调整Kappa K*值进行判断，因为K*值将专家打分独立性纳入考虑范围。

（2）整体内容效度

上表格展示整体内容效度的两个指标——全体一致S-CVI和平均S-CVI指标。分析上表可知，全体一致S-CVI = 15/15=1≥0.8，通过。平均S-CVI指标，其为I-CVI指标的算术平均为1>=0.9，其通过。

【建议】全体一致S-CVI指标衡量的是所有测量项整体内容效度情况，而平均S-CVI指标衡量的是平均内容效度，一般查阅全体一致S-CVI可能更加适合。

（3）不同专家人数各情况下I-CVI评估速查表

上表格为不同专家人数及打分为3/4分时专家个数不同情况时的评估速查表。I-CIV指标和调整Kappa这两个指标均可对内容效度进行评价，但二者评价结果可能出现不一致，原因在于二者计算公式和评价标准不一致。

以上即为非量表问卷有效性检验方法——内容效度分析的全部内容，该方法通过专家打分对问卷的有效性和合理性进行检验，内容效度指标的计算简单也比较通俗易懂。

三、非量表问卷重测信度分析

如果说内容效度是“检验题目设计是否合理”，那重测信度就是“检验测量结果是否稳定”。

1、重测信度

重测信度是指用同一研究工具两次测定同一研究对象，所得结果的一致程度。一致程度越高，说明研究工具的稳定性越高，重测信度也就越高。

对于测量事实或类别的非量表问卷，重测信度是最适合的信度评估方法。它通过对比同一批人在两个时间点（通常间隔2周）的回答是否一致，来判断问卷的可靠性。

比如你调研“大学生外卖购买行为”，让100名大学生今天填一次问卷，2周后再让这100名大学生填一次相同的问卷，如果两次填写的结果高度一致，说明重测信度高，数据稳定可靠；如果两次结果差异很大，说明问卷测量不稳定，数据不可信。

2、收集重测数据

（1）选取同一批被试：重测的被试必须和第一次测量的被试完全一致，不能更换被试。在数据收集时，需要通过某种标识（如手机号后四位、学号等）进行匹配；

（2）两次测量的问卷完全一致：题目、选项、表述都不能修改，确保测量工具相同；

（3）两次测量的时间间隔：需要把握尺度，多数研究者推荐2周左右较为合适；

（4）控制无关变量：两次测量的场景、时间、环境尽量一致（比如都是线上填写，都是晚上8点左右），避免无关因素影响被试的回答。

3、按题目类型选择分析方法

重测信度的分析需要根据不同的题目类型选择相应的统计方法。需要注意的是，重测信度不适用开放题和未处理的多选题。

（1）数值型填空题（如年龄、收入、消费金额）推荐使用皮尔逊相关系数。

将同一批受访者两次测量的数值进行相关分析，相关系数越高，说明数值越稳定。一般认为相关系数大于0.7表示重测信度良好。

（2）二分类定类题（如男/女，是/否）推荐使用Kappa系数。

Kappa系数专门用于评价分类变量结果的一致性。一般认为κ≤0.4表示一致性较差；0.4＜κ≤0.6表示中度一致；0.6＜κ≤0.8表示有较高的一致性；κ＞0.8表示有极好的一致性。

（3）多分类定类题（如职业、品牌偏好、教育程度）这类题目需要根据选项的性质区分处理：

无序多分类（选项无顺序关系，如职业：学生/公务员/企业员工/自由职业）：推荐使用简单Kappa系数，关注两次回答是否完全相同。
有序多分类（选项有等级顺序，如满意度：非常不满意/不满意/满意/非常满意）：推荐使用线性加权Kappa系数。加权Kappa认可“近似”回答的合理性，例如第一次选“不满意”、第二次选“非常不满意”的偏差，应比从“不满意”跳到“非常满意”的偏差更小，给予较轻的惩罚。

4、SPSSAU重测信度软件操作

（1）数据格式整理

重测信度的数据格式，核心是同一被试，两次测量结果在同一行。在Excel中，你需要将两次测量作为不同的问题（列）横向排列，数据格式示例如下图：

行一一对应：第一行必须是用户1的两次回答，第二行必须是用户2的两次回答。
样本量一致：两次测量的人数必须完全相等。如果第二次有人没填，那一整行（包括第一次的数据）通常都需要剔除。
变量命名：建议加上前缀（如T1代表Time1，T2代表Time2），方便在SPSSAU拖拽变量时快速区分。

（2）SPSSAU软件操作

将数据整理好后，上传至SPSSAU平台。按题目类型选择分析方法：例如针对连续变量“年龄”，使用【通用方法】模块【相关系数】进行重测信度分析，操作如下图：SPSSAU输出相关系数结果如下：分析上表可知，第一次测量与第二次测量年龄结果相关系数为1，意味着大家对年龄没有撒谎，两次测量结果完全一致，重测信度非常高。