心理科学进展 2011, Vol. 19, No. 2, 293–300 Advances in Psychological Science
DOI: 10.3724/SP.J.1042.2011.00293
293
王晓丽1 李西营1,2 邵景进1
(1北京师范大学发展心理研究所, 北京 100875) (2河南师范大学教科院, 河南新乡 453007)
摘 要 形成性测量模型(Formative Model, FM)是指标变异导致潜变量变异的模型, 反映性测量模型(Reflective Model, RM)是潜变量变异导致指标变异的模型。FM 在模型界定、识别和估计、信效度评价以及模型应用等方面均与RM 存在极大的不同。模型界定错误会使参数估计发生偏差, 影响统计结论的有效性, 应当审慎考虑指标和潜变量之间的关系, 选择恰当的测量模型。进一步揭示两者的区别和误用带来的偏差, 完善FM 的识别和估计、信效度评价方法、对变量含义的解释以及高阶FM 的理论解释和模型估计是未来的研究方向。 关键词 形成性测量模型(FM); 反映性测量模型(RM); 结构方程模型 分类号 B841 1 引言
Spearman (1904)提出了因素分析法, 通过测量被试在测验中的表现来评价其智力水平, 其隐含假设是智力水平(潜变量)决定外显的测验表现(外显指标)。因素分析法自提出以来受到了心理学研究者的广泛关注, 其影响甚至扩展到了其他很多领域(Bollen & Davis, 2009)。然而, 研究者忽略了这样一个事实:可能不是潜变量决定外显指标, 而是外显指标决定潜变量。
实际上, 心理学研究中的很多变量都不能直接观察, 需要借助于可观察的外显指标进行测量, 称为潜变量(Diamantopoulos, Riefler, & Roth, 2008)。对潜变量的研究已经有很长的历史, 结构方程模型就是用来研究潜变量的一种方法。完整的结构方程模型包括测量模型和结构模型两部分, 测量模型描述潜变量和外显指标之间的关系, 结构模型则描述不同潜变量之间的关系。测量模型中每个潜变量都由一组指标来界定, 通常认为潜变量的变异引起指标变异, 指标是潜变量的效应(Bollen & Lennox, 1991; Diamantopoulos & Winklhofer, 2001; Diamantopoulos, 2008), 这种模型即Spearman 提出的因素分析法所代表的模型, 称为反映性模型(Reflective Model, RM), 其指标
收稿日期:2010-10-10
通讯作者:邵景进, E-mail: jingjinshao@126
称为反映性指标(reflective indicator), 又可称为效应指标(effect indicator)。但是, Blalock (1964)指出, 在某些情况下认为指标变异导致潜变量变异更为合理, 称为形成性模型(Formative Model, FM), 其指标
称为形成性指标(formative indicator), 又可称为原因指标(causal indicator), 这种观点得到了越来越多研究者的关注(Bagozzi, 2007; Bollen & Lennox, 1991; Bollen & Ting, 2000; Bollen, 2007; Diamantopoulos & Siguaw, 2006; Diamantopoulos, 2008; Gudergan, Ringle, Wende, & Will, 2008; Helm, 2005; MacKenzie, Podsakoff, & Jarvis, 2005; Marakas, Johnson, & Clay, 2007, 2008)。
在当前的心理学研究中, 绝大多数研究者很少审慎思考指标和潜变量之间的关系, 几乎不假思索的接受RM 。将FM 错误的界定为RM, 或者将RM 错误的界定为FM, 均会导致模型界定错误。模型界定错误会使参数估计发生偏差, 导致对变量间关系的错误评价, 影响统计结论的有效性, 进而导致研究者对整个研究问题的错误理解(Jarvis, MacKenzie, & Podsakoff, 2003)。因此, 区分RM 和FM 具有非常重要的理论和实践意义。本文介绍了FM 的模型界定、识别和估计、信效度评价及模型的应用, 并对二者进行了比较。
纳米机器人2 FM 简介
2.1 模型界定
图1所示的是一个典型的RM, 可以用公式1
294 心理科学进展第19卷
导电胶
表示, i代表第i个指标, λi表示第i个指标在潜变量η上的载荷, εi表示第i个指标的测量误差, 测量误差之间相互独立, 测量误差与潜变量也相互独立。图2所示的则是一个典型的FM, 可以用公式2表示, γi表示x i对潜变量η的效应, ζ表示残差, x i与残差ζ相互独立。从模型界定来看, RM和FM 在以下方面存在差别:
图1 反映性测量模型
公式1x i=λiη+εi
图2 形成性测量模型
公式2 η=γ1x1+γ2x2+... +γi x i+ ζ
(图1、图2资料来源:Diamantopoulos, Riefler, & Roth,
2008)
(1)在潜变量与指标的关系上, RM认为潜变量的变异导致指标的变异, 指标显示潜变量的特征, 各指标都
是潜变量同样有效的测量, 因此删除某个指标对潜变量的本质没有影响; FM认为指标的变异导致潜变量的变异, 指标界定潜变量的特征, 代表了一系列不同的、不可互换的原因, 每个指标代表变量一个特定的方面, 删除某个指标会改变变量的本质(Bollen & Lennox, 1991; Jarvis et al., 2003)。
(2)在各指标之间的关系上, RM中所有的指标之间必须有正相关(内部一致性), 而FM中指标间的相关并不是必要条件, 相关模式和程度也没有特定的要求, 可以是正相关、负相关或无相关(Bollen & Lennox, 1991; Jarvis et al., 2003)。
(3)在误差方面, 两个模型都有误差。但是RM的误差是指项目水平的测量误差, 而FM的误差是指潜变量水平的残差(Diamantopoulos, 2006; Jarvis et al., 2003)。
图1和图2表示的是一阶测量模型(Edwards, 2001), 这是测量模型中最简单的情况。研究者所关注的变量还可以被操作化成不同的维度, 各维度分别以不同的指标加以测量。比如, 将工作满意度界定为包含几个不同的方面:薪酬满意度、人际满意度、领导满意度, 晋升满意度等, 尽管可以将每个方面都视为一个单独的变量, 但在更抽象的水平上, 每个方面都是个体工作满意度的一个维度(Jarvis et al., 2003)。这种界定在心理学研究中很常见, 此时就要用到二阶测量模型。这种模型包含两个水平(Diamantopoulos et al., 2008):一个是联系指标与维度的水平(一阶), 另一个是联系维度与潜变量的水平(二阶)。每个水平的内部关系都可能是形成性的或者测量性的, 据此可以区分四种类型的二阶测量模
型(Jarvis et al., 2003):形成性一阶, 形成性二阶(Edwards & Bagozzi, 2000); 反映性一阶, 形成性二阶(Lin, Sher, & Shih, 2005); 形成性一阶, 反映性二阶; 反映性一阶, 反映性二阶。
Jarvis等人(2003)评估了四种主要的市场研究期刊上发表的文章, 结果发现, 有大约三分之一的研究中模型界定错误, 这种现象在心理学研究中也存在。存在两种模型界定错误:应该采用FM 而实际采用的是RM, 称为Ⅰ型错误; 应该采用RM 而采用了FM, 称为Ⅱ型错误1(Diamantopoulos & Siguaw, 2006)。由于FM和RM的量表开发原则不同, 即使是同一批指标, 经过项目简化, 最终保留的项目也有极大不同, Diamantopoulos等人(2006)的研究发现, 对30个项目分别按照RM和FM的量表开发原则进行分析, 最终保留下来的项目中只有两个是一致的, 因此, 模型界定错误对最终的测量指标有极大影响。在模型的识别和
多维度1这里所讲的Ⅰ型和Ⅱ型错误与心理学通常采用的含
义不同。
颜氏家训pdf
第2期王晓丽等: 形成性测量模型:结构方程模型的新视角 295
估计上, 模型界定错误带来的最严重后果是模型
正确却被拒绝或者模型错误却被接受, 更为常见
的结果是使模型参数估计发生偏差, 如Jarvis等
人(2003)使用EQS软件分析了将FM错误的界定
为RM造成的偏差, 结果发现, 从错误界定的潜
变量指向其他变量的路径系数会被显著的高估,
使最终得出的路径系数增加达555%之多, 而指
向错误界定的潜变量的路径系数会被低估, 减少93%之多, 无论哪种类型的错误最终都会影响研
究结论的准确性和科学性。
在辨别模型界定错误上, 除了理论上的思考外, 还可以从数据角度进行分析。当模型界定错
误时, 通常用来判断模型拟合优度的指标(如χ2、SRMR、GFI、CFI、RMSEA等)中, 只有χ2和GFI
两个指标会显示模型拟合不好(Jarvis et al., 2003),
因此, 仅靠传统的拟合优度指标很难判断模型界
定是否正确。Bollen和Ting (2000) 提出了验证性
四分差分析(Confirmatory Tetrad Analysis, CTA), 通过检验零假设(H0: τ=0)和备择假设(H1:τ≠0) 来判断模型使用的适切性, 如果结果支持零假设, 那么样本数据支持RM, 反之, 则样本数据
支持FM(Bollen & Ting, 2000; Gudergan et al., 2008)。
2.2模型识别和估计
为了使模型可识别, RM和FM均需要满足以
下条件:(1)t法则。一个模型中自由参数的数量
应该小于或等于指标变量的协方差矩阵中的非冗
余元素(non-redundant elements)数量(Bollen & Devis, 2009)。(2)定标法则(scaling rule)。为了使
结构方程模型可以识别, 必须给潜变量一个特定
的单位尺度。对RM来说, 有三种方法可以满足
定标法则:固定潜变量的方差为1; 固定一条从潜
变量到内生潜变量的路径系数为1; 或者固定潜
变量的因素载荷为1(邱皓政, 林碧芳, 2009)。对FM来说, 也有三种方法可以满足定标法则:固定
一条从形成性指标到潜变量的路径系数; 固定一
条从形成性测量的潜变量到反映性测量的内生潜
变量的系数或者固定形成性潜变量的方差为
1(Bollen & Devis, 2009)。
但是, 对FM来说, t法则和定标法则只是达
到可识别的必要条件, 还需要满足第三个法则:(3)
增加两条发散路径法则(2+ Emitted Paths)。即需要至少增加指向其他(反映性)潜变量或指标的两条路径(Damantopoulos, 2006)。增加方法可以有以下三种(Bollen & Devis, 2009; Diamantopoulos et al., 2008; Jarvis et al., 2003):第一种方法是在符合理论假设的基础上, 在FM中增加两个反映性指标, 这实际上就是一个多原因多指标模型(multiple indicators of multiple causes model), 见图 3 (Bollen & Devi
s, 2009); 第二种方法是增加两个相互独立的反映性内生变量作为结果变量, 见图4 (Bollen & Devis, 2009); 第三种方法是前两种方法的综合, 增加一个反映性指标和一个反映性的结果变量, 见图5 (Bollen & Devis, 2009)。Javis 等人(2003)综合比较了各种识别方法, 认为第一种方法最合适, 其优势在于:只需要依靠FM自身的指标就可以进行模型识别和效度检验, 而且该变量在结构方程模型中可以出现在任何位置(既可以作为外源变量, 又可以作为内生变量); 可以通过验证性因子分析进行区分效度(discriminant validity)的检验以及其他统计特性的分析; 参数估计比较稳定。这种模型的问题在于解释上的困难, 对同一个模型可以有不同的解释(Diamantopoulos et al., 2008), 既可以将其视为一个测量模型, 也可以将其视为测量模型和结构模型的混合体, 到底如何解释, 有赖于理论上的考虑。
图3 增加两个反映性指标的可识别FM
图4 增加两个反映性结果变量的可识别FM
运动粘度
296 心理科学进展第19卷
图5 增加一个反映性指标和一个反映性结果变量的可
识别FM
(图3、图4、图5来源:Bollen & Davis, 2009)
虽然达到模型的可识别性非常重要, 但对FM来说, 即使整体模型识别不足, 也能估计出模型中的某些参数, 获得一些有用的信息, 具体估计方法见Bollen等人(2009)的研究。
2.3模型评价
信度和效度是评价测量模型的两个重要指标。Diamantopoulos和Winklhofer (2001)指出, 研究者用来检验RM信度和效度的传统方法并不适用于FM。
2.3.1信度评价
RM通常采用内部一致性系数作为信度指标, 但是FM中指标之间的相关可以是正、是负、甚至为零, 在FM中依赖相关矩阵来选择指标可能导致排除有效的测量指标(Bollen & Lennox, 1991), 因此内部一致性系数对FM来说并不适用。研究者对于FM的信度估计方法并未达成一致。Rossiter (2002)认为, 对于一个成熟的特质来说, 信度问题是不容质疑的, 因此FM不需要信度估计, Diamantopoulos(2005)则推荐使用重测法进行FM的信度估计。
2.3.2效度评价
就变量的建构效度而言, RM中所有的指标都是潜变量同样有效的测量, 任何两个具有相同信度的指标是可以互换的。因此, 如果移除某个指标, 这组指标的信度系数(如内部一致性系数)会变小, 但是建构效度不变, 因为一个单维潜变量的所有方面都可以由剩下的指标来代表(Bollen & Lennox, 1991)。因此, RM的测量指标在理论上是可以互换和取代的, 放弃或者替换某一个反映性指标并不会改变其建构效度。而FM中, 指标以集合的方式共同决定变量的内涵, 因此, 如果移除某个指标, 建构效度就会发生变化(MacKenzie et al., 2005)。
就指标效度而言, Bollen (1989)认为γ系数反映了形成性指标对潜变量的影响, 是指标的效度, 没有达到显著性的γ系数不能代表变量的有效指标, 应该删除。Diamantopoulos等人(2001)则推荐使用MIMIC模型, 可以同时估计γ系数和模型的整体拟合度。此外, 还可以通过评价指标与其他变量的相关来估计指标效度, 增加一个概括变量本质的总体测量指标, 将其作为效标, 形成性指标与其的相关即指标效度(Diamantopoulos & Winklhofer, 2001; MacKenzie et al., 2005), 保留具有高相关的指标, 而那些相关较低或者没有相关的变量可以考虑删除。同时, 指标也需要满足比例性限制(the proportionality constraints)。FM中潜变量能够完全中介其指标对其他结果变量的影响, 这意味着模型系数受到一定的比例性限制(Bollen & Davis, 2009)。所谓比例性限制, 是指因为FM 中潜变量中介了其指标对其他变量的影响, 因此指标对结果变量的影响应该与它们对形成性潜变量本身的影响成比例。如果某个指标没
有满足这种比例性限制, 那么这个指标的效度是有问题的(Franke, Preacher, & Rigdon, 2008)。
2.4 FM的应用情况
心理学研究中的很多变量实际上都是使用FM进行测量的, 却被错误的界定成RM。比如, 将工作满意度界定为薪酬满意度、人际满意度、领导满意度、晋升满意度等方面, 这是一个FM, 因为(1)各维度的变异引起工作满意度的变异, 显示工作满意度的特征; (2)每个维度都代表了工作满意度不可替代的一个方面; (3)各维度之间未必有正相关; (4)各维度的前因和后果变量未必相同。同理, 以失业、离婚和生孩子等作为压力的指标, 这里每个事件都是造成压力的原因(FM)而非压力的结果(RM) (Bollen & Ting, 2000); 以花在朋友和同事身上的时间作为社会交往的指标, 这些指标也都是原因指标(FM)而非效应指标(RM); 以生活满意度、积极情感和消极情感作为主观幸福感的指标(邱林, 郑雪, 2006), 这些指标是造成主观幸福感的原因(FM)而非结果(RM)。
还有一些研究中, 变量是形成性指标和反映性指标的混合, 比如Bollen和Lennox (1991)认为, 流调中心用抑郁量表(the Center for Epidemiological Studies Depression Scale, CES-D)中有一些反映性
第2期王晓丽等: 形成性测量模型:结构方程模型的新视角 297
指标(如“我感到沮丧”, “我感到悲伤”), 同时也有一些形成性指标(如“我感到孤独”), 沮丧和悲伤是抑郁的
效应, 而孤独则是抑郁的原因。另外, 一组指标可能是一个变量的形成性指标, 同时又是另一个变量的反映性指标, 比如, 儿童观看暴力电视节目、玩暴力游戏、听暴力主题的音乐可以是“暴露于媒体暴力”的形成性指标, 也可以是“寻求暴力娱乐倾向”的反映性指标(Bollen & Ting, 2000)。
实际上, 对一个变量到底采用FM还是RM 进行测量, 这并不是一个非此即彼的问题。研究者对变量测量模型的选择与变量本身的性质并没有太大的关系, 而是取决于对该变量的理解(Marakas et al., 2007)。变量并非生来就是形成性或者反映性的, 一个变量既可以使用RM测量, 也可以使用FM测量。比如Bradley和Corwyn (2002)认为, 大部分研究者认同使用收入水平、教育水平以及职业声望三个指标界定社会经济地位(Social Economlogical Status, SES), 这是一个FM, 但是, 研究者也可以通过设计诸如“你在社会阶梯上的地位如何?”此类的问题, 使用RM测量SES, 因此, 虽然SES被认为是典型的适合使用FM测量的变量, 但这并不意味着它不能使用RM 测量(Borsboom, Mellenbergh, & Heerden, 2004)。可见, 研究者对变量的理解对模型的选择起着决定性的作用。
在数据处理方法上, AMOS、LISREL、EQS 等软件包都可以用于FM的统计分析, 但这些方法都是以极大似然估计法为基础的协方差矩阵分析, 对数据分布形态和样本量有着严格的要求。当不满足数据分布形态和样本量等要求时, 可以采用偏最小二乘法(Partial Least Squares method, PLS), PLS几乎不需要考虑样本数据分布, 使用较少的样本量就可以进行分析(Tenenhaus, Vinzi, Chatelin, & Lauro, 2005; Gudergan et al., 2008; Baxter, 2009), 可以作为FM的分析工具(Coltman, Devinney, David, & Venaik,
2008), 一般比较常用的分析软件有LV-PLS、PLS-Graph、SmartPLS等, SPSS中也有PLS模块。
2.5关于FM的争论
FM近年来激起了大量的讨论(Diamantopoulos et al., 2008)。一些研究者对FM提出质疑, 其主要依据是FM中存在解释性混淆问题。解释性混淆是指尽管对一个变量的理论界定没有发生变化, 但是由于结果变量的不同, 形成性指标与潜变量的关系也不一样(Burt, 1976), 即不同研究中变量的名义定义可能是一样的, 但是实际含义却发生了变化, 指标与潜变量的关系受到结果变量的影响 (Diamantopoulos, 2006), 这说明FM跨样本的稳定性很低, 缺少外部一致性, 不同研究中的同一变量没法比较, 也不利于知识的积累(Bagozzi, 2007; Hardin, Chang, & Fuller, 2008a, 2008b; Howell, Breivek, & Wilcox, 2007a, 2007b; Wilcox, Howell, & Breivik, 2008)。 FM的支持者对此的回应是:解释性混淆是由于模型界定错误导致的, 而与模型类型无关, RM中也存在解释性混淆问题(Bollen, 2007), 但他们没有提供有说服力的证据。最近, Hardin, Chang和Fuller等人(2010)提出了固定指标权重的方法, 认为通过元分析确定形成性指标的最佳权重, 可以解决FM的解释性混淆和外部效度问题。
何处寻真相另外, 有研究者对FM中误差的含义提出质疑, 将其视为形成性指标预测结果变量的残差, 而不是形成性指标预测形成性潜变量的残差, 因此随着结果变量的不同, 误差的值也会发生变化(Wilcox et al., 2008)。此外, FM中的误差存在于变量水平, 假定指标没有测量误差, 这对一些研究者来说很难接受(Ed
wards & Bagozzi, 2000)。对此, Diamantopoulos等人(2008)提出了改进的FM, 对每一个形成性指标也界定了测量误差。
同时, RM中所有的指标是可以互换的, 与其他变量的相关模式较为一致, 有相同的前因变量和后果变量; 而FM中并不需要所有的指标反映潜变量相同的方面, 指标间不可以互换, 因此没有理由期望它们有相同的前因和后果变量(Bollen & Lennox, 1991; Jarvis et al., 2003)。反对者认为既然形成性指标之间不必有相同的前因和后果变量, 那么它们就不能构成一个独立的变量。因此, 他们建议将形成性指标作为个体变量单独使用, 但是如此一来, 既牺牲了模型的简洁性, 也仍然无助于解释指标水平的测量误差(Howell et al., 2007a, 2007b)。
也有研究者对是否有必要使用FM以及FM 是否应该作为一种优先考虑的测量方法提出质疑。比如, Bagozzi (2007)认为只是在极少数的情况下可以使用FM, 而Howell等人(2007a, 2007b)