当前位置:论文网 > 论文宝库 > 理学类 > 化学论文 > 正文

主成分与因子分析在期刊评价中的改进研究

来源:UC论文网2018-10-07 09:02

摘要:

  摘要:分析了主成分分析和因子分析在期刊评价中的误区,并提出了优化方法。研究表明,无论是主成分分析还是因子分析,其隐含的假设是评价指标必须服从正态分布,在期刊评价指标普遍呈幂律分布的情况下,采用主成...

  摘要:分析了主成分分析和因子分析在期刊评价中的误区,并提出了优化方法。研究表明,无论是主成分分析还是因子分析,其隐含的假设是评价指标必须服从正态分布,在期刊评价指标普遍呈幂律分布的情况下,采用主成分分析和因子分析要慎重,应将评价指标取对数后再进行评价。采用主成分和因子分析即使评价方法相同,不同评价也不具有可比性。主成分或因子分析采用方差贡献率作为权重值得商榷,应结合专家打分来赋予权重。


  关键词:主成分分析;因子分析;期刊评价;评价指标;权重;


  作者简介:俞立平(1967-),男,博士,教授,研究方向:计量经济、科学计量;


  0引言


  主成分分析和因子分析两者原理相近,都能对文献计量学指标进行降维,因而在期刊评价中得到了广泛的应用,但是由于主成分分析和因子分析隐含着评价指标正态分布的假设,其根据方差贡献率设定权重的方法也有许多可商榷之处,这种情况下,在期刊评价中应用主成分分析和因子分析要注意什么问题?如何更有效地应用期刊评价方法?对这些问题的研究有利于减少期刊评价中的系统误差,提高评价的质量。


  关于主成分分析在期刊评价中的应用,王引斌(1998)[1]较早分析了期刊评价采用主成分分析的可行性,认为该方法能够较为全面地测定出核心期刊,避免使用单一方法测定所产生的弊端。陈汉忠(2003)[2]介绍了主成分分析在科技期刊评价中的应用,认为其在简化数据结构,消除变量之间的相关性以及选择变量子集合等方面具有重要作用。董敏红(2010)[3]采用主成分分析研究了图书情报类核心期刊评价指标的权重,对该方法的有效性进行了分析。余以胜、刘芷欣(2010)[4]采用主成分分析对计算机科学技术类学术期刊进行了评价。甘胜进(2011)[5]采用非线性主成分对科技期刊进行评价,认为该方法是传统线性主成分的推广,能够提取期刊评价指标之间的非线性特征,并且提取的信息程度较高。张寅、王岩等(2010)[6]将区间主成分分析分解成两个基本阶段:第一是如何更加简单和高精度地计算数据集合的主轴,第二是如何绘制可视性与可解释性都更强的主平面图,以增强研究人员对大规模数据主要特征的洞察能力,提出基于简化的区间数据主成分分析方法。


  关于因子分析法在期刊评价中的应用,辛督强、韩国秀(2014)[7]认为因子分析法全面考虑了影响期刊水平的各引用指标和期刊特征指标,不仅解决了各指标之间的相关重叠性,还客观确定了各指标权重,并较好地消除了期刊自引率过高引起的影响力评价失真问题。章柳云(2010)[8]采用因子分析法,从编辑意识、编辑认知能力、核心专业能力、信息化操作能力和自我发展能力五个方面评价了体育学术期刊编辑的专业能力。薛庆根(2013)[9]首先采用因子分析将传统期刊评价指标分为影响力与时效性两个公共因子,然后采用传统回归和分位数回归研究特征因子与期刊影响力与时效性的关系。俞立平、潘云涛等(2009)[10]指出聚类分析作为一种公认的分类方法,在期刊评价指标分类中并不适用,因子分析由于解释力较强,为学术期刊评价指标分类提供了一种较好的方法。


  总体上,主成分分析和因子分析在期刊评价中得到了广泛的应用,其对期刊评价指标降维与分类的优越性得到了公认,一些学者采用一些改进的主成分或因子分析模型进行期刊评价,但是对采用主成分和因子分析存在的一些问题则较少进行讨论,本文在对主成分和因子分析的适用条件以及存在问题分析的基础上,基于JCR2012物理学期刊数据,提出采用对数标准化方法对评价指标进行预处理,然后再进行主成分和因子分析,并且对改进效果进行比较和讨论。


  1主成分和因子分析的误区与优化


  1.1主成分和因子分析的适用条件是指标必须服从正态分布


  Edward(1992)[11]认为,主成分或因子分析方法的一个基本假定就是每个方案对应于各个准则的取值服从正态分布。具体到期刊评价,也就是说每个期刊评价指标必须服从正态分布。通常在采用主成分或因子分析进行期刊评价时,首先要将评价指标进行正态化标准化,即标准化后均值为0,方差为1,也正是这个道理。


  从数据标准化的目的看,主成分分析主要是为了消除量纲和数量级,必须进行数据标准化。而因子分析在这方面要求不是太高,因为在因子分析可以通过主因子法、加权最小二乘法、极大似然估计法、重心法等很多解法来求因子变量,因此因子变量的求解与原始变量是否同量纲关系并不太大,不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,一般还是要进行数据标准化。但是,千万不要忘记,基于回归原理的因子变量求解方法,回归的前提条件是数据必须服从正态分布,所以,无论是主成分分析还是因子分析,评价指标服从正态分布是一个隐含的基本假设。


  在现实生活中,由于指标数据很难全部服从正态分布,在这样的情况下,如果由于少数指标不服从正态分布,因此放弃主成分或因子分析方法的优点而弃这两种方法而不用,也不是一种最佳选择,加上在大样本的情况下,评价指标会更加接近正态分布,所以正常情况下不顾主成分和因子分析方法的隐含假设而选用,一般也没有太大的问题。楼文高、吴雷鸣(2010)[12]认为主成分分析样本数据量越多,准确性越好,就是这个道理。


  在期刊评价中,Price(1965)[13]最早发现引文网络的入度和出度均服从幂律分布特征。Seglen(1992)[14]发现引文指标数据呈典型的偏态分布,并不服从正态分布。Vinkler(2008)[15]证明了引文分布的右偏性。Adler(2009)[16]认为,基于幂律分布规律,引用数据的分布通常呈右偏态分布,算术平均数主要代表了高被引论文的引用值。可见,期刊评价指标更多服从幂律分布,而不服从正态分布,这样就不具备采用主成分或因子分析的隐含前提条件。


  1.2主成分分析使不同评价难以比较


  无论是主成分分析还是因子分析,评价都是严重依赖数据的,也就是说,一旦评价对象发生变化,评价结果将发生较大变化,极端情况是,增加或减少一个期刊,所有期刊的评价结果都会发生改变。在这种情况下,主成分分析或因子分析评价一般只在单次评价中才有意义,比如政府部门不定期进行的期刊评优,但是不同评价之间根本不具有可比性,比如同样采用主成分或因子分析评价,去年的评价结果与今年的评价结果根本就不可比,A期刊去年排名第10,今年排名第8,并不能说明A期刊进步了,因为期刊评价方法不一样了。


  1.3主成分或因子分析的权重设定值得商榷


  无论是主成分分析还是因子分析,都是根据各成分(因子)的方差贡献率来确定权重,这种方法在大多数情况下被认为是一种优秀的客观权重赋值方法,因为完全根据数据说话,排除了人为干扰,但是这种赋权方法是值得商榷的。


  主成分(因子)的本质,其实是从评价指标中抽取的关键信息,这些关键信息的方差贡献率,本质上是由评价指标决定的。在期刊评价中,如果期刊影响力指标较多,那么第一主成分(因子)往往体现了期刊的影响力,如果期刊时效性指标较多,第一主成分(因子)往往体现了期刊的时效性,但是就期刊评价的本质而言,究竟哪个主成分(因子)更重要其实应该根据评价目的由人工来确定,指标数量多少并不能说明其重要性。如果评价目的主要是为了评价期刊的时效性,但是由于期刊评价中影响力指标较多,采用主成分或因子分析,实际上主要评价的是期刊的影响力,这和评价目的是背道而驰的。


  也就是说,指标类型和数量多少总体上决定了主成分(因子),如果指标类型、数量和评价目的基本一致,比如一级指标共3个,其重要程度是A、B、C,评价指标数量也是A最多,C最少,那么一般情况下可以取得较好的评价结果。如果评价时C最重要,但C类指标最少,此时是不宜采用主成分或因子分析进行评价的,至少不能采取方差贡献率作为权重。


  1.4主成分(因子)分析的优化


  综上所述,在期刊评价中,主成分或因子分析的最大问题,其实是评价指标的数据分布问题。主成分分析和因子分析作为两种优秀的指标分类和评价方法,如果由于期刊评价指标数据不服从正态分布而放弃是非常可惜的,但是可以设法使评价指标更加接近正态分布,从而减少在期刊评价中使用这两种评价方法的系统误差。其中最为简捷有效的方法就是对评价指标取自然对数,然后再进行评价。取对数的最大好处是降低了数据之间的差距,使数据更加均匀,更加接近或具备正态分布。


  从另外一个角度,不管评价指标是否服从正态分布,如果评价结果能够更加接近正态分布,则更加符合大众的思维习惯,评价公信力也会得到提高,俗话讲好的考试评分结果应该“中间大,两头小”就是这个道理。


  2数据


  为了对指标取对数前后评价结果进行比较,本文以因子分析法为例,选取JCR2012物理学期刊文献计量学指标进行比较研究:首先对原始指标取对数前后的数据分布进行比较,然后对取对数前后评价结果的数据分布和关键因子进行比较,最后再对取对数前后的评价结果进行比较。


  JCR2012涉及的学科众多,有的学科期刊数量较多,有的学科期刊数量较少,物理学期刊数量中等,具有较好的代表性。JCR2012物理学期刊共有127种,其中部分期刊存在数据缺失现象,将其删除,经过整理最后还有120种期刊。


  本文选取JCR2012公布的全部7个期刊评价指标:总被引频次(X1)、影响因子(X2)、5年影响因子(X3)、即年指标(X4)、被引半衰期X5)、特征因子分值(X6)、论文影响分值(X7),其中被引半衰期是反向指标,必须对其进行了正向化处理。


  3实证结果


  3.1取对数前后评价指标数据分布比较


  表1指标取对数前后的比较下载原表


  表1指标取对数前后的比较


  期刊评价指标取对数前后的数据特征如表1所示。从偏度看,除了被引半衰期外,其他所有指标取对数后都有所缩小,偏倚情况有所减轻;从峰度看,同样除了被引半衰期外,所有指标的峰度均大幅减少,更加接近正态分布;从Jarque-Bera正态分布检验看,取对数前,所有指标均不服从正态分布,而取对数后,JB检验值均大幅减少,并且特征因子服从正态分布。总体上,取对数后数据分布更加平缓,从幂律分布向正态分布靠近,图1和图2是总被引频次取对数前后的数据分布对比,图3、图4是特征因子取对数前后的数据分布对比。


  3.2因子分析取对数前后的比较


  采用因子分析评价法,评价指标取对数前后的比较如表2所示。KMO检验值指标取对数后有所下降,Bartlett检验值也有所下降,说明指标取对数适当降低了期刊评价指标之间的相关性,从因子分析的适用条件角度有所降低,但总体上仍然大于0.5,并且Bartlett检验的相伴概率为0.000,符合采用因子分析的前提条件。


  指标未取对数时,采用因子分析有两个因子的特征值大于1,第一因子有影响因子、5年影响因子、即年指标、被引半衰期、论文影响分值组成,可以归结为期刊“影响力因子”,第二因子由总被引频次、特征因子组成,可以将其总结为期刊的“杰出因子”,因为这两个指标对于办刊历史悠久以及影响力较大的期刊得分较高,而办刊历史悠久的期刊一般也具有较大的影响力。第一因子的方差贡献率为56.35%,第二因子的方差贡献率为28.65%,两者合计共解释了评价指标的85.00%。


  再看评价指标取对数后进行因子分析的结果,同样有两个因子的特征值大于1,第一因子有影响因子、5年影响因子、即年指标、被引半衰期、特征因子、论文影响分值6个指标组成,可以归结为期刊“影响力因子”,第二因子由总被引频次组成,可以将其总结为期刊的“历史因子”,第一因子的方差贡献率为68.68%,第二因子的方差贡献率为18.60%,两者合计共解释了评价指标的87.29%。


  对比指标取对数前后因子分析的结果可以发现,尽管因子分析拥有强大的解释力,但指标取对数与否对提取公因子数量和类型可能产生较大的影响,相应地也影响到对公因子的解释。


  指标取对数前后因子分析评价结果的数据分布如图5、图6所示,从图中明显看出,指标取对数后因子分析的评价结果更加接近正态分布,从偏度、峰度、Jarque-Bera正态分布检验值看,指标取对数后因子分析的评价结果数据分布都明显“正态分布化”,可见指标取对数的评价结果数据分布更加均衡一些。


  对评价指标取对数前后评价结果的比较,采用两种方法进行,一种是相关系数,一种是Friedman检验。结果发现,两者的相关系数0.664,属于中等程度的相关,而对两种评价结果的排序采用Friedman非参数检验,发现卡方检验值为0.229,相伴概率为0.632,不能拒绝0假设,即两种评价结果存在明显不同。


  总体上,如果评价指标不取对数进行因子分析,存在较大的误差,相关的评价结果也不够可靠。


  4结论


  4.1在期刊评价中必须注意主成分和因子分析的适用条件


  无论是主成分分析还是因子分析,其隐含的假设是评价指标必须服从正态分布,在期刊评价指标普遍呈幂律分布的情况下,采用主成分分析和因子分析要慎重,容易产生较大的系统误差,评价结果也不够可靠,因而不能直接采用,最好将评价指标取对数后再进行评价。


  4.2要注意主成分(因子)分析的可比性及权重的根本内涵


  无论是主成分分析还是因子分析,由于完全依赖数据,因此即使采用同样的评价方法,如果对两种不同的数据进行评价,那么这两种评价之间是不可比的,比如同样是评价数学期刊,去年的评价结果与今年的评价结果之间是不可比的,因此,主成分分析或因子分析往往适用于单次评价。


  此外,无论主成分分析还是因子分析,均拥有较好的数据挖掘性能,挖掘出的主成分或公因子完全依赖数据,其方差贡献率说明了在原始指标数据中包括这种主成分或公因子的数量多少,但是如果简单地将方差贡献率作为权重来进行评价就不对了,因为第一主成分或公因子并不一定是最重要的,在这种情况下,可以采用专家会议法对主成分或公因子进行打分来获取权重。


  4.3期刊评价指标取对数后更加满足主成分或因子分析的前提条件


  在不损失主成分或因子分析的优越性,又要降低期刊评价指标的幂律分布特点,使其更加接近正态分布,从而接近采用主成分或因子分析评价的条件,最好的方法是将原始期刊评价指标取对数。本文研究发现,评价指标取自然对数以后,无论是评价指标还是评价结果,数据分布更加接近正态分布,也更加符合大众“中间多,两头少”的思维习惯。如果期刊评价的结果不仅用于学术用途,还要面向大众,此时对评价指标取对数然后再进行主成分或因子分析就更有意义。


  总之,要根据期刊评价目的、评价用途、主成分分析与因子分析的特点和适用条件来正确使用评价方法,在评价中充分体现主观与客观相结合,以发挥评价主体的作用,发挥评价的管理职能。

核心期刊推荐