新汉语水平考试HSK(六级)试卷难度控制研究
[source]  汉考国际                [ Date of issue]  2012-11-12 00:00:00.0
      新汉语水平考试HSK(六级)是新HSK笔试难度最高的等级。为使不同次考试的分数具有可比性,使参加不同次考试的考生得到公平对待,HSK(六级)拼卷人员采取“内容均衡、形式统一、篇幅控制”等措施,努力使不同试卷在难度上保持一致。通过预测,可以更好地控制试卷难度。但预测有试题曝光的风险,须投入一定的人力物力,同时其准确性受各种条件的限制。如果不预测,试卷难度控制就更为关键。考试结束后,统计人员还要对分数进行等值处理。
      HSK(六级)在试卷难度控制方面效果如何?试卷难度信息能为等值提供什么借鉴?我们拟通过对2011年全球8次HSK(六级)考试的数据进行统计分析,来尝试回答上述问题。
 
一、研究设想
 
      2011年,HSK(六级)在全球组织了8次考试,使用了8套试卷,考生共计36484人,其中韩国籍考生25939人,占全体考生的71.10%。具体信息见表1、2:
 
表1
考试时间
全球考生数量(人)
韩国籍考生数量(人)
3月
3998
3446
4月
4235
2685
5月
5231
3622
6月
4410
2455
7月
3758
3360
9月
2742
2524
10月
4886
3304
12月
7224
4543
共计
36484
25939
 
表2
 
考生数量(人)
比例(%)
韩国国籍
25939
71.10
其他国籍
10545
28.90
 
      要考查HSK(六级)不同试卷的难度差别,有两种方法。一是正式考试时,在不同试卷中安置共同题,通过不同次考生在共同题上的表现来推测不同试卷的难度差。但是为应对应试冲击,新HSK试题的使用是一次性的,不同试卷中不包含相同的试题。二是组织一批考生,将多套试卷都考一遍,考生是相同的,考生的水平没有发生变化,那考生在不同试卷上的分差就是试卷难度差。这基本上也不具有可操作性。
      通过表1可以看出,HSK(六级)每次考试,全球考生数量都在2700人以上。如果将不同次考试的考生看做是总体考生的若干个随机样本,我们就可以假设他们具有相同或近似的汉语水平。这样的话,不同次考试的考生在不同试卷上的得分差异就可视为试卷难度差。由此,在一定程度上,我们就可以对HSK(六级)不同试卷难度控制的质量做出评价。
      通过表1、2可以看出,每次考试,韩国籍考生数量都在2400人以上。因此,我们还可以韩国籍考生为统计对象,评价HSK(六级)不同试卷难度控制的质量。
      HSK(六级)含听力、阅读、书写三部分。本文使用的是这8次考试的原始分数据,只对客观题听力分、阅读分进行统计分析,未对主观题书写分做统计分析。
 
二、统计分析
 
      HSK(六级)听力50题,阅读50题。我们统计了HSK(六级)2011年8次考试全球考生、韩国籍考生的听力、阅读平均分。具体信息见表3:
 
表3
 
全球考生平均分
韩国籍考生平均分
听力
阅读
听力
阅读
3月
34.60
32.15
34.40
31.94
4月
39.36
34.18
38.33
32.48
5月
36.62
30.98
36.47
30.36
6月
40.60
34.34
38.55
31.90
7月
37.42
32.32
37.00
31.79
9月
38.26
31.03
38.25
30.87
10月
37.64
30.63
36.91
29.00
12月
34.36
33.09
34.17
32.46
平均
37.36
32.34
36.76
31.35
 
      HSK(六级)听力、阅读原始分满分都是50分。通过表3可以看出,全球考生听力平均分普遍高于阅读平均分。听力平均分在34.36-40.60之间波动,波动范围为6.24分,均值为37.36分。阅读平均分在30.63-34.34之间波动,波动范围为3.71分,均值为32.34分。听力平均分均值为37.36分,阅读平均分均值为32.34分,相差5.02分。
      韩国籍考生听力平均分普遍高于阅读平均分。听力平均分在34.17-38.55之间波动,波动范围为4.38分,均值为36.76分。阅读平均分在29.00-32.48之间波动,波动范围为3.48分,均值为31.35分。听力平均分均值为36.76分,阅读平均分均值为31.35分,相差5.41分。
      8次考试全球考生相关数据如图1所示:
 
图1
 
      新加坡考生汉语水平普遍较高。统计显示,4月考试,新加坡考生占全体考生的11.62%;6月考试,新加坡考生占全体考生的20.84%;其他6次考试的比例则都在2%以下。新加坡考生对4、6月考试全球考生平均分有拉高的影响,会造成对4、6月使用试卷难度系数的高估。
8次考试韩国籍考生相关数据如图2所示:
 
图2
 
三、讨论
 
      根据上述统计分析可以发现,HSK(六级)8次考试,听力分普遍高于阅读分,相差5分左右。听力分在35-40之间波动,阅读分在30-35之间波动。这种波动较为稳定,反映了HSK(六级)试卷难度控制的现有水平。评价HSK(六级)试卷难度控制的质量,可以韩国籍考生为统计对象,也可以剔除新加坡籍等特殊考生群体的全球考生为统计对象。
      新HSK最初采用“共同题等值法”实现等值,但很快就在应试培训的冲击下放弃了这种等值方法。“共同组等值法”则因缺少可操作性,一直未能派上用场。在对HSK(六级)难度控制的研究过程中,我们发现,新HSK可以尝试使用“平均分等值法”来实现等值。其假设是,在每次考试有足够数量、足够代表性考生的前提下,不同次考试考生群体的汉语水平相同或相似。如果某次考试听力平均分偏高,意味着听力分测验可能偏易,需要减分;阅读平均分偏低,意味着阅读分测验可能偏难,需要加分。结合图1来看,如果下次考试,听力平均分在35-39之间,可能就不做调整。但如果在这个区间之外,我们就须加分或减分,调整幅度由相关人员集体讨论确定。这是一种粗略的等值方法,但它简便易行,可操作性强。
      在听力均值线和阅读均值线的确定上,“平均分等值法”有两种选择。一是将其固定,比如选择近三年来的20次考试,获得听力、阅读平均分均值线,今后的考试围绕这两条均值线做调整。二是将其动态化,每次考试都围绕之前所有考试形成的均值线做调整。 
 
参考文献:
[1] 谢小庆.对15种测验等值方法的比较研究.心理学报,2000.
[2] 谢小庆.关于HSK等值的试验研究.世界汉语教学,1998(2).
[3] 谢小庆.HSK和MHK的等值.考试研究,2005(4).
[4] 谢小庆.考试分数等值的新框架.考试研究,2008(2).
[5] 谢小庆,任杰.关于HSK等值改进的一项实验研究.世界汉语教学,2006.
[6] 谢小庆,任杰.HSK等值方法的改进.对外汉语教学的全方位探索.商务印书馆.2005.
[7] 约瑟夫•M•瑞安(美).基于经典测量理论和项目反应理论的等值与连接(一).考试研究.2001(1).
[8] 约瑟夫•M•瑞安(美).基于经典测量理论和项目反应理论的等值与连接(二).考试研究.2001(2).
[9] 约瑟夫•M•瑞安(美).基于经典测量理论和项目反应理论的等值与连接(三).考试研究.2001(3).
[10] 张晋军.关于汉语水平考试(HSK)等值设计的新思考.中国考试,2008(8).
[11] 张晋军.国家职业汉语能力测试(ZHC)拼卷工作介绍.中国考试,2007(1).

新汉语水平考试HSK(六级)试卷难度控制研究 下载 
Copyright © Chinese Testing International 2013-2016  Beijing ICP No.16003362-1
It is suggested to visit the website through IE browser (above Version 6.0) or Firefox browser.
出版物经营许可证 新出发京零 字第西150040

京公网安备 11010202007018号