新HSK考生数量对试卷难度预估的影响
[source]  汉考国际                [ Date of issue]  2014-01-23 00:00:00.0

新汉语水平考试(HSK)是一项国际汉语能力标准化考试,重点考查汉语非第一语言的考生在生活、学习、工作中运用汉语进行交际的能力。新HSK分笔试和口试两个相互独立的部分,笔试分6个等级,口试分三个等级。

不同次考试使用的试卷不同,这些试卷的难度是有差异的,某套试卷可能稍易,某套试卷可能稍难。为使参加不同次考试的考生得到公平对待,新HSK要对考生分数进行等值处理。等值处理的速度直接影响到出成绩的速度,而等值处理的速度又受考试材料收回速度的影响。是否要等所有考生的考试材料都收回后,才能进行等值处理?有人认为收回80%考生的考试材料,即可进行等值;有人认为60%即可。每次考试的考生数量是不同的,所以无论80%还是60%,所指的具体考生数量又各不相同,究竟收回多少考生的考试材料,才能较为准确地预估本次考试的试卷难度?

一、研究对象

我们认为,对某一份试卷而言,当考生数量少时,统计得来的难度值是不稳定的。比如,依据50、200、500个考生得来的难度值可能都不一样,但当考生数量增大时,依据1500、2500、3000个考生得来的难度值就可能非常近似了。事实究竟怎样?我们拟以2010-2013年HSK(六级)正式考试中使用过的37套试卷为研究对象,做一些统计分析,相关信息见表1。

表1
年度
试卷
2010年
第1-9卷
2011年
第10-17卷
2012年
第18-25卷
2013年
第26-37卷
 

二、研究过程

我们从每次考试的考生中,以非随机方式抽取25、50、75、100、125名考生直至全部,然后根据不同数量的考生统计试卷难度。以H61003、H61225卷为例,它们的相关信息见图1、2。 

 

图1
 
图2
 

这两张图的横轴为考生数量,以25名考生为一个单位,纵轴为试卷难度。数据显示,难度在0.04区间内稳定下来,H61003卷(实考3178人)需要考生数量达到325人,H61225卷(实考8235人)则须达到2500人;难度在0.02区间内稳定下来,H61003卷需要考生数量达到425人,H61225卷则须达到4800人。37套试卷的相关信息见表2、图3。

 
表2
HSK(六级)
实考人数
0.04标准
所需人数
0.02标准
所需人数
H61001
3431
1450
2750
H61002
950
775
875
H61003
3178
325
425
H61004
2770
175
850
H61005
2758
900
2050
H61006
2750
125
550
H61007
2714
625
1075
H61008
1049
725
825
H61009
4150
75
1775
H61110
3998
1050
1425
H61111
4107
1575
3525
H61112
5208
1250
3100
H61113
3185
450
1000
H61114
3735
1250
2625
H61115
2742
450
850
H61116
4886
2875
3750
H61117
7224
325
1925
H61218
5632
1800
3525
H61219
6169
2000
5550
H61220
5901
1275
3300
H61221
4412
450
2075
H61222
4211
1375
2625
H61223
3987
2725
3400
H61224
5075
3650
4525
H61225
8235
2500
4800
H61326
3368
800
1800
H61327
2058
1025
1625
H61328
4405
875
1750
H61329
5228
1850
3575
H61330
5538
125
2075
H61331
5021
250
1575
H61332
3509
1500
2950
H61333
2912
500
1725
H61334
4230
2925
3475
H61335
3428
1725
2700
H61336
2004
750
1425
H61337
6394
2125
4975
 
 
图3
 

将每套试卷的相关统计以非随机方式重复100次,其平均值与统计一次的结果只有细微差别。

以随机方式抽样统计,37套试卷0.04标准所需人数大部分在350人以下(只有一套试卷需要500人);0.02标准所需人数大部分在1000人以下(只有一套试卷需要1200人)。具体信息见图4。

图4
 

37套试卷中,有27套试卷的实考人数超过了3000。以这27套试卷为统计对象,每卷只取前3000人,统计结果见图5。

 
图5
 

37套试卷中,有11套试卷的实考人数超过了5000,以这11套试卷为统计对象,每卷只取前5000人,统计结果见图6。

 
图6
 

三、讨论

 

我们的出发点是,当收回多少考生的考试材料后,就可以预估本次考试的试卷难度?

首先,要以非随机方式抽取考生进行试卷难度预估,这样做与考试材料回收的实际情况更为一致。随机抽取考生的方式与实际不符,结果没有参考价值。

其次,要想预估试卷的难度,前提是试卷难度有一个确定值。但事实上,一套试卷的难度总是随考生数量的变化而变化的。例如,当考生数量达到一万时,试卷有一个难度,但再增加一部分考生后,试卷难度就又变了。由于我们无法预估新增考生的“样本构成”,因此,试卷的难度是不确定的。

第三,试卷难度由使用这套试卷的考生决定,随考生数量、考生样本的变化而变化。从图3可以看出,要预估一套试卷的难度,预估所需考生数量受到实考人数的影响,一般而言,实考人数越多,所需人数越大。从图5、图6可以看出,实考规模为5000人的预估所需人数明显大于实考规模为3000人的。

第四,预估所需考生数量取决于当次考试实考规模。图5数据显示,3000人规模的考试,0.02标准所需人数最高可达2750人,0.04标准所需人数最高也达2600人。图6数据显示,5000人规模的考试,0.02标准所需人数最高可达4575人,0.04标准所需人数最高也达4200人。表3数据显示,37套试卷,0.04标准所需人数占当次考试实考人数之比,从10%、20%、30%、40%、50%、60%、70%、80%到90%都有;0.02标准则从10%、20%、30%、40%、50%、60%、70%到80%都有。因此,对新HSK来说,以部分考生来预估试卷难度是有风险的,稳妥的做法是等考试材料全部收回后,再做数据处理。网络考试的考试数据收回是即时的,但只要同时举办纸笔考试,新HSK就宜等纸笔考试的考试材料全部收回后,再做数据处理。

第五,基于当次考试全体考生统计得来的试卷难度,也是一个估计值。它由这套试卷难度、当次考试全体考生水平共同决定。

第六,“平均分等值法”的实行有一个前提,即每次实考考生的数量与样本构成是相同的。很明显,这是一个强假设。但只有承认这个强假设,才能探讨试卷难度,等值才具有可操作性。

第七,本文的讨论仅限于新HSK,仅限于新HSK的实施现状,对于每次考试规模达上万、数万甚至数十万的情况,不具有参考价值。

 

参考文献:

1.张晋军,黄蕾,张铁英,符华均,黄贺臣,新汉语水平考试HSK(六级)平均分等值法实施方案,考试研究,2013-5

2.张晋军,解妮妮,符华均,新HSK词汇控制对试卷难度影响的研究,http://blog.sina.com.cn/s/blog_53e7c11d0101l6fb.html

3.张晋军,张慧君,张铁英,符华均,黄贺臣,新汉语水平考试HSK(六级)试卷难度控制研究,中国考试,2012-11

Copyright © Chinese Testing International 2013-2016  Beijing ICP No.16003362-1
It is suggested to visit the website through IE browser (above Version 6.0) or Firefox browser.
出版物经营许可证 新出发京零 字第西150040

京公网安备 11010202007018号