对第二语言考试分数解释问题的比较研究
[source]  汉考国际                [ Date of issue]  2013-12-26 00:00:00.0

参加一项第二语言考试,考生一般都会得到一份成绩报告,其中包括听力、阅读、书写、口语分数及一个总分。要正确理解这些分数的意义,需要先了解考试的分数解释体系。不同的考试提供了不同的分数解释体系,要比较研究第二语言考试的分数解释体系,我们可以先看看几个知名的第二语言考试是怎么做的。

一、托福(TOEFL)的分数解释体系

托福只有一个考试,分阅读、听力、口语、写作4个分测验,阅读含36-56个试题,听力含34-51个试题,口语含6个试题,写作含两个试题。分测验满分均为30,总分为120。托福的成绩报告上提供了考生的4个分测验分数及总分。怎样解释这些分数?

首先,托福根据分测验成绩的高下,将每个分测验分为三至4个等级,但未对总分做等级划分,具体信息见表1。 

表1 
 
水平等级
阅读(0-30)
High(高级,22-30分)
Intermediate(中级,15-21分)
Low(低级,0-14分)
听力(0-30)
High(高级,22-30分)
Intermediate(中级,15-21分)
Low(低级,0-14分)
口语(0-30)
Good(良好,26-30分)
Fair(一般,18-25分)
Limited(有限,10-17分)
Weak(差,0-9分)
写作(0-30)
Good(良好,24-30分)
Fair(一般,17-23分)
Limited(有限,1-16分)
总分(0-120)
 

 

其次,托福针对每个分测验的各个等级提供了相应的“能力描述”(Your Performance)。例如,阅读High(高级,22-30 分)的能力描述为:

具有很高的阅读理解能力,能够读懂很难的英文学术类文章。通常:

• 掌握大量学术词汇,熟悉语法结构;

• 能够理解复杂的文章,根据上下文做出恰当推理、综合判断;

• 能够把握复杂文章的篇章结构及某些特定信息在全篇中的作用;

• 能够提炼复杂文章的主要观点。

另外,托福还将口语每个等级的能力描述细分为三类(熟悉的话题、校园环境、学术课程);将写作每个等级的能力描述细分为两类(基于读与听的写作、基于知识与经验的写作)。

托福明确规定:“不设通过或未通过分数;各高等教育机构及组织自行设定分数要求。”

二、托业(TOEIC的分数解释体系

托业分听力阅读、口语写作两个独立的考试。前者分听力、阅读两个分测验,各100个试题。分测验分数区间为5-495分,全卷分数区间为10-990分。后者分口语、写作两个分测验,口语含11个试题,写作含8个试题。分测验分数区间为0-200分,全卷分数区间为0-400分。

为解释这些分数,托业将4个分测验的成绩分成三至9个等级,具体信息见表2。

表2 
 
听力
阅读
口语
写作
1
200左右
150左右
0-30
0-30
2
300左右
250左右
40-50
40
3
400左右
350左右
60-70
50-60
4
 
450左右
80-100
70-80
5
 
 
110-120
90-100
6
 
 
130-150
110-130
7
 
 
160-180
140-160
8
 
 
190-200
170-190
9
 
 
 
200

 

托业也为各分测验的不同等级提供了相应的能力描述。例如,口语5级(110-120)的能力描述为:

在表达观点或应对复杂提问时水平有限。他们的应对通常有如下问题:

• 用语不准确、模糊或重复;

• 很少或根本没有在意谈话对象的反应;

• 频繁停顿,有长时间的停顿;

• 缺乏条理,表达观点的能力有限;

• 词汇量有限。

大多时候能回答问题并给出基本信息。但是有时候他们的回答让人难以理解。

听他们朗读时,可以理解朗读的内容。然而他们在自己组织话语时,发音、语调和重音问题很多。

此外,托业在听力、阅读各等级的能力描述中,不仅提供了“能做”什么的描述,还提供了“不能做”什么的描述;在听力成绩栏,用图例的形式提供了考生在完成4类试题时的答对比例;在阅读成绩栏,用图例的形式提供了考生在完成5类试题时的答对比例;在口语成绩栏,提供了对考生发音和语调、重音的评价。

与托福一样,托业也未对总分做等级区分;也明确规定:“托业考试没有设置通过线,没有及格与不及格之分……考生究竟要达到什么分数才算合格,完全取决于他/她期望供职机构的职位要求。”

三、雅思(IELTS的分数解释体系

雅思(学术)只有一个考试,分听力、阅读、写作、口语4个分测验,听力、阅读各40个试题,写作含两个试题,口语则采用面试形式。雅思的“考试成绩记录在成绩单上,包括一个总分,及听力、阅读、写作和口语4个单项分,考生的考试成绩采用1-9分的评分制来测评,4个项目独立记分,最后所得成绩取4项成绩的平均值。总分和4个单项分均允许半分。”

雅思为每个分数提供了对应的能力描述。例如,7分(良好水平):能有效运用英语,虽然偶尔出现不准确、不适当和误解。大致可将复杂的英语掌握得不错,也能理解详细的推理。4分(有限水平):只限在熟悉的状况下有基本的理解力,在理解与表达上常发生问题,无法使用复杂英语。

需要说明的是,这9个能力描述对听力、阅读、写作、口语及总分是通用的,这明显不同于托福、托业。另外,雅思也未设合格线。

四、大学英语四、六级考试(CET的分数解释体系

大学英语四、六级考试分三个考试:四级笔试(CET-4)、六级笔试(CET-6)和四、六级口试(CET-SET)。两个笔试都分写作、听力、阅读、翻译4个分测验,写作含一个试题,听力含35个试题,阅读含30个试题,翻译含一个试题。四、六级笔试成绩报告上提供听力、阅读、翻译和写作(翻译和写作合为一个分数)三个单项分和总分。总分均为710,总分为分测验分数之和,但分测验的满分却不相同,大致是听力249、阅读249、翻译和写作212。它体现了四、六级笔试合成总分的特殊考虑,即总分中,听力占35%、阅读占35%、翻译和写作占30%。四、六级口试采用面试形式。总分为 15 分,根据分数高低分为A、B、C、D4个等级。大学英语四、六级考试不设及格线。

为解释四、六级笔试分数,考试设计者建立了两个常模,四级的常模群体选自全国16所高校的约三万名非英语专业的考生;六级常模群体选自全国5所重点大学的约5000名非英语专业的考生。这样,每个考生的分数在常模群体中就有了一个相应的百分位位置。例如,某考生四级总分为450,“其在常模群体中的相应百分位是25%,表示这名考生的英语成绩优于常模群体中25%的人,但劣于75%的人。”又如,某考生四级听力分数为140,“其在常模群体中的相应百分位在12%,表示这名考生的听力成绩优于常模群体中12%的人。”

四、六级口试则未建立常模,只为A、B、C、D4个等级提供了4个能力描述,具体信息见表3。   
表3 
等级
分数
能力描述
A+
14.5-15
能用英语就熟悉的题材进行口头交际,基本上没有困难。
A
13.5-14.4
B+
12.5-13.4
能用英语就熟悉的题材进行口头交际,虽有些困难,但不影响交际。
B
11-12.4
C+
9.5-10.9分
能用英语就熟悉的题材进行简单的口头交际。
C
8-9.4
D
7.9 以下
尚不具有英语口头交际能力。
 
 

五、新汉语水平考试(HSK)的分数解释体系

 

新HSK分9个考试,笔试和口试相互独立,笔试分6个考试,口试分三个考试。新HSK各等级试题数量不等,具体信息见表4。 

表4 
新HSK
听力
阅读
书写
口语
总计
笔试
HSK(一级)
20
20
/
40
HSK(二级)
35
25
/
60
HSK(三级)
40
30
10
/
80
HSK(四级)
45
40
15
/
100
HSK(五级)
45
45
10
/
100
HSK(六级)
50
50
1
/
101
口试
HSK(初级)
/
27
27
HSK(中级)
/
14
14
HSK(高级)
/
6
6
 

新HSK各等级的分测验满分都是100,总分则因分测验数量不同而各不相同,具体信息见表5。 

表5 
新HSK
听力
阅读
书写
口语
总分
笔试
HSK(一级)
100
100
/
200
HSK(二级)
100
100
/
200
HSK(三级)
100
100
100
/
300
HSK(四级)
100
100
100
/
300
HSK(五级)
100
100
100
/
300
HSK(六级)
100
100
100
/
300
口试
HSK(初级)
/
100
100
HSK(中级)
/
100
100
HSK(高级)
/
100
100

 

为解释这些分数,新HSK为每个等级提供了一个能力描述。例如,HSK(五级):能阅读汉语报刊杂志,欣赏汉语影视节目,用汉语做较为完整的演讲。又如,HSK(中级):可以听懂并用汉语较为流利地与汉语为母语者进行交流。此外,新HSK还为笔试各等级建立了常模,为考生的分数提供了常模参照;新HSK口试则尚未提供常模参照。

同雅思一样,新HSK的能力描述通用于分测验分数及总分。假设某考生HSK(五级)的成绩为:听力89、阅读76、书写71、总分236。其标准参照解释为:该考生听力、阅读、书写、总分水平分别达到了HSK(五级)能力标准的89%、76%、71%、79%;其常模参照解释则为:在HSK(五级)常模样组中,该考生听力、阅读、书写、总分水平分别高于80%、70%、70%、77%的考生(可从百分等级对照表中查找相关信息)。

新HSK于2009年推出,笔试一至二级设总分120为合格线;笔试三至六级设总分180为合格线;口试三个等级设60为合格线。2013年2月起,新HSK取消了五级、六级的合格线。

六、关于标准参照和常模参照

通过比较可以看出,托福、托业、雅思、四、六级口试和新HSK口试提供了标准参照;四、六级笔试提供了常模参照;新HSK笔试则同时提供了标准参照和常模参照。

其实,四、六级笔试也可以提供标准参照解释,因为大学英语四级考试参照《大学英语课程教学要求》中规定的“一般要求”而设计,六级参照《教学要求》中规定的“较高要求”而设计,这“两个要求”就是大学英语四、六级考试的能力标准。四、六级考试自称“是标准相关——常模参照的标准化考试”,“标准相关体现在:1)试卷各部分的设计和命题参照《教学要求》规定的技能和标准;2)写作和翻译部分的阅卷依据评分原则和标准。”反倒有生造概念、扰乱视听之嫌。因为,无论《教学要求》规定的技能和标准,还是写作和翻译部分的评分标准,以及口试的能力描述,都基于“两个要求”而来。其分数完全可以以此为依据提供标准参照解释,而非定性为所谓的“标准相关”,进而不为笔试成绩提供标准参照解释。

提供标准参照,是拿考生已掌握的知识和技能与规定的“知识和技能标准”做比较,告诉考生所达到的水平;提供常模参照,则是拿考生与常模样组中的其他人做比较,告诉考生所处的位置。笔者认为,一项大规模的第二语言考试应该同时提供标准参照和常模参照,为考试用户提供更为丰富的分数解释信息。

七、关于单标准参照和多标准参照

比较新HSK与托福、托业、雅思、四、六级口试,可以发现,虽然它们都提供了标准参照,却又不尽相同。以HSK(六级)为例,考生参加HSK(六级),只面对一个能力标准:“能用汉语自如地进行各种社会交际活动,汉语应用水平接近汉语为母语者。”对考生分数的解释,是达到了这一能力标准的百分比。而其它考试不同于此,考生参加这些考试,面对多个能力描述。解释考生成绩的方法是,依据考生的成绩,找到对应的能力描述,获得解释。

新HSK模式可称为“单标准参照模式”,其它考试模式可称为“多标准参照模式”。笔者以为,首先,与多标准参照模式比起来,单标准参照模式更容易操作,也更容易理解。其次,多标准参照模式中,那些能力描述在代表性、典型性、全面性、准确性方面总是值得商榷的,总是见仁见智的。在这里,概括的、一般的描述远比细致入微的描述更客观、更少争议。除了托业的听力和阅读分测验各含100个试题外,其它考试的分测验题量都没超过50个试题。通过考生在50个试题上的作答表现来间接推测考生的能力,对该能力的描述,不是无限度的。过分追求细致入微的能力描述,可能只是研发人员的一厢情愿,可信度不一定高。第三,众多能力描述的价值究竟有多大?以托福为例,各分测验满分为30,总分为120。考试用户看到成绩报告上的5个分数,已经对考生的水平有了一个直观的印象。根据托福设定的分数区间,对考生各项技能究竟是高级还是中级,是良好还是一般,可以有更清晰的判断。至于达到阅读中级水平能做什么、不能做什么,并没有太大意义。第四,一分之差,分属两个等级,不合理。仍以托福为例,听力考21分就是中级,22分就是高级,并没什么道理可讲,在这种情况下,那些能力描述就更显得缺乏根基了。

八、关于精度标准参照和跨度标准参照

仍以HSK(六级)为例,HSK(六级)面向特定考生群体,即汉语水平很高的考生群体,是精度考试。正确完成HSK(六级)全部交际任务(答对全部试题),就是HSK(六级)的能力标准,这是个很高的能力标准。HSK(六级)的分数参照这一能力标准进行解释,属于精度标准参照解释。

雅思主要满足欧美高校招生需求,它也面向英语水平很高的考生群体,也是精度考试。但是,难度很高的雅思在做分数解释时,却从“最多能说出个别单词,根本无法用英语沟通”,到“具有完全的英语运用能力,做到适当、精确、流利并能完全理解语言”,涵盖了从“不懂英语”到“专家水平”的所有英语学习者,则属于跨度标准参照了。这在逻辑上是有问题的。就像高中会考是高中的毕业考试,它是精度考试,给出的能力描述是优秀、良好、及格、不及格水平,是参照高中毕业水平而来的,是精度标准参照。如果它给出的能力描述是:高三、高二、高一、初三、初二、初一、小六、小三、小一水平等,那就是跨度标准参照了。

孰为精度孰为跨度,是相对的。为精度考试配精度标准参照,自然而然,为精度考试配跨度标准参照,则明显不合理。

九、关于分测验间的关系

第二语言考试多含若干分测验。上述考试中,托福分测验满分均为30,雅思均为9、新HSK均为100。托业和英语四、六级则不然,托业听力、阅读满分均为495,口语、写作满分均为200;四、六级听力、阅读满分均为249,翻译和写作满分为212,口语满分为15。

一项第二语言考试,其主要功能是刻画、描述考生的语言能力。笔者认为,首先,为方便了解,方便横向比较,4项技能的刻画尺度自然以统一为宜。其次,考试用户可以通过这些分数,直观地了解考生哪项技能强,哪项技能弱。考试设计者没必要主观地厚此薄彼,为不同的分测验分数设置不同的权重。因此,总分就以4个分测验分数简单相加之和为宜。

十、关于合格线和分界线

取消分数合格线,应该说已经成为共识。与合格线近似的一个概念是分界线,例如,托福规定听力22-30分为高级,15-21分为中级,0-14分为低级。这里的14、15、21、22分等都是分界线。首先,托福将听力30分分为高级、中级、低级三个等级,与经验判断相差无几,得高分者高级,得中等分数者中级,得低分者低级,一眼即可判断,这样的设计可有可无。其次,如前所述,14和15因为一分之差,就分处两个等级;0和14相差14分,却同处一级,这不合理。第三,分界线设得越多,一分之差分处两级的现象就越多。而“单标准参照”的“完成能力标准的百分比”的分数解释体系则不存在这些问题。

 
参考文献:

1.谢小庆,HSK的分数解释问题,《考试研究文集》第3辑,经济科学出版社,2006年

2.张晋军,新HSK为什么要取消合格线,http://blog.sina.com.cn/s/blog_53e7c11d0101knwg.html

3.张泉慧,张晋军,符华均,新HSK分数是怎样处理的,http://blog.sina.com.cn/s/blog_53e7c11d0101kro7.html

Copyright © Chinese Testing International 2013-2016  Beijing ICP No.16003362-1
It is suggested to visit the website through IE browser (above Version 6.0) or Firefox browser.
出版物经营许可证 新出发京零 字第西150040

京公网安备 11010202007018号