一分钟读懂词汇量测试|母语儿童的词汇量到底有多大? -pg电子游戏官网官方网站

2017
2021-6-15 13:57 原创 · 图片8

微信公众号 罗宾笔记

英文拥有的词汇数量是全世界语言中最多的。怎样知道自己到底拥有多少词汇量(姑且不讨论这样做的意义)?testyourvocab大概是目前知名度最高的在线英文词汇量测试网站,在启蒙阶段也常常被用来测试低龄孩子的听力词汇量。它到底准不准呢?

最近查阅了一些资料,写个与词汇量测算有关的汇总,希望可以一次把词汇量有关的问题梳理清楚。水平有限,如有疏漏错误敬请谅解。

1. 什么是主动/被动 (receptive/expressive)词汇量

2. 英文母语儿童的词汇量到底有多大

3. testyourvocab的使用及算法

4. 词汇量与阅读的关系

5. 其它词汇量测试网站横评 (下篇)

6. 适合二语儿童的词汇量估算方法(下篇)

统计词汇量最最精确的方法自然是……看着词表或字典一个个数以词汇量测算老大哥testyourvocab的词表为例,大概共有45000个单词,如果用穷举法显然会数到地老天荒。

还有一个办法:把单词平均分成若干组,例如100个词一组,然后每组里抽一个词出来测试,最终结果乘以450。这样做听起来就很不精确,随机性太高

所以目前流行的词汇量测算,究其核心原理其实是抽样调查,无非是采用单词表样本、分区段分组排序、加权系数等的区别。还要涉及到对最小单位的定义(譬如是单词word还是词族word family,前者显然数量更多)以及是否采用词频分组(更准确)。最终统计出的词汇数量主要取决于单词表总数、答题正确率和对应的区段组别系数。

在讲测算方法之前,必须先了解一下这个概念:什么是主动/被动 (receptive/expressive)词汇量。

1 什么是receptive/expressive词汇

active / expressive / productive vocabulary,即主动、可自主表达的词汇量,通常指能够在口语或写作中运用的词汇。


passive / receptive vocabulary,即被动、可接受的词汇量,指我们能听懂读懂的词汇。从应试角度来比方,就是在阅读和听力测试能够应付的部分。

被动词汇是可以往主动词汇转换的(通常光靠背单词书做不到这一点)。即便是母语人士,主动词汇的占比也一定是低于被动词汇,并且这个比例和受教育程度大致相关。受教育程度低的(总词汇量越低),相对来说主动词汇占比更高。

在词汇量统计中,想要统计主动词汇的难度更大、耗时更长,所以一般都是以被动词汇作为测试目标,即只要能读懂听懂就算,不考察运用。不过在我使用的十来个测试网站中,也确实有一些会考察理解运用,例如放在上下文中做填空选择题。测试目标不同,结果当然就会差别很大。

2 英文母语儿童的词汇量到底有多大?

testyourvocab大概是目前知名度最高的在线英文词汇量测试网站,在启蒙阶段也常常被用来测试低龄孩子的词汇量。它就采用了词频表分区段抽样的算法。testyourvocab于2013年发布的数据显示:

图片

average native test-takers of age 8 already know 10,000 words

8岁的英语母语测试者普遍能掌握10000个词汇

average native test-takers of age 4 already know 5,000 words

4岁的英语母语测试者词汇量普遍达到5000

让我们看看第90百分位的五岁孩子的词汇量,如上图,结果是在8396。也就是这个年龄的“牛娃”的词汇量已达到8k。中位数是6010,比较能代表平均水平。

当然,这份数据仅能代表在该testyourvocab网站参加过测试的儿童样本范围,并不能代表整个母语国家的基本情况。

而另一份发表于2015年的著作assessment in speech-language pathology: a resource manual显示,针对普通小孩(normal children):

4-5岁母语英文小孩的被动词汇不低于10,000 (has a receptive vocabulary of 10,000 or more words),6-7岁被动词汇量不低于20,000。

这显然和testyourvocab整理的数据是矛盾的,统计方法必然有很大区别。这也就引入了下一个话题:词汇量到底是如何统计的?词性变化、派生词算不算?人名地名算不算?词组和合成词算不算?

3 testyourvocab的使用及算法

老大哥testyourvocab年代久远,网站最后一次肉眼可见的更新是在2013年。它最大的优点是简单粗暴。不考察在具体语境下的词义,只需要知道一个义项就算掌握了。
 

3.1.  testyourvocab使用方法

操作极其简单,只需要两个测试步骤。

1. 勾选40个词中“自认为”认识的词。

2. 勾选120个词中“自认为”认识的词

3. 提交一些个人信息(也可以不填),例如学了多久英语,母语是什么,年龄等。

4. 查看测试结果

3.2. 词汇量计算方法

testyourvocab的做法是第一轮先取40个由易到难的词,粗略判定测试者的词汇水平范围。第二轮在这个预估范围内细分,根据词频由高到低抽取120个词进行测试。因此可以说第一组测试结果决定了你的词汇量数值的上限

按照官方的说法,计算方法是根据第二轮的120个词的测试结果,找到一个“中间词”,使得这个词之前词频你不认识的单词数量,等于这个词之后词频的你不认识的单词数量,再去找这个词在词频表中的位置编号,就是最终的词汇量结果。

说人话版本:

假如这120个词按照词频由高到低编号1-120,最终测试你有40个没有勾选(不认识),找到其中第20个(假设词频编号为53)和21个(假设词频编号为55),那么你的词汇量就是第54号单词在词频表中对应的编号。

当然实际计算过程比这个要再复杂一点点,结果并不是线性分布的。

3.3.语料库corpus

语料库指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。

testyourvocab这个网站是美国和巴西共建的项目,奇怪的是它使用的语料库,还是 british national corpus (英国国家语料库),可能是因为年代关系没使用anc和coca这些美国语料库。

图片

bnc语料库来源广泛,其中书面(90%)与口语(10%)为样本,共收录了一亿词!

3.4.词表和词频

根据语料库的词,去匹配一本英式英语词典的词,找出两者交集词表,再去除单词的常规曲折变化(例如单复数,过去式等)、词性变化、派生词合成词等,最终筛选出45000个词。词典本身包含70000词,但大约只有45000出现在bnc一亿词的语料库中,其它的都是些科技术语、古旧词等。

这45000个词按照词频由高到低排列,也就是一个词频表。所谓词频,就是某个单词出现的频率高低。比如bnc语料库中出现频率最高的四个词是:

1. the

2. and

3. i

4. to

3.5.词表筛选规则:

a. 派生词(derivative)

比较好理解的是jump/jumped这样的规则动词变化算一个词。give/gave,不规则变化,算两个词。那么derive/derived这种动词/形容词,quick/quickly形容词/副词变化呢?evict/eviction动词/名次,还有各种re,un的前缀呢happy/unhappy等等。

b. 专有名词(proper nouns),

france这样的地名竟然不算,但是french算,因为指一种人,而不是france常规的派生词。november这样特殊的,算。

难点在于air conditioner这样两个名词组成的新事物。同理fork out(挥霍)、 food for thought(引人深思的想法)呢?

c. 至高准则

构词法太复杂了。于是网站遵循了一个至高准则:在字典里拥有独立词条的就可以算。air conditioner有自己的独立词条,所以算。unhappy有独立词条,quickly在quick词条下,fork out在fork词条下,因此都不算。换句话说,是以字典编目为准统计词条数。

3.6. 释义

很多英文单词有多个义项,同一个释义还有不同的用法,怎么样才算掌握?想太多就复杂了,网站决定只要知道其中一个释义,就可以被统计为词汇量

3.7. 误差范围

官方说有10%的误差,也就是说如果测量结果为20000,那么实际范围应该在18000-22000之间。这是由第二组测试词汇的数量决定的。如果要把误差缩小到5%,则需要在第二轮测试380个单词

4 词汇量与阅读的关系

我们先来看一下母语学习者的词汇水平

most adult native test-takers range from 20,000–35,000 words

大多数成年英语为母语的测试者的词汇量在20000到35000个之间。

进一步观察数据可以发现,到了50岁,10百分位词汇量20,000 ,中位数30,000 ,90百分位40,000。也就是说top10%的50岁人群的词汇量超过四万。

adult native test-takers learn almost 1 new word a day until middle age

成年测试者差不多每天学一个新词,直到中年。

adult test-taker vocabulary growth basically stops at middle age

到中年后,成年测试者的词汇量基本就停止增长了

(网站上并没有明确写“中年”的范围,推测应该是以50岁为分界点。)

 词汇量与阅读的关系

这是从28万份数据中统计出的结果,显示了阅读量、小说比例、以及年龄与词汇量的关系。大致可以得出以下结论:

for native vocabulary growth, reading fiction specifically is just as important as reading in general

对于母语词汇量的增长,多读小说和多读一样重要。小说的词汇范围更广,更有益于词汇量的增加(个人对此的理解是不用执着于只读non fiction)。

native adult vocabulary size appears to be principally determined by reading habits between ages 4 and 15

母语成年人的词汇量似乎主要由4-15岁时的阅读习惯决定。

如同图表中体现的,同样的阅读习惯,在15岁和50岁带来的词汇量的差距,几乎保持不变(最上面五根线的间距一直窄幅变化)。

native test-taker children who read "lots" learn 4.1 new words a day

阅读量“大”的母语儿童测试者每天学4.1个新词  (此处children应该指的是4-15岁)

native test-taker children who read "somewhat" learn 2.6 new words a day

阅读量“有一些”的母语儿童测试者每天学2.6个新词

native test-taker children who read "not much" learn 1.4 new words a day

阅读量“没多少”的 母语儿童测试者每天学1.4个新词

划重点:一定要重视早期阅读!

====================================

下一篇:词汇测试横评 和 适合二语儿童的词汇量估算方法

写在后面:本文首发于我的公众号 罗宾笔记。不定期更新日常鸡娃笔记,少儿英语启蒙与资源干货,剑桥系备考辅导,以及wonders原版教材教学方面的分享等。


赞21
收藏81

推荐阅读

6岁
日志
13岁
日志
6岁
日志
7岁
日志
4岁
日志
罗宾笔记
罗宾笔记
2017
作者热门日志
 赞32 · 收藏90 · 评论18
 赞22 · 收藏104 · 评论12
 赞20 · 收藏99 · 评论17
 赞23 · 收藏44 · 评论6
 赞22 · 收藏30 · 评论15
网站地图