当前位置: 模型材料 >> 模型材料发展 >> 观察丨让每个人读适合自己的书我国儿童分
北京大学计算机学院副教授吴云芳近日收到了一位中医药临床研究者的邮件。
中医药研究者为何会与计算机学者讨论阅读的问题?原来这缘于儿童分级阅读文本难度测评系统日前亮相。该系统由吴云芳团队与人民教育出版社历时4年合作开发,可用于考试阅读试题文本难度、少儿阅读童书难度的自动测评,为不同水平的孩子定向推荐文本阅读内容,让儿童阅读更精准、更科学化。
对方在信中求教:儿童读物能够分级,其他领域的读物是否也能分级,比如让不同水平的病人都能读懂治疗说明?
收到邮件,一丝喜悦在吴云芳的心中蔓延。“在全民阅读时代,分级阅读的需求越来越大。我们希望自己的研究让阅读更加科学化,让所有人的阅读之路走得更顺畅。”
一项源于困惑的研究
书籍是人类进步的阶梯。分级阅读,就是按照儿童不同年龄段的智力和心理发育程度,为儿童提供适合其阅读水平的书籍。这一概念产生于对少年儿童生理和心理特征的科学分析。在国外,分级阅读已经有了多年的研究,比如广为人知的“蓝思(Lexile)”“RAZ(ReadingA-Z)”都已经是比较成熟的分级阅读体系。然而,在我国这项研究却依然处于起步阶段。年,国务院发布《中国儿童发展纲要(-)》,其中明确提出,要推广面向儿童的图书分级制,为不同年龄儿童提供适合其年龄特点的图书,为儿童家长选择图书提供建议和指导。这为我国儿童分级阅读的研究与出版工作提供了政策指导。人教社编审王林是最早 推动儿童分级阅读,王林很早就开始了探索。年,在接力出版社等单位的支持下,他参与举办了首届“中国儿童分级阅读研讨会”,邀请了教育、文学、出版等各个领域的专家齐聚一堂。论坛让他对国内儿童分级阅读的现状有了更清晰的认识。“甚至关于儿童阅读究竟要不要分级还存在着很多不同的声音,比如有的专家否定分级阅读,认为分级阅读并不重要,‘我6岁不就读红楼梦了嘛’。”而且,持类似观点的人并不在少数。但王林坚持分级阅读的必要性,他认为,一切从儿童出发,一切从实际出发,是分级阅读的出发点与归宿。“有了分级阅读这个梯子,孩子们在爱阅读和会阅读方面会做得更好。”论坛只办了两届,便没了后续。王林坦言,论坛之所以没有继续办下去,是因为他意识到,阅读分级是一项复杂工程,涉及语言学、心理学、教育学、儿童文学等多个学科;而关于儿童分级阅读,国内连基础的儿童语料库、儿童常用字库都很缺乏。“只是阅读专家们坐在一起探讨,这个问题就有点儿谈不清楚。” 彼时,市场上打着“分级阅读”的出版物已不断涌现。但真要较真儿问问,分级背后的依据是什么,出版社也说不出个所以然。“大部分的分级标准我都看过,很多都是商业化的抢注。说实话,这样的标准,仍然缺乏科学性。”偶尔会有相熟的出版社跟王林交个实底:所谓的“分级”,依靠的依然是专家经验。 而王林一直觉得,单纯靠人做分级的界定,是靠不住的;阅读分级要靠数据,靠研究。“经验固然很重要,但是如果没有技术的辅助,只是从经验到经验,还是不够可靠。分级阅读的本质应该是阅读科学化。” 吴云芳与王林是多年的好友,也曾经为如何帮孩子选书而焦虑。面对同样的困惑,两人一拍即合——年,人教社与北京大学计算机科学技术系(现为计算机学院)正式启动了儿童分级阅读项目研究,旨在建立中国人自己的儿童分级阅读标准和理论,为孩子们提供最适合的阅读材料,为儿童阅读的科学化、精准化提供文本难度分级和阅读指导。构建儿童分级阅读语料库
“这是一块儿硬骨头,很难啃,因为我们很多基础研究有薄弱环节。”王林反复提到的薄弱环节之一就是儿童分级语料库的匮乏。 吴云芳解释,所有的人工智能系统几乎都可以抽象为“数据+模型”的组合,其中数据是基础;对于分级阅读研究的项目来说,数据就是标注了阅读难度的文本语料。“我们的目的是想让计算机来自动告诉读者,这篇文章的难度是几级,适合哪个能力层次的阅读者;在这之前,机器是需要学习的。如何学习?已经标注好的语料是它学习的素材。” 儿童阅读涉及的语料无非是下面几类:学校教材、儿童图书和中小学课外辅助读物,这也成了构建分级语料库的主要来源。在学校教材语料库部分,项目组搜集了国内外不同出版社的中小学语文教材文本;各种途径获取的中小学课外辅助读物也被纳入其中,成为语料库重要的补充;同时,项目组还搜集整理了几千本经典儿童阅读书籍,并为每本图书赋予了一个等级标签。 这是个耗时费力的过程。大部分数据不是现成的,团队要先把能找到的图片材料转化为计算机可识别的文本数据,再进行细致的人工校对。 最终,一个几千万字的语料库构建完成,计算机就此有了丰富的“学习教材”。而整个项目的另一大重头戏——如何让机器学会为篇章难度分级,成了团队接下来的重点任务。 “开始的时候我们按传统的方法来做,从篇章中寻找一些直观的语言学特征。比如,一篇文章的字笔画少、高频词出现得多,这篇文章就容易阅读。”吴云芳说,这种基于句子的长度、词语的难度等各种因素拟合出一个难度公式的方法,是一种传统的统计模型,在早期的英语分级阅读研究中应用特别广泛。然而,团队也意识到,与英文相比,中文有自己独特的语言特色和篇章特征,直接照搬英文特征是不可行的。于是,在挖掘这些浅层特征的基础上,团队又挖掘了中文篇章中的深层特征。应用挖掘到的语言特征,采用传统的机器学习模型,团队在人教版和北师大版教材语料中进行了训练和测试。遗憾的是,结果并不尽如人意:一、二年级的篇章由于比较简单,难度特征容易把握,其分级的正确率也比较高,可达到80%左右;而三、四、五年级正确率非常低,综合正确率只有52.77%。 中文难度分级远比想象的要困难得多。更为先进的神经网络模型会不会提供更好的思路呢? 受挫后团队并没有放弃。吴云芳解释,神经网络模型是人工智能研究领域的“新宠”,与传统的机器学习模型相比,该模型不需要人工设计复杂繁琐的语言特征,而是可以直接高效抽取各种特征,具有强大的学习能力,在自然语言处理的各项任务中都取得了骄人成绩。然而,这样的深度机器学习方法在分级阅读领域探究甚少。研究生李文彪年9月加入吴云芳团队,参与了分级阅读神经网络模型的构建。这是一个反复比较、不断修正的过程。他介绍,模型构建时,很多因素都要考虑在内,句子的长短、相同汉字不同的组合方式等都会影响分级系统的准确率。“比如,‘牛’和‘奶’在词语中出现的先后时序不同,会导致词语含义的变化。我们在建模时,利用了循环神经网络捕捉文本所含的时序信息,确保文章分级系统的准确度。”此外,不同年级之间的篇章难度并非完全互斥,这就需要在建模时对数据进行平滑处理。 76.6%!测试结果出来,团队为之一振。这是国内已知同类研究中最好的水平。让每个人读适合自己的书
一个儿童要认识多少词汇才能满足基本阅读需求?答案是个左右。 依托分级阅读语料库,项目组研制了义务教育阶段分级词表。“词表的研制是基于这样一个初衷,我们想搞清楚,孩子们在开始学习词汇的时候,应该先学哪些词汇后学哪些词汇。”吴云芳说,通常来说,一个词语出现的频率越高,说明词语的使用度越高,也意味着学习的优先级越高;科学化的统计,让孩子们在词汇学习时不再单纯依靠经验。 早在上世纪30年代,叶圣陶先生就指出了词汇量化的重要意义:“如果把目前通行的书报作为依据,统计其中每个词的出现次数,把得票最多的若干词组织在课本里头,我想,读了这课本的人固然不能够就去阅读《五经》或者《史》《汉》,但是看看《申报周刊》,或者《现代十国论》,该不会有‘面熟陌生’的憾事了。” “但是有一个问题,之前在哪些年级的教材中出现哪些词汇,很大一部分是来自专家的建议;所以教材语料库不能作为我们这项研究的唯一基础。”为此,在研制词表时,项目组还吸纳了大规模网页语料中的部分高频词语。他们发现,网页语料对教材语料起到了很好的补充作用。“网页语料的词频表与教材语料词频表的相关度是很低的。出现频率最多的前个词语中,两个词表中大约只有三分之一的词是相同的。我们希望网页词汇能补充进一些日常生活中出现的高频使用词语。”吴云芳举例,“手机”“超市”这类在网页语料中出现频率极高的词语在教材文本中鲜有出现,而项目组几乎没有争议地认为,这样的词语应该进入孩子们的分级词表。 统计发现,到的词汇量,基本可以覆盖教材文本词汇总量的90%、童书语料的86%、网页语料的87%。“一个孩子在阅读的时候可能不需要每个词每个字都认识就可以读懂其中内容了,所以我们粗略框定了个词进入分级词表。” 那么,这个词汇究竟要如何选定?项目组开始了精挑细选。 首先,参考前人的研究成果,项目组将分级词表分为7级,其中1级至6级分别对应小学1至6年级,7级对应初中阶段;并大致确定了每一级词表的数目,比如将一级词数确定为,二级词数确定为。多次尝试后,项目组将每级词语的选用量按照“教材童书词语与网页词语9∶1的比例进行分配,也就是说在一级词表的个词语中,60个词语来自网页词频表,个词语来自教材与童书构建的词频表。 这仅仅是起步阶段。项目组还设置了道道“关卡”:《现代汉语词典》把住第一道大关。“这一步主要是挑出不是词语的分词片段,比如,计算机会把‘几分之一’的‘分之’识别成一个词语,这显然是不对的。”下一轮的筛选则以语法规则为标尺,比如将“走过”“想起”这类组合性、类推性很强的词语删除。网络高频词要请语言学专家谨慎把关。为确保权威和全面,项目组还将多轮筛选后的词表与教育部制定的《语文课程标准》进行对标和调整。最终,个词语被收录到分级词表中,为学生阶梯式地自主阅读提供参考。 以该词表为基础,一套由人教社主编的《儿童分级阅读书系》也逐渐成形。该书系共分10级,目前1至3级共24本已经亮相,剩下的7级图书正在紧锣密鼓编制中。“借助项目研究的高频词汇,我们希望为3到6岁儿童量身定制科学的分级读物。”人教社少儿读物编辑室副主任王迎兰介绍,在科学性的基础上,编辑们还将图书指向儿童健康、语言、社会、科学、艺术五大领域素养的提高。依托分级阅读项目研究成果,人教社主编的《儿童分级阅读书系》 以这些坚实的研究为基础,项目组开发部署了分级阅读系统网站。点击