首页 >> 语言学
汉语文本可读性特征体系构建和效度验证
2020年05月28日 15:59 来源:《世界汉语教学》2020年第1期 作者:吴思远 于东 江新 字号

内容摘要:

关键词:

作者简介:

  摘    要:本文研究如何利用汉语文本的语言特征对文本的可读性进行分析。首先从汉字、词汇、句法和篇章四个层面出发, 构建了一个预测汉语文本可读性的多层面、多维度特征体系, 该特征体系包含13个维度共104项指标。然后以12个年级的语文教材语料库为基础, 通过建立机器学习模型考察不同层面、不同维度语言特征的预测能力。实验结果显示:汉字、词汇、句法和篇章四个层面中, 基于词汇层面特征的模型准确率最高, 基于篇章层面特征的模型准确率最低;13个维度中, 预测准确率最高的前5个维度依次为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度和词汇熟悉度。我们还发现, 四个层面语言特征对低难度文本的预测能力均最强。

  关键词:汉语文本可读性;语言特征;机器学习;效度验证

  作者简介: 吴思远, 北京语言大学汉语国际教育研究院硕士生;于东, 博士, 北京语言大学信息科学学院副教授;江新, 博士, 北京语言大学汉语国际教育研究院教授, 博士生导师。

  基金: 国家社科基金重大项目 (项目批准号17ZDA305);教育部人文社会科学研究青年基金项目 (19YJCZH230);北京语言大学一流学科团队支持计划 (GF201906) 的支持。

  一 引言

  阅读是学习的重要途径和手段, 也是语言学习的核心和重点。为了提高阅读教学的效果, 教师需要为学生选择难度适当的阅读材料。但是, 从海量的文本中对阅读材料进行人工的选择和难度评定是一件费时费力的工作;同时, 人工的难度评定具有较强的主观性, 评定的标准和结果容易产生分歧。因此, 研究如何对文本的难度即可读性 (readability) 进行自动化的量化分析并给出综合的评定结果, 具有重要的应用价值。

  英文可读性研究起步较早, 在可读性预测特征的选择、分析和效度验证上成果颇丰。已有研究表明, 不同层面特征对文本可读性的预测能力不同, 而且表层语言特征如句长、词长、词频可以有效地预测英文文本的可读性。经典的可读性公式Flesch-Kincaid公式?(Kincaid et al., 1975) 以词长和句长作为自变量, 通过建立多元线性回归公式来评估文本难度。该公式是美国国防部评估官方文件可读性的标准, 同时也是各大文档处理软件 (如微软Office Word) 评估文本难度的主要依据 (Broda et al., 2014) 。使用范围遍布美国50个州的蓝思 (Lexile) 阅读评测体系主要使用句长和词频两个特征来衡量读物的阅读难度 (Stenner, 1996) 。近年来, 不少研究者使用机器学习模型, 纳入更多维度的特征 (如句法和篇章特征) 来预测文本可读性 (参见吴思远等, 2018) 。在句法层面上, 母语和二语文本的对比实验发现, 词汇特征的预测能力高于句法特征, 但是句法特征在评估二语文本的可读性时表现出比评估母语文本更强的预测能力 (Heilman et al.,2007;Vajjala&Meurers, 2012) 。在篇章层面上, 衔接程度影响文本的阅读难度。英语文本自动分析工具Coh-Metrix对文本的104个指标进行自动量化, 这些指标不仅包括词长、句长等表层特征, 也包括与篇章理解有关的深层特征, 如概念密度、篇章衔接程度等?(Graesser et al., 2011、2014) 。篇章特征在英语可读性预测上的效度也得到不少研究的支持 (如Pitler&Nenkova, 2008;Feng et al., 2010) 。

  研究还发现, 与使用单一层面的特征相比, 使用不同层面特征的组合会提升模型的性能。在德语文本可读性预测中, 基于所有特征的模型预测准确率最高, 达89.7%(Hancke et al., 2012) 。Piln et al.(2016)发现,与使用单一的词汇特征相比,使用多层面特征预测瑞典语句子可读性时, 模型准确率提升了7%。多项研究成果表明,基于机器学习的建模方法在低年级、短文本的可读性评估中显示出了良好的性能, 在高难度文本上还有提升空间(Schwarm&Ostendorf, 2005;Piln et al., 2016)。

  汉语文本可读性研究可以追溯到20世纪70年代。Yang(1970)使用字、词、句三个层面的39个指标对85篇汉语文本进行量化分析, 以最相关的三个指标(难词比、完整句子数和平均笔画数)为自变量, 以高中生的阅读理解成绩为因变量, 构建了可读性公式。此后, 汉语可读性研究多以构建面向特定人群的可读性公式为主, 如以初中二年级学生为研究对象的可读性公式 (孙汉银, 1992),以汉语二语学习者为研究对象的汉语二语可读性公式(王蕾, 2005、2017;左虹、朱勇, 2014)等。

  近年来, 机器学习方法逐渐被应用于汉语文本可读性研究。孙刚(2015)使用表层、词性、句法树和信息熵四个层面的76个指标进行汉语文本可读性预测。该研究以1~6年级语文教材为基础建立线性回归模型, 并讨论特征选择和特征组合在模型构建中的作用。研究发现, 单独使用四类特征时, 表层特征的预测能力最好, 但多层面特征的组合可以达到最高的准确率。Sung et al.(2015)选取词汇、语义、句法和篇章衔接四大类共24个指标建立可读性预测模型, 并使用判别分析模型 (Discriminant Analysis, DA) 与支持向量机(Support Vector Machine, SVM)两个模型, 分别对比了单一层面特征与多层面特征在文本可读性预测上的表现。研究发现, 在单一层面特征中, 词汇特征具有最好的预测能力;基于多层面特征的模型比基于单一层面特征的模型准确率更高。蒋智威(2018)设计了表层、词性、语法树、一元模型和信息论五组特征, 并使用多个二分模型预测文本的年级值, 发现在五组特征中表层特征对汉语文本级别的预测能力最强。程勇、徐德宽(2019)采用词汇、长度和句式三个类别共320个特征进行了文本难度分级实验, 发现在区分小中高3个学段文本和区分12个年级文本上, SVM分类模型的准确率分别为86.6%和32.8%;最重要的5个语言特征依次为字种数、词种数(不带词性)、词种数(带词性)、小句长度和词长。

  上述研究通过建立机器学习模型预测汉语文本可读性, 有的研究者还在汉字和词汇特征基础上加入了句法和篇章维度的语言特征, 这些研究推动了汉语文本可读性研究的进一步发展。然而, 上述研究在特征的选择与体系的构建上仍有可完善的空间。首先, 已有研究没有按照汉字、词汇、句法和篇章这四个层面构建指标体系, 缺少汉字层面和篇章层面指标的考察和分析, 也缺少对这四个层面特征在汉语文本可读性中预测能力的对比分析;其次, 还没有研究考察这四个层面特征对各难度等级文本的预测能力是否有差异。本研究在参考汉语字、词、句、篇四个层面特征的分类与Coh-Metrix(Graesser et al., 2011)指标的基础上, 将可能影响汉语文本可读性的汉字因素和篇章因素纳入指标体系, 并对不同层面文本特征在汉语文本可读性预测中的表现进行考察, 对不同层面特征对不同难度等级文本的预测能力进行比较, 以期为建立更加有效的可读性预测模型奠定基础。

  本文研究的具体问题是:汉字、词汇、句法和篇章四个层面特征对汉语文本可读性的预测能力如何?不同层面特征的组合是否可以提升模型的预测能力?各个层面特征的预测能力是否受文本可读性级别的影响?

  二 汉语文本可读性特征体系的构建

  基于前人的研究, 本文首先构建了一个适用于汉语可读性评估的语言特征体系, 该体系包含汉字、词汇、句法和篇章四个层面及其下13个维度、104项具体度量指标。下面分别对每个层面的特征进行说明。

  2.1汉字层面

  汉字识别难度的影响因素可以从汉字字形的复杂度、汉字的熟悉度和汉字多样性三个维度来考察 (具体指标见表1) 。

  1) 字形复杂度。汉字的视觉复杂性通常以笔画数的多少来表示, 笔画数的多少影响汉字识别。而且, 笔画数效应的大小与汉字频率的高低有关, 即笔画数在高频字的识别中作用小, 在低频字的识别中作用大 (沈烈敏、朱晓平, 1994) 。因此, 我们对笔画数进行了频率加权, 加权方法参考了吴建国等(2005)的计算方式1。汉字笔画数信息来自于《新华字典》 (第11版) , 汉字频率信息来自于国家语委现代汉语语料库 (2) 2提供的《现代汉语语料库字频表》(下面简称《字频表》), 少笔画字、中笔画字和多笔画字的界定参考了Sung et al. (2015)?的划分方式。汉字对称性是汉字字形的另一重要特征, 汉字结构的对称性可以促进汉字的识别 (黄希庭等, 2002) 。杨孝濚 (1974)?在构建可读性公式时使用了完全对称字比例和不完全对称字比例。我们通过建立包含1394字的对称字表, 统计了文本中对称字的比例。

  2) 汉字熟悉度。熟悉度在统计上表现为汉字的使用频率, 即字频。我们把汉字字频取对数作为汉字熟悉度的指标之一。没有出现在《字频表》和《信息交换用汉字编码字符集基本集》 (下文简称《汉字编码字符集》。陈耀星, 1983) 中的汉字被认定为未登录字 (out-of-vocabulary, OOV) , 未登录字的比例也作为汉字熟悉度的指标。相关研究表明, 常用字比例是预测汉语文本可读性的重要指标。我们基于《现代汉语常用字表 (3500字) 》 (下文简称《常用字表》。傅永和, 1988) , 计算了文本中常用字的比例。

  3) 汉字多样性。在语料库语言学中, 类符-形符比 (type-token ratio, TTR) 是衡量多样性的常用指标, 即文本中汉字类型V (type) 与总字数N (token) 的比率 (V/N) 。类符—形符比在一定程度上可以反映语料库中用字的变化程度, TTR越高, 汉字的使用越丰富。因此, 我们使用TTR作为汉字多样性指标。此外, 还使用了单次字数、单次字比例作为衡量文本汉字多样性的指标?(Jiang et al., 2014) 。单次字指文本中只出现一次的汉字, 被认为是某文本区别于其他文本的标志之一, 也是文本用字多样性的体现 (Islam et al., 2012) 。

  表1 汉字层面各维度的指标

  2.2词汇层面

  词是语言中最基本的造句单位, 词的识别是汉语阅读的重要过程, 阅读中词的识别受多种因素的影响。Sung et al. (2016) 从字词复杂度、词语长度、词语频率、词语计数和词汇多样性等五个维度评估词汇复杂度。本研究在此基础上对指标进行了整合, 加入了词汇语义难度这一维度。最后, 本研究的词汇层面特征共包括词语复杂度、词汇熟悉度、词汇多样性、词性复杂度和词汇语义难度五个维度 (具体指标见表2) 。

  1) 词语复杂度。在拼音文字中, 词语的复杂度主要指词语的长度, 即字母数。汉语可读性研究中, 词长也是衡量词汇复杂度的重要指标。考虑到词长与词频的协同作用 (邓耀臣、冯志伟, 2013) , 我们对词长进行了频率加权, 加权方式与汉字笔画数的频率加权方式相同。此外, 文本中字与词的比例也是衡量文本词汇复杂度的指标之一。汉语中字词关系紧密, 从字和词在语言学习上的关系来看, 在掌握相同数量汉字的基础上, 认识的词语越多, 文本的识读率就越高?(张卫国, 2006) 。字和词的这种关系可以用“字词比”来描述, 即文本中包含的汉字数与词语数的比例。

  2) 词汇熟悉度。和汉字熟悉度的评估指标类似, 我们把词频和未登录词比例作为衡量词汇熟悉度的指标。词频和未登录词的信息来自于《现代汉语语料库词频表》 (3) 3 (下文简称《词频表》) 和SUBTLEX-CH (汉语字幕词频表) (Cai&Brysbaert, 2010) 。

  3) 词汇多样性。词汇多样性的衡量指标包括形符数、类符数、类符—形符比、单次词数和比例以及文中成语的数量和比例。成语是汉语独具特色的词语形式, 往往包含世代相传的丰富史实、典故、诗文, 读者在理解成语时需要拥有更多背景知识, 成语使用的丰富程度是区分汉语文本难易程度的重要指标。

  4) 词性复杂度。Feng et al. (2010) 的研究将词性作为预测文本可读性的重要维度, 量化了名词、动词、形容词、副词和介词这五类词性的指标。考虑到介词在句子中主要起引介作用, 本研究把介词的使用作为衡量衔接性的指标, 在词性复杂度上只统计了名词、动词、形容词、副词四类词性的比例作为词性复杂度的指标。

  5) 词汇语义难度。理解词语意义是理解文本内容的关键, 词义的理解难度直接影响文本可读性。在传统汉语可读性公式的研究中, 由于技术的限制, 无法纳入词汇语义特征。在Sung et al. (2015)?的研究中, 语义指标包括实词、否定词、复杂语义类别数三类。由于复杂语义类别数难以量化, 本研究在实词和否定词的基础上加入虚词、专名和词语义项数三类指标, 使用五类共9个指标来刻画词汇语义的难度。虚词包括副词、介词、连词、助词、语气词。专名指文中出现的人名、地名、团体机构名等, 通常指代一个特定的实体, 理解专名需要读者拥有特定的背景知识。义项是词或语素在词典中的意义单位, 我们根据《现代汉语词典》 (第5版) 中词语条目的义项数统计了文本中词语的平均义项数和最大义项数。

  表2 词汇层面各维度的指标

  2.3句法层面

  句子是相对完整的表达意义的语言单位, 句法层面特征主要考察句子长度、短语句法树结构复杂度和依存句法树结构复杂度三个维度 (具体指标见表3) 。

  1) 句子长度。句长与词长一样, 是可读性研究中常用的预测指标。长句通常信息量更大, 句子理解和记忆的难度更大。在句子长度这一维度中, 我们分别以字和词为单位, 统计了文本的平均句长和最大句长。

  2) 短语句法结构复杂度。当前自然语言处理领域中, 自动句法分析主要分为基于短语结构的句法分析和基于依存关系的句法分析两种。前者以树的方式分析句中短语及短句间的结构关系;后者在识别句中主要谓词的基础上揭示句子中词与词之间的句法依存关系, 如修饰关系、支配关系等。短语结构句法分析首先通过自动句法分析器识别和描述句子的短语结构及短语之间层次性的句法关系, 然后将句法分析结果以树结构的方式呈现。基于结构句法树, 我们通过三个子维度共15个指标来刻画句子的短语句法结构复杂度。根据分句的数量, 可以把句子分成单句和复句。句法树的高度可以表示句子短语结构的层次?(Schwarm&Ostendorf, 2005) , 我们进一步统计了汉语教材语料库中句子句法树高度的分布, 以分布的90% (即16) 为界值, 计算了句法树高度大于16的句子数量和比例;根据句法树的短语标签, 统计了名词短语、动词短语、形容词短语、副词短语和介词短语的数量以及名词短语与动词短语的平均长度。

  3) 依存句法复杂度。在分词的基础上, 依存句法分析标注当前词与关联词之间的句法依存关系。根据依存句法的分析结果, 我们从主语、修饰语、主要动词和依存距离信息四个子维度衡量句子依存句法结构复杂度。依存距离, 即句子中两个具有句法关系的词之间的线性距离, 通常被认为是句法语义加工中计算记忆负担和句法难度的指标。依存距离理论 (the dependency locality theory, DLT) 认为, 人脑在进行句法分析时有两项任务:把当前词整合为结构、进行结构的存储。其中, 整合过程与需要整合的两个要素之间的依存距离有关, 距离越大, 整合成本越高, 认知负担越大?(Gibson, 2000) 。在计算句子依存距离时采用了Liu (2007) 对句子平均依存距离 (MDD) 的计算公式4。

  表3 句法层面各维度的指标

  2.4篇章层面

  传统的可读性研究对篇章层面特征的考察较少。然而, 篇章作为交际过程中实际使用的语言形式, 其段落组织方式、主题紧密程度、句间和段落间的衔接连贯等都会对文本理解难度产生影响。

  Coh-Metrix-TEA?(Graesser et al., 2014) 从叙事性 (narrativity) 、指代衔接 (referential cohesion) 和深层衔接 (deep cohesion) 三个维度定义了篇章难度。叙事性指与篇章文体有关的因素。由于我们的语料没有标注文本体裁, 所以该因素暂不在考察范围之内。指代衔接涉及句间和段落间词语的重复, 文本中适当的词汇重复或概念重复是增加文本衔接性的有效手段。在这一维度中, Coh-Metrix-TEA分别考察了句间和段落间的实词、名词和论元的重复情况。深层衔接考察了文本中各类连词的使用情况, 因果连词、目的连词、让步连词等各种类型连词的使用有助于读者建立文本的情景模型 (situation model) , 从而形成更加一致、深入的文本理解。Sung et al. (2015)?从指代、连接和隐喻三个方面对文本的衔接程度进行衡量, 指代和连接分别通过统计文本中代词和连词的数量来量化, 该研究通过计算文本中隐喻表达式的数量来衡量。基于上述两项研究, 我们把影响文本难度的篇章因素分为篇章复杂度和篇章衔接性两个维度 (具体指标见表4) 。在衔接性上, 由于缺乏量化隐喻表达的相关资源, 我们主要通过代词、词语重复、介词和连词四个子维度来量化篇章衔接性。

  1) 篇章复杂度。该维度主要计算篇章段落数、平均段落长度、最长段落长度。段落长度分别以字、词作为计算单位。该维度包括5个指标。

  2) 篇章衔接性。该维度与语篇的衔接手段有关。语篇衔接手段分为语法衔接和词汇衔接两类。前者包括指称、省略、替代和连接词, 后者指词语重复。我们从四个子维度衡量篇章的衔接程度:一是代词的使用, 二是句间及段落间的词语、名词和实词的重复, 三是介词的使用, 四是连词的使用。重复被定义为:如果两个语言片段中包含相同的语言单位, 即认为该语言单位为两个语言片段之间的重复部分, 如:“爸爸的爸爸是爷爷”和“爸爸的妈妈是奶奶”中, “爸爸”“的”“是”是两句话的重复部分, 则这两句话的重复词数为3, 其中“爸爸”是名词, 则名词重复数为1。该维度包括24个指标。

  表4 篇章层面各维度的指标

  三 汉语文本可读性特征体系的效度验证

  3.1方法

  3.1.1语料库

  我们收集了人民教育出版社、江苏教育出版社和北京师范大学出版社出版的现行语文教科书, 通过OCR和人工校对的方法, 建立了语文教材语料库。该语料库共有1~12年级的完整文本2009篇。考虑到文体对文本难度的影响, 我们剔除了文言文、诗词、诗歌及识字部分的文本, 最终保留的文本数为1463篇, 占文本总数的72.8%。由于《义务教育语文课程标准 (2011版) 》以学段为单位设计语文学习目标, 即把九年义务教育划分为四个学段, 我们据此将小学和初中划分为四个学段, 再加上高中阶段, 最终将12个年级的文本划分为5个可读性级别, 各级别文本的统计信息如表5所示。

  3.1.2特征抽取和模型构建

  我们采用机器学习的方法对上文建构的汉语文本可读性特征体系进行效度验证, 包括特征抽取和模型构建两个阶段。

  在特征抽取阶段, 使用哈尔滨工业大学研发的语言技术平台 (language technology platform, LTP) 对文本进行预处理, 包括分词、词性标注、专名识别和依存句法树构建?(Che et al., 2010) 。使用斯坦福大学研发的斯坦福句法分析工具 (The Stanford Parser) 构建了短语句法树?(Levy&Manning, 2003) 。文本特征的抽取由Python编程实现。

  表5 语料统计信息

  在模型构建阶段, 通过机器学习模型对可读性等级进行拟合, 拟合效果最好的模型为最终模型。考虑到文本各级别之间的难度并不是等距的, 即三级和二级的难度差距与五级和四级的难度差距并不相同, 我们把文本的可读性等级看作互相独立的类别, 把文本可读性评估任务作为分类任务, 分类任务也是大多数相关研究中使用的任务范式 (Heilman et al., 2007;Feng et al., 2010) 。前人研究已经证明, 支持向量机在文本可读性评估中有良好的表现?(Sung et al., 2015) , 因此使用基于支持向量机的五分类模型进行可读性特征的效度验证。为了构建泛化性较好的模型, 使模型在面对未知文本时也能得到较好的评估结果, 语料库分为训练集和测试集, 先使用训练集训练模型, 再使用测试集计算模型的预测准确率, 训练集和测试集的文本比例为7∶3。我们把基于词频-逆文档频率 (TF-IDF, term frequency-inverse document frequency) 的模型作为基线模型。TF-IDF在词频基础上根据词的文档频率对词进行加权, 从而筛选出某篇文本的关键词进行编码, 是基本的文本编码方式之一。基于TF-IDF的模型是文本分类任务中常见的基线模型。

  3.2结果

  3.2.1汉字、词汇、句法和篇章层面特征及其组合的预测准确率

  分别使用汉字、词汇、句法和篇章四个层面的特征建立可读性模型, 各模型的预测准确率如表6所示。每个层面特征模型的预测准确率都在基线以上。与仅使用TF-IDF的模型相比, 使用语言特征的模型准确率提高了26.7%~39.6%。其中, 基于词汇层面特征的模型准确率最高, 基于汉字层面特征的模型与基于句法层面特征的模型次之, 基于篇章层面特征的模型准确率最低。

  表6 汉字、词汇、句法和篇章层面模型的预测准确率

  如果对不同层面的特征进行组合, 组合后建立的模型是否具有更高的预测准确率?分别对四个层面的特征进行不同组合的尝试, 特征组合的模型准确率如表7所示:1) 在两两特征组合中, 同时使用“汉字+词汇”特征的模型达到最高的准确率, 高于仅使用汉字层面或仅使用词汇层面特征的模型;基于“句法+篇章”组合特征的模型准确率高于使用单一句法或篇章特征的模型的准确率;使用“汉字+句法”组合特征的模型高于仅使用句法特征的模型, 与使用单一汉字特征的模型准确率相同;使用“词汇+句法”的模型高于仅使用句法层面特征的模型, 与使用单一词汇特征的模型准确率相同。2) 在三特征组合中, 各模型准确率差异不大, “汉字+词汇+句法”三特征组合的模型准确率在三特征模型中最高, 略低于“汉字+词汇”组合的准确率, 高于仅使用汉字、词汇或句法特征的模型。“汉字+句法+篇章”“汉字+词汇+篇章”和“词汇+句法+篇章”三特征组合模型低于仅使用词汇层面特征的模型, 但高于使用单一汉字、句法或篇章的模型。与两两特征组合对比, “汉字+句法+篇章”“汉字+词汇+篇章”和“词汇+句法+篇章”模型的准确率分别低于使用“汉字+句法”“汉字+词汇”“词汇+句法”模型的准确率。

  总的来说, 汉字、词汇和句法三个层面特征的两两组合或三三组合模型的准确率会高于或不低于使用单一层面特征的模型, 篇章特征的加入会降低模型的准确率。

  表7 四个层面特征组合的预测准确率

  3.2.2四个层面下各维度特征的预测准确率

  为了进一步考察是哪些维度的特征影响汉字、词汇、句法和篇章四个层面特征的预测能力, 我们分析了四个层面 (一级特征) 下的13个维度 (二级特征) 的预测能力。

  由表8可见, 所有二级特征的准确率均高于基线水平 (22.5%) , 但基于二级特征的模型准确率差异较大。其中, 基于汉字熟悉度特征的模型预测准确率最高, 字形复杂度特征的模型预测准确率最低。在13个维度特征中, 预测准确率最高的前5个维度特征依次为:汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度、词汇熟悉度。

  分别从四个层面来看, 在汉字层面, 基于汉字熟悉度特征的模型准确率最高, 基于汉字多样性的模型次之, 基于字形复杂度的模型准确率最低。在词汇层面, 基于词汇多样性的模型预测准确率最高, 基于词汇熟悉度和词汇语义难度的模型准确率次之, 基于词语复杂度和词性复杂度的模型准确率最低。在句法层面, 短语句法结构复杂度的模型准确率最高, 依存句法复杂度的准确率次之, 准确率最低的是句子长度特征。篇章层面上, 篇章衔接性特征的预测准确率比篇章复杂性特征高15%。

  表8 四个层面下的13个维度特征的预测准确率

  3.2.3总模型和四个层面特征模型在不同级别文本上的预测准确率

  为了观察模型在各个难度级别上的预测表现, 我们通过混淆矩阵分析了基于所有特征的模型在各个级别上的分类结果。表9给出了基于所有特征模型在汉语文本可读性评估上的混淆矩阵, 可以看出, 基于所有特征的模型在低难度文本 (1级) 上的准确率最高, 其次是中高难度和高难度文本 (4、5级) , 模型在中低难度和中难度文本 (2、3级) 上的预测准确率较低。2、3、4级别的文本被误分到相邻级别的概率较高, 2级文本有35%被误分为3级文本, 有17%被误分为1级文本;3级文本有21%被误分为2级文本, 有19%被误分为4级文本。模型在区分2、3级文本上表现不佳。

  表9 基于所有特征模型的五分类混淆矩阵

  模型在不同难度级别文本上的预测准确率不同, 可能是由于我们使用了相同的特征体系来预测不同级别的文本, 而不同层面特征在不同级别文本上的预测能力可能不同。为了探讨各个层面特征的预测能力与可读性级别之间的关系, 我们比较了四个层面特征在不同可读性级别文本上的预测准确率。

  表10 各层面特征对不同级别文本的预测准确率 (%)

  从四个层面的特征来看, 同一特征在预测不同难度级别文本时表现不同。汉字、词汇、句法和篇章四个层面特征在最低难度级别文本 (1级) 的预测准确率最高。与其他特征相比, 汉字特征在中等难度文本 (3级) 上准确率最高, 词汇特征在中低难度文本 (2级) 上准确率最高, 句法层面特征在中高难度文本上 (4级) 准确率最高。篇章特征在1、2、4级别文本上的预测准确率最低, 在中难度文本 (3级) 和高难度文本 (5级) 上, 准确率仅高于句法特征。

  从不同难度级别来看, 对于同一难度级别的文本, 不同层面语言特征的预测能力不同。具体来说, 对低难度 (1级) 文本, 汉字、词汇和句法层面特征的预测准确率较高, 篇章层面特征的准确率较低;对中低难度 (2级) 文本, 词汇特征的预测准确率最高;对于中等难度 (3级) 文本, 汉字层面特征的预测能力最高;对于中高难度 (4级) 文本, 词汇和句法层面特征的预测能力高于汉字和篇章特征;对于高难度 (5级) 文本, 汉字和词汇特征的预测能力高于句法和篇章特征。

  四 讨论

  4.1汉字、词汇、句法和篇章特征对汉语文本可读性的预测能力

  本研究结果显示, 基于语言特征的模型有助于预测汉语文本可读性。其中, 基于词汇层面特征的模型准确率最高, 基于汉字层面特征模型的准确率次之, 基于句法层面特征模型位居第三, 基于篇章层面特征的模型准确率最低。

  基于词汇层面特征的模型预测准确率最高, 说明词汇层面特征的预测能力最强。词汇特征是在英语等语言中被广泛证明的有效特征?(Feng et al., 2010;Sung et al., 2015) 。词汇特征的重要性在Sung et al. (2015)?关于汉语的研究中也得到证明, 但该研究把汉字相关指标与词汇相关指标统一归类为词汇类指标, 没有对汉字和词汇指标做更细致的区分。孙刚 (2015)?和蒋智威 (2018)?把简单计数特征统一归类为表层特征, 其表层特征既包含和汉字相关的字笔画数、复杂字数等指标, 也包括词长、词数等指标, 无法对汉字特征与词汇特征的效度进行对比分析。本研究在构建影响汉语文本可读性的语言特征体系时, 对汉字相关特征和词汇相关特征进行了区分, 研究结果不仅佐证了字词相关特征的重要作用, 还进一步发现, 相比于汉字特征, 词汇特征的整体预测能力更强。词汇特征考察了词语复杂度、词汇熟悉度、词汇多样性、词性复杂度和词汇语义难度五个维度。实验结果显示, 在词汇层面, 词汇多样性和词汇熟悉度的预测能力高于词语复杂度、词性复杂度和词汇语义难度, 说明词汇熟悉度和词汇多样性是汉语文本可读性的重要预测变量, 与Yang (1970) 和孙汉银 (1992) 的发现一致, 与英语的研究结果也一致?(Vajjala&Meurers, 2015) 。

  本研究虽然加入了一些词汇语义特征, 但是还有不少深层的词汇语义特征没有涉及, 例如复合词的语义结构、词的具体性、词义透明度等。不少研究者强调复合词的语义结构影响词的理解和学习 (如徐晶晶等, 2017;张博, 2018) 。许多心理语言学的研究发现, 词的具体性、语义透明度、词汇习得年龄等因素会影响词汇加工 (如陈宝国、彭聃龄, 1998;王春茂、彭聃龄, 1999;Crossley et al., 2017) 。如何对汉语词汇的深层语义特征进行量化、建立可供计算机分析使用的大规模汉语词汇语义特征数据库, 这是心理语言学和计算语言学的学者需要共同思考和解决的问题。

  基于汉字特征的预测准确率位居第二, 说明基于汉字特征的模型有助于预测汉语文本可读性, 但汉字特征的预测能力低于词汇层面特征。可读性指标体系的建立需要考虑不同语言的特点和阅读规律。与英语不同, 汉语的文字载体是汉字, 与汉字相关的变量, 如笔画数、多笔画字数等是多数研究者考察的重要因素?(Sung et al., 2015;王蕾, 2008) 。Yang (1970)?从汉字、词汇和句子三个层面考察了39个影响文本可读性的变量, 发现难词比、完整句子数和平均笔画数是最重要的影响因素。孙汉银 (1992) 在可读性公式中纳入了字均笔画数、难词比、句均字数和句均词数4个变量。本研究的实验结果同样发现了汉字特征在汉语文本可读性预测中的重要作用。本研究从汉字字形复杂度、汉字熟悉度和汉字多样性三个维度进行考察, 发现与字形复杂度相比, 汉字熟悉度和汉字多样性的预测准确率更高, 说明与汉字形体特征相比, 汉字的熟悉度和多样性是影响汉语文本可读性的重要因素。

  句法特征的预测能力在汉字、词汇、句法和篇章四个一级特征中位居第三, 略高于篇章特征, 低于词汇和汉字特征。句法复杂度是一个复杂概念, 句子长度是句法复杂度的重要预测指标, 是被广泛使用的特征之一?(孙汉银, 1992;张宁志, 2000;郭望皓、宿飞鸿, 2012) 。此外, 有学者采用T单位长度衡量汉语句法复杂度 (吴继峰等, 2019) , 但是迄今为止, 针对汉语句法复杂度的研究十分罕见 (参见韩笑、冯丽萍, 2017) 。本研究基于短语句法分析结果和依存句法分析结果, 加入短语句法结构特征和依存句法特征, 量化了句长、短语句法结构复杂度和依存句法复杂度三个维度的指标, 对句法复杂度进行衡量。实验发现, 句子长度有助于预测汉语文本可读性, 这一结果与Sung et al. (2015)?的研究结果一致。基于短语句法分析结果和依存句法分析结果的两个二级特征 (短语句法结构复杂度、依存句法复杂度) 比句子长度的预测能力更强, 该结果与Heilman et al. (2007)?对英语研究的结果一致, 与Pitler&Nenkova (2008)?的结果不一致, 这可能是由于文本材料的性质不同。语言特征的预测效度会受到语料库文本性质的影响, 包括文本的整体语法难度、文本体裁等。文本类型上, Heilman et al. (2007)?和本研究的文本均为课文文本, 而Pitler&Nenkova (2008)?的文本为标注语法库中的文本材料, 标注语法库中的文本在构建时可能会考虑到语法的多样性和复杂性。另一个值得注意的问题是, 句法结构的理解难度是影响文本难度的重要因素, 句法相关指标的计算依赖于底层的自动句法分析技术, 虽然现有技术可以对汉语的短语结构和依存结构进行分析, 但是性能上存在可以提升的空间, 这可能导致指标量化上出现误差, 进而影响句法相关特征的预测效度。我们所使用的文本是面向母语学习者的教材文本, 英语研究发现, 相比于母语文本, 句法特征在二语文本可读性评估上具有更好的效度, 这也是未来汉语可读性研究需要考察和探讨的方向。

  基于篇章层面特征的模型预测准确率最低。现有的汉语可读性研究关注了字词和句子层面的文本因素, 对篇章层面特征的影响考虑较少。然而, 阅读的过程并不是单纯的解码过程, 读者也需要在理解语篇后对语篇内容进行组织, 并结合个体经验获得文本的整体意义。高衔接的文本可以帮助读者更快地整合文本信息, 形成语篇表征 (McNamara&Kintsch, 1996) 。因此, 一般情况下, 文本的衔接程度与可读性成正相关, 衔接程度越高, 文本越容易理解。语篇的衔接连贯程度可以通过考察与语篇有关的特征来刻画, 这些特征包括指代关系、因果结构、衔接手段、重现方式、命题组织等 (McNamara et al., 2010) 。Sung et al. (2015)?使用代词和连词的统计信息作为篇章连贯的指标。在此基础上, 我们加入了表现篇章重现方式的指标。本研究发现, 篇章特征的加入可以提升模型在预测汉语文本可读性上的准确率, 但相比于汉字、词汇和句法层面特征, 篇章特征的预测能力较低。这一结果与英语研究结果一致, 也与Sung et al. (2015)?对汉语的研究结果一致。与英语不同的是, 汉语篇章关系的建构不仅依赖显性的连词等, 还有隐性的篇章连贯手段。我们在量化篇章难度时只衡量了显性的篇章连接手段, 由于技术手段的限制, 我们的指标体系没有考虑文本的隐性连贯, 这可能会影响篇章特征的预测能力。文本连贯意义的建构是文本和读者因素互动的结果, 目前的篇章指标体系还无法纳入读者因素。通过读者文本加工表现考察文本可读性, 是可读性研究的未来趋势之一。

  本文还通过特征组合来预测文本可读性, 这是非常有趣的角度。虽然单一层面特征的对比有助于了解哪个层面的特征在文本可读性预测任务上表现最好, 但在实际的文本难度评估中, 人们对文本难度的感知会从多个维度进行考虑。本研究结果显示, 基于不同层面特征组合的模型预测能力不同, 其中, 基于“汉字+词汇”特征的模型在所有模型中准确率最高 (63.8%) , 这一结论符合汉语语言的特点。对于英语可读性而言, 词汇特征是重要的预测变量, 对于法语、德语而言, 词汇的曲折变化是最重要的预测变量 (Hancke et al., 2012;Piln et al., 2016) 。本研究发现, 对于汉语而言, 虽然词汇特征在四个层面特征中准确率最高, 但综合使用汉字层面特征和词汇层面特征考察汉语文本可读性时模型表现更好。

  4.2不同层面语言特征的预测作用与文本可读性级别的关系

  以往研究发现, 相同的语言特征在预测不同年级文本时准确率不同, 低年级文本上的分类准确率较高, 高年级文本上的分类准确率较低 (Schwarm&Ostendorf, 2005;郭望皓、宿飞鸿, 2012;Sung et al., 2015) 。本研究发现, 汉字、词汇、句法和篇章四个层面特征在低年级文本上的预测能力最高, 随着文本难度的升高, 模型的准确率下降。该结论与Sung et al. (2015)?的研究结果一致。

  通过从同一难度不同语言特征、同一语言特征不同难度这两个角度的分析, 我们发现, 同一层面特征在预测不同难度级别文本时表现不同, 同时, 不同层面语言特征对同一难度级别文本的预测能力不同, 说明语言特征的预测效度受文本难度的影响。该结论与郭望皓、宿飞鸿 (2012)?对汉语二语文本可读性研究的结论一致, 他们通过请专家和教师对不同难度文本的不同语言特征的重要性进行排序, 发现汉语文本难度的影响因素与难度级别有关, 对初级和中级文本, 词汇因素对文本难度的影响最大, 对高级文本, 修辞因素对文本难度的影响最大。本研究的结果显示, 对于1~4年级文本, 词汇特征的预测能力最强;对5~6年级文本和高中文本, 汉字特征的区分能力最强;对7~9年级文本, 句法特征的区分能力最强。

  五 结语

  本研究的主要结论如下:1) 在一级特征中, 词汇层面特征的预测能力最强, 其次是汉字层面、句法层面特征的预测能力, 篇章层面特征的预测能力最弱;在二级特征中, 预测能力最强的五个维度为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度、词汇熟悉度。2) 基于“汉字”“词汇”和“句法”的两两组合或三三组合特征, 模型准确率会高于或不低于基于单一层面特征的模型。3) 不同层面语言特征的预测作用受文本难度级别的影响, 汉字、词汇、句法和篇章特征在1~2年级文本上区分能力最强。

  在将来的研究中, 我们会继续探讨可以有效反映文本句法难度、语义难度、语篇难度的指标, 关注文本内容难度对文本可读性的影响, 将文本主题和内容难度因素纳入特征体系, 包括主题熟悉度特征 (Crossley et al., 2007) 和文本类型 (Sheehan et al., 2010) 等。同时, 后续研究应不断扩充文本语料库的规模, 收集更为多样化的文本如新闻报刊、课外读物等, 涵盖更广泛的阅读场景。最后, 本研究的主要目的是构建汉语文本可读性的特征体系, 并试图通过机器学习的方法验证该特征体系的效度, 所以在建模过程中, 没有应用特征抽取算法, 在未来的研究中我们将应用特征选择方法, 以期构建准确率更高的可读性评估模型。

  参考文献

  陈宝国、彭聃龄(1998)词的具体性对词汇识别的影响,《心理学报》第4期。

  陈耀星(1983)《信息交换用汉字编码字符集》简介,《文字改革》第4期。

  程勇、徐德宽(2019)基于多层面语言特征的中文文本阅读难度自动分级研究,第20届汉语词汇语义学国际研讨会(北京信息科技大学)论文。

  邓耀臣、冯志伟(2013)词汇长度与词汇频数关系的计量语言学研究,《外国语(上海外国语大学学报)》第3期。

  傅永和(1988)现代汉语常用字表的研制——附录:常用字、次常用字,《语文建设》第2期。

  郭望皓、宿飞鸿(2012)汉语文本难度的影响因素及其权重的主观测定,《现代语文》(下旬语言研究)第11期。

  韩笑、冯丽萍(2017)汉语口语句法复杂度发展测评中基准型指标的应用方法研究,《世界汉语教学》第4期。

  黄希庭、陈传锋、余华(2002)结构对称汉字识别的加工机制(I)——整字识别的实验研究,《心理科学》第25期。

  蒋智威(2018)面向可读性评估的文本表示技术研究,南京大学博士学位论文。

  沈烈敏、朱晓平(1994)汉字识别中笔画数与字频效应的研究,《心理科学》第4期。

  孙刚(2015)基于线性回归的中文文本可读性预测方法研究,南京大学硕士学位论文。

  孙汉银(1992)中文易懂性公式,北京师范大学硕士学位论文。

  王春茂、彭聃龄(1999)合成词加工中的词频、词素频率及语义透明度,《心理学报》第3期。

  王蕾(2005)初中级日韩留学生文本可读性公式初探,北京语言大学硕士学位论文。

  王蕾(2008)可读性公式的内涵及研究范式——兼议对外汉语可读性公式的研究任务,《语言教学与研究》第6期。

  王蕾(2017)初中级日韩学习者汉语文本可读性公式研究,《语言教学与研究》第5期。

  吴继峰、周蔚、卢达威(2019)韩语母语者汉语二语写作质量评估研究,《世界汉语教学》第1期。

  吴建国、俞庆英、吴海辉(2005)汉字笔画若干数据的统计方法研究与应用,《安徽大学学报》(自然科学版)第29期。

  吴思远、于东、蔡建永、江新(2018)文本可读性的自动化分析研究综述,《中文信息学报》第12期。

  徐晶晶、马腾、江新(2017)汉语二语者名名复合词学习中语义关系信息的作用,《世界汉语教学》第3期。

  杨孝濚(1974)实用中文报纸可读性公式,《新闻学研究》第13期。

  张博(2018)提高汉语第二语言词汇教学效率的两个前提,《世界汉语教学》第2期。

  张宁志(2000)汉语教材语料难度的定量分析,《世界汉语教学》第3期。

  张卫国(2006)阅读:覆盖率、识读率和字词比,《语言文字应用》第3期。

  左虹、朱勇(2014)中级欧美留学生汉语文本可读性公式研究,《世界汉语教学》第2期。

  Broda, Bartosz, Maciej Ogrodniczuk1, Bartomiej Nitoń&Wodzimierz Gruszczyński (2014) Measuring readability of Polish texts:Baseline experiments.In Proceedings of the Ninth International Conference on Language Resources and Evaluation.26-31May, 2014.Reykjavik, Iceland.

  Cai, Qing&Marc Byrsbaert (2010) SUBTLEX-CH:Chinese word and character frequencies based on film subtitles.PloS One 5 (6) :e10729.

  Che, Wanxiang, Zhenghua Li&Ting Liu (2010) LTP:A Chinese language technology platform.In Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010) .23-27August, 2010.Beijing, China.

  Crossley, Scott A., Maxm M.Louwerse, Phillip M.McCarthy&Danielle S.McNamara (2007) A linguistic analysis of simplified and authentic texts.The Modern Language Journal 91 (1) :15-30.

  Crossley, Scott A., Stephen Skalicky, Mihai Dascalu, Danielle S.McNamara&Kristopher Kyle (2017) Predicting text comprehension, processing, and familiarity in adult readers:New approaches to readability formulas.Discourse Processes 54 (5) :1-20.

  Feng, Lijun, Martin Jansche, Matt Huenerfauth&Noemie Elhadad (2010) A comparison of features for automatic readability assessment.In Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010) .23-27August, 2010.Beijing, China.

  Gibson, Edward (2000) The dependency locality theory:A distance-based theory of linguistic complexity.In A.Marantz, Y.Miyashita&W.O’Neil (eds.) , Image, language, brain:Papers from the first mind articulation project symposium, 95-126.Cambridge, MA:MIT Press.

  Graesser, Arthur C., Danielle S.McNamara&Kulikowich M.Jonna (2011) Coh-Metrix:Providing multilevel analyses of text characteristics.Educational Researcher 40 (5) :223-234.

  Graesser, Arthur C., Danielle S.McNamara, Zhiqiang Cai, Mark William Conley, Haiying Li&James W.Pennebaker (2014) Coh-Metrix measures text characteristics at multiple levels of language and discourse.The Elementary School Journal 115 (2) :210-229.

  Hancke, Julia, Sowmya Vajjala&Detmar Meurers (2012) Readability classification for German using lexical, syntactic, and morphological features.In Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012) .8-15August, 2012.Mumbai, India.

  Heilman, Michael, Collins-Thompson Kevyn, Callan Jamie&Eskenazi Maxine (2007) Combining lexical and grammatical features to improve readability measures for first and second language texts.Conference on Human Language Technology Conference of the North American Chapter for the Association of Computational Linguistics.22-27April, 2007.Rochester, New York, USA.

  Islam, Zahurul, Alexander Mehler&Rashedur Rahman (2012) Text readability classification of textbooks of a low-resource language.In Proceedings of the 26th Pacific Asia Conference on Language, Information, and Computation.8-10November, 2012.Bali, Indonesia.

  Jiang, Zhiwei, Gang Sun, Qing Gu&Daoxu Chen (2014) An ordinal multi-class classification method for readability assessment of Chinese documents.In Proceedings of the 7th International Conference on Knowledge Science, Engineering and Management.16-18October, 2014.Sibiu, Romania.

  Kincaid, Peter J., Robert P.Fishburne Jr., Richard L.Rogers&Brad S.Chissom (1975) Derivation of new readability formulas (automated readability index, Fog count and Flesch reading ease formula) for navy enlisted personnel.Technical Report Research Branch Report, 8-75.Springfield, VA:National Technical Information Service.

  Levy, Roger&Christopher D.Manning (2003) Is it harder to parse Chinese, or the Chinese Treebank?In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.7-12July, 2003.Sapporo, Japan.

  Liu, Haitao (2007) Probability distribution of dependency distance.Glottometrics 15:1-12.

  McNamara, Danielle S.&Walter Kintsch (1996) Learning from texts:Effects of prior knowledge and text coherence.Discourse Processes 22 (3) :247-288.

  McNamara, Danielle S., Max M.Louwerse, Philip M.Mccarthy&Arthur C.Graesser (2010) Coh-Metrix:Capturing linguistic features of cohesion.Discourse Processes 47 (4) :292-330.

  Pilán, Ildikó,Sowmya Vajjala&Elena Volodina (2016) A readable read:Automatic assessment of language learning materials based on linguistic complexity.International Journal of Computational Linguistics and Applications 7 (1) :143-159.

  Pitler, Emily&Ani Nenkova (2008) Revisiting readability:A unified framework for predicting text quality.Conference on Empirical Methods in Natural Language Processing.25-27October, 2008.Honolulu, Hawaii, USA.

  Schwarm, Sarah E.&Mari Ostendorf (2005) Reading level assessment using support vector machines and statistical language models.In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics.25-30June, 2005.University of Michigan.

  Sheehan, Kathleen M., Irene Kostin, Yoko Futagi&Michael Flor (2010) Generating automated text complexity classifications that are aligned with targeted text complexity standards.ETS Research Report Series (2) :i-44.

  Stenner, Alfred Jackson (1996) Measuring reading comprehension with The Lexile Framework.In Proceedings of the Fourth North American Conference on Adolescent/Adult Literacy.Feburary, 1996.Washington, D.C., USA.

  Sung, Yao-Ting, Ju-Ling Chen, Ji-Her Cha, Hou-Chiang Tseng, Tao-Hsing Chang&Kuo-En Chang (2015) Constructing and validating readability models:The method of integrating multilevel linguistic features with machine learning.Behavior Research Methods 47 (2) :340-354.

  Sung, Yao-Ting, Tao-Hsing Chang, Wei-Chun Lin&Kuan-Sheng Hsieh (2016) CRIE:An automated analyzer for Chinese texts.Behavior Research Methods 48 (4) :1238-1251.

  Vajjala, Sowmya&Detmar Meurers (2012) On improving the accuracy of readability classification using insights from second language acquisition.In Proceedings of the 7th workshop on Innovative Use of NLPfor Building Educational Applications (BEA7) , Association for Computational Linguistics.7June, 2012.Montreal, Canada.

  Vajjala, Sowmya&Detmar Meurers (2015) Readability assessment for text simplification:From analysing documents to identifying sentential simplifications.InternationalJournalofAppliedLinguistics165 (2) :194-222.

  Yang, Shoujung (1970) A readability formula for Chinese language.Unpublished doctoral dissertation, University of Wisconsin-Madison.

  注释

  1 其中,Si是第i个汉字的笔画数,Fi是第i个汉字的使用频率,N为文本中汉字的个数。

  2 http://corpus.zhonghuayuwen.org/Resources.aspx

  3 http://corpus.zhonghuayuwen.org/Resources.aspx

  4 其中,n为句子的总词数,DD1为第i个句法连接的依存距离。

  

作者简介

姓名:吴思远 于东 江新 工作单位:

转载请注明来源:中国社会科学网 (责编:马云飞)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
贵州快3