“当学生的时候最烦考试,没想到工作后几乎天天跟考试打交道。”采访刚开始,科大讯飞考试业务线工程师张凯自己先笑了。此时,他正在机场等飞机,与记者的谈话不时被“某某航班即将起飞”的背景音淹没,飞来飞去,甚至将所有工作塞满24小时,这是人工智能领域工程师的日常。他说:“能从事人工智能辅助阅卷系统的研发,我很骄傲。我希望用这套系统,为更多老师减负,打出最准确的分数,让每一名学生都体会到教育的公平公正。”
人工智能辅助阅卷系统从2016年开始启动实验,至今已经在安徽省、江苏省、河南省等14个省份投入使用。去年,北京的一些重要考试也试点应用了人工智能辅助阅卷。这套系统还进入学校,成为“智慧教室”的标配。六七年间,这套“智慧”的系统已经获得了十余个自有知识产权专利,涉及中英文类手写体识别、测评等方面。
主观题智能评分技术研究
(资料图)
人工算法必不敢省人工
“最早判卷是靠一支红笔,但是面对海量的试卷和有限的阅卷时间,阅卷老师难免会出现纰漏。然而每一场考试对于学生而言,都可能是一次命运的转折,所以阅卷的公平性至关重要。比如中考、高考、研究生考试,还有四六级考试、托福考试……我们管这些叫高利害考试。”张凯自称是教育领域的外行,但是经年累月和老师们打交道,张口闭口就会带出教育领域的专有名词,说起考试更是侃侃而谈,“上世纪八十年代,技术实现了客观题阅卷机械化,利用光学扫描和石墨感应技术,光标阅读机可以识别答题卡上的客观题答案,自动给考生批阅核分,老师只需要用笔判卷子上的主观题。进入新世纪前后,高速扫描仪可以扫描整张试卷了,客观题由计算机出分,阅卷老师可以在网上无纸化、零接触批阅卷子里的主观题,而且一张试卷同时双评、多评,还有仲裁都可以实现了。”
2016年3月,科大讯飞与教育部考试中心签署合作协议,宣布共建联合实验室。当时给实验室制定的工作目标是:以考试信息化推动考试现代化,探索信息技术和人工智能技术解决大规模教育考试的难点问题,拓展教育考试服务功能,探索教育考试评价的新方法和新机制,开拓人工智能技术产业化的新领域。
编程、开发系统,这些对于张凯和同事们而言属于常规操作,真正让他们犯难的是“讲明白”这套系统。最简单的办法是,让这位“智能阅卷官”拿出好成绩。这个成绩分两部分:一部分是阅卷准确率要高,一部分是耐力分要高。
在开始正式研发前,张凯和同事们做了一次调研,希望摸清全国考试的家底儿,“考试种类多,数量庞大,阅卷量很大。以河南省为例,仅是高考每年就有百万级的考生参加,这意味着上千万甚至更多的题目批阅量。而且考试出分的时间又非常紧凑,如果辅助智能阅卷系统不能保证长时间高强度工作,就不能算合格。”
第一次“试岗”经历,让张凯记忆犹新。“三个大小伙子,轮番盯着系统干活儿,排好班,目不转睛地盯着。”当初的辛苦如今在工程师嘴里成了小笑话,“当时实验室刚成立几个月,智能评卷系统安装在计算机上可以出分了。我们就做了一次效果验证。刚开始,系统闹‘脾气’,明明设定了24小时工作运算时间,不盯着就‘偷懒’,我和俩同事一个人盯8小时,加了一层人工岗,保障它的稳定性。”
一次次的更新,一次次的试错,到2018年,智能阅卷系统可以实现连续运算1个月,不打瞌睡。
2021年,智能评卷系统参与了国家义务教育质量监测。这项监测被业内形象地比喻成对九年义务教育质量的一次“体检”,要对我国义务教育阶段学生德智体美劳和学校教育教学等状况进行客观评价,引导社会树立正确的教育质量观,促进学生身心健康发展。
大,是这次监测最大的特点。考生数量大,约57万人,待阅答题卡数量达到1440万份左右。搭建卷库、扫描设备、服务器,设置数据处理区、监控安保,各种技术人员和相关工作人员紧密配合,一系列工作有条不紊地推进。
人工算法必不敢省人工,但曾经的“人工盯梢岗”悄然消失了。更多的人力用在了技术升级上。
为了提高效率,每一分每一秒的时间,都要挤着用。为此,工程师们也是绞尽脑汁。最开始的技术,试卷整体扫描完成,工程师们定时去取数据,然后再上传到某个局域网,老师去机房判卷子。一取一传,紧赶慢赶往往也需要24小时。现在,在保障绝对安全的前提下,智能阅卷系统和试卷扫描系统可以连接到一个网上了,两者打通,省去了原来的“接头”时间。张凯说:“理想状态下可以实现扫描、人工网评和智能阅卷同步进行,数据实时互传。”
擦亮人工智能的“眼睛”
相比智能阅卷的耐力值而言,准确度是“更要命”的。
传统的网上评卷方式,评卷过程主要包括:扫描仪扫描答题卡,形成的图像被上传到计算机,再由教师在网上看图阅卷。换句话说,整个过程其实只是从纸上转移到了电脑屏幕上,评卷的质量保障都由教师把控。
让人工智能加入评卷后,会有什么变化?张凯将评卷过程“拆分”细解:首先在扫描阶段,计算机不再是简单地呈现图像,而是对扫描的答题卡进行图像转文本的处理,让图片转化为计算机能够“读懂”的文本,“基于大数据和海量文库资源的处理技术,计算机就能对客观题进行自动评分,同时还能检测出主观题里考生未作答的部分,单独形成一个空白题列表,不将这些题继续下发,为老师们评卷减负。”之后,进入教师网评阶段,计算机也可以帮助教师给主观题“查重”,比如筛出套作网络范文的作文,让教师单独处理这些试卷;甚至计算机就可以自主给主观题打分,作为教师双评、多评的辅助。
“实现这些应用场景,要突破3大技术要点。”张凯抛出3个专业术语——文本图像识别技术、基于深度神经网络建模的评分模型训练、多维度计算机智能评分算法。他贴心地将难懂的术语翻译成白话:“简单地说,我们要做的就是擦亮这位‘智能阅卷官’的眼睛,通过大量的训练,让它学会识字、辨错、测评,还要保证准确率达到教师阅卷的基本水平。”
突破技术要点的背后,工程师们在不断试错、默默耕耘。
光是图像识别转写文本,就让张凯和同事费了不少功夫。“假设要识别100张图像,我们需要先给这100张图像找到对应的准确文本,再和计算机识别的内容进行比对,得出准确率。”张凯笑着说,他和同事尝试了各种技术手段去找“标准答案”,比如融合多套算法“算”出准确的文本,借鉴网络上其他的识别转写技术等,不论怎样尝试,找到的“标答”还是不尽如人意……“试了一个月之后,我们发现还是最原始的方法最有效——找两个标注员,把同一张图像的文本敲出来,两人的答案如果还有偏差,就再找第三个人敲一遍,以此类推,最终找到准确的文本。”
考试中,还有些题的答案并不唯一,如何让计算机学会处理这些题目,也曾令张凯和同事“挠头”。“举个最简单的例子,一道数学题的答案是三分之一,学生写六分之二或者九分之三都算对,但是计算机最开始只认一个答案,这就导致最后机器评分的准确率大打折扣。”张凯说,类似的情况让计算机在数学等专业性较强的题目的评定上吃了亏,“有些专业领域的知识我们是想不到的,第一次发现答案有遗漏需要增补,是在一次考试之后做数据分析,于是我们想到要给计算机做更细更深的规约。”
张凯最开始想到的方法是把考生们的高频作答收集起来,形成一个新的样本,让老师进行一次评分,再让计算机学习,做出更准确的评定。“但我们在收集大量新样本时发现,老师评过的题目也不一定百分之百准确,计算机学习之后还是评不准。”张凯说,他们又想到把所有答案类型都统计出来,发给评卷组的老师逐一确认,然而这无疑又增加了老师的工作量,“以70万考生规模的考试为例,统计出来的答案数据也有2万条左右,让老师每条都看一遍也不现实。”
反复磨合、测试,张凯和同事们终于找到“最优解”:让计算机对考生的所有作答结果进行归类,“基本上能判断对错的归为一类,最核心、最需要评卷老师来判断的归为一类,让老师在这些作答中挑出正确答案。”张凯说,看似简单的步骤,背后其实需要工程师一步步地细化、完善,不断提高计算机的准确度。
2018年,张凯和同事带着这套人工智能辅助阅卷系统在某省高考评卷中进行了试验,探索人工智能评卷技术在多科目、多题型上应用的可行性。
“对我们来说,这是一次大考。”当年参加这场大考时的紧张感,张凯记忆犹新。他解释,这次试验内容包括:在线对高考语文、高考英语的作文题进行智能评分,并将评分结果应用于辅助质量监控;以离线方式验证高考语文简答题、高考数学证明和计算题、高考文科综合能力测试政治简答题的智能评分效果。“庞大的考生数量,阅卷涉及多个科目、多个题型,时间紧迫,这些因素无疑给我们增加了难度。但是,搞科研,就是要有韧劲儿。”张凯笑着说,当时国内还没有可借鉴的成功经验,团队就把这次大考当作对前两年“训练”成果的检验。
149万余份考卷、40台扫描和评卷用各类服务器、两周时间内评出所有试题结果……这次大考的“成绩单”,让张凯和同事们喜出望外。人工智能评分系统对各科抽取的试卷样本评分的准确率在95%左右,评分结果都经过了阅卷系统完整性、准确性检查。同时,这位“智能阅卷官”还检测出了特殊异常的作答样本,包括与范文库中文本内容相似度高、与当次考试试卷题干相似度高、考生之间作答内容相似度高三种情况。
项目组还在语文作文和英语作文中分别随机挑选了100份图片进行识别率的统计对比,结果显示:语文中文字符的识别准确率为96.93%,英语单词的识别准确率为98.88%。“我们的智能阅卷官已经超过了识别准确率在95%以上的目标,这说明它已经达到了一个较高的水平。”张凯兴奋地说,他们还根据智能评分得到的数据,与评卷教师的评分情况进行了比对,并对人机产生大分差的样本进行标注,将这些大分差样本数据下发给各学科组评卷专家进行复核,“各题型复核结果也表明,人工智能评分系统对辅助试卷质量监控起到精准定位、精细复核、精确评分的作用。”
人工智能评分系统在这次大考中的出色成绩,令张凯和同事们信心倍增。此后,他们又带着这位智能阅卷官参加了全国多个省市的各类考试。不断优化升级的过程中,智能阅卷官的准确率也在逐年提高:95%,97%,98%……到2021年,它已经能够作为高考阅卷的“一评”,参与填空题等答案明确题型的评分,准确率达99.5%以上。
从评卷到构建“智慧课堂”
和科研人员类似,“社会影响力”也是张凯所在项目组的绩效指标。从2016年实验室成立至今,项目组已经发表了语言识别、翻译、评测相关论文28篇,大多数都获得了自有知识产权专利;同时,项目组还发表了中文类手写体识别、评测相关论文11篇,获得10个相关专利,英文类手写体识别、评测相关论文4篇,获得4个专利。
依托项目组的自有知识产权专利,目前,人工智能辅助阅卷系统已经能够实现对语文、英语以及政治、历史等文科类学科试卷的智能评分,也可以处理数学这类公式相对统一的学科的试卷,下一步的目标是“精益求精”。“像化学、物理、地理这些学科,会涉及有机分子式、图形等一些特殊符号,在计算机图像识别转写上,这些难点是我们要进一步突破的。”张凯用“谨小慎微”形容他们正在做的工作,“还有很多细节,比如语文常用的删除号、调位号等修改符号,现在计算机只能把它们识别出来交给阅卷老师去复核;未来,我们希望它能独立完成对这些内容的处理。”
去年,智能阅卷官在北京“上岗”了。新中考首考中,从搭建试卷库、扫描仪、服务器,到实时处理数据,监控试卷安全……项目组在规定时间内顺利完成了20万考生近90万份答题卡的扫描阅卷工作。不仅这一场考试,大到高考、高中学业水平考试,小至一些学校的月考、期末考,各类考试中都有这套人工智能辅助阅卷系统不同程度的试点应用。
除了关注考试,在北京的中小学校园里,“智慧课堂”的建设也有人工智能系统的身影。今年,育英中学“上新”了一份个性化学习手册,里面包含了学生日常检测的错题解析、知识点讲解,以及针对薄弱知识点的拓展练习题,帮助学生有针对性地进行巩固提升,满足多样化学习需求。如果学生学有余力,可以自主自愿选择基于自身知识图谱生成的个性化学习手册,作为补充专题学习。这份智能手册不仅可以识别学生手写作答的中英文和公式,减轻教师的批改负担,还可以通过计算机阅读理解技术分析学生学情,推荐个性化学习方案。
“随着‘双减’政策的实施,我们也在探索人工智能在素质教育方面发力,提供能力辅助提升。”张凯说,在个性化推荐上,这套系统将转变以往推荐题库“刷题”的模式,更注重引导学生自主学习和素质培养,基于对学生的爱好分析,推荐更多相关的课外读物。看似简单的转变,其实需要研发人员做大量的工作才能实现。为此,张凯和同事除了在人工智能评卷技术上进一步拓展之外,也正在忙着探索人工智能在素质教育中的应用。
虽然每天面对着冷冰冰的计算机,做着看似枯燥的工作,工程师们的心却比谁都细腻温暖。“我们更想达到的目标是快乐教育,为孩子们减负,让他们开心成长。”采访结束,背景音里又响起航班开始登机的广播,张凯掐准时间,起身赶往下一座城市,他说,“为了万千学生,投身这一事业,再辛苦也值得。”
热图推荐
大货车为避让变道车辆撞向桥墩 没有造成人员伤亡
提升农作物秸秆利用效率 西洋店镇积极探索秸秆利用
倡导夜间加油 助力北京能源与自然和谐共生
贝佐斯将于第三季度辞去亚马逊首席执行官 担任董事
最近更新