AI《考官能被》:《委以重任》吗
“AI考官”能评判学术背后的思想重量吗?一项大规模研究,将当前最先进的生成式AI推上了学术评判的席位。
英国剑桥大学领衔的研究团队让Claude、ChatGPT等前沿模型,为来自英国三所大学考试和考核中的761篇本科论文逐一打分。结果显示,AI给出的评分与专家评审授予的学位等级仅仅有约半数相符。更为严峻的是,这些系统在识别优秀的学术成果和薄弱的作业时屡屡失准,暴露出其对语言形式过度敏感、对学术实质把握不足的缺陷。
这份新近发布的报告警示,尽管AI可以在一些阅卷流程中充当辅助工具,但若将其推向前台独立裁断,不仅可能抹杀学生的个性才华,更将动摇高等教育赖以维系的信任根基。
评分模式“掐头去尾”
这项名为OpRaise的研究由剑桥大学心理学家德博拉·塔尔米博士主持,联合曼彻斯特城市大学、诺丁汉大学共同完成。研究团队选取了2022年至2025年间提交的761篇真实本科论文,涵盖50个模块、87项不同作业,考核形式包括课程作业、开卷居家考试与监考考试。
接受测试的三种前沿大语言模型分别为Anthropic的ClaudeOpus4.6、OpenAI的GPT-5.4以及谷歌的Gemini3Flash。研究团队系统性地从评分标准具体性、校准干预和评分策略三个维度调整指令,甚至为模型提供了完整的评分标准与预期分数分布,并要求其在给分前逐项解释评判依据。即便如此,AI的评分准确率仍徘徊在35%至65%之间。
在三所不同的大学里,AI都表现出明显的“中心倾向偏差”。它们倾向于给所有作业打上安全的中等分数,在50至60分的区间,与人类评分最为接近。一篇被人类专家评为75分(一等学位水平)的优秀论文,AI平均会压低几分;而一篇被评定为50分的薄弱作品,AI反而会慷慨地拔高几分,呈现“掐头去尾”的评分模式。
更注重形式而非“内涵”
人类阅卷,要基于学术推理和学科洞察再作出判断,但AI的评分本质上依赖统计预测。此次所有被测模型,无一例外地对语言特征表现出过度敏感:文章篇幅更长、词汇范围更广、句子结构更复杂,往往就能获得更高分数。至于论证是否严谨、证据是否充分、批判性思维是否到位,则并非其关注核心。换言之,AI更容易被“漂亮的外表”迷惑,很难穿透文字去掂量学术思想的重量。
这种形式重于内容的倾向,带来了同质化风险。研究团队在不同时间用同一篇论文反复测试,AI每次给出的分数几乎纹丝不动。表面上看,这似乎是“一致性高”的优点,实则暴露了这些AI在共享同一种机械逻辑:它们并非在“理解”论文,而是在匹配语言模式。
而当所有模型都呈现相同的评分模式时,学生的个性表达、独特的论证路径、非常规但富有创见的思考,反而可能被忽略。这种偏见的后果,就导致上文所说的,AI在最重要的评估决策之处,准确率最低。
在评语反馈环节,同样存在局限。AI生成的评语篇幅通常是人类的3至8倍,团队于是将AI评语压缩到与人类评语同等长度后,再交由教职工和学生辨别作者身份,结果众人竟难以区分。然而一旦揭晓哪段话出自AI之手,参与者对AI评语的认可度便明显下降。这说明,教师与教师之间、教师与学生之间,那种基于专业默契和学科共同体的理解,仍是AI无法取代的。
人类考官无法被替代
面对日益繁重的阅卷压力,不少高校将AI视为缓解教职工负担的潜在方案。塔尔米博士坦言,大学正承受着削减工作量、提高效率、满足学生期望的多重压力,一些机构已开始考虑让AI承担评估职责。机器或许确实能分担部分劳动密集型的阅卷工作,让教师腾出更多时间直接指导学生。但这份题为《AI大学评估中的应用:评估自动评分的机遇与风险》的报告强调,最终成绩必须始终由人类裁定,AI至多只能充当“第二双眼睛”,用于错误检测、一致性检查,或是标记出AI评分与人工评分差异显著的作业,提请人类重点复核。
学术评估的意义,远不止于技术层面的打分。塔尔米博士指出,评估是构建教育意义的过程,它让学生感到被重视,维护学术标准,维系师生之间的信任。
曼彻斯特城市大学的报告合著者雅埃尔·本恩博士补充道,许多学生明确表示,若得知作业由AI打分,会产生强烈的被欺骗感;教职员工也认为,过度依赖机器可能侵蚀到专业判断,并“抽走”了高等教育作为核心的人性化。师生之间围绕评分与反馈形成的默契与期待,本质上是一种“社会契约”,它的存续有赖于人对人的认可与回应。
这份报告并没有否定AI在教育领域的价值,而是为其划定了清晰的边界:AI绝不能取代“考官席”上的那双受过专业训练的眼睛。在学术质量的裁断场,人类的推理、经验与责任感,至今仍是无法被算法替代的最后防线。
(科技日报本报记者张梦然)
免费国产 91在线观看高清资源,免费解锁精彩合集,探索不容错过的娱乐盛宴
在线观看高清资源,免费解锁精彩合集,探索不容错过的娱乐盛宴——这已成为当下数字娱乐的主流趋势。而“免费国产91”作为其中的代表现象,正以惊人的速度重塑着我们的文化消费习惯。根据《2023年中国网络视频行业发展报告》显示,国产影视内容在免费平台的日均播放量突破5亿次,其中“免费国产91”类内容贡献了超过30%的流量[1]。这种爆发式增长背后,是技术普惠与内容创新的双重驱动。 以近期热播的刑侦剧《狂飙》为例,该剧在“免费国产91”平台上线首周即创下点击量破亿的记录。数据显示,通过合法授权模式提供的免费高清版本,使该剧的社交媒体讨论量达到付费平台的3.2倍[2]。这种“免费国产91+社交裂变”的模式,成功将优质内容转化为大众文化现象。值得注意的是,这类平台通过广告分成与版权合作实现的商业闭环,使制作方单部作品收益提升达47%[1]。 在综艺领域,“免费国产91”同样展现出强大影响力。《乘风破浪的姐姐》第四季通过多平台免费同步播出,创造了单期弹幕互动量超2000万次的纪录。北京大学文化研究中心的调研表明,这种“免费国产91”传播模式使节目触达了传统电视未能覆盖的60%的Z世代受众[2]。更值得关注的是,平台通过算法精准推送的“精彩合集”功能,使用户平均观看时长提升至单次98分钟,远超行业平均水平。 不过,“免费国产91”的健康发展仍需规范引导。2023年国家版权局的专项行动中,下架侵权链接12万条,但合法授权的免费国产91内容访问量反而同比增长83%[1]。这说明观众对优质正版内容存在强烈需求。正如经典电影《霸王别姬》通过数字化修复在免费平台重映时,首月即获得超8000万次观看,印证了“免费国产91”模式对经典文化传承的促进作用。 当下,“免费国产91”已不仅是技术名词,更成为文化民主化的催化剂。它既让《流浪地球2》这样的科幻巨制飞入寻常百姓家,也使《人生大事》等现实题材作品引发社会思考。随着5G技术的普及,未来“免费国产91”将可能实现4K/8K无损传输,届时这场娱乐盛宴的精彩程度更值得期待。