校园生活

“反套路”期末考试，这门课让学生出题、AI答题

作者：赵天润摄影：杨娇、受访者提供视频：来源：校融媒体中心发布时间：2026-06-29

“人类智慧终能战胜AI。”计算与智能创新学院教授肖仰华在朋友圈写下这句话时，他教授的“数据挖掘技术”课程刚刚结束一场特殊的期末考试。

这场考试中，学生不但没有坐在考场里答题，还全部成了出题人，用自己设计的10道题去“考倒”三个当今最先进的AI模型，AI答错的题越多、被难倒的模型越强，出题学生的得分就越高。

51份期末试卷中，50人至少让某个AI答错过一题，仅1人完全没难倒任何模型。但能让任一模型整张卷得0分的，只有4人，且三个应考模型中最强的Claude模型没有被任何学生完全考倒。全班平均分85.7分，中位数88分。这是这场“人考AI”期末考核交出的成绩单。

一场特殊的期末考试：学生出题，AI答题

“传统的出题考察方式，在AI时代已经失效了。”肖仰华开门见山地说。

过去，期末考试考的是学生会不会算一道题，但关联规则、决策树、贝叶斯分类……但这些恰恰是AI最擅长的。

“老师出一道标准的算法题，AI比任何学生都算得快、算得准。继续用这种方式考，等于在AI的强项上跟AI比，这没有意义。”

于是，“数据挖掘技术”的期末作业改成，每人出10道数据挖掘领域的计算题，要求有唯一正确答案和完整的推导计算过程。拿着这10道题去考三个不同水平的AI模型。AI答错越多，学生得分越高。

“人考AI”考核流程示意图（出题→AI作答→自动判分→助教复核）

三个模型对应三个难度梯度：DeepSeek V4-Flash答错一题+1.5分、MiniMax M2.7答错一题+2分、Claude Sonnet 4.6答错一题+3分。总分=60分保底+AI难度分，封顶100分。“只要认真出满10道合规题就有60分保底，难倒AI是加分项。”肖仰华介绍。

考题要遵循几条硬性规则。题目必须基于课程讲过的知识或教材内容，每道题要有唯一正确答案，学生自己得先能把题从头到尾算对。正如肖仰华所说：“自己出的题自己都不会，那算不上真本事。”

“这个设计的核心理念是，我要让学生相信，只要你真正深入理解了知识，你就能找到AI的盲区。这不是运气，是能力。”

怎么让AI“翻车”？学生各有奇招。

计算与智能创新学院24级本科生谢锦树最后拿到了97分。他出的10题全是SHAP值、HITS、HMM、ChiMerge、CART+贝叶斯网络这类重计算题，标准答案经独立验算正确，三个模型几乎全错，在肖仰华看来这就是“人能做对、AI做不对”的典范。

谢锦树的出题思路从人工探索开始。他翻教材自己设计题目，发现如果把教科书原题有意进行修改，AI仍会依据训练时学到解题思路给出答案，而不会作出相应调整；做选择题时，去掉部分选项和保留全部选项，AI给出的答案也不一样，即使正确答案一直在选项里。“这说明AI在专业知识上的幻觉相当严重。”

但10道题的体量靠人工完成效率太低。“神不能创造一块自己搬不动的石头，但AI可以创造自己做不出来的题。”于是他想，能不能让AI出题来难倒自己？

他搭建了一个多智能体协作的自动化出题框架，用GPT-5.5-Pro做出题层，三个应考模型作答并自动判分。框架跑起来后，他发现AI会“作弊”。

课堂上，学生正在专注听课

比起老老实实出一道高质量的难题，AI更倾向于攻击评测脚本本身。它会伪造标准答案，把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。

于是他加了一个审查层，由人类给审查模型补充规则，拦截钻空子行为，审查通过了再把题目送去考那三个模型。这套框架跑了四天，中间不断迭代，最终自动生成了10道题，三个应考模型全部答错。

与谢锦树不同，计算与智能创新学院23级本科生巫瀚东选择的策略是“规模碾压”。他出题时把数据量拉到AI输入上限的边缘。

“AI本质上没有记忆能力，数据量大到一定程度，它就会遗忘前面的信息。”巫瀚东说。他出的题目涉及数万条记录、上百个三元组的精确统计，要求答案精确到4位小数。一个问答式AI无法调用工具进行精确计算，只能靠“注意力机制”抓重点，但只要漏掉一个值，整道题就错了。

他起初让AI自己探索策略，但它在几个类似的方法上反复打转。后来他把大规模数据这个思路加进去，十分钟就设计出了难倒AI的题目。

除了数据和计算层面的设计，也有学生在题目结构上做文章。经济学院23级本科生温嘉宸的10道选择题标准答案全是E，也就是“以上都不是”。

他考察的是，大模型能否跳出题目本身，审视题目自身信息不充足这个事实。每道题看上去像有确定性的答案，但其实题干缺少关键假设条件，逻辑上无法得出明确结论，正确做法只能选E。

“这专治模型非要给个确定答案的惯性，考的不仅仅是解题能力，更是元认知能力，即能不能意识到这道题本身就不该有答案。”肖仰华解释道。

新闻学院24级传播学专业的本科生黎育嘉也是少数跨专业选课的学生。她选择从教材习题出发，寻找细节漏洞。先找出自己觉得教材中的复杂的题目让AI试做，遇到让AI花时间长或者容易混淆的题目就保留下来，完成得不错的就让AI自己把难度往上加，增加嵌套推理或者拉长计算流程。

她设计的一道题关于规则有趣度，需要从两个变量综合考虑。题干先引导AI算出其中一个变量，让它只盯着这一项，忽略了另一个关键条件，最终答案与正确结果完全不同。

50人能考倒AI，但只有4人能让它得0分

“让AI偶尔翻车很容易，让最先进的模型系统性归零非常难。 ”总结这次考试，肖仰华这样说。

为什么有的学生能做到，有的做不到？他观察到一个最大的差异，即高分学生自己能把题从头到尾算对，低分学生出了题自己也不知道答案。

“二者的差距不在出计算题还是概念题。”肖仰华说，低分段的同学也在出Apriori自连接、k-means、PCA重构这些题，但数据规模小、计算步数少、答案是课本上的例题水平。高分段的同学出的是长链条、高精度、零容错的计算任务，比如20条交易建整棵FP-tree、整张CSV跑所有三元组、精确到小数点后四位。

“高分同学对AI的弱点有准确判断，他们的题能命中AI的结构性缺陷；低分同学只是把课本习题换了个数字，AI在训练时见过千百万遍，直接套模板就对了。”

这一观察，让肖仰华心生警惕。学生能力的分层正在被AI拉大，这种差距比传统考试体现出来的问题更加严峻。那些能力本来就偏弱的学生，如果只会依赖AI做作业，自己的判断力会进一步退化。强的更强、弱的更弱，“AI正在放大这种‘马太效应’。”

黎育嘉记得课程之初，老师引用了新闻学院教授张涛甫文章中的一段话：“随着信息的增加，更高的判断能力却渐渐枯萎。信息唾手可得，而获得深刻的知识却是一个平缓而漫长的过程。”这也是她在经历这次期末考核后的感受。“AI懂的都是信息，但它对知识的掌握没有人类强。怎么把信息转化为知识？这个能力人还在摸索，AI更做不到。”

用AI辅助学习从“一学期两次”到“每课一练”

这场“人考AI”的期末考核，也只是“数据挖掘技术”课教学改革的一部分。

传统的数据挖掘课程遵循经典算法体系，沿着关联规则、决策树、贝叶斯、SVM、各种聚类方法、离群点检测等模块一路推进，18周按部就班地完成教学。考核方式也大多由出勤、实践报告、期末闭卷考试为主，实践环节一学期只安排一到两次大作业，频次很低。

AI是大势所趋，无法拒绝，课程必须拥抱AI，这是肖仰华很早就确立的基本判断。

所以在“人考AI”之前，他已经做了几步铺垫。首先，新课程的教学内容仍以经典数据挖掘知识为骨架，但课程内容分成了数据本身的理解、数据预处理、频繁模式挖掘、分类与聚类、异常检测加前沿方向等五个模块推进。

其次，他鼓励学生把AI当作学习伙伴，遇到概念不清楚的，先问AI再来课堂讨论。今年在这门课上，肖仰华全面引入了师生团队自研的智能体（GenericAgent），用于完成课程项目。这个Agent能操作浏览器、读取本地文件、帮助完成数据分析任务，不同于只能对话的网页版AI。

引入AI Agent后课程效率提高显著。过去，从数据清洗到建模到调参，一个完整项目耗时太长。现在有了AI辅助，实践训练从一学期一到两次变成了每课一练，本学期课程训练作业就有9次之多。“学生动手的频次上来了，对算法的理解也从纸面走向了真实场景。”

谢锦树印象深刻的一次作业是用AI Agent在Kaggle平台上参加一个10年前的信用卡欺诈检测比赛。“以前选手需要一个月手写代码，我们有AI辅助，两天就冲到了第四名。代码细节交给AI，人的价值在于给AI出方案、做判断。”

在这门课中，学生借助AI Agent完成数据挖掘实操练习

除此之外，课程作业还包括，用AI Agent爬取和分析肖仰华本人的DBLP论文数据，挖掘学术合作关系；让AI把FP-Growth算法的计算过程做成GIF动画，用可视化的方式“教会自己”……“具体的算法细节和代码实现，AI能帮我们完成。我们的任务是跑通从收集数据到分析再到得出结论的全流程。”谢锦树说。

未来的课怎么教？从“怎么算”到“怎么判断”

那么，未来这门课究竟要怎么教？肖仰华已经有了清晰的构想。

首先，是考核方式的彻底转型。“人考AI”的模式会继续做下去，而且要做得更系统。在他看来，传统那种考记忆、考计算的出题方式必须退场，未来的考核重点将全面转向评价能力、判断能力和创造性思维，这些高阶能力才是AI替代不了的。

课上，一名学生分享“人考AI”出题的设计思路

课程的教学重心也在慢慢转移。“过去讲算法，重点落在推导和计算上，学生要会算、会写代码。但现在，算和写这些事AI都能做，而且做得不差。”所以课堂上更多的时间被用来讨论，学生怎么判断一个结果是对的还是错的？怎么识别AI在哪里会出问题？怎么提出一个AI回答不了的好问题？用肖仰华的话说，这门课正在从训练学生“怎么做”，转向训练他们“怎么指挥AI来做、怎么评判AI做的结果”。

在AI快速迭代背景下，如何创设能切实评价学生高阶思维能力的考核方式，是当前本科教育教学改革3.0面临的重要课题。教务处相关负责人也表示，学校正在积极关注评价方式优化和革新，并支持教师在学校AI教育教学应用指引的助力下，探索课程考核与教学评价的创新路径。

除此之外，这次考试暴露出的学生能力的分化也是一个亟待破解的难题。接下来，肖仰华的课程设计会有意识地去托住这部分学生，帮他们建立最基本的判断底线，不能让他们沦为只会点击“确认”的AI使用者。

回顾这次教学试验，肖仰华说，“它证明了人定胜AI。但前提是你得比AI更了解AI的运作方式。在AI能力飞速提升的背景下，一个人最重要的竞争力，不是会不会用AI，而是能不能驾驭它、评判它。不要做AI的执行者，要做AI的裁判官。”

制图：实习编辑：何瑞责任编辑：李斯嘉

导航

新闻聚焦

“反套路”期末考试，这门课让学生出题、AI答题

相关文章

文化校历

新闻分类

推荐视频

图说复旦

新闻排行

周排行月排行

导航

新闻聚焦

“反套路”期末考试，这门课让学生出题、AI答题

相关文章

文化校历

新闻分类

推荐视频

图说复旦

新闻排行

周排行 月排行

周排行月排行