原标题:AI“偏科”改善意味着什么
6位清华姚班学生与AI比赛做高考数学、物理压轴题,姚班学生10分钟内完成作答,1位同学做错了题目,AI则在输入确认后几秒就开始输出步骤,并答对了题目——最近,企业发布的一个视频让不少人大吃一惊。
犹记得去年7月,一道小学生难度的数学题“9.11和9.9哪个大”,难倒了一众海内外AI大模型。不少评测机构把高考题拿给大模型做,也发现大模型更擅长回答文科试题,而不太擅长回答数学、物理等理科题目,于是有了一个形象的说法:大模型更像文科生而不是理科生。
AI“偏科”,一方面与大模型的架构和运行机制有关,大模型的解答方式本质上是“预测下一个词”,即通过当前输入的文本预测下一个词出现的概率来进行训练和回答。文科推理预测有一两处错误,不影响长文本理解;理科推理则更考察因果性而非相关性,“比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%”。另一方面,文科语料数据丰富多样,有利于训练大模型,理科语料主要是数字和符号,形式单一,数据资源少,不利于训练大模型。
通过“偏科”背后的运行机制,不难看出,大模型的数理能力之所以重要,甚至被认为是大模型“智力的直接体现”“实力的重要分水岭”,正因为它关系到落地应用时的可靠性和准确性。例如,在聊天场景下,智能客服一本正经地胡说八道,影响不大;而在金融、工业场景下,即便是一个数字出错,后果可能都让人吃不消。随着“人工智能+”持续推进,大模型加速赋能千行百业成为行业共识与竞争焦点,改善AI“偏科”,扩展应用场景,就成了必答题。
综合比较不同机构在不同时期的评测,绝大多数大模型的数理能力在提高,有的还能达到“博士”“清北”水平,速度之快让人惊叹。当然,正如专家所说,在真实业务场景中,AI要处理的信息远不止于语言,而是多模态数据的融合,随着多模态技术的发展,AI将从语言模型演进为推理模型,最终发展为世界模型,“在推理与理解能力提升的基础上,下一步的关键方向是智能体”。唯有具备完整决策与执行能力的AI智能体,才能真正实现商业价值的闭环。
去年,第一个具有“专家级数理能力”的大模型出现时,就有人担忧,人工智能的发展速度超过了人类对其认知的速度,人工智能治理将是一个巨大挑战。有学者就提到,“人类用了大概300万年才发展到现在的智力水平,现在的大模型几个月就从IQ 80飙升到130了,未来还会继续提升。这对教育意味着什么?”如今,大模型迭代速度越来越快,性能越来越强大,有望在数理能力等方方面面逼近甚至超过人类平均水平,除了要思考AI治理问题,人机共生时代,回答好如何实现AI与人类优势互补问题,也迫在眉睫。(维辰)
