AI“考生”挑戰北京中考,訊飛星火綜合實力登頂
剛剛落幕的2025年北京中考,因其大幅改革、題目創新性強且難度飆升,被眾多考生直呼“難哭了”。然而,一場別開生面的“AI中考”同步上演:在"快 科技 "組織的7款主流大模型測評中,訊飛星火以接近人類頂尖學霸的表現奪得綜合排名第一,其作文水平和數學能力尤為亮眼。測評完全模擬真實中考環境,選取語文作文《一堂科學課》、英語作文(題目二)及數學全卷作為考題,參賽模型包括訊飛星火、DeepSeek、豆包、通義千問、騰訊混元、文心一言及GPT。所有模型關閉聯網功能,打開深度思考,由資深專家嚴格判卷,確保公平性。
(圖源/快科技制圖)
數學戰場:星火穩居第一, 多模態技術 成關鍵短板
數學測評(滿分100分)是真正的“硬骨頭”,尤其考驗模型對復雜題目(尤其是含圖表信息題)的理解和邏輯推理能力。尤其考驗模型對復雜題目(含圖表)的理解和邏輯推理能力。測試采用圖片掃描和LaTeX格式兩種輸入方式,全面考察模型的信息處理能力。
訊飛星火在這兩項測試中表現穩健,雙格式下均以89分的高分位列榜首。其客觀題近乎完美,解答題也拿下57分(滿分68分),僅因幾何證明方法略微超綱等小瑕疵扣分,解題能力逼近人類優等生。
(圖源/快科技制圖)
(圖源/快科技制圖)
然而,測試也暴露了當前許多大模型的短板——圖像識別與多模態能力。Deepseek在圖片格式表現不佳,但切換為LaTeX格式后分數顯著提升,凸顯了其在數學推理方面的實力。GPT的表現更為戲劇化,圖片格式下得86分,LaTeX格式下卻因理解錯誤暴跌至63分。通義千問和文心一言在涉及圖像理解的題目上丟分嚴重,解答題得分均不足50分。
可以看出,大模型的綜合能力至關重要,不僅需要具備強大的推理能力和語義理解能力,還需要整合多模態技術優勢,如高精度的OCR識別等,以實現更全面的智能化應用。
作文賽場: 大模型寫作 文采斐然,立意深刻
在滿分40分的語文作文《一堂科學課》比拼中,訊飛星火以37.5分的高分位列榜首。評審專家、前人大附中分校語文名師李豪點評道,星火的作文“立意深刻獨到”,以親身潛水探索為核心,巧妙融合海洋生態知識(如珊瑚白化)、驚險體驗與深刻的生態責任感,細節描寫生動,結構嚴謹,首尾呼應巧妙,堪稱一類卷上乘之作”。目前國產大模型整體在寫作方面,都具備不俗的實力。海外模型GPT(32.5分)則暴露了在中文語境下的適配短板,被指“內容脫離實際,情感不足”。
英語作文(滿分10分)要求設計一所“夢想圖書館”。訊飛星火是全場唯一獲得滿分10分的“考生”。專家認為其作文完全覆蓋要點,描述生動具體,并精辟闡述了其功能意義,細節豐富。更令人印象深刻的是高級詞匯和復雜句式(如定語從句)運用得當,邏輯清晰,銜接自然。通義千問和文心一言也獲得9分的高分。但GPT(7.5分)的表現則令人意外,論證較為簡單,句式單一,未能充分發揮其“母語”優勢。騰訊混元(7分)則因內容缺乏獨特細節和語言表現力不足而稍顯遜色。
AI能力飛躍,本土優勢與多模態突破
這場特殊的“大模型中考”清晰地揭示了幾個重要趨勢:
1. ?中文大模型本土優勢顯著:在語文和英語寫作這類需要深度理解語言文化和語境的科目上,國產模型整體表現優異(平均分百分制超84分),遠超國際巨頭GPT。
2. ?多模態能力是核心競爭力:數學測試證明,能否準確識別和理解圖像、圖表信息,成為決定模型在理科領域表現的關鍵分水嶺,訊飛星火和豆包在此方面展現領先潛力。
3. ?AI已超越簡單問答:大模型展現出處理復雜寫作、函數證明、邏輯推導等高級任務的能力,正從“信息檢索”向真正的“問題解決”邁進。
人類創意不可替代:AI與教育的未來
盡管AI表現驚艷,專家也冷靜指出,再精妙的算法也寫不出少年們在考場上的緊張心跳,也復制不了人類靈光乍現的獨特創意。正如一位評審所言:“星火作文中描述的‘守護藍色海洋的心跳’文字極美。”但這終究是基于數據的模擬,而非源于生命的真實共情。
訊飛星火在此次高難度“AI中考”中的綜合登頂,不僅是一次技術實力的展示,更像是一張面向未來的邀請函:人工智能在教育等領域的應用正邁向更深層次。未來,AI有望成為學生強大的學習助手,輔助知識整合與基礎訓練;成為教師的高效工具,分擔批改等重復勞動,讓教育者更聚焦于激發創造力和批判性思維。同時,本次測評暴露的短板(如圖像理解、深度情感表達)也為技術發展指明了攻堅方向。