AI“考生”挑戰北京中考，訊飛星火綜合實力登頂

砍柴網 ? 16小時前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

剛剛落幕的2025年北京中考，因其大幅改革、題目創新性強且難度飆升，被眾多考生直呼“難哭了”。然而，一場別開生面的“AI中考”同步上演：在"快科技 "組織的7款主流大模型測評中，訊飛星火以接近人類頂尖學霸的表現奪得綜合排名第一，其作文水平和數學能力尤為亮眼。測評完全模擬真實中考環境，選取語文作文《一堂科學課》、英語作文（題目二）及數學全卷作為考題，參賽模型包括訊飛星火、DeepSeek、豆包、通義千問、騰訊混元、文心一言及GPT。所有模型關閉聯網功能，打開深度思考，由資深專家嚴格判卷，確保公平性。

（圖源/快科技制圖）

數學戰場：星火穩居第一， 多模態技術 成關鍵短板

數學測評（滿分100分）是真正的“硬骨頭”，尤其考驗模型對復雜題目（尤其是含圖表信息題）的理解和邏輯推理能力。尤其考驗模型對復雜題目（含圖表）的理解和邏輯推理能力。測試采用圖片掃描和LaTeX格式兩種輸入方式，全面考察模型的信息處理能力。

訊飛星火在這兩項測試中表現穩健，雙格式下均以89分的高分位列榜首。其客觀題近乎完美，解答題也拿下57分（滿分68分），僅因幾何證明方法略微超綱等小瑕疵扣分，解題能力逼近人類優等生。

AI“考生”挑戰北京中考，訊飛星火綜合實力登頂

（圖源/快科技制圖）

AI“考生”挑戰北京中考，訊飛星火綜合實力登頂

（圖源/快科技制圖）

然而，測試也暴露了當前許多大模型的短板——圖像識別與多模態能力。Deepseek在圖片格式表現不佳，但切換為LaTeX格式后分數顯著提升，凸顯了其在數學推理方面的實力。GPT的表現更為戲劇化，圖片格式下得86分，LaTeX格式下卻因理解錯誤暴跌至63分。通義千問和文心一言在涉及圖像理解的題目上丟分嚴重，解答題得分均不足50分。

可以看出，大模型的綜合能力至關重要，不僅需要具備強大的推理能力和語義理解能力，還需要整合多模態技術優勢，如高精度的OCR識別等，以實現更全面的智能化應用。

作文賽場： 大模型寫作 文采斐然，立意深刻

在滿分40分的語文作文《一堂科學課》比拼中，訊飛星火以37.5分的高分位列榜首。評審專家、前人大附中分校語文名師李豪點評道，星火的作文“立意深刻獨到”，以親身潛水探索為核心，巧妙融合海洋生態知識（如珊瑚白化）、驚險體驗與深刻的生態責任感，細節描寫生動，結構嚴謹，首尾呼應巧妙，堪稱一類卷上乘之作”。目前國產大模型整體在寫作方面，都具備不俗的實力。海外模型GPT（32.5分）則暴露了在中文語境下的適配短板，被指“內容脫離實際，情感不足”。

英語作文（滿分10分）要求設計一所“夢想圖書館”。訊飛星火是全場唯一獲得滿分10分的“考生”。專家認為其作文完全覆蓋要點，描述生動具體，并精辟闡述了其功能意義，細節豐富。更令人印象深刻的是高級詞匯和復雜句式（如定語從句）運用得當，邏輯清晰，銜接自然。通義千問和文心一言也獲得9分的高分。但GPT（7.5分）的表現則令人意外，論證較為簡單，句式單一，未能充分發揮其“母語”優勢。騰訊混元（7分）則因內容缺乏獨特細節和語言表現力不足而稍顯遜色。

AI能力飛躍，本土優勢與多模態突破

這場特殊的“大模型中考”清晰地揭示了幾個重要趨勢：

1. ?中文大模型本土優勢顯著：在語文和英語寫作這類需要深度理解語言文化和語境的科目上，國產模型整體表現優異（平均分百分制超84分），遠超國際巨頭GPT。

2. ?多模態能力是核心競爭力：數學測試證明，能否準確識別和理解圖像、圖表信息，成為決定模型在理科領域表現的關鍵分水嶺，訊飛星火和豆包在此方面展現領先潛力。

3. ?AI已超越簡單問答：大模型展現出處理復雜寫作、函數證明、邏輯推導等高級任務的能力，正從“信息檢索”向真正的“問題解決”邁進。

人類創意不可替代：AI與教育的未來

盡管AI表現驚艷，專家也冷靜指出，再精妙的算法也寫不出少年們在考場上的緊張心跳，也復制不了人類靈光乍現的獨特創意。正如一位評審所言：“星火作文中描述的‘守護藍色海洋的心跳’文字極美。”但這終究是基于數據的模擬，而非源于生命的真實共情。

訊飛星火在此次高難度“AI中考”中的綜合登頂，不僅是一次技術實力的展示，更像是一張面向未來的邀請函：人工智能在教育等領域的應用正邁向更深層次。未來，AI有望成為學生強大的學習助手，輔助知識整合與基礎訓練；成為教師的高效工具，分擔批改等重復勞動，讓教育者更聚焦于激發創造力和批判性思維。同時，本次測評暴露的短板（如圖像理解、深度情感表達）也為技術發展指明了攻堅方向。

国产精品国产a_久久久久久久久综合_免费午夜视频_黄色大片网站_欧美一级免费_av成人在线观看

AI“考生”挑戰北京中考，訊飛星火綜合實力登頂

隨意打賞