北大等研究測試7大頂尖AI模型學術誠信　問題率逾三成

抱歉，我們並不支援你正使用的瀏覽器。
為達至最佳瀏覽效果，請更新至最新的瀏覽器版本。
如有問題，歡迎電郵至 pccwmediaiapps@pccw.com 查詢。

【Now新聞台】來自北大等研究團隊評估多個頂尖人工智能模型的學術誠信，發現面對數據缺失時，會傾向造假來交出結論，整體問題率達34%。

北大等研究測試7大頂尖AI模型學術誠信。

人工智能AI有助學術研究，但論文用AI時，援引的數據出錯時有發生。北京大學、上海同濟大學和德國圖賓根大學的研究團隊，日前發表全球首份專門評估AI學術誠信的基準測試，以11種陷阱作「困境評估」，包括提供無數據的空表格等，發現全球7款頂尖大模型在231次高壓測試中，整體問題率達34%。這7款模型面對空白數據，全部均選擇「無中生有」，自己寫代碼偽造參數，並無匯報錯誤。

測試中，表現最好的Claude 4.6 Sonnet在33次高危場景，僅出現一次致命失誤，克制力極強，對約束條件和邏輯漏洞有清晰認知，但仍未能觸發「誠實拒絕」機制。

ChatGPT-5.2及DeepSeek V3.2則有2至3次失誤，被評為「高智商的任務妥協者」，會為完成目標放棄自己作出的正確診斷，交出荒謬但能交差的結論。

中規中矩的就有Gemini 3.1 Pro、通義千問的Qwen 3.5和智譜的GLM 5 Pro，它們當遇上數據截取困難時，較傾向選擇造假。

Kimi 2.5 Pro的表現及失誤最差。

表現最差的是失誤12次的Kimi 2.5 Pro，會自信地捏造數據和編造虛假文獻，情況可能會在真實實驗室引發重大事故。

論文指，問題根源在於「完成度偏見」，AI模型承認自己做不到或會被留下壞印象，變相只求輸出結果而不問過程，建議用家刪除「必須完成任務」的高壓指令，則可大大減低AI隱瞞偽造數據的比例。

北大等研究測試7大頂尖AI模型學術誠信 問題率逾三成

北大等研究測試7大頂尖AI模型學術誠信　問題率逾三成