抱歉,我們並不支援你正使用的瀏覽器。
為達至最佳瀏覽效果,請更新至最新的瀏覽器版本。
如有問題,歡迎電郵至 pccwmediaiapps@pccw.com 查詢。
為達至最佳瀏覽效果,請更新至最新的瀏覽器版本。
如有問題,歡迎電郵至 pccwmediaiapps@pccw.com 查詢。
廣告
【Now新聞台】來自北大等研究團隊評估多個頂尖人工智能模型的學術誠信,發現面對數據缺失時,會傾向造假來交出結論,整體問題率達34%。
人工智能AI有助學術研究,但論文用AI時,援引的數據出錯時有發生。北京大學、上海同濟大學和德國圖賓根大學的研究團隊,日前發表全球首份專門評估AI學術誠信的基準測試,以11種陷阱作「困境評估」,包括提供無數據的空表格等,發現全球7款頂尖大模型在231次高壓測試中,整體問題率達34%。這7款模型面對空白數據,全部均選擇「無中生有」,自己寫代碼偽造參數,並無匯報錯誤。
測試中,表現最好的Claude 4.6 Sonnet在33次高危場景,僅出現一次致命失誤,克制力極強,對約束條件和邏輯漏洞有清晰認知,但仍未能觸發「誠實拒絕」機制。
ChatGPT-5.2及DeepSeek V3.2則有2至3次失誤,被評為「高智商的任務妥協者」,會為完成目標放棄自己作出的正確診斷,交出荒謬但能交差的結論。
中規中矩的就有Gemini 3.1 Pro、通義千問的Qwen 3.5和智譜的GLM 5 Pro,它們當遇上數據截取困難時,較傾向選擇造假。
表現最差的是失誤12次的Kimi 2.5 Pro,會自信地捏造數據和編造虛假文獻,情況可能會在真實實驗室引發重大事故。
論文指,問題根源在於「完成度偏見」,AI模型承認自己做不到或會被留下壞印象,變相只求輸出結果而不問過程,建議用家刪除「必須完成任務」的高壓指令,則可大大減低AI隱瞞偽造數據的比例。
