国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

AI評測新招:讓AI在《我的世界》中比拼建筑創意

   時間:2025-03-22 16:24 來源:ITBEAR作者:鐘景軒

在探索人工智能(AI)能力邊界的過程中,傳統的基準測試方法正面臨挑戰。為了更全面、直觀地評估AI模型的能力,開發者們正轉向一些非傳統途徑,其中,《我的世界》這款沙盒建造游戲成為了備受矚目的測試平臺。

據TechCrunch報道,一位名叫阿迪·辛格的高三學生,憑借對AI評測的獨到見解,創建了名為Minecraft Benchmark(簡稱MC-Bench)的網站。該網站利用《我的世界》作為競技場,讓AI模型在相同的提示下生成建筑作品,并通過用戶投票的方式評選出優秀作品。投票結束后,才會揭曉每幅作品的創作者——即哪款AI模型。

辛格表示,選擇《我的世界》并非因為其游戲性,而是其廣泛的知名度和獨特的方塊風格。這種風格使得即便是非玩家也能輕松分辨出哪個方塊狀的建筑更加逼真?!啊段业氖澜纭窞槲覀兲峁┝艘粋€直觀的窗口,讓我們能夠清晰地看到AI發展的進步。大家對這款游戲的視覺風格非常熟悉,這使得評估過程更加直接和有效?!?/p>

目前,MC-Bench網站已經吸引了8名志愿貢獻者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨頭為該項目提供了寶貴的AI計算資源支持,盡管他們并未直接參與網站的開發工作。

辛格進一步解釋說,MC-Bench目前的測試還處于基礎階段,主要用于觀察AI從GPT-3時代到現在的進步。然而,他展望了未來可能的拓展方向:“我們或許可以將測試擴展到更復雜的目標導向任務和長期規劃能力評估。游戲作為一種測試平臺,具有安全性和可控性的優勢,是評估AI智能體推理能力的理想選擇?!?/p>

從嚴格意義上講,MC-Bench屬于編程基準測試的一種變體,因為AI模型需要編寫代碼來生成建筑,如“霜雪人”或“熱帶風情的海濱小屋”等。這種測試方式相較于傳統的代碼分析更具直觀性,因為大多數用戶更容易通過作品本身來評判AI的表現。

盡管關于這些測試結果是否能真正反映AI的實際應用價值仍存在爭議,但辛格認為這些數據仍然具有重要的參考價值?!癕C-Bench的排行榜與我在實際使用中的體驗高度一致,這在許多傳統的文本基準測試中并不常見。因此,我相信它能夠幫助AI開發者判斷自己是否正在朝著正確的方向前進?!?/p>

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 精品国产综合区久久久久99 | 亚洲第一视频在线播放 | 四虎成人免费影院网址 | 亚洲综合色网 | 久久精品久久久久 | 久久久久久久蜜桃 | 久久精品九九 | 在线a亚洲视频播放在线观看 | 亚洲伊人天堂 | 人人爽天天爽 | 伊人草久| 激情综合网婷婷 | 丁香综合网 | 狠狠色丁香婷婷综合激情 | 一级电影免费在线观看 | 久久99精品国产 | 夜夜精品视频 | 性夜影院爽黄a爽免费视频 在线观看免费视频国产 | 波多野结衣mp4 | 中文国产日韩欧美视频 | 伊人国产精品 | 欧美亚洲国产日韩一区二区三区 | 中文字幕精品视频 | 久久久免费精品视频 | 蜜桃网视频在线蜜桃8477 | 国产精品麻豆网站 | 国产精品成人一区二区三区 | 欧美日韩亚洲电影网在线观看 | 在线高清一级欧美精品 | 欧美日韩在线视频观看 | 亚洲国产99 | 黄色大片国产 | 亚洲国产成人精品一区二区三区 | 日韩在线欧美 | 亚洲午夜精品国产电影在线观看 | 调教女m视频免费区 | 啦啦啦社区手机在线视频免费视频 | 最近的中文字幕在线看 | 成人精品一区二区三区 | 久久久久久久男人的天堂 | 在线亚洲欧美日韩 |