2 月 25 日消息,不久前,谷歌在內部發起了代號為“斗狗”的活動,要求公司所有員工每周用兩到四個小時幫助測試和改進其新的人工智能搜索聊天機器人 Bard。
就在 Bard 發布前不久,微軟也剛剛發布了采用 ChatGPT 聊天機器人背后技術的新版必應搜索引擎,它允許用戶就幾乎任何話題進行多輪對話。然而,在 Bard 被發現提供了一個錯誤的答案后,對于谷歌的質疑也逐漸浮現。同樣,隨著越來越多的人測試了新必應,他們的聊天機器人也遇到了問題,比如其傾向于好斗的行為。
像 Bard 和 ChatGPT 這樣的 AI 聊天機器人,可以通過接受人類編寫的文本訓練來模仿人類對話,這就解釋了為什么必應的回復有時候看起來有些情緒化和不可預測。畢竟,被訓練得像人一樣的機器人也很容易犯下人類的錯誤。

這些聊天機器人最初通過攝取大量的訓練數據來完成大部分學習。此外,Bard 項目的產品主管杰克?克勞奇克 (Jack Krawczyk) 在一份備忘錄中告訴員工,谷歌的研究發現,為用戶查詢添加高質量的響應“顯著”提高了其 AI 模型的質量。
據多位 AI 專家透露,谷歌員工可能會為 Bard 編寫高質量的答復以改進其模型。這些專家已經在 AI 和大型語言模型領域完成了廣泛的研究。
克勞奇克讓員工向 Bard 詢問他們擅長的領域,比如最喜歡的興趣愛好。然后,他們被要求評估 Bard 的答案,以確保這些答案符合人們的期望,長度和結構也都要合理。如果某個答案過于人性化、存在事實錯誤或者沒有任何意義,員工可以重寫答案并提交給 Bard 的模型訓練。
英屬哥倫比亞大學計算機科學助理教授韋德?施瓦茨 (ved Shwartz) 表示,要想持續改進 Bard,谷歌可以采取監督式學習和強化學習相結合的方式。
其中,監督式學習是第一步,研究人員可以向聊天機器人輸入人類編寫的查詢和答案,直到它學會如何像人類那樣回復。在此基礎上,谷歌可以構建一個強化學習模型,用谷歌員工寫的答案來訓練它,以幫助它理解該公司希望 Bard 的答案展現哪些價值觀,包括在結構、語氣以及其他方面加以改進。
這個強化學習模型會查看 Bard 給出的答案,剔除其中不合適的答案,并驗證合格的答案,直到聊天機器人明白它應該如何行事。基本上,來自谷歌員工的“正確”答案將幫助該模型改進。
強化學習模型還可以教會 Bard 在不談論情感或以其他方式假裝人類的情況下提供信息。第一種模型主要學習基本的寫作技巧,而第二種模型將引導機器按照預期的方向回答問題。
哥倫比亞大學計算機科學教授周宇 (音譯) 說,有了足夠好的答案進行分析,強化學習模型就能知道哪些是合適的答案,哪些是不合適的答案。
確保事實準確性
谷歌始終對推出聊天機器人持謹慎態度,可能是因為其可能對搜索業務利潤產生短期影響,并擔心準確性。谷歌要求員工拒絕回答 Bard 試圖就金融或健康等敏感話題向用戶提供建議的問題,因為回答錯誤的風險很高。
AI 領域始終在努力解決事實準確性問題,OpenAI 在 1 月份發布了更新,以提高 ChatGPT 在各種話題上對話的準確性。本月在舊金山舉行的一場關于聊天機器人和 AI 的會議上,Anthropic 首席執行官達里奧?阿莫代 (Dario Amodei) 表示,他相信隨著模型的改進,聊天機器人將不再編造事實。
雖然訓練有助于提高聊天機器人所生成答案的質量,但施瓦茨表示,她不認為這能夠徹底解決事實準確性的問題。Bard 和 ChatGPT 都有所謂的“幻覺”傾向,這是該行業用來形容聊天機器人編造事實的術語。它們會從網頁上提取內容,有時不可避免地會錯誤地總結這些內容。