近期,一項由哈佛醫(yī)學(xué)院攜手斯坦福大學(xué)開展的醫(yī)學(xué)研究揭示了人工智能在醫(yī)療診斷領(lǐng)域的潛力。研究顯示,OpenAI的o1-preview模型在應(yīng)對復(fù)雜醫(yī)療案例時,其診斷能力超越了人類醫(yī)生。
研究報告詳細指出,o1-preview模型在測試案例中實現(xiàn)了78.3%的正確診斷率。特別是在70個特定案例的對比中,該模型的準確率飆升至88.6%,這一成績明顯優(yōu)于其前身GPT-4的72.9%準確率。這一發(fā)現(xiàn)標志著AI在醫(yī)療診斷領(lǐng)域取得了顯著進步。
進一步的研究采用醫(yī)學(xué)推理質(zhì)量評估標準量表R-IDEA進行衡量,結(jié)果顯示o1-preview在80個測試案例中取得了78個滿分。相比之下,經(jīng)驗豐富的醫(yī)生僅在28個案例中獲得滿分,而住院醫(yī)生更是僅在16個案例中獲得滿分。這一對比凸顯了o1-preview在醫(yī)學(xué)推理方面的卓越表現(xiàn)。
在由25位醫(yī)學(xué)專家設(shè)計的復(fù)雜案例中,o1-preview的得分高達86%。這一成績是使用GPT-4的醫(yī)生(41%得分)和使用傳統(tǒng)診斷工具的醫(yī)生(34%得分)的兩倍多。這一發(fā)現(xiàn)進一步證明了o1-preview在處理復(fù)雜醫(yī)療問題時的優(yōu)勢。
然而,研究人員也指出了研究的局限性。部分測試案例可能包含在o1-preview的訓(xùn)練數(shù)據(jù)中,這可能對結(jié)果產(chǎn)生一定影響。研究主要關(guān)注模型單獨工作的情況,未充分考慮其與人類醫(yī)生協(xié)同工作的場景。同時,o1-preview建議的診斷測試成本高昂,在實際應(yīng)用中可能面臨一定的局限性。