o1醫(yī)學領域大勝GPT-4,性能暴漲!頂尖華人團隊激動發(fā)文:離AI醫(yī)生越來越近了
新智元報道
編輯:LRS
【新智元導讀】OpenAI的o1模型在通用語言任務上展現(xiàn)了顯著的性能,最新測評展現(xiàn)了o1模型在醫(yī)學領域的表現(xiàn),主要關注理解、推理和多語言能力,結果大幅超越以往的模型!
大語言模型在剛發(fā)布的時候,以其任務、領域通用性和流暢的文本生成能力成功破圈,不過當時的技術還只能應用在一些比較簡單的任務上。
而隨著思維鏈等提示技術出現(xiàn),尤其OpenAI最新發(fā)布的o1模型更是第一個采用強化學習策略的內(nèi)化思維鏈技術的,把大模型解決復雜問題和推理能力提高了全新的高度。
雖然o1模型在各種通用語言任務上表現(xiàn)出了驚人的強大能力,但其在醫(yī)學等專業(yè)領域的表現(xiàn)仍然未知。
來自加州大學圣克魯茲分校、愛丁堡大學和美國國立衛(wèi)生研究院的華人團隊共同發(fā)布了一篇報告,對o1在不同醫(yī)療場景下進行了全面的探索,考察了模型在理解(understanding)、推理(reasoning)和多語言(multilinguality)方面的能力。
論文鏈接:
數(shù)據(jù)鏈接:/
該評估涵蓋 6 個任務,使用來自 37 個醫(yī)學數(shù)據(jù)集的數(shù)據(jù),其中包括兩個基于《新英格蘭醫(yī)學雜志》(NEJM) 和《柳葉刀》專業(yè)醫(yī)學測驗的高難度問答任務。
與MedQA 等標準醫(yī)學問答基準相比,這些數(shù)據(jù)集與臨床聯(lián)系得更緊密,可以更有效地應用于真實世界的臨床場景中。
對o1模型的分析表明, LLMs推理能力的增強更有利于模型理解各種醫(yī)療指令,也能夠提升模型在復雜的臨床場景進行推理的能力。
值得注意的是,o1模型在19個數(shù)據(jù)集和兩個復雜問答場景中的準確率平均超過了之前GPT-4 6.2% 和 6.6%
與此同時,研究人員發(fā)現(xiàn)模型能力和現(xiàn)有評估協(xié)議中存在一些缺陷,包括幻覺、多語言能力不一致以及評估指標不一致。
全面評估大模型的醫(yī)學能力
在提升模型推理能力上,思維鏈(CoT)提示是一種常用的提示策略,利用模型內(nèi)部的推理模式來增強解決復雜任務的能力。
o1模型更進一步,將CoT過程嵌入到模型訓練中,整合了強化學習,展現(xiàn)了強大的推理性能;不過o1模型尚未經(jīng)過專業(yè)領域數(shù)據(jù)的評估,其在特定任務上的性能仍然未可知。
現(xiàn)有的醫(yī)學領域LLM基準測試通常只會評估模型的特定能力,比如知識和推理、安全性和多語言,彼此之間的測驗比較孤立,無法對o1這樣的高級模型進行全面評估。
為了確保全面評估,研究人員收集了涵蓋上述方面的各種醫(yī)學任務和數(shù)據(jù)集,并在流程中探索了三種提示策略,包括:
1. 直接提示,指導大型語言模型直接解決問題
2. 思維鏈,要求模型在生成最終答案之前逐步思考
3. 少樣本提示,為模型提供了幾個示例,以便在運行中學習輸入輸出映射。
最后,使用適當?shù)亩攘繕藴蕘砗饬可傻幕貜团c真實答案之間的差異。
側重點和任務
研究人員利用35個現(xiàn)有的數(shù)據(jù)集,并為評估創(chuàng)建了2個額外的具有更高難度的數(shù)據(jù)集,然后將所有37個數(shù)據(jù)集分類為3個方面6個任務,以便更清晰地進行評估和分析,能夠了解模型在特定領域的表現(xiàn)如何。
理解(understanding),指的是模型利用其內(nèi)部醫(yī)學知識來理解醫(yī)學概念的能力。
推理(reasoning),測試模型進行多步驟邏輯思考以得出結論的能力。
在問答任務中,模型需要遵循提示指令根據(jù)問題中提供的醫(yī)學信息進行推理,從多個選項中選擇正確的答案。
除了常見的問答數(shù)據(jù)集,研究人員還收集了來自《柳葉刀》、《新英格蘭醫(yī)學雜志》(NEJM)和Medbullets的真實世界臨床問題,以更好地評估LLMs的臨床效用。
在臨床建議任務中,模型需要根據(jù)患者的信息提供治療建議或診斷決策。在AI Hospital和AgentClinic數(shù)據(jù)集中,模型需要充當醫(yī)療智能體;在MedCalc-Bench數(shù)據(jù)集中,模型需要進行數(shù)學推理并計算答案。
多語言(Multilinguality),輸入指令和輸出答案的語言不同。
XMedBench數(shù)據(jù)集要求LLMs用六種語言回答醫(yī)學問題,包括中文、阿拉伯語、印地語、西班牙語、中文和英語;在AI Hospital數(shù)據(jù)集,模型需要使用中文進行問答。
評估指標
準確率(Accuracy),用于直接衡量模型生成的答案與真實答案完全匹配的百分比。
F1分數(shù),精確度和召回率的調(diào)和平均值,用于模型需要選擇多個正確答案的數(shù)據(jù)集。
BLEU和ROUGE,衡量生成回復與真實答案之間相似性的自然語言處理度量標準,對評估中所有自由形式生成任務使用BLEU-1和ROUGE-1
AlignScore,衡量生成文本事實一致性的度量標準,對所有無指定格式生成任務使用AlignScore來評估模型幻覺的程度。
Mauve,衡量生成文本和人類編寫文本分布之間差異的度量標準,用于所有無指定格式生成任務,指標的數(shù)值范圍為0到100,數(shù)值越高表示模型輸出的質(zhì)量越高。
實驗結果
提示策略
對于知識問答任務、智能體任務、醫(yī)學計算任務和多語言相關任務,使用直接提示評估方法;
對于其他來自MedS-Bench的任務,遵循基準設置中的三樣本提示策略。
根據(jù)OpenAI的聲明,常見的提示技術,如思維鏈(CoT)和上下文中的示例,對于提升o1性能來說幫助并不大,因為模型已經(jīng)內(nèi)置了隱式的CoT。
為了進一步驗證這一說法,研究人員在評估中增加了幾種高級提示的效果,包括CoT、自我一致(Self Consistency)和Reflex
除了選擇GPT-3.5、GPT-4、o1模型進行評估外,研究人員還選擇了兩個開源模型:一個是用醫(yī)學中心數(shù)據(jù)訓練的大型語言模型MEDITRON-70B,以及目前最新和最強大的開源大型語言模型Llama3-8B
主要結果
o1在臨床理解方面的能力得到了增強
o1模型在發(fā)布時,OpenAI主要強調(diào)了其在知識和推理能力方面的顯著提升,如數(shù)學問題求解和代碼生成,從實驗結果中也可以觀察到,這種能力也能夠遷移到特定的臨床知識理解上。
在摘要任務上,o1在ROUGE-1得分上比GPT-4和GPT-3.5分別提高了2.4%和3.7%,證明了其在現(xiàn)實世界臨床理解方面的增強能力,結果也證實了大型語言模型在通用自然語言處理能力方面的進展可以有效地轉(zhuǎn)化為醫(yī)學領域的增強模型理解。
o1模型在臨床診斷場景中強大的推理能力
在推理相關的任務上,o1模型也展現(xiàn)出了其在現(xiàn)實世界診斷情境中的優(yōu)勢。
在新構建的、具有挑戰(zhàn)性的問答任務NEJMQA和LancetQA中,o1在各自的數(shù)據(jù)集上平均準確率比GPT-4(79.6%)和GPT-3.5(61.5%)分別提高了8.9%和27.1%
o1在數(shù)學推理能力上的另一個值得注意的改進是,將MedCalc-Bench的基線提升到了34.9%,比GPT-4高出顯著的9.4%
在涉及多輪對話和環(huán)境模擬的更復雜的推理場景中,o1在AgentClinic基準測試中的表現(xiàn)超過了GPT-4和GPT-3.5,在MedQA和NEJM子集上分別獲得了至少15.5%和10%的準確率提升,得分分別為45.5%和20.0%
除了更高的準確率外,o1的答案也更簡潔、直接,而GPT-4則會于在錯誤的答案旁邊生成幻覺性的解釋。
研究人員認為o1在知識和推理方面的改進主要歸因于訓練過程中使用增強的數(shù)據(jù)和基礎技術(如CoT數(shù)據(jù)和強化學習技術)。
基于上述樂觀結果,研究人員在論文中激動地表示:有了o1模型,我們距離一個全自動AI醫(yī)生已經(jīng)越來越近了。
參考資料: