免费大黄网站,久久午夜夜伦鲁鲁片免费无码影视 ,国产又色又爽又黄的,久久国产成人午夜av影院

當前位置:首頁 > 百科 > 正文內(nèi)容

o1醫(yī)學領域大勝GPT-4,性能暴漲!頂尖華人團隊激動發(fā)文:離AI醫(yī)生越來越近了

慎念芹11個月前 (09-11)百科41
印刷廠直印●彩頁1000張只需要69元●名片5元每盒-更多報價?聯(lián)系電話:138-1621-1622(微信同號)

新智元報道

編輯:LRS

【新智元導讀】OpenAI的o1模型在通用語言任務上展現(xiàn)了顯著的性能,最新測評展現(xiàn)了o1模型在醫(yī)學領域的表現(xiàn),主要關注理解、推理和多語言能力,結果大幅超越以往的模型!

大語言模型在剛發(fā)布的時候,以其任務、領域通用性和流暢的文本生成能力成功破圈,不過當時的技術還只能應用在一些比較簡單的任務上。

而隨著思維鏈等提示技術出現(xiàn),尤其OpenAI最新發(fā)布的o1模型更是第一個采用強化學習策略的內(nèi)化思維鏈技術的,把大模型解決復雜問題和推理能力提高了全新的高度。

雖然o1模型在各種通用語言任務上表現(xiàn)出了驚人的強大能力,但其在醫(yī)學等專業(yè)領域的表現(xiàn)仍然未知。

來自加州大學圣克魯茲分校、愛丁堡大學和美國國立衛(wèi)生研究院的華人團隊共同發(fā)布了一篇報告,對o1在不同醫(yī)療場景下進行了全面的探索,考察了模型在理解(understanding)、推理(reasoning)和多語言(multilinguality)方面的能力。

論文鏈接:

數(shù)據(jù)鏈接:/

該評估涵蓋 6 個任務,使用來自 37 個醫(yī)學數(shù)據(jù)集的數(shù)據(jù),其中包括兩個基于《新英格蘭醫(yī)學雜志》(NEJM) 和《柳葉刀》專業(yè)醫(yī)學測驗的高難度問答任務。

與MedQA 等標準醫(yī)學問答基準相比,這些數(shù)據(jù)集與臨床聯(lián)系得更緊密,可以更有效地應用于真實世界的臨床場景中。

對o1模型的分析表明, LLMs推理能力的增強更有利于模型理解各種醫(yī)療指令,也能夠提升模型在復雜的臨床場景進行推理的能力。

值得注意的是,o1模型在19個數(shù)據(jù)集和兩個復雜問答場景中的準確率平均超過了之前GPT-4 6.2% 和 6.6%

與此同時,研究人員發(fā)現(xiàn)模型能力和現(xiàn)有評估協(xié)議中存在一些缺陷,包括幻覺、多語言能力不一致以及評估指標不一致。

全面評估大模型的醫(yī)學能力

在提升模型推理能力上,思維鏈(CoT)提示是一種常用的提示策略,利用模型內(nèi)部的推理模式來增強解決復雜任務的能力。

o1模型更進一步,將CoT過程嵌入到模型訓練中,整合了強化學習,展現(xiàn)了強大的推理性能;不過o1模型尚未經(jīng)過專業(yè)領域數(shù)據(jù)的評估,其在特定任務上的性能仍然未可知。

現(xiàn)有的醫(yī)學領域LLM基準測試通常只會評估模型的特定能力,比如知識和推理、安全性和多語言,彼此之間的測驗比較孤立,無法對o1這樣的高級模型進行全面評估。

為了確保全面評估,研究人員收集了涵蓋上述方面的各種醫(yī)學任務和數(shù)據(jù)集,并在流程中探索了三種提示策略,包括:

1. 直接提示,指導大型語言模型直接解決問題

2. 思維鏈,要求模型在生成最終答案之前逐步思考

3. 少樣本提示,為模型提供了幾個示例,以便在運行中學習輸入輸出映射。

最后,使用適當?shù)亩攘繕藴蕘砗饬可傻幕貜团c真實答案之間的差異。

側重點和任務

研究人員利用35個現(xiàn)有的數(shù)據(jù)集,并為評估創(chuàng)建了2個額外的具有更高難度的數(shù)據(jù)集,然后將所有37個數(shù)據(jù)集分類為3個方面6個任務,以便更清晰地進行評估和分析,能夠了解模型在特定領域的表現(xiàn)如何。

理解(understanding),指的是模型利用其內(nèi)部醫(yī)學知識來理解醫(yī)學概念的能力。

推理(reasoning),測試模型進行多步驟邏輯思考以得出結論的能力。

在問答任務中,模型需要遵循提示指令根據(jù)問題中提供的醫(yī)學信息進行推理,從多個選項中選擇正確的答案。

除了常見的問答數(shù)據(jù)集,研究人員還收集了來自《柳葉刀》、《新英格蘭醫(yī)學雜志》(NEJM)和Medbullets的真實世界臨床問題,以更好地評估LLMs的臨床效用。

在臨床建議任務中,模型需要根據(jù)患者的信息提供治療建議或診斷決策。在AI Hospital和AgentClinic數(shù)據(jù)集中,模型需要充當醫(yī)療智能體;在MedCalc-Bench數(shù)據(jù)集中,模型需要進行數(shù)學推理并計算答案。

多語言(Multilinguality),輸入指令和輸出答案的語言不同。

XMedBench數(shù)據(jù)集要求LLMs用六種語言回答醫(yī)學問題,包括中文、阿拉伯語、印地語、西班牙語、中文和英語;在AI Hospital數(shù)據(jù)集,模型需要使用中文進行問答。

評估指標

準確率(Accuracy),用于直接衡量模型生成的答案與真實答案完全匹配的百分比。

F1分數(shù),精確度和召回率的調(diào)和平均值,用于模型需要選擇多個正確答案的數(shù)據(jù)集。

BLEU和ROUGE,衡量生成回復與真實答案之間相似性的自然語言處理度量標準,對評估中所有自由形式生成任務使用BLEU-1和ROUGE-1

AlignScore,衡量生成文本事實一致性的度量標準,對所有無指定格式生成任務使用AlignScore來評估模型幻覺的程度。

Mauve,衡量生成文本和人類編寫文本分布之間差異的度量標準,用于所有無指定格式生成任務,指標的數(shù)值范圍為0到100,數(shù)值越高表示模型輸出的質(zhì)量越高。

實驗結果

提示策略

對于知識問答任務、智能體任務、醫(yī)學計算任務和多語言相關任務,使用直接提示評估方法;

對于其他來自MedS-Bench的任務,遵循基準設置中的三樣本提示策略。

根據(jù)OpenAI的聲明,常見的提示技術,如思維鏈(CoT)和上下文中的示例,對于提升o1性能來說幫助并不大,因為模型已經(jīng)內(nèi)置了隱式的CoT。

為了進一步驗證這一說法,研究人員在評估中增加了幾種高級提示的效果,包括CoT、自我一致(Self Consistency)和Reflex

除了選擇GPT-3.5、GPT-4、o1模型進行評估外,研究人員還選擇了兩個開源模型:一個是用醫(yī)學中心數(shù)據(jù)訓練的大型語言模型MEDITRON-70B,以及目前最新和最強大的開源大型語言模型Llama3-8B

主要結果

o1在臨床理解方面的能力得到了增強

o1模型在發(fā)布時,OpenAI主要強調(diào)了其在知識和推理能力方面的顯著提升,如數(shù)學問題求解和代碼生成,從實驗結果中也可以觀察到,這種能力也能夠遷移到特定的臨床知識理解上。

在摘要任務上,o1在ROUGE-1得分上比GPT-4和GPT-3.5分別提高了2.4%和3.7%,證明了其在現(xiàn)實世界臨床理解方面的增強能力,結果也證實了大型語言模型在通用自然語言處理能力方面的進展可以有效地轉(zhuǎn)化為醫(yī)學領域的增強模型理解。

o1模型在臨床診斷場景中強大的推理能力

在推理相關的任務上,o1模型也展現(xiàn)出了其在現(xiàn)實世界診斷情境中的優(yōu)勢。

在新構建的、具有挑戰(zhàn)性的問答任務NEJMQA和LancetQA中,o1在各自的數(shù)據(jù)集上平均準確率比GPT-4(79.6%)和GPT-3.5(61.5%)分別提高了8.9%和27.1%

o1在數(shù)學推理能力上的另一個值得注意的改進是,將MedCalc-Bench的基線提升到了34.9%,比GPT-4高出顯著的9.4%

在涉及多輪對話和環(huán)境模擬的更復雜的推理場景中,o1在AgentClinic基準測試中的表現(xiàn)超過了GPT-4和GPT-3.5,在MedQA和NEJM子集上分別獲得了至少15.5%和10%的準確率提升,得分分別為45.5%和20.0%

除了更高的準確率外,o1的答案也更簡潔、直接,而GPT-4則會于在錯誤的答案旁邊生成幻覺性的解釋。

研究人員認為o1在知識和推理方面的改進主要歸因于訓練過程中使用增強的數(shù)據(jù)和基礎技術(如CoT數(shù)據(jù)和強化學習技術)。

基于上述樂觀結果,研究人員在論文中激動地表示:有了o1模型,我們距離一個全自動AI醫(yī)生已經(jīng)越來越近了。

參考資料:

收藏0

發(fā)表評論

訪客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀點。