都說醫療、金融等專業領域的語料數據稀缺,這會制約AI大模型的發展——那能不能讓兩個ChatGPT對聊,聊出點數據出來?
(相關資料圖)
近日,天橋腦科學研究院(TCCI)主辦了AI For Brain Science系列會議第二期—— “面向AI模型的數據生成方法及其對醫療領域的啟示”。
在上海交通大學計算機科學與工程系副教授吳夢玥主持下,三名青年科學家分享了關于破解大規模語言模型數據瓶頸的看法和實踐。
快速構建專屬GPT
國際上一項研究評估指出,ChatGPT回答癌癥相關問題的水平已經與美國國家癌癥研究所的回答持平。不過,ChatGPT只能通過受限的應用程序編程接口訪問;并且涉及到個人醫療,人們也普遍不希望將自己的隱私信息分享給第三方公司。
針對這樣的難題,加州大學圣迭戈分校博士生許燦文和中山大學團隊的合作者提出了一種能自動生成高質量多輪聊天語料庫的流程,利用ChatGPT與其自身進行對話,生成對話數據,再基于產生的對話數據調優、增強開源的大型語言模型。他們從而獲得了高質量的專屬模型“白澤”,并在數天前推出了2.0版本。這個名字的靈感來源是中國古代傳說中的一種神獸,“能言語,達知萬物之情”。
許燦文介紹,“白澤”在這個過程中并沒有學會新的知識,只是提取了大模型中的特定數據,并且保留了ChatGPT “分點作答”“拒絕回答”等語言能力。這在專業上被比喻為一種“蒸餾”。進一步地,他們提出了反饋自蒸餾的概念,即利用ChatGPT當教官,對“白澤”回答的結果進行評分排序,從而進一步提高了“白澤”模型的性能。
許燦文認為,“白澤”通過自動化的知識蒸餾,在特定領域達到ChatGPT的能力,成本卻遠遠低于ChatGPT,兼具經濟意義和實用意義。在醫療領域,本地化或私有化建構的模型將有利于消除隱私顧慮,輔助患者診療。
大模型優化醫療文本挖掘
萊斯大學博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數據生成策略,并在命名實體識別、關系提取等經典的醫療文本挖掘任務上取得了更佳表現。
ChatGPT具有創造性的寫作能力,在醫療、金融、法律等標注數據很少的領域以及知識密集型領域表現出色。然而,具體到醫療文本挖掘,他們發現將ChatGPT直接應用大型模型處理醫療文本的下游任務,表現并不總是優秀,也可能引發隱私問題。
唐瑞祥等提出了一種新策略:利用大型模型生成大量醫療數據,再通過小型模型對這些數據進行訓練。實驗結果顯示,相較于直接利用大型模型執行下游任務,這一新策略能夠取得更出色的效果,同時因為模型數據在本地,也大幅降低了潛在的隱私風險。
他們進一步指出,隨著開源大模型數量的增加和大模型能力的提升,其產生的文本數據與人類產生的文本數據的差別將越來越小,發展檢測二者差別的技術手段將是一項富有挑戰性的工作。現有的兩種檢測手段,無論是黑盒檢測——直接比較大模型生成的文本數據與人類生成的文本數據(比如比較高頻詞分布),還是白盒檢測——開發者在生成文本上做標簽,在未來都可能失效。能否有效地檢測出數據是不是GPT生成的,將影響到廣大用戶對大模型AI的信任程度。
大模型時代數據生成不一樣
從歷史演變的角度來看,在沒有GPT的時代,科學家們如何解決數據稀缺難題?大模型又帶來了哪些新趨勢?
上海交通大學博士生曹瑞升總結了數據生成在大模型時代的幾大新趨勢:首先是構建更加通用的模型,以確保其能夠應用于多樣化的任務——這意味著模型需要具備廣泛的適應性和泛化能力;其次是從特定任務出發,進一步精細化地處理,例如在醫療領域,甚至可以針對特定類型的抑郁癥進行專業化的任務處理,提供更加精準和個性化的解決方案;最后,數據生成和模型訓練的過程將從分離走向融合,而為了保證數據質量的硬性過濾也將逐漸被軟性控制所取代。
“數據生成研究與應用的發展,為大模型AI走向各個專業領域,尤其是醫療領域提供廣闊的可能性。”曹瑞升說。
記者獲悉,TCCI致力于支持全球范圍內的腦科學交流。AI For Brain Science系列會議致力于促進AI與腦科學研究人員的討論合作,將持續聚焦領域內的數據瓶頸和關鍵痛點,促進前沿AI技術在腦科學領域發揮更大的價值。
新民晚報記者 郜陽
相關推薦
- (2023-05-30)醫療等垂直領域語料數據稀缺 能讓倆ChatGPT對聊出來嗎?青年科學家這樣認為_短訊
- (2023-05-30)收評:A股三大指數探底回升,創業板指終結5連陰,人工智能主題持續爆發
- (2023-05-30)費城簽新援兼任職,哈登離隊?_天天觀速訊
- (2023-05-30)100美元換多少人民幣(2023年5月30日)_世界訊息
- (2023-05-30)楊千嬅全新巡演廣州首秀 萬人合唱《少女的祈禱》
- (2023-05-30)孟良崮下,“兵支書”讓后進村變先進
- (2023-05-30)一張圖:2023/05/30黃金原油外匯股指"樞紐點+多空占比"一覽-環球頭條
- (2023-05-30)最憶江南_對于最憶江南簡單介紹
- (2023-05-30)媽祖廟在哪里_媽祖廟
- (2023-05-30)14:37 新一線城市的《城市商業魅力排行榜》發布 頭條
- (2023-05-30)張歆藝袁弘曬照慶祝結婚七周年 甜蜜對視挽手臂滿滿愛意
- (2023-05-30)14:40 萬科又要再融資?公司回應:例行授權
- (2023-05-30)【全球新視野】投資機會整體呈現出結構性特征 重點關注三大投資方向
- (2023-05-30)時訊:安東·奇奇坎
- (2023-05-30)每日熱議!2500億債務懸頂,跌至退市邊緣,千億“西南王”還有轉機嗎?
- (2023-05-30)神十六發射任務圓滿成功
- (2023-05-30)全球最新:河南鄭州:對誤入市區的收割機司機一律不處罰
- (2023-05-30)全球今亮點!車禍人傷保險公司如何理賠
- (2023-05-30)環球快播:13:07 光刻膠概念股震蕩走低,新萊應材跌超10%
- (2023-05-30)全球訊息:13:23 A股午后下挫,滬指、深成指午后均跌超1%
- (2023-05-30)環球資訊:中航無人機:董事兼職信披現羅生門 審計機構頻因執業問題“栽跟頭”
- (2023-05-30)天天速遞!全區統一命題!解讀桂林2023年中考方案
- (2023-05-30)泰嘉股份: 公司控股子公司雅達電子一直與消費電子行業的主流品牌廠商保持密切合作
- (2023-05-30)環球微速訊:地鐵上女子充電寶突然爆炸,煙霧彌漫!地鐵上充電寶為什么容易爆炸?
- (2023-05-30)午評:滬指再度失守3200點 腦機接口概念逆勢大漲
- (2023-05-30)鮑家街43號樂隊歌曲_鮑家街43號同名專輯相關內容簡介介紹
- (2023-05-30)迪阿股份:暫未涉及培育鉆石業務
- (2023-05-30)五家理財子公司利潤翻番,“一哥”招銀理財大賺35.9億,剛換了高管 訊息
- (2023-05-30)恒信東方5月30日盤中漲幅達5%
- (2023-05-30)全球新動態:蟬聯三年!四川財經職業學院財稅學院學子再獲省級一等獎
每日推薦
- ETF聯接基金是什么意思?ETF基金和ETF聯
- 貨幣基金的收益高嗎?貨幣基金一般年收益
- 基金賣出了怎么還有收益顯示?基金已經贖
- 投資的基金買了幾天可以賣掉?基金入手多
- 基金終于回本了該不該贖回?基金終于回本
- 二月出境復飛航線超40條 節后部分機票價
- 重大事項變更!網易寶獲批增加注冊資本至
- 信達證券上市首日漲幅44%
- 總投資約486億元 北京今年首批50個重大
- 新年北京首月二手住宅網簽量再探底 價格
- 股價大漲 博云新材股東高創投擬趁機減持
- 2019華人歌曲音樂盛典在澳門舉行
- 喜迎十九大?歡度中秋節—傳統文化進社區
- 突發!吳敏霞夫婦挑婚戒被曝光!兩百萬鉆
- 《鐘山說事》 熱點聚焦:胡鵬飛的最美鄉
- 湖南御福天益生物公司被指涉嫌傳銷進行非
- 大同市城投公司劉建婷遭群眾舉報
- 魯能集團 “一帶一路”履責行動暨“海南
圖片新聞
48小時頻道點擊排行
-
0
1醫療等垂直領域語料數據稀缺 能讓倆 -
0
2楊千嬅全新巡演廣州首秀 萬人合唱《 -
0
3一張圖:2023/05/30黃金原油外匯股指 -
0
4時訊:安東·奇奇坎 -
0
5全球今亮點!車禍人傷保險公司如何理 -
0
6天天速遞!全區統一命題!解讀桂林20 -
0
7恒信東方5月30日盤中漲幅達5% -
0
8全球新動態:蟬聯三年!四川財經職業 -
0
92023年法語詩歌朗誦大賽全國總決賽在 -
0
10天天新資訊:記者調查:孩子沒完沒了 -
0
11卡片機和微單的區別大嗎_卡片機和微 -
0
12動態焦點:記新冠感染(2023-5-29一陽) -
0
13【快播報】黨的十八屆召開時間-黨的 -
0
14李俠清:讓地下生產“更綠色” 當前 -
0
15環球微頭條丨有關堅持的故事及感悟_ -
0
16世界快看:合同無效糾紛律師如何收費 -
0
17微博限流怎么看出來的_微博限流是什 -
0
18【世界報資訊】5月29日基金凈值:廣 -
0
19每日看點!放大招!9600億美元芯片龍 -
0
20世界速讀:吉林省部署2023年高考安保