OpenAI“雙12”直播第二天,依舊簡(jiǎn)短精悍,主題:
新功能強(qiáng)化微調(diào)(Reinforcement Fine-Tuning),使用極少訓(xùn)練數(shù)據(jù)即在特定領(lǐng)域輕松地創(chuàng)建專家模型。
少到什么程度呢?最低幾十個(gè)例子就可以。
CEO奧特曼表示“效果一級(jí)棒,是我2024年最大的驚喜,期待看到人們構(gòu)建什么!”
那么效果有多棒呢?
微調(diào)后的o1-mini模型得分提高80%,直接反超o1正式版。
目前OpenAI已開啟強(qiáng)化微調(diào)研究計(jì)劃,開發(fā)者可以申請(qǐng)強(qiáng)化微調(diào)API的alpha版本訪問權(quán)限。
進(jìn)行測(cè)試時(shí),可使用幾十到幾千個(gè)高質(zhì)量數(shù)據(jù),模型能夠通過強(qiáng)化學(xué)習(xí)自行探索和學(xué)習(xí)如何推理復(fù)雜任務(wù)。
蹲守直播間的網(wǎng)友們聽得也是one愣one愣的,完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。
OpenAI員工Jerry Tworek則表示“AGI不是授人以魚,而是授人以漁”。
OpenAI微調(diào)首次支持強(qiáng)化學(xué)習(xí)
直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員,還有伯克利實(shí)驗(yàn)室計(jì)算生物學(xué)家Justin Reese,他們共同演示了強(qiáng)化微調(diào)功能的全過程。
具體來說,這是一個(gè)生物醫(yī)學(xué)任務(wù),AI需要根據(jù)病例描述的癥狀,找出相關(guān)基因。
訓(xùn)練數(shù)據(jù)長(zhǎng)這樣:
病人信息:51歲女性,疾病發(fā)病時(shí)間未具體說明。癥狀:眼距過寬、瞼裂狹小、小頜畸形、軟腭咽閉合不全、甲狀旁腺功能減退、全身發(fā)育遲緩和感覺神經(jīng)性聽力障礙未表現(xiàn)出以下癥狀:腭裂、法洛四聯(lián)癥、肺動(dòng)脈瓣閉鎖、心房隔缺損、主動(dòng)脈肺動(dòng)脈側(cè)支血管請(qǐng)列出所有可能導(dǎo)致這些癥狀的基因,從可能性最大到可能性最小,并解釋為什么你認(rèn)為這些特定的基因可能是原因。
評(píng)分模型(Grader)會(huì)對(duì)模型的答案進(jìn)行評(píng)分,OpenAI會(huì)提供不同的評(píng)分模型,并支持自定義。
強(qiáng)化微調(diào)步驟很簡(jiǎn)單,在網(wǎng)頁界面可選擇訓(xùn)練集和驗(yàn)證集。
再根據(jù)情況配置超參數(shù)即可。
微調(diào)過程中,可以觀察模型性能指標(biāo)的變化趨勢(shì)。
測(cè)試完成后,也可以查看模型對(duì)每條驗(yàn)證數(shù)據(jù)的輸出,這里TSC2基因是正確答案,模型把它排在第一位,所以通過。
目前OpenAI內(nèi)部測(cè)試中,強(qiáng)化微調(diào)在生物化學(xué)、安全、法律和醫(yī)療保健領(lǐng)域取得成功。
強(qiáng)化微調(diào)將在2025年初作為產(chǎn)品發(fā)布,對(duì)企業(yè)、大學(xué)和研究院已開放申請(qǐng)測(cè)試通道。
看完這場(chǎng)直播后,有人總結(jié):強(qiáng)化微調(diào)可能并不適合所有任務(wù),但會(huì)在科學(xué)領(lǐng)域帶來突破性的成果。
OpenAI直播第二天,對(duì)比第一天o1正式發(fā)布、立等可用,似乎平淡了一些。
有不滿足的網(wǎng)友表示:where is GPT-4.5?
評(píng)論區(qū)猜測(cè)可能大貨會(huì)放在最后一天。
他們是真的懂如何吊所有人的胃口
不過,有網(wǎng)友釣魚釣出了奧特曼,且奧特曼沒有否認(rèn)會(huì)發(fā)布Sora的消息。