国产免费一区二区三区免费视频_国产免费高清永久在线不卡_久热精品在线视频_精品欧美激情精品一区

<ul id="6xij4"></ul>

<cite id="6xij4"><label id="6xij4"></label></cite>

<delect id="qamjh"></delect>

<thead id="qamjh"><label id="qamjh"><option id="qamjh"></option></label></thead>

佛山論壇-公益網(wǎng)站
分享互聯(lián)網(wǎng)新鮮資訊

OpenAI強(qiáng)化微調(diào)登場(chǎng)：幾十條數(shù)據(jù)o1-mini反超o1，“今年最大驚喜”

更新時(shí)間：2024-12-07 09:08:21點(diǎn)擊：

OpenAI“雙12”直播第二天，依舊簡(jiǎn)短精悍，主題：

新功能強(qiáng)化微調(diào)（Reinforcement Fine-Tuning），使用極少訓(xùn)練數(shù)據(jù)即在特定領(lǐng)域輕松地創(chuàng)建專家模型。

少到什么程度呢？最低幾十個(gè)例子就可以。

CEO奧特曼表示“效果一級(jí)棒，是我2024年最大的驚喜，期待看到人們構(gòu)建什么！”

那么效果有多棒呢？

微調(diào)后的o1-mini模型得分提高80%，直接反超o1正式版。

目前OpenAI已開啟強(qiáng)化微調(diào)研究計(jì)劃，開發(fā)者可以申請(qǐng)強(qiáng)化微調(diào)API的alpha版本訪問權(quán)限。

進(jìn)行測(cè)試時(shí)，可使用幾十到幾千個(gè)高質(zhì)量數(shù)據(jù)，模型能夠通過強(qiáng)化學(xué)習(xí)自行探索和學(xué)習(xí)如何推理復(fù)雜任務(wù)。

蹲守直播間的網(wǎng)友們聽得也是one愣one愣的，完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。

OpenAI員工Jerry Tworek則表示“AGI不是授人以魚，而是授人以漁”。

OpenAI微調(diào)首次支持強(qiáng)化學(xué)習(xí)

直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員，還有伯克利實(shí)驗(yàn)室計(jì)算生物學(xué)家Justin Reese，他們共同演示了強(qiáng)化微調(diào)功能的全過程。

具體來說，這是一個(gè)生物醫(yī)學(xué)任務(wù)，AI需要根據(jù)病例描述的癥狀，找出相關(guān)基因。

訓(xùn)練數(shù)據(jù)長(zhǎng)這樣：

病人信息：51歲女性，疾病發(fā)病時(shí)間未具體說明。癥狀：眼距過寬、瞼裂狹小、小頜畸形、軟腭咽閉合不全、甲狀旁腺功能減退、全身發(fā)育遲緩和感覺神經(jīng)性聽力障礙未表現(xiàn)出以下癥狀：腭裂、法洛四聯(lián)癥、肺動(dòng)脈瓣閉鎖、心房隔缺損、主動(dòng)脈肺動(dòng)脈側(cè)支血管請(qǐng)列出所有可能導(dǎo)致這些癥狀的基因，從可能性最大到可能性最小，并解釋為什么你認(rèn)為這些特定的基因可能是原因。

評(píng)分模型（Grader）會(huì)對(duì)模型的答案進(jìn)行評(píng)分，OpenAI會(huì)提供不同的評(píng)分模型，并支持自定義。

強(qiáng)化微調(diào)步驟很簡(jiǎn)單，在網(wǎng)頁界面可選擇訓(xùn)練集和驗(yàn)證集。

再根據(jù)情況配置超參數(shù)即可。

微調(diào)過程中，可以觀察模型性能指標(biāo)的變化趨勢(shì)。

測(cè)試完成后，也可以查看模型對(duì)每條驗(yàn)證數(shù)據(jù)的輸出，這里TSC2基因是正確答案，模型把它排在第一位，所以通過。

目前OpenAI內(nèi)部測(cè)試中，強(qiáng)化微調(diào)在生物化學(xué)、安全、法律和醫(yī)療保健領(lǐng)域取得成功。

強(qiáng)化微調(diào)將在2025年初作為產(chǎn)品發(fā)布，對(duì)企業(yè)、大學(xué)和研究院已開放申請(qǐng)測(cè)試通道。

看完這場(chǎng)直播后，有人總結(jié)：強(qiáng)化微調(diào)可能并不適合所有任務(wù)，但會(huì)在科學(xué)領(lǐng)域帶來突破性的成果。

奧特曼默認(rèn)會(huì)發(fā)Sora

OpenAI直播第二天，對(duì)比第一天o1正式發(fā)布、立等可用，似乎平淡了一些。

有不滿足的網(wǎng)友表示：where is GPT-4.5？

評(píng)論區(qū)猜測(cè)可能大貨會(huì)放在最后一天。

他們是真的懂如何吊所有人的胃口

不過，有網(wǎng)友釣魚釣出了奧特曼，且奧特曼沒有否認(rèn)會(huì)發(fā)布Sora的消息。

上一篇 : 熊孩子弄壞價(jià)值10多萬元的樂器，有藝考生無奈棄考，網(wǎng)友：管理方責(zé)任更大下一篇 : 市場(chǎng)增加對(duì)更強(qiáng)勁經(jīng)濟(jì)刺激措施的押注周五中國(guó)資產(chǎn)大漲

相關(guān)閱讀

推薦文章

熱門文章