最新消息:

[系統測試中] 本論壇目前為測試營運階段,功能上有不完善之處還請見諒 :p

Main Menu

[OpenAI資深副總Mark Chen在台灣大學電機系 2024/11/27 的下午場演講]

作者 cocraft, 十一月 29, 2024, 03:32 PM

« 上一篇 - 下一篇 »

0 會員 與 1 訪客 正在閱讀本文。

cocraft

[OpenAI資深副總Mark Chen在台灣大學電機系 2024/11/27 的下午場演講]
BY 梁峻瑋\NTUEE_PHD
OpenAI SVP Mark Chen/陳信翰近期進行東亞巡迴之旅,今天僅在台灣大學逗留兩個小時,給了一場英文短講。講題是"Teaching GPTs to Reason"。
講者背景部分,Mark講者2012年畢業於MIT的數學系與CS系,畢業後成為量化交易產業的trader,並於2018年加入OpenAI。
他的父親是曾任聯亞光電董事長的陳建任、台大電機1983級校友,母親是清華大學教授的邱瀞德、台大電機1986級校友。
我注意到有些臉友,如孫紹華及李宏毅老師也有出席,如果筆記內容有錯歡迎幫忙校正!以下是這場演講的筆記。
#1 GPT scaling(擴展)的歷史
(a) GPT-2
當時的GPT-2,還只能解一些特定小任務,就像一個algorithm解決一個問題一樣。此外,如今普遍認為"語言"是一個很顯然、很強力的工具,但在當時卻不是。
(b) GPT-3
開始可以做一些few-shot learning。首先,可以學習到不同的data和任務;其次,可以理解到a piece of data (few-shot);最後,他已經到達人類的performance。
(c) GPT-4
在標準考試上已可達到top 10%的人類表現,而且具備predictable scaling。不過,目前還有一些地方做得不夠好。
你問人類一個很難的問題,對方通常要思考好一下才會回答,但chatGPT卻秒答,這就是目前的gap,所以需要"In reasoning/理解"。
至少有三個技巧被提出,包含Chain of Thought/思考鏈、Tools+Actions、Sequential Thinking/序列思考。以下將用論文來介紹這三個方向。
(如果我紀錄得不夠好,大家可以回去仔細讀讀以下這7篇paper就好)
——
#2 Chain of Thought/思考鏈
(a) Wei et al (2022). Chain-of-thought prompting elicits reasoning in large language models.
這篇paper認為,如果要藉由CoT來提升輸出品質,則需要一個具備足夠多知識的large model。
雖然要生成一個token所需要的開銷很大,但如果是一組很長的token,就可以amortize/分攤 CoT的開銷,讓成本下降。
(b) Kojima et al(2022). Large language models are zero-shot reasoners.
好像是用來驗證(a)的說法?
(c) Wang et al (2022). Self-consistency improves chain of thought reasoning in language models.
就好比如,拿同一個問題去問整個演講廳的聽眾,儘管推理過程和方法可能不同,但多數人應該都能回答正確,enable我們票選出正確答案。
另外,如果聽眾的答案分歧,得不出共識時,也意味著問題過於ambiguous/模糊。
——
#3 Actions and Tools
(d) Schick et al (2024). Toolformer: Language models can teach themselves to use tools.
就是要教model去使用工具。
給定一堆工具作為訓練資料之一,比如計算機、Python編輯器,模型要能夠idendity/分辨問題種類,並使用對應的API call。
-> General Knowledge with specialized capability(具有專業能力的常識)。
(e) Yao et al (2022). React: Synergizing reasoning and acting in language models.
要把理解/reason當成是一個action。動態去回應。
——
#4 Sequential Reasoning
(f) Lightman et al (2023). Let's verify step by step.
希望讓模型用step by step的方式去生成預測,人類再一條一條去審核、label正確答案。顯然,要審查單一條step正確性是相對容易的事情。
(g) Yao et al (2024). Tree of thoughts: Deliberate problem solving with large language models.
把模型的生成結果可能,看成是一棵樹上的所有branch,並且去搜索/search正確答案。因此,需要search based技術,而且可能很難、很複雜。
Eg. inputs = [4,9,10,13],要用加減乘除湊出36的答案。
——
#5 chatGPT-o1版本
目前已經可以達到top10% level results,在以下三個方向:
(a) Programming: 89th Codeforce
(b) mathematics: top 500 in AIME2024
(c) Science Expert: Phd-level accuracy in GPQA
Mark講者展示了一個CoT的例子:
要猜一個decode method,去破解"oyekaijzdf"意思為何?
o1的CoT過程為:
(a) If take every two word? Fail
(b) Replace by 2 letter? Fail
(c) Sum the letters? Fail
...
(d) average of two letters?
(o,y)->(15+25)/2=20=T, Yes!
答案為:oy ek ai jz df -> T H E R E
Mark講者接著當場Demo,用chatGPT-o1來解"puzzgrid"這個小遊戲。
在o1 for IOI(數學奧林匹亞)上,如果每道問題允許10000次繳交,那
chatGPT-o1可以拿到362.14分,已經超過了數奧金牌線。
可以看到,隨著training sample越多,performance越高,直到sample=1e5附近超過金牌線。
另外,由於我們可以使用各種不同語言,也可以看到CoT的思考過程,這些都確保了o1的safety/安全性。
最後,有兩個paradigm:
我們發現training-time compute和test-time compute的提升,都有助於讓模型的準確度增加,後者正是Reasoning的作用。我們下一步好奇,兩者之間有何關係?會不會互相影響?
——
#6 QA環節
Q1: 目前TSMC在四件事情上幫助你們:
(a) 擴展 GPT -> capacity, 效能, ...
(b) 降低耗電量
(c) 擁有成本/cost of ownership
(d) friendship
可否請Mark講者排序這四項的重要性?
A1: 最關鍵的當然是希望把cost降低至0,其次為low power。

Q2: 會不會打算把Reason,從cloud搬到edge去做?
A2: 很難。因為需要decouple/拆解 reasoning,但很有趣,會跟small and deep reasoning有關。

Q3: 提到Zero-shot那篇paper。有可能把reason用在sub-domain嗎?比如Domain-specific任務。(我猜他想問Design IC任務)
A3: 比如AI在Chess/下棋任務很強,但很難推展到其他任務上,這需要"Generalization of reasoning"——Reasoning 應該要有 generalization 的能力(Reasoning should be transferrable),畢竟我們在一個 domain 學到的推理某種程度上應該也要能在其他領域適用。
(補充Q: 語言作為各種任務的媒介看起來很萬用?)
(補充A: 他覺得語言應該還是有極限,畢竟很多時候人並不是純以語言來理解事情,所以他才會往 multi-modal 那邊作更多嘗試。)

Q4: 隨著LLM並得成熟,開始有agent/代理人之類的設計,有可能在mobile或web上達成一些小任務嗎?
A4: 舉例來說,解數學問題需要很多嘗試(try a lot)。Reasoning還是需要的。

Q5(孫紹華老師): chatgpt如何影響人類,他們有沒有在追蹤使用者的對話、思考、甚至行為怎麼改變的?
A5: 他們有關注使用者使用狀況,但沒有追蹤單一使用者的改變。
(補充Q: chatGPT讓人類變聰明還是變笨了?Smarter or dumber?)
(補充A: 我不知道,以我的用法來說,是變聰明了。)
——
#7 演講後的個人問答
Q1: 現在的 LLM 功能是自回歸地預測概率,輸出高概率的詞語,或生成多條路徑,然後採樣高概率的路徑。您認為這種範式未來會如何改變?我認為人類的推理與產生概率不同,畢竟在人類發明概率之前就已有推理能力。OpenAI 會堅持這種強範式嗎?
A1: 是的,這種範式很強大,但 OpenAI 對其他選項持開放態度;我們不會限制自己只使用一種範式。我們也對擴散模型和狀態空間模型等新事物感興趣。我同意自回歸範式有些限制,所以我們正在探索,比如我提到的多模態,來幫助模型以不同方式理解信息。
Q2. 我們知道,不同的推理路徑可以得出相同的答案。那麼,我的問題是,我們如何評估不同的推理路徑?這是 OpenAI 的研究課題嗎?
A2. 是的,但我只能說這是我們的秘密。我鼓勵你找到自己的解決方案。