[OpenAI資深副總Mark Chen在台灣大學電機系 2024/11/27 的下午場演講]

cocraft · 十一月 29, 2024, 03:32 PM

[OpenAI資深副總Mark Chen在台灣大學電機系 2024/11/27 的下午場演講]
BY 梁峻瑋\NTUEE_PHD
OpenAI SVP Mark Chen/陳信翰近期進行東亞巡迴之旅，今天僅在台灣大學逗留兩個小時，給了一場英文短講。講題是"Teaching GPTs to Reason"。
講者背景部分，Mark講者2012年畢業於MIT的數學系與CS系，畢業後成為量化交易產業的trader，並於2018年加入OpenAI。
他的父親是曾任聯亞光電董事長的陳建任、台大電機1983級校友，母親是清華大學教授的邱瀞德、台大電機1986級校友。
我注意到有些臉友，如孫紹華及李宏毅老師也有出席，如果筆記內容有錯歡迎幫忙校正！以下是這場演講的筆記。
#1 GPT scaling(擴展)的歷史
(a) GPT-2
當時的GPT-2，還只能解一些特定小任務，就像一個algorithm解決一個問題一樣。此外，如今普遍認為"語言"是一個很顯然、很強力的工具，但在當時卻不是。
(b) GPT-3
開始可以做一些few-shot learning。首先，可以學習到不同的data和任務；其次，可以理解到a piece of data (few-shot)；最後，他已經到達人類的performance。
(c) GPT-4
在標準考試上已可達到top 10%的人類表現，而且具備predictable scaling。不過，目前還有一些地方做得不夠好。
你問人類一個很難的問題，對方通常要思考好一下才會回答，但chatGPT卻秒答，這就是目前的gap，所以需要"In reasoning/理解"。
至少有三個技巧被提出，包含Chain of Thought/思考鏈、Tools+Actions、Sequential Thinking/序列思考。以下將用論文來介紹這三個方向。
(如果我紀錄得不夠好，大家可以回去仔細讀讀以下這7篇paper就好)
——
#2 Chain of Thought/思考鏈
(a) Wei et al (2022). Chain-of-thought prompting elicits reasoning in large language models.
這篇paper認為，如果要藉由CoT來提升輸出品質，則需要一個具備足夠多知識的large model。
雖然要生成一個token所需要的開銷很大，但如果是一組很長的token，就可以amortize/分攤 CoT的開銷，讓成本下降。
(b) Kojima et al(2022). Large language models are zero-shot reasoners.
好像是用來驗證(a)的說法？
(c) Wang et al (2022). Self-consistency improves chain of thought reasoning in language models.
就好比如，拿同一個問題去問整個演講廳的聽眾，儘管推理過程和方法可能不同，但多數人應該都能回答正確，enable我們票選出正確答案。
另外，如果聽眾的答案分歧，得不出共識時，也意味著問題過於ambiguous/模糊。
——
#3 Actions and Tools
(d) Schick et al (2024). Toolformer: Language models can teach themselves to use tools.
就是要教model去使用工具。
給定一堆工具作為訓練資料之一，比如計算機、Python編輯器，模型要能夠idendity/分辨問題種類，並使用對應的API call。
-> General Knowledge with specialized capability(具有專業能力的常識)。
(e) Yao et al (2022). React: Synergizing reasoning and acting in language models.
要把理解/reason當成是一個action。動態去回應。
——
#4 Sequential Reasoning
(f) Lightman et al (2023). Let's verify step by step.
希望讓模型用step by step的方式去生成預測，人類再一條一條去審核、label正確答案。顯然，要審查單一條step正確性是相對容易的事情。
(g) Yao et al (2024). Tree of thoughts: Deliberate problem solving with large language models.
把模型的生成結果可能，看成是一棵樹上的所有branch，並且去搜索/search正確答案。因此，需要search based技術，而且可能很難、很複雜。
Eg. inputs = [4,9,10,13]，要用加減乘除湊出36的答案。
——
#5 chatGPT-o1版本
目前已經可以達到top10% level results，在以下三個方向：
(a) Programming: 89th Codeforce
(b) mathematics: top 500 in AIME2024
(c) Science Expert: Phd-level accuracy in GPQA
Mark講者展示了一個CoT的例子：
要猜一個decode method，去破解"oyekaijzdf"意思為何？
o1的CoT過程為：
(a) If take every two word? Fail
(b) Replace by 2 letter? Fail
(c) Sum the letters? Fail
...
(d) average of two letters?
(o,y)->(15+25)/2=20=T, Yes!
答案為：oy ek ai jz df -> T H E R E
Mark講者接著當場Demo，用chatGPT-o1來解"puzzgrid"這個小遊戲。
在o1 for IOI(數學奧林匹亞)上，如果每道問題允許10000次繳交，那
chatGPT-o1可以拿到362.14分，已經超過了數奧金牌線。
可以看到，隨著training sample越多，performance越高，直到sample=1e5附近超過金牌線。
另外，由於我們可以使用各種不同語言，也可以看到CoT的思考過程，這些都確保了o1的safety/安全性。
最後，有兩個paradigm：
我們發現training-time compute和test-time compute的提升，都有助於讓模型的準確度增加，後者正是Reasoning的作用。我們下一步好奇，兩者之間有何關係？會不會互相影響？
——
#6 QA環節
Q1: 目前TSMC在四件事情上幫助你們：
(a) 擴展 GPT -> capacity, 效能, ...
(b) 降低耗電量
(c) 擁有成本/cost of ownership
(d) friendship
可否請Mark講者排序這四項的重要性？
A1: 最關鍵的當然是希望把cost降低至0，其次為low power。

Q2: 會不會打算把Reason，從cloud搬到edge去做？
A2: 很難。因為需要decouple/拆解 reasoning，但很有趣，會跟small and deep reasoning有關。

Q3: 提到Zero-shot那篇paper。有可能把reason用在sub-domain嗎？比如Domain-specific任務。(我猜他想問Design IC任務)
A3: 比如AI在Chess/下棋任務很強，但很難推展到其他任務上，這需要"Generalization of reasoning"——Reasoning 應該要有 generalization 的能力(Reasoning should be transferrable)，畢竟我們在一個 domain 學到的推理某種程度上應該也要能在其他領域適用。
(補充Q: 語言作為各種任務的媒介看起來很萬用？)
(補充A: 他覺得語言應該還是有極限，畢竟很多時候人並不是純以語言來理解事情，所以他才會往 multi-modal 那邊作更多嘗試。)

Q4: 隨著LLM並得成熟，開始有agent/代理人之類的設計，有可能在mobile或web上達成一些小任務嗎？
A4: 舉例來說，解數學問題需要很多嘗試(try a lot)。Reasoning還是需要的。

Q5(孫紹華老師): chatgpt如何影響人類，他們有沒有在追蹤使用者的對話、思考、甚至行為怎麼改變的？
A5: 他們有關注使用者使用狀況，但沒有追蹤單一使用者的改變。
(補充Q: chatGPT讓人類變聰明還是變笨了？Smarter or dumber?)
(補充A: 我不知道，以我的用法來說，是變聰明了。)
——
#7 演講後的個人問答
Q1: 現在的 LLM 功能是自回歸地預測概率，輸出高概率的詞語，或生成多條路徑，然後採樣高概率的路徑。您認為這種範式未來會如何改變？我認為人類的推理與產生概率不同，畢竟在人類發明概率之前就已有推理能力。OpenAI 會堅持這種強範式嗎？
A1: 是的，這種範式很強大，但 OpenAI 對其他選項持開放態度；我們不會限制自己只使用一種範式。我們也對擴散模型和狀態空間模型等新事物感興趣。我同意自回歸範式有些限制，所以我們正在探索，比如我提到的多模態，來幫助模型以不同方式理解信息。
Q2. 我們知道，不同的推理路徑可以得出相同的答案。那麼，我的問題是，我們如何評估不同的推理路徑？這是 OpenAI 的研究課題嗎？
A2. 是的，但我只能說這是我們的秘密。我鼓勵你找到自己的解決方案。

最新消息:

[OpenAI資深副總Mark Chen在台灣大學電機系 2024/11/27 的下午場演講]

cocraft