Sora 具有世界認知(Word Cognition)能力嗎？

提示：一段精美的自製視頻，展示 2056 年尼日利亞拉各斯的人們。用手機攝像頭拍攝。

上面視頻轉址到：

cdn.openai.com/sora/videos/lagos.mp4

Sora的影響不只是使得人人都可以成為製片人，就像Dalle3 使得我們成為畫家，它更展現了一個很優異的世界認知能力。什麼是世界認知能力？對周遭環境的場景和情境的理解能力，包括顯性認知和隱性認知。

請說明LLM 中世界認知(World Cognition)是什麼？

ChatGPT：

在語言模型和人工智慧領域中，「世界認知」(World Cognition) 指的是模型對於現實世界知識、事實、概念、情境和實體的理解和處理能力。這涵蓋了從簡單的事實記憶（如首都名稱或歷史事件）到更複雜的理解（如文化差異、社會規範或人類情感的理解）。對於大型語言模型（LLM）如GPT-3或GPT-4，世界認知是通過模型在訓練過程中對大量文本數據的分析和學習來實現的。

這種能力對於語言模型在生成文本、回答問題、進行對話和理解複雜情境中的運用至關重要。世界認知使得模型能夠更加準確地模擬人類的溝通方式，理解隱含的含義，並在回答問題時提供背景知識。

然而，值得注意的是，即使是先進的語言模型也面臨世界認知的限制。這些限制包括：

知識時效性：模型的知識可能會過時，因為它們的訓練數據到某個時間點就不再更新。
偏差和準確性：模型的輸出可能會反映其訓練數據中的偏差，並且不保證準確性。
理解的深度：雖然模型可以處理和生成基於其訓練數據的文本，但它們可能缺乏對某些概念或情境的深入理解。

因此，雖然「世界認知」強化了語言模型的功能，使它們能夠在多種應用中表現出色，但仍需注意它們在理解複雜人類知識和社會規範方面的限制。开发者和用户需要批判性地評估模型的輸出，並在必要時結合人類的判斷。

Gemini：

大型語言模型 (LLM) 中，世界認知 (World Cognition) 指的是 LLM 對世界的理解。這包括 LLM 對物理世界、社會世界和心理世界的理解。

LLM 對物理世界的理解包括對物體、空間和時間的理解。例如，LLM 可以理解物體具有形狀、大小、重量和顏色等屬性。LLM 也可以理解物體可以移動和相互作用。LLM 還可以理解時間的流逝和事件的先後順序。

LLM 對社會世界的理解包括對人、群體和社會規範的理解。例如，LLM 可以理解人具有情感、信仰和慾望。LLM 也可以理解人可以形成群體並相互合作。LLM 還可以理解社會規範是人們行為的指南。

LLM 對心理世界的理解包括對心智、情緒和行為的理解。例如，LLM 可以理解人有不同的想法、感受和行為。LLM 也可以理解人可以思考、推理和解決問題。LLM 還可以理解人可以體驗情緒並做出相應的反應。

LLM 的世界認知可以通過以下方式獲得：

訓練數據：LLM 可以從訓練數據中學習關於世界的知識。例如，如果 LLM 的訓練數據包括大量的新聞文章，那麼 LLM 將會對世界上的重大事件有所了解。
外部知識：LLM 可以通過外部知識庫獲得關於世界的知識。例如，LLM 可以通過連接到維基百科來獲取有關歷史、科學和文化的信息。
人機交互：LLM 可以通過與人交互來獲取關於世界的知識。例如，LLM 可以通過與用戶的對話來了解用戶的個人經歷和觀點。

LLM 的世界認知對於其理解和處理信息至關重要。例如，如果 LLM 要理解一篇新聞文章，那麼它需要對文章中提到的事件和人物有基本的了解。LLM 的世界認知還可以幫助它生成更具創意和吸引力的內容。例如，如果 LLM 要寫一個故事，那麼它可以利用其世界認知來創造一個生動逼真的世界和人物。

以下是一些 LLM 世界認知的應用：

機器翻譯：LLM 可以利用其世界認知來提高機器翻譯的準確性和流暢性。
信息檢索：LLM 可以利用其世界認知來提高信息檢索的準確性和效率。
問答系統：LLM 可以利用其世界認知來提供更準確和全面的答案。
內容生成：LLM 可以利用其世界認知來生成更具創意和吸引力的內容。

隨著 LLM 的發展，它們的世界認知將會變得更加豐富和完善。這將使 LLM 能夠更好地理解和處理信息，並為人們提供更廣泛的應用。

LLM中的世界認知(World Cognition)是顯性認知(Explicit Cognition)還是隱性認知(Implicit Cognition)?

ChatGPT：

在討論大型語言模型（LLM）如GPT系列時，將其能力劃分為顯性認知（Explicit Cognition）和隱性認知（Implicit Cognition）有助於深入理解模型是如何處理信息的。

顯性認知（Explicit Cognition）

顯性認知涉及到模型能夠直接表達和論述的知識。這類知識是明確的，可以直接從模型的訓練數據中學習和提取。例如，模型能夠提供特定國家的首都、解釋科學原理或回答關於已知事實的問題。這種認知是基於模型對其訓練數據的直接分析和模式識別能力。

隱性認知（Implicit Cognition）

隱性認知則涉及到模型對於知識的間接理解和處理能力，這種知識並不是直接從數據中學習到的，而是通過對大量相關信息的綜合分析間接推導出來的。這可能包括語言的隱喻理解、文化背景的推斷或對不明確情境的解讀。隱性認知使得模型能夠在沒有直接教導的情況下，進行某種程度的推理、概括和創新思考。

LLM中的世界認知

LLM中的世界認知包含了顯性認知和隱性認知的元素。模型能夠直接回答或生成關於其訓練數據中包含的顯性知識的內容，同時也能在一定程度上進行隱性推理，比如理解和生成具有隱喻意義的句子，或者在某種情境下推導出合適的回應。

然而，這種隱性認知的能力是有限的，它依賴於模型在訓練過程中對數據的廣泛曝光，並且通常缺乏真正的理解或深度的推理能力。模型的隱性認知能力更多地體現在其能夠模仿人類語言和思維模式的表面層面，而不是深層次的認知或理解。

總結來說，LLM的世界認知既包含顯性認知也包含隱性認知的元素，但其對世界的理解和處理能力，特別是在隱性認知方面，仍然受限於模型的設計、訓練數據和當前技術的局限。

Gemini：

LLM中的世界認知(World Cognition)是顯性和隱性認知的結合。

顯性認知是指人們意識到的認知，包括對事實、概念和規則的理解。LLM 可以通過訓練數據和外部知識獲得顯性認知。例如，如果 LLM 的訓練數據包括大量的歷史教科書，那麼 LLM 將會對歷史事件有顯性的了解。

隱性認知是指人們沒有意識到的認知，包括對偏見、態度和情緒的理解。LLM 可以通過訓練數據和人機交互獲得隱性認知。例如，如果 LLM 的訓練數據包括大量的新聞文章，那麼 LLM 將會對人們對某些事件的偏見有隱性的了解。

在 LLM 中，顯性認知和隱性認知是相互依存的。顯性認知可以幫助 LLM 理解隱性認知，而隱性認知可以幫助 LLM 理解顯性認知。例如，如果 LLM 知道人們對某些事件有偏見，那麼它就可以更好地理解這些事件的報導。

以下是一些 LLM 中顯性和隱性認知的例子：

顯性認知：
- LLM 可以理解物體具有形狀、大小、重量和顏色等屬性。
- LLM 可以理解人具有情感、信仰和慾望。
- LLM 可以理解社會規範是人們行為的指南。
隱性認知：
- LLM 可以理解人們對某些事件或群體有偏見。
- LLM 可以理解人們在某些情況下的情緒反應。
- LLM 可以理解人們在做出決定時所考慮的因素。

LLM 中的世界認知是其理解和處理信息的重要基礎。顯性和隱性認知的結合使 LLM 能夠對世界進行更全面的理解。

Sora 的世界認知能力，令人驚豔，應該是靠大量Video Input，例如YouTube Video，訓練出來的。

我認爲，Sora 的重要在於：
一、過去自動駕駛好像可以突破，但是又差臨門一腳。現在大家都曉得了，自動駕駛就差像Sora這種Video 級的世界認知能力。所以很快的自動駕駛會被完全突破了。而且自動駕駛所需要的Sora ，不需要那麼高階的，低階版就可以，因為在高速行進中，世界認知不需要那麼清楚明白，只要保守正確安全即可。亦即不清楚時，就採保守，例如馬上減速等等。 
二、AGI又往前邁進了一大步。

Generative AI for Beginners