視訊生成模型如 Sora,透過將影像拆解為「時空區塊」並結合 Transformer 架構,在大規模訓練中產生「湧現」現象。這使模型不再只是像素堆疊,而是能學習 3D 空間一致性與物體恆常性。透過觀察海量影片,模型自主歸納出運動規律與幾何關係,進而模擬現實動態。這種從「數位語言」轉向「物理感知」的演進,是發展「世界模型」的關鍵,讓 AI 能在虛擬環境中預測並理解物理限制,為機器人與自動駕駛等物理 AI 應用奠定基礎。