DeepMind 從棋盤跨向現實,核心在於將「深度強化學習」從虛擬轉向實體應用。面對現實世界高昂的失敗成本,他們採用「虛擬模擬轉真實」(sim2real)技術,先在模擬環境大量試錯,再整合至核融合或機器人控制。為克服算力與盲點風險,DeepMind 透過「群體訓練」(PBT)讓多組 AI 隨機互打,不僅節省十倍資源,更提升決策穩健性。這種從「吸收人類知識」轉向「自主經驗學習」的典範轉移,正是其克服現實複雜性、邁向通用人工智慧(AGI)的關鍵策略。