從原子到材料：Machine Learning Potential 視覺化學習地圖

0導讀：先建立世界觀，再學軟體

這份地圖是給誰的、怎麼讀

很多人一進 Machine Learning Potential（機器學習勢能，常簡稱 MLP 或 MLIP）就直接被丟去裝 NequIP、抄 MACE 的指令、改 input 檔——結果指令會跑了，卻不知道自己在做什麼、為什麼要這樣做。

這份地圖刻意不從軟體教起。它先用七張圖，帶你看懂一條主線：DFT 算得準但太慢 → MLP 學會 DFT 的「結構→能量」對應，又快上千倍 → 用 MLP 跑大尺度 MD 去看真實材料怎麼演化。把這條主線想通了，之後再學任何一個套件，都只是換工具，世界觀是同一套。

這份地圖適合你，如果你是…… ① 零基礎、剛被指派 MLP 題目的專題生；② 剛進計算材料、想搞懂全貌的碩士生；③ 已經會用 VASP、想跨進 MLP 的 DFT 使用者。不需要先會寫程式，先把這七章看完再說。

#MLP#MLIP#DFT#Molecular Dynamics #Active Learning#HEA#計算材料

1DFT 為什麼不夠快？

一句話：DFT 每走一步都要重新「解電子」

DFT（密度泛函理論）是計算材料的黃金標準，它直接從量子力學算出每個原子受的力、整個系統的能量，準。但它的代價是：每一個 MD 時間步、每一個結構，都要重新求解一次電子結構。計算量大約隨原子數的三次方（O(N³)）成長。

結果就是：用 DFT 跑分子動力學，你大概只能負擔幾百個原子、上千步、跑好幾天。但真實材料的有趣現象——擴散、相變、表面重構、高熵合金的元素偏析——往往需要上萬到十萬個原子、跑上百萬步才看得到。這就是 DFT 的天花板。

DFT → ~100 atoms → ~1000 steps → 好幾天 MLP → ~100,000 atoms → ~1,000,000 steps → 幾小時

MLP 的價值就在這個落差裡：它不取代 DFT 的準確度，而是繞過 DFT 的速度瓶頸，讓你用接近 DFT 的精度，跑到原本只有經典力場才負擔得起的尺度。

DFT vs MLP speed and scale comparison — **圖 1.** 左 **DFT**：百原子、千步、好幾天，準但慢；右 **MLP**：十萬原子、百萬步、幾小時。中間的箭頭代表 **10³–10⁴ 倍**量級的加速（為示意量級，實際倍率視系統與方法而定）。

2MLP 到底學到了什麼？

關鍵觀念：它不是在「背材料」，而是在學一個函數

初學者最大的誤解，是以為 MLP「記住了某個材料」。其實不是。MLP 學的是一個數學對應關係：

原子座標 R ────▶ 神經網路 ────▶ 能量 E ─▶ 力 F

更精確地說，給定一組原子的位置與種類 R，網路要輸出整個系統的位能 E(R)。一旦能量會算了，力就是能量對座標的負梯度 F = −∂E/∂R，應力則是對應變的微分——這兩個都能由網路自動微分得到。MD 需要的就是「每一步每個原子受的力」，所以一個會算能量與力的 MLP，就足以驅動整場模擬。

因為學的是「局部原子環境 → 能量貢獻」這種可轉移的物理規律，訓練好的 MLP 可以套用到比訓練結構更大的系統上（這叫 size transferability）。這也是它能從百原子訓練、卻拿去跑十萬原子的原因。

MLP maps atomic coordinates to energy, forces and stress — **圖 2.** MLP 的本質：**Atomic coordinates R** → **Neural network** → 同時輸出 **Energy E**、**Forces F**、**Stress σ**。力是能量的負梯度 F = −∇E，由網路自動微分得到。

3MLP 是怎麼訓練出來的？

這張流程最重要——資料的源頭永遠是 DFT

MLP 不會憑空變準。它的「標準答案」全部來自 DFT。整個流程是：先用 DFT 算一批結構的能量與力，攢成資料集；拿這批資料去訓練網路，讓它的預測逼近 DFT；再用一批沒看過的結構做驗證，確認誤差夠小；最後才把它放上 LAMMPS 等引擎做大規模 MD。

DFT → 資料集 → MLP 訓練 → 驗證 → Production MD

這裡有兩個新手一定要記住的觀念：

MLP 的上限就是 DFT 的水準。你用什麼 functional 算資料，MLP 就學到那個 functional 的「世界」。DFT 算錯的，MLP 不會幫你修正。
沒看過的結構不要亂信。MLP 擅長內插、不擅長外推。訓練資料沒涵蓋的構型（例如一個從沒出現過的高溫構象），預測可能大錯——這正是第 5 章 Active Learning 要解決的問題。

MLP training workflow from DFT to production MD — **圖 3.** 五步開發流程：**① DFT calculations** → **② Dataset**（結構＋能量＋力）→ **③ MLP training** → **④ Validation**（在沒看過的結構上測誤差）→ **⑤ Production MD**（大規模模擬）。

4DFT → MLP → MD：別把這三個搞混

三者是「真值 / 代理 / 使用者」的關係，不是並列

新手最常混淆的，是把 DFT、MLP、MD 當成三種平行的「軟體選項」。它們其實是一條上下游的鏈：

角色	它是什麼	在鏈中的位置
DFT	真值（Truth）。量子力學算出的「正確答案」	提供訓練資料
MLP	代理模型（Surrogate）。學會模仿 DFT 的快速近似	被訓練 → 被 MD 呼叫
MD	分子動力學。一套讓原子隨時間運動的演算法	每一步呼叫 MLP 要力

換句話說：MD 是「引擎」，它本身不知道任何物理，每走一步都要問「現在每個原子受多少力？」。傳統上這個問題交給 DFT（準但慢）或經典力場（快但糙）。MLP 的角色，就是當那個又快又接近 DFT 的力計算器，插在 MD 與量子力學之間。

DFT truth to MLP surrogate to molecular dynamics hierarchy — **圖 4.** 三層關係：**DFT (truth)** 經由「learning」訓練出 **MLP (surrogate)**，MLP 再被 **Molecular Dynamics**「used by」呼叫來驅動大規模模擬。

5Active Learning：讓 MLP 自己變強

這是這個領域目前最重要的觀念之一

第 3 章說過，MLP 對「沒看過的結構」會失準。Active Learning（主動學習，又叫 on-the-fly learning）就是針對這點的解法：讓 MLP 在跑 MD 的過程中，自己發現哪裡沒把握，然後補課。

運作的循環是這樣：MLP 一邊跑 MD 一邊估計自己的不確定度（常用做法是訓練一組網路看它們彼此分歧多大）。當它撞進一個沒把握的構型，就把那個結構挑出來，回去做 DFT 算出真答案，加進資料集重新訓練。一圈一圈下來，MLP 會越來越涵蓋它真正會遇到的構型空間——變強。

MLP 不確定的地方 → 回去做 DFT → 加入資料、重新訓練 → 變強 ↺

為什麼重要：它讓你不必事先猜中所有重要構型。你不用一開始就算幾萬筆 DFT，而是讓模擬自己告訴你「哪幾筆值得算」——大幅省下昂貴的 DFT 成本，又保證模型在你關心的範圍內可靠。

Active learning loop for machine learning potentials — **圖 5.** Active Learning 循環：**MLP** → **MD exploration** → 偵測到 **uncertain configurations** → **DFT calculation** → **new training data** → 回到**更強的 MLP**，不斷重複。

6MLP 能做到什麼？四大應用

能跑大、跑久，就能看到 DFT 看不到的現象

一旦你能用接近 DFT 的精度跑十萬原子、上百萬步，很多原本「算不動」的問題就打開了。以下四塊是目前最活躍的方向，其中 HEA（高熵合金）對本實驗室最直接相關。

Four applications of machine learning potentials — **圖 6.** 四大應用面板：**High-entropy alloy**（元素混合與偏析）、**Catalyst**（反應條件下的表面重構）、**Battery**（離子在晶格中擴散）、**Protein**（大尺度構形變化）。

① HEA 高熵合金 — 本實驗室最相關

五種以上元素隨機混在一起，局部成分千變萬化。MLP 讓你能直接模擬大模型裡的元素交換、退火、短程有序（SRO）、表面偏析——這些都需要大量原子與長時間才看得清楚，正是 DFT 跑不動、經典力場又算不準的甜蜜點。

看不同元素在表面/晶界的偏析傾向
退火過程中的結構演化與相分離
把成分變化連到 d-band center / 吸附能等描述符

② Catalyst 催化 — 動態活性位點

真實催化反應裡，表面不是靜止的。MLP 能模擬反應條件下的表面重構、吸附物造成的局部變形、以及動態活性位點的生成與消失——這些用單一靜態 DFT 結構完全看不到。

③ Battery 電池 — 離子擴散與界面

電池效能取決於離子怎麼在材料裡擴散、在電極/電解質界面發生什麼、以及缺陷如何影響傳輸。這些都是「大尺度＋長時間」的統計問題，MLP 驅動的 MD 是目前最實際的工具。

④ Protein 蛋白質 — 大尺度構形變化

生醫端也開始用 MLP（或 ML/MM 混合）去描述需要量子精度的局部反應，搭配大尺度構形變化。這塊較新、仍以經典力場為主流，但方向明確——準確度與尺度兼得。

7一個 HEA 學生的完整工作流程

這張最有價值——它直接對應你進實驗室會做的事

把前面所有觀念串起來，一個做高熵合金的學生，從零到一篇論文的路徑大致是：

建立 HEA 模型 ↓ DFT 計算（產生標準答案） ↓ 建立資料集 ↓ 訓練 MLP ↓ Active Learning（補沒把握的構型） ↓ LAMMPS 大規模 MD ↓ 分析結構演化（偏析 / SRO / 描述符） ↓ 論文

From DFT to publication roadmap for a computational materials student — **圖 7.** 「From DFT to Publication」：一個計算材料學生的完整旅程，從 HEA model construction、DFT、dataset、MLP training、active learning、large-scale MD、analysis，一路走到 publication。

給專題生的提醒你不會一個人從頭做完整條鏈。實務上學長姐／既有資料集會幫你跳過一些步驟。但每一格在做什麼、為什麼你要清楚——這樣卡住時才知道是哪一環出問題。

★MLP 學習路徑：Level 0 → 5

給本實驗室零基礎學生的進階順序——一階一階往上爬

不要一開始就衝 MACE 指令。照這條階梯走，每一階都先跑得起來、看得懂結果，再上下一階。

LEVEL0
什麼是 MD先搞懂分子動力學在做什麼：原子、力、時間步、溫度、軌跡。不碰 ML，先有「原子會動」的直覺。
MD 基本觀念力 / 溫度 / 軌跡
LEVEL1
LAMMPS 上手學會用 LAMMPS 跑一個經典力場的 MD：寫 input、設邊界條件、看輸出、用 OVITO 看軌跡。先讓模擬跑得動。
LAMMPSOVITO經典力場
LEVEL2
DFT 資料生成用 VASP 算一批結構的能量與力，理解 functional、收斂、k-point。這是 MLP 的「標準答案」來源。
VASPfunctional收斂測試
LEVEL3
MACE / NequIP 訓練拿 Level 2 的資料訓練第一個 MLP，學會看 loss、能量/力誤差，把訓練好的勢能接回 LAMMPS 跑 MD。
MACENequIPDeepMD
LEVEL4
Active Learning建立不確定度估計與「自動補 DFT」的循環，讓 MLP 在你關心的構型空間裡自己變可靠。
不確定度on-the-flycommittee
LEVEL5
HEA 論文把整條鏈用在真實高熵合金題目上：大尺度 MD、分析偏析/SRO/描述符，產出可發表的結果。
大尺度 MDSRO / 偏析論文

怎麼用這條階梯每爬一階，先確認自己能獨立做出一個小成果（跑出一條軌跡、算出一筆能量、訓練出一個能跑的勢能），再往上。卡在哪一階，就回去翻對應的章節（Level 2↔第 3 章、Level 4↔第 5 章、Level 5↔第 7 章）。

¶名詞速查

看到不認得的詞，回這裡查

MLP / MLIPMachine Learning (Interatomic) Potential用機器學習擬合的勢能函數，輸入原子座標、輸出能量與力。

DFTDensity Functional Theory從量子力學算能量與力的標準方法，準但慢，是 MLP 的訓練資料來源。

MDMolecular Dynamics讓原子依受力隨時間運動的模擬演算法，每一步都要有人提供力。

Force / 力F = −∂E/∂R能量對原子座標的負梯度，MD 每一步都靠它推動原子。

Active Learning主動學習 / on-the-fly讓 MLP 自己找出沒把握的構型、回去補 DFT、再訓練的循環。

Transferability可轉移性MLP 套用到「比訓練時更大或不同」系統上仍可靠的能力。

HEAHigh-Entropy Alloy五種以上元素近等比混合的合金，局部成分多變，是 MLP 的好戰場。

LAMMPSMD 引擎最常用的開源大規模 MD 軟體，可掛 MLP 當力的來源。

MACE / NequIP / DeepMDMLP 框架主流的等變圖神經網路勢能套件，Level 3 才開始碰。

SROShort-Range Order短程有序，描述合金裡相鄰原子種類的非隨機偏好。

✓結語

From Atoms to Materials

把這份地圖讀完，你應該能用一句話回答：「MLP 是什麼？」——它是一個學會模仿 DFT、但快上千倍的力計算器，讓我們用接近量子精度的水準，去跑原本算不動的大尺度、長時間模擬，看見真實材料怎麼演化。

之後不管你用 MACE 還是 NequIP、跑 HEA 還是電池，世界觀都是同一套：DFT 給真值 → MLP 學成代理 → MD 拿去用 → Active Learning 補漏。工具會換，這條主線不變。

一頁帶走 DFT 準但慢，只能跑小系統；MLP 學會 DFT 的「結構→能量」對應，又快上千倍；MD 是引擎，每步呼叫 MLP 要力；Active Learning 讓 MLP 自己補沒把握的構型。先懂這四句，再去學任何一個軟體。

⚠️ 關於插圖的誠實說明本頁 8 張插圖皆為 AI（gpt-image-2）生成的示意圖，用途是幫助理解概念；圖中的結構、數值、座標軸均為示意，並非真實計算數據。文中的加速倍率（10³–10⁴ 倍）為常見的量級級別說法，實際倍率高度取決於系統大小、方法與硬體，引用前請以你自己的 benchmark 為準。本頁定位是觀念入門地圖，不取代正式教科書與各套件官方文件。