探索不同優化方法喺複雜地形嘅表現差異:
動量係一種將過去梯度「記憶」納入當前更新嘅優化技術,好似一個滾雪球,累積方向同速度,令優化過程更快更穩定。
# 速度更新 (指數加權平均)
v_t = β · v_{t-1} + (1-β) · g_t
# 參數更新
θ = θ - α · v_t
其中:
一種進階版動量,先用當前速度預測下一位置,再計算該處梯度:
θ_lookahead = θ + β · v_{t-1}
g_t = ∇f(θ_lookahead)
v_t = β · v_{t-1} + (1-β) · g_t
θ = θ - α · v_t
好處係可以喺轉彎前「睇到」轉彎,減少繞路