AI 논문 리뷰 요리 그리고 여행 기록.
TRPO In TRPO, the policy update is performed by solving the following constrained optimization problem: maximize L(θ, θ_old) subject to KL(π_θ_old || π_θ)
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.