(NeurIPS 2020) Dynamic allocation of limited memory resources in reinforcement learning

Dynamic allocation of limited memory resources in reinforcement learning

목   차

Abstract

1.       Introduction

1.1     Related work

2. Background and details

2.1   Environment and agent’s memories

2.2   Objective and policy

2.3   Maximizing the objective

2.4   Dynamic allocation of limited memory resources

3.  Results on standard RL environments

3.1   2D Grid-world

3.2   Mountain car

4.   Results on a model-based planning task

4.1   Task details

4.2   Comparison with an alternative model and black-box optimization

4.3   The speed-accuracy trade-off

5.   Discussion


Broader Impact

A Acknowledgments and Disclosure of Funding


B       Task parameters and additional results

B.1       Additional results for the planning task

B.2      Task parameters

Review (진행 중)....

Abstract

생물학적 뇌는 정보를 처리하고 저장하는 능력이 본질적으로 제한되어 있지만, 그럼에도 불구하고 복잡한 작업을 쉽게 해결할 있습니다. 

지능형 동작은 리소스 제약 조건이 환경이나 과거 경험의 기억과 차별화하고 중요성을 할당해야 하므로 이러한 제한 사항과 관련이 있습니다. 

최근에는 정보 저장의 한계를 회피하기 위해 인공 생물학적 제제가 채택한 전략을 이해하기 위한 강화 학습 신경 과학분야에서 병행 적인 노력 있었습니다.

본 논문에서는 문서에서는 제한된 리소스의 제약 조건하에서 예상 보상을 극대화하기 위한 동적 프레임워크를 제안 합니다. 


  • 메모리의 작업 값에 대한 정확한 표현 가능한 비용 함수 구현 


논문에서는 두 가지의 표준 작업 수행 하여 누적 보상에  높은 영향을 미칠 메모리 항목에  많은 자원을 할당 찾을 수 있도록 하였음
  • 파생 알고리즘, 동적 자원 할당기 (DRA), 보강 학습
  • 모델 기반 계획 작업
또한 DRA는
  • 높은 리소스 예산으로 시작할 결국, 작업에 수행하기 위해 할당하는 것보다 빠르게 학습하게 됨

결국, 환경 변화에 적응 가능한 메모리 값 비싼(?) 자원을 할당하는 방법을 학습하는 문제에 대한 솔루션 제공을 주장.