KR20200062887A

KR20200062887A - 강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법

Info

Publication number: KR20200062887A
Application number: KR1020180148823A
Authority: KR
Inventors: 윤승현; 신승재; 전홍석; 조충래
Original assignee: 한국전자통신연구원
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-04
Also published as: US20200167611A1

Abstract

본 발명은 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법 및 장치에 대한 것으로, 초기 학습 단계에서는 알고리즘을 이용하여 계산된 제 1 액션이 선택되고, 초기 학습 단계가 종료된 경우 Q 함수를 이용하여 계산된 제 2 액션이 선택되는 방법이 개시된다.

Description

강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법 {Apparatus and method for assuring quality of control operations of a system based on reinforcement learning.}

본 발명은 여러 상태들로 이루어진 시스템을 강화학습 방식으로 제어하기 위한 시스템 및 그 방법에 관한 것이다.

도 1은 강화 학습 시스템의 구성도에 해당된다. 강화학습(Reinforcement Learning)은 에이전트(110)와 제어의 대상이 되는 환경시스템(Environment)(120)간의 상호작용을 통하여 제어의 품질(효율 및 정확도)을 자동적으로 개선하는 방법이다.

에이전트(110)는 환경시스템의 현재 상태 정보(state)를 수신하고 그에 대한 제어 정책을 계산하여 환경시스템에 제어 정책을 전달(action)할 수 있다. 환경시스템(120)은 전달받은 제어 정책에 따라 제어를 수행하고 그 수행의 결과를 보상(reward)형태로 에이전트에 전달하게 된다. 에이전트(110)는 이 보상 값을 이용하여 향후 누적되는 보상이 최대가 될 수 있도록 정책을 조정하여 제어 정책이 개선되도록 동작한다.

강화학습에서 에이전트(100)는 환경시스템의 각 상태에 따라서 적합한 제어 정책을 결정해야 하는데 만일 환경시스템의 상태의 종류가 매우 많은 경우라면 전통적인 테이블이나 데이터베이스 형태로 이 정보를 보관하기는 어렵다. 따라서 최근 DQN(Deep Q-Network)과 같은 기술에서는 상태와 이에 대한 정책을 신경망에 학습하여 동작하도록 하고 있다. 여기서 사용된 신경망은 상태에 따른 제어 정책을 계산해 주는 Approximator (이하 Q network이라고 부름)로 활용된다.

상기 설명과 같이 강화학습 에이전트는 초기 상태(임의수치로 설정된 Q network)에서 환경시스템과 상호작용을 지속함으로써 제어 정책의 품질을 향상시키도록 동작하기 때문에 초기에 계산되는 제어 정책의 품질은 매우 나쁠 수 있으며, 일정 수준의 학습이 진행된 이후에만 제어 품질이 확보될 수 있다. 따라서 초기에는 환경 시스템에 적용이 어려운 상황이 발생하는 문제가 있다.

한편 강화학습과 같은 AI 기반의 제어 기술을 사용하기 이전에 환경시스템에 대한 제어정책을 계산하는데 있어서 전통적으로 알고리즘 기반으로 계산을 수행하는 방법이 많이 사용된다. 특히, 통상 최적해를 찾는 모델이 복잡한 경우에 휴리스틱 알고리즘 등을 이용하여 근사적인 해를 찾는 방법이 적용되는 경우가 많이 있다. 이러한 알고리즘 들은 통상 전문가에 의해서 개발되어 일정한 수준의 품질을 갖고 있으나 강화학습과 같은 방법을 통해서 추가적으로 제어 품질을 향상시키는 것은 불가능하다.

본 발명은 전술한 종래 기술의 문제점을 해결하여 휴리스틱 알고리즘과 같이 일정 품질을 확보하는 전통적인 방법과 강화 학습 방법을 결합하는 강화학습 시스템 및 방법을 제공할 수 있다.

본 발명의 구성에 따르면, 학습이 부족한 초기 에이전트에서는 기존 알고리즘을 사용하고 이를 기반으로 학습을 진행함으로서 일정 수준의 품질을 확보할 수 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 따라 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 시스템을 제공할 수 있으며, 이 때 시스템은 환경 시스템 및 강화학습 에이전트 장치를 포함할 수 있다.

본 발명에 따라 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 장치 및 방법을 제공할 수 있다.

이때 알고리즘 기반 액션 계산부는 상태 정보(state)에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산할 수 있다.

Q 함수 기반 액션 계산부는 상태 정보에 기초하여 Q 함수를 이용하여 제 2 액션(action)을 계산할 수 있다.

평가 및 업데이트부는 Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택할 수 있다.

이 때 상태 정보는 상기 환경 시스템으로부터 수신되고, 환경 시스템에 상기 선택된 액션이 전달되는 경우, 평가 및 업데이트부는 초기 학습 단계에서는 제 1 액션을 선택하고, 판단된 Q 네트워크의 학습 상태 결과에 기초하여 초기 학습 단계의 지속 여부를 결정하고, 초기 학습 단계가 종료된 경우 제 2 액션을 선택할 수 있다.

본 발명의 일 실시예에 따라 평가 및 업데이트부는 선택된 액션에 기초하여 수행된 제어 결과에 대한 보상(reward) 값을 수신하고, 보상값에 기초하여 Q 네트워크를 업데이트할 수 있다.

본 발명의 일 실시예에 따라 Q 네트워크의 학습 상태를 판단하는 경우, 에러값이 임계 에러값보다 작고, 에러값이 임계 에러값보다 작다고 판단된 횟수가 임계 횟수과 동일한 경우 상기 초기 학습 단계를 종료할 수 있다. 이 때 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고, 제 1 액션의 가치함수와 제 2 액션의 가치함수의 차이 값에 해당될 수 있다.

본 발명의 일 실시예에 따라 Q 네트워크의 학습 상태를 판단하는 경우, 기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고, 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료할 수 있다. 이 때 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고, 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값에 해당될 수 있다.

본 발명의 일 실시예에 따라Q 네트워크의 학습 상태를 판단하는 경우, 제 1 액션 값과 상기 제 2 액션 값이 동일하고, 동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료할 수 있다. 본 발명의 일 실시예에 따라 액션 스페이스(action space)가 이산적인 경우 또는 선택 항목이 많지 않은 경우에 용이하게 사용될 수 있다.

본 발명의 일 실시예에 따라 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당될 수 있다.

본 발명의 일 실시예에 따라 알고리즘은 휴리스틱 알고리즘에 해당될 수 있다.

본 발명은 기존에 제어 알고리즘이 알려진 환경시스템을 강화학습을 통하여 제어하는 시스템에 있어서 학습 초기에는 기존 제어 알고리즘을 통하여 계산을 수행하며, 동시에 강화학습 에이전트를 학습하도록 함으로서 초기에 일정 수준의 품질을 유지하면서 제어가 수행되도록 하는 강화학습 방법을 제공할 수 있다.

본 발명은 학습 초기에 품질이 저하되는 강화학습 문제를 해결할 수 있다.

본 발명은 강화학습을 통한 시스템 제어 품질을 향상시킬 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 강화 학습 시스템의 구성도에 해당된다.
도 2는 본 발명의 일 실시예에 따른 강화학습 시스템의 구성도에 해당한다.
도 3은 본 발명의 일 실시예에 따른 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법에 대한 흐름도에 해당된다.
도 4는 본 발명의 일 실시예에 따른 강화학습 방법의 절차를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 강화학습 방법의 절차를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 강화학습 방법의 절차를 나타낸 도면이다.

이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 발명의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 발명에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 발명에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 발명의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다.

본 발명에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 발명의 범위에 포함된다.

본 발명에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 발명의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 발명의 범위에 포함된다.

본 발명은 제어 품질이 확보된 기존 방법(ex. 휴리스틱 알고리즘)이 알려진 환경시스템을 제어하는데 있어서 기존 방법을 통하여 초기에 제어를 수행하며, 이를 이용하여 동시에 강화학습 에이전트를 학습하고 일정 수준의 품질이 확보되는 시점에 강화학습 방법으로 에이전트를 지속적으로 개선하도록 하는 강화학습 시스템 및 방법에 관한 것이다.

이하에서는, 본 발명의 실시예에 장치 및 방법을 첨부한 도면들을 참조하여 설명한다. 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 상세히 설명한다.

도 2는 본 발명의 일 실시예에 따른 강화학습 시스템의 구성도에 해당한다.

강화학습 절차는 기존에 알려진 방식과 같이 동작할 수 있다.

따라서 먼저 에이전트(210)가 환경시스템(230)으로부터 상태 정보(state)를 수신할 수 있다. 그리고 에이전트(210)는 현재 상태 정보에 기초하여 제어 정책을 계산하고, 제어를 위한 액션(action)을 환경 시스템에 전달할 수 있다.

환경시스템(230)은 제공된 액션(action)을 수행하고 보상(reward)을 계산할 수 있다. 그리고 환경시스템(230)은 보상 값을 에이전트에 전달할 수 있다.

에이전트는 전달 받은 보상 값을 이용하여 향후 누적되는 보상이 최대가 될 수 있도록 정책을 조정하여 제어 정책이 개선될 수 있도록 동작할 수 있다.

본 발명의 일 실시예에 따른 강화학습 에이전트(210)은 알고리즘 기반 액션(Action) 계산부(212), Q 네트워크(network)부(214), Q 함수기반 액션(Action) 계산부(216) 및 평가 및 업데이트부(218)로 구성될 수 있다.

이 때 알고리즘 기반 액션 계산부(212)는 기존에 알려진 제어 정책(ex. 휴리스틱 알고리즘)에 사용된 알고리즘 기반으로 Action을 계산할 수 있다.

Q 네트워크부(214)는 Q 함수에 대한 Approximation을 수행할 수 있다.

Q 함수기반 액션 계산부(216)는 Q network을 기반으로 Action을 계산할 수 있다.

평가 및 업데이트부(218)는 계산된 action을 평가하고 reward를 수신하여 Q network를 업데이트할 수 있다.

기존 Deep-Q Network(DQN)와의 차이점은 알고리즘 기반 Action 계산부(212)와 계산된 액션(action)을 평가하고 그 결과를 환경시스템에 전달하는 평가 및 업데이트부(218)이다.

본 발명에 따른 강화학습 에이전트(210)는 환경시스템(230)으로부터 상태 정보(state)가 수신되면 에이전트(210)는 기존에 알려진 알고리즘 기반 계산 방법과 Q 함수 기반 계산 방법을 모두 사용하여 각각 액션(action)을 계산할 수 있다.

평가 및 업데이트부(218)에서는 이를 이용하여 Q network의 학습 상태를 평가할 수 있다. 이 때 평가에 따라 학습이 충분이 이루어 지지 않은 상황으로 판단된 경우, 평가 및 업데이트부(218)는 기존 알고리즘에서 계산된 액션(action)을 환경시스템에 전달할 수 있다. 그리고 평가 및 업데이트부(218)는 환경시스템으로부터 보상값(reward)이 수신되면 Q network를 업데이트하고 평가 기준을 조정해 나갈 수 있다.

본 발명의 일 실시예에 따라, 본 발명은 네트워크 및 클라우드 센터와 같은 IT 인프라 분야에 적용될 수 있다. 다만 이에 한정될 것은 아니다.

본 발명의 일 실시예에 따라 본 발명은 FaaS(Function as a service) 서비스에서 function에 대한 서버 스케줄링, 자원 할당 문제에 적용될 수 있다. 이 경우 결정 사항으로는 FaaS의 경우에 Function 실행요청이 Controller 에 수신되는 경우에 적당한 서버(또는 가상서버 혹은 container)를 스케쥴링해야 하는 기능에 해당될 수 있다. 이 때 에이전트가 환경시스템으로부터 수신하는 상태 정보에는 서버의 현재 사용율, 일정 기간동안의 사용율 변화, 요청된 Function의 종류 및 특징 등이 해당될 수 있다.

본 발명의 일 실시예에 따라 본 발명은 IaaS (Infra as a service) 서비스에서 가상서버에 대한 물리 서버 할당 문제에 적용될 수 있다. 이 때 본 발명은 결정 사항으로 요청된 가상서버를 물리서버 자원, 요구하는 자원 및 성능에 알맞게 클라우드 내에 어떤 물리 서버에 결정하는 기능을 수행할 수 있다. 이 때 에이전트가 환경시스템으로부터 수신하는 상태 정보에는 각 물리 서버의 현재 사용율/가용율 및 히스토리, 각 물리 서버의 성능, 각 물리 서버의 위치에 따른 네트워크 성능 등이 해당될 수 있다.

본 발명의 일 실시예에 따라 본 발명은 네트워크 경로 결정 문제에 적용될 수 있다. 이 때 본 발명은 패킷의 도착(ex. SDN 환경) 또는 종단간 경로 계산 요청 도착시(ex. PTL, Optical network 등 주로 전송 계층 또는 MPLS와 같이 경로 연결형 네트워크 등에서 발생) 네트워크 경로를 결정하는 기능을 수행할 수 있다. 이 때 에이전트가 환경시스템으로부터 수신하는 상태 정보에는 각 링크, 노드 자원의 부하량 및 히스토리, 종단간 성능 정보 및 히스토리 등이 해당될 수 있다.

본 발명의 일 실시예에 따라 본 발명은 분산 저장 기능(빅데이터 플랫폼: hadoop등, 분산 데이터베이스:카산드라 등, P2P 분산파일시스템:IPFS 등) 에서 저장 위치, 복제 정책과 같은 문제에 적용될 수 있다. 이 때 본 발명은 사용자 또는 시스템 기능에서 데이터의 저장을 요청한 경우에 저장기능을 구성하는 노드 중에서 어떤 위치에 저장할 것인지 결정하는 기능을 수행할 수 있다. 이 때 에이전트가 환경시스템으로부터 수신하는 상태 정보에는 각 위치별 액세스 성능, 각 위치별 용량, 각 위치별 가용율 및 각각의 히스토리 등이 포함될 수 있다.

상기와 같이 본 발명의 대상이 되는 환경은 인프라를 구성하는 대표적인 기능요소인 컴퓨팅, 네트워킹, 데이터 저장에서 제어 관리(주로 스케쥴링, 할당, 부하 분산 등)를 수행하는 시스템에 해당될 수 있다.

또한 상태 정보는 각 환경에 따라, 결정되어야 하는 사항들을 판단하기 위해 필요한 정보들에 해당될 수 있다.

다만 본 발명이 적용될 수 있는 시스템은 상기의 실시예에 한정되지 않는다. 상기의 실시예 외에 이들이 조합된 문제나 새로운 문제들이 더 있을 수 있다. 또한 상기의 실시 예에서 상태 정보는 우선적으로 생각해 볼 수 있는 간단한 예들을 적시한 것으로서 실제로는 더 정교한 상태 정보 설계가 필요할 수 있다.

도 3은 본 발명의 일 실시예에 따른 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법에 대한 흐름도에 해당된다.

본 발명은 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 장치로 구현될 수 있다. 이 때 장치는 알고리즘 기반 액션 계산부, Q 함수 기반 액션 계산부, Q 네트워크부 및 평가 및 업데이트부를 포함할 수 있다.

본 발명은 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 시스템으로 구현될 수 있다. 이 때 시스템은 환경 시스템 및 강화학습 에이전트 장치로 구현될 수 있다.

본 발명의 방법을 수행하기 위해서, 먼저 강화학습 에이전트는 환경 시스템으로부터 상태 정보(state)를 수신할 수 있다. (S310)

그리고 강화학습 에이전트는 제 1 액션(action) 및 제 2 액션(action)을 계산할 수 있다.(S320) 이 때 알고리즘 기반 액션 계산부에서 계산되는 제 1 액션은 상태 정보에 기초하여 알고리즘을 이용하여 계산되는 액션에 해당될 수 있다. 이때 Q 함수 기반 액션 계산부에서 계산되는 제 2 액션은 상태 정보에 기초하여 Q 함수를 이용하여 계산되는 액션에 해당될 수 있다.

본 발명의 일 실시예에 따라 알고리즘은 상기 환경 시스템에 대한 제어를 수행하는 알고리즘에 해당될 수 있다. 알고리즘은 초기 학습 단계 동안 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당될 수 있다.

이때 기준 품질은 알고리즘을 사용하여 계산할 경우의 목적된 품질에 해당할 수 있다. 해당 기준 품질은 사용자에 의해서 설정될 수 있는 값에 해당될 수 있다. 또한 강화학습 함수로 계산할 경우 얻어지는 품질 값보다 큰 값에 해당될 수 있다. 즉, 기준 품질은 강화학습 함수로 시스템의 해결 과제를 계산하는 경우보다 더 나은 품질에 대한 값에 해당될 수 있으며, 본 발명의 일 실시예에 따라 강화학습 함수는 Q 함수에 해당될 수 있다.

또한 본 발명의 일 실시예에 따라 알고리즘은 휴리스틱 알고리즘에 해당될 수 있다.

평가 및 업데이트부는 Q 네트워크의 학습 상태를 판단하고, 제 1 액션 또는 제 2 액션을 선택할 수 있다.(S330)

이 때 본 발명의 일 실시예에 따라 초기 학습 단계에서는 제 1 액션이 선택되고, 판단된 Q 네트워크의 학습 상태 결과에 기초하여 초기 학습 단계의 지속 여부가 결정될 수 있다. 그리고 초기 학습 단계가 종료된 경우 제 2 액션이 선택될 수 있다.

본 발명의 일 실시예에 따라 평가 및 업데이트부가 Q 네트워크의 학습 상태를 판단하는 경우, 에러값이 임계 에러값보다 작고, 에러값이 임계 에러값보다 작다고 판단된 횟수가 임계 횟수과 동일한 경우 상기 초기 학습 단계를 종료할 수 있다.

이 때 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고, 제 1 액션의 가치함수와 제 2 액션의 가치함수의 차이 값에 해당될 수 있다.

또한 임계 에러값은 Q 네트워크로 표현된 Q 함수가 기존 알고리즘 품질에 가깝게 학습되어 있는지에 대한 판단 기준으로, 사용자가 설정할 수 있는 값에 해당된다.

이 때 임계 횟수는 알고리즘에 의한 제 1 액션 대신 Q 함수에 의한 제 2 액션이 선택되기 위해 판단될 수 있는 최소 횟수를 의미하는 것으로, 사용자가 설정할 수 있는 값에 해당된다.

이와 같은 판단 방법에 대한 구체적인 흐름은 도 4에서 상세히 설명된다.

본 발명의 일 실시예에 따라 평가 및 업데이트부가 Q 네트워크의 학습 상태를 판단하는 경우, 기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고, 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료할 수 있다.

이 때 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고, 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값에 해당될 수 있다.

이와 같은 판단 방법에 대한 구체적인 흐름은 도 5에서 상세히 설명된다.

본 발명의 일 실시예에 따라 평가 및 업데이트부가 Q 네트워크의 학습 상태를 판단하는 경우, 상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고, 동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료될 수 있다.

이 때 임계값은 시스템의 초기 품질을 확보하기 위해, 제 1 액션 값과 제 2 액션값이 동일하다고 판단될 수 있는 기준치가 될 수 있다. 사용자에 의해 설정될 수 있는 값에 해당될 수 있다.

또한 상기와 같이 평가 및 업데이트부가 Q 네트워크의 학습 상태를 판단하는 경우는, 액션 스페이스(action space)가 이산적인 경우 또는 선택 항목이 많지 않은 경우에 용이하게 사용될 수 있다.

이와 같은 판단 방법에 대한 구체적인 흐름은 도 6에서 상세히 설명된다.

강화학습 에이전트는 환경 시스템에 상기 선택된 액션을 전달할 수 있다. (S340) 그리고 강화학습 에이전트는 선택된 액션에 기초하여 수행된 제어 동작 결과에 대한 보상(reward) 값을 수신할 수 있다. (S350) 그리고 강화학습 에이전트는 보상값에 기초하여 Q 네트워크를 업데이트할 수 있다.(S360)

도 4는 본 발명의 일 실시예에 따른 강화학습 방법의 절차를 나타낸다.

시스템이 시작되면 에이전트는 학습 수준을 나타내기 위한 임계 횟수(n), 임계 에러값(ε), 학습 플레그를 설정할 수 있다.

여기서 에러 값은 기존 알고리즘에 의한 action(a')의 가치(Q(s, a'))와 강화학습에 의해서 계산된 action(a)에 대한 가치(Q(s, a))를 평가하여 그 차이에 해당되는 값에 해당될 수 있다.

이때 임계 에러값(ε)은 지정된 에러값의 한계에 해당될 수 있다. 에러값이 임계 에러값보다 차이가 작은 경우, Q network로 표현된 Q함수가 기존 알고리즘 품질에 가깝게 학습되었다는 평가로 사용될 수 있다.

Q함수가 알고리즘 품질에 가깝게 평가된 횟수를 계산하여 임계 횟수(n)와 같게 되면 더 이상 기존 알고리즘을 방법을 사용하지 않고 통상적인 강화학습 방법으로 전환될 수 있다. 즉, 임계 횟수(n)는 에이전트를 동작하게 하는 기준 값에 해당될 수 있다.

기존 알고리즘을 사용하는 경우에 학습 플래그 값은 "on"으로 설정되며, 초기 학습단계를 나타낼 수 있다. 강화학습으로 완전히 이행되면 학습 플래그 값은 "off"로 설정되어 지속적으로 강화학습 방법으로 제어와 Q network가 업데이트 되어 품질을 개선하게 될 수 있다.

좀 더 자세히 절차를 설명하면 앞서 설명한 값들이 설정된 상태에서 에이전트는 환경시스템으로부터 state 및 정책 요청을 수신하며, 학습 플래그 확인을 통하여 알고리즘 기반의 제어정책을 전달할 것인지 아니면 Q network 기반의 제어정책을 전달할 것인지 결정할 수 있다.

알고리즘 기반인 경우에는 알고리즘 기반의 action(a)을 계산하여 환경시스템에 전달하고 reward(

)를 수신하여 Q network를 업데이트 한다. 업데이트된 Q network을 이용하여 state(s)에 있을 경우에 action을 계산하고 각 action에 대한 Q 값(Q(s, a'),(Q(s, a)을 산출하여 그 차이를 비교한다.

만일 그 차이가 임계 에러값(ε)보다 작은 경우에 임계 횟수(n)를 1씩 줄여 나간다. 만일 임계 횟수(n)가 0이 되면 학습플래그를 "off" 상태로 바꾸어 더 이상 알고리즘 기반의 action 계산과 초기 학습이 필요 없는 상태로 표시될 수 있다.

학습 플래그가 "off" 상태는 Q network가 알고리즘 기반의 기존 방법을 충분히 학습하여 품질이 일정 수준에 다다른 것으로 판단함을 의미하며, 이후에는 강화학습 기반의 action 계산 및 Q network 업데이트가 지속적으로 수행될 수 있다.

이하 그림에서 나타낸 추가적인 일 실시 예는 초기 학습을 끝내는 판단 기준을 다르게 정의한 것이다.

도 5는 본 발명의 일 실시예에 따른 강화학습 방법의 절차를 나타낸 도면이다.

도 5의 일 실시예는 매번 계산된 에러(error) 값을 그대로 사용하는 것이 아니라 정해진 구간(n)만큼에 대해서 에러(error)에 대한 이동평균 값을 구하고 이를 이용하도록 한 것이다. 에러(error)의 이동평균이 정해진 임계 에러값(ε)보다 작은 경우에 학습 플래그를 "off" 하여 알고리즘 기반의 초기 학습을 종료하도록 하는 것이다.

통상 학습단계에서 에러는 지속적으로 작아지는 것이 아니라 증감을 반복하며, 이는 초기 학습단계에서 변화가 심한 경향이 있다. 하지만 어느 정도 학습이 진행되면 추세적으로 에러값은 감소하게 된다. 일 실시 예는 이러한 에러의 추세를 판단의 기준으로 사용한 것으로서 error 대한 이동평균값을 이용하여 초기 학습 종료를 판단하며, 이 부분이 앞서 설명한 일 실시예와 차이점이 된다.

도 6은 본 발명의 일 실시예에 따른 강화학습 방법의 절차를 나타낸 도면이다.

도 6의 일 실시예는 Q network의 평가 값이 아닌 알고리즘 기반 계산과 Q함수기반 계산의 결과가 동일하게 일치한 횟수를 기준으로 초기 학습 종료를 판단하는 것이다. Action 스페이스가 연속적이거나 매우 많은 선택지가 있는 경우에는 앞서 설명한 두 개의 일 실시 예가 유리한 측면이 있으나 action 스페이스가 이산적이고 상대적으로 적은 선택항목만 있는 경우에 사용이 유리하다. 이 방법은 효과적인 평가를 위하여 알고리즘 기반 계산과 Q network 기반 계산 값이 일치할 경우에 학습이 잘 된 것으로 판단하는 것이다.

다만 확률적인 우연으로 일치가 발생하는 경우를 충분히 배제하기 위하여 임계값을 설정하고 일치한 경우가 임계값만큼 도달하면 학습 플래그를 "off"시켜서 알고리즘 기반의 초기 학습 단계를 종료할 수 있다.

본 발명의 이점 및 특징, 그것들을 달성하는 방법은 첨부되어 있는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 제시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

210: Agent
212: 알고리즘 기반 Action 계산부
214: Q network
216: Q 함수 기반 Action 계산부
218: 평가 및 업데이트부
230: 환경 시스템

Claims

강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법에 있어서
상기 환경 시스템으로부터 상태 정보(state)를 수신하는 단계;
상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수를 이용하여 제 2 액션(action)을 계산하는 단계;
Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 단계;
상기 환경 시스템에 상기 선택된 액션을 전달하는 단계;
상기 선택된 액션에 기초하여 수행된 제어 동작 결과에 대한 보상(reward) 값을 수신하는 단계; 및
상기 보상값에 기초하여 Q 네트워크를 업데이트하는 단계;
를 포함하되,
초기 학습 단계에서는 상기 제 1 액션이 선택되고,
상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,
상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
제 1항에 있어서
상기 Q 네트워크의 학습 상태를 판단하는 경우,
에러값이 임계 에러값보다 작고,
상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계 횟수과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
제 2항에 있어서
상기 에러값은
제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,
상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
제 1항에 있어서
상기 Q 네트워크의 학습 상태를 판단하는 경우,
기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,
상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
제 4항에 있어서
상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,
상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
제 1항에 있어서
상기 Q 네트워크의 학습 상태를 판단하는 경우,
상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,
동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
제 1항에 있어서
상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고,
상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 초기 제어 동작의 품질을 확보하는 방법.
제 7항에 있어서
상기 알고리즘은 휴리스틱 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법.
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 장치에 있어서
상태 정보(state)에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하는 알고리즘 기반 액션 계산부;
상기 상태 정보에 기초하여 Q 함수를 이용하여 제 2 액션(action)을 계산하는 Q 함수 기반 액션 계산부; 및
Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 평가 및 업데이트부;
를 포함하되,
상기 상태 정보는 상기 환경 시스템으로부터 수신되고,
상기 환경 시스템에 상기 선택된 액션이 전달되는 경우,
상기 평가 및 업데이트부는
초기 학습 단계에서는 상기 제 1 액션을 선택하고,
상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부를 결정하고,
상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 9항에 있어서
상기 평가 및 업데이트부는
상기 선택된 액션에 기초하여 수행된 제어 결과에 대한 보상(reward) 값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 9항에 있어서
상기 Q 네트워크의 학습 상태를 판단하는 경우,
에러값이 임계 에러값보다 작고,
상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계값과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 11항에 있어서
상기 에러값은
제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,
상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 9항에 있어서
상기 Q 네트워크의 학습 상태를 판단하는 경우,
기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,
상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 13항에 있어서
상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,
상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 9항에 있어서
상기 Q 네트워크의 학습 상태를 판단하는 경우,
상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,
동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
제 9항에 있어서
상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고,
상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치.
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 시스템에 있어서
상기 강화학습 에이전트 장치로부터 선택된 액션에 기초하여 제어 동작을 수행하고, 상기 제어 동작 결과에 대한 보상(reward) 값을 생성하는 상기 환경 시스템; 및
상기 강화학습 에이전트 장치;
를 포함하되,
상기 강화학습 에이전트 장치는
상기 환경 시스템으로부터 상태 정보(state)를 수신하고
상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수에 기초하여 제 2 액션(action)을 계산하고,
Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하고,
상기 환경 시스템에 상기 선택된 액션을 전달하고,
상기 보상값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하되
초기 학습 단계에서는 상기 제 1 액션이 선택되고,
상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,
상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 시스템.