구글 딥마인드가 넘지 못한 게임 - 하나비 인공지능 연구 리뷰

2019. 5. 20. 18:15IT, 데이터/IT 이슈

728x90

 

올해 2, 구글 딥마인드에서 강화학습이 아직 정복하지 못한 한 게임에 대한 논문을 발표했습니다.

 

강화학습기법은 인공지능이 정복하지 못할 것이라고 하던 바둑을 넘어 도타2까지 각종 컴퓨터 게임을 섭렵하는 기술로 주목받고 있는 와중에도, 강화학습이 전통적인 규칙기반 알고리즘을 넘어서지 못한 게임이 있다는 내용이였는데, 그것은 바둑만큼 복잡한 게임이 아닌 의외로 아주 심플한 카드 게임인 하나비(Hanabi)였습니다.

 

바둑, 체스같은 게임이 그렇듯이 보드게임, 카드게임은 기계가 학습하기 위한 각종 정보를 데이터화하고 수치화하기 용이해서 인공지능 연구를 평가하는 최우선 실험대상이 되어왔었습니다. 특히 알파고에 이어 알파제로를 기점으로 보드게임 영역은 거의 평정된 분위기고, 최근에는 실시간성, 제한된 정보 등의 요소가 부가된 슈팅, 액션, AOS 장르 등에서 강화학습기법을 통해 인간을 뛰어넘는 게임 인공지능 개발에 더 초점을 맞추고 있는 것으로 보였습니다.

 

그러한 와중에 인지도도 바둑, 체스보다 훨씬 떨어지고 가볍게 즐기는 한 카드 게임이 아직 강화학습이 넘어야 할 거대한 산으로 자리잡고 있다고 하니 뜻밖이 아닐 수 없습니다.

 

그래서 저번 글에서는 이 논문의 내용을 참고하여 하나비의 게임 규칙 및 특징과 전략, 그리고 그 안에서의 인간의 사고의 특징을 알아봤으며,

 

이번 글에서는 마찬가지로 이 논문의 내용을 바탕으로 하나비 인공지능의 성능 테스트를 한 결과를 보면서 어떠한 한계점이 있었는지 살펴보고자 합니다.

 


본 글은 Artificial Intelligence 저널에 2019년 2월 4일 게재된, ‘The Hanabi Challenge: A New Frontier for AI Research’(저자:Nolan Bard, Jakob N. Foerster 등)의 본문내용을 바탕으로 작성하였습니다.

 

본문의 [그림1] ~ [그림5]는 위 논문에서 발췌하여 사용하였습니다.

 

논문 링크

 

The Hanabi Challenge: A New Frontier for AI Research

From the early days of computing, games have been important testbeds for studying how well machines can do sophisticated decision making. In recent years, machine learning has made dramatic advances with artificial agents reaching superhuman performance in

arxiv.org


 

1. 하나비 게임 소개

 

 

Hanabi(하나비)는 일본어로 불꽃, 또는 불꽃놀이를 뜻하는 단어로 다양한 형태의 불꽃놀이를 성공적으로 쏘아올린다는 테마의 카드게임입니다.

 

2명에서 5명까지 함께할 수 있고, 일반적인 카드게임과 다르게 서로 경쟁하는 게임이 아니라 모든 플레이어가 같은 목표를 갖고 협동하는 협력게임입니다.

 

각 플레이어는 손에 카드를 4-5장 들고 시작하는데, 뒷면이 보이게 듭니다. , 다른 사람의 카드는 모두 볼 수 있지만 본인이 들고 있는 카드는 볼 수 없습니다. 따라서 한 사람씩 턴을 진행하면서 다른 사람들로부터 카드에 대한 힌트를 얻을 수 있고, 이를 통해 본인이 어떤 카드인지 추리해내야 합니다.

 

카드를 사용하면 공용공간에 내려놓는데, 각각의 색깔의 카드를 숫자 1부터 5까지 순서대로 내려놓아야 더 많은 점수를 얻을 수 있습니다. 순서에 맞지 않는 카드를 사용하면 아래에 쌓아놓을 수 없고 점수도 얻을 수 없습니다. 이런 방식으로 카드를 내려놓아 5가지 색상의 카드를 1에서 5까지 모두 제대로 쌓아놓으면 카드 장 수당 1점씩, 최고점수 25을 기록하게 되고, 그러지 못한 경우 쌓아놓은 장 수 만큼 점수를 기록하고 게임을 종료합니다.(예를 들어 아래 왼쪽의 예시는 12점이 됩니다.)

 

 

 

 

하나비에 대한 더 자세한 게임규칙 및 전략은 아래의 이전 글을 참고하시면 확인하실 수 있습니다.

 


2019/05/17 - [IT/IT 이슈] - 보드게임 하나비(Hanabi)와 기본 전략, 그리고 인공지능에 필요한 암시적 커뮤니케이션

 

보드게임 하나비(Hanabi)와 기본 전략, 그리고 인공지능에 필요한 암시적 커뮤니케이션

예전에 하나비(Hanabi)라는 보드(카드)게임을 한 번 해본 적이 있었습니다. 협동게임인데 룰이 간결하면서도 의사소통이 제한되어 있어 ‘아 이렇게 서로의 생각을 읽지 못하는구나’를 뼈저리게 느끼게..

ellun.tistory.com


 

2. 하나비 인공지능 테스트 방식

 

하나비에서 고득점을 하기 위해서는 다른 플레이어의 생각을 잘 읽을 수 있어야 합니다. 따라서 게임을 하기 이전에 사전에 나는 이런 방식으로 플레이하겠다‘, ‘우리는 이런 상황에서는 이렇게 하자라는 식의 공동규약을 미리 정해놓는 것은 상대방의 의도를 파악하는 데 큰 도움이 됩니다. 예를 들어 숫자 5 카드는 섣불리 버리지 못하도록 우선적으로 숫자 5카드는 힌트로 알려주기로 하자.’ 라고 미리 약속하는 식이죠. 그렇다면 숫자 5라는 힌트를 받지 않은 카드는 100% 숫자 5인 카드가 아니라는 것을 확신할 수 있게 됩니다.

 

하지만 룰 상으로도 매우 정형화된 방식으로 의사소통을 강제하는 하나비의 특징상(어떤 카드가 숫자 2에요’, ‘어떤 카드가 파란색이에요 와 같은 숫자 또는 색깔 중 하나만 정해서 힌트를 줄 수 있음), 이렇게 플레이 방식을 사전협의를 하는 것은 공정하게 플레이하는 것이라고 볼 수 없습니다. 특히 온라인 상에서 이름 모를 플레이어와 바로 플레이하는 경우 사전 협의할 수 있는 기회가 원천적으로 차단된다고 볼 수 있기 때문에 더 그렇습니다.

 

 

따라서 인공지능이 진짜로 사람처럼 행동할 수 있게 하기 위해서는 ’개별 플레이어의 정책’과 ‘암묵적으로 협의된 약속’ 두 가지를 미리 알지 못한 상태에서라도 플레이 중에 습득할 수 있는 능력을 갖고 있어야 합니다.

 

 

그래서 딥마인드에서는 두 가지 방법으로 인공지능을 테스트했습니다.

첫 번째는 Self-Play단계로 제로베이스에서 게임을 능숙하게 플레이할 수 있는 정책을 발견하기 위해, 모든 플레이어가 동일한 정책으로 플레이한다는 조건에서 가장 높은 점수를 기록할 수 있도록 공동의 최적화된 정책을 학습시키고, 그 성능을 측정합니다.

 

그 다음은 실제 온라인 상 하나비를 플레이하는 것과 같이 여러 번의 ‘Self-Play’ 단계를 통해 학습시킨 서로 다른 최적화된 정책을 가진 에이전트들이 모여서 플레이 할 때의 성능을 측정하였습니다. 이것을 서로 다른 성격의 에이전트가 모였다는 의미로 이 논문에서는 Ad-hoc Team이라고 부릅니다.

 

 

- Self-Play : 모든 플레이어가 동일한 정책으로 플레이한다는 조건에서 최적화된 정책을 발견하여 플레이하는 에이전트의 성능을 테스트

- Ad-Hoc Teams : 서로 다른 방식으로 정책을 최적화한 에이전트들 간의 플레이 시 성능을 테스트

 

<self-play 테스트 과정 (3인 플레이의 경우 예시)>

 

<ad-hoc 팀 플레이 테스트 과정 (2인 플레이의 경우 예시)>

 

 

 

3. 인공지능 형태

 

이번 테스트에서는 머신러닝기반 인공지능 에이전트와 전통적인 규칙기반 인공지능 에이전트의 성능 우열을 비교하기 위해 각각의 방법론별로 세 가지씩 총 여섯 가지의 에이전트를 개발하였습니다. 각 에이전트들의 특징은 다소 기술적인 내용으로 논문 내용을 발췌 및 번역하여 기술하였으니, 이런 게 있구나 정도만 보고 넘어가셔도 될 듯 합니다.

(각 에이전트별 자세한 설명은 논문 원문 p14-p16과 부록을 참고하시면 됩니다.)

 

 

1) 학습 기반 에이전트

 

  - ACHA (Actor Critic Hanabi Agent)

Variance Reduction(분산 축소)를 기반으로 하는 value function(가치 함수)를 학습하는 심층 신경망으로 정책을 구현합니다. 또한 병렬적인 환경에서 학습할 수 있어 학습 결과를 중앙 서버로 전달합니다. 다만 이는 환경 인스턴스와 서버가 비동기적으로 상호작용하기 때문에 그래디언트가 최신화되지 되는데 부정적인 영향을 줍니다. 따라서  Importance Weighted Actor-Learner variant(중요도 가중치가 있는 액터-학습자 변형)을 활용하며, V-trace 알고리즘을 통해 부적절한 정책을 조정하여 오래된 그래디언트 문제를 해결합니다.

이번 실험에서는 ACHA 알고리즘 한 번 실행 시 30-50명의 집단 크기, 병렬로 게임을 플레이 하는 100개의 액터를 생성하였고, 처음에는 256개 은닉 유닛과 ReLU 활성함수를 가진 MLP로 처리하며, 그 다음에는 각 레이어별 256개 유닛을 가진 2개 레이어 LSTM으로 입력시킵니다. 정책 π는 LSTM 출력값에 대한 Softmax 활성함수 판독값이며, 베이스라인은 LSTM 출력값의 선형 판독값이 되었습니다.

이 알고리즘은 아케이드 게임 학습, TORCS 운전 시뮬레이터, 1인칭 시점 3D 환경에서의 에이전트 작업 학습에 사용되고 있다고 합니다.

 

  - Raindow Agent

최신 Deep Q-Networks(DQN)을 활용하여 샘플 효율적이고 높은 보상을 달성할 수 있는 알고리즘으로, 아케이드 학습 환경에서의 최신 강화학습 아키텍처입니다. 이번 실험에서는 Dopamine Framework 기반의 다중 Rainbow 에이전트를 활용하였습니다. 레이어별 512개 유닛을 가진 2개 레이어 은닉층을 사용하며, 맨 처음 1천번의 훈련 단계 동안 'ε-greedy' 정책의 'ε' 값이 0이 되도록 모델을 강화합니다. 또한 0.99값의 γ 계수를 사용하고, 리플레이 버퍼에서 우선순위 샘플링 방법을 적용합니다. 결과적으로, value distribution(가치 분포)은 51 이상으로 요소들이 균일하게 분포된 이산분포로 근사됩니다.

 

  - BAD(Bayesian Action Decoder) Agent

두 명의 플레이어가 무제한으로 플레이하는 조건에서의 최신 학습 알고리즘으로, 암시적인 결과 표현에 의존하는 RNN과 비교했을 때, Baysian Action Decoder(베이지안 행위 디코더)는 행동하는 에이전트의 현재 정책을 직접 결정하는 Baysian Belief 업데이트 방법을 사용합니다. BAD에서 모든 에이전트는 다른 에이전트가 취하는 행동을 관찰하여 유추한 후속조치, 카드에 대한 일반적인 정보를 모두 포함하는 공개된 정보(Belief)를 추적합니다. 또한 결정된 정책 영역을 탐색하여 사후정보를 확실히 하면서도 무작위성을 허용합니다.

 

 

2) 규칙 기반 에이전트

 

  - Smartbot

각 플레이어의 카드에 대해 공개적으로 알려진 정보를 추적하는 에이전트입니다. 공유된 지식을 추적하면 SmartBot이 다른 플레이어가 할 수 있는 것과, 게임의 특수한 관점에서 얻은 추가 지식을 추론할 수 있습니다. 또한 SmartBot은 파트너가 플레이, 또는 버리기가 확실하지 않은 카드를 사용할 수 있으므로, 파트너가  최대한 힌트를 낭비하지 않도록 합니다.

다만 이러한 규칙은 다른 모든 파트너가 Smartbot의 규칙을 사용한다는 가정 하에 작동합니다. Ad-hoc팀 환경과 같이 이 가정이 성립되지 않으면 Smartbot이 거짓 또는 불가능한 가정(판단)을 할 수 있습니다. 또한 SmartBot은 목숨을 희생할 수 있는 불확실한 시도를 해야하는지를 결정하는 매개변수가 있습니다. 이 리스크를 갖는 행위는 2인 플레이시를 제외하고는 퍼펙트 게임의 빈도를 높임과 동시에 평균 점수를 낮춥니다. 2인 플레이 시에는 목숨을 잃을 위험성만 높아지게 됩니다.

 

  - Hatbot, 그리고 WTFWThat

HatBot은 미리 정의된 프로토콜(약속)을 사용하여 다른 모든 플레이어에게 권장되는 동작을 결정합니다. 그 다음 공동 권장사항은 개별 권장사항에 대한 인덱스를 합산하고 모듈식을 활용하여 변환되고, 변환된 공동 권장사항은 Hatbot이 각 플레이어에게 어떤 색이나 숫자에 대해 알려줄 수 있는 지에 대한 여러가지 힌트로 매핑됩니다. 처음 제안된 이 알고리즘은 5인 플레이 게임에만 최적화 되어있었으나, WTFWThat라는 변종 알고리즘에서는 2인에서 5인 플레이를 모두 커버할 수 있습니다.

 

- FireFlower

FireFlower는 인간 스타일의 규약을 구현합니다. 이 봇은 규약이 수반하는 공용 정보를 통해 암시된 카드의 속성을 포함하여, 개인이 가진 정보와 공용 정보를 추적합니다. 이 정보를 활용하여 FireFlower는 파트너가 응답할 때 모델링 된 확률분포를 사용하여 가능한 모든 행동에 대한 2-ply 검색을 수행하고 평가 함수의 예상 값을 최대화하는 동작을 선택합니다. FireFlower는 평균점수 상승보다는 퍼펙트 게임 확률을 극대화하는 데 중점을 두고 설계되었습니다.

 

 

 

4. Self-Play 실험 결과

 

위에서 언급한 것과 같이 규칙기반 에이전트 세 가지, 학습기반 에이전트 세 가지에 대하여 각각 2인에서 5인까지 플레이를 시뮬레이션하였고 그 결과는 아래와 같습니다.

 

각 항목의 왼쪽 위는 평균 점수, 오른쪽의 괄호 안은 평균 표준오차, 그리고 아래 퍼센티지는 완벽하게 클리어(25점)한 비율을 나타내고 있습니다.

 

그리고 가장 왼쪽 ‘Regime’ 항목은 학습기반 에이전트에서 학습 횟수 제한을 나타내는데, ‘SL’은 최대 1억 스텝, ‘UL’은 무제한(200억 스텝 이상)을 의미합니다.

 

[그림 1]

[그림 1]의 테스트 결과에 따르면 2인 플레이어 시의 BAD 에이전트를 제외하고는, 모든 경우에서 머신러닝 기반 에이전트가 규칙기반 에이전트의 성능에 미치지 못하는 것으로 나타났습니다. 반면 규칙기반 알고리즘 중 하나인 WTFWThat3-5인 플레이 시 평균 24점 이상의 점수를 획득했습니다. 특히 5인 플레이 시 퍼펙트 클리어 확률 91.5%를 기록하였습니다.

 

이는 최첨단 학습 알고리즘과 큰 격차를 보여주었습니다. 인간과 유사한 규칙을 코딩하는 규칙 기반 전략조차도 학습 알고리즘보다 높은 점수를 얻는데, 특히 3, 5인 플레이 시 특히 점수가 높았습니다.

 

무제한 체제(200억 단계 이상의 경험을 가진)ACHA 에이전트는 모든 수의 플레이어에서 1억 단계의 경험을 사용한 Rainbow보다 높은 점수를 받았습니다. 이것은 아주 자연스러운 훈련 경험으로 인한 것일 수도 있지만, ‘과거의 행동 이력이 없는 Rainbow의 피드포워드 네트워크 아키텍처로 인해 여러 단계의 규칙을 배우기 어려운 점이 작용했을 수도 있다고 언급되어 있습니다. 두 에이전트 모두 에이전트 수가 늘어날수록 성능이 떨어지지만, Rainbow는 점진적으로 에이전트 수가 증가함에 따라 성능이 떨어지는 반면, ACHA5인 플레이 시 성능이 급격히 떨어지는 것으로 나타났습니다.

 

[그림 2]

[그림 2]는 위에서부터 차례대로 2인에서부터 5인 플레이의 ACHA 에이전트의 테스트 결과를 보여주고 있습니다. 왼쪽은 soft-max 정책의 학습시간에 따른 성능곡선이며, 오른쪽은 최고점수를 받은 에이전트끼리 1,000회 플레이 시의 점수분포를 보여줍니다. [그림 1]에서 나타난것과 같이 2, 3, 4인은 대체로 대동소이하나 5인 플레이 시에는 점수 분포가 훨씬 낮은 쪽으로 치우쳐 있음을 알 수 있습니다. 또한 4인 플레이를 제외한 모든 경우에서 ACHA 에이전트는 추가적인 훈련으로도 더 이상 벗어날 수 없는 정책 공간에서의 국지적 최소치(Local minimum)에 이르렀다고 언급되어 있습니다.

 

 

[그림 3]

[그림 3]은 매개변수를 진화시키지 않는 설정에서의, 2인 및 4인 플레이 게임의 훈련 곡선을 나타내는데, 여기에서도 마찬가지로 다양한 국지적 최소치에 진입하여 벗어나지 못하는 것으로 나타나고 있으며, 2인 플레이 시에는 약 1/3의 에이전트가 15점 미만을 기록하는 것으로 나타났습니다.

 

더불어 한 가지 더 발견한 점은, ACHA 에이전트는 비슷한 최종 성능을 가진 것들이라도 서로 다른 규약을 학습했다는 것입니다. 예를 들어, 한 에이전트는 팀 동료 중 네 번째 카드가 버려질 수 있음을 색상 힌트로 알려주며, 다른 에이전트는 다른 색상 힌트를 사용하여 팀원 중 어떤 카드가 플레이될 수 있는지 나타냅니다. 에이전트마다 다른 슬롯에 있는 카드의 플레이 가능여부를 알려주기 위해 숫자 힌트를 사용합니다. 그 밖의 구체적인 정책 학습사례는 해당 논문 부록 A.2에서 찾아보실 수 있습니다.

 


 

[그림 4]

 

다음으로 [그림 4]레인보우 에이전트에 대한 성능곡선 및 가장 좋은 학습수준을 가진 에이전트를 사용하여 1,000회 플레이한 결과의 점수분포를 보여줍니다.(위에서부터 차례대로 2인에서 5인 플레이에 대한 결과)

 

학습 곡선에서 볼 수 있듯이 레인보우 에이전트는 각각의 선의 개형과 위치가 ACHA의 사례에 비해 비슷한데요, 이것은 서로 다른 독립적인 학습 간에 차이가 적다는 것을 보여줍니다.

 

이렇게 Rainbow 에이전트는 유사한 전략에 수렴하는 경이 있으며, 동일한 국지적 최소치를 식별하는 것으로 나타났습니다. 특히 Rainbow 에이전트는 ACHA보다 색상에 대한 힌트가 1/3~1/4 수준으로 적고 색상과 관련된 특정한 규약이 없는 반면, 주로 숫자 힌트를 알려주며, 일반적으로 가장 최근의 카드가 플레이 가능하다는 힌트를 제공한다고 합니다. (자세한 정책 내용은 해당 논문 부록 A.2를 참조)

이렇게 레인보우 에이전트가 모두 비슷한 정책을 구사하게 되는 이유로 첫째, Rainbow는 과거 행동에 대한 원 스텝 메모리(one-step memory)를 갖고 있고 과거 관측에 대한 메모리가 없기 때문에 가능한 전략의 범위가 제한되며, 둘째 레인보우는 가치 기반의 방법이며 높은 탐사 속도로 시작하기 때문에 초기 탐색에서 에이전트가 목숨을 다 잃어 게임을 실패하여 Q (Q-value)0에 가까워지면, 다른 독립적인 탐색에서도 동일한 시작 Q값에서 학습하게 되기 때문임을 지적합니다.

 

 

 

5. Ad-hoc 팀 플레이 실험 결과

 

또한 이 논문에서는 같은 정책을 갖고 동작하는 에이전트끼리가 아닌 서로 다른 방식의 에이전트들을 함께 게임시키는 ad-hoc팀 환경에서 2인 및 4인 플레이 환경에서 머신러닝 기반 에이전트의 성능을 측정하였습니다.

 

[그림 5 : 왼쪽 2인 플레이, 오른쪽 4인 플레이]

 

[그림 5]는 각각 2인, 4인 플레이 환경에서의 Ad-hoc 팀을 구성했을 때 1,000회 이상 플레이 후 기록한 평균 점수를 보여주는 매트릭스입니다. 2인 플레이의 경우에는 Self-Play에서 가장 좋은 성능을 기록한 10개의 독립적으로 학습된 ACHA 에이전트와 1개의 레인보우 에이전트, 4인 플레이의 경우에는 레인보우 에이전트를 제외한 동일한 10개의 ACHA 에이전트를 후보 풀로 선정하였습니다.

 


즉 각 사각형은 2인 플레이에서는 1개의 ACHA(i-)1개의 레인보우 에이전트(j-)가 한 팀으로 짝지었을 때의 i-행에 해당하는 에이전트의 기록을 나타낸 것이고, 4인 플레이에서는 1개의 ACHA(i-), 3개의 동일한 ACHA(j-)가 한 팀으로 짝지었을 때 I-행에 해당하는 에이전트의 기록을 나타낸 것입니다.


 

ad-hoc 팀 플레이는 각 에이전트가 기존에 self-play 시에 동일한 정책을 가진 에이전트들과 학습했을 때가 아닌, 전혀 새로운 정책을 가진 다른 에이전트들과도 얼마나 잘 적응하고 플레이하는 지를 보여줍니다.

 

앞서 언급된 학습기반 에이전트인 ACHA, BAD, Rainbow가 학습한 정책은 [1]에서 볼 수 있듯이 셀프 플레이에는 규칙기반 에이전트 보다는 못하지만 그래도 어느정도 성과는 있는 것으로 보였습니다. 하지만 위의 [그림 5]를 보면 self-play보다 훨씬 처참한 기록을 보여주고 있는 것을 확인할 수 있습니다.

 

밝게 초록색으로 빛나는 대각선 성분I-행 에이전트와 j-열 에이전트가 동일한 학습을 한 에이전트를 의미하며, 이것은 곧 self-play 환경과 동일함을 의미합니다. 따라서 이전에 언급된 것과 같이 self-play 환경에서는 18-22 수준의 준수한 성적을 거두는 것으로 나타났으나,

대각성분을 제외한 나머지, 서로 다른 정책을 학습한 에이전트가 모여서 게임을 할 경우 0-5점 수준으로 거의 인공지능으로서 작동을 하지 못한 것을 알 수 있었습니다.

 

 

따라서 이 연구는 자신이 알지 못하는 정책을 가진 팀원과 함께 배우고 적응하면서 플레이하는 인공지능은 큰 도전과제로 남아있음을 이야기해주고 있습니다.

 


 


 

6. 그 밖의 이야깃거리

 

1) 중앙에서 플레이어의 위치와 핸드를 모두 보면서 하는 치팅 플레이를 할 경우에도 하나비의 게임 최적화의 복잡도는 NP-Hard가 된다고 합니다.

 

2) 이 논문 이전에도 하나비 AI에 관한 연구는 계속 있어왔는데, 유전 알고리즘을 사용한 에이전트는 평균 17.71점을 얻었고, 몬테 카를로 뉴럴 네트워크 에이전트는 20.56점을 얻었다고 합니다.(2~5인 플레이 시 결과를 모두 평균했을 때)

 

3) 하지만 게임의 규칙만으로 경험을 통해 직접 하나비를 배우는 강화학습 기반의 인공지능 연구사례는 발견되지 않았다고 전하며, 다중 에이전트가 참가하여 보상을 통해 게임을 학습하는 연구는 서로 경쟁하는 단순한 예시적 게임을 통해 처음 연구되었다고 합니다. 하지만 여기에서도 독립적인 학습자(Learner)가 여러 조정과정에서 어려운 점이 있었다고 말합니다. 해당 논문 [60]번을 참조하면 다중 에이전트에 대한 심층 강화 학습의 최근 조사연구를 확인할 수 있습니다.

 

4) AlphaGo, AlphaZero와 같은 모든 정보가 공개된 게임에서 인공지능은 인간을 넘어서는 능력을 보여주었으나, 정보가 부분적으로만 관찰 가능한 환경에서는 완벽하게 시나리오를 그릴 수 없기 때문에 에이전트는 알려지지 않은 정보를 추론해야 하는 큰 난관에 부딪힙니다. 포커와 같은 비교할 만한 사례는 강력한 알고리즘을 위해서는 새로운 알고리즘 기반이 필요합니다. 해당 논문 [67, 68, 11, 10]. 참고

 

5) 다른 에이전트의 의도 또는 계획에 대한 믿음(belief)을 모델링하는 것도 많은 연구가 이루어지고 있으나, 아직까지 복잡한 문제를 빠르고 정확하게 계산하는 알고리즘에 이르지는 못했다고 합니다. 최근에는 인지 계층 구조에 기반한 트레이닝 영역(regime)을 활용하거나, 다른 에이전트의 예상되는 학습을 형성하는 규칙을 정의하거나, 에이전트 식별을 목표의 일부로 통합하고 이러한 예측에 대한 정책을 조정하는 훈련 아키텍처를 사용하는 등 다른 계층의 모델로부터 배우는 몇 가지 MARL 알고리즘이 제안되고 있다고 합니다.

 

 

7. 결론

 

하나비는 협동 플레이, 그리고 불완전한 정보가 결합된 점을 통해 다중 에이전트 환경에서의 기계학습 기술에 큰 도전과제를 안겨주었습니다. 구글 딥마인드 등 연구진이 발표한 이 논문의 결과에 따르면 심층신경망을 사용한 강화학습 알고리즘 기반의 인공지능은 self-play에서도 손코딩으로 개발한 봇을 능가하지 못했음을 보여주었고, 알려지지 않은 정책을 가진 에이전트와 함께 플레이 시에는 전혀 협력기능이 동작하지 못하는 것으로 나타났습니다.

 

그와 대조하여 인간은 마음 이론(Theory of mind)을 활용하여 하나비를 플레이할 때 다른 사람의 생각을 어느정도 효율적으로 추론하여 성공적으로 플레이를 하고 있습니다. 따라서 인공지능이 어떻게 마음 이론, 또는 그와 유사한 동작을 하는 기능을 발전시킬 수 있을지 더 많은 이해가 필요할 것으로 보입니다.

 

이 연구는 이러한 현재의 인공지능이 다른 방면에서 뚜렷한 한계점이 있다는 것을 주의 환기시키고 있으며, 이것을 다른 유능한 연구자가 좋은 방법을 개발하기를 바라는 측면에서 하나비 인공지능 테스트 환경을 오픈소스 코드로 개방하였다고 합니다Hanabi RL이라는 개발 환경은 Python C++로 작성되어 있으며, 에이전트에 대한 관찰 및 보상을 생성하는 상태 클래스가 포함되어 있고, 다양한 학습수준을 테스트할 수 있도록 여러 가지 게임 옵션을 구비했다고 설명합니다.

 

아래의 링크에서 자세한 테스트 환경에 대한 내용과 코드를 확인해보실 수 있으며, 우리나라에서도 많은 유능하신 분들이 참여했으면 좋겠습니다.

 

 

하나비 인공지능 학습 오픈소스 테스트 환경 링크(클릭)

 

 

 

글 읽어 주셔서 감사합니다~

마음에 드셨으면 아래 공감버튼(♥) 눌러주시면 큰 힘이 됩니다