강화학습으로 퍼즐 게임 밸런스, 이제 AI가 잡는다!

by DD
5년 전
조회수 6

강화학습을 통해 퍼즐 게임의 밸런싱을 자동화하여 개발 효율을 높임

PPO 기반 모델과 Cython으로 제작된 Mock 환경을 활용하여 학습 속도 개선

유저 경험 정량화를 통해 비즈니스 의사 결정에 활용, 게임 개선 방향 제시

강화학습 기반 밸런싱 시스템 아키텍처

강화학습은 Agent가 Environment와 상호작용하며 학습하는 방식이다. 구체적으로, PPO 모델을 사용하여 게임의 상태를 분석하고, Action을 결정한다. 따라서, Cython으로 제작된 Mock 환경을 통해 학습 속도를 획기적으로 개선하고, 실제 Unity 환경에서 밸런싱을 검증한다.

Mock 환경 vs Unity 환경: 속도와 정확성의 트레이드오프

학습 속도를 높이기 위해 Cython 기반의 Mock 환경을 구축했다. Unity 환경 대비 10배 이상 빠른 속도로 학습이 가능하며, PPO 모델의 빠른 수렴을 돕는다. 반면, 실제 게임 환경과의 차이로 인해, 정확도 측면에서는 Unity 환경이 더 우수하므로, 최종 밸런싱은 Unity에서 진행한다.

강화학습 모델 성능 향상을 위한 핵심 기술

모델 성능 향상을 위해 젤리 색상 무관성행동 변화 위치 정보를 활용했다. 구체적으로, 젤리 색상에 따른 탐색 공간 축소를 통해 학습 효율을 높였다. 따라서, PPO 모델의 수렴 속도를 높이고, 게임 밸런싱의 정확도를 향상시켰다.

강화학습으로 더 재미있는 게임 만들기