웹GPU 기반, 신경망이 스네이크 게임을 학습하는 과정을 시연합니다!

PPO(Proximal Policy Optimization) 알고리즘을 활용하여 웹 브라우저 내에서 스네이크 게임을 학습하는 신경망 시연

Tinygrad 기반의 TinyJit을 사용하여 WebGPU 커널(WebGPU Kernels)을 구현하여 브라우저에서 학습 및 시각화

학습 중 성능 저하(Performance Degradation), WebGPU 호환성 문제(WebGPU Compatibility) 등 다양한 문제 발생

학습 중 성능 저하 및 문제 발생

커뮤니티에서는 학습 과정에서 성능 저하(Performance Degradation) 및 예상치 못한 동작에 대한 보고가 잇따랐다. 특히, 훈련에서 시청 모드로 전환 후 다시 훈련으로 돌아갈 때 점수가 급격히 감소하는 현상이 관찰되었다. 또한, 특정 시점 이후 점수가 더 이상 상승하지 않고 AI 환각(Hallucination)과 유사한 현상이 발생했다는 보고도 있었다.

WebGPU 호환성 및 브라우저 지원

일부 사용자는 WebGPU 지원 문제로 인해 시연을 실행하는 데 어려움을 겪었다. WebGPU는 아직 모든 브라우저에서 완벽하게 지원되지 않으며, 특히 NetBSD와 같은 특정 운영체제에서는 호환성 문제가 발생했다. 이는 WebGPU의 표준화(Standardization) 및 구현(Implementation)의 미성숙함과 관련된 문제로 보인다.

구현 및 추가 정보 부족

커뮤니티에서는 구현 세부 사항(Implementation Details) 및 소스 코드(Source Code)에 대한 추가 정보를 요청했다. 특히, PPO 알고리즘의 구체적인 파라미터 설정, 신경망 아키텍처(Neural Network Architecture), 그리고 Tinygrad 및 WebGPU와의 통합 방식에 대한 궁금증이 제기되었다. 이러한 정보는 프로젝트의 이해도를 높이고, 잠재적인 문제 해결에 기여할 수 있다.