GitHub, 잦은 장애에 대한 CTO의 사과와 개선 계획 발표

by DD
1개월 전
조회수 8

GitHub는 최근 발생한 두 건의 가용성 문제(Availability Issues)에 대해 사과하고, 기술적 개선 사항을 발표함

머지 큐(Merge Queue) 관련 문제로 인해 230개 저장소(Repository)와 2,092개 풀 리퀘스트(Pull Request)에 오류 발생

엘라스틱서치(Elasticsearch) 시스템 과부하로 검색 기능 중단, API는 영향 없음

가용성 향상을 위해 10배, 나아가 30배 규모의 인프라 확장 계획(Infrastructure Expansion)을 발표함

GitHub 가용성 문제의 근본 원인 분석

GitHub CTO는 최근 발생한 가용성 문제의 원인을 분석하고, 기술적 개선 방안을 제시했다. 특히, 머지 큐(Merge Queue) 관련 문제로 인해 잘못된 머지 커밋(Merge Commit)이 생성되는 오류가 발생했으며, 엘라스틱서치(Elasticsearch) 시스템 과부하로 인해 검색 기능이 중단된 점을 언급했다. 이러한 문제들은 GitHub의 확장성(Scalability)단일 실패 지점(Single Point of Failure) 제거의 필요성을 강조한다.

GitHub의 인프라 확장 및 기술적 개선 계획

GitHub는 가용성 향상을 위해 10배, 나아가 30배 규모의 인프라 확장 계획을 발표했다. 구체적으로, 웹훅(Webhook) 백엔드 이관, 사용자 세션 캐시(User Session Cache) 재설계, 인증 및 권한 부여 흐름 개선을 통해 데이터베이스 부하(Database Load)를 줄일 계획이다. 또한, Ruby 모놀리스(Ruby Monolith)에서 Go로의 코드 이전을 가속화하고, 멀티 클라우드(Multi-Cloud) 환경 구축을 통해 탄력성(Resilience)유연성(Flexibility)을 확보할 예정이다.

머지 큐(Merge Queue) 관련 문제와 해결 방안

4월 23일 발생한 머지 큐(Merge Queue) 관련 문제는 스쿼시 머지(Squash Merge) 방식 사용 시 오류가 발생하여, 230개 저장소와 2,092개 풀 리퀘스트에 영향을 미쳤다. GitHub는 이 문제의 근본 원인을 분석하고, 프로세스 개선을 통해 재발을 방지할 계획이다. 머지 큐(Merge Queue) 최적화는 대규모 풀 리퀘스트를 처리하는 데 핵심적인 요소이며, GitHub는 이 부분에 대한 투자를 지속할 예정이다.

커뮤니티의 반응과 자가 호스팅(Self-Hosting)에 대한 논의

댓글에서는 GitHub의 가용성 문제에 대한 우려와 함께, 자가 호스팅(Self-Hosting) 솔루션에 대한 관심이 높아지고 있다. mrfixij는 공공 서비스의 불안정성을 지적하며, 기업 수준에서는 자체 인프라 구축이 필요하다고 주장했다. urbrainonnuggs는 자가 호스팅 솔루션의 접근성이 높아졌음을 언급하며, GitHub의 대안을 모색하는 움직임을 시사했다. stipo42는 API 오류에 대한 불만을 제기하며, GitHub의 투명성 부족을 비판했다.

An update on GitHub availability