F/OSS 코드, LLM 훈련에 어떻게 대응할 것인가?

AI 기업의 F/OSS 코드 무단 사용에 대한 저작권 침해 문제 제기

저자는 거부 대신 훈련 카피레프트(Training Copyleft)를 통해 대응할 것을 주장

GPLv4 또는 TGPL(Training GPL)과 같은 라이선스 진화를 제안

모델 가중치 공개, 훈련 데이터 문서화, 파인튜닝 모델 의무 등을 포함

LLM 훈련과 F/OSS 라이선스의 충돌

논의에서는 AI 기업들이 F/OSS 코드를 LLM 훈련에 무단으로 사용하는 행위에 대한 문제점을 지적하며, 이는 기존의 라이선스 체계로는 해결하기 어려운 새로운 형태의 착취(Exploitation)라고 주장한다. 특히, GPL과 같은 라이선스가 코드의 재사용과 배포를 규제하지만, LLM 훈련은 이러한 규제를 우회할 수 있다는 점을 강조한다. 이는 F/OSS 개발자들의 노력이 독점적인 AI 모델을 만드는 데 기여하는 결과를 초래하며, 공유지의 사유화(Privatization of Commons)로 이어진다는 비판이다.

훈련 카피레프트(Training Copyleft)의 제안

저자는 이러한 문제를 해결하기 위해 훈련 카피레프트(Training Copyleft)라는 새로운 라이선스 모델을 제안한다. 이는 GPLv3와 유사하게, F/OSS 코드를 사용하여 훈련된 모델 역시 카피레프트 라이선스를 따라야 한다는 내용을 골자로 한다. 구체적으로, 훈련된 모델의 가중치(weights)를 공개하고, 훈련 데이터를 문서화하며, 파인튜닝된 모델에도 동일한 의무를 부과하는 것을 포함한다. 이러한 접근 방식은 F/OSS의 정신을 유지하면서, AI 시대에 맞는 새로운 생산 관계(Production Relations)를 구축하려는 시도로 평가된다.

기술적, 사회적 도전 과제

훈련 카피레프트의 실현 가능성에 대한 의문이 제기되지만, 저자는 과거 GPL의 진화 과정에서 겪었던 기술적, 법적 문제들을 예시로 들며, 충분히 해결 가능한 문제라고 강조한다. 모델 가중치(Model Weights) 공개의 어려움, 훈련 데이터셋의 식별, 그리고 혼합 훈련 세트 문제 등 기술적인 난관이 존재하지만, 커뮤니티의 감시와 법적 조치를 통해 극복할 수 있다고 본다. 또한, 훈련 카피레프트는 F/OSS 생태계를 보호하고, AI 기술의 민주화(Democratization)에 기여할 수 있다는 사회적 가치를 강조한다.

거부 전략의 한계와 재전유의 중요성

저자는 AI 기술을 거부하는 전략이 F/OSS 생태계에 미치는 부정적인 영향을 지적한다. AI 훈련을 막는 것이 아니라, 오픈 소스 AI 훈련을 막는 결과를 초래할 수 있다는 것이다. OpenAI와 같은 기업들이 이미 대규모 데이터셋을 확보한 상황에서, F/OSS 개발자들이 접근을 차단하는 것은 오히려 오픈 소스 LLM 생태계의 발전을 저해할 수 있다. 따라서, 저자는 거부 대신 재전유(Reappropriation)를 통해, F/OSS 개발자들이 AI 모델의 소유권을 확보하고, 공유지의 가치를 지켜야 한다고 주장한다.