Gemini vs Claude: LLM 모델 선택, 4가지 제약 조건 분석

by DD
2개월 전
조회수 34

Ozigi 서비스는 JSON 형태의 소셜 미디어 캠페인 생성을 위해 Gemini 2.5 Flash와 Claude 3.7 Sonnet 모델을 비교 평가함

JSON 출력 안정성(JSON Output Stability), 지연 시간(Latency), 멀티모달 입력(Multimodal Input), 톤 엔지니어링(Tone Engineering) 등 4가지 제약 조건(Constraints)을 기준으로 모델을 선정함

Gemini 2.5 Flash는 JSON 출력 안정성(99.9%)지연 시간(6.2초) 측면에서 Claude 3.7 Sonnet보다 우수한 성능을 보임

톤 엔지니어링(Tone Engineering)은 Gemini가, 비용은 Claude가 불리했으나, 프롬프트 엔지니어링(Prompt Engineering)을 통해 Gemini의 단점을 보완함

JSON 출력 안정성 확보를 위한 모델 선택

Ozigi 서비스는 JSON.parse()를 통해 모델의 응답을 처리하므로, 유효한 JSON 형식이 필수적이다. Gemini 2.5 Flash는 responseSchema를 통해 JSON 형식 보장을 지원하며, Claude 3.7 Sonnet은 프롬프트 기반 JSON 생성을 사용한다.

Gemini 2.5 Flash: 99.9%의 JSON 형식 준수율을 보이며, schema enforcement를 통해 안정적인 JSON 출력을 보장

Claude 3.7 Sonnet: 약 88.5%의 JSON 형식 준수율을 보이며, 예기치 않은 오류 발생 가능성 존재

Vertex AI SDK: Gemini의 responseSchema는 구조적 유효성 검사(Structural Validation)를 통해 JSON 파싱 실패를 원천 차단

결과적으로, Ozigi는 Gemini의 responseSchema를 선택하여 JSON 출력 안정성(JSON Output Stability)을 확보했다.

지연 시간(Latency) 비교 분석

Ozigi는 무료 샌드박스 환경을 제공하므로, 지연 시간(Latency)은 사용자 경험에 직접적인 영향을 미치는 중요한 요소이다. Gemini 2.5 Flash와 Claude 3.7 Sonnet의 지연 시간을 비교 분석한 결과, Gemini가 훨씬 빠른 성능을 보였다.

Gemini 2.5 Flash: 평균 응답 시간 약 6.2초로, 빠른 응답 속도(Fast Response Speed)를 제공

Claude 3.7 Sonnet: 평균 응답 시간 약 21.5초로, 상대적으로 긴 응답 시간(Longer Response Time)을 보임

Vercel Serverless Functions: 동일한 환경에서 테스트 진행, 환경 의존성 고려

비록 스트리밍(Streaming) 기술을 통해 체감 지연 시간을 줄일 수 있지만, 현재 Ozigi의 비(Non)-스트리밍 환경에서는 Gemini가 압도적인 성능 우위(Dominant Performance)를 보였다.

멀티모달 입력(Multimodal Input) 지원 비교

Ozigi는 PDF 및 이미지 파일을 입력으로 받기 위해, 각 모델의 멀티모달 입력 지원 방식을 비교했다. Gemini 2.5 Flash와 Claude 3.7 Sonnet 모두 네이티브(Native) PDF 및 이미지 처리를 지원하지만, 기존 인프라와의 통합 용이성이 중요한 선택 기준이 되었다.

Gemini 2.5 Flash: Vertex AI Node.js SDK를 통해 PDF 및 이미지 버퍼(Image Buffer)를 직접 처리하며, 별도의 OCR(Optical Character Recognition) 과정 불필요

Claude 3.7 Sonnet: Anthropic Messages API를 통해 PDF를 직접 처리 가능하나, 기존 Vertex AI 환경과의 통합을 위해 추가적인 작업 필요

Ecosystem Fit: 기존 Vertex AI 환경을 사용하고 있었기에, Gemini가 더욱 간편한 통합(Easier Integration)을 제공

결과적으로, 두 모델 모두 멀티모달 입력을 지원하지만, 기존 인프라와의 호환성을 고려하여 Gemini를 선택했다.

톤 엔지니어링(Tone Engineering)을 통한 톤 품질 개선

Ozigi는 생성된 소셜 미디어 게시물의 톤(Tone) 품질을 높이기 위해, Gemini와 Claude의 톤 품질을 비교하고, Gemini의 단점을 보완하기 위한 프롬프트 엔지니어링(Prompt Engineering) 전략을 사용했다.

Claude 3.7 Sonnet: 9.5/10의 높은 인간적인 톤(Human-like Tone) 점수를 기록하며, 기본적으로 우수한 톤 품질 제공

Gemini 2.5 Flash: 5.5/10의 낮은 점수를 기록했으나, Banned LexiconCadence Engineering을 통해 9.2/10으로 개선

Banned Lexicon: 특정 단어 및 표현의 사용을 금지하여 AI 감지 회피(AI Detection Evasion)

Cadence Engineering: 짧고 간결한 문장과 긴 설명을 혼합하여 다양한 문체(Diverse Writing Style) 구현

결과적으로, Gemini의 톤 품질은 프롬프트 엔지니어링을 통해 Claude에 근접한 수준으로 개선되었으며, 톤 제어의 유연성을 확보했다.

비용(Cost) 비교 및 서비스 운영 전략

Ozigi는 무료 샌드박스(Sandbox) 환경을 운영하므로, 모델 사용 비용이 서비스 지속 가능성에 큰 영향을 미친다. Gemini 2.5 Flash와 Claude 3.7 Sonnet의 입력 및 출력 비용을 비교 분석하여, Gemini의 경제성을 확인했다.

Gemini 2.5 Flash: 입력 토큰(Input Token)당 약 $0.075, 출력 토큰(Output Token)당 약 $0.30

Claude 3.7 Sonnet: 입력 토큰당 약 $3.00, 출력 토큰당 약 $15.00

비용 차이: 입력 비용은 약 40배, 출력 비용은 약 50배 차이

무료 서비스 운영: 지속 가능한 서비스 운영(Sustainable Service Operation)을 위해 Gemini 선택

Ozigi는 유료화 이후에는 톤 품질을 고려하여 Claude를 선택할 가능성도 언급했다.

Gemini 2.5 Flash vs Claude 3.7 Sonnet: 4 Production Constraints That Made the Decision for Me