멀티모달 AI, 한국어 이해부터 화면 조작까지!

by DD
2개월 전
조회수 8

카카오 AI팀은 텍스트, 이미지, 음성을 이해하는 멀티모달 언어 모델을 개발하며, 한국어 데이터셋(Korean Dataset) 정제를 통해 모델의 한국어 이해 능력 강화

PDF 벤치마크(PDF Benchmark) 자체 구축 및 다중 이미지, Long-Context 학습 최적화를 통해 VLM(Vision Language Model)의 PDF 이해 능력 향상

다중 이미지 이해(Multi-Image Understanding)를 위해 데이터 증강(Data Augmentation) 기법을 도입하여 모델의 할루시네이션(Hallucination) 완화

CUA(Computer Use Agent)의 핵심 기술인 GUI Grounding을 소개하며, API가 없는 환경에서의 자동화 가능성을 제시

Interleaved 한국어 데이터셋 구축 및 효과

본문에서는 VLM(Vision Language Model)이 한국 문화를 더 깊이 이해하도록 Interleaved 한국어 데이터셋을 적용한 실험을 소개한다. 데이터 품질(Data Quality) 확보를 위해 Datatrove 프레임워크를 활용하여 8단계 정제 파이프라인을 구축했다.

이미지 기반 문서 필터링(Image-based Document Filtering): 깨진 이미지, 저해상도 이모티콘 등 제거

언어 식별(Language ID): FastText 기반 모델로 한국어 콘텐츠 선별 (90% 이상)

반복 패턴 제거(Gopher Repetition Filter): DeepMind의 Gopher 논문에서 제안된 휴리스틱 적용

기본 품질 필터(Gopher Quality Filter): 평균 단어 길이, 불용어 출현 빈도 등 검증

C4 Quality Filter: 최소 문장 수 기준(4문장 이상) 적용

FineWeb Quality Filter: 라인 단위 문서 구조 검사

MinHash Deduplication: 유사 문서 중복 제거

PII Processing: 개인정보 마스킹

이러한 과정을 통해 원본 데이터셋의 약 23%만 최종적으로 사용되었으며, 정제된 데이터로 학습한 모델이 한국 문화 이해 및 VQA 벤치마크에서 더 높은 점수를 기록했다.

PDF 이해 능력 향상을 위한 벤치마크 구축

본 글에서는 VLM(Vision Language Model)의 PDF 문서 이해 능력 향상을 위해 자체적으로 한국어 PDF 벤치마크를 구축한 과정을 설명한다. 기존 벤치마크 부재로 인해, AI-HUB에서 수집한 한국어 PDF 문서를 기반으로 평가 체계를 마련했다.

질문 유형: 기본형(텍스트 인식)과 추론형(종합적 이해)으로 구분, 각 4가지 세부 타입

2인 검수 체계: 텍스트 오인식, 부정확한 답변 생성 오류를 해결

데이터셋 구축: 초기 8,031건 중 29% 제외, 최종 5,677건 데이터셋 구축

PDF 이해 능력 향상을 위해, PDF-to-Markdown 변환 및 메타데이터 추출을 통해 QA(Question Answering)의 자연스러움을 개선했다. 특히, 문서 메타데이터를 활용하여 질문의 품질을 향상시킨 점이 주목할 만하다.

Long-Context 학습을 위한 Ulysses 개발

본문에서는 VLM(Vision Language Model)의 Long-Context 학습을 위해 DeepSpeed Ulysses 기반의 시퀀스 병렬(Sequence Parallelism, SP)을 도입한 과정을 설명한다. 시퀀스 길이 증가에 따른 병목 현상을 해결하기 위해, 데이터 분할 기준을 변경했다.

시퀀스 기준 분할 → 어텐션 헤드 기준 분할: 각 GPU가 특정 헤드에 대한 전체 시퀀스 정보 보유

비전 입력 분배 최적화: 각 GPU가 참조하는 이미지만 비전 인코더에 전달

Packed 시퀀스 경계 처리: 샘플 간 경계 및 GPU 간 구간 경계 문제 해결

분산 Loss 집계: 샘플 간 loss 균형을 위해 squared average loss weighting 방식 사용

이러한 기술적 개선을 통해, Long-Context 학습의 효율성을 높이고 모델의 성능을 향상시켰다.

다중 이미지 이해 능력 확장을 위한 데이터 증강

본문에서는 다중 이미지 이해 능력 향상을 위해 데이터 증강(Data Augmentation) 기법을 적용한 사례를 소개한다. 기존 단일 이미지 중심의 학습 데이터 한계를 극복하고, 모델의 할루시네이션(Hallucination) 현상을 완화하기 위한 전략이다.

이미지 교체: 질문에 필요한 이미지를 다른 이미지로 대체

선택지 변경: 객관식 문제에서 정답을 “정답 없음” 선택지로 교체

이러한 데이터 증강 기법을 통해 모델은 “주어진 이미지로 답변할 수 있는 상황”과 “그렇지 않은 상황”을 구분하는 능력을 학습하게 된다. MuirBench 벤치마크에서 answerable 문제와 unanswerable 문제 간 정확도 차이를 0.54%p로 줄이는 성과를 달성했다. 이는 할루시네이션 완화에 기여한 것으로 평가된다.

CUA(Computer Use Agent)의 핵심 기술: GUI Grounding

본문에서는 CUA(Computer Use Agent)의 핵심 기술인 GUI Grounding에 대해 설명한다. CUA는 API가 없는 환경에서 컴퓨터를 직접 조작하는 에이전트로, GUI를 보고 클릭 및 타이핑을 수행한다.

Planning (계획 수립): 사용자의 목표를 컴퓨터가 실행할 수 있는 구체적인 단계로 분해

Grounding (실행 위치 파악): 목표 대상의 정확한 화면 좌표를 찾아내는 능력

Reflection (자기 점검 및 오류 복구): 행동 결과 확인 및 예상치 못한 상황 발생 시 계획 수정

이 세 가지 능력 중 Grounding이 CUA의 기본적인 실행 단위이며, GUI Grounding 기술은 API가 없는 환경에서의 자동화를 가능하게 한다. CUA는 API 기반 에이전트의 한계를 극복하고, 다양한 비즈니스 환경에서 활용될 수 있을 것으로 기대된다.

다중 이미지 이해에서 동영상 이해로의 확장

본문에서는 다중 이미지 이해를 넘어 동영상 이해로의 확장을 위한 연구 방향을 제시한다. 동영상은 다중 이미지의 연장선으로, 시간적 추론 능력이 중요하며, Long Context 학습과도 밀접하게 연결된다.

다중 이미지 이해 능력 활용: 여러 장의 이미지를 종합하고, 이미지 간 관계 파악, 정보 부족 상황 인식

시간 축 고려: 동영상 데이터의 시간적 변화를 이해하기 위한 추가적인 요소

Long-Context 학습: 긴 문맥 안에서 핵심 정보를 놓치지 않는 능력

다중 이미지 이해를 위해 확보한 학습 데이터와 데이터 증강 기법을 동영상 데이터에 적용하고, 시간적 추론 능력을 향상시키는 연구를 진행할 예정이다. 이는 동영상 이해 연구의 출발점이 될 것으로 기대된다.

한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것

댓글 0

첫 번째 댓글을 남겨보세요!