VLM으로 발표 실력 UP! AI 발표 피드백 에이전트 개발 후기

VLM(Vision Language Model) 기술을 활용하여 발표 피드백 에이전트를 개발한 경험을 공유하며, 멀티모달 AI(Multimodal AI)의 활용성을 강조함

이미지 인코더(Image Encoder), 텍스트 인코더(Text Encoder), 멀티모달 퓨전(Multimodal Fusion)으로 구성된 VLM의 동작 방식을 설명하고, 퓨전 방식에 따른 장단점을 분석함

GPT-4 Vision API를 활용하여 발표자의 행동을 분석하고, 텍스트 기반 피드백을 생성하는 에이전트 개발 과정을 소개함

Mediapipe를 활용한 시선, 자세, 제스처 분석을 통해 피드백의 정확도와 구체성을 향상시켰으며, 정성적 평가(Qualitative Evaluation)를 통해 성능 개선을 확인함

평가 지표의 한계, 시간적 맥락 유지의 어려움, VLM 환각(Hallucination) 이슈 등, 실제 개발 과정에서 마주한 한계점과 개선 방안을 제시함

VLM(Vision Language Model)의 핵심 구성 요소

VLM은 이미지(Vision)와 텍스트(Language)를 동시에 처리하는 멀티모달 AI 모델로, 이미지 인코더(Image Encoder), 텍스트 인코더(Text Encoder), 멀티모달 퓨전(Multimodal Fusion)으로 구성된다.

이미지 인코더: CNN(Convolutional Neural Network) 또는 ViT(Vision Transformer)를 사용하여 이미지를 벡터 임베딩(Vector Embedding)으로 변환

텍스트 인코더: 트랜스포머(Transformer) 기반으로 텍스트를 임베딩하며, 이미지 임베딩과 동일한 공통 의미 공간(Common Embedding Space)에 매핑

멀티모달 퓨전: Early, Mid, Late Fusion 방식을 통해 이미지와 텍스트 정보를 결합하며, 각 방식은 상호작용 학습 방식과 구현 난이도에서 차이를 보임.

멀티모달 퓨전(Multimodal Fusion) 방식 비교

VLM에서 이미지와 텍스트를 결합하는 멀티모달 퓨전(Multimodal Fusion) 방식은 Early, Mid, Late Fusion으로 구분되며, 각 방식은 장단점이 존재한다.

Early Fusion: 입력 단계에서 두 데이터를 결합하여 모달 간 상관관계 학습에 유리하지만, 모달리티 붕괴(Modality Collapse) 위험이 있음

Mid Fusion: 중간 계층에서 결합하여 복잡한 상관관계 학습에 유리하나, 모델 구조가 복잡하고 구현이 어려움

Late Fusion: 독립적인 서브 모델로 처리 후 결과를 결합하여 각 모달리티의 특징을 유지하지만, 데이터 간의 깊은 연관성 반영에 한계가 있음.

발표 피드백 에이전트 개발 과정

발표 피드백 에이전트는 VLM을 활용하여 발표자의 행동을 분석하고, 텍스트 기반 피드백을 생성한다. 개발 과정은 다음과 같다.

OpenCV를 사용하여 영상을 1초 단위로 프레임 분할, Mediapipe로 주요 Key Point 좌표 추출

프레임 간 좌표 변화량(Δx, Δy)을 계산하고, 임계값(Threshold)을 설정하여 문제 행동 프레임 분류

GPT-4 Vision API에 문제 프레임을 전달하여 프롬프트 기반 문맥적 피드백 생성, 퓨샷 프롬프팅(Few-Shot Prompting) 기법 활용

최종적으로 시각적 분석 결과와 텍스트 피드백을 결합하여 사용자에게 제공

성능 개선을 위한 시선 및 제스처 분석

발표 피드백 에이전트는 Mediapipe를 활용하여 시선, 자세, 제스처를 분석하고, GPT-4 Vision API를 통해 구체적인 피드백을 생성하여 성능을 개선했다.

Mediapipe를 통해 시선, 어깨, 손, 자세 등 주요 좌표 추출, 프레임 간 좌표 변화량 분석

임계값(Threshold)을 설정하여 문제 행동 프레임 분류, 문제 행동 프레임에 대한 GPT-4 Vision API 피드백 생성

기존 VLM 단독 추론 대비, 제안된 Mediapipe + VLM 시스템은 정확성, 일관성, 구체성 모두 향상

결과적으로, 정확한 시선 감지를 통해 피드백의 정확도와 구체성을 높였다.

VLM 기반 에이전트의 한계점 및 개선 방안

VLM 기반 발표 피드백 에이전트는 몇 가지 한계점을 가지고 있으며, 이를 극복하기 위한 개선 방안이 제시되었다.

평가 지표의 한계: 정성적 평가 중심, 객관적인 정량 평가 지표 및 벤치마크 설계 필요

시간적 맥락(Context) 유지의 한계: 프레임 단위(Frame-level) 분석으로 연속된 행동의 맥락 파악 어려움

VLM AI 환각(Hallucination) 이슈: 모델의 환각으로 인한 부정확한 피드백 발생, 시계열 모델링(Temporal Modeling)을 통한 개선 시도

이러한 한계점을 극복하기 위해, 프레임 간의 관계를 학습하는 시계열 모델링(Temporal Modeling)을 활용하여, AI 환각(Hallucination) 문제를 해결하고, 보다 정확하고 맥락적인 피드백을 제공하는 방향으로 개선할 수 있다.

5년간의 Tinygrad, AI/ML 개발에 어떤 영향을?

비디오 이해, 포인팅, 트래킹의 새로운 지평

AI/ML로 스팸을 잡았다!

Ahrefs, AI 마케팅 에이전트 Agent A 출시

이미지로 3D CAD를 생성하는 GenCAD, 과연 실용성은?

단일 GPU로 1분 분량 720p 비디오 생성, AI 비디오 모델의 새로운 지평?

첫 번째 댓글을 남겨보세요!

VLM으로 발표 실력 UP! AI 발표 피드백 에이전트 개발 후기

VLM(Vision Language Model)의 핵심 구성 요소

멀티모달 퓨전(Multimodal Fusion) 방식 비교

발표 피드백 에이전트 개발 과정

성능 개선을 위한 시선 및 제스처 분석

VLM 기반 에이전트의 한계점 및 개선 방안

관련 추천 글

5년간의 Tinygrad, AI/ML 개발에 어떤 영향을?

비디오 이해, 포인팅, 트래킹의 새로운 지평

AI/ML로 스팸을 잡았다!

Ahrefs, AI 마케팅 에이전트 Agent A 출시

이미지로 3D CAD를 생성하는 GenCAD, 과연 실용성은?

단일 GPU로 1분 분량 720p 비디오 생성, AI 비디오 모델의 새로운 지평?

댓글 0

5년간의 Tinygrad, AI/ML 개발에 어떤 영향을?

비디오 이해, 포인팅, 트래킹의 새로운 지평

AI/ML로 스팸을 잡았다!

댓글 0

관련 추천 글

5년간의 Tinygrad, AI/ML 개발에 어떤 영향을?

비디오 이해, 포인팅, 트래킹의 새로운 지평

AI/ML로 스팸을 잡았다!

Ahrefs, AI 마케팅 에이전트 Agent A 출시

이미지로 3D CAD를 생성하는 GenCAD, 과연 실용성은?

단일 GPU로 1분 분량 720p 비디오 생성, AI 비디오 모델의 새로운 지평?

5년간의 Tinygrad, AI/ML 개발에 어떤 영향을?

비디오 이해, 포인팅, 트래킹의 새로운 지평

AI/ML로 스팸을 잡았다!