클로드(Claude)로 웹/앱 자동화? 정확도 높이는 비법 공개!

by DD
3주 전
조회수 14

클로드(Claude) 4.6 및 4.7 모델의 컴퓨터 및 브라우저 사용 기능을 위한 모범 사례를 제시하며, API 정확성 향상을 위한 핵심 기술을 소개

스크린샷 해상도 최적화를 통해 클릭 정확도를 개선하고, API 제한 사항을 고려한 이미지 크기 조정 방법 제시

모델 선택 및 사고 방식(Thinking Effort) 조절을 통해 작업 유형에 맞는 성능을 확보하고, 비용 효율성을 높이는 전략 제안

프롬프트 주입(Prompt Injection) 방지를 위한 클로드(Claude)의 자체 분류기 활용 및 안전한 컴퓨터 사용 환경 구축을 위한 권장 사항 제시

컨텍스트 관리(Context Management)를 위한 캐시(Cache) 브레이크포인트 설정, 오래된 스크린샷 삭제, 요약 기법 등을 활용하여 토큰 사용량(Token Usage) 절감 및 효율적인 에이전트 운영 방안 제시

클릭 정확도 향상을 위한 스크린샷 해상도 최적화

본문에서는 클로드(Claude)의 컴퓨터 사용 API에서 클릭 정확도를 높이기 위해 스크린샷 해상도(Screenshot Resolution)를 최적화하는 방법을 제시한다. 특히, API의 이미지 크기 제한(Image Size Limit)을 준수하여 이미지를 사전 조정하는 것이 중요하다고 강조한다.

4.6 모델군: 최대 긴 가장자리 1568 픽셀, 총 1.15 메가픽셀 제한

Opus 4.7 모델: 최대 긴 가장자리 2576 픽셀, 총 3.75 메가픽셀 지원

해상도 권장 사항: 1280x720 해상도(720p)를 기본으로 사용하고, Opus 4.7의 경우 1080p를 권장

최대 API 적합(Max API Fit) 방식: 이미지의 가로 세로 비율을 유지하면서 API 제한에 맞는 최대 해상도를 계산하는 방법

이러한 최적화는 클릭 좌표(Click Coordinates)와 실제 이미지 간의 불일치를 방지하여 정확도를 향상시킨다.

모델 선택 및 사고 방식(Thinking Effort) 조절

클로드(Claude) 모델 선택과 사고 방식(Thinking Effort) 조절은 작업의 특성에 따라 성능을 최적화하는 데 중요한 역할을 한다. Sonnet 4.6과 Opus 4.7 모델의 특징을 비교하고, 각 모델에 적합한 사고 방식 설정을 제시한다.

Sonnet 4.6: 클릭 정확도(Clicking Accuracy)와 추론 능력(Reasoning)의 균형

Opus 4.7: 높은 추론 능력과 높은 해상도 지원

사고 방식(Thinking Effort) 설정: low, medium, high, max

Opus 4.7 권장 설정: 대부분의 경우 high, 고속 처리/비용 효율성을 위해서는 low, 복잡한 작업에는 max

4.6 모델군 권장 설정: 대부분의 경우 medium, 고속 처리/비용 효율성을 위해서는 low, 복잡한 작업에는 high

이러한 설정을 통해 작업의 복잡성(Complexity)과 비용(Cost) 사이의 균형을 맞출 수 있다.

프롬프트 주입(Prompt Injection) 방어 전략

클로드(Claude)는 컴퓨터 사용 에이전트의 안전성을 위해 프롬프트 주입(Prompt Injection) 공격에 대한 방어 메커니즘을 제공한다. 이는 에이전트가 외부 콘텐츠를 처리할 때 발생할 수 있는 위험을 줄이기 위한 것이다.

훈련 기반 방어(Training-time Robustness): 악성 지시(Malicious Instructions)를 식별하고 거부하도록 모델을 훈련

실시간 분류기(Real-time Classifiers): 입력 콘텐츠를 스캔하여 프롬프트 주입 시도 감지

지속적인 레드팀(Continuous Red Teaming): 공격 기법에 대한 지속적인 평가 및 방어 체계 강화

공식 컴퓨터 사용 도구(Official Computer Use Tool) 사용: 프롬프트 주입 분류기가 자동으로 실행

안전한 개발 환경 구축: 에이전트의 권한 제한, 작업 기록(Log) 및 모니터링, 웹 콘텐츠를 신뢰하지 않는 설계

이러한 다층적인 방어 전략을 통해 에이전트의 안전성(Safety)을 강화하고, 잠재적인 공격으로부터 보호한다.

컨텍스트 관리(Context Management)를 통한 토큰 사용량(Token Usage) 절감

컴퓨터 사용 에이전트에서 스크린샷은 빠르게 누적되므로, 효율적인 컨텍스트 관리(Context Management)는 비용 절감과 성능 향상에 필수적이다. 본문에서는 세 가지 주요 기법을 제시한다.

캐시 브레이크포인트(Cache Breakpoints) 설정: 시스템 프롬프트(System Prompt) 및 도구 정의(Tool Definitions)에 1개, 최근 도구 결과(Tool Results)에 최대 3개 설정

롤링 버퍼(Rolling Buffer) 방식: keep_n개의 최신 스크린샷 유지, interval 간격으로 오래된 스크린샷을 placeholder로 대체

스크린샷 요약(Screenshot Summarization): 긴 작업 흐름(Workflow)의 경우, 스크린샷을 요약하여 컨텍스트 크기(Context Size)를 줄임

캐시 효율성(Cache Efficiency) 극대화: 프롬프트 캐싱(Prompt Caching)을 통해 중복되는 컨텍스트에 대한 비용을 절감

이러한 기법들을 통해 에이전트의 성능(Performance)을 유지하면서 비용(Cost)을 최적화할 수 있다.

작업 흐름(Workflow) 재사용을 위한 플레이백(Playback) 모드

클로드(Claude)는 저장된 작업 흐름(Saved Workflow)을 재사용하기 위한 플레이백(Playback) 모드를 제공한다. 이를 통해 사용자는 복잡한 작업을 자동화하고, 반복적인 작업을 효율적으로 처리할 수 있다.

작업 흐름 구성: 작업 단계(WorkflowStep)를 캡처하여 URL, 액션, 선택자, 좌표, 설명, 타임스탬프(Timestamp) 등을 저장

플레이백 모드: Strict, Adaptive, Goal-oriented 모드 지원

Strict 모드: 정확한 단계(Exact Steps)를 따르며, UI 변경 시 중단

Adaptive 모드: UI 변경에 적응하며, 대부분의 경우에 적합

Goal-oriented 모드: 목표 달성에 집중하며, UI 변경에 유연하게 대응

컨텍스트 구성: 사용자 프롬프트, 작업 흐름 컨텍스트, 스크린샷을 조합하여 프롬프트 생성

이러한 플레이백 모드를 통해 작업 자동화(Automation)의 유연성(Flexibility)을 높이고, 다양한 환경에 대응할 수 있다.

Best practices for computer and browser use with Claude