Gemma 4로 구현한 '6가지 사고 모자' 프레임워크, 로컬에서 만나보세요!
Gemma 4 기반의 로컬 LLM을 활용하여 에드워드 드 보노의 '6가지 사고 모자' 프레임워크를 구현
각 모자(Hat)는 Gemma 4의 튜닝된 인스턴스로, 고유한 역할과 사고 방식을 가짐
Ollama를 사용하여 Gemma 4 모델을 로컬에서 실행하며, SSE(Server-Sent Events)를 통해 실시간 토론 시각화
100% 로컬 환경에서 실행되며, API 호출이나 인터넷 연결 없이 사용 가능
Ollama를 활용한 다중 페르소나 구현
NeuralHats는 Ollama(Ollama)의 Modelfile 시스템을 활용하여 단일 Gemma 4 모델을 기반으로 7개의 독립적인 AI 페르소나를 생성했다. 각 페르소나는 고유한 시스템 프롬프트(System Prompt), 온도(Temperature), top_p 값을 설정하여 차별화된 사고 방식을 갖도록 튜닝되었다.
Ollama Modelfile: 단일 베이스 모델(Base Model)에 대한 경량화된 별칭(Alias)을 생성하여 메모리 사용량(Memory Usage)을 최소화
페르소나별 파라미터: 각 모자(Hat)의 역할에 따라 온도 및 top_p 값을 조정하여 특정 성격(Personality)을 강화
제로 카피(Zero-Copy): 모델 가중치(Model Weights)를 공유하여 성능 저하 없이 다수의 모델 인스턴스(Model Instances) 실행
이러한 아키텍처는 로컬 환경에서 다수의 LLM을 효율적으로 운영하기 위한 핵심 전략이다.
Blue Hat의 제어 흐름(Control Flow) 설계
NeuralHats는 Blue Hat의 응답을 통해 토론의 흐름을 제어하는 독창적인 방식을 채택했다. Blue Hat은 응답의 마지막에 'CONTINUE' 또는 'STOP' 토큰을 명시적으로 포함하도록 설계되어, 토론의 지속 여부를 결정한다.
토큰 기반 제어: Blue Hat의 응답을 파싱(Parsing)하여 토론의 진행 여부(Progression)를 결정
안전한 기본값(Safe Default): 오류 발생 시 토론을 강제 종료하는 대신, 계속 진행(CONTINUE)하도록 설계하여 잠재적 정보 손실 방지
단순성(Simplicity): 에이전트 프레임워크(Agent Framework)나 복잡한 라이브러리 없이, 간결한 코드(Concise Code)로 제어 흐름 구현
이러한 설계는 LLM의 출력을 활용하여 시스템의 제어 로직을 구현하는 혁신적인 사례이다.
SSE(Server-Sent Events)를 활용한 실시간 스트리밍
NeuralHats는 SSE(Server-Sent Events)를 사용하여 각 모자의 응답을 실시간으로 스트리밍한다. 이를 통해 사용자는 토론의 진행 상황을 즉각적으로 확인할 수 있으며, 30초 이상 대기하는 불편함을 해소했다.
비동기 이벤트 큐(Asynchronous Event Queue): 각 모자의 응답 완료 시점을 감지하여 이벤트를 큐(Queue)에 추가
EventSource: 프론트엔드(Frontend)는 EventSource를 통해 이벤트를 수신하고, 실시간으로 UI 업데이트(UI Update)
최적화: 토론 종료 시 서버 연결을 잠시 유지하여 최종 이벤트(Final Event) 전송 보장
이러한 기술적 구현은 사용자 경험(User Experience)을 향상시키는 데 기여하며, 로컬 환경에서도 실시간 상호작용(Real-time Interaction)을 가능하게 한다.
구조화된 대화 기록을 통한 맥락 유지
NeuralHats는 각 모자가 이전 발언을 참조하여 일관성 있는 토론을 진행하도록 대화 기록을 구조화했다. 이전 라운드의 내용을 분리하고, Blue Hat의 지시 사항을 강조 표시하며, 각 모자에게 역할(Role)을 상기시키는 방식을 사용했다.
라운드별 분리: 이전 라운드와 현재 라운드를 분리하여 각 모자가 최신 정보를 쉽게 파악
모자별 알림(Hat Reminders): 각 모자에게 고유한 역할과 주의 사항을 상기시켜 역할 이탈(Role Drift) 방지
Facilitator: 별도의 Facilitator 모델을 통해 최종 보고서 생성 및 제목 생성
이러한 구조화된 대화 기록은 LLM의 AI 환각(Hallucination)을 줄이고, 토론의 일관성(Consistency)을 유지하는 데 기여한다.
Gemma 4 E4B 모델 선택의 기술적 의미
NeuralHats는 로컬 환경에서 6~7개의 모델을 실행해야 하는 제약 조건(Constraint) 때문에, Gemma 4 E4B 모델을 선택했다. E4B는 16GB VRAM 환경에서 적절한 성능과 품질을 제공하며, 각 모자의 역할을 효과적으로 수행할 수 있도록 튜닝되었다.
성능과 품질의 균형: E4B는 빠른 응답 속도(Response Speed)와 높은 수준의 추론 능력(Reasoning Capability)을 동시에 제공
Blue Hat의 신뢰성: Blue Hat이 정확하게 'CONTINUE' 또는 'STOP' 토큰을 생성하도록 하여 제어 흐름(Control Flow)의 안정성 확보
100% 로컬 환경: API 호출 없이 모든 기능을 로컬에서 실행하여 개인 정보 보호(Privacy) 및 비용 절감(Cost Reduction)
이러한 선택은 로컬 LLM 애플리케이션(Local LLM Application) 개발의 새로운 가능성을 제시한다.