서울 시민의 목소리를 시각화하는 혁신적인 방법: 어피니티버블과 워드맵

by DD
2주 전
조회수 64

서울시의 '서울의 목소리' 설문 데이터를 시각화하여 시민 의견 수집 및 분석 시도

개별 목소리통계 데이터를 함께 제공하며, 지도 시각화, 카드 목록, 버블 차트 등 다양한 방식 활용

어피니티버블(Affinity Bubble)워드맵(Word Map)을 활용하여 정성 데이터의 시각화, 정보 위계(Information Hierarchy) 구축 시도

자발적 참여 설문의 선택 편향(Self-selection Bias)으로 인해 데이터의 대표성에 한계 존재

LLM(Large Language Model)임베딩(Embedding) 기술을 활용하여 정성 데이터 시각화의 새로운 가능성 제시

정성 데이터 시각화의 어려움과 극복

본문에서는 정성 데이터 시각화의 어려움으로 워드클라우드(Word Cloud)의 한계를 지적하며, 맥락(Context) 부재위계(Hierarchy) 표현의 어려움을 강조한다.

워드클라우드는 빈도 기반으로 단어 크기를 결정하여 시각적 왜곡(Visual Distortion) 발생

어피니티버블(Affinity Bubble)은 임베딩(Embedding)과 LLM(Large Language Model)을 활용하여 범주화 코딩(Categorization Coding) 자동화 시도

워드맵(Word Map)은 개별 텍스트와 공간적 위치 정보를 강조하여 전체 지형도(Overall Landscape) 파악에 기여

결과적으로, 정성 데이터 시각화는 정보 위계(Information Hierarchy) 구축맥락(Context) 유지를 동시에 달성해야 한다.

어피니티버블(Affinity Bubble)의 기술적 특징

어피니티버블(Affinity Bubble)은 임베딩 클러스터링(Embedding Clustering)과 LLM(Large Language Model)을 활용하여 자동 범주화(Automated Categorization)를 수행한다.

3단계 계층 구조(Three-Tiered Hierarchy): 키워드 묶음, 도메인 분류, 전체 구조

Force 시뮬레이션(Force Simulation): 키워드 간 겹침 방지 및 공간적 위치 정보 부여

색상 구분(Color Coding): 정보 위계(Information Hierarchy) 시각화

어피니티버블은 보로노이 트리맵(Voronoi Treemap)과 유사하게 위계와 크기로 정량적 비율을 나타내면서, 개별 텍스트와 공간적 위치 정보를 강조하는 워드맵(Word Map)과 자매 관계를 이룬다.

자발적 참여 설문의 선택 편향(Self-selection Bias)

본문에서는 자발적 참여 설문의 선택 편향(Self-selection Bias)으로 인해 데이터의 대표성에 한계가 있음을 지적한다.

동기 편향(Motivation Bias): 불만을 크게 느끼는 시민의 응답 비율이 높음

도달 편향(Reach Bias): 특정 채널을 통해 홍보되어 응답자 풀의 인구 구성이 왜곡

셀 가중치(Cell Weighting) 적용 시 정밀도 과잉(Overfitting) 발생 가능성

따라서, 자발적 참여 데이터는 서울 시민 전체의 목소리를 대표하기보다는 참여한 사람들의 목소리로 읽고, 정성적인 측면(Qualitative Aspect)에 초점을 맞춰 분석해야 한다.

정성 데이터 시각화의 미래

본문에서는 LLM(Large Language Model)과 임베딩(Embedding) 기술을 활용하여 정성 데이터 시각화의 새로운 가능성을 제시한다.

자동 범주화(Automated Categorization): LLM(Large Language Model)을 활용하여 수동 코딩 작업 자동화

위계 구조(Hierarchical Structure) 구축: 어피니티버블(Affinity Bubble)과 워드맵(Word Map)을 통해 정보 위계 시각화

개별 목소리(Individual Voice) 강조: 전체 지형도와 개별 디테일(Detail)을 동시에 표현

결과적으로, LLM(Large Language Model)과 임베딩(Embedding) 기술은 정성 데이터 시각화의 효율성(Efficiency)표현력(Expressiveness)을 향상시키는 데 기여할 수 있다.

데이터 분석의 한계와 시사점

본문에서는 데이터 분석의 한계와 시사점을 제시하며, 자발적 응답의 편향(Bias)을 인지하고 분석해야 함을 강조한다.

선택 편향(Self-selection Bias): 응답자의 대표성 부족

정량적 분석(Quantitative Analysis)의 한계: 비율과 순위의 일반화에 주의

정성적 분석(Qualitative Analysis)의 중요성: 어떤 목소리가 어떤 결로 모이는지 파악

결론적으로, 데이터 분석은 데이터의 특성(Characteristics)을 정확히 이해하고, 분석 결과의 해석(Interpretation)에 신중해야 한다.

서울 시민의 목소리를 시각화하기