수십만 필기체의 평균, 'Mean Hand' 글꼴 공개

수십만 건의 필기체 샘플을 평균 내어 만든 'Mean Hand' 글꼴이 공개됨

가중치(Weight)에 따라 가독성이 달라지며, 특정 임계값에서 최적의 판독성을 보임

커뮤니티에서는 'h'와 'n'의 유사성, 'i'와 'j'의 점 표기 등 특정 글자에 대한 흥미로운 관찰이 공유됨

OCR 학습 데이터셋(EMNIST)의 분포가 가독성의 기준을 형성한다는 점이 주목받음

평균 필기체 'Mean Hand'의 생성 원리

이 글꼴은 1990년대 미국 정부가 수집한 81만 건 이상의 필기체 문자 샘플을 기반으로 생성되었습니다. NIST Special Database 19에서 파생된 EMNIST 데이터셋을 활용하여, 각 문자는 수천 개의 샘플을 쌓고 특정 비율 이상의 잉크가 칠해진 부분만 남기는 임계값(Threshold) 방식으로 만들어졌습니다. 이 과정에서 데이터의 가중치(Weight)가 글꼴의 밀도와 가독성을 결정하는 핵심 요소로 작용합니다.

가중치(Weight)에 따른 가독성 변화 분석

커뮤니티에서는 'Mean Hand' 글꼴의 가중치(Weight)별 가독성 변화에 주목하고 있습니다. 'Black' 가중치에서는 거의 모든 변형이 포함되어 가독성이 현저히 떨어지지만, 'Regular' 가중치에서는 개별 필기체의 특징은 사라지지만 판독 가능한 형태를 유지합니다. 'Thin' 가중치에서는 너무 적은 샘플만 살아남아 일부 문자가 구별하기 어려워지며, 최적의 가독성은 좁은 임계값 범위 내에서만 나타난다는 점이 흥미롭습니다.

글리프(Glyph)의 비정형적 특징과 해석

논의에서는 'b'와 'h' 글자의 상승부(Ascender) 누락이나 'i'의 점이 줄기와 합쳐지는 현상 등 특정 글리프의 비정형성에 대한 관찰이 공유되었습니다. 특히 평균적인 'h'가 'n'처럼 보이는 현상은 OCR 학습 데이터셋의 평균화 처리 방식에 기인할 수 있다는 분석이 나왔습니다. 또한 'i'와 'j'의 점 표기 방식 차이에 대한 추측은 문자 해독의 모호성 해소를 위한 인간의 후처리 논리(Post-hoc Logic)와 관련지어 흥미롭게 논의되었습니다.

평균 필기체와 '정상성(Legibility)'의 관계

이 글꼴은 EMNIST 데이터셋이 정의하는 '정상적인(Legible)' 필기체의 기준을 시각화한 것입니다. 즉, 이 글꼴은 특정 개인의 필체가 아니라 정의된 정상성의 분포 자체를 나타냅니다. 따라서 'Mean Hand'는 누구의 필체도 아니지만, 누구의 필체처럼 보이기도 하는 역설적인 특징을 지닙니다. 이는 결국 데이터셋의 분포가 인식되는 필기체의 기준을 형성한다는 점을 시사합니다.