60년 역사 속 얼굴 인식 기술, 결제의 미래를 열다

1960년대 수학자 Bledsoe의 손 좌표 기록 방식에서 출발한 얼굴 인식 기술(Face Recognition)이 60년간 진화하며 딥러닝 시대에 진입함

2014년 Meta의 DeepFace와 2015년 Google의 FaceNet 등장으로 인간 수준 인식 정확도(97.53%)를 돌파하고, 이후 ArcFace(2019) 등 다양한 최적화 기법이 발전함

토스 페이스페이는 Edge-Cloud 하이브리드 아키텍처를 채택하여 단말기에서 빠른 초기 처리를 하고 서버에서 정밀 인식을 수행하는 구조를 설계함

NIST FRTE(Face Recognition Technology Evaluation) 1:1 검증 부문에서 세계 12위를 기록하며 기술력을 대외적으로 입증함

2026년 4월 기준 483만 명 가입자를 돌파하며 얼굴 결제 서비스의 시장에서 검증됨

PCA에서 딥러닝까지: 얼굴 인식의 패러다임 전환

얼굴 인식 기술은 크게 세 단계로 진화했다. 첫째, 1991년 Turk와 Pentland의 고유얼굴(Eigenface) 방식은 주성분 분석(PCA, Principal Components Analysis)을 통해 얼굴을 저차원 벡터로 변환했다. 수백 장의 평균 얼굴에서 각 얼굴의 '벡터 조합 비율'을 비교하는 통계 기반 접근법이다. 둘째, 2000년대 LBP(Local Binary Pattern)와 SVM(Support Vector Machine) 결합으로 조명 변화에 강인한 국소 특징 추출이 가능해졌다. 셋째, 2014년 DeepFace는 400만 장의 얼굴 데이터로 심층 신경망을 학습시켜 인간 수준(97.35%)에 도달했다. 핵심 차이는 특징 엔지니어링(Feature Engineering)과 특징 학습(Feature Learning)의 구분이다. 전통적 방식은 연구자가 추출할 특징을 설계했지만, 딥러닝은 데이터에서 자동으로 계층적 특징을 학습한다. 이후 Triplet Loss(FaceNet), Angular Margin Loss(ArcFace) 등 학습 손실 함수의 혁신으로 정확도가 지속적으로 향상됐다.

Edge-Cloud 하이브리드 아키텍처의 설계 철학

페이스페이는 얼굴 인식의 Edge Computing과 Cloud Computing 장점을 결합했다. 단말기(Edge)에서는 네트워크 지연 없는 빠른 초기 처리를 수행하고, 서버(Cloud)에서는 고성능 GPU 기반 정밀 인식을 진행한다. Edge Computing의 강점은 지연 시간(Latency) 최소화 및 데이터 미저장 정책(Zero-Retention Policy)에 따른 프라이버시 보호다. 하지만 단말기의 제한된 하드웨어로 인해 모델 크기와 정확도에 한계가 있다. Cloud Computing은 최신 모델 즉시 배포와 중앙화된 로그 관리가 가능하지만, 이미지 전송 지연과 보안 위험이 존재한다. 실제 결제 흐름을 보면, 단말기 카메라가 얼굴을 촬영하면 Edge에서 1:N 식별을 수행하고, 등록 고객 여부를 판단한 후 서버로 전송하여 추가 인증을 거치는 2단계 구조를 채택했다. 이는 속도와 정확도, 보안 사이의 트레이드오프(Trade-off)를 최적화하는 설계 결정이다.

다층 보안 체계: 얼굴 데이터 유출이라는 근본적 우려에 대한 답

얼굴 인식 결제의 가장 큰 심리적 장벽은 '생체 정보 유출 시 변경 불가'라는 우려다. 페이스페이는 이에 대한 답으로 다층 방어 체계를 구축했다. 첫째, 통신 보안으로 TLS(Transport Layer Security) 암호화와 AES-256(Advanced Encryption Standard 256-bit) 추가 암호화를 적용한다. 둘째, 취소 가능한 생체 인증(Cancellable Biometrics) 기술인 Matrix Projection을 도입했다. 같은 얼굴이라도 다른 키를 적용하면 완전히 다른 벡터가 생성되므로, 데이터 유출 시 새로운 키로 재발급이 가능하다. 셋째, 생체 정보 접근은 제한된 시스템과 인원만 가능하며 모든 접근이 기록된다. 넷째, 개인정보보호위원회의 사전적정성 검토를 통과하고 안심보장제로 부정 결제 시 전액 보상한다. 이러한 기술과 제도의 이중 방어로 사용자의 신뢰를 확보하는 구조다.

Anti-Spoofing: 2D·3D 위변조 공격을 차단하는 기술적 메커니즘

스푸핑 공격(Spoofing Attack)은 사진, 영상, 3D 마스크 등으로 얼굴 인증을 우회하려는 시도를 의미한다. 페이스페이는 RGB 카메라, IR(적외선) 카메라, Depth 카메라의 다중 센서를 활용하여 실제 사람과 평면 위변조 매체를 구별한다. RGB 카메라는 눈 깜빡임, 미세 표정 변화, 자연스러운 움직임 등 동적 신호를 분석한다. IR 카메라는 사람 피부와 종이·디스플레이의 적외선 반사 패턴 차이를 활용하여 인쇄 사진이나 화면 영상을 구별한다. Depth 카메라는 얼굴의 3차원 깊이 정보를 측정하여, 실제 얼굴의 입체 구조와 평면 매체의 차이를 활용한다. 시스템은 단일 센서가 아닌 다중 센서 융합(Multi-Sensor Fusion)과 다양한 위변조 탐지 모델을 결합하여 2D 공격(종이 사진, 화면 영상)과 3D 공격(실리콘 마스크, 3D 프린팅 마스크)에 동시 대응하도록 설계됐다.

NIST FRTE 12위 달성: 얼굴 인식 기술의 글로벌 경쟁력

NIST(National Institute of Standards and Technology)의 FRTE(Face Recognition Technology Evaluation)는 비자, 머그샷, 입국 사진 등 비공개 이미지를 사용한 가장 권위 있는 얼굴 인식 벤치마크다. 수백 개의 알고리즘이 동일한 조건에서 공정하게 경쟁하므로 신뢰성이 높다. 페이스페이는 2025년 10월 1:1 Verification 부문 세계 12위를 기록했다. 상위권에 얼굴 인식 전문 기업들(Face++ 등)이 이름을 올리는 가운데, 금융권 기반 서비스가 글로벌 경쟁력을 입증한 사례다. 참고로 2014년 DeepFace의 97.35% 정확도 이후, 현재 상위권 알고리즘들은 99% 이상의 정확도를 기록하고 있다. NIST 순위는 단순한 기술력 증명을 넘어, 안면 인식 산업에서 프라이버시 규제(CCPA, GDPR)가 심화되는 상황에서 기술의 신뢰성과 투명성을 대외적으로 입증하는 수단이 된다.