Shazam, 5초 만에 노래를 찾아내는 비결은?

Shazam은 오디오 지문(Audio Fingerprint) 기술을 활용하여, 소음 환경에서도 빠르게 노래를 식별한다.

FFT(Fast Fourier Transform)를 통해 오디오 파형을 스펙트로그램(Spectrogram)으로 변환하여, 주파수 분석을 수행한다.

가장 강한 피크(Peak)만을 추출하여 노이즈(Noise)에 강한 지문(Fingerprint)을 생성하고, 데이터베이스에서 매칭한다.

최신 기술은 머신러닝(Machine Learning) 기반으로, 멜로디 매칭을 통해 더욱 정확한 인식을 시도한다.

오디오 파형에서 스펙트로그램으로의 변환

Shazam은 소리를 전기 신호(Electrical Signal)로 변환하고, 이를 FFT(Fast Fourier Transform)를 통해 스펙트로그램(Spectrogram)으로 변환한다. 이 과정은 오디오 파형(Audio Waveform)을 시간-주파수 도메인으로 변환하여, 소리의 특징을 추출하는 핵심 단계이다. 특히, FFT는 오디오 샘플(Audio Sample)을 주파수 성분으로 분해하여, 각 주파수의 강도를 시각적으로 표현한다. 이러한 변환은 소음 환경에서도 정확한 매칭(Accurate Matching)을 가능하게 한다.

지문(Fingerprint) 생성 및 특징 추출

Shazam은 스펙트로그램에서 가장 강한 피크(Peak)만을 선택하여, 오디오 지문(Audio Fingerprint)을 생성한다. 이 지문은 시간-주파수 좌표(Time-Frequency Coordinates)의 조합으로, 특정 노래의 고유한 특징을 나타낸다. 노이즈(Noise)의 영향을 최소화하기 위해, 강한 신호만을 추출하는 방식은 Shazam의 강력한 성능(Robust Performance)의 핵심이다. 또한, 이 지문은 데이터베이스에서 효율적인 검색을 가능하게 한다.

해시(Hash) 기반의 효율적인 매칭

Shazam은 생성된 지문을 기반으로, 해시(Hash)를 생성하여 데이터베이스에서 노래를 검색한다. 해시는 주파수(Frequency)와 시간 차이(Time Difference)를 조합하여 생성되며, 각 노래의 고유한 식별자 역할을 한다. 이 방식은 대규모 데이터베이스(Large-Scale Database)에서도 빠른 검색 속도를 보장하며, 인덱싱(Indexing)을 통해 검색 효율을 극대화한다. 특히, 해시 충돌(Hash Collision)을 방지하기 위한 다양한 기술이 적용된다.

최신 기술 동향: 머신러닝(Machine Learning) 기반 접근

최근 Shazam과 같은 서비스는 머신러닝(Machine Learning) 기반의 기술을 도입하여, 더욱 정확한 노래 인식을 시도하고 있다. 특히, 멜로디(Melody)를 기반으로 하는 매칭 기술은, 노이즈와 변조에 강하며, 커버곡(Cover Song) 및 리믹스(Remix)에 대한 인식률을 향상시킨다. 이러한 기술은 음악 인식(Music Recognition) 분야의 발전을 이끌고 있으며, 사용자 경험을 더욱 향상시킬 것으로 기대된다.