Cómo funciona Shazam
La ciencia detrás de reconocer una canción en segundos
¿Alguna vez te habías puesto a pensar cómo funciona Shazam? El algoritmo detrás de que una computadora pueda identificar el nombre de una canción con solo unos segundos. Shazam se hizo famoso en 2008, si lo pensamos en tiempo, el primer iPhone salió a la venta en 2007. Es impresionante cómo pudieron llegar a un algoritmo que pudiera decirte este resultado, y en ese entonces.
En este artículo te platicaremos a detalle cómo es que funciona el algoritmo de Shazam. Daremos explicación paso a paso y el over-engineered que tanto nos gusta.
Cómo es que comienza todo el proceso
Estás en el carro con tu mejor amigo, y suena en la radio Spice Girls – Wannabe. Estás de acuerdo que en segundos la reconocerás, pero después se cambia la canción y entra otra. De esa que cantabas en la secundaria con tus amigos, pero no recuerdas bien el nombre… sacas tu teléfono y le pides a Shazam que la escuche. Como resultado te da “Without You” de Avicii
Y ahí te preguntas: ¿cómo hizo eso tan rápido? ¿Qué pasó dentro de tu teléfono en esos 10 segundos?
Cuando Shazam escuchó la canción, lo primero que hizo fue transformar el sonido en una serie de números. El micrófono capta esas vibraciones (sonido) que las convierte en una señal eléctrica, y luego se digitaliza. Una vez que Shazam tiene esa secuencia de números, necesita saber qué notas están sonando y cuándo. Porque a simple vista, una onda de audio solo muestra subidas y bajadas, no dice qué frecuencias contiene.
Entonces Shazam aplica una operación matemática llamada Transformada de Fourier, que le permite ver qué frecuencias están presentes en cada momento; es decir, cuántas veces vibra el sonido por segundo. Shazam organiza toda esa información en algo llamado espectrograma, que básicamente es una imagen del sonido. En el eje horizontal (x) representa el tiempo, cómo va avanzando la canción, mientras que el eje vertical (y) muestra las frecuencias, que van desde los sonidos más graves en la parte inferior hasta los más agudos arriba. La intensidad del sonido se muestra con el color o el brillo.
Cada instrumento, cada nota y cada golpe deja su huella en el espectrograma. Y lo más interesante: no hay dos canciones con el mismo espectrograma. Aunque usen los mismos instrumentos o voces, la combinación exacta de frecuencias y tiempos nunca se repite igual.
Los puntos brillantes
Dentro de ese mapa complejo (espectrograma), Shazam busca los puntos más brillantes, llamados picos de frecuencia. Son los lugares donde una frecuencia suena más fuerte que todo lo que la rodea: el golpe seco de una batería, una nota clara de piano o una sílaba potente de una voz. Básicamente, las “notas únicas” de una canción.
Para encontrarlos, el algoritmo revisa cada punto del espectrograma y lo compara con sus vecinos. Si un punto tiene más intensidad que los de alrededor, se marca como un pico.
Por ejemplo:
Si una frecuencia de 440 Hz (la nota “La”) suena más fuerte que las frecuencias cercanas (430 o 450 Hz), el sistema marca un pico ahí.
Si eso ocurre en el segundo 2.3, el algoritmo guarda esa coordenada:
(frecuencia=440Hz, tiempo=2.3s)
Este proceso se repite miles de veces, quedándose solo con los picos más importantes.
El resultado es una especie de constelación de puntos: los momentos y frecuencias que realmente definen la canción.
En resumen: Los picos de frecuencia son los lugares donde el sonido tiene más fuerza, el algoritmo los encuentra comparando la intensidad de cada punto con sus vecinos, y al unirlos, obtiene una especie de mapa estelar del audio, donde cada estrella es un pico de frecuencia que sirve para identificar la canción. Creando la huella de la canción.

Lo increíble de estos picos de frecuencia es que son muy estables, casi como puntos fijos dentro del sonido. En el espectrograma, esos sonidos aparecen como zonas de alta energía, puntos más altos que el resto. Esto significa que, aunque la grabación no sea perfecta si el audio se graba desde otro micrófono, con menos volumen o en un ambiente con ruido, Shazam puede seguir encontrando esas mismas coordenadas clave.
Un ejemplo seria como si estuvieras en un estadio lleno. Todos gritan, aplauden etc. Pero, de pronto, el narrador del estadio grita por el altavoz: ¡Gool! Entre todo ese ruido, su voz destaca de inmediato. No porque sea la única fuente de sonido, sino porque concentra mucha más energía en ciertas frecuencias. Si grabaras ese instante y lo transformaras en un espectrograma, verías miles de manchas borrosas de fondo (el público, los aplausos, los ecos), pero la voz del narrador aparecería como un pico brillante y definido en el mismo lugar. Ese es exactamente el principio que aprovecha Shazam.






