sábado, 18 de octubre de 2025

Me obsione con el audio, lo siento

De la cabeza al espacio: Aclarando, mediciones de HRTF, DF y más.

Llevo muchisimo tiempo leyendo y viendo como existe un gran, GRAN, malentendido sobre los famosos "TARGETS" y el nuevo "META" para tener una respuesta en frecuencia de referencia para comparar mediciones hechas tanto en IEC711 o en el B&K 5128.

El problema es el siguiente, una respuesta de campo difuso es una "medicion" o calculo (que luego se explica) que es independiente de la direccion de donde viene la fuente sonido, es decir, no existe ITD/ILD solo depende del nivel (y de hecho en teoria solo cambiaria de amplitud en dB...)

Entonces, esto depende claramente aparte del entorno, depende del HRTF del individuo y por ende, como las personas somos unas distintas de otras, ninguna medicion de campo difusa de un individuo sera exactamente igual a la de otro individuo, de hecho, la gran mayoria de simuladores HATS estan basadas en un promedio de gente (normalmente dependiente de la demografia de la empresa fabricante, aunque el B&K 5128 esta basado en el promedio de mediciones hechas por Niels Diffrient en HUMANSCALE) cosa que me gusta mas ya que es la referencia para muchisimas cosas que implican el uso de los seres humanos en el espacio cotidiano...

Pero, antes de mostrar las diferencias entre DFs y explicar mejor que se puede hacer para equalizar y definir un criterio para IEMs y OEs. Es necesario que les explique (a groso modo) como se calcula un DF correctamente y como no hacerlo :)



Referencia tomada del proyecto SONICOM.

Como ven, para medir un HRTF, es necesario un sitio anecoico en donde con un arreglo de speakers (los cuales deben tener una respuesta plana "osea en respuesta en frecuencia/magnitud" in-axis) de mide cada angulo posible para cada oreja del individuo, en la actualidad esto es automatico y se usan arreglos esfericos para estimular la mayor cantidad de partes de la oreja (pinnae) y hombros, de hecho por eso es que existe los Head and Torso Simulators (y no los Legs, Head and Torso Simulators jaja, esto porque las piernas en verdad no tienen influencia de como procesamos la espacialidad...

Algo asi es como se veria la estimulacion de frecuencias dependiente de la geometria, de hecho tambien se remueven los efectos de la habitacion con un truncamiento especial a la respuesta al impulso de los microfonos, y hablando de microfonos, existen distintas posiciones en las que se realizan mediciones HRTF y esto depende de su uso, la complejidad de la metodologia y la cantidad de sujetos a analizar.
Referencia de Florian Denk.
Como se ve, cada posicion tiene su significado y esto es porque por ejemplo un amplificador (Hearing-aid) no necesariamente va directamente al timpano abierto, y por ende, cambia la respuesta en frecuencia, es por esto que se desea (al menos en el mundo de la sordera) que "imite la respuesta del oido abierto".

Entonces, un IEM, no interectua con nada mas que el canal auditivo, en cambio los OEs interactuan con las estructura (aunque depende del tipo de OE como los Supraurales o Circamaurales, pero ustedes entienden)
Es por eso que en verdad no se tiene una referencia de como deberia sonar un IEM sin establecer una referencia basada en otros factores (como preferencia, ajuste de EQ promedio, etc) pero, por decision comun, se decidio utilizar el ISO11904-1/2  y haciendo referencia a este standard, Como se calcula un DF? Que variaciones hay entre indivuos? Que es el weighting/peso?

El método del decerebrado: El Promedio Aritmético
La primera idea que se le ocurriría a cualquiera es: "Tengo 500 mediciones de HRTF desde todos los ángulos, pues las sumo todas y las divido entre 500. ¡Listo!". NO MALDITO!
Hacer eso es un promedio aritmético simple y es geométricamente incorrecto.
Pero. Por qué? Pensemos de nuevo en la esfera de speakers del proyecto SONICOM. Es muy probable que los parlantes cerca de los "polos" (justo arriba y justo abajo de la cabeza) estén mucho más juntos entre sí que los parlantes que están en el "ecuador" (a la altura de tus oídos). 
Si le das el mismo peso/weighting a cada speaker, estás SOBRERREPRESENTANDO MASIVAMENTE la información que viene de arriba y de abajo, y subestimando la que viene de los lados, que es donde el área de la esfera es mucho mayor. Es como mirar un mapa del mundo en proyección Mercator y pensar que Groenlandia es del tamaño de África. Es una distorsión de la realidad.

Un DF calculado así tendrá un sesgo brutal, no representará un campo donde el sonido llega con la misma magnitud desde todas las direcciones, sino uno donde el sonido de los polos tiene una mayor magnitud o diferencia de la misma (si eres bastante listo te daras cuenta de que tiene sentido sabiendo que a mayor elevacion de hecho hay mas "picos" o "valles" en la respuesta de magnitud.

Espero que me este haciendo entender...


El método Correcto: Ponderación por Ángulo Sólido :D

Entonces, mas o menos como se hace?
La respuesta es con un promedio ponderado basado en el ángulo sólido. Suena complicado, pero la idea es súper intuitiva de entender. En lugar de tratar a cada medición (HRIR) por igual, vamos a tratar a cada área de la esfera por igual.

Pero qué es el angulo solido? 
Es la porción del "techo" (de la esfera) que cada parlante representa. Imagina que cada speaker está en el centro de un pequeño "parche" en la superficie de la esfera. El ángulo sólido es, básicamente, el área de ese parche que representa.
Asi creo que me explico mejor. (en coordenadas polares)

La clave del peso/weighting (el peso es clave): Como dije antes, los parches cerca del ecuador son grandes, casi rectangulares. Los parches cerca de los polos son pequeños y se van haciendo casi triangulares. La vaina es simple:
Una medición de un speaker en el ecuador representaria un área GRANDE. Por lo tanto, le damos un peso ALTO en nuestro promedio. Una medición de un parlante en el polo representa un área PEQUEÑA. Por lo tanto, le damos un peso BAJO.

El calculo Final: Lo que hacemos es un promedio de potencia ponderado. Para cada frecuencia, tomamos la magnitud al cuadrado (la potencia) de cada medición de HRTF, la multiplicamos por su "peso" (el área de su parche), sumamos todas esas contribuciones y ahora sí, obtenemos el promedio.

El resultado es un DF que simula con precisión física lo que pasaría si el sonido llegara con la misma intensidad desde todas las direcciones del espacio. No hay fallo, no importa cuantos speaker alla, donde este, la precision es altisima.
Igualmente si quieres ver las ecuaciones detras del calculo, aqui (Y tengo que agradecer a Gemini 2.5 Pro porque sin tener 1 semestre de universidad he podido explicarle lo que queria hacer en matlab y entendio la matematica sin problema, de hecho me ayudo con el LaTex para ese pdf)

Entonces, quieren ver que tanta diferencia tienen DFs entre si?, caguense, asi dejaran de compartir barrabasadas en foros... 
Tambien gracias a G2.5 Pro, hice un script en MATLAB (bello) para calcular distintas bases de datos de SOFA Conventions (de hecho gracias a ellos las mediciones son super rapidas, todos los HRIRs se guardan en un solo archivo, y se pueden colocar datos adicionales de la investigacion, DOI, etc... tremendos cocos)

Un B&K 4128, El set-up de medicion, y el weighting aplicado al mismo...

Como ven, es mas facil entender la ponderacion viendolo en el set-up correctamente, y de hecho esto coincide bastante bien con los datos que vienen en el CD del 4128, esto me da una tranquilidad ya que demuestra que se pueden tener buenos resultados y bien calculados sin importar las limitaciones fisicas o los equipos (aunque estos tambien influyen bastante pero el HRTF es el que mas peso tiene en la cadena, despues de la habitacion y sus reflexiones...)


En las frecuencias bajas las diferencias son dependientes de la truncacion ya que dependen de que tanto se desee aumentar y que tipo de filtro usar para ello, de hecho Florian Denk hizo uno (Frequency Dependent Truncation (FDT) ), por si quieren saber como funciona. En las frecuencias altas, hay maximo 2.5dB de diferencia, que teniendo en cuenta los pocos puntos de mediciones que se hicieron se nota la diferencia pero es practicamente indistinguible...
De hecho Konstantin Davy (aka Oratory1990) mostro esto usando el metodo del decerebrado jaja
Y se puede ver como usando un promedio aritmetico, basicamente tienes un desastre.
Entonces he aqui las diferencias entre el promedio ISO11904-1 y 43 personas (gracias a Florian Denk y SOFA por la accesibilidad de los archivos para procesarlos)



A 3kHz, la diferencia entre limite superior es de 7dB y inferior de -4dB de la referencia (roja). A 10kHz (donde toma mas en influencia la parte externa del oido, no tanto el canal) es de un limite superior de 7dB y inferior de 23dB cosa que demuestra que de manera inequivoca, NADIE percibe un IEM/OE de la misma forma.

Por lo tanto, recomiendo ignorar un poco esas referencias ya que en verdad tambien sigue sin demostrarse si un match de un DF-HRTF es ideal para luego aplicar filtros de preferencia (como mas bajos, un tilt, o mas treble...) de hecho tambien tengo mediciones de HpIR (Si, mediciones con audifonos OE puestos y la verdad las diferencias son muchisimo mas grandes, porque de hecho existe algo llamado IMPEDANCIA ACUSTICA, aun no me metere en esto pero creanme que hace que se quiten las ganas de seguir viendo graficas como un enfermo, de hecho si supieran que, el volumen, la posicion, la distancia, el tipo de driver y los pads, causan una gran diferencia entre individuos, incluyendo HATS, asi que en verdad por eso apoyo algo mas como las investigaciones de Sean Olive, PEQdB, o otros... Ya que en verdad es dificil definir si un match del HRTF es la solucion ya que los IEMs/OEs tambien son dispositivos de fase minima, por lo que, nuestra prespectiva del espacio sonoro, esta siendo bypass-seada? 

Pero lo mas importante que quisiera tratar aqui es HpTF (Headphone-TransferFunction) donde he aqui el porque los IE podrian llegar a ser "peores" que los OEs, esto es dada la interaccion del OE con la oreja aunque esto tambien depende demasiado de la impedancia acustica del driver como tal, los volumenes frontales y traseros. Y, como es obvio, de la distancia o posicion con respecto a la oreja.