Hasta hace poco, el sonido en la web era bastante rudimentario y dependía de plugins como Flash y QuickTime. La llegada del elemento de audio en HTML5 marcó un avance significativo al permitir la reproducción básica de audio en streaming. Sin embargo, para aplicaciones de audio más complejas, especialmente en juegos web sofisticados o aplicaciones interactivas, se necesitaba una solución más robusta.

El objetivo de esta especificación es incorporar las capacidades que se encuentran en los modernos motores de audio de juegos, así como algunas tareas de mezcla, procesamiento y filtrado presentes en las aplicaciones de producción de audio de escritorio contemporáneas.

Las API se han diseñado teniendo en cuenta una amplia variedad de casos de uso. Idealmente, deberían ser capaces de respaldar cualquier escenario que pueda implementarse razonablemente con un motor optimizado controlado mediante scripts y ejecutado en un navegador. Dicho esto, algunos programas de audio de escritorio pueden contar con capacidades avanzadas difíciles o incluso imposibles de replicar con este sistema. Por ejemplo, Logic Audio de Apple permite el soporte para controladores MIDI externos, efectos de audio plugin arbitrarios, sintetizadores y una lectura/escritura directa de archivos de audio altamente optimizada.

A pesar de estas limitaciones, el sistema propuesto tiene la capacidad de respaldar una amplia gama de juegos y aplicaciones interactivas, incluyendo aquellas con componentes musicales. Además, se presenta como un complemento eficaz para las funciones de gráficos más avanzadas proporcionadas por WebGL. La API se ha diseñado de manera que pueda ampliarse con capacidades más avanzadas en el futuro.