Una nueva inteligencia artificial llamada Stable Audio, desarrollada por Stability AI, promete revolucionar la creación de música y efectos de sonido a partir de simples descripciones de texto. Esta IA puede generar música estéreo a 44.1 kHz y sonidos de alta calidad utilizando solo instrucciones escritas. Este avance en la generación de audio podría cambiar la forma en que se crea música y efectos de sonido, y hasta competir con músicos en la producción comercial de audio.
Para entrenar a Stable Audio, Stability AI colaboró con AudioSparx y utilizó más de 800,000 archivos de audio con metadatos de texto correspondientes. La IA ha aprendido a imitar ciertos sonidos basándose en descripciones textuales dentro de su red neuronal.
Stable Audio utiliza un modelo simplificado y comprimido para reducir el ruido innecesario y acelerar el proceso de generación de audio. También se basa en descripciones de metadatos para determinar qué tipo de pista debe generar. Este enfoque permite que Stable Audio genere 95 segundos de audio estéreo de alta calidad en menos de un segundo en una unidad de procesamiento gráfico (GPU) Nvidia A100.
La IA está disponible en una versión gratuita que permite a los usuarios generar hasta 20 pistas al mes, cada una de hasta 20 segundos de duración. También existe un plan Pro mensual por $12 que amplía estos límites a 500 generaciones de pistas al mes y longitudes de hasta 90 segundos.
Si bien Stable Audio es un avance significativo en la generación de audio por IA, plantea preguntas sobre el futuro de la música y los efectos de sonido. A medida que la tecnología avanza, es posible que los músicos y productores de audio tengan que competir con modelos de IA en la producción musical comercial. Sin embargo, por ahora, los humanos siguen superando a la IA en términos de creatividad y expresión musical.