Google ha creado una IA que puede generar música a partir de descripciones de texto, pero no la lanzará • TechCrunch

Un nuevo e impresionante sistema de inteligencia artificial de Google puede generar música en cualquier género con descripción de texto. Pero la empresa, por temor a los riesgos, no tiene la intención de liberarlo de inmediato.

Llamó MúsicaML, Google ciertamente no es el primer sistema generativo de IA para canciones. Ha habido otros intentos, incluido Riffusion, una IA que compone música visualizándola, así como Dance Diffusion, AudioML de Google y Jukebox de OpenAI. Pero debido a limitaciones técnicas y datos de entrenamiento limitados, ninguno pudo producir canciones particularmente complejas o de alta fidelidad.

MusicML es quizás el primero que puede.

Detallado en un académico papel Esta semana, se capacitó a MusicML en un conjunto de datos de música sin etiquetar para aprender a generar canciones consistentes para descripciones de, como lo expresaron los creadores, «complejidad significativa» (por ejemplo, «canción de jazz encantadora con un solo memorable saxofonista y cantante solista» o «Tecno berlinés de los 90 con bajos graves y un toque potente.» Sus canciones suenan notablemente como si las compusiera un artista humano, pero no necesariamente tan inventivas o musicalmente cohesivas.

De hecho, es difícil exagerar cómo Bien las muestras suenan dado que no hay un músico o un instrumentista en el bucle. Incluso cuando se alimentan con descripciones que son un poco largas y serpenteantes, MusicML logra capturar matices como riffs instrumentales, melodías y estados de ánimo.

El título del ejemplo a continuación, por ejemplo, incluía el bit «induce la experiencia de estar perdido en el espacio», y ciertamente cumple en ese frente (al menos para mis oídos):

Aquí hay otro ejemplo, generado a partir de una descripción que comienza con la frase «La banda sonora principal de un juego de arcade». Probablemente, ¿verdad?

Las capacidades de MusicLM se extienden más allá de generar fragmentos cortos de canciones. Los investigadores de Google muestran que el sistema puede basarse en melodías existentes, ya sea tarareadas, cantadas, silbadas o tocadas con un instrumento. Además, MusicLM puede tomar varias descripciones escritas en secuencia (por ejemplo, «hora de meditar», «hora de despertar», «hora de correr», «hora de dar el 100%) y crear una especie de «historia» o narración melódica, hasta varios minutos de duración, perfectamente adaptado a la banda sonora de una película.

Eso no quiere decir que MusicLM sea impecable; en realidad, ni mucho menos. Algunas de las muestras tienen una calidad distorsionada, un efecto secundario inevitable del proceso de capacitación. Y aunque MusicLM técnicamente puede generar voces, incluidas armonías corales, muchas dejan mucho que desear. La mayoría de las «letras» van desde apenas coherentes hasta puro galimatías, cantadas por voces sintetizadas que suenan como fusiones de múltiples artistas.

Aún así, los investigadores de Google notan los muchos desafíos éticos que plantea un sistema como MusicML, incluida una desafortunada tendencia a incorporar material protegido por derechos de autor de los datos de entrenamiento en las canciones generadas. En un experimento, descubrieron que alrededor del 1 % de la música generada por el sistema se reproducía directamente a partir de las canciones con las que había practicado, un umbral aparentemente lo suficientemente alto como para disuadirlos de lanzar MusicML en su estado actual.

«Reconocemos el riesgo de un uso indebido potencial del contenido creativo asociado con el caso de uso», escribieron los coautores del artículo. «Hacemos hincapié en la necesidad de un trabajo futuro adicional para abordar estos riesgos asociados con la generación de música».

Suponiendo que MusicML o un sistema similar esté disponible alguna vez, parece inevitable que surjan importantes problemas legales. Ya tienen algunos, pero alrededor de sistemas de IA más simples. En 2020, el sello discográfico de Jay-Z presentó acciones contra los derechos de autor contra un canal de YouTube, Vocal Synthesis, por usar IA para crear versiones de Jay-Z de canciones como «We Didn’t Start the Fire» de Billy Joel. Después de eliminar inicialmente los videos, YouTube los restableció y dijo que las solicitudes de eliminación estaban «incompletas». Pero la música deepfake todavía descansa en un terreno legal turbio.

A papel blanco escrito por Eric Sunray, ahora pasante legal en la Asociación de Editores de Música, argumenta que los generadores de música de IA como MusicML violan los derechos de autor de la música al crear «tapices de audio cohesivo de las obras que ingieren durante el entrenamiento, infringiendo así el derecho de reproducción bajo los derechos de autor de los Estados Unidos ley. Después del lanzamiento de Jukebox, los críticos también cuestionaron si entrenar modelos de IA en material musical con derechos de autor constituía un uso justo. Se han planteado preocupaciones similares sobre los datos de entrenamiento utilizados en los sistemas de IA que generan imágenes, códigos y texto, que a menudo se extraen de la web sin el conocimiento de los creadores.

Desde la perspectiva del usuario, Andy Baio de Waxy especular que la música generada por un sistema de IA se consideraría un trabajo derivado, en cuyo caso solo los elementos originales tendrían derechos de autor. Por supuesto, no sabemos qué podría considerarse «original» en esa música; utilizar esta música con fines comerciales es adentrarse en aguas desconocidas. Es más simple si la música generada se usa para fines protegidos por el uso justo, como parodias y comentarios, pero Baio espera que los tribunales tengan que emitir juicios caso por caso.

Google ha creado una IA que puede generar música a partir de descripciones de texto, pero no la lanzará • TechCrunch

Por Emily Carter

Entradas relacionadas