Pioneros de la inteligencia artificial en audio en España: voces sintéticas, clonadas y reconstruidas (2020-2025)

1. Introducción y estado de la cuestión

La radio nunca ha sobresalido por sus políticas de innovación, sino que, en general, ha sido más conservadora que otros medios de comunicación (Ruiz-Gómez y Legorburu, 2024). Numerosas aportaciones han descrito cómo, en los primeros compases de la digitalización, a finales del siglo XX, fue adaptándose con cuentagotas a los paulatinos avances tecnológicos, hasta que su generalización en la sociedad acabó por doblegarla (Bonet, 2007; Pedrero-Esteban y García-Lastra, 2019), en un lento recorrido que se ha prolongado por espacio de más de dos décadas (Dussel, 2020; Robert-Agell y Bonet, 2023).

De esta forma, la radio ha celebrado su centenario en la era de la audificación, fruto de un proceso en el que se han ido transformando las distintas tareas de la producción sonora, así como el soporte administrativo, programático y de distribución. En ello han influido el establecimiento de las redes de ordenadores y las dinámicas de trabajo colaborativo en la redacción o entre diferentes departamentos, la multiplicación de las capacidades del software y el hardware, así como la generalización del uso de Internet, el teléfono móvil y la conectividad; la aparición de los altavoces inteligentes y los asistentes de voz, la emisión en streaming y, finalmente, la aparición y el auge del pódcast (Spinelli y Dann, 2019), gracias a la plataformización (Sullivan, 2024).

Sin embargo, no parece que estemos, ni mucho menos, al final del camino, pues la irrupción de la inteligencia artificial (IA) constituye un nuevo punto de inflexión, quizá el que marque el final de una etapa y el comienzo de la siguiente. El cambio es imparable y, con toda probabilidad, más rápido que en el pasado, lo que pondrá de nuevo a prueba la capacidad de adaptación y resiliencia del medio sonoro. Parafraseando a Lampedusa, ¿cambiará todo, para que nada cambie, para que el audio mantenga su esencia, a pesar de su constante evolución? Quizá es pronto para decirlo. Entre tanto, sí podemos aproximarnos al punto de partida, es decir, a las primeras experiencias en el uso de la IA que han tenido lugar en España.

1.1. Primeras experiencias con la IA en el mundo del audio

Al hablar de la implantación de la IA en el mundo sonoro, se puede afirmar que, en esta ocasión, España no se estaría quedando rezagada, al menos en lo que se refiere a su empleo por las cadenas radiofónicas y las productoras y plataformas de audio. El proceso ha sido semejante al del desarrollo del pódcast en nuestro país, que registraba sus primeras iniciativas en 2004 con ‘Comunicando’ de José Antonio Gelado (García-Marín, 2019). Hay que recordar que fue ese año cuando fue bautizado como podcasting por el periodista Ben Hammersley (Sellas, 2011).

En concreto, en lo que se refiere al uso de voces, ya sean sintéticas (generadas, de diseño), reconstruidas o clonadas; la reconstrucción de la voz de Francisco Franco para el documental ‘XRey’ de The Story Lab y Spotify (2020) o la experiencia de Victoria, desarrollada por la Cadena SER en 2022, se adelantaron a otras iniciativas en el ámbito internacional. En concreto, la Radio Checa viene experimentando con la ficción sonora desde 2020, mientras que, en 2022, surgió Basia en Radio Piekary de Polonia (2022). Ya en 2023, apareció, de nuevo en España, Hiperia, de Radio 3 Extra. También datan de ese año el programa ‘La semana’ de Radio Talayuelas (Cuenca, España), presentado por las voces sintéticas VIRTUdes casAL y VIctor bRTUAL; Live 95.5 de Portland, RAiDiO.FYI, RadioGPT, en EEUU y la voz Xiaoxiao y el programa Dazhong y Xiaoya (China); la emisora pública suiza Couleur 3 o Nat, la voz virtual del Grupo Fórmula de México. En 2024, entre otras, surgieron IntAr Radio en España, La Ochentera de RCN de Colombia, NRK en Noruega, OFF Radio Cracovia de Polonia, etc. Ese mismo año, Google lanzó ‘Daily Listen’, un daily news podcast producido a la medida de cada usuario y, en 2025, Inception Point AI comenzó a distribuir por su red Quiet Please miles de programas semanales generados con IA con un coste de un dólar por episodio. Algo parecido ha ocurrido con la división de audio de The Washington Post, desmantelada para producir contenidos mediante IA. Ambas iniciativas han recibido duras críticas por su bajo nivel de calidad.

De la misma manera, sucesivamente y en poco más de un lustro, han ido surgiendo numerosas herramientas diseñadas para la producción sonora mediante IA. Algunas de ellas son Wondercraft para edición (audio y vídeo), AudioCraft o NotebookLM para generar audio (y música) a partir de texto, Adobe Podcast, Cleanvoice AI y GenAI para mejorar la calidad del sonido; HeyGenIA para sincronización labial, Auphonic para editar y mejorar la calidad del audio, Audiobox, ElevenLabs, Revoice, Synthesys y Veritone para generar y clonar voces y efectos; Amazon Polly, Descript, Loquendo.io, Lovo AI, Murf.AI, Notta, Voice Powered IA y WellSaid para grabar, editar y transcribir texto a audio (y vídeo); Zapier para automatizar flujos de trabajo con vos, música y grabaciones; MusicGen, Suno y UVR para crear y trabajar con música sobre diferentes pistas de audio; o Podcastle AI, que reúne la mayoría de las tareas relacionadas con la producción de pódcast.

Más tarde, se abordará de qué forma y en el marco de qué estrategias se está empleando, pero lo que es evidente es que los usuarios no son ajenos a esta realidad y no todos la valoran en igual medida. En EEUU, un 22% de los oyentes reconocen haber escuchado un pódcast generado por IA, pero el 72% confiesan que no consiguieron conectar con su contenido. De hecho, aunque consideran que la IA supone mayor eficiencia para emisoras y productoras, también piensan que perjudica la intimidad y la confianza propias de la radio y aún más acentuadas en el pódcast (Adler, 2023; Bottomly, 2024; Karathanasopoulou, 2024; Lindgren, 2023). En este mismo país, solo el 12% de los encuestados se siente cómodo con las noticias generadas por IA, en comparación con el 62% que prefiere el contenido creado por humanos (Simon et al., 2025). Los oyentes conciben la IA como una ayuda, pero no como un reemplazo de las voces que les hablan (SiriusXM, 2025). Igualmente, en España, el 48,63% de los oyentes de pódcast no acaban de sentirse a gusto escuchando contenidos generados por IA y el 54,68% sigue confiando más en las voces humanas (iVoox, 2025).

Por su parte, los creadores de audio tampoco parecen convencidos del uso de las voces sintéticas. Según Fitó-Carreras et al. (2025, p. 191), “la inteligencia artificial de voz aún no produce resultados suficientemente realistas para transmitir la esencia de la prosodia humana”. De hecho, estos mismos autores afirman que “los creadores afirman que, para obtener resultados de calidad, es necesario invertir un tiempo considerable en el entrenamiento de la voz y la edición del audio, con el fin de mejorar la cadencia e incorporar elementos paralingüísticos que se asemejen a la fluidez real del habla humana” (Fitó-Carreras et al., 2025, p. 191). Coinciden con esta apreciación Furtáková y Janáčková (2023). Sin duda, en el caso de las voces, el uso de la IA sigue despertando suspicacias y controversia (Merrill, 2025).

1.2. La IA y la transformación de la producción sonora

A diferencia de otras tecnologías vinculadas a la innovación que la radio y el pódcast han ido adoptando a lo largo de los últimos tiempos, “la IA no se limita a ofrecer herramientas para mejorar la eficiencia, sino que modifica las lógicas operativas tradicionales” (Fieiras-Ceide et al., 2025, p. 45). De esta forma, si hubiera que establecer los distintos ámbitos de la producción y distribución de audio en la que puede intervenir, habría que empezar por precisar que es una herramienta que sirve de ayuda antes, durante y después de la comunicación sonora, como afirma Reineck (2025), simplificando tareas que, hasta ahora, requerían de semanas o meses de trabajo.

A partir de esa primera ordenación, Sarısakaloğlu y Löffelholz (2025) afirman que la IA actúa en las siguientes labores: preproducción, producción, postproducción y distribución y consumo; lo que involucra a los flujos de trabajo administrativo y de las redacciones, además de las operaciones relacionadas con el negocio. Bazán et al. (2021) y Fieiras-Ceide et al. (2025) completan el catálogo de rutinas añadiendo todo lo que tiene que ver con la documentación y el archivo sonoro, la accesibilidad y la personalización de contenidos. Mustafá (2019), Taylor (2024) y Venier y Rodilla-Avilés (2024) coinciden, en términos generales, con este repertorio de tareas.

Como se ha señalado, el empleo de las herramientas de IA en todos estos procesos supone un considerable ahorro de recursos, “tanto de elementos técnicos como de tiempo de procesamiento y de edición necesarios en la producción del contenido sonoro” (Alonso y López, 2024, p. 30). Así, su aplicación puede contribuir a una mayor eficiencia y racionalidad empresarial (Martínez-Otón y Castillo, 2025) e incluso, “a una conexión satisfactoria entre el ser humano y la tecnología, a la mejora de la calidad de la producción y a subir contenidos en línea con las necesidades de los usuarios” (Ćitić, 2020, p. 1343). De hecho, como destacan Ribes et al. (2025: 470), la IA es especialmente útil para el análisis de las métricas de audiencia, ya que, en el caso concreto de la radio, “ayudan a identificar tendencias y preferencias, fomentando una programación más orientada al oyente”.

Posiblemente, se podría afirmar que la IA contrapone el término “aceleración” frente a “remplazo”, es decir, en lugar de sustituir al talento del ser humano, se constituye en una herramienta, un asistente, que ayuda a agilizar las rutinas productivas, abriendo un amplio margen para las actividades creativas y estratégicas (Ribes et al., 2025); particularmente, según Yaguana et al. (2022), en todo lo que tiene que ver con los géneros informativos y narrativos. Sin embargo, su carácter holístico plantea serios retos para las emisoras de radio y las productoras y plataformas de audio, puesto que su implementación “requiere que las nuevas herramientas se integren con arquitecturas preexistentes de producción, archivo y distribución, muchas veces construidas sobre tecnologías heredadas o poco compatibles” (Fieiras-Ceide et al, 2025, p. 56). De la misma manera, también persiste el riesgo, en contextos donde la cultura profesional está asociada la innovación con lo técnico, de que el uso de la IA deje fuera el componente editorial. En este sentido, según Fieiras-Ceide et al. (2024, p. 56), “esta fragmentación puede dificultar una apropiación real de las herramientas por parte de los equipos periodísticos, limitando su potencial”.

1.3. Implicaciones éticas y profesionales en la alianza medios-plataformas

Si hay algo en lo que coinciden todos los estudios relativos al empleo de la IA por los medios de comunicación es que “la supervisión humana resulta esencial para garantizar la calidad de los resultados, la coherencia informativa y el uso ético de la tecnología” (Ribes et al., 2025, p. 470), una cuestión en la que también ponen el acento Wei et al. (2022). Parece haber consenso en mantener la responsabilidad de los contenidos en las personas, “para preservar el juicio editorial, la creatividad y la ética profesional frente a los riesgos de desinformación y pérdida de autenticidad” (Mancinas-Chávez et al., 2025, p. 15).

En el caso de España, esta inquietud surgía hace un lustro, en 2021, cuando el Consell de la Informació de Catalunya presentó su Decálogo para el uso ético de la inteligencia artificial en los medios de comunicación. En buena medida, fue pionera, puesto que la Carta de París sobre Inteligencia Artificial y Periodismo fue presentada en 2023 por Reporteros Sin Fronteras y otras 16 organizaciones. Este documento es considerado el primer marco ético internacional para guiar el uso de la IA en los medios de comunicación.

A partir de ahí, la BBC hizo públicos ese mismo año sus Tres principios rectores sobre el uso de la IA y, más tarde, el Manual para el uso responsable de la IA. También en 2023, hacían lo propio medios y agencias internacionales como, entre otros, DPA, Financial Times, NPR, Reuters, Springer-Nature, The Guardian y USA Today. En 2024, se sumaron EFE y The New York Times; y, en 2025, CBC, El País, ORF, etc. En lo que toca al sector radiofónico español, Atresmedia (propietaria de Onda Cero, Europa FM y Melodía FM) elaboró en 2023 su Política para el uso responsable de herramientas de IA y conexas y, un año después, ÁBSIDE MEDIA presentaba su Guía ética para la integración y el uso responsable de la IA; y RTVE también aprobaba su normativa.

También hay que reseñar que, paralelamente, la mayoría de estas corporaciones cerraban acuerdos en 2025 con las grandes operadoras de inteligencia artificial. En el caso de Atresmedia, con Perplexity AI, siguiendo la estela de Der Spiegel, Los Ángeles Times, The Independent, Time, USA Today, etc.; y ÁBSIDE MEDIA, con Google e Hiberius. Un año antes, PRISA Media se aliaba con OpenAI, junto a AP, Axel Springer, Le Monde, The Guardian o The Washington Post. Otras compañías como Audible, Conde Nast, Hearst o The New York Times, optaban por Amazon; y, en el campo de audio, Spotify y Storytel llegaban a acuerdos estratégicos con ElevenLabs.

2. Objetivos y Metodología

Los objetivos de esta investigación, que se listan a continuación, se enfocan en describir las primeras experiencias con el uso de la IA en el ámbito del audio en España, centradas en las voces, ya sean sintéticas, reconstruidas o clonadas.

(OI-1) Establecer el origen del uso de la IA en el audio español, a partir de los proyectos pioneros de voces sintéticas, reconstruidas y clonadas, durante el periodo comprendido entre 2020 y 2025.

(OI-2) Describir las transformaciones experimentadas en las distintas fases y tareas de la producción sonora, a raíz de la implementación de la IA en las emisoras de radio y las plataformas de pódcast.

(OI-3) Identificar las implicaciones éticas y profesionales del uso de la IA y su integración y convivencia con las rutinas productivas tradicionales que se desarrollan en el mundo del audio.

En base a estos objetivos, la metodología utilizada en esta investigación adopta un enfoque mixto, cualitativo-cuantitativo. Concretamente, tras realizar una fase exploratoria del fenómeno mediante una exhaustiva revisión bibliográfica, el estudio cuantitativo comenzó con la selección de cuatro casos pioneros y reconocidos, tanto de la radio, como de las plataformas de pódcast, excluyendo cualquier otra iniciativa: la reconstrucción de la voz de Francisco Franco por Vicomtech para ‘XRey’ de The Story Lab y Spotify (2020); Victoria, voz sintética de la Cadena SER (2022-2025); Hiperia, presentador virtual de Radio 3 Extra (2023-2025) y las clonaciones de famosos por parte del Grupo Risa de COPE (2023-). Los casos se seleccionaron mediante un muestreo intencional por su relevancia y reconocimiento mediante galardones del sector.

El instrumento utilizado para recopilar y sistematizar los datos fue una matriz diseñada específicamente para incluir las 34 variables de análisis. Se utilizó el software IBM SPSS para registrar y analizar los datos. A cada variable se le asignó un campo para completarlo con texto o categorías que permitieran alcanzar los objetivos, aportando así claridad, precisión y rigor al análisis (ver Figura 1). La matriz de análisis se elaboró mediante un proceso inductivo basado en la observación de aplicaciones de inteligencia artificial en la radio y el podcasting en España, a partir de las cuales se definieron las categorías analíticas del estudio.

Figura 1. Ficha de análisis.

Figura 1. Ficha de análisis.

Fuente: elaboración propia.

Por otra parte, el estudio cualitativo, basado en fuentes orales, consistió en la selección de una muestra de informadores clave vinculados a los casos seleccionados. Los testimonios se recolectaron entre los meses de marzo y mayo de 2024. Asimismo, se hizo partícipe a las fuentes de la ficha de análisis, con el fin de que pudieran revisarla y, en su caso completarla. De esta forma, se ha podido contrastar la información recopilada mediante el análisis cuantitativo, así como conocer más a fondo los orígenes y las distintas fases de desarrollo, producción y resultados de cada experiencia pionera.

La muestra de informadores clave fue la siguiente:

Olalla Novoa, directora de Inteligencia Artificial del PRISA Media (Victoria).

Tomás F. Flores, director de Radio 3 Extra - RTVE (Hiperia).

Aitor Álvarez, responsable del Grupo de investigación de Tecnologías del Habla y del Lenguaje Natural de Vicomtech (‘XRey’).

Óscar Blanco, realizador y editor de audio de COPE - ÁBSIDE MEDIA (Grupo Risa).

3. Análisis y resultados

Como se ha mencionado, en este epígrafe se analizan y describen cuatro experiencias pioneras en el uso de la IA en el ámbito de la radio y el pódcast en España. Se trata de un examen en profundidad de sus diferentes capacidades en todo lo que tiene que ver con la voz, con el objetivo de comprender cuál está siendo su impacto en la producción de contenidos sonoros.

3.1. ‘XRey’: la voz de Franco como recurso narrativo

El documental sonoro ‘XRey’, producido por The Story Lab Spain para Spotify, se convirtió en un fenómeno mediático en 2020. A lo largo de 10 episodios, narra la vida del rey emérito, Juan Carlos I, desde su llegada al trono hasta su abdicación, mediante testimonios relevantes, pero también, gracias a la reconstrucción de la voz de Francisco Franco por medio de la IA, que se emplea en varios episodios para ilustrar dos cartas enviadas por el dictador al padre del futuro rey, Juan de Borbón.

Según el director del documental, Álvaro de Cózar (2021), el objetivo del proyecto no era reconstruir discursos, sino aportar contexto desde el rigor narrativo y documental, empleando para ello la voz del general. Como señala, “no queríamos hacer imitaciones ni caricaturas. Necesitábamos que Franco sonara como Franco, pero en una situación no recogida en ninguna grabación original”. Esta premisa marcó las decisiones narrativas y periodísticas y supuso un reto, al requerir el empleo de la IA para reproducir el habla de este personaje histórico, centrándose específicamente en el lapso que va de la mitad de los años cincuenta hasta el final de la década siguiente.

La reconstrucción de esta voz fue liderada por Vicomtech, un centro de investigación aplicada especializado en IA, interacción y computación visual, ubicado en San Sebastián e integrado por 250 investigadores. En concreto, se hizo cargo de este trabajo el Grupo de investigación de Tecnologías del Habla y del Lenguaje Natural. Su responsable, Aitor Álvarez (2024), explica que la petición de los creadores de la serie, Toni Garrido y Álvaro de Cózar; llegó después de que su productora buscara –sin éxito— soluciones en empresas de Canadá y el Reino Unido.

El reto técnico consistía en entrenar un modelo capaz de reproducir la voz del dictador entre 1955 y 1969. Para ello, se recopilaron 20 horas de grabaciones históricas, aunque solo seis de ellas resultaron adecuadas para el entrenamiento. Como destaca Álvarez (2024), “a lo largo de la vida la voz cambia y si se quiere recrear fielmente no vale cualquiera; hay que ser muy fiel a la época que queremos representar”. Asimismo, “como premisa, la IA requiere datos con la calidad suficiente, por lo que tuvimos que filtrar ruidos de fondo, variabilidad excesiva y reconstruir transcripciones, porque el sistema aprende por pares de voz y texto”. El equipo trabajó, principalmente, con discursos navideños, los únicos registros con calidad suficiente y estilo narrativo compatible con las cartas que había que reconstruir (Álvarez, 2024).

A partir de ahí, con técnicas de transfer learning y fine tuning, adaptaron un modelo previo de texto a voz (TTS) hasta dotarlo del timbre, la cadencia y las particularidades vocales del personaje. Otro aspecto, especialmente complejo, fue la recreación del ruido estático, característico de las grabaciones analógicas. En este sentido añade que “el ruido de fondo de las grabaciones tenía gran valor porque era estático y homogéneo en todos los audios, con lo cual, la IA aprendió a generarlo dando ese toque viejuno. Por otro lado, además del tono de la voz, se copiaron esas particularidades vocales del personaje” (Álvarez, 2024). Sobre ese corpus depurado, se entrenó un modelo de voice cloning capaz de capturar las características principales de la voz. Este sistema, basado en redes generativas, fue ajustado para reproducir no solo el tono de voz del personaje, sino también su cadencia pausada y su particular nasalidad.

Álvarez (2024) explica que el proyecto se desarrolló en tres etapas. Una inicial, de arquitectura del sistema, utilizando modelos de aprendizaje profundo en dos fases. En concreto, en la primera, se empleó una arquitectura de red neuronal tipo sequence-to-sequence, denominada Tacotron-2, para generar espectrogramas de Mel (representaciones visuales del audio relacionadas con la percepción humana) a partir de texto. A continuación, en la tarea de vocoder (convertir los espectrogramas en audio final), se utilizó el algoritmo Griffin-Lim, que ofreció mejores resultados que otros modelos neuronales, debido a la naturaleza de los datos de entrenamiento^[1].

Con respecto a la segunda etapa, centrada en el proceso de entrenamiento y datos y debido a la escasez de audios de alta calidad del personaje, se trabajó en dos fases. En un primer momento, se construyó un modelo con una base de datos de 20 horas de una voz femenina grabada en estudio para disponer de una base sólida. A partir de ahí, se llevó a cabo un ajuste fino mediante un total de 3 horas y 12 minutos de audios de Franco grabados entre 1936 y 1974; y un segundo refinamiento, empleando audios de los años 1960 y 1961, ya que eran los que mejor encajaban con el periodo histórico narrado en el pódcast. Esta etapa concluyó con la limpieza de datos mediante sistemas de reconocimiento automático de voz (ASR) basados en el kit de herramientas Kaldi para construir sistemas de reconocimiento de voz y aplicando una métrica de éxito, en la que el audio generado consiguió alcanzar puntuaciones de PESQ (una métrica de calidad percibida) suficientes como para su emisión profesional^[2].

3.2. Victoria, la voz del fútbol

Victoria, la voz del fútbol’ es una skill del asistente virtual Alexa de Amazon, para informar sobre la actualidad deportiva y ofrecer contenidos deportivos personalizados para cada usuario (Ribes et al., 2025). Esta propuesta del PRISA Media constituye la primera experiencia en España de desarrollo de una voz sintética de marca aplicada al ámbito radiofónico y deportivo. Promovida por Cadena SER, la iniciativa fue presentada el 8 de noviembre de 2022 y permaneció operativa hasta agosto de 2025. Su conceptualización fue liderada por Olalla Novoa, por entonces responsable de interfaces de voz de la emisora, en colaboración con el área de Deportes y el equipo del programa ‘Carrusel deportivo’, junto con la empresa tecnológica Monoceros Labs, responsable del desarrollo del modelo de voz.

También intervinieron en su creación los equipos de tecnología, monetización, comunicación y asesoría jurídica del grupo. Justamente, este último aspecto, como indica Novoa (2024), actual directora de IA del PRISA Media, “fue un desafío para el equipo de Asuntos Jurídicos y Propiedad Intelectual, ya que fue necesario crear un marco contractual en torno a la creación y explotación de la voz sintética, puesto que no había precedentes legales en España”.

El proyecto se concibió como una apuesta estratégica por la innovación en la información deportiva mediante la creación de una voz sintética. Esta, de género femenino y prosodia natural, fue diseñada para integrarse en espacios específicos de ‘Carrusel deportivo’: “en segmentos acotados relacionados con la interacción con los oyentes” (Novoa, 2024). Para su diseño, como indica Novoa (2024), se definió, en primer lugar, “la identidad con los equipos editorial y del programa”. A partir de ahí, se decidió que fuera una voz femenina, por la limitada presencia de las mujeres en el ámbito de la información sobre fútbol. Además, querían dotarle de “una personalidad enérgica, contundente, con ritmo rápido”, con la que “mantener el estilo del fútbol y el deporte”.

El resultado fue “una voz nueva” que partía de “la programación de cuatro voces femeninas diferentes, de las que surgió una mezcla de todas”. Concretamente, Victoria fue generada a partir de un modelo entrenado con redes neuronales desarrollado por Monoceros Labs. Explica Novoa (2024) que “se generaron 4.200 frases para que hablase de deportes y no de otros temas (…) y como necesitábamos que supiera pronunciar nombres y apellidos complejos, se constituyó un glosario con más de 15.000 términos del mundo futbolístico”. Asimismo, junto con la identidad sonora, se desarrolló la identidad visual, diseñando tanto el logo, como el branding asociado a la herramienta. Comenta Novoa (2024), que “se pensó en darle una cara a Victoria, pero, finalmente, no se hizo. Llegamos a diseñar un avatar, que tenía movimiento”.

Paralelamente, se diseñó una experiencia personalizada para Alexa, basada en una custom skill que conectaba, a través de APIs, los contenidos en streaming de la Cadena SER con los del diario AS. Esta integración permitía al usuario recibir información actualizada sobre su equipo favorito, como resultados, estadísticas, recordatorios de partidos o retransmisiones en directo; así como acceder a competiciones nacionales e internacionales. Para ello, como indica Novoa (2024), “una de las primeras preguntas que te hacía la voz era para saber de qué equipo eras y, a partir de ahí, te iba proporcionando información”. Por si fuera poco, incorporaba mecanismos de notificación y recordatorio que permitían alertar al usuario, tanto en su dispositivo móvil como en su altavoz inteligente, sobre el inicio de los partidos o la disponibilidad de retransmisiones y contenidos informativos relevantes. En definitiva, Victoria configuraba un ecosistema informativo híbrido, que combinaba activos radiofónicos y contenidos periodísticos digitales del diario AS, bajo una misma interfaz conversacional.

3.3. Hiperia, un presentador virtual

Radio 3 Extra nació en 2013 como una extensión digital de Radio 3 (Ruiz-Gómez y Legorburu, 2025), la emisora cultural de Radio Nacional de España (RTVE). Fue creada, como indica su director, Tomás Fernando Flores, “como respuesta a los cambios de hábito de consumo audiovisual en las generaciones más jóvenes” y para “generar contenidos exclusivos online para unos oyentes que no conectan con la radio convencional” (Flores, 2024).

En el marco de esta propuesta nativa digital, el 6 de marzo de 2023, el área de Innovación de RTVE activa el proyecto Hiperia en Radio 3 Extra, incorporando un presentador virtual (Sánchez-Esparza et al., 2024). En su primera temporada, Hiperia, que se presentó como un contenido semanal de vídeo sobre la actualidad musical y tecnológica, de tres minutos de duración y presentado por un avatar. En la segunda temporada, se mantuvieron temática, duración y periodicidad, pero se incorporaron novedades técnicas. Entre ellas, la actualización de las características físicas del presentador virtual, para dotarle de una mayor expresividad. Del mismo modo, se implementaron nuevas formas de interacción con la audiencia por medio de un chatbot que permitía la comunicación directa con los usuarios (Gómez-López, 2024).

Desde el punto de vista del contenido, Hiperia, como indica Flores (2024), “se concibe como una iniciativa experimental orientada a explorar nuevas narrativas y formatos radiofónicos, al tiempo que busca fomentar la conversación pública sobre el impacto de las tecnologías emergentes en el ámbito cultural, particularmente en relación con la música”. En este mismo sentido, “el proyecto combina una dimensión divulgativa y recreativa con una clara voluntad de innovación tecnológica y narrativa”.

Al surgir este proyecto de una decisión estratégica de RTVE y la dirección de Radio 3, su generación e implementación fue interna. En concreto, su desarrollo fue llevado a cabo por la corporación (áreas de Estrategia Tecnológica, Innovación y Digital y Grafismo), mediante el uso de herramientas de IA de libre acceso, mientras que el diseño de la voz se dejó en manos de Monoceros Labs, clonando la voz de una redactora, a la que, más tarde, se le aplicaron filtros para modificar sus características. Paralelamente, se diseñó el avatar mediante Lexica.ert, con la idea de que “tuviera una apariencia atractiva para los oyentes de Radio 3 Extra” (Flores, 2025). Una vez definidos sus rasgos estéticos y sonoros, se abordó la sincronización labial con HeyGenIA. Una vez que contaban con todos los materiales se montaba y editaba con Premiere. A partir de la segunda temporada el proceso se simplificó de tres días a solo uno, gracias al empleo de ElevenLabs. Así, Hiperia combina desarrollos de imagen y audio, pero también una nueva metodología de trabajo, al integrar el uso de IA en múltiples fases del proceso productivo, incluyendo la elaboración de guiones, la creación visual del personaje, la síntesis sonora y la producción de contenidos. De esta forma, inicialmente, requería para su funcionamiento de un equipo integrado por diez profesionales.

Finalmente, Hiperia fue desactivado y dejó de emitir contenidos el 27 de junio de 2024. Desde entonces, no se puede acceder a la herramienta de interactividad, aunque los vídeos siguen disponibles en el repositorio de Radio 3 Extra.

3.4. Grupo Risa: la clonación al servicio del humor

El Grupo Risa, formado por Óscar Blanco, Fernando Echeverría y David Miner; tiene su origen en Cadena 100, concretamente, en el programa ‘La jungla’, en 1996. Más tarde, colaboran en COPE, de nuevo, con José Antonio Abellán, cuando éste se hizo del programa deportivo de medianoche ‘El tirachinas’, en el que pusieron en marcha una sección de humor denominada ‘El radiador’. Posteriormente, participaron en ‘La Mañana’, con Federico Jiménez Losantos. Entre 2008 y 2013, trabajaron en esRadio y, desde la siguiente temporada y hasta la actualidad, forman parte de COPE (ÁBSIDE MEDIA), con secciones de humor en ‘El partidazo’, ‘Tiempo de juego’ y ‘Poniendo las calles’, así como espacios propios como ‘La noche con el Grupo Risa’ y ‘El golpe de gracia’ (las tardes de los fines de semana en los que no hay transmisiones deportivas).

Una de las claves de su humor son las imitaciones, de las que se encargaban Echeverría y Miner (Blanco es el responsable de la realización y el diseño sonoro), pero, desde 2023, vienen empleando la IA (Gómez López, 2024) para dar voz a los contenidos que redactan, tarea de la que participan los tres. De esta forma, el Grupo Risa, en general, y Óscar Blanco, más en particular, han sido pioneros en el uso de la IA en COPE. Blanco (2024) destaca cómo la inteligencia artificial ha revolucionado el entretenimiento radiofónico mediante la clonación de voces. Gracias a herramientas informáticas, puede “recrear con gran realismo a figuras públicas en cuestión de minutos, facilitando la producción de bromas y contenidos creativos”.

Blanco (2024) también reconoce que, en la actualidad, esto es muy sencillo, ya que “recopilar muestras de audio es facilísimo. Podemos ir a YouTube, donde encontramos infinidad de audios de la persona a la cual queremos clonar”; pero, además de recrear voces de personajes conocidos, otro aspecto positivo es la posibilidad de “hacer cosas que antes no podíamos como, por ejemplo, voces de mujeres. Nosotros no teníamos una voz femenina para darnos el contrapunto, algo que podemos hacer ahora de forma sencilla gracias a la IA”. Destaca que este proceso, “antes complejo, ahora es sumamente accesible y rápido, gracias a plataformas comerciales que permiten procesar audios en la nube”. Además, advierte que la perfección técnica actual hace “que sea casi imposible distinguir estas voces sintéticas de las reales, sin recurrir al análisis del contexto”.

En este contexto, su aproximación al uso de la IA no parte de una sustitución del trabajo creativo del ser humano, como se ha mencionado anteriormente, sino su uso como una herramienta de apoyo editorial, creativo y productivo, siempre bajo supervisión humana y dentro de un marco ético claramente definido. Como comenta Blanco (2024) “no se trata de delegar la autoría o la toma de decisiones creativas”, sino que emplean esta tecnología para “organizar, depurar, reinterpretar y ampliar el trabajo humano, permitiendo abordar una mayor complejidad de contenidos y una producción más ágil”.

En concreto, en cuanto a la producción de audio, el Grupo Risa emplea herramientas de suscripción en la nube como ElevenLabs, Suno y Udio, con una amplia variedad de fines creativos y productivos: creación de sintonías y jingles; producción de versiones, covers, adaptaciones con letras personalizadas o piezas musicales inéditas; generación de fondos musicales y atmósferas sonoras para ambientación narrativa, así como la restauración de audios antiguos. Pero, sin duda, uno de los ejes creativos más reconocibles del Grupo Risa es el uso de más de 60 voces clonadas de personajes que emplean, siempre dentro de un marco de humor y ficción sonora claramente identificable.

Asimismo, la integración de estas herramientas, “una voz clonada –apunta Blanco (2024)- puede alimentar agentes conversacionales o vincularse con sistemas de generación visual para contenidos destinados a redes sociales, reforzando la dimensión transmedia del proyecto”.

3.5. Convergencias y divergencias en el uso pionero de la IA.

Del análisis de los cuatro casos, conforme a la ficha diseñada específicamente, se pueden obtener interesantes resultados. Para exponer toda la información, se ha dividido en los mismos campos: soporte, uso, función y objetivo; temática y género, conforme a la clasificación propuesta por Pedrero-Esteban et al. (2025); características técnicas, características de la voz y, por último, frecuencia-periodicidad, distribución y monetización, conforme al modelo de Legorburu et al. (2021).

Como se ha señalado, el primer bloque está centrado en el soporte (radio, pódcast o web), el uso (convencional o experimental), la función (esencial o complementaria para el proyecto) y el objetivo (informativo o recreativo) de cada una de las experiencias analizadas (ver tabla 1).

**Tabla 1.** *Soporte, uso, función y objetivo.*
Nombre	Soporte	Uso	Función	Objetivo
‘XRey’	Pódcast	Convencional	Complementaria	Informativo
Victoria	Radio	Convencional y Experimental	Complementaria	Informativo
Hiperia	Web-App	Convencional y Experimental	Esencial	Recreativo
Grupo Risa	Radio	Convencional	Complementaria	Recreativo

Fuente: elaboración propia.

Comparados estos parámetros, se puede afirmar que la radio tiene una presencia mayor, puesto que tres de las iniciativas, Victoria, Hiperia y el Grupo Risa, surgen de la Cadena SER, Radio 3 Extra y COPE, respectivamente, estando la restante focalizada en el podcasting. Concretamente, ‘XRey’ fue un desarrollo planteado directamente para un pódcast nativo digital. A partir de ahí, el uso de todas las voces es convencional, es decir, el desarrollo realizado por la IA desempeña una función concreta, más que puramente experimental, si bien, este aspecto comparte un peso significativo en el caso de Victoria e Hiperia, ambas impulsadas con una visión empresarial-institucional que va más allá del simple utilitarismo. Abundando en su función, la mayor parte son voces complementarias más que esenciales –excepto en el caso de Radio 3 Extra, ya que es un presentador virtual-, pues contribuyen a la información (‘XRey’ y Victoria) o al entretenimiento (Hiperia y el Grupo Risa).

El segundo bloque de análisis pone el foco en la temática y el género de estas experiencias (ver tabla 2). En esta ocasión, son la cultura, la educación y la sociedad las que priman, seguidas por los deportes, la comedia y el humor, estando equilibrados, en el caso del género, el conversacional y el narrativo. En el caso del primero, las experiencias de la Cadena SER y Radio 3 Extra son monólogos; mientras que en lo que toca a la segunda, encontramos un caso de no ficción, como es el de las parodias y los sketches humorísticos en COPE, y otro de no ficción, con el empleo en el documental de The Story Lab de la voz de Franco para ilustrar la reconstrucción histórica de su correspondencia con Juan de Borbón.

**Tabla 2.** *Temática y género.*
Nombre	Temática	Género	Subgénero
‘XRey’	Cultura, educación, sociedad	Narrativo de no ficción	Documental
Victoria	Deportes	Conversacional	Monólogo
Hiperia	Cultura, educación, sociedad	Conversacional	Monólogo
Grupo Risa	Comedia y humor	Narrativo de ficción	Comedia

Fuente: elaboración propia.

Como se puede observar en la tabla 3, relativa a las características técnicas de cada uno de los casos analizados, el audio es el protagonista, si bien, en el caso de Hiperia, también lo es el vídeo, pues cuenta con su propio avatar. Asimismo, dos son voces pasivas –‘XRey’ y las utilizadas por el Grupo RISA- y las otras dos, interactivas, puesto que tanto Victoria como Hiperia interactúan con los oyentes-usuarios, ya sea mediante el altavoz inteligente y la personalización de los contenidos y la generación de alertas, o a través de un chatbot, respectivamente.

**Tabla 3.** *Características técnicas.*
Nombre	Origen	Género	Edad	Prosodia	Número de personajes
'XRey'	Sintética, generada, de diseño	Masculina	Madura	Natural	1
Victoria	Sintética, generada, de diseño	Femenina	Adulta	Natural	1
Hiperia	Sintética, generada, de diseño	Indeterminado	Infantil o juvenil	Natural	1
Grupo Risa	Clonada, personaje vivo, personaje fallecido o histórico	Femenina y Masculina	Infantil, adulta y madura	Natural y artificial	60

Fuente: elaboración propia.

El empleo de estas voces por las tres emisoras de radio y por Spotify responde en dos de los casos a una decisión operativa y en el resto a una estratégica, puesto que, como ya se ha comentado, Hiperia y Victoria son fruto de sendas iniciativas experimentales de Radio 3 Extra, en el marco de las políticas de innovación de RTVE; y de la Cadena SER, con el respaldo del PRISA Media. Mayoritariamente, se recurrió, al menos en parte, a la ayuda de empresas especializadas como Monoceros Labs. En cuanto al Grupo Risa, se trata de una iniciativa pionera en la propia COPE, desarrollada por Óscar Blanco; y, finalmente, en lo que respecta a ‘XRey’, The Story Lab recurrió a Vicomtech.

**Tabla 4.** *Características de la voz.*
Nombre	Origen	Género	Edad	Prosodia	Número de personajes
'XRey'	Sintética, generada, de diseño	Masculina	Madura	Natural	1
Victoria	Sintética, generada, de diseño	Femenina	Adulta	Natural	1
Hiperia	Sintética, generada, de diseño	Indeterminado	Infantil o juvenil	Natural	1
Grupo Risa	Clonada, personaje vivo, personaje fallecido o histórico	Femenina y Masculina	Infantil, adulta y madura	Natural y artificial	60

Fuente: elaboración propia.

En lo que respecta a las características de cada voz (ver tabla 4), la mayoría de ellas (3) son sintéticas y solo en el caso del Grupo Risa se trata de voces clonadas, en concreto, más de 60, de numerosos personajes públicos. En este último caso, como es lógico, encontramos voces de cualquier género, mientras que en el de Victoria, sus desarrolladores se decantaron por el femenino, debido a la poca presencia de mujeres en el campo de la información deportiva; e Hiperia es indeterminado. Solo esta voz entra en la franja de edad infantil y juvenil, mientras que la de la Cadena SER es adulta, la empleada por ‘XRey’ es madura (en el periodo escogido para la recreación, el dictador ya era anciano) y, en cuanto a COPE, hay voces de prácticamente todas las franjas de edad. En todo caso, las cuatro son naturales, evitando cualquier viso de ser sintéticas. De hecho, en el caso de Victoria, sus desarrolladores la dotaron de un estilo semejante al de los periodistas deportivos de la radio.

En cuanto a la frecuencia-periodicidad, la distribución, la difusión y la monetización (ver tabla 5), encontramos que Victoria e Hiperia tuvieron carácter permanente durante el tiempo en que estuvieron activas, mientras que las voces clonadas por el Grupo Risa se vienen utilizando constantemente desde 2023 hasta el momento presente. Solo el caso de la reconstrucción de la voz de Francisco Franco fue ocasional, pues únicamente se empleó en el documental. Cabe señalar que todas ellas son accesibles en abierto, es decir, que no hay ninguna de pago, ya sea cuando se accede a través de la web o la app, el altavoz inteligente (Victoria) o, de forma más convencional, los sketches del Grupo Risa, a través de la emisión radiofónica y, posteriormente, en el repositorio (radio a la carta) de COPE.

Con respecto a la monetización, ‘XRey’ combina vías directas e indirectas (opción Premium, vídeos y audios pre-roll, etc.). Victoria es una vía más de transmisión a la audiencia de la publicidad que emite la Cadena SER, aunque también contó con inserciones de publicidad dinámica. Ocurre algo similar en el caso del Grupo Risa, que tiene su propia publicidad convencional –propia de la antena-, fundamentalmente, cuñas radiofónicas, pero también audios y vídeos pre-roll cuando se accede a través de la web o la app de COPE. Por último, Hiperia no contempla la monetización, pues se trata de una iniciativa impulsada por una corporación pública que no comercializa publicidad.

**Tabla 5.** *Frecuencia-periodicidad, distribución, difusión y monetización.*
Nombre	Frecuencia-Periodicidad	Distribución	Difusión	Monetización
‘XRey’	Ocasional	Acceso abierto	Web-App	Sí
Victoria	Permanente (2022-2025)	Acceso abierto	Altavoz inteligente	Sí
Hiperia	Permanente (2023-2024)	Acceso abierto	Web-App	No
Grupo Risa	Indefinida	Acceso abierto	Ondas / Web-App	Sí

Fuente: elaboración propia

Finalmente, merece la pena reseñar que tres de los proyectos han recibido el reconocimiento del sector del audio. Concretamente, ‘XRey’ recibió el Premio Ondas 2020 al mejor pódcast, Victoria obtuvo el Global Media Award 2023 al mejor producto internacional de audio e Hiperia fue galardonado con el Premio TM Broadcast 2023 y fue finalista en los premios IBC 2023.

4. Discusión y conclusiones

A tenor de lo anteriormente expuesto, en relación con el OI-1, resulta evidente que la implementación de la inteligencia artificial en el campo del audio dio sus primeros pasos en España en el año 2020 con el proyecto de reconstrucción de la voz de Francisco Franco para el documental sonoro ‘XRey’. En ese momento, constituyó una tarea compleja, que requirió no solo de recursos técnicos y humanos, sino de mucho tiempo. Sin embargo, como también pone de manifiesto este estudio, el avance de las herramientas de IA en apenas unos años, ha agilizado y simplificado de forma significativa las iniciativas en el campo de las voces sintéticas, reconstruidas y clonadas, incluidas las analizadas en esta investigación.

Si bien la primera iniciativa de entidad proviene del pódcast, las otras tres tienen su origen en la radio. Hay que señalar, en este sentido, que el uso de estas voces no ha sido un mero experimento, sino que, además, ha ido más allá, puesto que ha respondido a diferentes necesidades de la producción sonora, ya sea enriquecer una narración de no ficción, como ‘XRey’, informar, entretener o divertir, como ocurre con Victoria, Hiperia y el Grupo Risa, respectivamente. Llama la atención la necesidad en tres de los casos de recurrir a empresas especializadas (Monoceros Labs y Vicomtech) para sintetizar o reconstruir las voces, quizá por haber sido las primeras en hacer uso de la inteligencia artificial.

En relación con el OI-2, aunque los casos seleccionadosson ejemplos elocuentes de la utilidad que la IA puede tener para la producción de contenidos sonoros y su desarrollo en apenas un lustro, esto no implica que todo el sector radiofónico haya abrazado la nueva tecnología. Si bien, como se ha podido apreciar por los casos de la Cadena SER (PRISA Media), COPE (ÁBSIDE MEDIA) y Radio 3 Extra (RTVE), las grandes corporaciones avanzan hacia modelos sofisticados (Chaparro-Domínguez, 2024); otras se encuentran aún en fases exploratorias (Fieiras-Ceide et al., 2025). Es el caso, por ejemplo, de las emisoras públicas autonómicas, en las que el uso de la IA sigue limitándose “a iniciativas individuales de algunos trabajadores, sin formación especializada ni una política corporativa que respalde su uso sistemático” (Mancinas-Chávez et al., 2026, p. 15). Esta falta de estrategia no sería exclusiva de España, sino que también es habitual en otros países de nuestro entorno (SociAudio, 2025).

De esta forma, se constata que, la inteligencia artificial se va consolidando en el campo de la comunicación –en este caso, la sonora-, dejando atrás la fase experimental marcada por el desarrollo de herramientas específicas en empresas especializadas, sustituidas por otras comerciales y de uso generalizado, operadas por los profesionales de forma autónoma; y extendiendo su uso no solo a todo lo que tiene que ver con la voz, sino también con otras tareas, como señalan Ribes et al. (2025) y Zazo Correa (2025): automatización de los procesos de redacción, economía de recursos, agilidad en los procesos, etc.

Por último, en lo que toca al OI-3, se puede apreciar cómo, en todos los desarrollos analizados en esta investigación, los profesionales tienden a ver la IA como una herramienta que busca ayudar al periodista y no tanto como una amenaza, como ya apuntaran autores como Blanco et al. (2025) o Zazo Correa (2025). No parece haber dudas en que el empleo de esta tecnología debe contar con supervisión humana y partir de un marco ético y de transparencia (Ribes et al, 2025; Wei et al., 2022), pero también, como se ha podido apreciar en los resultados, responder a aquellas preguntas de calado que van surgiendo acerca de la trazabilidad informativa, la diversidad de contenidos y el valor público del servicio radiofónico, en línea con lo enunciado por Fieiras-Ceide et al. (2025) y Herrero de la Fuente y Ortega (2025),

Hay que tener presente que las respuestas a los tres objetivos de investigación planteados, ponen el foco sobre las nuevas oportunidades para los profesionales de la radio, siempre y cuando, como apuntan Blanco et al. (2025) y Ribes et al. (2025), estos estén dispuestos a adaptarse a las exigencias cambiantes del mercado laboral y a adquirir las habilidades necesarias para colaborar eficazmente con la IA.

En todo caso, esta investigación está sometida a una limitación evidente, puesto que todo lo que tiene que ver con la inteligencia artificial corre el riesgo de quedar desfasado rápidamente, tanto como evoluciona esta tecnología. De esta forma, se trata del análisis de un periodo de tiempo que puede ser considerado clave en la implantación y el desarrollo inicial de la IA en el sector del audio en España, en el que incluso se han producido las primeras experiencias con el vídeo y con la interactividad; pero también un punto de partida para futuras investigaciones que, por ejemplo, aborden otras aplicaciones, utilidades y riesgos en las diferentes tareas que componen la producción sonora.

5. Apoyo

Este artículo ha recibido financiación del Grupo de Investigación Reconocido Consolidado en Convergencia Internet, Radio y Televisión (INCIRTV) de la Universidad San Pablo-CEU, CEU Universities.

Pioneros de la inteligencia artificial en audio en España: voces sintéticas, clonadas y reconstruidas (2020-2025)

1. Introducción y estado de la cuestión

1.1. Primeras experiencias con la IA en el mundo del audio

1.2. La IA y la transformación de la producción sonora

1.3. Implicaciones éticas y profesionales en la alianza medios-plataformas

2. Objetivos y Metodología

3. Análisis y resultados

3.1. ‘XRey’: la voz de Franco como recurso narrativo

3.2. Victoria, la voz del fútbol

3.3. Hiperia, un presentador virtual

3.4. Grupo Risa: la clonación al servicio del humor

3.5. Convergencias y divergencias en el uso pionero de la IA.

4. Discusión y conclusiones

5. Apoyo

6. Referencias

Notas