Las voces generadas por inteligencia artificial están causando gran furor entre los usuarios y junto con las IAs generativas de texto como ChatGPT, estamos viendo como nace un nuevo movimiento que lucha contra el plagio y los deepfakes.
Como ya dijimos anteriormente, la lucha contra el plagio de IA será uno de los grandes temas de 2023, y quién sabe lo que ocurrirá cuando se publique GPT-4. La buena noticia es que se están realizando grandes esfuerzos para detectar los resultados generados por estas herramientas.
Ya comentamos algunas (de texto) como “DetectGPT”, “Detector de salida GPT-2”, “GPTZero” o la nueva marca de agua que OpenAI, la empresa que está detrás de ChatGPT que quiere lanzar para que cualquier texto que GPT genere se indique con una marca de agua oculta y que solo OpenAI conocerá.
En estos casos hablamos de plagios en textos, pero en el que hoy nos centramos, hace referencia a la inteligencia artificial que genera voces. Aquí destacar los últimos casos de deepfake de voces que trae a algunos famosos de cabeza.
Es tan sencillo en la actualidad crear voces generadas por inteligencia artificial, que su mal uso se está extendiendo demasiado rápido. Debido a esto y al igual que antes mencionábamos con respecto a la generación de texto con IA, también están surgiendo soluciones para identificar si una voz es humana o no.
Nueva marca de agua para identificar voces generadas por IA
Las marcas de agua se están convirtiendo en un gran recurso para hacer frente a estos problemas. No son la solución definitiva pero sí, desde luego, un primer gran paso. En este caso, la marca de agua consiste en imprimir una imagen o un sonido con un patrón reconocible que revela su origen y muchas veces ni siquiera son percibidas por los humanos pero sí por un ordenador.
Pues bien, centrándonos en este aspecto, la empresa Resemble AI, que se dedica a crear modelos de voz para producir locuciones, audiolibros y otros medios normalmente producidos por voces humanas normales, ha diseñado un proceso de marca de agua con nombre PerTh (una combinación de “percepción” y “umbral”).
“Hemos desarrollado una capa adicional de seguridad que utiliza modelos de aprendizaje automático para incrustar paquetes de datos en el contenido de voz que generamos y recuperar esos datos más tarde”, escribe la empresa en una entrada de blog en la que explica la tecnología.
En cuanto a esta novedad, el diagrama que ha facilitado la empresa lo explica. Estos comentan que se han basado en cómo los humanos somos capaces de procesar los sonidos. Y es que, los sonidos muy altos enmascaran los más bajos, por lo que si hay un sonido a unos 5000 Hz, 8000 Hz y 9200 Hz, se puede meter sonidos a pocos hercios que serán imperceptibles para los oyentes.
La base es que estos sean los suficientemente bajos para nosotros percibirlos, pero que no lleguen a desaparecer para que, expertos o un ordenador, perciba o identifique esa marca de agua.
Según explica la empresa, PerTh llegará pronto a todos los clientes de Resemble AI aunque de momento sólo puede etiquetar y reconocer el habla generada por la empresa. Sin embargo este es un primer gran paso para que otras empresas también lo hagan y no solo en el campo del audio, si no en todos en los que la inteligencia artificial esté involucrada.