Hume AI lanza el revolucionario Octave TTS
Hume AI ha dado un gran paso adelante en el mundo de la tecnología de voces artificiales con el lanzamiento de su innovador sistema Octave TTS. Esta startup de Nueva York, que emergió de la clandestinidad hace dos años y ha conseguido múltiples millones en financiamiento, busca revolucionar la forma en que los creadores de contenido utilizan voces sintéticas para aplicaciones empresariales a través de voces emocionales y realistas.
Octave: Un motor de voz y texto de alta capacidad
El nuevo modelo de lenguaje y voz de Hume AI, conocido como «Octave», ha sido diseñado para generar un habla que no solo suena natural, sino que también transmite una gama de emociones profundas. A diferencia de otros sistemas de texto a voz, Octave integra tanto texto como datos emocionales, lo que le permite a los usuarios ajustar el tono y la entonación de forma precisa, adaptándose a la narrativa de diferentes formatos, desde audiolibros hasta diálogos de personajes en videojuegos.
Un sistema de voz que entiende las emociones
Alan Cowen, cofundador y CEO de Hume AI, explicó que Octave es el primer sistema de texto a voz impulsado por un modelo de lenguaje grande (LLM) que se entrena no solo en palabras, sino en la comprensión de emociones contextuales. Los usuarios podrán modificar las voces generadas escribiendo directamente indicaciones para ajustar el sentido emocional de las oraciones, logrando un nivel de personalización sin precedentes.
Creación de personajes fieles y expresivos
Octave no solo se limita a la generación de voz; puede interpretar y adaptar las características de los personajes basándose en el guion. Por ejemplo, una línea sarcastica se comunicará con el tono adecuado y la urgencia de un diálogo ansioso se expresará con intensidad. Además, si el resultado no cumple con las expectativas, los usuarios pueden afinar la voz mediante instrucciones en lenguaje natural.
Soporte multilingüe y aplicaciones prácticas
Aunque la versión actual se centra en el inglés, Octave también ofrece soporte para el español, con planes de ampliar sus capacidades lingüísticas en el futuro. Ideal para creadores de contenido, ofrece aplicaciones en diferentes áreas como audiolibros, podcasts, videojuegos y voz en off para videos.
Interfaz de acceso y opciones de uso
Los usuarios pueden acceder a Octave a través del sitio web de Hume AI, en su página de proyectos o mediante una API diseñada para facilitar la integración. Con un límite de hasta 50 solicitudes por minuto, cada consulta puede generar hasta cinco salidas de voces en formatos como MP3, WAV y PCM. Además, este modelo, que se basa en la creación de archivos de audio discreto, no está destinado para conversaciones en tiempo real, aunque eso podría ser posible en un futuro.
Competencia en el campo del habla artificial
Para estrechar la competencia en el sector del texto a voz, Hume AI ofrece precios competitivos que son aproximadamente la mitad que los de su rival ElevenLabs. En una reciente comparación ciega con 180 evaluadores humanos, Octave fue preferida en calidad de audio, naturalidad y coincidencia con las descripciones deseadas, lo que refuerza su posición en el mercado.
Innovaciones en entrenamiento y evaluación
La formación de Octave se basa en un vasto conjunto de datos de voz, utilizando millones de horas de grabaciones públicas y datos propios de Hume AI, capturando una amplia gama de expresiones emocionales a través de grabaciones de personas en situaciones cotidianas. De este modo, el modelo puede gestionar la longitud y la expresividad del discurso de manera más efectiva.
Hume AI se compromete a promover un uso ético de su tecnología, evitando la creación de voces que imiten a personas específicas o las de niños, aunque se permite una amplia variedad de contenido.
Un futuro prometedor: Funcionalidades en desarrollo
Entre las nuevas funcionalidades que se avecinan, Hume AI está trabajando en una herramienta de clonación de voces, permitiendo a los usuarios replicar una voz con solo cinco segundos de audio. Con estas innovaciones, Octave TTS se posiciona como una herramienta esencial para creadores que buscan voces emocionalmente ricas y auténticas.
En resumen, Hume AI está estableciendo un nuevo estándar en el ámbito de la generación de voz artificial con Octave TTS, brindando a los creadores de contenido más control y flexibilidad para dar vida a sus narrativas de forma convincente y cautivadora.