Lanzamiento Open Source de StepFun y Geely Auto Group

El 18 de febrero de 2025, StepFun y Geely Auto Group dieron un gran paso hacia la innovación al anunciar que abrirán al público dos de sus modelos multimodales desarrollados en colaboración. Este movimiento no solo marca un hito en el ámbito de la tecnología, sino que también establece a Step-Video-T2V como el modelo de generación de video de código abierto más avanzado y con mayor capacidad del mundo. Además, se introduce Step-Audio, un innovador modelo de voz interactiva que promete revolucionar la interacción en diversos sectores. Desde hoy, los usuarios pueden probar estas herramientas a través de la aplicación StepChat.

Colaboración Estratégica

La asociación entre StepFun y Geely Auto Group ha permitido la creación de modelos de gran rendimiento gracias a su experiencia conjunta en algoritmos de potencia de cálculo y entrenamiento de escenas. Este esfuerzo colaborativo busca fomentar la innovación tecnológica y el desarrollo inclusivo de la inteligencia artificial, aportando, además, un enfoque renovado en el ámbito de los modelos abiertos desde China.

Gan Jiayue, CEO de Geely Auto Group, ha expresado la ambición de la empresa de liderar la transformación de la inteligencia artificial en la industria automotriz. Desde 2021, Geely ha cimentado su Ecosistema Tecnológico Inteligente a través de un sistema autodesarrollado que integra chips, sistemas operativos, datos y redes satelitales. Esta colaboración con StepFun permitirá una experiencia de conducción y cabina más avanzada e intuitiva.

Un Nuevo Horizonte en la IA

Por primera vez, StepFun ha decidido hacer público su serie de modelos base, un paso que el fundador y CEO, Dr. Jiang Daxin, considera esencial para avanzar hacia la Inteligencia General Artificial (AGI). La apertura de estos modelos representa una invitación a desarrolladores globales a colaborar y así ampliar los límites de la tecnología de modelos.

Step-Video-T2V destaca como el modelo de generación de videos con 300 mil millones de parámetros, capaz de crear secuencias de hasta 204 fotogramas a 540P. Su capacidad para comprender y crear contenido visual rico y estéticamente atractivo garantiza experiencias creativas sin precedentes.

Innovación en Interacción de Voz

Por otro lado, Step-Audio emerge como el primer modelo de voz interactiva de nivel producto en el sector, capaz de generar una variedad de emociones, acentos y estilos de conversación. Este modelo no solo permite interacciones naturales, sino que supera a muchos modelos en términos de calidad de expresión y entendimiento, posicionándose como el líder en diversos conjuntos de evaluación, incluida la Prueba de Dominio del Chino.

Esta iniciativa de open source no solo representa un avance en el desarrollo de tecnología, sino también un llamado para la colaboración y el crecimiento en el vasto mundo de la inteligencia artificial. Juntos, StepFun y Geely están listos para dejar una huella profunda en la industria, impulsando el futuro de los automóviles inteligentes y la interacción digital.

En Resumen

StepFun y Geely Auto Group presentan innovadores modelos de IA — Step-Video-T2V y Step-Audio.
Step-Video-T2V es el modelo open source de generación de video más avanzado en la esfera actual.
Step-Audio ofrece interacciones emocionales y de calidad, posicionándose como un líder en el ámbito.
Ambas herramientas están disponibles para usuarios en la app StepChat, marcando un nuevo estándar en tecnología.