¿Qué es DeepSeek y por qué hasta Trump lo alaba?

Última actualización: 08/02/2025 por

En las primeras horas del 28 de enero, la esperada comunidad de IA Hugging Face reveló un anuncio revolucionario: DeepSeek ha lanzado un modelo de IA multimodal de código abierto llamado Janus-Pro. Este modelo está disponible en dos tamaños de parámetros, 1.000 millones y 7.000 millones, y se entrenó utilizando sólo 128 GPU NVIDIA A100 en el transcurso de una semana. En pruebas de referencia como GenEval y DPG-Bench, Janus-Pro-7B demostró un rendimiento extraordinario, superando a los modelos DALL-E 3 y Stable Diffusion de OpenAI.

En resumen, el modelo Janus-Pro integra múltiples funcionalidades, lo que permite a la IA no sólo interpretar imágenes (basándose en la tecnología SigLIP-L), sino también generarlas (basándose en LlamaGen). Además, el modelo está disponible en dos tamaños, 1,5B y 7B, para satisfacer diferentes necesidades. Cabe mencionar que, aunque GPT-4o ha acaparado la atención en el campo de la generación de imágenes multimodales, sus modelos relacionados aún no se han hecho públicos. En cambio, Janus-Pro aporta sin duda nuevas posibilidades y opciones al sector.

Qué es DeepSeek

DeepSeek, conocida oficialmente como Hangzhou DeepSeek Artificial Intelligence Fundamental Technology Research Co., Ltd., fue fundada el 17 de julio de 2023. Es una empresa dedicada a la innovación tecnológica, centrada en el desarrollo de grandes modelos lingüísticos (LLM) de vanguardia y tecnologías relacionadas, con el objetivo de lograr avances en el campo de la inteligencia artificial.

A finales de 2024, DeepSeek se enorgullece de haber lanzado su nueva generación de modelos lingüísticos de gran tamaño, V3, y anunció que su código fuente sería abierto para que desarrolladores de todo el mundo colaborasen en la investigación y el progreso. Tras rigurosas pruebas, el modelo V3 obtuvo excelentes resultados en varias pruebas comparativas, superando incluso a algunos de los principales modelos de código abierto. Y lo que es aún más digno de mención es que, junto a su extraordinario rendimiento, el modelo V3 también ofrece importantes ventajas de coste, lo que sin duda sienta unas bases sólidas para su aplicación generalizada en el mercado.

El último modelo de DeepSeek

Profundicemos en el último modelo de DeepSeek, que es en realidad una versión avanzada y sucesora de Janus y JanusFlow.

Más concretamente, este modelo se basa en DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base y es un modelo multimodal a gran escala que integra capacidades tanto de comprensión como de generación. Todo el modelo utiliza un marco autorregresivo, y su innovación radica en superar las limitaciones de los métodos anteriores descomponiendo la codificación visual en trayectorias separadas. Al mismo tiempo, mantiene el uso de una arquitectura de transformadores única e integrada para la ejecución de tareas.

Esta descomposición no sólo resuelve eficazmente el conflicto de roles entre las funciones de comprensión y generación del codificador visual, sino que también mejora significativamente la flexibilidad y adaptabilidad de todo el marco.

Comparado con la versión anterior, Janus, el nuevo modelo de DeepSeek muestra mejoras significativas en su rendimiento. En el caso de preguntas cortas, proporciona resultados más estables, lo que significa que las respuestas del modelo son más fiables y coherentes al procesar las entradas del usuario.

Además, el nuevo modelo muestra una mayor calidad visual, con imágenes o vídeos generados más claros y detallados. Y no sólo eso, también ofrece una representación más rica en detalles, captando matices más sutiles y haciendo que el contenido generado sea más vívido y realista.

Cabe destacar que este nuevo modelo también tiene la capacidad de generar texto simple, una función que no estaba disponible en versiones anteriores, lo que sin duda aumenta su practicidad y flexibilidad.

La ventaja de costes de DeepSeek: Superar los 50 millones de dólares del modelo de IA de Trump

Entre los muchos modelos que pretenden rivalizar con la serie GPT, ¿por qué DeepSeek ha logrado crear un revuelo tan importante en la escena de la IA de Silicon Valley?

La clave reside en el asombroso bajo coste de sus modelos. Por ejemplo, DeepSeek-V3. Este modelo, comparable al GPT-4, utiliza sólo 2.000 chips de Nvidia, con un coste total de formación inferior a 5,58 millones de dólares, apenas una décima parte del coste de modelos similares.

En comparación, el ambicioso «proyecto interestelar» de OpenAI, descrito por Trump, costó la asombrosa cifra de 50 millones de dólares. La rentabilidad de DeepSeek es, por tanto, evidente.

Presidente Trump: «La publicación de DeepSeek AI de una empresa china debería ser una llamada de atención para nuestras industrias de que tenemos que estar centrados como un láser en competir para ganar.»

Conclusión

En conclusión, DeepSeek se ha convertido en un actor destacado en el sector de la IA, con el impresionante lanzamiento del modelo Janus-Pro, una IA multimodal de código abierto que integra capacidades de interpretación y generación de imágenes. Los resultados de las pruebas de referencia del modelo superan a modelos líderes como DALL-E 3 y Stable Diffusion, lo que demuestra la destreza tecnológica de DeepSeek.

Además, el enfoque rentable de DeepSeek para el desarrollo de la IA, especialmente evidente en el modelo V3, la posiciona como una fuerza disruptiva en el mercado. Al ofrecer soluciones avanzadas de IA por una fracción del coste de sus competidores, DeepSeek no sólo está remodelando el panorama de la IA, sino que también está estableciendo un nuevo punto de referencia para la rentabilidad en el sector.

Calificación:4.3 /5(Basada en 22 calificación)¡Gracias por su calificación!
Publicado por el en Consejos y Recursos, Sígame en Twitter. Última actualización: 08/02/2025

Dejar un comentario

Por favor, ¡introduzca su nombre!
Por favor, ¡ingrese el contenido del comentario!

Comentario (0)