El laboratorio chino de investigación en inteligencia artificial (IA) DeepSeek aseguró que, con una inversión de menos de seis millones de dólares y una fracción de la potencia de cómputo de la que disponen las grandes tecnológicas de Estados Unidos, logró desarrollar su más reciente modelo grande de lenguaje (LLM) al punto de que sus capacidades pueden competir con los de OpenAI, Meta y Google, líderes de la industria.
La situación despertó el interés de los más destacados desarrolladores de IA y provocó además un crimbronazo sobre las cotizaciones de las tecnológicas estadounidenses en Wall Street. La empresa más afectada fue Nvidia, líder en la fabricación de chips optimizados para esta tecnología, cuya capitalización se derrumbó más de 17% al cierre del lunes y dejó una pérdida cercana a los 600.000 millones de dólares.
Sobre estas repercusiones se expresaron tanto el presidente estadounidense Donald Trump como el director ejecutivo de OpenAI, Sam Altman.
Trump habló este martes frente a congresistas republicanos en Miami y sostuvo: "El lanzamiento de la inteligencia artificial DeepSeek por una empresa china será una llamada de atención para nuestras industrias, por el hecho de que debemos centrarnos en competir para ganar".
Por otro lado, al hacer declaraciones ante periodistas a bordo del Air Force One indicó que DeepSeek podría representar algo "positivo" para Estados Unidos. "Si pudieras hacerlo más barato, si pudieras hacerlo (por) menos (y) llegar al mismo resultado final, creo que eso es algo bueno para nosotros", dijo, y confió en que el país norteamericano seguirá siendo un actor dominante en la industria de la IA.
President Trump: "The release of DeepSeek AI from a Chinese company should be a wake-up call for our industries that we need to be laser focused on competing to win." pic.twitter.com/5UNC8Md8wM
— CSPAN (@cspan) January 28, 2025
Por su parte, Altman hizo algunas publicaciones en su cuenta de X afirmando que "el modelo R1 es impresionante", particularmente "por lo que puede ofrecer en relación con los precios".
Luego, indicó la reacción que tendrá OpenAI: "Obviamente, ofreceremos mejores modelos.
Estamos entusiasmados por seguir nuestra hoja de ruta", sostuvo. Y siguió: "El mundo querrá mucha IA y realmente se sorprenderá con los modelos de próxima generación que llegarán. Esperamos traerles a todos la AGI", cerró, haciendo referencia a la inteligencia artificial de propósito general, el objetivo último de su compañía.
but mostly we are excited to continue to execute on our research roadmap and believe more compute is more important now than ever before to succeed at our mission.
— Sam Altman (@sama) January 28, 2025
the world is going to want to use a LOT of ai, and really be quite amazed by the next gen models coming.
Aunque DeepSeek lanzó R1 la semana pasada, ya en diciembre dio a conocer DeepSeek-V3, el cerebro detrás de su último modelo. En ese momento, Altman también se expresó al respecto al escribir que "es (relativamente) fácil copiar algo que sabes que funciona", y "extremadamente difícil hacer algo nuevo, arriesgado y difícil cuando no lo sabes".
Esa declaración apuntaba a lo que, según quienes descreen del mérito del equipo de DeepSeek, es una estrategia basada en copiar los modelos desarrollados en Estados Unidos para luego lanzar productos más económicos. Joshua Kushner, un inversor de OpenAI, también insinuó que el modelo de DepeSeek "fue entrenado a partir de modelos líderes en la frontera de Estados Unidos".
IA más barata y eficiente
DeepSeek se jacta de haber logrado desarrollar modelos que equiparan a los más avanzados actualmente con menos recursos informáticos, dado que tienen una cantidad limitada de chips de Nvidia que, además, no son de última generación. Esta situación, producto de restricciones impuestas por Estados Unidos, provocó que la firma china redujera los costos de desarrollo y puesta en funcionamiento de su modelo un 95% cuando se lo compara con o1 de OpenAI, el más avanzado de la compañía de Altman, que destinó más de 100 millones de dólares para su entrenamiento y desarrollo. Otro punto de comparación es Anthropic, otra compañía de IA que declaró costos que iban desde 100 millones hasta 1.000 millones de dólares, según su director ejecutivo, Dario Amodei. Además de la limitación de hardware, el caso de DeepSeek también destaca por la solución que aplicaron en materia de programación para sus modelos. Lo que hicieron fue volver más eficiente toda la etapa de entrenamiento previo al lanzamiento mediante la técnica de "aprendizaje por refuerzo", aplicada también por otras compañías. En el caso de los modelos chinos, este procedimiento fue implementado por los desarrolladores para que la IA "pensara" paso a paso la resolución de problemas mediante un esquema de prueba y error, lo que les permitió ahorrar potencia informática y dinero. Quienes ponen en duda esta metodología informada por DeepSeek consideran que en realidad sí cuentan con las GPU's suficientes para el entrenamiento de sus modelos, pero se trata solo de una especulación. Mientras tanto, Leandro von Werra, jefe de investigación de la comunidad de desarrollos de IA Hugging Face, dijo que su equipo comenzó a trabajar para replicar y abrir el código fuente de R1 para que los investigadores puedan crear su propia versión del modelo y así saber "si los números cuadran".