Técnologia
29 de Enero de 2025
La empresa china de Inteligencia Artificial creó un modelo que demanda un costo muy bajo de energía. Claves de puja global entre China y Estados Unidos.
El mundo se encontró con la noticia de la feroz caída de los mercados en Wall Street tras la irrupción de DeepSeek, un modelo chino de inteligencia artificial sorprendentemente eficiente y poderoso que irrumpió en el sector tecnológico e impactó a las gigantes de Silincon Valley.
Nvidia, el principal proveedor de chips, cuyas acciones se duplicaron en los últimos dos años, cayó un 12 % este lunes en las operaciones previas a la comercialización. Meta y Alphabet, la empresa matriz de Google, también cayeron bruscamente, al igual que Marvell, Broadcom, Palantir, Oracle y muchos otros gigantes.
DeepSeek es una empresa emergente que nació hace apenas un año y que de alguna manera ha logrado un avance porque puede igualar casi las capacidades de sus rivales mucho más famosos, como GPT-4 de OpenAI, Llama de Meta y Gemini de Google, pero a una fracción del costo.
La empresa dijo que había gastado solo US$ 5,6 millones en impulsar su modelo básico de IA, un monto ínfimo en comparación con los cientos de miles de millones que las empresas estadounidenses gastan en sus tecnologías de inteligencia artificial. Por ejemplo, Meta anunció un gasto de más de US$ 65.000 millones este año en el desarrollo de IA mientras que Sam Altman, CEO de OpenAI, dijo el año pasado que la industria necesitaría billones de dólares en inversión para apoyar el desarrollo de los chips de alta demanda necesarios para alimentar los centros de datos que consumen mucha electricidad y que ejecutan los complejos modelos del sector.
La empresa china, fundada a finales de 2023 por el gestor de fondos de inversión Liang Wenfeng, es una de las muchas empresas emergentes que han surgido en los últimos años en busca de grandes inversiones para subirse a la ola masiva de IA que ha llevado a la industria tecnológica a nuevas alturas.
La IA es una tecnología que consume mucha energía y tiene un alto costo, tanto que los líderes tecnológicos más poderosos de Estados Unidos están comprando empresas de energía nuclear para proporcionar la electricidad necesaria para sus modelos de IA. Por eso, el gobierno de Milei viene trabajando para combinar la energía nuclear con la IA de la mano de Demian Reidel.
Pero esto no se limita a la capacidad de inversiones de las empresas sino a una de las peleas mas determinantes en el mundo entre Estados Unidos y China. Para Washington, de ganar esta carrera depende la seguridad nacional y por eso el expresidente Joe Biden duplicó las restricciones a la exportación de chips de computadora con IA para evitar que rivales como China accedan a la tecnología avanzada.
El director de Coordinadora Regional de Investigaciones Económicas y Sociales (CRIES), Andrei Serbin Point, dijo que “lo de DeepSeek hay que verlo desde dos ópticas. Uno lo que implica en términos del desarrollo de esta tecnología y sobre todo por el bajo requerimiento y el costo de procesamiento, que es lo que lo hace realmente revolucionario. No es que el modelo se demuestre ser ampliamente superior en sus capacidades a cualquiera de los Magnificent Seven, sino que lo hace por una fracción ínfima del costo de procesamiento”.
“El otro punto tiene que ver con el timing. Recordemos de la promesa de Trump en torno al desarrollo de inteligencia artificial, los recursos que iban a estar dirigidos y cómo iba a crecer este sector.Y de repente al poco tiempo de asumir lanzan esto que da un golpe muy fuerte en dos ámbitos. El primero es que las grandes empresas norteamericanas de inteligencia artificial pero también en la industria de los GPU, de los chips en particular Nvidia, que viene dominando este mercado ampliamente y lo segundo es que al ser código abierto lograron correr muchas de las posibles instancias de desconfianza sobre qué tan legítimo era realmente esta capacidad”, añadió.
“Lo de DeepSeek hay que verlo desde dos ópticas. Uno, lo que implica en términos del desarrollo de esta tecnología y sobre todo por el bajo requerimiento y el costo de procesamiento, que es lo que lo hace realmente revolucionario. No es que el modelo se demuestre ser ampliamente superior en sus capacidades a cualquiera de los Magnificent Seven, sino que lo hace por una fracción ínfima del costo de procesamiento”
Por otro lado, la economista especializada en transformación digital y socia fundadora de Insight LAC, Paula Garnero, explicó qué “el gran cambio es como logran que el desarrollo de la IA sea más accesible y que la competencia aumente drásticamente en ese mercado, es decir, desaparecen las barreras de entrada. Esto tiene que ver con los requisitos de hardware que se requerían para entrenar los modelos. De esta manera, lograron entrenar un modelo experto que es como si yo te dijese, que normalmente para entrenar necesitas una planta de energía entera, bueno, ahora para entrenar el modelo que ellos lograron, que encima es abierto, necesitas una placa de video, o sea, que la tiene cualquier gamer”.
“Eso obviamente hizo caer fuerte el valor de Nvidia que se venía capitalizando muchísimo, quizás inflada, porque todo el mundo interpretaba de que todas las computadoras, los teléfonos celulares y cualquiera que necesitaba hacer una consulta o procesar algo de un lenguaje natural iba a necesitar un tipo de placas o de hardware que la verdad hoy se sabe que ya no es necesario. Entonces todas esas rondas de inversiones que levantó Nvidia ahora es como que queda medio descalzado”, agregó.
A su vez, Garnero apunta que “en este momento, entrenar los mejores modelos de IA es increíblemente caro. OpenAI, Anthropic, entre otros que gastan más de 100 millones de dólares solo en computación y necesitan enormes centros de datos con miles de GPU de $40,000. Es como si necesitaran toda una planta de energía solo para hacer funcionar una fábrica. En DeepSeek replantearon todo desde cero. La IA tradicional es como escribir cada número con 32 decimales, sus modelos solo usan 8 ¡Sigue siendo lo suficientemente preciso!. 75% menos de memoria necesaria”.
La economista detalla que “también está su sistema de multi-token. Una IA normal lee como un niño de primer grado. DeepSeek lee frases enteras de una vez, dos veces más rápido y con 90% de precisión. Cuando estás procesando miles de millones de palabras, esto importa. Construyeron un sistema de expertos y en lugar de una IA gigantesca que intenta saberlo todo con el agregado que es de código abierto. Eso rompe el modelo de solo las grandes tecnológicas pueden hacer IA”.
“Ya no necesitas un centro de datos de mil millones de dólares. Unas pocas GPUs buenas podrían ser suficientes. Para Nvidia es un problema porque su modelo de negocio se basa en vender GPUs súper caras con márgenes del 90%”, continúo.
Respecto a la seguridad del sistema de IA chino, Serbin Point remarca que “el código de fuente abierta le permite a cualquiera entrar y ver que efectivamente logra esto con esa baja capacidad de procesamiento. Obviamente con el tiempo han surgido algunas otras dudas sobre los guardrails que utilizan los chinos”. “En Occidente se viene hablando mucho sobre sobre qué temas pueden hablar o discutir o desarrollar la inteligencia artificial. En el caso de China y de DeepSeek específicamente eso se nota mucho, se está viralizando mucho contenido de preguntas sobre, por ejemplo, qué pasó en Tiananmen y el tipo de respuestas que no da justamente”, aclara.
“En este momento, entrenar los mejores modelos de IA es increíblemente caro. OpenAI, Anthropic, entre otros que gastan más de 100 millones de dólares solo en computación y necesitan enormes centros de datos con miles de GPU de $40,000. Es como si necesitaran toda una planta de energía solo para hacer funcionar una fábrica. En DeepSeek replantearon todo desde cero.”
En cuanto al nivel de desarrollo de China en IA, Serbin Point planteó que “este modelo muestra capacidades similares a todas las grandes que están operando hoy desde Estados Unidos como ChatGPT, ACLOT o ALAMA. Lo que es revolucionario es que lo haga con un consumo muy bajo. Entonces esto te permite, por ejemplo, con mucha facilidad correrlo desde una computadora personal, desde un teléfono o algo por el estilo, cosa de que era más complicado o requería un poder de procesamiento mucho más alto con los otros modelos”.
“Entonces esto muestra a China, por un lado, poniendo hacia la par en términos de las capacidades de la inteligencia artificial, pero dando un paso más adelante en cuanto a la eficiencia del sistema. Porque una buena parte de la discusión hoy en día se viene dando es lo costoso que es operar la inteligencia artificial. Por no solo la infraestructura en sí, que son todos estos chips principalmente fabricados por vidia, sino también por el consumo energético que implican”, agregó.
Para Garnero “nadie sabe exactamente qué está haciendo o cuán avanzada está China, hay mucho secretismo. Como esto apareció de un día para el otro. En Estados Unidos no se lo esperaban ni por casualidad. De hecho estaban preocupados porque las investigaciones estaban medio como estancadas y había mucha creencia de que si no tenían más poder de hardware no iban a poder crecer mucho en sus modelos. Y de la nada, aparecen los chinos con esto que rompió todo el mercado. No es posible decir que quien gana la carrera tampoco porque no sabemos dónde está China. Lo cierto es que este es un gol de media cancha que hicieron y es muy disruptivo”.
“Nadie sabe exactamente qué está haciendo o cuán avanzada está China, hay mucho secretismo. Como esto apareció de un día para el otro. En Estados Unidos no se lo esperaban ni por casualidad.”
Serbin coincide y remarca que “esta es una carrera que todavía tiene para largo. Es más, el hecho de que se haya logrado este tipo de modelo con un consumo tan bajo, a mi forma de ver, demuestra que the sky is the limit. Esto puede ir mucho más para arriba, porque ahora ese aumento drástico de la eficiencia significa que en verdad la infraestructura actual tiene una mayor capacidad de procesamiento. Se puede seguir desarrollando modelos que sean más demandantes, pero si mantienen este nivel de eficiencia, toda la infraestructura actual tiene un potencial mucho más grande”.
Serbin Point asegura que “es un enorme mundo muy desconocido el que se nos viene en torno al impacto que va a tener la inteligencia artificial, sobre todo por lo que es la creación de contenido audiovisual. Esto es muy difícil predecir hacia dónde va esto. Puede eventualmente revalorizar el rol de los medios de comunicación en algo similar a lo que era tradicionalmente”,
Andrei Serbin Point, sostiene que “la legitimidad que ofrecía la cobertura oficial puede llegar a ser un elemento favorable, pero por otro lado desconocemos realmente qué tan profundo va a ser el impacto y cuánta va a ser la capacidad, por un lado, de realmente detectar los fakes y por otro lado de poder comunicar eso ampliamente al público consumidor. Entonces es muy difícil realmente medir eso, el tema es que ya el gato salió de la caja, no hay una forma de volver atrás este tipo de tecnología se van a estar desarrollando y aparte también esta es la otra cuestión de cuando se habla de un modelo de fuente abierta que fue la discusión muy grande recordemos hace más de dos años cuando sale ChatGPT 3.0, que ahí la crítica que tenía Elon Musk en su momento es que se habían comprometido a hacer un open source que luego no hicieron”.
“Yo puedo crear un modelo de fuente abierta ponerle los guardrails que yo considero necesarios para que sea seguro su uso y todo eso pero si es de fuente abierta otro lo puede agarrar, modificar, ponerle ningún tipo de guardrail y usarlo maliciosamente. Es una caja de Pandora que se ha abierto y es muy difícil definir cómo podemos tratar de controlarlo, que realmente hoy en día no lo veo factible”, culmina.
Fuente: LPO