Faisal Bashir | LighTrocket | Getty Images
Deepseek de China se convirtió en el tema más grande en tecnología esta semana, con muchos en la industria y en Wall Street se centraron en un solo número: $ 6 millones.
En Deepseek’s papel Sobre su nuevo modelo de inteligencia artificial, la compañía dijo que sus costos totales de capacitación ascendieron a $ 5.576 millones, en función del precio de alquiler de Nvidia Unidades de procesamiento de gráficos. Deepseek incluyó una advertencia clara, diciendo que el número incluyó solo la «capacitación oficial» del modelo y excluyó los costos vinculados a «experimentos previos de investigación y ablación sobre arquitecturas, algoritmos o datos».
A principios de la semana, el asistente de IA de Deepseek tomó el codiciado lugar para la aplicación gratuita más descargada en los EE. UU. En la App Store de Apple, destronando el chatgpt de OpenAi. Global Tech Stocks vendió, con los fabricantes de chips nvidia y Broadcom Perder un límite de mercado combinado de $ 800 mil millones el lunes.
A Nuevo informe del semianálisisuna firma de investigación y consultoría de semiconductores, agregó más contexto a los gastos de Deepseek. La firma estimó que el gasto de hardware de Deepseek es «muy superior a $ 500 millones sobre el historial de la compañía», y agregó que los costos de I + D y el costo total de propiedad son significativos. La generación de «datos sintéticos» para que el modelo se entrene requeriría «una cantidad considerable de cómputo», escribió Semianalysis.
El informe dijo que el soneto Claude 3.5 de antrópico costó «$ 10 de millones para entrenar», pero señaló que Anthrope recaudó miles de millones de dólares de Amazonas y Googleuna indicación de cuánto más dinero se requiere para ejecutar los modelos y la empresa.
«Es porque tienen que experimentar, crear nuevas arquitecturas, recopilar y limpiar datos, pagar a los empleados y mucho más», dijo Semianalysis.
El propio artículo de Deepseek no incluye una estimación de sus costos de cálculo. La compañía no respondió de inmediato a una solicitud de comentarios.
«Ser claro Deepseek es único en el sentido de que lograron este nivel de costo y capacidades primero», escribió Semianalysts. La firma agregó que el R1 de Deepseek es un modelo muy bueno «y que» alcanzar la ventaja de razonamiento tan rápidamente es objetivamente impresionante «.
Expertos y analistas esta semana promocionaron la calidad del modelo de Deepseek, y notaron lo impresionante que es considerando Estados Unidos. Exportaciones de chips con buceo a China tres veces en tres años. Eso llevó a las preocupaciones de que Estados Unidos se está quedando atrás de su principal adversario en un mercado que es previsto a superar $ 1 billón en ingresos dentro de una década.
Los analistas de Bernstein escribieron en una nota el lunes que «según las muchas tomas (ocasionalmente histéricas) que vimos que vimos [over the weekend,] El rango de implicaciones en cualquier lugar desde ‘eso es realmente interesante’ hasta ‘Esta es la luz de muerte del complejo de infraestructura de IA tal como lo conocemos’ «.
Deepseek fue fundada en 2023 por Liang Wenfeng, cofundador de High-Flyer, un fondo cuantitativo de cobertura centrado en la IA. Según los informes, la startup de IA surgió de la Unidad de Investigación de IA del fondo de cobertura en abril de 2023 para centrarse en modelos de idiomas grandes y alcanzar la inteligencia general artificial, o AGI, una rama de IA que iguala o supere el intelecto humano en una amplia gama de tareas, y que Operai y otros están persiguiendo.
Deepseek sigue siendo propiedad y financiado por High-Flyer, según analistas de Jefferies.
El zumbido alrededor de Deepseek comenzó a recoger a Steam a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el O1 de OpenAI. Es de código abierto, lo que significa que cualquier desarrollador de IA puede usarlo.
Al igual que otros chatbots chinos, Deepseek tiene limitaciones en ciertos temas: cuando se le pregunta sobre algunas de las políticas del líder chino Xi Jinping, por ejemplo, Deepseek, según los informes, Deepseek Mira al usuario de líneas similares de cuestionamiento.
El CEO de Openai, Sam Altman, elogió a la modelo públicamente, pero la compañía también ha dicho que cree que hay evidencia de que Deepseek cosechado incorrectamente Datos de OpenAI para construir su producto.
En un evento en Washington, DC, el jueves organizado por OpenAi, Altman dijo que Deepseek es «claramente un gran modelo».
«Este es un recordatorio del nivel de competencia y la necesidad de que la LL democrática gane», dijo. Dijo que también apunta al «nivel de interés en el razonamiento, el nivel de interés en el código abierto».
MIRAR: El CEO de NVIDIA, Jensen Huang y el presidente Trump se reúnen en la política de IA