Deepseek se ha vuelto viral.
El laboratorio chino de IA Deepseek irrumpió en la conciencia convencional esta semana después de que su aplicación de chatbot se subió a la cima de las listas de Apple App Store (y Google Play también). Los modelos de IA de Deepseek, que fueron entrenados utilizando técnicas de cómputo-eficientes, han llevado a los analistas de Wall Street, y a los tecnólogos, a cuestionar si Estados Unidos puede mantener su liderazgo en la carrera de IA y si la demanda de chips de IA sostendrá.
Pero, ¿de dónde vino Deepseek y cómo se elevó a la fama internacional tan rápido?
Deepseek's Trader Origins
Deepseek está respaldado por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza IA para informar sus decisiones comerciales.
El entusiasta de la IA Liang Wenfeng cofundó High-Flyer en 2015. Wenfeng, quien, según los informes, comenzó a incursionar en el comercio, mientras que un estudiante de la Universidad de Zhejiang lanzó la gestión de capital de alto volante como fondo de cobertura en 2019 centrado en desarrollar y desplegar algoritmos de IA.
En 2023, High-Flyer comenzó Deepseek como un laboratorio dedicado a investigar herramientas de IA separadas de su negocio financiero. Con High-Flyer como uno de sus inversores, el laboratorio se desvió en su propia compañía, también llamada Deepseek.
Desde el primer día, Deepseek construyó sus propios grupos de centros de datos para el entrenamiento modelo. Pero al igual que otras compañías de IA en China, Deepseek se ha visto afectado por las prohibiciones de exportación de los Estados Unidos en el hardware. Para capacitar a uno de sus modelos más recientes, la compañía se vio obligada a usar Nvidia H800 Chips, una versión menos potente de un chip, el H100, disponible para las empresas estadounidenses.
Se dice que el equipo técnico de Deepseek sesga a Young. La empresa Según se informa, reclutas agresivamente Investigadores de AI de doctorado de las mejores universidades chinas. Deepseek también contrata personas sin antecedentes de informática Para ayudar a su tecnología a comprender mejor una amplia gama de temas, según el New York Times.
Modelos fuertes de Deepseek
Deepseek dio a conocer su primer conjunto de modelos: Deepseek Coder, Deepseek LLM y Deepseek Chat, en noviembre de 2023. Pero no fue hasta la primavera pasada, cuando la startup lanzó su familia de modelos Deepseek-V2 de próxima generación, que la industria de la IA comenzó a darse cuenta.
Deepseek-V2, un sistema de análisis de texto e imagen de uso general, se desempeñó bien en varios puntos de referencia de IA, y era mucho más barato de ejecutar que los modelos comparables en ese momento. Obligó a la competencia nacional de Deepseek, incluida la bytedance y Alibaba, a reducir los precios de uso de algunos de sus modelos y hacer que otros sean completamente libres.
Deepseek-v3, lanzado en diciembre de 2024, solo se sumó a la notoriedad de Deepseek.
Según las pruebas de referencia internas de Deepseek, Deepseek V3 supera a los modelos descargables y abiertamente disponibles como los modelos de Meta's Llama y “cerrado” a los que solo se puede acceder a través de una API, como el GPT-4O de Openai.
Igualmente impresionante es el modelo de “razonamiento” R1 de Deepseek. Lanzado en enero, Deepseek afirma que R1 realiza, así como el modelo O1 de Openai en puntos de referencia clave.
Al ser un modelo de razonamiento, R1 se verifica de manera efectiva, lo que ayuda a evitar algunas de las trampas que normalmente tropiezan con los modelos. Los modelos de razonamiento tardan un poco más, generalmente segundos de minutos más, para llegar a soluciones en comparación con un modelo típico de no razonamiento. La ventaja es que tienden a ser más confiables en dominios como física, ciencias y matemáticas.
Sin embargo, hay un inconveniente de R1, Deepseek V3 y otros modelos de Deepseek. Al ser IA desarrollada por los chinos, están sujetos a margen de evaluación por el regulador de Internet de China para garantizar que sus respuestas “encarnen los valores socialistas centrales”. En la aplicación de chatbot de Deepseek, por ejemplo, R1 no responderá preguntas sobre Tiananmen Square o la autonomía de Taiwán.
Un enfoque disruptivo
Si Deepseek tiene un modelo de negocio, no está claro cuál es ese modelo, exactamente. La compañía genera sus productos y servicios muy por debajo del valor de mercado, y deja a otros gratis. Tampoco está tomando dinero de los inversores, a pesar de una tonelada de intereses de capital de riesgo.
La forma en que Deepseek le dice que los avances de eficiencia le han permitido mantener la competitividad de los costos extremos. Algunos expertos disputar Sin embargo, las cifras que la compañía ha proporcionado.
Cualquiera que sea el caso, los desarrolladores han llevado a los modelos de Deepseek, que no son de código abierto, ya que la frase se entiende comúnmente, pero están disponibles bajo licencias permisivas que permiten uso comercial. Según Clem Delangue, el CEO de Hugging Face, una de las plataformas que albergan modelos de Deepseek, Los desarrolladores en la cara de abrazo han creado más de 500 modelos “derivados” de R1 que han acumulado 2.5 millones de descargas combinadas.
El éxito de Deepseek contra rivales más grandes y más establecidos ha sido descrito como “AI alojado” y “exagerado”. El éxito de la compañía fue al menos en parte responsable de hacer que el precio de las acciones de Nvidia cayera en un 18% en enero, y para provocar una respuesta pública del CEO de Operai Sam Altman.
Microsoft anunció que Deepseek está disponible en su servicio Azure Ai Foundry, la plataforma de Microsoft que reúne los servicios de IA para empresas bajo una sola pancarta. Cuando se le preguntó sobre el impacto de Deepseek en el gasto de AI de Meta durante su llamada de ganancias del primer trimestre, el CEO Mark Zuckerberg dijo que el gasto en la infraestructura de IA continuará siendo una “ventaja estratégica” para Meta. En marzo, Openai llamó a Deepseek “subsidiado por el estado” y “controlado por el estado”, y recomienda que el gobierno de los Estados Unidos considere prohibir modelos de Deepseek.
Durante la llamada de ganancias del cuarto trimestre de Nvidia, el CEO Jensen Huang enfatizó la “excelente innovación” de Deepseek, diciendo que él y otros modelos de “razonamiento” son excelentes para Nvidia porque necesitan mucho más cómputo.
Al mismo tiempo, algunas compañías están prohibiendo Deepseek, y también lo son completos países y gobiernos, incluida Corea del Sur. Estado de Nueva York también Profundió que se use unsee profundo en dispositivos gubernamentales.
En cuanto a lo que podría tener el futuro de Deepseek, no está claro. Los modelos mejorados son un hecho. Pero el gobierno de los Estados Unidos parece ser creciendo cautivado de lo que percibe como influencia extranjera dañina. En marzo, el Wall Street Journal informó que Es probable que Estados Unidos prohíba a Deepseek en dispositivos gubernamentales.
Esta historia se publicó originalmente el 28 de enero de 2025 y se actualizará regularmente.