- Carlos Martínez Rojas
- 288 Vistas
Introducción
En 2025, la empresa china DeepSeek logró algo inédito: publicó en Nature su modelo DeepSeek‑R1, un sistema de lenguaje grande (LLM) cuya capacidad de razonamiento emergente proviene mayormente de aprendizaje por refuerzo puro (reinforcement learning, RL), sin depender al inicio de aprendizaje supervisado extenso. Este trabajo representa un hito en los modelos abiertos (“open models”) y plantea preguntas profundas sobre cómo se entrenan los modelos LLM, qué costos son reales, qué implicancias de seguridad y explicabilidad emergen, y cómo cambian los estándares en investigación de inteligencia artificial.
Video recomendado: Esta IA de Código Abierto lo Aplasta Todo: DeepSeek R1
Contexto histórico
- Muchos LLMs hasta ahora han usado: preentrenamiento no supervisado + fine tuning supervisado (SFT) + reforzamiento con retroalimentación humana para mejorar formatos, seguridad, respuesta útil, etc.
- DeepSeek había ganado atención previamente por modelos V3 y variantes con buen desempeño en matemáticas, codificación, por un costo relativamente bajo frente a gigantes de la industria.
- Las restricciones globales de exportaciones de chips y las limitaciones de hardware en algunos países han impulsado innovaciones que buscan lograr más con menos — eficiencia en arquitectura del modelo, optimización, distillation, nuevas técnicas de RL.
Qué es DeepSeek‑R1 y qué hace diferente

Aquí algunos de los puntos centrales del paper DeepSeek: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (Guo et al., Nature 2025) y lo que se ha reportado:
| Característica | Descripción / innovación |
|---|---|
| Razonamiento emergente vía RL puro | La versión inicial llamada DeepSeek‑R1‑Zero fue entrenada con RL sin fine‑tuning supervisado (SFT) al inicio. Se utilizó un algoritmo de optimización de política relativa de grupo (GRPO) y recompensas basadas en reglas (rule‑based reward) que miden precisión, formato, etc. |
| Mejoras al modelo para coherencia, estilo, legibilidad | Para resolver problemas de legibilidad (errores de formato, mezcla de idiomas, respuestas demasiado largas), los investigadores añadieron etapas adicionales: datos “cold‑start”, fine tuning supervisado parcial, pipelines multietapa que combinan RL + ajustes humanos. |
| Desempeño en benchmarks exigentes | En pruebas como AIME 2024, DeepSeek‑R1‑Zero mejoró de ~15‑16 % de aciertos (pass@1) al comienzo a ~77‑80 %, y con técnicas como self‑consistency decoding llegó a ~86,7 %. También tiene altos puntajes en tareas de código, física, biología, química. |
| Costo de entrenamiento bajo comparado a otros modelos grandes | DeepSeek reporta que entrenar R1 costó unos US$ 294,000 (con hardware relativamente accesible — 512 GPUs Nvidia H800) lo cual es muy bajo frente a los costos que se manejan habitualmente en modelos de alto nivel. |
| Modelos destilados abiertos | Se liberaron versiones más pequeñas (distillation) para que la comunidad investigue el comportamiento del razonamiento y los mecanismos detrás de la “cadena de pensamiento” (chain‑of‑thought, CoT), etc. |
Análisis experto: implicaciones, oportunidades & riesgos

Oportunidades
- Reducción de barreras de entrada: entrenar modelos de razonamiento de alto desempeño empieza a requerir menos recursos computacionales y financieros. Eso puede abrir el campo para institutos de investigación, universidades, startups, especialmente fuera de EE.UU. y Europa.
- Transparencia y reproducibilidad: al liberar modelos destilados, código, datos de entrenamiento (o parte de ellos), se favorece que la comunidad analice mejor cómo emergen capacidades de razonamiento.
- Innovación metodológica: la demostración de que el RL puro puede inducir razonamiento fuerte (como auto‑reflexión, búsqueda de alternativas, CoT) incentiva más investigación en métodos que dependen menos de humanos explícitamente supervisando cada aspecto.
Riesgos & desafíos
- Legibilidad y mezcla de idiomas: uno de los problemas que ya se observó en R1‑Zero: respuestas difíciles de leer, mezcla de idiomas (inglés‑chino) en algunos casos. Esto afecta la usabilidad, interpretabilidad, confianza del usuario.
- Seguridad, comportamiento no supervisado: RL puro puede llevar a “estrategias de atajo” (shortcut strategies), sesgos invisibles, exploraciones incontroladas del espacio de respuesta, output que responde pero que no es “humano al explicarlo”. Hay preocupaciones en cuanto a cómo comportamientos emergentes podrían ser erráticos o poco alineados con valores humanos.
- Evaluación y peer review como barrera mínima: el hecho de que DeepSeek‑R1 haya pasado por peer review en Nature le da credibilidad, pero también revela que muchos modelos similares aún no tienen ese nivel de escrutinio. La transparencia completa sobre los datos usados, las posibles filtraciones o contaminaciones, las métricas de seguridad y sesgo, etc., son críticas. Algunos revisores exigieron detalles adicionales en esos puntos.
- Efecto en el mercado y en la regulación: modelos como R1 ponen presión sobre gigantes del AI para justificar sus costos elevados, y sobre gobiernos y reguladores para actualizar normativas de licencia, seguridad, privacidad, interpretación de modelos, propiedad intelectual, etc.
La importancia del peer review en LLMs
- Que un modelo de IA grande y de alto rendimiento pase por peer review (revisión por pares académica) es algo todavía poco común. Esto implica que los detalles del entrenamiento, de los riesgos, de la evaluación de seguridad, etc., sean examinados con más rigor. DeepSeek‑R1 lo logra con detalles publicados.
- Peer review también exige transparencia sobre los datos, la mitigación de sesgo, los métodos de evaluación adversa, etc., lo que empuja a más estándares en el desarrollo de modelos.
- Los artículos revisados promueven una discusión más sólida, comparaciones válidas, replicaciones, y permiten que la comunidad detecte problemas de seguridad o explicabilidad que quizás una empresa sola no publique.
Escenarios futuros
- Evolución de DeepSeek‑R2 o modelos similares que optimicen aún más legibilidad, coherencia, costumbres en lenguaje, minimizando errores de mezcla o formato.
- Más modelos “razonando” que usan RL puro o mayormente RL + reglas, desplazando algo del SFT tradicional.
- Herramientas que incorporen estos modelos de razonamiento para tareas prácticas: educación, resolución de problemas complejos en STEM, investigación científica, diagnóstico, etc.
- Regulaciones que exijan peer review, auditorías de seguridad, transparencia de datos, uso responsable de modelos open source.
Conclusión
DeepSeek‑R1 no es solo otro modelo más: es un punto de inflexión. El hecho de que se logren niveles de razonamiento muy altos usando aprendizaje por refuerzo puro (y un pipeline meticuloso que corrige debilidades: legibilidad, mezcla de idiomas, coherencia) demuestra que existen rutas alternativas al paradigma supervisado tradicional.
Este avance plantea preguntas: ¿hasta dónde puede llegar el RL sin supervisión humana directa?, ¿qué tan interpretable serán los modelos emergentes?, ¿cómo aseguramos que el modelo no desarrolle “estrategias oscuras” o atajos no deseados? Pero también ofrece esperanza de que el futuro de los LLMs pueda ser más eficiente, más accesible, más distribuido, menos centrado en pocos jugadores que pueden pagar billones en cómputo.
DeepSeek‑R1 nos recuerda que la innovación real puede venir no solo de tener más datos o más hardware, sino de hacer más con mejores métodos, mejor diseño de recompensas, mejor transparencia, mejor peer review.
Preguntas frecuentes sobre DeepSeek‑R1
¿Qué es DeepSeek‑R1?
DeepSeek‑R1 es un modelo de lenguaje grande (LLM) desarrollado por la empresa china DeepSeek, que logró capacidades avanzadas de razonamiento utilizando principalmente aprendizaje por refuerzo (RL) en lugar de depender de aprendizaje supervisado. Fue evaluado y publicado en la revista científica Nature en 2025.
¿Por qué es importante que DeepSeek‑R1 use solo RL para razonar?
Porque demuestra que un modelo puede desarrollar razonamiento complejo sin requerir millones de ejemplos humanos etiquetados. Esto reduce costos, aumenta escalabilidad y abre nuevas rutas para entrenar modelos más eficientes y potencialmente más explicables.
¿Qué significa que DeepSeek‑R1 fue aprobado por Nature?
Significa que el modelo pasó por una revisión por pares (peer-review) rigurosa en una de las revistas científicas más prestigiosas del mundo. Esto valida su aporte técnico, la transparencia metodológica, y destaca su importancia como innovación científica real en IA.
¿Cuáles son los riesgos de usar RL puro en modelos de IA?
Entre los principales riesgos están la aparición de “estrategias de atajo” (respuestas correctas por razones erróneas), alucinaciones, comportamiento no alineado con valores humanos, dificultades en interpretabilidad y problemas de legibilidad si no se controla adecuadamente el entrenamiento.
¿Cuánto costó entrenar DeepSeek‑R1 y por qué es relevante?
El entrenamiento del modelo costó alrededor de US$ 294.000, mucho menos que otros LLMs comparables. Esto demuestra que es posible lograr razonamiento competitivo con menor inversión computacional, lo que democratiza el acceso al desarrollo de IA avanzada.
¿Se puede acceder al modelo DeepSeek‑R1?
Sí. DeepSeek liberó versiones distiladas y checkpoints abiertos para que la comunidad investigadora pueda experimentar, replicar resultados y estudiar sus propiedades de razonamiento. Esto favorece la transparencia y la innovación abierta.

