1. Arquitectura básica
Deepseek se basa en la arquitectura Transformer, una de las estructuras más potentes y ampliamente utilizadas en inteligencia artificial actual. Esta arquitectura es la base tanto para modelos de lenguaje como de código y modelos multimodales que combinan texto e imagen.
¿Qué es un Transformer?
El Transformer es un tipo de red neuronal que procesa secuencias de datos, como texto o tokens de código, utilizando mecanismos de autoatención. A diferencia de las redes recurrentes (RNN), los Transformers procesan toda la entrada simultáneamente, lo que les permite entender el contexto completo de cada palabra o símbolo.
Componentes clave de la arquitectura de Deepseek
1. Embeddings (representación numérica de entradas)
• Las palabras, subpalabras o caracteres se convierten en vectores numéricos llamados tokens.
• En Deepseek-Coder y LLM, los tokens representan texto o código.
• En Deepseek-VL, se incluyen también embeddings visuales derivados de imágenes.
2. Capas de atención (Self-Attention)
• Permiten que cada token se relacione con los demás de la secuencia.
• Evalúan qué partes del contexto son más relevantes para cada palabra.
• Esencial para tareas como la comprensión, la predicción o la generación coherente de texto.
3. Feed-Forward Networks
• Después de la autoatención, cada token pasa por una red neuronal que transforma su representación.• Esta capa mejora la capacidad del modelo de capturar patrones complejos.
4. Normalización y residual connections
• Ayudan a estabilizar el aprendizaje y acelerar la convergencia.
• Las salidas de cada bloque se suman con la entrada original (residual) y se normalizan.
5. Capas de salida
• Una capa lineal final proyecta los resultados a un espacio de probabilidad de vocabulario (logits).
• El modelo predice el próximo token más probable, que luego se convierte nuevamente en texto o código.
Arquitectura por modelo / Deepseek-LLM y Deepseek-Coder
• Tipo: Decoder-only Transformer.
• Procesan secuencias de tokens en una sola dirección (de izquierda a derecha).
• Muy eficaces en generación de texto/código.
• Arquitectura similar a GPT-2/GPT-3, con capas apiladas (decenas o cientos) de atención y feed-forward.
Deepseek-VL (Vision-Language)
• Tipo: Multimodal Transformer.
• Combina: o Un Vision Encoder (como Vision Transformer o CLIP) que convierte la imagen en vectores.
o Un Language Decoder que procesa texto y vectores visuales conjuntamente.
• Esta combinación permite que el modelo “entienda” imágenes en el contexto del lenguaje.
¿Por qué es importante esta arquitectura?
• Permite procesar contexto completo, incluso en entradas largas.• Favorece la generación coherente y contextualizada de texto y código.
• Es modular: puede adaptarse fácilmente a tareas nuevas.
• Facilita la escalabilidad: Deepseek ha entrenado modelos con miles de millones de parámetros gracias a esta estructura.