18/09/2025

Fundamentos técnicos de Deepseek

[mr_rating_result]

1. Arquitectura básica

Deepseek se basa en la arquitectura Transformer, una de las estructuras más potentes y ampliamente utilizadas en inteligencia artificial actual. Esta arquitectura es la base tanto para modelos de lenguaje como de código y modelos multimodales que combinan texto e imagen.

¿Qué es un Transformer?

El Transformer es un tipo de red neuronal que procesa secuencias de datos, como texto o tokens de código, utilizando mecanismos de autoatención. A diferencia de las redes recurrentes (RNN), los Transformers procesan toda la entrada simultáneamente, lo que les permite entender el contexto completo de cada palabra o símbolo.

Componentes clave de la arquitectura de Deepseek

1. Embeddings (representación numérica de entradas)

• Las palabras, subpalabras o caracteres se convierten en vectores numéricos llamados tokens.

• En Deepseek-Coder y LLM, los tokens representan texto o código.

• En Deepseek-VL, se incluyen también embeddings visuales derivados de imágenes.

2. Capas de atención (Self-Attention)

• Permiten que cada token se relacione con los demás de la secuencia.

• Evalúan qué partes del contexto son más relevantes para cada palabra.

• Esencial para tareas como la comprensión, la predicción o la generación coherente de texto.

3. Feed-Forward Networks

• Después de la autoatención, cada token pasa por una red neuronal que transforma su representación.• Esta capa mejora la capacidad del modelo de capturar patrones complejos.

4. Normalización y residual connections

• Ayudan a estabilizar el aprendizaje y acelerar la convergencia.

• Las salidas de cada bloque se suman con la entrada original (residual) y se normalizan.

5. Capas de salida

• Una capa lineal final proyecta los resultados a un espacio de probabilidad de vocabulario (logits).

• El modelo predice el próximo token más probable, que luego se convierte nuevamente en texto o código.

Arquitectura por modelo / Deepseek-LLM y Deepseek-Coder

• Tipo: Decoder-only Transformer.

• Procesan secuencias de tokens en una sola dirección (de izquierda a derecha).

• Muy eficaces en generación de texto/código.

• Arquitectura similar a GPT-2/GPT-3, con capas apiladas (decenas o cientos) de atención y feed-forward.

Deepseek-VL (Vision-Language)

• Tipo: Multimodal Transformer.

• Combina: o Un Vision Encoder (como Vision Transformer o CLIP) que convierte la imagen en vectores.

o Un Language Decoder que procesa texto y vectores visuales conjuntamente.

• Esta combinación permite que el modelo “entienda” imágenes en el contexto del lenguaje.

¿Por qué es importante esta arquitectura?

• Permite procesar contexto completo, incluso en entradas largas.• Favorece la generación coherente y contextualizada de texto y código.

• Es modular: puede adaptarse fácilmente a tareas nuevas.

• Facilita la escalabilidad: Deepseek ha entrenado modelos con miles de millones de parámetros gracias a esta estructura.

Compártelo en tus redes

[mr_rating_form]

Fundamentos técnicos de Deepseek

Compártelo en tus redes

Deja una respuesta Cancelar la respuesta

CURSOS ONLINE

LEGAL

SÍGUENOS EN NUESTRAS REDES

CONTACTO