28/07/2025

Aprendizaje por Refuerzo Parte 2

[mr_rating_result]

Por ejemplo, las decisiones sobre el consumo o el almacenamiento de energía pueden tener consecuencias a largo plazo. El RL se puede utilizar para optimizar la eficiencia energética y los costos a largo plazo. Con las arquitecturas adecuadas, los agentes de RL también pueden generalizar sus estrategias aprendidas en tareas similares pero no idénticas.

¿Cuáles son los casos de uso del aprendizaje por refuerzo?

El aprendizaje por refuerzo (RL) se puede aplicar a una amplia gama de casos de uso del mundo real. A continuación, presentamos algunos ejemplos.

En aplicaciones como los sistemas de recomendación, el RL puede personalizar las sugerencias para los usuarios individuales en función de sus interacciones. Esto lleva a experiencias más personalizadas.

Por ejemplo, una aplicación puede mostrar anuncios a un usuario en función de cierta información demográfica. Con cada interacción publicitaria, la aplicación aprende qué anuncios mostrar al usuario para optimizar las ventas de productos.

Desafíos de optimización

Los métodos de optimización tradicionales resuelven los problemas mediante la evaluación y comparación de las posibles soluciones en función de ciertos criterios. Por el contrario, el RL introduce el aprendizaje a partir de las interacciones para encontrar las mejores soluciones (o las más cercanas a las mejores) a lo largo del tiempo.

Por ejemplo, un sistema de optimización del gasto en la nube utiliza el RL para adaptarse a las necesidades de recursos fluctuantes y elegir los tipos, cantidades y configuraciones de instancias óptimos. Toma decisiones en función de factores como la infraestructura de nube actual y disponible, los gastos y la utilización.

Predicciones financieras

La dinámica de los mercados financieros es compleja, con propiedades estadísticas que cambian con el tiempo. Los algoritmos de RL pueden optimizar los rendimientos a largo plazo al considerar los costos de transacción y adaptarse a los cambios del mercado.

Por ejemplo, un algoritmo podría observar las reglas y los patrones del mercado de valores antes de probar las acciones y registrar las recompensas asociadas. El algoritmo crea una función de valor y desarrolla una estrategia para maximizar las ganancias.

¿Cómo funciona el aprendizaje por refuerzo?

El proceso de aprendizaje de los algoritmos de aprendizaje por refuerzo (RL) es similar al aprendizaje por refuerzo animal y humano en el campo de la psicología del comportamiento. Por ejemplo, un niño puede descubrir que recibe elogios de sus padres cuando ayuda a un hermano o a limpiar, pero recibe reacciones negativas cuando tira juguetes o grita. Pronto, el niño aprende qué combinación de actividades trae como resultado la recompensa final.

Un algoritmo RL imita un proceso de aprendizaje similar. Prueba diferentes actividades para aprender los valores negativos y positivos asociados para lograr el resultado final de la recompensa.

Conceptos clave

En el aprendizaje por refuerzo, hay algunos conceptos clave con los que debe familiarizarse:
El agente es el algoritmo ML (o el sistema autónomo)
El entorno es el espacio de problemas adaptativo con atributos como variables, valores límite, reglas y acciones válidas
La acción es un paso que el agente de RL realiza para navegar por el entorno
El estado es el medio ambiente en un momento dado
La recompensa es el valor positivo, negativo o cero (en otras palabras, la recompensa o el castigo) por llevar a cabo una acción
La recompensa acumulada es la suma de todas las recompensas o el valor final

Conceptos básicos de algoritmos

El aprendizaje por refuerzo se basa en el proceso de decisión de Markov, un modelo matemático de la toma de decisiones que utiliza intervalos de tiempo discretos. En cada paso, el agente lleva a cabo una nueva acción que da como resultado un nuevo estado del entorno. Del mismo modo, el estado actual se atribuye a la secuencia de acciones anteriores.

Mediante prueba y error y su movimiento por el entorno, el agente crea un conjunto de reglas o políticas condicionales”. Las políticas ayudan a decidir qué acción tomar a continuación para obtener una recompensa acumulada óptima. El agente también debe elegir entre seguir explorando el entorno para obtener nuevas recompensas de estado-acción o seleccionar acciones conocidas con altas recompensas de un estado determinado. Esto se denomina compensación entre exploración y explotación.

¿Cuáles son los tipos de algoritmos de aprendizaje por refuerzo?

Hay varios algoritmos que se utilizan en el aprendizaje por refuerzo (RL), como el Q-learning, los métodos de gradiente de políticas, los métodos de Montecarlo y el aprendizaje por diferencia temporal. El RL profundo es la aplicación de redes neuronales profundas al aprendizaje por refuerzo. Un ejemplo de un algoritmo de RL profundo es la optimización de políticas de región de confianza (TRPO).

Todos estos algoritmos se pueden agrupar en dos amplias categorías.

RL basado en modelos

El RL basado en modelos se suele utilizar cuando los entornos están bien definidos y no cambian y cuando las pruebas en entornos reales son difíciles de realizar.

Primero, el agente crea una representación interna (modelo) del entorno. Utiliza este proceso para crear dicho modelo:

1. 2. Toma medidas en el entorno y observa el nuevo estado y el valor de la recompensa

Asocia la transición de acción-estado con el valor de la recompensa.

Una vez que el modelo está completo, el agente simula las secuencias de acción en función de la probabilidad de obtener recompensas acumuladas óptimas. A continuación, asigna valores a las propias secuencias de acción. De este modo, el agente desarrolla diferentes estrategias dentro del entorno para lograr el objetivo final deseado.

Ejemplo

Pensemos en un robot que aprende a moverse por un edificio nuevo para llegar a una habitación específica. Inicialmente, el robot explora libremente y construye un modelo interno (o mapa) del edificio.

Por ejemplo, podría aprender al descubrir un ascensor después de avanzar 10 metros desde la entrada principal. Una vez que crea el mapa, puede crear una serie de secuencias de rutas más cortas entre las diferentes ubicaciones que visita con frecuencia dentro del edificio.

RL sin modelo

Es mejor usar el RL sin modelos cuando el entorno es grande, complejo y no se puede describir fácilmente. También es ideal cuando el entorno es desconocido y cambiante, y las pruebas basadas en el entorno no presentan desventajas significativas.

El agente no construye un modelo interno del entorno y su dinámica. En su lugar, utiliza un enfoque de

prueba y error dentro del entorno. Puntúa y anota los pares de estado-acción (y las secuencias de pares de estado-acción) para desarrollar una política.

Ejemplo

Considere un automóvil autónomo que necesite moverse entre el tráfico de la ciudad. Las carreteras, los patrones de tráfico, el comportamiento de los peatones y muchos otros factores pueden hacer que el entorno sea altamente dinámico y complejo. Los equipos de IA entrenan el vehículo en un entorno simulado en las etapas iniciales. El vehículo realiza acciones en función de su estado actual y recibe recompensas o penalizaciones.

Con el tiempo, al conducir millones de kilómetros en diferentes escenarios virtuales, el vehículoaprende qué acciones son las mejores para cada estado sin modelar explícitamente toda la dinámica del tráfico. Cuando se introduce en el mundo real, el vehículo utiliza la política aprendida, pero continúa perfeccionándola con nuevos datos.

Compártelo en tus redes

[mr_rating_form]

Aprendizaje por Refuerzo Parte 2

Compártelo en tus redes

Deja una respuesta Cancelar la respuesta

CURSOS ONLINE

LEGAL

SÍGUENOS EN NUESTRAS REDES

CONTACTO