Es un paradigma de aprendizaje donde un agente aprende a tomar decisiones secuenciales para maximizar una recompensa acumulada en un entorno dado. El agente toma acciones en el entorno y recibe retroalimentación en forma de recompensas o penalizaciones en función de las acciones que realiza. El objetivo del aprendizaje por refuerzo es aprender una política óptima para tomar decisiones que maximicen la recompensa a largo plazo.