Método de aprendizaje por refuerzo que actualiza las estimaciones de valor utilizando la diferencia entre estimaciones sucesivas. En lugar de esperar a recibir una recompensa final, el algoritmo actualiza continuamente sus estimaciones de valor basándose en la retroalimentación inmediata recibida del entorno. Este enfoque permite un aprendizaje más rápido y eficiente en entornos donde las recompensas son escasas o demoradas