Algoritmo de aprendizaje por refuerzo utilizado en inteligencia artificial. Se utiliza para aprender una política óptima para tomar decisiones secuenciales en entornos basados en recompensas y penalizaciones. Q-Learning utiliza una función de valor llamada Q-function para estimar el valor esperado de una acción en un estado dado. El algoritmo ajusta iterativamente los valores de Q-function a medida que explora el entorno y aprende a maximizar las recompensas a largo plazo.