El condicionamiento operante, a veces denominado condicionamiento instrumental, es un método de aprendizaje que emplea premios y castigos para el comportamiento. Mediante el condicionamiento operante, se establece una asociación entre un comportamiento y una consecuencia (ya sea negativa o positiva) para ese comportamiento.
Por ejemplo, cuando las ratas de laboratorio presionan una palanca cuando se enciende una luz verde, reciben una bolita de comida como recompensa. Cuando presionan la palanca cuando la luz roja está encendida, reciben una leve descarga eléctrica. Como resultado, aprenden a pulsar la palanca cuando la luz verde está encendida y a evitar la luz roja.
Pero el condicionamiento operante no es sólo algo que tiene lugar en entornos experimentales mientras se entrena a los animales de laboratorio. También desempeña un papel importante en el aprendizaje cotidiano. El refuerzo y el castigo tienen lugar en entornos naturales todo el tiempo, así como en entornos más estructurados como las aulas o las sesiones de terapia.
La historia del Condicionamiento Operante

El condicionamiento operante fue descrito por primera vez por el conductista B.F. Skinner, razón por la que a veces se le llama condicionamiento skinneriano.
Como conductista, Skinner creía que no era realmente necesario examinar los pensamientos y las motivaciones internas para explicar el comportamiento. En su lugar, sugería que debíamos fijarnos sólo en las causas externas y observables del comportamiento humano.
Durante la primera parte del siglo XX, el conductismo se convirtió en una fuerza importante dentro de la psicología. Las ideas de John B. Watson dominaron esta escuela de pensamiento desde el principio. Watson se centró en los principios del condicionamiento clásico y, en una ocasión, sugirió que podía tomar a cualquier persona, independientemente de sus antecedentes, y entrenarla para que fuera lo que él quisiera.
Los primeros conductistas centraron su interés en el aprendizaje asociativo. Skinner estaba más interesado en cómo las consecuencias de las acciones de las personas influían en su comportamiento.
Skinner utilizó el término operante para referirse a cualquier «conducta activa que opera sobre el entorno para generar consecuencias«. La teoría de Skinner explicaba cómo adquirimos la gama de conductas aprendidas que mostramos cada día.
Su teoría estaba muy influenciada por el trabajo del psicólogo Edward Thorndike, que había propuesto lo que llamó la ley del efecto.3 Según este principio, las acciones que van seguidas de resultados deseables tienen más probabilidades de repetirse, mientras que las que van seguidas de resultados indeseables tienen menos probabilidades de repetirse.
El condicionamiento operante se basa en una premisa bastante sencilla: las acciones que van seguidas de un refuerzo se verán reforzadas y será más probable que se repitan en el futuro. Si cuentas una historia divertida en clase y todo el mundo se ríe, es más probable que vuelvas a contar esa historia en el futuro.
Si levantas la mano para hacer una pregunta y tu profesor elogia tu comportamiento educado, será más probable que levantes la mano la próxima vez que tengas una pregunta o un comentario. Como el comportamiento fue seguido de un refuerzo, o de un resultado deseable, la acción precedente se ve reforzada.
A la inversa, las acciones que dan lugar a un castigo o a consecuencias indeseables se verán debilitadas y será menos probable que vuelvan a producirse en el futuro. Si vuelves a contar la misma historia en otra clase pero esta vez nadie se ríe, será menos probable que vuelvas a repetir la historia en el futuro. Si gritas una respuesta en clase y tu profesor te regaña, será menos probable que vuelvas a interrumpir la clase.
Tipos de conductas

Skinner distinguió entre dos tipos diferentes de conductas
- Las conductas de respuesta son las que se producen de forma automática y refleja, como retirar la mano de una estufa caliente o mover la pierna cuando el médico le da un golpecito en la rodilla. No hay que aprender estos comportamientos. Simplemente se producen de forma automática e involuntaria.
- Las conductas operantes, en cambio, son las que están bajo nuestro control consciente. Algunas pueden producirse de forma espontánea y otras de forma intencionada, pero son las consecuencias de estas acciones las que influyen en que vuelvan a producirse o no en el futuro. Nuestras acciones en el entorno y las consecuencias de esa acción constituyen una parte importante del proceso de aprendizaje.
Aunque el condicionamiento clásico podía explicar los comportamientos de los encuestados, Skinner se dio cuenta de que no podía explicar gran parte del aprendizaje. En su lugar, Skinner sugirió que el condicionamiento operante tenía una importancia mucho mayor.
Skinner inventó diferentes dispositivos durante su infancia y puso en práctica estas habilidades durante sus estudios sobre el condicionamiento operante. Creó un dispositivo conocido como cámara de condicionamiento operante, que hoy en día se conoce como caja de Skinner. La cámara podía contener un animal pequeño, como una rata o una paloma. La caja también contenía una barra o llave que el animal podía pulsar para recibir una recompensa.
Para seguir las respuestas, Skinner también desarrolló un dispositivo conocido como registrador acumulativo. El dispositivo registraba las respuestas como un movimiento ascendente de una línea, de modo que las tasas de respuesta podían leerse observando la pendiente de la línea.
Componentes del condicionamiento operante
Hay varios conceptos clave en el condicionamiento operante.
El refuerzo
El refuerzo es cualquier acontecimiento que refuerza o aumenta la conducta que sigue. Hay dos tipos de refuerzos. En ambos casos de refuerzo, la conducta aumenta.
- Los reforzadores positivos son eventos o resultados favorables que se presentan después de la conducta. En las situaciones de refuerzo positivo, una respuesta o conducta se refuerza mediante la adición de un elogio o una recompensa directa. Si haces un buen trabajo y tu jefe te da una bonificación, esa bonificación es un reforzador positivo.
- Los reforzadores negativos implican la eliminación de un acontecimiento o resultado desfavorable tras la realización de una conducta. En estas situaciones, se refuerza una respuesta mediante la eliminación de algo considerado desagradable.
El castigo

El castigo es la presentación de un evento o resultado adverso que provoca una disminución de la conducta que le sigue. Hay dos tipos de castigo. En ambos casos, la conducta disminuye.
- El castigo positivo, a veces denominado castigo por aplicación, presenta un evento o resultado desagradable para debilitar la respuesta que sigue. Los azotes por mal comportamiento son un ejemplo de castigo por aplicación.
- El castigo negativo, también conocido como castigo por eliminación, se produce cuando se elimina un evento o resultado agradable después de que se produzca un comportamiento. Quitarle el videojuego a un niño después de que se haya portado mal es un ejemplo de castigo negativo.
Programas de refuerzo

El refuerzo no es necesariamente un proceso sencillo, y hay una serie de factores que pueden influir en la rapidez y la calidad del aprendizaje de cosas nuevas.
Skinner descubrió que el momento y la frecuencia con que se reforzaban las conductas influían en la velocidad y la fuerza de la adquisición. En otras palabras, el momento y la frecuencia del refuerzo influyen en el aprendizaje de nuevas conductas y en la modificación de las antiguas.
Identificó varios esquemas diferentes de refuerzo que afectan al proceso de condicionamiento operante:
- El refuerzo continuo implica la entrega de un refuerzo cada vez que se produce una respuesta. El aprendizaje tiende a producirse con relativa rapidez, aunque la tasa de respuesta es bastante baja. La extinción también se produce muy rápidamente una vez que se interrumpe el refuerzo.
- Los programas de razón fija son un tipo de refuerzo parcial. Las respuestas se refuerzan sólo después de un número específico de respuestas. Esto suele conducir a una tasa de respuesta bastante estable.
- Los programas de intervalo fijo son otra forma de refuerzo parcial. El refuerzo se produce sólo después de que haya transcurrido un determinado intervalo de tiempo. Las tasas de respuesta se mantienen bastante estables y empiezan a aumentar a medida que se acerca el momento del refuerzo, pero se ralentizan inmediatamente después de que se haya entregado el refuerzo.
- Los programas de razón variable son también un tipo de refuerzo parcial que implica reforzar la conducta después de un número variado de respuestas. Esto conduce a una alta tasa de respuesta y a una lenta tasa de extinción.
- Los programas de intervalo variable son la última forma de refuerzo parcial descrita por Skinner. Este esquema implica la entrega de refuerzos después de que haya transcurrido una cantidad variable de tiempo. Esto también tiende a conducir a una tasa de respuesta rápida y una tasa de extinción lenta.