Le conditionnement opérant, parfois appelé conditionnement instrumental, est une méthode d’apprentissage qui utilise des récompenses et des punitions pour le comportement. Grâce au conditionnement opérant, une association est établie entre un comportement et une conséquence (négative ou positive) de ce comportement.
Par exemple, lorsqu’un rat de laboratoire appuie sur un levier lorsqu’une lumière verte est allumée, il reçoit une boulette de nourriture en guise de récompense. Lorsqu’ils appuient sur le levier lorsque la lumière rouge est allumée, ils reçoivent un léger choc électrique. En conséquence, ils apprennent à appuyer sur le levier lorsque le feu vert est allumé et à éviter le feu rouge.
Mais le conditionnement opérant n’est pas seulement quelque chose qui se déroule dans des contextes expérimentaux lors du dressage d’animaux de laboratoire. Elle joue également un rôle important dans l’apprentissage quotidien. Le renforcement et la punition ont lieu en permanence dans des environnements naturels, ainsi que dans des environnements plus structurés tels que les salles de classe ou les séances de thérapie.
L’histoire du conditionnement opérant
Le conditionnement opérant a été décrit pour la première fois par le comportementaliste B.F. Skinner, c’est pourquoi il est parfois appelé conditionnement skinnérien.
En tant que comportementaliste, Skinner pensait qu’il n’était pas vraiment nécessaire d’examiner les pensées et les motivations internes pour expliquer le comportement. Au lieu de cela, il a suggéré que nous ne devrions nous intéresser qu’aux causes externes et observables du comportement humain.
Au début du 20e siècle, le béhaviorisme est devenu une force majeure de la psychologie. Les idées de John B. Watson ont dominé cette école de pensée dès le début. Watson s’est concentré sur les principes suivants conditionnement classique et, à une occasion, a suggéré qu’il pouvait prendre n’importe qui, quel que soit son milieu, et le former pour qu’il devienne ce qu’il voulait.
Les premiers comportementalistes ont concentré leur intérêt sur l’apprentissage associatif. Skinner s’intéressait davantage à la manière dont les conséquences des actions des gens influençaient leur comportement.
Skinner a utilisé le terme « opérant » pour désigner tout« comportement actif qui agit sur l’environnement pour générer des conséquences« . La théorie de Skinner explique comment nous acquérons la gamme de comportements appris que nous manifestons chaque jour.
Sa théorie a été très influencée par les travaux du psychologue Edward Thorndike, qui avait proposé ce qu’il appelait la loi de l’effet.3 Selon ce principe, les actions qui sont suivies de résultats souhaitables sont plus susceptibles d’être répétées, tandis que celles qui sont suivies de résultats indésirables sont moins susceptibles d’être répétées.
Le conditionnement opérant repose sur un principe assez simple : les actions qui sont suivies d’un renforcement seront renforcées et plus susceptibles d’être répétées à l’avenir. Si vous racontez une histoire drôle en classe et que tout le monde rit, vous êtes plus susceptible de la raconter à nouveau à l’avenir.
Si vous levez la main pour poser une question et que votre enseignant salue votre comportement poli, vous serez plus enclin à lever la main la prochaine fois que vous aurez une question ou un commentaire. Comme le comportement a été suivi d’un renforcement, ou d’un résultat souhaitable, l’action précédente est renforcée.
Inversement, les actions qui entraînent une punition ou des conséquences indésirables seront affaiblies et moins susceptibles de se reproduire à l’avenir. Si vous racontez à nouveau la même histoire dans une autre classe, mais que cette fois personne ne rit, vous aurez moins tendance à répéter l’histoire à l’avenir. Si vous criez une réponse en classe et que votre professeur vous gronde, vous êtes moins susceptible de perturber à nouveau la classe.
Types de comportement
Skinner a distingué deux types de comportements différents
- Les comportements de réponse sont ceux qui se produisent automatiquement et par réflexe, comme retirer sa main d’une cuisinière chaude ou bouger sa jambe lorsque le médecin vous tapote le genou. Ces comportements n’ont pas besoin d’être appris. Ils se produisent simplement de manière automatique et involontaire.
- Les comportements opérants, en revanche, sont ceux qui sont sous notre contrôle conscient. Certaines peuvent se produire spontanément et d’autres intentionnellement, mais ce sont les conséquences de ces actions qui déterminent si elles se reproduiront ou non à l’avenir. Nos actions dans l’environnement et les conséquences de ces actions constituent une partie importante du processus d’apprentissage.
Bien que le conditionnement classique puisse expliquer les comportements des personnes interrogées, Skinner a réalisé qu’il ne pouvait pas expliquer une grande partie de l’apprentissage. Au contraire, Skinner a suggéré que le conditionnement opérant était beaucoup plus important.
Skinner a inventé différents dispositifs durant son enfance et a mis ces compétences en pratique lors de ses études sur le conditionnement opérant. Il a créé un dispositif connu sous le nom de chambre de conditionnement opérant, qui est aujourd’hui connu sous le nom de boîte de Skinner. La chambre pourrait contenir un petit animal, tel qu’un rat ou un pigeon. La boîte contenait également une barre ou une clé sur laquelle l’animal pouvait appuyer pour recevoir une récompense.
Pour suivre les réponses, Skinner a également développé un dispositif connu sous le nom d’enregistreur cumulatif. L’appareil enregistre les réponses sous la forme d’un mouvement ascendant d’une ligne, de sorte que les taux de réponse peuvent être lus en observant la pente de la ligne.
Les composantes du conditionnement opérant
Il existe plusieurs concepts clés dans le conditionnement opérant.
Renforcement
Le renforcement est tout événement qui renforce ou améliore le comportement qui suit. Il existe deux types de renforcement. Dans les deux cas de renforcement, le comportement augmente.
- Les renforçateurs positifs sont des événements ou des résultats favorables qui suivent le comportement. Dans les situations de renforcement positif, une réponse ou un comportement est renforcé par l’ajout d’un éloge ou d’une récompense directe. Si vous faites du bon travail et que votre patron vous donne une prime, cette prime est un renforçateur positif.
- Les renforcements négatifs impliquent l’élimination d’un événement ou d’un résultat défavorable après l’exécution d’un comportement. Dans ces situations, une réponse est renforcée par l’élimination d’un élément considéré comme désagréable
Punition
La punition est la présentation d’un événement ou d’un résultat défavorable qui entraîne une diminution du comportement qui suit. Il existe deux types de punition. Dans les deux cas, le comportement diminue.
- La punition positive, parfois appelée punition par application, consiste à présenter un événement ou un résultat désagréable pour affaiblir la réponse qui suit. La fessée pour un mauvais comportement est un exemple de punition par application.
- La punition négative, également connue sous le nom de punition par élimination, se produit lorsqu’un événement ou un résultat agréable est supprimé après qu’un comportement a été adopté. Retirer un jeu vidéo à un enfant qui s’est mal comporté est un exemple de punition négative.
Programmes de renforcement
Le renforcement n’est pas nécessairement un processus simple, et un certain nombre de facteurs peuvent influencer la vitesse et la qualité de l’apprentissage de nouvelles choses
Skinner a découvert que le moment et la fréquence auxquels les comportements sont renforcés influencent la vitesse et la force de l’acquisition. En d’autres termes, le moment et la fréquence du renforcement influencent l’apprentissage de nouveaux comportements et la modification des anciens.
Il a identifié plusieurs schémas de renforcement différents qui affectent le processus de conditionnement opérant :
- Lerenforcement continu implique la délivrance d’un renforcement chaque fois qu’une réponse se produit. L’apprentissage tend à se faire relativement rapidement, bien que le taux de réponse soit assez faible. L’extinction se produit également très rapidement une fois que le renforcement est interrompu.
- Les programmes à ratio fixe sont un type de renforcement partiel. Les réponses ne sont renforcées qu’après un certain nombre de réponses. Cela conduit généralement à un taux de réponse assez stable.
- Les programmes à intervalles fixes sont une autre forme de renforcement partiel. Le renforcement ne se produit qu’après un certain intervalle de temps. Les taux de réponse restent assez stables et commencent à augmenter à mesure que le moment du renforcement approche, mais ralentissent immédiatement après la délivrance du renforcement.
- Les programmes à ratio variable sont également un type de renforcement partiel qui consiste à renforcer le comportement après un nombre variable de réponses. Cela conduit à un taux de réponse élevé et à un taux d’extinction lent.
- Les programmes à intervalles variables sont la dernière forme de renforcement partiel décrite par Skinner. Ce système consiste à délivrer un renforcement après un laps de temps variable. Cela tend également à conduire à un taux de réponse rapide et à un taux d’extinction lent.