Il condizionamento operante, talvolta definito condizionamento strumentale, è un metodo di apprendimento che utilizza premi e punizioni per il comportamento. Attraverso il condizionamento operante, si stabilisce un’associazione tra un comportamento e una conseguenza (negativa o positiva) per quel comportamento.
Ad esempio, quando i topi di laboratorio premono una leva quando si accende una luce verde, ricevono una pallina di cibo come ricompensa. Se premono la leva quando la luce rossa è accesa, ricevono una leggera scossa elettrica. Di conseguenza, imparano a premere la leva quando la luce verde è accesa e ad evitare la luce rossa.
Ma il condizionamento operante non è solo qualcosa che avviene in contesti sperimentali durante l’addestramento di animali da laboratorio. Svolge inoltre un ruolo importante nell’apprendimento quotidiano. Il rinforzo e la punizione avvengono continuamente in contesti naturali, ma anche in ambienti più strutturati come le aule scolastiche o le sedute di terapia.
La storia del condizionamento operante
Il condizionamento operante è stato descritto per la prima volta dal comportamentista B.F. Skinner, motivo per cui viene talvolta chiamato condizionamento skinneriano.
In quanto comportamentista, Skinner riteneva che non fosse necessario esaminare i pensieri e le motivazioni interne per spiegare il comportamento. Al contrario, egli suggerisce di guardare solo alle cause esterne e osservabili del comportamento umano.
Durante la prima parte del XX secolo, il comportamentismo divenne una forza importante all’interno della psicologia. Le idee di John B. Watson hanno dominato questa scuola di pensiero fin dall’inizio. Watson si è concentrato sui principi di condizionamento classico e, in un’occasione, suggerì che poteva prendere chiunque, indipendentemente dal suo background, e addestrarlo a diventare qualsiasi cosa volesse.
I primi comportamentisti hanno concentrato il loro interesse sull’apprendimento associativo. Skinner era più interessato a come le conseguenze delle azioni delle persone influenzassero il loro comportamento.
Skinner usò il termine operante per riferirsi a qualsiasi“comportamento attivo che opera sull’ambiente per generare conseguenze“. La teoria di Skinner spiegava come acquisiamo la gamma di comportamenti appresi che mostriamo ogni giorno.
La sua teoria è stata molto influenzata dal lavoro dello psicologo Edward Thorndike, secondo questo principio, le azioni che sono seguite da risultati desiderabili hanno maggiori probabilità di essere ripetute, mentre quelle che sono seguite da risultati indesiderabili hanno minori probabilità di essere ripetute.
Il condizionamento operante si basa su una premessa abbastanza semplice: le azioni seguite da un rinforzo saranno rinforzate e sarà più probabile che vengano ripetute in futuro. Se raccontate una storia divertente in classe e tutti ridono, è più probabile che la raccontiate di nuovo in futuro.
Se alzate la mano per fare una domanda e l’insegnante elogia il vostro comportamento educato, sarete più propensi ad alzare la mano la prossima volta che avrete una domanda o un commento. Poiché il comportamento è stato seguito da un rinforzo, o da un risultato desiderabile, l’azione precedente viene rinforzata.
Al contrario, le azioni che comportano punizioni o conseguenze indesiderate saranno indebolite e avranno meno probabilità di ripetersi in futuro. Se raccontate la stessa storia in un’altra classe, ma questa volta nessuno ride, sarete meno propensi a ripeterla in futuro. Se si grida una risposta in classe e si viene rimproverati dall’insegnante, è meno probabile che si disturbi di nuovo la lezione.
Tipi di comportamento
Skinner distingueva due diversi tipi di comportamento
- I comportamenti di risposta sono quelli che si verificano automaticamente e di riflesso, come ad esempio togliere la mano da un fornello caldo o muovere la gamba quando il medico dà un colpetto al ginocchio. Questi comportamenti non devono essere appresi. Si verificano semplicemente in modo automatico e involontario.
- I comportamenti operativi, invece, sono quelli che sono sotto il nostro controllo cosciente. Alcune possono verificarsi spontaneamente e altre intenzionalmente, ma sono le conseguenze di queste azioni a influenzare la possibilità che si ripetano o meno in futuro. Le nostre azioni nell’ambiente e le conseguenze di tali azioni sono una parte importante del processo di apprendimento.
Sebbene il condizionamento classico potesse spiegare i comportamenti degli intervistati, Skinner si rese conto che non poteva spiegare gran parte dell’apprendimento. Skinner suggerì invece che il condizionamento operante era molto più importante.
Skinner inventò diversi dispositivi durante la sua infanzia e mise in pratica queste abilità durante i suoi studi sul condizionamento operante. Creò un dispositivo noto come camera di condizionamento operante, che oggi è conosciuto come Skinner box. La camera potrebbe contenere un piccolo animale, come un ratto o un piccione. La scatola conteneva anche una barra o un tasto che l’animale poteva premere per ricevere una ricompensa.
Per tenere traccia delle risposte, Skinner sviluppò anche un dispositivo noto come registratore cumulativo. Il dispositivo registrava le risposte come un movimento verso l’alto di una linea, in modo che i tassi di risposta potessero essere letti osservando la pendenza della linea.
Componenti del condizionamento operante
Ci sono diversi concetti chiave nel condizionamento operante.
Rinforzo
Il rinforzo è un qualsiasi evento che rinforza o migliora il comportamento successivo. Esistonodue tipi di rinforzo. In entrambi i casi di rinforzo, il comportamento aumenta.
- I rinforzi positivi sono eventi o risultati favorevoli che seguono il comportamento. Nelle situazioni di rinforzo positivo, una risposta o un comportamento sono rinforzati dall’aggiunta di una lode o di una ricompensa diretta. Se fate un buon lavoro e il vostro capo vi dà un bonus, quel bonus è un rinforzo positivo.
- I rinforzi negativi comportano l’eliminazione di un evento o di un risultato sfavorevole in seguito all’esecuzione di un comportamento. In queste situazioni, una risposta è rafforzata dall’eliminazione di qualcosa di considerato sgradevole
Punizione
Lapunizione è la presentazione di un evento o di un risultato avverso che provoca una diminuzione del comportamento successivo. Esistono due tipi di punizione. In entrambi i casi, il comportamento diminuisce.
- La punizione positiva, a volte chiamata punizione per applicazione, presenta un evento o un risultato spiacevole per indebolire la risposta che segue. La sculacciata per un comportamento scorretto è un esempio di punizione per applicazione.
- La punizione negativa, nota anche come punizione di eliminazione, si verifica quando un evento o un risultato piacevole viene rimosso dopo che si è verificato un comportamento. Togliere il videogioco a un bambino dopo che si è comportato male è un esempio di punizione negativa.
Programmi di rinforzo
Il rinforzo non è necessariamente un processo semplice e una serie di fattori può influenzare la velocità e la qualità dell’apprendimento di nuove cose
Skinner scoprì che i tempi e la frequenza con cui i comportamenti venivano rinforzati influenzavano la velocità e la forza dell’acquisizione. In altre parole, i tempi e la frequenza del rinforzo influenzano l’apprendimento di nuovi comportamenti e la modifica di quelli vecchi.
Ha identificato diversi schemi di rinforzo che influenzano il processo di condizionamento operante:
- Ilrinforzo continuo prevede l’erogazione di un rinforzo ogni volta che si verifica una risposta. L’apprendimento tende a verificarsi in tempi relativamente brevi, anche se il tasso di risposta è piuttosto basso. Anche l’estinzione avviene molto rapidamente una volta interrotto il rinforzo.
- I programmi a rapporto fisso sono un tipo di rinforzo parziale. Le risposte vengono rinforzate solo dopo un determinato numero di risposte. In genere questo porta a un tasso di risposta abbastanza stabile.
- I programmi a intervalli fissi sono un’altra forma di rinforzo parziale. Il rinforzo avviene solo dopo che è trascorso un certo intervallo di tempo. I tassi di risposta rimangono abbastanza stabili e iniziano ad aumentare con l’avvicinarsi del momento del rinforzo, ma rallentano subito dopo la consegna del rinforzo.
- Anche i programmi a rapporto variabile sono un tipo di rinforzo parziale che prevede il rinforzo del comportamento dopo un numero variabile di risposte. Ciò comporta un alto tasso di risposta e un lento tasso di estinzione.
- I programmi a intervalli variabili sono l’ultima forma di rinforzo parziale descritta da Skinner. Questo schema prevede la consegna del rinforzo dopo un tempo variabile. Questo tende anche a portare a un tasso di risposta veloce e a un tasso di estinzione lento.