Tema 7

TEMA 7: CONTROL AVERSIVO EN EL
CONDICIONAMIENTO OPERANTE
INTRODUCCIÓN
 Entre las respuestas que pueden ser inducidas parcial o totalmente por la
estimulación aversiva, las más frecuentes son la huida, la inmovilización y la
agresión.
 La aparición de una u otra depende tanto de variables del propio estímulo
(duración o intensidad), como de la especie, de la historia del individuo y,
sobre todo, del contexto en el que ocurre.
 En el condicionamiento clásico, y desde un punto de vista funcional, podemos
definir los estímulos aversivos como aquellos que elicitan algún reflejo
defensivo, y es altamente adaptativo que el sujeto disponga de mecanismos
de aprendizaje que reduzcan su exposición a éstosEstímulos
incondicionados aversivos (EI-).
 Desde el condicionamiento operante, y también desde un punto de vista
funcional, estímulos aversivos son aquellos que los organismos evitan o de
los que escapanConsecuencias aversivas primarias.
 También existen estímulos aversivos secundarios, denominados estímulos
condicionados excitatorios aversivos en las contingencias pavlovianas, y
consecuencias aversivas secundarias en las contingencias operantes.
 Son estímulos que han adquirido su función a lo largo de la ontogenia del
individuo a través de mecanismos de condicionamiento clásico, y su efecto
está sujeto a otros fenómenos de aprendizaje como la extinción o el
contracondicionamiento, por ejemplo.
1. ESTIMULACIÓN AVERSIVA EN EL CONDICIONAMIENTO OPERANTE

1.1. Procedimientos de condicionamiento operante
 Pueden clasificarse en función de diferentes propiedades:
 Desde el punto de vista de su efecto sobre la conducta:
1) Reforzamiento: cuando el procedimiento tiene como resultado
un aumento de la probabilidad de emisión de la conducta.
2) Castigo: cuando tiene como resultado una reducción de la
probabilidad de emisión de la conducta.
 Desde el punto de vista de la contingencia entre la respuesta y la
consecuencia:
1) Positivo: cuando la contingencia respuesta-consecuencia es
directa.
Tema 7 1
2) Negativo: cuando es inversa.
 Desde el punto de vista de la naturaleza de dicha consecuencia:
1) Apetitiva
2) Aversiva
 Combinándolos, podemos establecer cuatro tipos de procedimientos:
1) Entrenamiento de recompensa o Reforzamiento positivo:
 Contingencia respuesta-consecuencia positiva.
 Consecuencia positiva: la aparición de un reforzador.
 Aumento de la probabilidad de emisión de la conducta.
2) Entrenamiento de evitación/escape o Reforzamiento negativo:
 Contingencia respuesta-consecuencia negativa.
 Consecuencia negativa (EI aversivo, EC excitatorio aversivo o
EC inhibitorio apetitivo): la no aparición o retirada de una
consecuencia aversiva tras la emisión de la conducta.
 Aumento de la probabilidad de emisión de la conducta.
3) Castigo o Castigo positivo:
 Contingencia respuesta-consecuencia positiva.
 Consecuencia negativa o aversiva.
 Reduce la probabilidad de emisión de la conducta.
4) Entrenamiento de omisión o Castigo negativo:
 Contingencia respuesta-consecuencia negativa.
 Consecuencia positiva: la no aparición o retirada de un
reforzador tras la emisión de la conducta.
 Reduce la probabilidad de emisión de la conducta.
 La distinción entre estos procedimientos no es tan sencilla en nuestro
ambiente natural. Si, por ejemplo, en una calurosa tarde de julio
encendemos el aparato de aire acondicionado, ¿estaríamos ante un
caso de reforzamiento negativo (el sujeto escapa del calor como
estímulo aversivo) o positivo (reforzado por la aparición del frío)?
 Hineline defendió que no existe simetría absoluta entre el
reforzamiento positivo y negativo. Cuando un evento requiere de la
emisión de una respuesta para su desaparición, ésta debe producirse en
su presencia. Sin embargo, las respuestas reforzadas positivamente
tienen que emitirse necesariamente antes de la aparición del refuerzo.
 De los cuatro procedimientos del CO los aversivos son el castigo
(castigo positivo) y el entrenamiento escape/evitación:
 Mientras que con el castigo las conductas tienen como consecuencia
la aparición de un evento aversivo por lo que disminuye su emisión.
 En el entrenamiento de escape/evitación se busca huir de la
estimulación aversiva, lo que da lugar a un aumento de la conducta.
Tema 7 2
1.2. Castigo, escape y evitación
 Entrenamiento de escape:
 La consecuencia aversiva está presente y no desaparece hasta la
emisión de la conducta operante.
 Es decir, la operante es reforzada por la supresión del evento
aversivo que estaba en curso.
 En laboratorio las preparaciones de escape incluyen tanto respuestas
locomotrices, en las que el sujeto se desplaza fuera del lugar donde
se halla el estímulo aversivo, como respuestas manipulativas que
interrumpen la emisión del estímulo.
 Generalmente la técnica de desplazamiento consiste en pasar de un
compartimento a otro, en una caja doble o lanzadera dónde se
electrifica uno de ellos, o correr a lo largo de un corredor en una caja
de salida y meta, dónde la salida y el corredor están electrificados
pero la meta no.
 En la técnica manipulativa las respuestas de escape suelen consistir
en accionar una palanca o picar una tecla.
 Entrenamiento de evitación:
 El sujeto es expuesto a la presentación periódica de una
consecuencia aversiva.
 Por tanto, la emisión de la operante impide o retrasa su aparición.
 La diferencia con el escape es que aquí la operante no se emite
mientras el estímulo aversivo se encuentra presente (ej. dar a la
palanca para que pare la descarga, sería escape) sino antes de que
haya aparecido (ej. dar a la palanca antes de que llegue la descarga
para evitarla, que sabes que va a llegar porque la has sufrido antes)
 Castigo:
 Nos referimos al castigo positivo.
 La emisión de la conducta va seguida de la aparición de un estímulo
aversivo.
 Para que se pueda aplicar, es necesario que la conducta se emita con
un cierto grado de probabilidad, por lo que los experimentos
empiezan con una fase previa en la que se refuerza la emisión de
alguna conducta.
 El grado en que en una fase posterior se ve suprimida dicha conducta
se considera un índice de la efectividad del castigo.
 Semejanzas entre el escape/evitación (reforzamiento negativo) y el
castigo: en ambos, la conducta del sujeto es modelada para reducir al
máximo su exposición a la estimulación aversiva, o lo que es lo mismo,
para aumentar los periodos de seguridad.
Tema 7 3
 Diferencias: mediante el reforzamiento negativo aumentamos la
probabilidad de emisión de la operante, mientras que con el castigo la
reducimos.
 Por eso, en ciertos escritos se suele denominar “evitación activa” a la
conducta reforzada negativamente y “evitación pasiva” a la castigada
positivamente.
1.3. Procedimientos de condicionamiento operante y estados emocionales
 Además de la RI especifica (como la salivación producida por la comida),

los estímulos elicitadores provocan en los sujetos estados emocionales
que pueden asociarse al resto de los eventos antecedentes
(convirtiéndolos en ECs).
 El efecto emocional de los ECs suele etiquetarse así:
 ECs excitatorios apetitivos: “esperanza”
 ECs excitatorios aversivos: “ansiedad”
 ECs inhibitorios apetitivos: “tristeza”
 ECs inhibitorios aversivos: “alivio”
 Los Ed+ (para respuestas reforzadas negativamente) y las conductas de
evitación o escape generan estados de alivio en los sujetos.
 Los Ed- (para respuestas castigadas) y las propias conductas castigadas
producen estados de ansiedad.
 Pero, aún más importante, la presencia de un EI aversivo provoca
miedo, y esta poderosa reacción es algo que hay que tener siempre en
cuenta para predecir el efecto del procedimiento que estamos usando.
 Se ha demostrado experimentalmente que, aunque la estimulación
aversiva independiente de la respuesta pueda producir cierta supresión
de la conducta instrumental, se da una supresión significativamente
mayor de la conducta si la estimulación aversiva se produce por la
ejecución de la respuesta instrumental.
 Se concluye, por tanto, que la estimulación aversiva producida por la
respuesta es mucho más eficaz para suprimir la conducta que la
estimulación afectiva independiente de la respuesta.
Tema 7 4
 Existen diferentes teorías que intentan explicar el efecto en la conducta
de los procedimientos de castigo, siendo una de las más relevantes la
Teoría de la respuesta emocional condicionada:
 Fue propuesta por Estes y se basa en las observaciones que realizó
junto a Skinner del procedimiento de supresión condicionada.
 La idea básica es que un EC excitatorio aversivo provoca ciertas
respuestas emocionales (como la paralización) por el hecho de estar
emparejadas con una descarga.
 Esas respuestas emocionales condicionadas son incompatibles con la
respuesta de presión de palanca (la rata no puede quedarse
paralizada y al mismo tiempo presionar la palanca). Por tanto, la tasa
de presión de la palanca se suprime durante las presentaciones del
EC.
 Pero, a diferencia del experimento de supresión condicionada, los
procedimientos de castigo no suelen incluir un EC explícito que señale
que va a darse la descarga. Estes sugirió que cumplen esta función
diversos estímulos (visuales, táctiles y propioceptivos) que el sujeto
experimenta antes de dar la respuesta castigada.
2. CONDUCTA DE EVITACIÓN
 La conducta de evitación ha recibido mayor atención que la de escape por
parte de los investigadores principalmente por dos razones:
1) Por el reto teórico de explicar la aparición y mantenimiento de una
conducta que tiene como consecuencia la ausencia de un estímulo
aversivo.
2) Porque ambos comportamientos pueden simplemente representar
extremos de un continuo que sería el reforzamiento negativo.
 Bechterev (1913) llevó a cabo un estudio con humanos en el que pretendían
asociar un estímulo neutro (futuro EC) a una descarga (EI).
 Los sujetos inicialmente levantaban de forma refleja el dedo (RI) de la
placa metálica al recibir la descarga.
 Después de pocos ensayos empezaron a hacerlo (RC) tras la aparición del
estímulo designado como EC, no recibiendo la descarga programada.
 Este experimento se consideró de aprendizaje asociativo hasta que algunos
autores lo repitieron con humanos y, lo más importante, añadiendo un grupo
de control en el que el EI se presentaba en todos los ensayos
independientemente de la respuesta del sujeto.
 Los resultados mostraron que en el grupo experimental, el que podía evitar la
descarga, tanto la velocidad de adquisición como la ejecución de la supuesta
RC eran mucho mayores.
Tema 7 5
 Esto demostró que eran dos conductas diferentes, y marcó el inicio de una
línea de investigación en el marco del condicionamiento operante.
2.1. Procedimientos de evitación
2.1.1. Evitación discriminada o señalada
 Recibe este nombre debido a la existencia de claves que señalan el
acontecimiento aversivo (frecuentemente una descarga).
 Esta técnica utiliza ensayos discretos, con el consiguiente tiempo
experimental e intervalo entre ensayos.
 Cada ensayo se inicia con la presentación de un evento neutro (como
una luz o tono) al que se denomina “señal”, que si seguimos la
terminología operante va a funcionar como Ed+.
 Después, dependiendo de lo que haga el sujeto, hay dos
posibilidades:
1) Si el sujeto no emite la respuesta requerida para la evitación
durante el intervalo entre la señal y el EI aversivo:
 Se presenta el EI programado y se mantiene hasta que la
emite, después de lo cual tanto la señal como el EI cesan.
 En este caso, la respuesta instrumental se consideraría
una forma de escape, ya que suprime la descarga eléctrica
en curso.
 Por tanto, este tipo de ensayo se denomina ensayo de
escape.
2) Si el sujeto emite la respuesta requerida, antes de que se
presente el EI aversivo:
 La señal cesa y se omite el EI en ese ensayo.
 Este sí se consideraría un ensayo de evitación con éxito.
 Durante los primeros estadios del entrenamiento, la mayoría de los
ensayos son de escape.
 Vemos pues, que en un en un ensayo de evitación discriminada se
barajan tres elementos: la señal de aviso, la respuesta operante y la
consecuencia aversiva.
 Las relaciones básicas de contingencia que se producen entre ellos
son:
a) Contingencia Respuesta-Señal de aviso: la emisión de la respuesta
operante conlleva la desaparición de la señal de aviso, lo que
convierte su relación en una contingencia de escape.
b) Contingencia Respuesta-Consecuencia: aunque inicialmente se
produce una contingencia de escape, cuando el entrenamiento
está más avanzado la contingencia será de evitación.
Tema 7 6
c) Contingencia Señal de aviso-Consecuencia: la contingencia entre
estos dos eventos ambientales también varía dependiendo de la
respuesta del sujeto:
 En los primeros momentos del procedimiento, antes de
que el sujeto adquiera la respuesta de evitación, la señal
de aviso y la consecuencia aversiva ocurren
conjuntamente.
 Cuando el sujeto consigue evitar la descarga programada,
hace que se rompa esta contingencia, de manera que
ahora aparece únicamente la señal de aviso, pero no la
consecuencia.
 Esto implica que durante los ensayos de escape se
produce un condicionamiento excitatorio aversivo entre la
señal y la descarga, condicionamiento que se somete a
extinción en los ensayos de evitación, en los que la señal
adquiere la función de Ed+ para la conducta de evitación.
 Un efecto muy robusto que se ha encontrado en la adquisición de la
conducta de evitación discriminada es la elevada cantidad de ensayos
que requiere.
 Algunos autores explican esta diferencia como resultado de la
interferencia de la conducta elicitada por la señal (la parálisis) en la
emisión de la operante requerida.
 Otros apuntan a que puede deberse a la especificidad de la conducta
de evitación/escape en función de la especie.
 Las investigaciones apuntan a que la elección de la operante que se
pretende reforzar determina el tiempo necesario para adquirirla:
cuanto más se asemeje a la respuesta elicitada específica de la
especie mayor es la velocidad de aprendizaje.
 Se han propuesto diferentes teorías para explicar el efecto que el
entrenamiento de evitación discriminada tiene sobre los individuos:
1) Teoría Bifactorial de Mowrer:
 Es la primera y más influyente en el campo de la evitación
discriminada.
 Se debe a su preocupación por la paradoja de que una
conducta pueda ser reforzada por la ausencia de un
evento.
 Sostiene que en el aprendizaje de evitación están
implicados dos procesos interdependientes: el
condicionamiento clásico de miedo al EC y el
reforzamiento operante de la respuesta de evitación a
través de la reducción del miedo.
Tema 7 7
 Este reforzamiento no es posible hasta que el miedo se
condiciona al EC.
 En definitiva, desde esta posición se explica la conducta de
evitación en términos de escape del miedo condicionado,
más que en términos de prevención de la descarga.
 Es decir, la operante se refuerza por la reducción del
«miedo» (o «ansiedad») generada por el EC (señal), y no
por impedir la aparición del EI (descarga).
 De esta forma, la Teoría Bifactorial predice una
interacción constante entre CC y CO con cambios cíclicos
en las repuestas de evitación:
1) La señal se condiciona de forma excitatoria aversiva
mientras el sujeto no emite la respuesta de evitación
(ya que aparece el EI).
2) El sujeto emite la respuesta para escapar del miedo
generado por el EC, impidiendo la aparición del EI y
provocando que la función del EC se extinga (al no
aparecer el EI).
3) Una vez se extingue el EC deja de emitir la respuesta,
volviendo a presentarse el EI (lo que nos lleva de
nuevo al punto 1).
2) Teoría de Schoenfeld:
 Formuló una teoría sobre la evitación discriminada en la
que no aparecía el concepto o la variable intermediaria
del miedo.
 Propuso que la señal adquiere, por condicionamiento
clásico, funciones de consecuencia aversiva secundaria o
condicionada.
 Los animales en la situación de evitación no pueden huir
de la descarga porque no está presente; lo que emiten es
una respuesta de escape reforzada por la retirada de la
señal de aviso.
 Así, en realidad la evitación sería una situación de
reforzamiento negativo secundario o condicionado.
 Aunque ambas teorías se basan en la interpretación de la conducta
de evitación discriminada como una forma de escape ante la señal,
Schoenfeld no considera necesario aludir al efecto emocional del
miedo en el proceso.
Tema 7 8
2.1.2. Evitación no discriminada de operante libre
 En estos procedimientos la descarga se programa para que ocurra
periódicamente, sin aviso, (cada 10 seg por ejemplo).
 Se establece como respuesta de evitación una determinada
conducta, y la aparición de esta respuesta impide la administración
durante un periodo fijo (30 seg, por ejemplo) de la descarga
programada.
 El resultado es que los individuos aprenden a evitar las descargas aun
cuando no existe un estímulo de aviso.
 Al contrario que en la evitación discriminada, que requiere ensayos
discretos, permite que las respuestas de evitación se den en cualquier
momento, ya que, ocurran cuando ocurran, reinician el intervalo R-EI.
Por esta razón se denomina a este tipo de evitación «de operante
libre» Ej.: cuando guardamos periódicamente un documento de texto (R)
para evitar perder los cambios realizados (E aversivo).
 Este procedimiento se construye a partir de dos intervalos de
tiempo:
1) Intervalo E-E, Er-Er, o Reloj choque-choque: es el intervalo entre
las descargas en ausencia de una respuesta.
2) Intervalo R-E, R-Er, o Reloj respuesta- choque: es el intervalo
entre la respuesta y la descarga programada, es decir, el período
de seguridad.
 Los resultados que se obtienen presentan ciertas diferencias
respecto a la evitación discriminada:
1) Implican generalmente períodos mucho más largos de
entrenamiento que los experimentos de evitación
discriminada.
2) Con frecuencia, aun después de un entrenamiento extenso, los
animales no aprenden nunca a evitar todas las descargas.
3) Distintos sujetos a menudo se diferencian enormemente en la
forma de responder ante el mismo procedimiento de evitación
de operante libre.
 Entre las hipótesis explicativas destacan dos:
1) Hipótesis Propioceptiva de Sidman (1953):
 Sugiere que el papel de la señal de aviso (no existente
explícitamente en este tipo de procedimiento) lo ocupa la
propia conducta del individuo.
 Todas las conductas que realiza el sujeto en la situación
experimental (excepto la respuesta instrumental) quedan
asociadas a la aplicación de la descarga, con lo que en el
futuro, cuando el sujeto las esté realizando, sufrirá una
Tema 7 9
ansiedad comparable a la del sujeto al que, en un
procedimiento de evitación discriminada, se le presentara
la señal de aviso.
 La manera de escapar de esa ansiedad es emitiendo la
operante reforzada.
2) Hipótesis Interoceptivo-temporal de Anger (1963), según la cual
es el paso del tiempo (a través de la “interiorización” de los dos
intervalos) el que produciría la ansiedad que conduce al sujeto a
responder.
 Estas dos hipótesis se centran en el escape del EC excitatorio aversivo
como explicación, pero existe otra teoría que señala al reforzamiento
positivo como causa de la respuesta observada:
3) Hipótesis de la Señal de Seguridad de Dinsmoor (2001):
 Los estímulos asociados a los periodos de seguridad
provocados por la respuesta de evitación
(fundamentalmente los que son resultado de la
retroalimentación de desplazarse hacia una zona de la
caja, saltar a una plataforma o pulsar una palanca) se
convierten en estímulos condicionados inhibitorios
aversivos por su contingencia negativa con la descarga.
 Por tanto, todos esos estímulos espaciales y
propioceptivos que siguen a la respuesta de evitación,
acaban funcionando como un reforzador de la respuesta
de evitación.
 Ha recibido bastante apoyo empírico:
a) Por un lado, se ha comprobado que aquellos
estímulos que se han condicionado de forma
inhibitoria aversiva a lo largo de un procedimiento de
evitación funcionan de forma eficaz como
consecuencias apetitivas para otras conductas.
b) Por otro lado, se ha demostrado que la inclusión de
estímulos explícitos (como una luz o un tono) que
sigan a la emisión de la respuesta de evitación acelera
su adquisición.
2.1.3. Evitación de descarga aleatoria de Herrnstein-Hineline
 Puede mantenerse que la evitación de Sidman es realmente de tipo
discriminativo, ya que al presentar las descargas en intervalos
temporales fijos los estímulos internos pueden adquirir esa función.
Tema 7 10
 Herrstein y Hineline diseñaron un procedimiento de evitación más
eficaz:
 Los autores de este procedimiento introdujeron a ratas en
una caja de Skinner que contaba con una palanca y dos
máquinas dispensadoras de descargas (A y B) conectadas al
suelo de rejilla metálica de la caja (aunque sólo una a la vez).
 Las descargas de cada máquina eran intensas, breves y
programadas en períodos de tiempo irregulares. La única
diferencia entre ambas es que la máquina A las dispensaba
según un orden más rápido (mayor frecuencia) que la B.
 Al principio se conectaba la maquina A, una presión de la
palanca la desconectaba y conectaba la B, que se mantenía
activa hasta dispensar una descarga, entonces se volvía a
conectar A.
 Es decir, en ausencia de respuesta de evitación operaba el
programa de descargas frecuentes, y ejecutar la operante
tenía como consecuencia la suspensión del programa de
descargas frecuentes, y activaba el de descargas poco
frecuentes, que operaba hasta la siguiente administración.
 La máquina A sería como un registro E-E de Sidman, mientras
que la B sería como un registro R-E, pero a intervalos
variables.
 En estas condiciones era posible que inmediatamente
después de accionar la palanca, la máquina B produjese la
descarga. Así, el apretar la palanca no prevenía
necesariamente del estímulo aversivo. Todo lo que se podía
hacer era cambiar las condiciones para decrecer la tasa total
de descargas (mantener una frecuencia baja de
administración de descargas).
 Los resultados obtenidos por estos autores mostraron un
aumento de la probabilidad de emisión de la presión de la
palanca (conducta de evitación).
 Herrnstein explicó el reforzamiento de la conducta de evitación no
tanto como el resultado de omitir o retardar la presentación de la
estimulación aversiva, sino como el debido a la reducción de su
frecuencia total o densidad, entendida ésta como una contingencia
molar negativa entre las tasas de respuesta y de consecuencias
aversivas.
Tema 7 11
2.2. Variables que afectan al reforzamiento negativo
2.2.1. Intensidad del estímulo aversivo
 A mayor intensidad, mayor velocidad de adquisición de la conducta
reforzada negativamente.
2.2.2. Experiencia previa o familiaridad del estímulo aversivo
 La habituación en los EI y la extinción en los EI pueden reducir la
efectividad de las consecuencias aversivas, tanto para la adquisición
de conductas (evitación/escape), como para su supresión (castigo).
2.2.3. Los intervalos E-E y R-E
 Cuanto menor intervalo E-E (mayor frecuencia de descargas) y mayor
intervalo R-E (mayor periodo de seguridad), mayor será la
probabilidad de que el animal aprenda la respuesta de evitación.
 Esto también se cumple teniendo en cuenta los valores relativos:
cuando el intervalo R-E>intervalo E-E.
 Además de en el procedimiento de evitación libre de Sidman, esto
también ocurre en la evitación de descarga aleatoria, aunque la
evitación no será nunca absoluta, e incluso algunas respuestas
pueden ir inmediatamente seguidas de descargas.
3. CASTIGO
3.1. Aproximaciones teóricas
3.1.1. Thorndike (1911)
 Propuso que el reforzamiento positivo y el castigo implican procesos
simétricamente opuestos, así como el reforzamiento positivo
fortalece la conducta, el castigo la debilita.
 Es decir, las consecuencias negativas de una conducta debilitan la
asociación entre dicha conducta y los estímulos presentes en la
situación.
3.1.2. Teoría de la respuesta emocional condicionada de Estes (1944)
 Fue propuesta por Estes y se basa en las observaciones que realizó
junto a Skinner del procedimiento de supresión condicionada.
 La idea básica es que un EC excitatorio aversivo provoca ciertas
respuestas emocionales (como la paralización) por el hecho de estar
emparejadas con una descarga.
 Esas respuestas emocionales condicionadas son incompatibles con la
respuesta de presión de palanca (la rata no puede quedarse
paralizada y al mismo tiempo presionar la palanca). Por tanto, la tasa
de presión de la palanca se suprime durante las presentaciones del
EC.
 Pero, a diferencia del experimento de supresión condicionada, los
procedimientos de castigo no suelen incluir un EC explícito que
Tema 7 12
señale que va a darse la descarga. Estes sugirió que cumplen esta
función diversos estímulos (visuales, táctiles y propioceptivos) que el
sujeto experimenta antes de dar la respuesta castigada.
3.1.3. Teoría de las respuestas competitivas reforzadas negativamente de
Dinsmoor (1954)
 Esta teoría explica el castigo en términos de la adquisición de
respuestas de evitación incompatibles con la respuesta castigada.
 La supresión de la conducta no se considera un reflejo del
debilitamiento de la respuesta castigada, más bien, se explica en
términos del fortalecimiento de aquellas respuestas competitivas que
evitan eficazmente la estimulación aversiva.
3.2. Variables que afectan al castigo
 Premack demostró que, al igual que el reforzamiento, el castigo no es
absoluto sino relativo. Más concretamente, si tras establecer una
jerarquía de preferencias, en función de la frecuencia en la ocurrencia de
diferentes respuestas, hacemos contingente la emisión de una conducta
menos preferida con el acceso a otra más preferida, la primera es
reforzada.
 Pero si forzamos al sujeto a emitir una respuesta tras la emisión de una
más preferida, el efecto es el contrario: la que se emitió en primer lugar
ve reducida su probabilidad de emisión en el futuro, es decir, es
castigada.
 En los estudios de laboratorio, normalmente en lugar de aplicar castigo
sobre alguna respuesta que el sujeto ya emite con alguna probabilidad,
suelen comenzar con la adquisición de alguna operante mediante
reforzamiento positivo para luego superponer una contingencia de
castigo (que suele ser un estímulo aversivo como una descarga).
 La mayoría de la investigación sobre el castigo se ha realizado siguiendo
este esquema, lo que implica que:
a) No parten de la concepción relativista de Premack.
b) Los resultados son la suma del efecto del castigo y del reforzamiento
(ya que se aplican simultáneamente).
 A pesar de esto, los hallazgos encontrados ponen de manifiesto que las
variables de las que depende de la efectividad del castigo para suprimir la
conducta son:
A) Intensidad del estímulo aversivo:
 Cuánto más intenso, más eficaz resultará para suprimir las
respuestas; de hecho, en las condiciones adecuadas, puede
hacerlo totalmente.
Tema 7 13
 Cuando esto pasa y la respuesta se suprime por completo, puede
darse un fenómeno paradójico: que la conducta reaparezca más
tarde.
 Esto se debe a que tras la supresión repentina de la respuesta el
sujeto deja de tener contacto con la consecuencia aversiva y, tras
un tiempo, la emisión de la misma se realiza cuando la
contingencia de castigo ya no está activa (parecido a la
Recuperación Espontánea tras la extinción).
 Esta reaparición de la respuesta suprimida, ha hecho pensar a
algunos autores, por ejemplo Skinner, que el castigo no es un
método eficaz para suprimir la respuesta.
 Sin embargo, otros autores, como Masserman, defienden lo
contrario comprobó con gatos que las conductas suprimidas con
castigo podían seguir sin aparecer incluso 20 meses después.
B) Inmediatez y demora del estímulo aversivo:
 La alta contigüidad es un elemento favorecedor.
 A mayor inmediatez del castigo, mayor supresión de la conducta.
 Por tanto, el aumento del intervalo R- Er produce una menor
supresión de la conducta.
C) Cambios graduales en la intensidad del estímulo aversivo:
 La forma en la que se introduce la consecuencia aversiva es un
factor muy importante. Si primero introducimos un aversivo
suave y vamos aumentando gradualmente la intensidad, se
producirá mucha menos supresión que si inicialmente utilizamos
un castigo de alta intensidad.
 Así, la exposición inicial a una suave estimulación aversiva que no
altera mucho la conducta reduce los efectos de un castigo
intenso posterior.
 Por el contrario, la exposición inicial a una estimulación aversiva
intensa aumenta los efectos supresores de un castigo suave
posterior.
D) Experiencia previa:
 Si la fase de reforzamiento previo fue muy larga y el volumen de
reforzamiento muy grande, los efectos del castigo serán
menores.
E) Efectos discriminativos del estímulo aversivo:
 Castigo discriminativo: se produce si la respuesta se castiga en
presencia de un estímulo discriminativo, pero no cuando el
estímulo está ausente.
Tema 7 14
 Con una exposición continuada al discriminativo, los efectos
supresores del castigo se limitan a la presencia de dicho
estímulo.
F) Programa de castigo:
 En términos generales, los programas de castigo continuos son
más efectivos que los intermitentes.
G) Programa de reforzamiento compuesto:
 Toda técnica de castigo es una técnica mixta, ya que castigar una
conducta requiere que esa conducta haya sido reforzada o esté
siendo reforzada a la vez.
 Así, podemos encontrarnos estos tres casos:
a) Castigo sobre líneas-base apetitivas: aquí actúan
simultáneamente el castigo y el reforzamiento positivo sobre
la misma respuesta.
b) Castigo sobre líneas-base defensivas: concurren el castigo y
el reforzamiento negativo (escape/evitación).
c) Castigo sobre líneas-base de extinción: se castiga una
respuesta que previamente ha sido reforzada, pero que en el
momento de aplicar el castigo está siendo extinguida.
 La eficacia del castigo se verá reducida por la eficacia relativa del
procedimiento con el que esté compitiendo (en el caso del
reforzamiento positivo y negativo) o aumentada por la eficacia
del proceso de extinción de la misma conducta.
H) Existencia de una conducta alternativa reforzada:
 En muchos experimentos, la respuesta castigada es también la
única respuesta que el sujeto puede realizar para obtener un
reforzamiento positivo.
 La disponibilidad de una fuente alternativa de reforzamiento
aumenta enormemente la supresión de las respuestas producida
por el castigo.
I) Manipulaciones motivacionales:
 Se produce una mayor supresión de la conducta si se reduce la
motivación para realizar dicha conducta.
 Incluso cuando se aumenta su motivación (nivel de privación, por
ejemplo) la operante suprimida no reaparece.
3.3. La eficacia relativa del castigo para suprimir la conducta
 Sólo podemos hablar de castigo cuando efectivamente la consecuencia
suprime la conducta (lo que implica que, por definición, siempre
funciona).
 El uso de supuestas consecuencias aversivas secundarias (como la
reprimenda) conlleva un gran riesgo ya que su topografía no supone
Tema 7 15
necesariamente una función concreta. Puede que al reprender al niño (en
nuestro ejemplo) no sólo no estemos suprimiendo su conducta sino
reforzándola si se asocia en mayor medida con la atención (que suele ser
un poderoso reforzador generalizado) que con otros estímulos aversivos
(como un azote).
 En este caso no podríamos hablar de castigo, sino de reforzamiento
positivo.
 Los primeros trabajos experimentales sobre el castigo (años 30-40)
concluyeron que su capacidad para modelar la conducta no sólo era muy
reducida sino también poco estable en el tiempo.
 Tuvieron que pasar más de treinta años desde esas primeras afirmaciones
para que otros trabajos experimentales defendieran lo contrario. Desde
entonces, la investigación sobre el castigo ha demostrado que con los
parámetros adecuados la conducta puede ser suprimida de manera
absoluta y en muy pocos ensayos, pero también que si no se controlan
estos parámetros la supresión puede no ser total y/o reaparecer la
conducta en el futuro.
 Ventajas del uso del castigo:
 Provoca una reducción de la conducta a corto y largo plazo.
 Alto grado de inmediatez.
 Alta resistencia a un posterior recondicionamiento: el
recondicionamiento de una conducta eliminada mediante el
castigo es mucho más lento y difícil que el condicionamiento de
esa misma conducta si no ha sido anteriormente castigada.
 Desventajas o efectos colaterales del uso del castigo:
 Genera una serie de efectos colaterales no deseables: ansiedad,
agresión, neurosis…, ya que aumenta las probabilidades de que el
contexto ambiental en el que se está aplicando adquiera la
capacidad de provocar ansiedad en el sujeto
 Posibilidad de ampliar los estímulos generadores de ansiedad para
el sujeto (por generalización), pudiendo dar lugar al desarrollo de
trastornos del comportamiento.
 Puede dar lugar a una redistribución no prevista de la conducta
del sujeto, aumentando la tasa de otras conductas que tampoco
son deseables.
 Puede generar conducta agresiva:
 Agresión elicitada (como conducta refleja): cuando se
sitúa a dos organismos y se les aplica estimulación
aversiva suelen atacarse entre ellos.
 Agresión operante: cuando la presencia de un organismo
(el domador, el adiestrador, o el educador, por ejemplo)
Tema 7 16
correlaciona con la presentación de estimulación aversiva,
la agresión dirigida hacia ese organismo puede verse
reforzada como conducta de escape/evitación si llega a
suprimir dicha estimulación.
3.4. Otros efectos no deseados del castigoFenómenos paradójicos del castigo
 En ocasiones, la presentación de estímulos aversivos tras la emisión de la
operante lejos de reducir su probabilidad de emisión, la aumenta.
 Aunque por motivos de parsimonia o didácticos, solemos centrarnos en
pocas variables para explicar un comportamiento, las relaciones de
contingencia y contigüidad son mucho más lábiles y afectan a muchos
más eventos de los que un análisis superficial suele tener en cuenta.
3.4.1. La conducta masoquista
 Está implicado el reforzamiento positivo: la búsqueda del castigo
puede aparecer en una situación en la que el reforzamiento positivo
sólo está disponible cuando se castiga la operante.
 El castigo se convierte así en una señal o estímulo discriminativo para
la disponibilidad de un refuerzo positivo. Por ejemplo si a un niño que
hace algo malo, tras una reprimenda se le dan muestras de cariño, del que
normalmente esta privado, aunque se presente estimulación aversiva
contingentemente a la conducta el resultado es un aumento de la tasa, en
lugar de una reducción.
 Otra forma de adquirir la conducta masoquista es mediante el
contracondicionamiento de la consecuencia aversiva: si
condicionamos un estímulo condicionada o incondicionado
asociándolo a otro con un efecto inverso pero más fuerte, podemos
cambiar el tipo de respuesta elicitada por dicho estímulo y, por tanto,
su función como reforzador o consecuencia aversiva. Por ejemplo,
emparejar un EI aversivo (descarga pequeña) con un EI apetitivo (comida)
más intenso e ir modificando paulatinamente la intensidad (hasta que tenga
mayor intensidad EI aversivo que el apetitivo).
3.4.2. Círculo vicioso
 Aparece ante conductas reforzadas negativamente
(escape/evitación).
 Una vez se ha adquirido la conducta de escape ante un estímulo
aversivo, la presencia del estímulo aversivo aumenta las
probabilidades de emisión de dicha conducta.
 El propio evento aversivo adquiere funciones de discriminativo
(señal) para esa conducta.
 Esto implica que en un procedimiento de castigo ese estímulo
aversivo no suprimirá esa conducta, sino que la aumentará. A este
fenómeno, efecto de utilizar un discriminativo positivo como
Tema 7 17
consecuencia aversiva para la misma conducta, se le denomina
círculo vicioso.
4. OTRAS ESTRATEGIAS DE SUPRESIÓN DE LA CONDUCTA

4.1. Entrenamiento de omisión
 El entrenamiento de omisión consiste en establecer una contingencia
negativa entre una determinada respuesta y la administración de un
reforzador.
 En términos probabilísticos diríamos que la probabilidad de que se
presente un reforzador es menor si el sujeto emite la respuesta que si no
la emite.
 Este procedimiento resulta en una disminución de la tasa de respuesta.
 Existe cierta similitud entre el Entrenamiento de Omisión y la Evitación de
Sidman: en ambos hay contingencia negativa, y en ambos hay intervalos
consecuencia-consecuencia y también respuesta-consecuencia.
 El intervalo consecuencia- consecuencia (E-E) nos indica la frecuencia con
la que se van a presentar las consecuencias cuando el sujeto no emite la
respuesta.
 Por contra, el intervalo respuesta-consecuencia nos indica el tiempo que
va a transcurrir entre que el sujeto emite la respuesta y el retraso añadido
en la presentación de la próxima consecuencia.
 No se despliegan señales de aviso y la respuesta, se emita en el momento
en que se emita, retrasa la aparición del reforzador.
 Las variables que determinan la eficacia reductora del entrenamiento de
omisión (para que desaparezca la respuesta sobre la que estamos
trabajando) son muy parecidas a las del procedimiento de evitación:
1) Los intervalos de presentación de la consecuencia en ausencia de
respuestas (intervalos E-E) deben ser de menor duración que los de
entrega de la consecuencia tras la respuesta del sujeto (intervalos R-
E).
2) El ajuste paramétrico en función de la ejecución: se debe empezar por
valores pequeños de intervalo R-E para paulatinamente, y teniendo
en cuenta la ejecución del sujeto, ir aumentándolo.
 El entrenamiento de omisión tiene como efecto inmediato sobre la tasa
de conducta un mantenimiento residual de la respuesta: cuando al sujeto
se le presenta el reforzador debido a que no ha dado la respuesta
castigada negativamente, el sujeto empieza de nuevo a responder.
 Sin embargo, esa tasa residual acaba por desaparecer a largo plazo,
llegando a la total eliminación de la conducta y a una extrema resistencia
al recondicionamiento.
Tema 7 18
4.2. Modificación de la fuerza de conductas alternativas
 Cualquier comportamiento, por simple que sea, es una conducta de
elección, siempre hay alguna alternativa de comportamiento posible.
 Cualquier modificación que convierta a las respuestas alternativas en más
atractivas reducirá la probabilidad de emisión de la conducta objetivo.
Esto se puede conseguir:
1) Manipulando las variables relacionadas con la competitividad de la
respuesta respecto a otra respuesta disponible: modificando el
intervalo R-Er de las alternativas (demora del reforzamiento),
obteniendo así una mayor frecuencia de reforzadores en la R
alternativa; modificando la intensidad, calidad o cantidad del
reforzador.
2) Fortaleciendo alguna respuesta cuya emisión sea incompatible con la
anterior: en vez de castigar la respuesta, reforzar o “premiar” la
contraria.
Si reforzamos una conducta (R1) que no puede emitirse a la vez que
otra (R2) inevitablemente reduciremos la tasa de conducta de ésta
última (R2). Por ejemplo, podemos suprimir la conducta de levantarse del
asiento durante una clase aplicando un procedimiento de castigo (cada vez
que se levanta se le reprende), pero podemos obtener el mismo efecto
reforzando la conducta de estar sentado.
4.3. Extinción de la operante
 Romper la contingencia positiva respuesta-consecuencia (en las
conductas reforzadas positivamente) o la contingencia negativa
respuesta-consecuencia (en las reforzadas negativamente, entrenamiento
de evitación/escape) en presencia de los respectivos discriminativos
resultará en un descenso de la operante (frente a estos discriminativos).
 La extinción no implica un desaprendizaje o un olvido, es un nuevo
aprendizaje que sustituye al anterior siempre que se mantengan
determinadas circunstancias.
 Un cambio en el contexto (respecto al que ha estado presente durante la
extinción), un tiempo sin contacto con el discriminativo extinguido,
incluso la exposición al reforzador (sin que se haya emitido la operante),
pueden provocar la restauración de la capacidad de control de los
discriminativos que habíamos extinguido y, por tanto, la emisión de la
conducta que habíamos suprimido.
Tema 7 19
4.4. Modificaciones motivacionales
 Que una determinada operante se emita a una tasa alta se debe, al
menos, a la interacción de variables como el estado motivacional, la
historia de reforzamiento y castigo del sujeto, y la estimulación presente
en ese momento, todo ello eventos anteriores a la propia emisión de la
conducta.
 La manipulación de cualquiera de estas variables por separado puede
reducir por sí misma la fuerza (probabilidad de emisión) de dicha
operante.
 La motivación suele operativizarse principalmente atendiendo o bien al
grado de privación/saciedad respecto al reforzador, o bien al valor del
propio reforzador.
 Es posible suprimir una conducta sin aplicar el castigo mediante la
manipulación de variables relacionadas con la motivación:
1) Ante reforzadores primarios (EI):
 Saciando al sujeto respecto al reforzador mediante
sobreexposición al EI.
 Devaluando el reforzador asociándolo con otro estímulo de
signo contrario (aversivo).
2) Ante reforzadores secundarios (EC):
 Saciando al sujeto respecto al reforzador primario del que
depende el secundario.
 Mediante contracondicionamiento (cambiar el signo del
reforzador de positivo a negativo).
 Mediante extinción presentando el EC sin ir seguido del EI.
3) Ante reforzadores secundarios generalizados (dinero, atención…):
 Son muy resistentes a la saciedad y a la extinción. (Ejemplo:
aunque estemos muy saciados de ropa y comida, el dinero está
relacionado con otros eventos reforzantes).
4) Mediante la reducción de la intensidad del reforzador:
 Cuando se presentan reforzadores menos intensos que los que
se han utilizado en el pasado para mantener la misma
conducta, se produce un descenso de la tasa de respuesta,
aunque esté siendo sometida a reforzamiento positivo.
 A este fenómeno se le denomina “contraste conductual
negativo”.
5. PROGRAMAS CONCURRENTES Y ESTIMULACIÓN AVERSIVA

Tema 7 20
5.1. Conducta de elección
5.1.1. Elección y reforzamiento negativo
 Baum comprobó cómo se ajustaba la Ley de Igualación a la conducta
controlada por escape, usando descargas como evento aversivo y el
tiempo de estancia en una localización de la caja como conducta de
elección.
 El experimento consistió en reforzar con 2’ de tiempo fuera y
la desactivación de una descarga de 7-mA a 4 palomas por
situarse en el punto A o en el B de la caja.
 Cada punto aplicaba el reforzamiento bajo un programa IV
diferente que fue variándose: 0.5’-8’, 0.5’-4’, 1’-2’, 2’-2’, 4’-2’,
8’-2’, 8’-1’, 8’- 0.5’.
 El ajuste de la elección de los sujetos a la frecuencia de
reforzamiento de cada alternativa fue aumentando a lo largo
del experimento, siendo los datos de las últimas cuatro
semanas los más útiles para comparar los resultados con los
de experimentos anteriores con reforzamiento positivo.
 Se comprobó que la reducción de la tasa de refuerzo negativo
funcionaba de la misma forma que la reducción de
reforzamiento positivo. No obstante, esta conclusión sólo es
apoyada por dos de las cuatro palomas, ya que el resto
mostraron elecciones contrarias consideradas por los autores
como aberrantes.
 Hutton, Gardner y Lewis (1978) entrenaron a tres palomas a
responder a dos teclas mediante reforzamiento positivo, para
después mantener esa respuesta en un programa concurrente,
primero sin y luego con periodos de descarga.
 La fase experimental empezó con un programa concurrente
IV1’- IV1’ de 1 minuto sin descarga como reforzador, y luego
continuó a través de 8 condiciones en las que se variaba la
frecuencia de reforzamiento de cada alternativa (0.33, 0.11,
0.33, 1.00, 3.00, 9.00, 3.00).
 Los resultados mostraron un importante ajuste a la Ley de
Igualación en función de la frecuencia relativa de
reforzamiento negativo de cada alternativa.
 Aunque este ajuste no fue perfecto, ya que se observó cierta
infraigualación, probablemente por la baja discriminabilidad
entre pequeñas diferencias en las frecuencias.
 La replicación de estos resultados con ratas conlleva una
problemática añadida para conseguir que el sujeto emita alguna
Tema 7 21
operante mientras es expuesto a la descarga, ya que la respuesta
típica de esta especie frente a este tipo de estímulos es la parálisis.
 Los resultados de los experimentos con ratas mostraron un buen
ajuste de las elecciones en función de la frecuencia de escape.
 Resumiendo:
 Al igual que en los estímulos con reforzamiento positivo,
diferentes experimentos demuestran que la conducta de
elección controlada por reforzamiento negativo
(escape/evitación) y analizada a través de programas
concurrentes, también se ajusta a la ley de igualación.
 Los sujetos reparten sus respuestas entre las diferentes
alternativas, en función de la frecuencia de reforzamiento de
las mismas.
 La reducción de la tasa de refuerzo negativo funciona de la
misma manera que la reducción de la tasa de refuerzo
positivo.
5.1.2. Elección y castigo
 El efecto del castigo en programas concurrentes no ha sido tan
estudiado como el reforzamiento.
 Holz comprobó que, aunque la tasa de respuesta general decrece,
una vez que se ha adquirido por reforzamiento positivo, la tasa
relativa se ajusta a la frecuencia relativa de castigo en cada
alternativa.
 Deluty realizó un experimento con ratas en el que cada alternativa
ofrecía la misma frecuencia de reforzamiento pero diferente castigo.
 Los resultados mostraron que el incremento de la tasa relativa de
castigo en una alternativa reducía la tasa relativa con la que era
elegida.
 Se encontraron efectos muy similares usando programas múltiples.
5.2. Conducta auto-controlada y conducta impulsiva
5.2.1. En procedimientos de reforzamiento negativo
 Se consideraría como impulsivo elegir el escape del evento aversivo
con menor valor relativo (menor tiempo de desaparición del evento
aversivo, menor reducción de su intensidad) pero más inmediato.
 Se consideraría como conducta auto-controlada elegir el evento con
mayor valor relativo y más demorado.
 Los estudios con humanos han encontrado una mayor proporción de
elecciones impulsivas.
Tema 7 22
5.2.2. En procedimientos de castigo
 Se consideraría una respuesta impulsiva la elección del castigo con
mayor valor (intensidad o duración) pero más demorado.
 Se consideraría un comportamiento auto-controlado elegir el castigo
más leve e inmediato.
 Deluty, en un experimento pionero con ratas encontró los siguientes
resultados:
 En un primer experimento, en el que se manipulaba la
demora de aparición de la descarga, no se encontró ajuste a
la Ley de Igualación en ningún caso: los sujetos siempre
eligieron la alternativa más demorada (impulsiva).
 En un segundo experimento, en el que se manipuló la
duración de la descarga, los sujetos eligieron las alternativas
con menor duración de descarga y se observó infraigualación.
 En el tercer experimento, se manipuló tanto la demora como
la duración de la descarga. Los resultados mostraron que la
preferencia por una menor descarga aumentaba en función
del aumento de la demora. Es decir, cuanto mayor era la
demora mayor era el número de elecciones autocontroladas.
Tema 7 23

Tema 7

Cargado por

Copyright:

Formatos disponibles

Tema 7

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 7

Cargado por

Copyright:

Formatos disponibles

TEMA 7: CONTROL AVERSIVO EN EL

1. ESTIMULACIÓN AVERSIVA EN EL CONDICIONAMIENTO OPERANTE

 Además de la RI especifica (como la salivación producida por la comida),

4. OTRAS ESTRATEGIAS DE SUPRESIÓN DE LA CONDUCTA

5. PROGRAMAS CONCURRENTES Y ESTIMULACIÓN AVERSIVA

También podría gustarte