Argimon Pallas
Argimon Pallas
Argimon Pallas
An Elsevier Imprint
ISBN: 84-8174-709-2
P
resentamos la tercera edición de la obra Mé- paso las diferentes fases, desde los planteamientos
todos de investigación, cuya primera edición se iniciales, la definición del objetivo y la realización
publicó hace 13 años. En esa primera edición de una búsqueda bibliográfica eficiente, hasta la
pretendimos escribir un libro sobre fundamentos planificación de la estrategia de análisis. El libro
del método científico que fuera útil para los profe- combina los contenidos teóricos con capítulos y
sionales que se inician en el campo de la investiga- temas tan prácticos como la solicitud de una ayu-
ción en ciencias de la salud. Con esta filosofía inten- da para la financiación de la investigación, una
tamos que el libro fuera lo más sencillo y didáctico guía para la elaboración de un protocolo de estu-
posible pero a la vez riguroso, como corresponde a dio, los preparativos para la puesta en marcha y
un libro de método. tablas para el cálculo del tamaño de la muestra en
En la segunda edición se incorporaron nuevos la mayoría de situaciones.
temas, pero sin perder el espíritu de la primera, Las páginas dedicadas a la interpretación de
con la pretensión de que fuera útil no sólo para los resultados suponen una parte importante del
profesionales que se inician en la investigación, si- libro, ya que un investigador debe ser capaz de dis-
no también para aquellos con experiencia previa cutir honestamente sus hallazgos, y los profesiona-
en este campo, y para los que quieran aumentar sus les sanitarios deben serlo de leer críticamente la
capacidades para leer e interpretar críticamente un literatura, y van desde cómo determinar la poten-
artículo científico. cia estadística de un estudio a cómo evaluar la apli-
La tercera edición consolida la segunda, e incor- cabilidad práctica de los resultados.
pora temas que en los últimos años han adquirido Con la finalidad de que el libro sea lo más prác-
gran importancia en la investigación clínica y epide- tico posible, los conceptos teóricos se ilustran con
miológica, como son los aspectos éticos y las revisio- más de 300 ejemplos, que se han diferenciado en
nes sistemáticas de la literatura científica, como el texto para no entorpecer la lectura de los capí-
herramienta útil para la toma de decisiones. Tam- tulos.
bién trata con mayor profundidad algunos temas Como en las ediciones anteriores, agradecemos
de especial relevancia, como por ejemplo los estu- a los profesionales que han participado en nues-
dios experimentales que han pasado a ocupar dos tros cursos, tanto presenciales como a distancia, sus
capítulos. Además se ha actualizado la bibliogra- comentarios y sugerencias, así como al Dr. Amando
fía y algunos de los ejemplos prácticos que ilustran Martín Zurro, que constantemente nos anima a
la obra. mantener actualizada esta obra.
El hilo conductor de la obra sigue siendo la ela-
boración de un protocolo de estudio, de forma que
Los autores
aquellos profesionales que se enfrentan al reto de
diseñar una investigación puedan seguir paso a Barcelona, mayo de 2004
Capítulo 1
El proceso de la investigación clínica
y epidemiológica
3
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
minado problema, evitando catalogar conocimien- investigador siguen un mismo protocolo de estudio
tos erróneos como verdaderos. Es precisamente y aplican las mismas definiciones y criterios a todos
mediante la aplicación formal de los procedimien- los participantes, actuando de forma idéntica ante
tos sistemáticos que componen el método científi- cualquier duda. La palabra objetivo indica que las
co cómo el investigador pretende comprender, conclusiones que se obtienen no se basan en impre-
explicar, predecir o controlar fenómenos. siones subjetivas, sino en hechos que se han obser-
Investigar es algo más que recoger y almacenar vado, medido y analizado, y que se intenta evitar
información. La investigación nace de la curiosidad cualquier prejuicio en la interpretación de los
y de las inquietudes personales, de la observación de resultados.
hechos sin explicación lógica aparente o que contra- El control de las condiciones de investigación es
dicen las teorías aceptadas. Pero en todos los casos un elemento clave del método científico. Sin embar-
requiere establecer hipótesis y objetivos concretos y go, los problemas que interesan a los investigadores
utilizar instrumentos de medida precisos y reprodu- son fenómenos complejos y difíciles de medir, que
cibles con una metodología que permita contrastar suelen representar los efectos de múltiples factores.
empíricamente dichas hipótesis y rechazar o aumen- Si se pretende aislar las relaciones entre fenómenos,
tar el grado de corroboración de las teorías acepta- el científico debe intentar controlar los factores que
das en ese momento. no están siendo investigados de forma directa, lo
Una investigación es un proceso sistemático, que resulta más difícil de conseguir en el mundo
organizado y objetivo, destinado a responder a una real que en un laboratorio. Por ello, el método
pregunta. El término sistemático significa que se apli- científico aplicado a la investigación en seres hu-
ca el método científico (fig. 1.1), de manera que, a manos presenta algunas limitaciones, además de
partir de la identificación de un problema y la revi- las morales y éticas, dada la dificultad de controlar
sión de los conocimientos existentes, se formula los múltiples factores que pueden influir, la com-
una hipótesis u objetivo de trabajo, se recogen unos plejidad del ser humano como objeto de investi-
datos según un diseño preestablecido y, una vez gación y los problemas de medición de algunas de
analizados e interpretados, se obtienen unas con- sus funciones.
clusiones cuya difusión permitirá modificar o aña- El resultado de la investigación es conocimien-
dir nuevos conocimientos a los ya existentes, ini- to, pero para que el conocimiento generado por un
ciándose entonces de nuevo el ciclo. Por organizado estudio pase a formar parte de la ciencia, es necesa-
se entiende que todos los miembros de un equipo rio que se presente a la comunidad científica en
Conocimiento
actual
Generalización Identificación de
un problema
Conclusiones Hipótesis
conceptual
Interpretación
Diseño
y discusión
Hipótesis
Resultados conceptual
Inclusión de sujetos
Análisis Recogida de datos
Observaciones
4
EL PROCESO DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
una manera que permita juzgar su validez de una resultados de las investigaciones seleccionan los
forma independiente. Así, las ideas producto de la conocimientos que pasan a constituir los libros de
intuición, la inspiración o la imaginación tienen un texto, para quedar finalmente tan sólo aquellos que
alto grado de subjetividad y suelen ser poco fiables. formarán parte del futuro cuerpo de conocimien-
Para cruzar la frontera de la ciencia, deben trasla- tos (fig. 1.2).
darse a un proyecto de investigación, que es evalua- Por tanto, una adecuada gestión del conocimien-
do por un comité independiente que se encarga de to debe pasar por la promoción de la investigación
excluir aquello que no tiene sentido o que no con- útil (producción de información orientada a la reso-
sidera ciencia. Si la investigación pasa este filtro y se lución de las incertidumbres asociadas a problemas
lleva a cabo, debe pasar otro, que es el de su revi- de salud concretos), su adecuada diseminación
sión por expertos para decidir si tiene la calidad y el (transferencia del conocimiento a la práctica profe-
interés suficientes para ser publicada y poderse sional) y la formación de los profesionales sanitarios
difundir entre la comunidad científica. Las publi- (capacitación técnica para interpretar, comunicar,
caciones secundarias y la elaboración de revisiones compartir y utilizar dicho conocimiento). Sin un
suponen un nuevo filtro, al seleccionar los mejores adecuado fomento de estos aspectos, difícilmente la
estudios y permitir contrastarlos con otras investi- investigación tendrá el impacto esperado en la prác-
gaciones. El paso del tiempo y la aplicación de los tica de la medicina.
SUBJETIVO
Idea, sospecha, intuición, imaginación,
NO FIABLE
inspiración, etc.
Seudociencia
Revistas secundarias
LITERATURA
Revisiones
SECUNDARIA Error,
obsolescencia
LIBROS Fiable en su
DE TEXTO mayoría
Inadecuación
OBJETIVO
FIABLE TEXTO DEL FUTURO
5
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
6
EL PROCESO DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tecnologías disponibles actualmente, escapan a la La mayor parte de los estudios que se realizan
comprensión absoluta. actualmente, especialmente los dirigidos a evaluar
Ambas categorías tienen en común el hecho de la eficacia de los tratamientos, se diseñan con la
que el investigador trata de responder a la pregunta finalidad de obtener el mayor grado posible de con-
de investigación de una forma válida y precisa, trol de las condiciones de la investigación, es decir,
diseñando el estudio de manera que disminuyan las la mayor validez interna posible, por lo que existen
probabilidades de existencia de errores que puedan importantes limitaciones a la hora de extrapolar sus
conducirle a una respuesta equivocada. Es mejor resultados a la práctica clínica habitual.
tardar en incorporar conocimientos, aunque sean Este problema es especialmente relevante si
ciertos, que incorporar datos falsos. tenemos en cuenta que los resultados de estas
investigaciones son la base para la toma de decisio-
nes en la práctica clínica, de manera que, aunque
ORIENTACIÓN DE LA INVESTIGACIÓN
se insiste mucho en la necesidad de basar dichas
Como veremos en los capítulos siguientes, a lo largo decisiones en evidencias científicas, en la práctica
de todo el proceso de una investigación deben to- se dispone de pocos datos de lo que ocurre en rea-
marse múltiples decisiones sobre muchos aspectos, lidad en la población a la que se desea aplicar los
como los criterios de selección de los participantes, resultados y en las condiciones reales de la práctica
la exclusión de determinados grupos de personas, diaria.
el ámbito de realización, la duración del estudio, el Además, los principales retos actuales de la inves-
seguimiento de los sujetos, etc., que definen el grado tigación clínica, como las patologías crónicas, las
de control sobre las condiciones de la investigación, actividades preventivas o los efectos a largo plazo de
y de esta manera condicionan la validez del estudio las intervenciones en poblaciones con problemas
para responder a la pregunta de investigación y su complejos o con comorbilidad, requieren una orien-
utilidad para extrapolar o generalizar sus resultados. tación más pragmática del diseño de los estudios.
7
Capítulo 2
Bases metodológicas de la investigación
clínica y epidemiológica
squemáticamente, la pregunta o hipótesis que determinando el tanto por ciento que contiene la in-
8
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tuviera que medir la presión arterial, las estrategias entre los pacientes ingresados en el servicio de neu-
que permitirían disminuir el error aleatorio serían mología, de forma que la mayoría de ellos padecen
estandarizar las condiciones de la medición, entrenar limitación crónica al flujo aéreo (LCFA), y que el 88%
a los observadores y medir la presión arterial en más habían estado expuestos al tabaco. Ante estos resulta-
de una ocasión. dos se podría concluir erróneamente que no existe
El error aleatorio está muy relacionado con el asociación entre el tabaco y el cáncer de pulmón, ya
concepto de precisión. Una estimación o una medida que el tanto por ciento de fumadores es muy similar
es tanto más precisa cuanto menor es el componente en ambos grupos. Sin embargo, la selección del grupo
de error aleatorio. control no ha sido muy afortunada, ya que la LCFA
está relacionada con el tabaco, lo que enmascara su
E RROR SISTEMÁTICO asociación con el cáncer de pulmón. En general, si se
Un error sistemático, o sesgo, es un error en el diseño eligen como controles personas con enfermedades
del estudio, ya sea en la selección de los sujetos (sesgo relacionadas positiva o negativamente con la exposi-
de selección) o en la medición de las variables (ses- ción, se está introduciendo un sesgo de selección.
go de información), que conduce a una estimación
incorrecta o no válida del efecto o parámetro que se Los sesgos de selección también se pueden pro-
estudia. ducir durante el seguimiento de los participantes si la
probabilidad de desarrollar la enfermedad entre los
Sesgo de selección sujetos que se pierden es diferente en cada uno de
El sesgo de selección puede aparecer al elegir una los grupos.
muestra que no represente de forma adecuada a la
población de estudio o al formar los grupos que se Ejemplo 2.3. Consideremos un estudio que compara
van a comparar. dos intervenciones (A y B), administradas cada una
de ellas a un grupo de 100 sujetos, y que se producen
Ejemplo 2.1. Supongamos que se desea estimar la 20 pérdidas durante el seguimiento en cada uno de
prevalencia de una enfermedad en los sujetos adultos los grupos (tabla 2.1). El porcentaje de éxitos con
residentes en un municipio (población de estudio). ambas intervenciones es del 50% entre los que finali-
Para ello, se estudian los 100 primeros sujetos que zan el estudio, por lo que se podría concluir que
acuden a la consulta en un centro de salud (muestra poseen la misma eficacia. Sin embargo, entre las pér-
estudiada). Obviamente, los sujetos que acuden a la didas, sólo el 1% de los sujetos que recibieron la
consulta no son representativos de la población del intervención A fue clasificada como éxito, mientras
municipio, por lo que se obtendría una estimación que con la intervención B, lo fue un 50%. Cuando se
sesgada de la prevalencia de la enfermedad. calculó el tanto por ciento total de éxitos resultó que
la intervención B fue la más eficaz. Así pues, aunque
Ejemplo 2.2. Supongamos que se estudia la relación el porcentaje de pérdidas sea el mismo, se puede pro-
entre la aparición de cáncer de pulmón y la exposi- ducir un sesgo de selección.
ción previa al humo del tabaco. Se observa que el 90%
de los sujetos con cáncer de pulmón ingresados en un Otra situación que puede producir un sesgo de
hospital (casos) eran fumadores. Supongamos, selección es la existencia de no respuestas, lo que
además, que los individuos del grupo control se eligen suele ocurrir en las encuestas transversales.
Intervención A Intervención B
Eficacia entre los sujetos que finalizan el estudio 40/80 (50%) 40/80 (50%)
Eficacia entre los sujetos que no lo terminan 1/20 (5%) 10/20 (50%)
Total 41/100 (41%) 50/100 (50%)
9
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Ejemplo 2.4. Supongamos un estudio en el que se Ejemplo 2.7. Si se quiere estudiar si hay una asocia-
desea determinar la prevalencia de consumo de taba- ción entre la ingestión de alcohol y la hipertensión, y
co entre los profesionales sanitarios de una determi- en los hipertensos se obtiene la información a partir
nada zona geográfica. Para ello, se selecciona una de una entrevista personal, mientras que en los indi-
muestra aleatoria de 500 profesionales, a los que se viduos del grupo control se obtiene de las historias
les envía un cuestionario. Contestan 300 profesio- clínicas, es de esperar que en el primer grupo la
nales, de los que 135 (45%) reconocen que fuman. Si información sea más exacta y sistemáticamente dife-
la prevalencia de consumo de tabaco entre las no res- rente de la obtenida en el grupo control, lo que ses-
puestas es diferente de la que existe entre los que sí gará los resultados. El problema de este estudio es
han respondido, la cifra del 45% es una estimación que se usan instrumentos diferentes en cada grupo.
sesgada de la verdadera prevalencia. En caso contra-
rio, podría asumirse que las no respuestas no están Por ello, las variables deben medirse con el instru-
relacionadas con el fenómeno de estudio (podrían mento adecuado, validado y bien calibrado, y aplicar-
considerarse aleatorias), de forma que la cifra obser- lo de la misma forma en todos los participantes del
vada sería una estimación no sesgada, aunque se estudio. Los errores sistemáticos, ya sean de selección
habría producido una pérdida de precisión en la esti- o de información, a diferencia de lo que ocurre con el
mación debido al menor número de respuestas. error aleatorio, no se atenúan al aumentar el tamaño
de la muestra. De hecho, aunque se incluyan más indi-
La única manera de asegurar que las pérdidas viduos, lo único que se logra con ello es perpetuar el
durante el seguimiento o las no respuestas no intro- sesgo. Además, un error de estas características, una
ducen un error sistemático en los resultados es evitar vez introducido, es casi imposible de enmendar en la
que se produzcan, o bien obtener información suple- fase de análisis.
mentaria que permita evaluar si los sujetos que se El error sistemático va muy ligado al concepto de
pierden o que no contestan difieren de los que finali- validez. Así, la estimación de un parámetro o de un
zan el estudio. efecto se considera válida si representa el verdadero
valor del fenómeno que se desea medir.
Sesgo de información
El sesgo de información se produce cuando las medi-
GRUPO CONTROL
ciones de las variables de estudio son de mala calidad o
son sistemáticamente desiguales entre los sujetos de En los estudios analíticos se pretende estimar la aso-
cada grupo. Las principales fuentes de estos errores son ciación o el efecto de un factor de estudio sobre una
la aplicación de pruebas poco sensibles y/o específicas variable de respuesta; por ejemplo, qué reducción
para la medición de las variables, la aplicación de crite- del colesterol sérico (variable de respuesta) se consi-
rios diagnósticos incorrectos, o distintos en cada grupo, gue con un determinado tratamiento hipolipemiante
e imprecisiones u omisiones en la recogida de los datos. (factor de estudio). En estos diseños, además del
grupo que está expuesto al factor de estudio, es nece-
Ejemplo 2.5. Si en un estudio se mide el peso de los su- sario utilizar un grupo control que sirva de referencia
jetos con una báscula mal calibrada, evidentemente, sobre lo que ocurre en los sujetos no expuestos a
se obtendrán medidas incorrectas, ya que se utiliza un dicho factor, de forma que puedan compararse los
mal instrumento de medida. resultados obtenidos en ambos grupos. El siguiente
ejemplo demuestra la necesidad del grupo control en
Ejemplo 2.6. Consideremos un estudio en el que el estos estudios.
objetivo es comparar el peso en función del sexo con
una báscula bien calibrada. Sin embargo, la medición Ejemplo 2.8. En la década de 1950 un tratamiento pa-
en los hombres se hace sin zapatos y en ropa interior, ra el angor pectoris que gozaba de gran popularidad
mientras que el responsable de pesar a las mujeres entre los cirujanos era la ligadura de la arteria mama-
sigue un criterio diferente y efectúa la medición con ria interna. Se pensaba que con ello se aumentaba el
zapatos y en ropa de calle. El problema de este estu- flujo sanguíneo hacia el miocardio. Cobb et al (1959)
dio es que se aplica un mismo instrumento de medi- publicaron un estudio controlado, doble ciego, en el
da de forma diferente, según el grupo de estudio. que a los individuos del grupo experimental se les
10
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
practicaba la ligadura, mientras que a los del grupo dio, con independencia de la intensidad de la ilumi-
control se les practicaba una incisión superficial sin nación, sino también en los grupos control. Parecía
ligarles la arteria, con el fin de que ni los pacientes claro, pues, que el simple hecho de que los trabajado-
ni los investigadores que evaluaban los resultados res sabían que eran vigilados, supuso un aumento de
pudieran conocer si pertenecían a uno u otro grupo. la producción.
En este estudio se observó la recuperación del 32% En los estudios sin grupo de comparación es muy
de los pacientes a quienes se había ligado la arteria y difícil discernir entre el efecto de la intervención y el
del 43% de los controles. Si no hubiera existido un debido al hecho de saberse estudiado. Con un grupo
grupo control, se hubiera podido llegar a la errónea de comparación este efecto no se elimina, pero es de
conclusión de que la ligadura era eficaz. esperar que ocurra por igual en ambos grupos y,
de este modo, es posible conocer cuál es el verdadero
La función de un grupo control es la de estimar efecto de la intervención.
cuál sería el valor de la variable de respuesta en el
caso de que no existiera asociación con el factor de Ejemplo 2.9. Un ensayo clínico evaluaba dos estrate-
estudio, por lo que debe formarse de manera que sea gias para reducir el número de peticiones de laborato-
comparable con el grupo de estudio en todo, excep- rio y radiología solicitadas por los médicos residentes
to en la exposición o el tratamiento que recibe. Por de primer año (Martin et al, 1980). Un tercer grupo, al
ejemplo, en un ensayo clínico serviría para determi- que no se le practicaba ninguna intervención, sirvió de
nar la respuesta esperada en ausencia de la interven- control. Los residentes tenían conocimiento de la exis-
ción, o en un estudio de casos y controles, para esti- tencia del estudio y de cuál era su objetivo. Cuando se
mar el tanto por ciento esperado de sujetos expuestos comparó en cada grupo el número de peticiones al ini-
si no existiera asociación con la enfermedad. cio y al final del estudio, se obtuvieron diferencias
estadísticamente significativas en todos ellos, incluido
E FECTOS A CONTROLAR el de control, lo que sugería la existencia de un efecto
Si no se utiliza un grupo control, es difícil saber si los Hawthorne. Sin embargo, al existir más de un grupo es
resultados obtenidos son debidos al factor de estudio posible compararlos entre sí y aislar el efecto de la
o a otros efectos que no se han controlado. A conti- intervención. Cuando esta comparación se llevó a
nuación se describen los principales efectos que se cabo se observó que los dos grupos de estudio tuvieron
han de controlar cuando se diseña un estudio. un descenso significativo en el número de peticiones
en relación con el grupo control, lo que sugiere que
Efecto Hawthorne las estrategias puestas en marcha fueron efectivas.
El efecto Hawthorne es una respuesta inducida por el
conocimiento de los participantes de que están sien- Efecto placebo
do estudiados. La participación en un estudio puede El efecto placebo se puede definir como la respuesta
cambiar el comportamiento de los individuos tanto que se produce en una persona enferma como con-
del grupo de estudio como del de control. El hecho secuencia de la administración de un tratamiento,
de explicarles en qué consiste la experiencia, unido a pero que no puede considerarse como un efecto
que durante un tiempo deban visitar al médico con específico de tal tratamiento. Por esta razón, cuando
más frecuencia, puede hacer que los participantes una enfermedad no tiene un tratamiento activo co-
alteren sus hábitos y obtengan una respuesta que no nocido o ampliamente aceptado y se quiere evaluar la
puede ser atribuida al factor de estudio. eficacia de un nuevo fármaco, es importante que al
Se describió por primera vez durante la década de grupo control se le administre un tratamiento lo más
1920 cuando la Western Electric Company llevó a parecido posible al nuevo fármaco en todas las carac-
cabo una serie de experiencias en su fábrica Hawt- terísticas, excepto en la actividad farmacológica, con
horne de Chicago, con el fin de determinar el efecto el fin de controlar el efecto placebo. Al igual que
de la iluminación en la producción. Los grupos con- sucedía con el efecto Hawthorne, el hecho de tener
trol trabajaron bajo una iluminación constante, mien- un grupo control permite aislar el verdadero efecto
tras que en los grupos experimentales era variable, debido a la intervención. Sin grupo de comparación
aumentada o disminuida. El resultado fue que la pro- es imposible diferenciar qué parte se debe al efecto
ducción se incrementó no sólo en los grupos de estu- del fármaco y cuál a otros.
11
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
A B C D
Efecto debido a la intervención Efecto
o a la exposición placebo
Efecto Evolución natural
Hawthorne de la enfermedad
12
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
efecto de la intervención. La figura 2.1B represen- El fenómeno de confusión aparece cuando la aso-
taría la situación en la que, por las propias caracterís- ciación observada entre un factor de estudio y la
ticas de la intervención (p. ej., la educación sanita- variable de respuesta puede ser total o parcialmente
ria), es imposible obtener un grupo control con explicada por una tercera variable (factor de confu-
placebo. Los integrantes del grupo control saben que sión), o por el contrario, cuando una asociación real
están participando en un estudio y son seguidos con queda enmascarada por este factor. Para que una
la misma pauta de visitas y exploraciones, pero no se variable se considere de confusión debe ser un factor
les administra la intervención. La figura 2.1C sería el pronóstico de la respuesta y estar asociada a la varia-
ejemplo de un estudio observacional analítico ble de estudio. Además, no debe ser un paso inter-
donde, al no existir el efecto placebo, la preocupa- medio en la asociación entre el factor de estudio y la
ción principal es controlar el resto de efectos. Por respuesta.
último, la figura 2.1D ilustra la situación de un estu-
dio en el que el grupo control no sabe que está sien- Ejemplo 2.11. Supongamos un estudio hipotético de
do estudiado y, por tanto, sólo se controla la evolu- la asociación entre el consumo de café y el cáncer
ción natural de la enfermedad. de laringe (tabla 2.2). A partir de los datos totales se
estima que el porcentaje de expuestos entre los enfer-
FACTORES DE CONFUSIÓN mos es del 58%, superior al 42% observado entre los
controles, lo que sugiere una asociación entre el con-
Los estudios analíticos implican una comparación sumo de café y el cáncer de laringe. Sin embargo, al
entre grupos. La primera regla para que esta compa- analizar los datos en subgrupos o estratos en función
ración sea válida es que los grupos sean similares en de si los sujetos eran fumadores o no, se observa que
relación con las características que influyen sobre los el tanto por ciento de sujetos expuestos al consumo
resultados. A menudo, estas variables se distribuyen de café es el mismo en los casos y en los controles,
de modo desigual y es necesario corregir estas dife- y desaparece la asociación. En este ejemplo, la varia-
rencias. Tomemos un ejemplo sencillo: los resultados ble fumador cumple los criterios para ser un factor de
de una investigación muestran que la incidencia de la confusión. Es conocido que el tabaco es un factor
limitación crónica al flujo aéreo (LCFA) es mucho de riesgo del cáncer de laringe. Además, está relacio-
mayor en hombres que en mujeres: ¿significa esta nado con la variable en estudio (consumo de café), ya
diferencia que el sexo es un factor de riesgo, o bien, que la proporción de controles fumadores que toman
se puede explicar por el diferente hábito tabáquico café habitualmente (75/100) es mucho mayor que la
entre hombres y mujeres? El tabaco puede ser un fac- proporción de los no fumadores (50/200).
tor de confusión de la relación entre el sexo y la inci-
dencia de la LCFA, por lo que debe tenerse en cuen- Un factor de confusión puede sobrestimar o infra-
ta en el diseño del estudio o en la fase de análisis. estimar un efecto.
Datos globales
Enfermos con cáncer de laringe 175 (58%) 125 (42%) 300 (100%)
Controles 125 (42%) 175 (58%) 300 (100%)
Fumadores
Enfermos con cáncer de laringe 150 (75%) 50 (25%) 200 (100%)
Controles 75 (75%) 25 (25%) 100 (100%)
No fumadores
Enfermos con cáncer de laringe 25 (25%) 75 (75%) 100 (100%)
Controles 50 (25%) 150 (75%) 200 (100%)
13
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Ejemplo 2.12. Consideremos un estudio en el que se vez mezclados, sólo el 40% (12 de 30) de los sombre-
evalúa la asociación entre el ejercicio físico y el infar- ros negros le va bien, mientras que, de los grises, le va
to agudo de miocardio (IAM), partiendo de la hipó- bien el 60% (18 de 30)». Aunque este curioso cambio
tesis de que a más ejercicio físico, menor es el riesgo es conocido como la paradoja de Simpson, no es real-
de sufrir un IAM. Una variable que podría ejercer mente ninguna paradoja. Este fenómeno es análogo al
como factor de confusión sería la edad. Por un lado, de confusión, que puede distorsionar una asociación,
es más probable que los más jóvenes sean los que rea- incluso hasta el punto de cambiar su dirección.
licen más ejercicio (relación entre el potencial factor
de confusión y la variable de estudio) y, por otro, que CARACTERÍSTICAS DEL FENÓMENO
los más jóvenes tengan además un riesgo menor de DE CONFUSIÓN
desarrollar un IAM (relación entre el potencial factor Debe estar asociado al factor de estudio
de confusión y la enfermedad). Si se cumplen estas y a la variable de respuesta
condiciones, la edad sería un factor de confusión que Si no existe dicha asociación, no se producirá un
tendería a sobrestimar el efecto inverso (protector) fenómeno de confusión. Retomando el ejemplo 2.12
del ejercicio físico sobre el IAM. sobre la relación entre el ejercicio físico y el IAM, los
sujetos que realizan ejercicio y los que no quizá dife-
Ejemplo 2.13. Siguiendo con el ejemplo anterior, la rirán en el consumo de agua, pero hasta el momento
diferencia entre la proporción de hombres y mujeres no se ha demostrado que la ingestión de agua esté
también podría ser un factor de confusión, ya que los relacionada con el riesgo de padecer un IAM. Así
hombres suelen realizar más ejercicio físico que las pues, el consumo de agua no puede considerarse un
mujeres y, además, presentan un riesgo mayor de factor de confusión de la asociación entre el ejercicio
padecer un IAM. Así pues, la asociación protectora físico y la enfermedad.
del ejercicio físico sobre el IAM quedaría infraesti-
mada si no se tuviera en cuenta la diferencia en la La relación con la variable de respuesta
proporción de hombres y mujeres que pudiera haber no es necesario que sea causal
en la muestra. Un factor de confusión debe ser predictivo de la res-
puesta (es decir, estar asociado con ella), pero esta
En la situación más extrema, un factor de confu- asociación no tiene que ser necesariamente causal.
sión puede invertir la dirección de una asociación: es De hecho, la mayoría de factores de confusión no son
la llamada paradoja de Simpson. causa de la respuesta, sino simplemente marcadores
que están correlacionados con el verdadero agente
Ejemplo 2.14. Rothman (1986) presenta el siguien- causal. En el ejemplo 2.13 sobre el riesgo de IAM en
te ejemplo: «supongamos que un hombre entra en función del sexo, éste no es la verdadera causa, sino
una tienda para comprarse un sombrero y encuentra que simplemente expresa diferencias biológicas que
una estantería con 30, 10 de ellos negros y 20 grises. podrían ser la causa de la enfermedad. La edad y el
Descubre que 9 de los 10 sombreros negros le van sexo son ejemplos claros de variables que están aso-
bien, pero que de los 20 grises sólo le van bien 17. Por ciadas con multitud de enfermedades, pero que no
tanto, toma nota de que la proporción de sombreros son su causa directa y, a su vez, están relacionadas con
negros que le van bien es del 90%, mientras que la de muchos factores.
los grises es sólo del 85%. En otra estantería de la
misma tienda encuentra otros 30 sombreros, 20 ne- Debe ser un factor predictivo
gros y 10 grises. En ella, 3 (15%) de los sombreros de la respuesta, independientemente
negros le van bien y de los grises sólo 1 (10%) le va del factor de estudio
bien. Antes de que escoja un sombrero, la tienda cierra Debe existir una asociación entre el factor de confu-
y él decide volver al día siguiente. Durante la noche, sión y la respuesta también en los sujetos no expues-
un empleado ha puesto todos los sombreros en una tos al factor de estudio. En el ejemplo 2.12, si el ejer-
única estantería: ahora hay en ella 60 sombreros, 30 de cicio físico está inversamente relacionado con la
cada color. El cliente recuerda que el día anterior la probabilidad de desarrollar un IAM, el consumo de
proporción de sombreros negros que le iba bien era agua también lo estará, ya que los que realizan más
superior en ambas estanterías. Hoy se da cuenta de ejercicio beben más agua. Sin embargo, como ya se
que, aunque tiene delante los mismos sombreros, una ha comentado, el consumo de agua no se ha asociado
14
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
con la enfermedad en los sujetos que no realizan ejer- plausibilidad biológica que traten de explicar el meca-
cicio físico (no expuestos) y, por tanto, no puede con- nismo por el que se produce un efecto determinado.
fundir la asociación entre el ejercicio físico y la enfer- Así pues, la generalización depende de la consistencia
medad. Esta situación es muy distinta a la de la edad, de resultados entre diferentes estudios y de mecanis-
el sexo o el consumo de tabaco, que siguen siendo un mos plausibles que expliquen de forma razonable un
factor de riesgo independiente entre los sujetos que efecto, lo que a menudo implica la emisión de juicios
no realizan ejercicio físico. de valor por parte de los propios investigadores.
15
Capítulo 3
Ética e investigación
16
ÉTICA E INVESTIGACIÓN
Ejemplo 3.1. El estudio de Tuskegee (EE.UU.), ini- Como respuesta a éstos y otros casos se han ela-
ciado en 1932, consistía en el seguimiento de una borado diferentes códigos éticos y normativas lega-
cohorte de más de 400 sujetos de raza negra con les para guiar la realización de investigaciones con
sífilis no tratada, comparándola con un grupo de seres humanos. Los dos pilares fundamentales son
204 sujetos sin sífilis, para estudiar la historia natu- el Código de Nuremberg, elaborado en 1947 al
ral de la enfermedad. Aunque no existía un trata- final de la Segunda Guerra Mundial (http://ohsr.
miento eficaz al inicio del estudio, el seguimiento od.nih.gov/nuremberg.php3; versión traducida
continuó sin que los pacientes recibieran trata- al castellano en http://www.ub.es/fildt/nurember.
miento incluso después de que se hubiera demos- pdf) y la Declaración de Helsinki, elaborada por la
trado la eficacia de la penicilina –hecho del que no Asociación Médica Mundial en 1964 y considerada
se informó a los participantes–, y a pesar de que los como la principal referencia mundial de investiga-
datos mostraban claramente un peor pronóstico y ción biomédica (http://www.wma.net/e/policy/
un aumento de la mortalidad entre los sujetos in- b3.htm; versión traducida al castellano en: http://
fectados. El estudio se finalizó en 1972 debido a la www.fisterra.com/material/investiga/declara-
presión social que se creó cuando el público gene- cion_helsinki.htm).
ral tuvo conocimiento del mismo. Ante las críticas La Declaración de Helsinki consta de una intro-
los investigadores argumentaron que, dado que los ducción y tres apartados: el primero sobre princi-
participantes eran afroamericanos pobres, aunque pios básicos, el segundo sobre investigación médica
no hubieran participado en el estudio tampoco ha- combinada con la atención médica, y el tercero so-
brían tenido acceso al tratamiento. bre investigación biomédica no terapéutica. Esta de-
claración se ha revisado en cinco ocasiones: Tokio
(1975), Venecia (1983), Hong Kong (1989), Somer-
Ejemplo 3.2. Willowbrook era una institución del es-
set West (1996) y Edimburgo (2000). Entre las in-
tado de Nueva York para personas con deficiencias
corporaciones más relevantes de la última revisión
mentales en la que se realizaron diferentes estudios
pueden destacarse las siguientes: 1) el aumento de
para analizar la historia natural de la hepatitis y los
las exigencias para investigaciones hechas sin con-
efectos de la gammaglobulina sobre ella. Los suje-
sentimiento informado, que deben ser la excepción;
tos de estudio eran niños a los que se infectaba deli-
2) el deber de declarar los conflictos de interés; 3) el
beradamente con el virus. Los investigadores
refuerzo del derecho de los participantes en una in-
defendían esta actuación argumentando que la vestigación a disponer del mejor tratamiento dispo-
mayoría de los niños internados en el centro acaba- nible probado, incluso si es un integrante del grupo
ban adquiriendo la infección de forma espontánea. control, de manera que el uso de placebo debe limi-
tarse a los casos en que no haya ningún tratamiento
Ejemplo 3.3. Ejemplos más recientes son los estu- disponible para la situación que se va a investigar; y
dios, publicados a finales de la década de 1990, rea- 4) el deber de publicar tanto los resultados negati-
lizados en países en vías de desarrollo sobre la pre- vos como los positivos, o de lo contrario asegurar su
vención de la transmisión vertical del virus de la disponibilidad pública, así como citar la fuente de fi-
inmunodeficiencia humana (VIH). Prácticamente nanciación, afiliaciones institucionales y cualquier
todos los estudios utilizan un grupo control place- posible conflicto de intereses.
bo, a pesar de las pruebas sobre la eficacia de deter- Dado que estos códigos eran difíciles de inter-
minados tratamientos y de la existencia de reco- pretar y aplicar en ocasiones, y se iban producien-
mendaciones sobre su uso en países occidentales do nuevos casos de investigaciones no éticas, como
(Angell, 1997; Lurie y Wolfe, 1997). De forma el de Willowbrook (ejemplo 3.2) y especialmente el
similar, en un ensayo clínico aleatorio realizado de Tuskegee (ejemplo 3.1), el congreso de EE.UU.
en Uganda sobre la profilaxis de la tuberculosis en creó en 1974 la Comisión Nacional para la Protec-
adultos VIH positivos con prueba positiva de la tu- ción de Sujetos Humanos en la Investigación Bio-
berculina (Whalen et al, 1997), el grupo control re- médica y Conductual, para que elaborara un docu-
cibió placebo a pesar de la existencia de recomen- mento que enunciara los principios éticos básicos
daciones elaboradas por los Centers for Disease para formular, criticar e interpretar reglas o normas
Control (CDC) desde 1990. específicas de aplicación práctica en la investiga-
17
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
ción clínica en seres humanos. En 1978 esta comi- en una expectativa razonable de éxito, asumiendo
sión presentó el documento sobre principios éticos cierto grado de incertidumbre, el hecho de que
y pautas para la protección de sujetos humanos de esta expectativa no esté validada no implica que se
la investigación conocido como Informe Belmont trate de una investigación, ya que para ser conside-
(http://ohsr.od.nih.gov/mpa/belmont.php3; ver- rada como tal debería realizarse de acuerdo con los
sión traducida al castellano en http://www.ub.es/ estándares científicos aceptados.
fildt/archivos/belmont.pdf), origen de la moderna Existe una creciente interrelación entre la prácti-
teoría ética de la investigación clínica, en el que se ca asistencial y la investigación clínica. Los roles de
definen los tres «principios éticos básicos»: el res- un profesional como clínico y como investigador son
peto por las personas, la beneficencia y la justicia. muy diferentes: como clínico su interés primario es
Una de las principales aportaciones del Informe la salud del paciente concreto que está atendiendo,
Belmont, como comenta De Abajo (2001), fue el re- mientras que como investigador es la validez de la
conocimiento de que la investigación clínica es una investigación para proporcionar un conocimiento
actividad primariamente cognoscitiva, y no bene- generalizable. Estos intereses, que coexisten en el
ficente como la práctica clínica, y por lo tanto se re- investigador clínico, pueden entrar en conflicto en
quería una justificación diferente de la que se había determinadas ocasiones.
dado hasta ese momento. La legitimación ética y Cuando, como ocurre en la mayoría de ensayos
social de la investigación biomédica en seres huma- clínicos, la investigación tiene un potencial efecto
nos debería venir dada por el hecho de que la prác- terapéutico sobre los participantes, éstos tienden
tica clínica, para poder considerarse correcta, debe a creer que el estudio ha sido diseñado para su be-
estar basada en pruebas objetivas y no, o al menos no neficio, a pesar de que el formulario de consenti-
tanto o primariamente, en opiniones y experiencias miento informado explicite que la finalidad es el
personales. La existencia de pruebas científicas dis- interés científico. Este «equívoco» es aún mayor
tingue las prácticas validadas de las no validadas o cuando el profesional que les ofrece participar en
simplemente empíricas, y el procedimiento de vali- la investigación es el mismo que les trata habi-
dación es precisamente la investigación clínica, por tualmente y la invitación se realiza en el entorno
lo que ésta se justificaba en la medida en que era una asistencial habitual.
condición de posibilidad de una práctica clínica
correcta y, por tanto, ética. Posteriormente, la inves-
PRINCIPIOS ÉTICOS BÁSICOS
tigación debe tener su propia validación ética, cum-
pliendo con los principios y normas adecuados, pero El Informe Belmont identifica tres principios éticos
antes de la justificación clínica, debe tener lógica. básicos: respeto por las personas o autonomía, be-
neficencia y justicia. Algunos autores prefieren se-
parar el de beneficencia propiamente dicho del de
INVESTIGACIÓN Y PRÁCTICA CLÍNICA
no maleficencia, de manera que puede considerar-
Dada la especial importancia de las consideraciones se que existen dos niveles jerárquicos en estos prin-
éticas en la investigación con seres humanos, es im- cipios: en el primer nivel se encuentran los de justi-
portante definir de entrada qué es investigación y cia y no maleficencia, mientras que en el segundo
diferenciarla claramente de lo que es práctica clíni- nivel están los de beneficencia y autonomía.
ca (Levine, 1986). De hecho, podemos considerar
que cada vez que, por ejemplo, un médico adminis- J USTICIA
tra un fármaco a un paciente está, de algún modo, Este principio supone reconocer que todos los seres
realizando un experimento. Sin embargo, el térmi- humanos son iguales y deben tratarse con la misma
no investigación se utiliza para referirse al proceso consideración y respeto, sin establecer otras dife-
sistemático y objetivo que utiliza el método científi- rencias entre ellos que las que redunden en benefi-
co para desarrollar o contribuir al conocimiento ge- cio de todos, y en especial de los menos favorecidos.
neralizable, mientras que el de práctica clínica se Para ello es necesario distribuir los beneficios y las
reserva para las actividades dirigidas exclusivamen- cargas de la investigación de forma equitativa.
te a mejorar el estado de salud de un paciente o su- Para cumplir este principio, la selección y el re-
jeto. Si bien es cierto que la práctica clínica se basa clutamiento de los participantes deben realizarse
18
ÉTICA E INVESTIGACIÓN
de forma no discriminativa, asegurando que los su- tanto que existe una justificación adecuada para rea-
jetos no son seleccionados simplemente por su fácil lizar el estudio, que el diseño es metodológicamen-
disponibilidad, manipulabilidad o situación de de- te correcto, ya que si no lo es cualquier riesgo para
pendencia que pueda hacer que se sientan obliga- los sujetos es innecesario, y que el número de suje-
dos a participar, sino que lo son por razones direc- tos es el adecuado, sin ser ni excesivo ni insuficiente.
tamente relacionadas con el problema de estudio.
Se trata de evitar poner en situación de riesgo a de- AUTONOMÍA
terminados grupos de personas, como niños, po- El principio de respeto por las personas o de auto-
bres o sujetos recluidos en prisiones o instituciones nomía se relaciona con la capacidad de una persona
cerradas, para el beneficio exclusivo de grupos más para decidir por ella misma. Dado que esta capaci-
privilegiados. La población incluida debe formar dad puede estar disminuida por diferentes motivos,
parte de aquella que resulte beneficiada por la apli- como en los casos de ignorancia, inmadurez o inca-
cación de los resultados de la investigación. pacidad psíquica, cualquiera que sea su causa, o por
Además, deben contemplarse las medidas dirigi- restricciones a la libertad (como el caso de las pri-
das a indemnizar a los sujetos de los posibles riesgos siones), estos grupos vulnerables deben ser especial-
y perjuicios. De hecho, la normativa vigente obliga a mente protegidos.
concertar un seguro que cubra los daños y perjui- Este principio también implica garantizar la
cios que pudieran resultar para los sujetos como confidencialidad de la información que se recoge,
consecuencia de su participación en un ensayo clí- asegurando la protección de los datos.
nico con un producto en fase de investigación clíni- El procedimiento formal para aplicar este princi-
ca, para una nueva indicación de un medicamento pio es el consentimiento informado, que es el otorgado
ya autorizado o cuando no exista interés terapéutico por una persona que reúne los siguientes requisitos:
para el individuo.
– Es competente o capaz legalmente para otorgar el
N O MALEFICENCIA consentimiento (la competencia legal plantea la
El principio de no maleficencia obliga a no infligir da- necesidad de obtener el consentimiento a través
ño a los participantes en el estudio, ya que su pro- de un representante legal en los casos de sujetos
tección es más importante que la búsqueda de nue- menores de edad e incapaces).
vo conocimiento o el interés personal o profesional – Ha recibido la información necesaria.
en el estudio. Por lo tanto, deben asegurarse la pro- – Ha comprendido adecuadamente dicha informa-
tección, seguridad y bienestar de los participantes, ción.
lo que implica, entre otras cosas, que los investiga- – Y, después de considerar la información, ha toma-
dores deben tener la calidad y experiencia suficien- do voluntariamente una decisión, libre de coac-
tes y que los centros donde se realiza el estudio ción, intimidación, persuasión, manipulación, in-
deben ser adecuados. fluencia o incentivo excesivo.
Significa también que los riesgos para los parti-
cipantes deben ser aceptables y que, si no lo son, no Así pues, el consentimiento informado es el pro-
deben incluirse aunque los sujetos estén de acuer- cedimiento que garantiza que el sujeto ha expre-
do en participar. sado voluntariamente su intención de participar en
el estudio, después de haber comprendido la infor-
B ENEFICENCIA mación que se le ha dado sobre el mismo. Por lo
Este principio supone procurar favorecer a los suje- tanto, desde el punto de vista ético, lo más impor-
tos de la investigación, no exponiéndolos a daños y tante no es la obtención del consentimiento sino el
asegurando su bienestar. Los riesgos e incomodida- proceso por el que se obtiene. Debe quedar claro
des para las personas participantes deben compa- que no se le pide que participe, sino que se le invita
rarse con los posibles beneficios y la importancia a hacerlo, y se le debe permitir reflexionar, respon-
del conocimiento que se espera obtener, de mane- der a sus dudas y preguntas, y ofrecer la posibilidad
ra que la relación sea favorable. de consultar con otros profesionales. Dado que la
Implica también que la pregunta que se desea voluntariedad puede verse afectada fácilmente por
responder debe ser científicamente válida, y por lo la posición de autoridad e influencia del profesio-
19
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
nal y que puede existir cierta persuasión difícil de Tabla 3.1. Elementos de información que
evitar en la relación médico-paciente, algunos auto- deberían comunicarse al potencial
res sugieren que sería preferible que el consenti- candidato para participar en
miento lo obtuviera una persona diferente al médi- un estudio
co que atiende habitualmente al sujeto, para evitar
el conflicto de roles entre clínico e investigador 1. Invitación a participar en el estudio
(Morin et al, 2002). 2. Objetivos del estudio
En los ensayos clínicos, la hoja de información 3. Fundamentos de la selección: por qué son
para solicitar el consentimiento de un posible par- considerados candidatos para el estudio.
ticipante debe contener información sobre el obje- Cuidado especial con la realización de pruebas
tivo del estudio, su metodología, los tratamientos destinadas exclusivamente a determinar su
que pueden serle administrados (incluyendo place- elegibilidad
bo si procede), los beneficios esperados para él o la 4. Explicación de los procedimientos del estudio:
sociedad, las molestias, incomodidades y riesgos de- duración de la participación, procedimientos
rivados del estudio (visitas, pruebas, etc.), los posi- que se seguirán, lugar y duración de los
bles acontecimientos adversos, otras alternativas mismos, etc. Cuidado especial en identificar
terapéuticas disponibes, el carácter voluntario de su los que se derivarían exclusivamente
de su participación en el estudio
participación, la garantía de que puede retirarse en
5. Descripción de las incomodidades y riesgos
cualquier momento sin perjuicios ni alteraciones
razonablemente esperables
de la relación médico-enfermo, los aspectos relacio-
6. Medicación de rescate y compensaciones
nados con la confidencialidad de los datos, las com- previstas en caso de lesión
pensaciones económicas y tratamientos en caso de 7. Descripción de los beneficios para los sujetos y
daño o lesión, y el nombre del investigador respon- para otros que pueden esperarse razonablemente
sable del ensayo y de resolver sus dudas, y cómo 8. Discusión de otras alternativas terapéuticas
contactar con él en caso de urgencia (tabla 3.1). disponibles que podrían ser beneficiosas
para el sujeto
Ejemplo 3.4. En un análisis de 101 protocolos de en- 9. Garantía de confidencialidad de la información
sayos clínicos aprobados en dos hospitales generales 10. Consideraciones económicas: compensaciones
universitarios españoles, Ordovás et al (1999) eva- económicas para los voluntarios sanos, costes
luaron la información aportada en las hojas de in- adicionales para el sujeto, ventajas de su
formación al paciente, la legibilidad formal de di- participación, etc.
chas hojas y el nivel de complejidad del vocabulario. 11. Contacto para responder preguntas y resolver
Los apartados con mayor incumplimiento (> 30% de dudas que puedan aparecer relacionadas con
casos) fueron el balance de beneficios y riesgos, la la investigación
identificación y el modo de contacto con el investi- 12. Posibilidad de consultar con otros profesionales
gador principal, la descripción de los tratamientos 13. La renuncia a participar o continuar en el
alternativos, y la especificación de las compensacio- estudio no comporta castigos ni pérdidas
nes en caso de lesiones. Además, comprobaron que de beneficios
14. Otros elementos, como la información a los
la complejidad del texto era elevada y su legibilidad
participantes de nuevos hallazgos que puedan
deficiente, siendo necesario para su comprensión un
afectar a su participación
nivel de estudios medios-superiores o superiores en
más del 90% de los casos.
20
ÉTICA E INVESTIGACIÓN
Tabla 3.2. Requisitos éticos de una investigación valor de su colaboración, por lo que el diseño defi-
(elaborados a partir de Levine [1986] ciente de un estudio incumple también este com-
y Emanuel et al [2000]) promiso ético implícito.
Un aspecto que provoca controversia en la co-
1. Valor de la pregunta de investigación munidad científica es el uso de placebo en los ensa-
2. Validez científica (buen diseño de yos clínicos cuando existen alternativas terapéuticas
la investigación) efectivas disponibles. Mientras que para muchos
3. Competencia de los investigadores autores no es ético utilizar un grupo que recibe pla-
4. Selección de los sujetos con justicia cebo en estas situaciones, tal como se recoge en la
5. Balance favorable entre beneficios y riesgos última revisión de la Declaración de Helsinki, para
6. Evaluación independiente del protocolo otros podría ser aceptable siempre que no se perju-
7. Consentimiento informado dicara al paciente por el hecho de diferir el inicio de
8. Respeto por los sujetos incluidos un tratamiento efectivo (Temple y Ellenberg, 2000).
9. Compensación por las lesiones relacionadas El estudio debe ser llevado a cabo por investiga-
con la investigación dores competentes, científicamente cualificados, es
10. Ejecución honesta del estudio
decir, con la suficiente formación en metodología
11. Comunicación puntual y precisa
científica y capacidad para alcanzar los objetivos de
de los resultados
la investigación. También deben ser clínicamente
competentes, es decir, capaces de proporcionar la
atención adecuada a los sujetos, por ejemplo detec-
de ser útil identificar el o los principios que hay de- tando precozmente los efectos adversos que pue-
trás de la norma. dan aparecer o comprobando la ausencia de moti-
El primer requisito importante es el valor de la vos de exclusión.
pregunta de investigación, es decir, que el conoci- La selección justa de los sujetos afecta tanto a la defi-
miento que se deriva del estudio debe tener el valor nición de los criterios de selección como a la estrate-
suficiente para justificar el riesgo a que se expone a gia de reclutamiento de los participantes, de forma
los participantes. Implica que el estudio evalúa una que solamente los objetivos científicos del estudio, y
intervención terapéutica o diagnóstica que podría no otras consideraciones como la vulnerabilidad,
conducir a mejoras en el estado de salud o bienes- el privilegio u otros factores no relacionados con el
tar, es un estudio etiológico, fisiopatológico o epi- propósito de la investigación, deben guiar la deter-
demiológico que ayudará a desarrollar dicha in- minación de los sujetos o grupos que van a ser selec-
tervención, o contrasta una hipótesis que podría cionados.
generar conocimiento relevante, aunque no tuvie- Una investigación implica fármacos, intervencio-
ra una aplicación práctica inmediata. Implica tam- nes o procedimientos sobre los que existe incerti-
bién que el estudio debe estar basado en suficientes dumbre acerca de sus riesgos y beneficios. Un estudio
investigaciones previas de calidad, incluyendo las solamente está justificado cuando se han minimiza-
realizadas en laboratorios y sobre animales, y en un do los riesgos potenciales para los sujetos y se han fa-
adecuado conocimiento de la literatura científica vorecido sus potenciales beneficios, y cuando la rela-
sobre la enfermedad o problema de salud, de for- ción entre los beneficios para los sujetos y la sociedad
ma que los resultados esperables justifiquen la rea- y los riesgos es equilibrada o favorable a los primeros.
lización del estudio. Es importante la evaluación independiente del pro-
El estudio debe tener la suficiente validez científi- tocolo del estudio por personas ajenas a la investi-
ca o rigor metodológico, de forma que pueda ga- gación que minimicen el posible impacto de los po-
rantizarse razonablemente que conducirá a la res- tenciales conflictos de intereses. Aunque hoy día la
puesta correcta a la pregunta de investigación. Sin revisión y aprobación de un protocolo por los Co-
validez metodológica la investigación no puede ge- mités Éticos de Investigación Clínica (CEIC) es un
nerar el conocimiento deseado, ni producir benefi- requisito legal únicamente en algunos estudios con
cio alguno ni justificar la exposición de sujetos a medicamentos, cada vez hay una mayor tendencia a
riesgos o molestias. Además, los participantes en un que estos comités evalúen cualquier tipo de investi-
estudio asumen que se derivará alguna cosa de gación realizada en seres humanos.
21
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
El consentimiento informado es el requisito que ha tamiento que se ofrecerá a los sujetos en caso de le-
recibido mayor atención. Su finalidad es asegurar sión o muerte, y el seguro o indemnización para
que los sujetos deciden voluntariamente participar cubrir las responsabilidades, el alcance de las com-
o no en un estudio, y que aceptan solamente cuan- pensaciones que se ofrecerán a los investigadores y
do la investigación es consistente con sus valores, a los sujetos de investigación, y realizar el segui-
intereses y preferencias. miento del ensayo clínico.
El respeto por los sujetos no finaliza con la firma del El interés por los estudios epidemiológicos es
consentimiento, sino que debe mantenerse a lo lar- cada vez mayor. Estos estudios también pueden
go de todo el estudio e incluso después, tanto si han plantear conflictos éticos, pero no existe una regu-
aceptado como rechazado participar en el mismo. lación sobre los mismos. El artículo de Dal-Ré et al
Implica, por ejemplo, mantener la confidencialidad (1998) presenta una reflexión y una propuesta so-
de los datos recogidos sobre los sujetos candidatos, bre este tema.
permitir que abandonen el estudio sin penalización,
informar a los participantes si aparece nueva infor-
CONFLICTOS DE INTERESES
mación sobre la intervención o su problema de salud
EN INVESTIGACIÓN CLÍNICA
que pueda ser relevante, o monitorizar cuidadosa-
mente su estado de salud durante el seguimiento. El conflicto de interés se origina cuando el juicio del
La obligatoriedad de compensar a los sujetos por profesional en relación con su interés primario (la
cualquier lesión que pueda producirse relacionada validez del estudio en el caso del investigador) se ve
con su participación en el estudio es un requisito influido indebidamente por un interés secundario,
que cada vez se considera más importante. como el provecho económico o el afán de notorie-
El estudio debe realizarse con honestidad, de dad (Thompson, 1993). La presencia de un poten-
acuerdo con el protocolo y los mecanismos de mo- cial conflicto de interés no supone por sí misma que
nitorización y control de calidad suficientes para se producirá un desenlace éticamente incorrecto,
garantizar la calidad de los datos recogidos y el pero es evidente que incrementa su posibilidad.
cumplimiento de los principios éticos. Además, la constatación de su existencia puede
El último requisito es la comunicación puntual y minar la confianza de las personas y la sociedad tan-
precisa de los resultados. to en la asistencia como en la investigación.
La investigación actual se desarrolla en un am-
biente de grandes expectativas y presiones, tanto por
LOS COMITÉS ÉTICOS
parte de las instituciones (necesidad de producción
DE INVESTIGACIÓN CLÍNICA
científica para el prestigio y la obtención de fondos
Uno de los componentes esenciales de la realiza- económicos), los promotores o patrocinadores de la
ción responsable de la investigación es su supervi- investigación (presión para la obtención de resulta-
sión. La mayoría de los reglamentos actuales re- dos favorables a sus intereses) como por los propios
quieren la revisión y aprobación por parte de investigadores (prestigio, respeto de los colegas o
comités de ética independientes para garantizar la beneficios económicos). El hecho de que en nuestro
protección de los seres humanos. país la mayoría de la financiación de la investigación
En España, la normativa sobre la realización de médica corra a cargo de la industria farmacéutica,
ensayos clínicos con medicamentos establece que cuyo interés primario es la obtención de beneficios,
estos estudios, antes de poder realizarse, deben propicia la aparición de múltiples conflictos de inte-
contar con el informe previo del CEIC correspon- reses (Ara, 2002):
diente. Su función principal es la de ponderar los
aspectos metodológicos, éticos y legales del proto- – En el valor de la investigación, ya que se centran
colo propuesto, así como el balance de riesgos y be- en estudios que pueden reportar beneficios, com-
neficios. Para ello debe evaluar la idoneidad del parando fármacos similares y caros, buscando su
protocolo y del equipo investigador, la información aprobación y posicionamiento en el mercado.
escrita que se proporcionará a los posibles sujetos – En el diseño de los estudios, pensado para aumen-
de investigación y el tipo de consentimiento que va tar la probabilidad de obtener resultados favora-
a obtenerse, la previsión de la compensación y tra- bles al nuevo fármaco.
22
ÉTICA E INVESTIGACIÓN
23
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
de tomar la decisión de publicar o no un traba- tes implicados. Sin embargo, aun siendo reconoci-
jo, deben evitar cometer abusos desde su posi- do como el mejor sistema disponible, es claramen-
ción de privilegio. te insuficiente. Entre sus críticas destacan que se
3. Los asesores externos (consultores o revisores), que trata de un proceso costoso, insuficientemente con-
participan en el proceso de revisión de los manus- trastado, en general poco fiable (escasa concordan-
critos (peer-review) y aconsejan al comité editorial cia entre asesores), incapaz de reconocer la investi-
sobre la pertinencia de la publicación de los traba- gación no original, la falsificación y fabricación de
jos y redactan unos comentarios para los autores datos, el plagio, etc., poco estandarizado, abierto a
con la finalidad de mejorar la calidad y la presen- todo tipo de sesgos y que produce un retraso en la
tación de los artículos. Su función es evaluar los publicación que para muchos es innecesario. Ade-
manuscritos escrupulosamente y con imparciali- más, tiende a perpetuar el statu quo y es resistente a
dad, respetando la confidencialidad y mantenien- la innovación.
do en todo momento el «juego limpio». Si bien se ha demostrado que este sistema mejo-
4. Los lectores, que deben ser capaces de leer crítica- ra la legibilidad de los artículos, aunque continúa
mente los artículos que se publican, interpretar- siendo deficiente, su calidad en cuanto a la infor-
los correctamente y valorar la aplicabilidad de los mación que contienen no afecta a su relevancia.
resultados a su propia práctica. Por otro lado, existe una mayor probabilidad de
aceptación de los estudios con resultados estadística-
En todas las fases de la comunicación científica mente significativos, con fuentes de financiación ex-
son múltiples los conflictos de intereses que pue- ternas y multicéntricos, mientras que la probabilidad
den presentarse. Dado que la literatura científica de rechazo es mayor en los que obtienen conclusio-
es la principal fuente de evidencias que se utiliza nes no acordes con la opinión de los consultores,
en la toma de decisiones y en la elaboración de las con resultados estadísticamente no significativos y
guías de práctica clínica y las recomendaciones los estudios sobre intervenciones no convencionales.
para la atención de los pacientes, el impacto que Como consecuencia de todo ello se produce un ses-
estos conflictos pueden tener sobre la práctica es go de publicación que puede influir sobre las con-
muy importante. clusiones de las revisiones sistemáticas y las guías de
El Committee On Publication Ethics (COPE) ha práctica clínica basadas en la literatura disponible.
elaborado unas guías sobre las buenas prácticas en
publicación (www.publicationethics.org.uk/) que C ONFLICTO DE INTERESES
abordan diez aspectos: 1) diseño del estudio y apro- Y PUBLICACIÓN CIENTÍFICA
bación ética; 2) análisis de los datos; 3) autoría; 4) El COPE define conflicto de interés como aquel
conflicto de intereses; 5) revisión de manuscritos; que, si se revela posteriormente, podría hacer que
6) publicación redundante; 7) plagio; 8) deberes el lector se sintiera razonablemente decepcionado
de los editores; 9) relaciones con los medios de co- o engañado, incluyendo también los conflictos no
municación, y 10) publicidad. aparentes que pueden influir sobre el juicio del
autor, los revisores o los editores.
E L PROCESO DE REVISIÓN Los conflictos pueden manifestarse de múltiples
DE MANUSCRITOS ( PEER - REVIEW ) formas: falsificación o fabricación de datos, publi-
Todo el proceso de la comunicación científica pivo- cación selectiva de información, decisión de pu-
ta sobre un mecanismo de selección de manuscritos blicar o no un trabajo, interpretación sesgada de los
basado en su evaluación por expertos (peer-review), resultados, etc.
cuyos objetivos principales son evitar la publicación
de trabajos de mala calidad científica, de material Ejemplo 3.7. Stelfox et al (1998) identificaron los ar-
no original y de trabajos que no contengan infor- tículos publicados entre marzo de 1995 y septiembre
mación relevante para los lectores de la revista, así de 1996 relacionados con la seguridad de los fárma-
como mejorar la redacción y la presentación de los cos calcioantagonistas, clasificándolos como favo-
trabajos. rables, neutrales o críticos en relación con su uso, y
En la práctica este proceso se ha convertido en solicitaron información de los autores de dichos tra-
un sistema de garantía de calidad de las publicacio- bajos sobre sus relaciones con la industria farmacéu-
nes, con aparentes beneficios para todos los agen- tica. El principal resultado fue que los autores favo-
24
ÉTICA E INVESTIGACIÓN
rables al uso de estos fármacos tenían relaciones bería haber participado suficientemente como para
financieras con la industria farmacéutica en un tanto tomar la responsabilidad pública sobre partes del
por ciento superior que los que eran neutrales o crí- contenido del artículo. La autoría debe basarse sólo
ticos (100 frente al 67 y 43%, respectivamente). en contribuciones sustanciales a:
Ejemplo 3.8. En una revisión sistemática reciente, 1. La concepción y diseño o el análisis e interpreta-
Lexchin et al (2003) demostraron la existencia de ción de los resultados.
un sesgo de manera que los estudios financiados 2. La redacción y revisión crítica del contenido inte-
por la industria farmacéutica tienen una mayor lectual del artículo.
probabilidad de obtener resultados favorables para 3. La aprobación de la versión final.
el fármaco que producen. Este sesgo no está rela-
cionado con diferencias en la calidad metodológica Concreta además que la adquisición de fondos,
de los estudios, sino que las explicaciones más pro- la recogida de datos o la supervisión general del
bables son la elección de un comparador inadecua- equipo investigador por sí solos no justifican la
do y el sesgo de publicación. autoría.
Debido a que cada vez los trabajos son más com-
Este problema ha llegado a ser tan importante que plejos y requieren la participación de equipos nu-
los editores de las principales revistas médicas pu- merosos y multidisciplinarios de investigadores, re-
blicaron conjuntamente un artículo editorial (Da- sulta difícil que existan personas que cumplan
vidoff et al, 2001) (www.icmje.org/sponsor.htm), en estrictamente con todos los requisitos citados. Por
el que abogaban por la declaración por parte de ello existe una tendencia a solicitar que los firman-
todos los implicados en el proceso de revisión de tes de un trabajo especifiquen cuál ha sido su con-
manuscritos y de publicación de cualquier relación tribución al estudio (diseño, recogida de datos,
que pudiera ser vista como un potencial conflicto análisis de los resultados, obtención de fondos, revi-
de interés. Insisten en que ningún investigador de- sión intelectual del manuscrito, etc.).
bería participar en acuerdos que interfieran con su
accesibilidad a los datos o a su capacidad para ana-
lizarlos independientemente, preparar manuscri-
P UBLICACIÓN REDUNDANTE , MÚLTIPLE
Y FRAGMENTADA
tos y publicarlos.
Otros problemas frecuentes son la publicación de
C ONCEPTO DE AUTOR un artículo que se solapa sustancialmente con otro
Los investigadores están sometidos a múltiples pre- ya publicado, o la publicación fragmentada, en la
siones para publicar, ya sea por metas personales o que un estudio se divide en diferentes partes (sala-
exigencias institucionales, por ejemplo, lo que con- mi papers) que se publican separadamente.
duce en ocasiones a conductas inapropiadas, como
hacer constar como autores a personas que no lo Ejemplo 3.10. Un estudio reciente (Melander et al,
son (autoría regalada) o a personas inexistentes 2003) ilustra el impacto potencial de la publicación
(autoría «fantasma»), o no hacer constar a todos los múltiple y selectiva de los estudios financiados por
verdaderos autores del trabajo. la industria farmacéutica. Al analizar los estudios
sometidos a la Agencia Reguladora de los Medica-
Ejemplo 3.9. Una encuesta a los autores de 577 revi- mentos de Suecia como base para la aprobación de
siones publicadas en la biblioteca Cochrane en el cinco nuevos fármacos para la depresión mayor, se
año 1999 reveló que existía una elevada prevalencia observó cómo la mitad de ellos habían contribuido
de autores que no cumplen estrictamente los requi- al menos a dos publicaciones cada uno, y que se ha-
sitos: en un 39% de las revisiones había algún autor bían publicado con mayor frecuencia los que
honorario, y en un 9% existía algún autor «fantas- obtenían resultados estadísticamente significativos
ma», frecuentemente un miembro del equipo edi- favorables al nuevo fármaco. También observaron
torial Cochrane (Mowatt et al, 2002). que muchas publicaciones ignoraron los resultados
del análisis por intención de tratar, presentando los
Según el Comité Internacional de Editores de del análisis por protocolo más favorables a los nue-
Revistas Médicas (www.icmje.org/), cada autor de- vos medicamentos.
25
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
El Comité Internacional de Editores de Revistas with the human immunodeficiency virus. Uganda-Case
Médicas (www.icmje.org/) sólo considera acepta- Western Reserve University Research Collaboration.
ble la publicación secundaria, especialmente en N Engl J Med 1997; 337: 801-808.
otro idioma, cuando se cumplen las siguientes
condiciones: B IBLIOGRAFÍA
Ara Callizo JR. Manejo de los conflictos de intereses en la in-
vestigación médica. Visión desde la clínica. ICB digital
1. Los autores tienen la aceptación de los editores
2002 (30 Sept); núm. 8. Consultado en: http://www.icb-
de ambas revistas.
digital.org/icbdigital/pdf/articulo/articulo8.pdf.
2. Se respeta la prioridad de la publicación primaria. Bodenheimer T. Uneasy alliance. Clinical investigators and
3. El artículo se dirige a un grupo diferente de lec- the pharmaceutical industry. N Engl J Med 2000; 342:
tores, por lo que una versión abreviada suele ser 1539-1544.
suficiente. Dal-Ré R, Tormo MJ, Pérez G, Bolúmar F. Revisión ética de
4. La versión secundaria refleja fielmente los datos estudios epidemiológicos: una necesidad y una propues-
e interpretación de la publicación primaria. ta. Med Clin (Barc) 1998; 111: 587-591.
5. Una nota al pie de página informa de la publica- Davidoff F, DeAngelis CD, Drazen JM et al. Sponsorship, au-
ción previa y la referencia. thorship, and accountability. JAMA 2001; 286: 1232-
1234.
B IBLIOGRAFÍA DE LOS EJEMPLOS De Abajo FJ. La Declaración de Helsinki VI: una revisión ne-
Angell M. The Ethics of Clinical Research in the Third cesaria, pero ¿suficiente? Rev Esp Salud Pública 2001; 75:
World. N Engl J Med 1997; 337: 847-849. 407-420.
Clifford TJ, Barrowman NJ, Moher D. Funding source, trial Ellenberg SS, Temple R. Placebo-Controlled Trials and Acti-
outcome and reporting quality: are they related? Results ve-Control Trials in the Evaluation of New Treatments.
of a pilot study. BMC Health Services Research 2002; 2: Part 2: Practical Issues and Specific Cases. Ann Intern
18-23. Med 2000; 133: 464-470.
Kjaergard LL, Als-Nielsen B. Association between competing Emanuel EJ, Wendler D, Grady C. What makes clinical re-
interests and authors’ conclusions: epidemiological stu- search ethical? JAMA 2000; 283: 2701-2711.
dy of randomised clinical trials published in the BMJ. Forster HP, Emanuel E, Grady C. The 2000 revision of the
BMJ 2002; 325: 249-252. Declaration of Helsinki: a step forward or more confu-
Lexchin J, Bero LA, Djulbegovic B, Clark O. Pharmaceutical sion? Lancet 2001; 358: 1449-1453.
industry sponsorship and research outcome and quality: Levine RJ. Ethics and regulation of clinical research. 2.a ed.
systematic review. BMJ 2003; 326: 1167-1176. Baltimore: Urban & Schwarzenberg, 1986.
Lurie P, Wolfe SM. Unethical Trials of Interventions to Reduce Lewis JA, Jonsson B, Kreutz G, Sampaio C, van Zwieten-Boot
Perinatal Transmission of the Human Immunodeficien- B. Placebo-controlled trials and the Declaration of Hel-
cy Virus in Developing Countries. N Engl J Med 1997; sinki. Lancet 2002; 359: 1337-1340.
337: 853-856. Manzini JL. Declaración de Helsinki: principios éticos para
Melander H, Ahlqvist-Rastad J, Meijer G, Beermann B. Evi- la investigación médica sobre sujetos humanos. Análisis
dencie b(i)ased medicine – selective reporting from stu- de la 5.a reforma, aprobada por la Asamblea General de
dies sponsored by pharmaceutical industry: review of stu- la Asociación Médica Mundial en octubre del año 2000,
dies in new drug applications. BMJ 2003; 326: 1171-1175. en Edimburgo. Acta Bioethica 2000; VI: 321-334.
Mowatt G, Shirran L, Grimshaw JM et al. Prevalence of hono- Morin K, Rakatansky H, Riddick FA et al. Managing conflicts
rary and ghost authorship in Cochrane reviews. JAMA of interest in the conduct of clinical trials. JAMA 2002;
2002; 287: 2769-2771. 287: 78-84.
Ordovás Baines JP, López Briz E, Urbieta Sanz E, Torregrosa Temple R, Ellenberg SS. Placebo-controlled trials and active-
Sánchez R, Jiménez Torres NV. Análisis de las hojas de control trials in the evaluation of new treatments. Part 1:
información al paciente para la obtención de su consen- ethical and scientific issues. Ann Intern Med 2000; 133:
timiento informado en ensayos clínicos. Med Clin (Barc) 455-463.
1999; 112: 90-94. Thompson DF. Understanding financial conflicts of interest.
Stelfox HT, Chua G, O’Rourke K, Detsky AS. Conflict of inte- N Engl J Med 1993; 329: 573-576.
rest in the debate over calcium-channel antagonists. Weijer C, Dickens B, Meslin EM. Bioethics for clinicians: 10.
N Engl J Med 1998; 338: 101-106. Research ethics. CMAJ 1997; 156: 1153-1157.
Whalen CC, Johnson JL, Okwera A et al. A trial of three regi- Weijer C, Glass KC. The ethics of placebo-controlled trials.
mens to prevent tuberculosis in Ugandan adults infected N Engl J Med 2002; 346: 382-338.
26
Capítulo 4
Clasificación de los tipos de estudio
or diseño de un estudio se entienden los pro- puede causar una enfermedad o un tratamiento
29
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
riables que se evalúan, de forma que puede estable- bién a la dirección temporal de las observaciones,
cerse una secuencia temporal entre ellas. Pueden de forma que algunos autores consideran el térmi-
ser tanto descriptivos como analíticos. En estos últi- no prospectivo como sinónimo de cohorte o inclu-
mos debe tenerse en cuenta además la dirección tem- so de longitudinal.
poral, que puede ir de la causa hacia el desenlace En este texto se consideran prospectivos aquellos
(estudios experimentales y estudios de cohortes) o estudios cuyo inicio es anterior a los hechos estu-
bien desde el desenlace hacia la causa (estudios de diados, de forma que los datos se recogen a medi-
casos y controles). da que van sucediendo. Se consideran retrospectivos
Algunos autores consideran longitudinales sólo los estudios cuyo diseño es posterior a los hechos
los estudios en los que los sujetos se siguen en el estudiados, de forma que los datos se obtienen de
tiempo desde una línea basal hasta un desenlace, archivos o registros, o de lo que los sujetos o los
haciendo sinónimo este concepto del de cohorte. médicos refieren. Cuando existe una combinación
Sin embargo, según la definición dada en el párrafo de ambas situaciones los estudios se clasifican co-
anterior, se considera que un estudio es longitudinal mo ambispectivos.
si las observaciones se refieren a dos momentos en En la tabla 4.1 se presenta la clasificación de los
el tiempo, aun cuando la recogida de información diseños más habituales, y en la figura 4.1 un algorit-
se haya realizado de forma simultánea. Si las distin- mo para clasificar los estudios analíticos.
tas observaciones se han recogido en un mismo mo-
mento en el tiempo, para que el estudio pueda con-
siderarse longitudinal se debe asumir una secuencia Tabla 4.1. Clasificación de los tipos de diseño
temporal entre ellas.
Estudios descriptivos transversales
A SIGNACIÓN DE LOS FACTORES – Estudios de prevalencia
DE ESTUDIO : EXPERIMENTAL – Series de casos transversales
– Evaluación de pruebas diagnósticas
U OBSERVACIONAL
– Estudios de concordancia
Se consideran experimentales los estudios en los que
– Estudios de asociación cruzada
el equipo investigador asigna el factor de estudio y – Otros estudios transversales descriptivos
lo controla de forma deliberada para la realización
de la investigación, según un plan preestablecido. Estudios descriptivos longitudinales
Estos estudios se centran en una relación causa-efec- – Estudios de incidencia
– Descripción de los efectos de una intervención
to (analíticos), y en general evalúan el efecto de una
no deliberada
o más intervenciones preventivas o terapéuticas.
– Descripción de la historia natural
Se definen como observacionales los estudios en
los que el factor de estudio no es controlado por los Estudios analíticos observacionales
investigadores, sino que éstos se limitan a observar, – Dirección causa-efecto: estudios de cohortes:
medir y analizar determinadas variables en los suje- • Prospectivos
• Retrospectivos
tos. La exposición puede venir impuesta (p. ej., el
• Ambispectivos
sexo o la raza), haber sido «escogida» por los pro-
– Dirección efecto-causa: estudios de casos
pios sujetos (p. ej., el consumo de tabaco), o deci- y controles
dida por el profesional sanitario dentro del proceso – Estudios híbridos
habitual de atención sanitaria (p. ej., los actos
Estudios analíticos experimentales
terapéuticos ordinarios), pero no de forma delibe-
– Ensayos controlados:
rada en el marco de una investigación.
• Ensayos clínicos en paralelo
• Ensayos clínicos cruzados
I NICIO DEL ESTUDIO EN RELACIÓN • Ensayos comunitarios
CON LA CRONOLOGÍA DE LOS HECHOS : – Ensayos no controlados:
PROSPECTIVO O RETROSPECTIVO • Ensayos sin grupo control
Los términos prospectivo y retrospectivo pueden • Ensayos con control externo
conducir a confusión, ya que suelen aplicarse tam-
30
CLASIFICACIÓN DE LOS TIPOS DE ESTUDIO
Sí ¿Existe control No
del factor de estudio?
¿Existe un La formación
Sí No
grupo control de los grupos se realiza
concurrente? en función de:
Ejemplo 4.1. Un estudio investiga la presunta rela- Supongamos que en este mismo estudio se de-
ción causal entre el consumo de tabaco y la presen- terminan las cifras de colesterolemia en las prime-
cia de cardiopatía isquémica. Para ello se identifican ras horas del infarto agudo de miocardio. Dado
enfermos de cardiopatía isquémica y un grupo de que es conocido que los cambios metabólicos que
pacientes sin la enfermedad, y en el mismo mo- acompañan al infarto pueden alterar las cifras de
mento se les interroga sobre su historia pasada de colesterolemia, no podría asumirse que estos valo-
consumo de tabaco. Este estudio es analítico (evalúa res reflejan la situación previa de los sujetos, por lo
una presunta relación causal), observacional (no se que en este caso el estudio se consideraría transver-
controla el factor de estudio) y retrospectivo (los sal ya que la presencia de la enfermedad y la coles-
hechos ya han ocurrido cuando se realiza la in- terolemia corresponden a un mismo momento del
vestigación). Aunque la información sobre el efecto tiempo. Para poder considerarlo longitudinal, de-
y la presunta causa se recogen en un mismo mo- bería disponerse de información sobre su historia
mento de tiempo, se asume que los datos sobre el previa de colesterolemia.
consumo de tabaco se refieren a un momento del
tiempo anterior a la aparición de la enfermedad, por Ejemplo 4.2. Un estudio desea evaluar la utilidad de
lo que este estudio puede clasificarse como longitu- un marcador biológico en el diagnóstico de un de-
dinal (dado que la dirección es de efecto a causa terminado tipo de cáncer. Para ello se selecciona una
correspondería a un estudio de casos y controles). muestra de pacientes con dicho tipo de cáncer y otra
31
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
de sujetos sin él, y se miden en todos ellos los valores sigue durante 12 meses para determinar cuántos
del marcador biológico, evaluando si es útil para de ellos reducen sus cifras de PA. El estudio trata
diferenciar ambos grupos. Se trata de un diseño des- de evaluar una presunta relación causal entre el tra-
criptivo (no evalúa una presunta relación causal), tamiento y la reducción de la PA (analítico), es expe-
transversal (ya que la identificación de la existencia rimental (ya que el investigador controla de forma
del cáncer y la medición del marcador biológico se deliberada el tratamiento para la realización del
refieren al mismo momento de tiempo), y observa- estudio), longitudinal y prospectivo. En este estudio
cional (no se controla el factor de estudio). no existe un grupo control que reciba un placebo u
El mismo objetivo de investigación se hubiera otro tratamiento, por lo que corresponde a un ensa-
podido abordar con un diseño longitudinal: medir yo sin grupo control (estudio antes-después).
en una muestra de sujetos el marcador biológico, Supongamos que otro investigador ha seleccio-
seguir en el tiempo para observar cuántos de ellos nado las historias clínicas de 30 pacientes hiperten-
desarrollan el cáncer, y evaluar si los valores del sos que han recibido el mismo tratamiento, reco-
marcador pueden ser predictivos de su aparición. giendo una serie de variables, entre ellas la PA al
inicio del tratamiento y al año de éste. Dado que la
Ejemplo 4.3. Supongamos que se selecciona una intervención no se ha administrado de manera deli-
muestra aleatoria de una población, y en todos los berada para el estudio, no corresponde a un diseño
sujetos se miden las cifras de presión arterial (PA) experimental. De hecho, es la descripción de una
con la finalidad de conocer cuántos de los sujetos tie- cohorte de sujetos hipertensos que reciben un tra-
nen hipertensión arterial (HTA). Se trata de un estu- tamiento dentro de la práctica asistencial, que sólo
dio descriptivo, observacional y transversal, que esti- permite conocer la evolución de las cifras de PA y
ma la prevalencia de HTA (estudio de prevalencia). que, por tanto, no puede considerarse analítico,
Supongamos que en la misma muestra de suje- ya que no permite evaluar la relación causal entre
tos se miden también las cifras de colesterol sérico y el tratamiento y las cifras de PA. Además, dado que
se correlacionan con las de presión arterial. El los datos proceden de registros clínicos, se clasifi-
diseño tiene las mismas características, por lo que, caría como retrospectivo.
al ser transversal, no puede establecer una relación
causal entre ambas variables, sino que se limita a B IBLIOGRAFÍA
Feinstein AR. Clinical epidemiology: the architecture of cli-
evaluar si existe asociación entre ellas en una mues-
nical research. Filadelfia: WB Saunders, 1985.
tra de sujetos en un momento determinado (estu- Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic
dio de asociación cruzada). methods: principles and quantitative methods. Belmont:
Lifetime Learning Publications, 1982.
Ejemplo 4.4. Un investigador selecciona una mues- Kramer MS, Boivin JF. Toward an «unconfounded» classifi-
tra de 30 sujetos hipertensos a los que administra cation of epidemiologic research design. J Chron Dis
un tratamiento con una pauta preestablecida, y los 1987; 40: 683-688.
32
Capítulo 5
Estudios experimentales I:
el ensayo clínico aleatorio
os estudios experimentales son aquellos en los que proporcionan una mayor confianza en la conclu-
33
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Población diana
Población experimental
Participantes (muestra)
Asignación aleatoria
Grupo A Grupo B
Intervención de estudio • Intervención de comparación
• Placebo
• No intervención
Pérdidas y abandonos
Seguimiento Pérdidas y abandonos
Retiradas
Retiradas
Respuesta Respuesta
Comparación
Interpretación
Conclusión
tica clínica se basan en las pruebas proporcionadas terapéuticas autorizadas, o incluso intervenciones
por este tipo de estudios. Ello ha conducido a que el sanitarias de cualquier tipo, como tratamientos no
número de ECA esté aumentando rápidamente y a farmacológicos, consejos sanitarios, recomendacio-
que cada vez se exija un mayor rigor metodológico en nes dietéticas, detección precoz de enfermedades,
su diseño, ejecución y análisis. Además, ha llevado al estrategias de formación médica continuada, o inclu-
desarrollo de instrumentos para la valoración de su so modelos organizativos de las consultas o los cen-
calidad metodológica, guías para su lectura rápida y tros sanitarios.
recomendaciones sobre su publicación, como la pro- A continuación, se describen las características
puesta CONSORT (Begg et al, 1998). Las principales generales del diseño de este tipo de estudios, dejando
ventajas e inconvenientes de un ECA se resumen en la discusión más detallada de los diferentes elementos
la tabla 5.1. del protocolo para los capítulos correspondientes.
Las autoridades sanitarias obligan a la realización
de un ECA para demostrar la eficacia y seguridad de
INTERVENCIONES QUE SE COMPARAN
un nuevo fármaco antes de su comercialización, o
bien de una nueva forma terapéutica, una nueva indi- Uno de los aspectos clave del diseño de un ECA es la
cación o su eficacia en condiciones diferentes de las selección de la intervención que se va a utilizar como
autorizadas. Pero el ECA es también el diseño prefe- referencia en la comparación. Debe respetarse el
rible para comparar en la práctica diferentes pautas denominado principio de incertidumbre (equipoise) se-
34
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
Tabla 5.1. Ventajas y desventajas de los ensayos tamiento del mieloma múltiple en función de la fuen-
clínicos aleatorios te de financiación del estudio. Aunque no observaron
diferencias estadísticamente significativas entre la ca-
Ventajas lidad de los ensayos financiados por la industria y
• Proporcionan la mejor evidencia de una relación los financiados por agencias gubernamentales o sin
causa-efecto entre la intervención que se evalúa ánimo de lucro, sí que existían diferencias en relación
y la respuesta observada con el principio de incertidumbre. Mientras que el
porcentaje de ensayos financiados por entidades sin
• Proporcionan un mayor control del factor
ánimo de lucro que favorecían a las nuevas terapias
de estudio
era similar al que favorecía a las de referencia (47%
• La asignación aleatoria tiende a producir frente a 53%, p = 0,61), existía una clara diferencia en
una distribución equilibrada de los factores los financiados por la industria a favor de las nuevas
pronóstico que pueden influir en el resultado terapias (74% frente a 26%, p = 0,004). Este hallazgo
(potenciales factores de confusión), formando podía estar relacionado con el hecho de que más
grupos comparables; de este modo, permite aislar ensayos financiados por la industria utilizaban pla-
el efecto de la intervención del resto de factores
cebo o no intervención como grupo de comparación.
Desventajas Los autores concluyen que el sesgo observado en
la publicación de la investigación financiada por la
• Las restricciones éticas impiden que muchas industria podría ser la consecuencia de violaciones
preguntas puedan ser abordadas mediante del principio de incertidumbre.
un ensayo clínico aleatorio
• Habitualmente se llevan a cabo con participantes En términos generales, para seleccionar la inter-
muy seleccionados, lo que dificulta la vención de referencia, existen tres opciones: placebo,
generalización y extrapolación de los resultados tratamiento activo o ninguna intervención.
• A menudo, las intervenciones se administran Por placebo entendemos un preparado que carece
con pautas rígidas, diferentes de las que se realizan de actividad farmacológica, pero cuya apariencia y
en la práctica habitual, lo que dificulta la características organolépticas son idénticas a las del
generalización y extrapolación de los resultados preparado de estudio. La finalidad de su uso en inves-
• En general, sólo permiten evaluar el efecto tigación es controlar el efecto placebo, que se refiere
de una única intervención al efecto psicológico o fisiológico de cualquier medi-
cación, independientemente de su actividad farma-
• Suelen tener un coste elevado, aunque ello
cológica, y que depende de la propia personalidad
depende de la duración del estudio
del paciente, las convicciones y el entusiasmo del
y la complejidad del protocolo
equipo investigador, las condiciones de administra-
ción y características de la intervención, etc.
Desde el punto de vista de la hipótesis que se pone
gún el cual un ECA solamente debe realizarse si existe a prueba, la comparación con un placebo tiene por
una verdadera incertidumbre acerca de cuál de las objetivo cuantificar el efecto terapéutico del fármaco
intervenciones que se comparan beneficia más a los que se evalúa, ya que la principal ventaja del placebo
pacientes. La comparación frente a intervenciones que como alternativa de comparación es la de controlar
se sabe que son inferiores, además de ser éticamente los efectos derivados de cualquier característica del
inaceptable, conduce a la obtención de resultados favo- tratamiento que no sea el efecto que se está estudian-
rables a la intervención de estudio, cuya publicación do, incluso los efectos secundarios. Así, si se compara
introduce un sesgo en las evidencias disponibles sobre un antihipertensivo con un placebo, se está evaluan-
la eficacia de los tratamientos, con las repercusiones do si el tratamiento consigue disminuir las cifras de
que este hecho puede tener sobre las decisiones y las presión arterial más allá de lo que lo haría una sus-
recomendaciones terapéuticas. tancia no activa farmacológicamente.
Ejemplo 5.1. Djulbegovic et al (2000) evaluaron la ca- Ejemplo 5.2. En el Lipid Research Clinics (1984),
lidad de 136 ensayos clínicos publicados sobre el tra- donde se comparaba la eficacia de la colestiramina
35
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
para reducir la morbimortalidad cardiovascular, se mientos actuales, podrían estar igualmente indicadas
observó que algunos efectos secundarios eran bas- en la situación clínica de estudio (principio de incer-
tante frecuentes en el grupo de la colestiramina: la tidumbre).
constipación se registró en el 39% de individuos, y los Cuando se comparan dos tratamientos activos,
eructos y flatulencias en un 27%. Sin embargo, no suele ser conveniente enmascararlos para prevenir
todo el efecto se debía al fármaco; en el grupo que posibles sesgos. En muchas ocasiones, para lograrlo
recibía placebo estos efectos se observaron en un 10 y es necesario administrar a los sujetos de cada grupo
un 16% de los individuos, respectivamente. Así pues, un placebo de la intervención que recibe el otro
el uso de placebo permitirá no sólo aislar el efecto grupo (double dummy). En este caso, el placebo no se
terapéutico del fármaco en estudio, sino conocer utiliza como alternativa de referencia, sino tan sólo
también la proporción de efectos indeseables que como una técnica para lograr el enmascaramiento.
pueden atribuirse a la intervención.
Ejemplo 5.3. Consideremos un estudio cuyo objetivo
Además, el uso de un placebo permite enmasca- era comparar una monodosis de un antibiótico con
rar las intervenciones, de forma que los participantes una pauta de 10 días para el tratamiento de la infec-
(e incluso los investigadores) desconozcan si reciben ción urinaria. Es conocido que la duración de un tra-
tratamiento activo o no. tamiento es un factor que influye sobre su respuesta.
Cuando existe una opción terapéutica aceptada Para neutralizar este efecto el equipo investigador
como eficaz en la situación clínica de interés, ésta decidió asignar aleatoriamente los individuos a dos
debería ser la alternativa de comparación en el ECA. grupos, uno de los cuales recibió la monodosis segui-
La comparación con placebo en esta situación pre- da de comprimidos placebo, mientras que el otro
senta limitaciones éticas, aunque se ha abusado de recibió en primer lugar una monodosis placebo y,
ella, dado que es más fácil encontrar diferencias a continuación, el tratamiento hasta completar los
estadísticamente significativas frente a un placebo 10 días. De este modo, se consiguió mantener el
que frente a otro tratamiento activo. Sin embargo, doble ciego y efectuar una comparación lo más
aunque existe acuerdo universal en que su uso no es imparcial posible.
apropiado en situaciones que supongan una amena-
za vital y se disponga de alguna intervención eficaz, Por otro lado, con frecuencia la finalidad del ECA
existe cierta controversia acerca de si puede utilizarse no es evaluar si un nuevo tratamiento es más eficaz
en situaciones en que un retraso en la administración que el de referencia (estudios de superioridad), sino
de una intervención eficaz difícilmente suponga un demostrar que no es peor (estudios de no-inferiori-
daño permanente en los sujetos. dad) o que ambos son iguales (estudios de equivalen-
El uso de otro tratamiento o intervención activos cia), ya que la nueva intervención presenta alguna
como comparación tiene por objetivo estimar la rela- ventaja adicional sobre la estándar, como una mayor
ción beneficio/riesgo del nuevo tratamiento en una facilidad de administración o una mayor seguridad.
situación clínica concreta. En estos casos, la mejor El ejemplo anterior ilustra un estudio de este tipo,
comparación es el «mejor tratamiento disponible» puesto que, en caso de ser equivalentes, la monodosis
para dicha situación. Ésta no siempre es una elección presentaría ventajas de seguridad y cumplimiento
fácil, ya que en la mayoría de las veces existe un que la harían preferible a una pauta larga. Las carac-
amplio arsenal terapéutico que hace difícil elegir terísticas específicas de estos estudios se comentan en
cuál es la mejor alternativa. Sin embargo, a menudo el capítulo siguiente.
existen guías o recomendaciones sobre el fármaco Algunas veces, por la propia pregunta de investi-
más adecuado para ser utilizado como referencia. gación, la intervención de referencia más adecuada
Además, cuando se emplea un tratamiento activo no es un placebo ni otra intervención específica, sino
como referencia, debe prestarse especial atención a los cuidados habituales que reciben los pacientes en la
la dosis, la pauta y la duración de su administración, consulta (usual care). Aunque en teoría es posible
para mantener el principio de incertidumbre y no comparar el grupo que recibe la intervención de estu-
favorecer al nuevo tratamiento, al compararlo con dio con otro que no recibe ninguna intervención
otro en inferioridad de condiciones. Se trata de com- específica, generalmente puede considerarse que, en
parar alternativas terapéuticas que, según los conoci- realidad, el grupo control está recibiendo los cuida-
36
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
dos que se prestan normalmente para su problema de Aunque a menudo se selecciona la variable por la
salud (de otra manera podrían plantearse problemas facilidad de su medición o porque se espera que
éticos), por lo que, realmente, se está comparando la pueda mostrar cambios o diferencias en un corto
intervención de estudio con la atención habitual. período, es importante utilizar la más adecuada, es
decir, la que mida los verdaderos resultados de im-
Ejemplo 5.4. En el Multiple Risk Factor Intervention portancia e interés para los pacientes.
Trial (MRFIT) (1982), individuos de mediana edad En general, puede considerarse que existen tres
con un riesgo elevado de padecer cardiopatía isqué- categorías de variables: subrogadas, clínicas y rele-
mica fueron asignados de forma aleatoria con el fin vantes para los pacientes (tabla 5.2).
de evaluar si la intervención simultánea sobre el taba-
co, la dieta y la presión arterial prevenía la enferme- VARIABLES SUBROGADAS
dad. En el grupo experimental, el control de la hiper- Las variables subrogadas son medidas de laboratorio
colesterolemia y de la hipertensión arterial, así como o signos físicos, como la colesterolemia o las cifras de
el consejo dietético y antitabaco, corrían a cargo de presión arterial, que se utilizan como sustitutos de
un grupo de profesionales altamente especializados, un resultado clínicamente relevante. En principio,
mientras que en el otro grupo no se llevó a cabo nin- se espera que los cambios producidos en la variable
guna intervención específica, de forma que los suje- subrogada reflejen cambios en dicho resultado. Por
tos recibían los cuidados habituales dados por sus res- tanto, para que una variable subrogada sea útil debe
pectivos médicos de cabecera. ser altamente predictiva del resultado de interés clí-
nico (tabla 5.3), y no es suficiente con que exista una
asociación estadística. Existe una importante discu-
DEFINICIÓN DE LA VARIABLE
sión sobre la adecuación del uso de este tipo de
DE RESPUESTA
variables, ya que muchos de los resultados clínicos
La elección de la variable que se utilizará para evaluar de interés tienen una etiología multifactorial y pue-
la eficacia del tratamiento, cuantificar sus efectos y den existir diversos factores de confusión que inter-
compararlos con los del grupo de referencia es clave fieran sobre su relación con dichas variables, de
para establecer la relevancia clínica de los resultados manera que existen múltiples situaciones en las que
que se obtendrán. los efectos sobre una variable subrogada pueden no
Tabla 5.2. Ejemplos de variables subrogadas, clínicas y relevantes para los pacientes
Resultado
37
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
38
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
Intervención
Intervención
Intervención
Intervención
Figura 5.2. Posibles situaciones en la evaluación de una intervención sobre una variable subrogada y su relación
con el resultado clínico de interés (modificada de Fleming y DeMets, 1996).
Por otro lado, si se definen criterios muy amplios, bles consecuencias que pueden derivarse de su parti-
la población de estudio será más representativa de la cipación. Esta información debería cubrir como
diana y las posibilidades de generalizar los resultados mínimo los siguientes puntos: a) el objetivo del estu-
serán mayores, pero, al ser más heterogénea, será dio; b) las características básicas del diseño (asigna-
más difícil detectar una respuesta al tratamiento y se ción aleatoria, técnicas de enmascaramiento, uso de
requerirá un mayor número de individuos. tratamiento placebo, etc.; c) los posibles efectos se-
cundarios; d) los posibles beneficios; e) que el pacien-
C ONSENTIMIENTO INFORMADO te tiene el derecho de abandonar el estudio en cual-
Una vez que se ha comprobado que un sujeto cumple quier momento, y f) que tiene el derecho de formular
todos los criterios de inclusión y ninguno de los de cuantas preguntas desee relacionadas con la investi-
exclusión, antes de incluirlo en el estudio debe dar su gación. Todos estos puntos deben explicarse en tér-
consentimiento informado para participar en él. minos comprensibles para el paciente, evitando el len-
Previamente a otorgar su consentimiento, un can- guaje académico o científico.
didato debe recibir información, tanto oral como Es muy probable que los sujetos que dan su con-
escrita, sobre lo que supone la experiencia y las posi- sentimiento informado difieran en múltiples aspec-
39
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tos de los que no lo hacen, incluyendo la motivación esta estrategia tiene el inconveniente de que limita la
y actitudes hacia la salud y los factores de riesgo de la capacidad de extrapolación de los resultados.
enfermedad. Aunque este hecho dificulta la genera- A veces, se utiliza un fármaco activo en el período
lización de los resultados, es un imperativo ético que de preinclusión con la finalidad de usar una respues-
la participación en un ECA debe ser voluntaria y basa- ta intermedia al tratamiento como criterio de aleato-
da en el consentimiento informado. rización; por ejemplo, para seleccionar los sujetos
controlados por dicho tratamiento o bien para incluir
P ERÍODO DE PREINCLUSIÓN en el estudio a los que no han respondido al mismo.
Algunos ECA utilizan un período de preinclusión
(run-in phase) previo a la inclusión de los sujetos y a su Ejemplo 5.6. En un estudio sobre el efecto de un agen-
asignación a los grupos de estudio, durante el cual los te antihipertensivo en la mortalidad cardiovascular, el
pacientes se siguen con alguna finalidad, como la investigador podría aleatorizar sólo a los individuos
selección de los que cumplen con el tratamiento y las cuya hipertensión arterial fuera controlada de forma
pautas prescritas, la exclusión de los que presentan satisfactoria sin efectos secundarios importantes. Este
efectos secundarios, la selección de los que respon- diseño aumenta al máximo la potencia del estudio al
den o no a una determinada intervención (como re- incrementar la proporción de sujetos del grupo de
quisito previo para su inclusión), o la obtención de intervención que es sensible a la intervención, y si-
una observación basal más válida y consistente antes mula la tendencia del clínico a continuar usando un
de la asignación aleatoria. fármaco sólo cuando encuentra pruebas de que está
Después de identificar a los sujetos de la pobla- funcionando después de intentarlo unas semanas en
ción de estudio y de obtener su consentimiento, un paciente determinado.
todos los individuos reciben un placebo (o una de las
intervenciones, si se desea excluir a los sujetos que Para poder interpretar correctamente los hallaz-
presenten efectos secundarios) durante un período gos de los estudios con período de preinclusión, es
especificado (por lo común, unas semanas), tras el importante señalar las diferencias entre las carac-
cual los sujetos seleccionados se asignan al azar a los terísticas iniciales de los sujetos que han sido exclui-
grupos para iniciar el estudio. dos durante dicho período y los que son asignados a
los grupos de estudio.
Ejemplo 5.5. En el American Physicians’ Health Study
(Hennekens y Eberlein, 1985) diseñado para evaluar si
ASIGNACIÓN ALEATORIA
325 mg de ácido acetilsalicílico (AAS) administrado a
días alternos reduce la mortalidad cardiovascular en En un ECA, los sujetos incluidos en el estudio se asig-
pacientes asintomáticos, los 33.223 sujetos que nan a los grupos siguiendo un método aleatorio. Los
cumplían los criterios de selección establecidos fueron beneficios de la asignación aleatoria, que se comen-
sometidos a un período de preinclusión de 18 semanas tan detalladamente en el capítulo correspondiente,
en que todos ellos recibieron AAS, de manera que pueden resumirse en dos principales.
solamente fueron incluidos en el estudio los 22.071 En primer lugar, tiende a asegurar la comparabili-
sujetos que cumplieron con la intervención durante dad de los grupos, de manera que la comparación
dicho período y no presentaron efectos secundarios. entre las intervenciones o tratamientos sea lo más
Estos participantes fueron asignados aleatoriamente a imparcial posible. La asignación aleatoria tiende a
dos grupos (AAS y placebo). Como consecuencia de producir una distribución equilibrada de las variables
este proceso de selección tan estricto, a los 57 meses entre los grupos, tanto de las conocidas como de las
de seguimiento, prácticamente el 90% de los partici- que no lo son. Esta tendencia es tanto mayor cuanto
pantes todavía cumplían con la intervención asignada. más elevado es el tamaño de la muestra. Cuando se
estudian pocos pacientes pueden producirse diferen-
La exclusión de los individuos incumplidores o de cias entre los grupos, a pesar de que los sujetos se
los que presentan efectos secundarios aumenta la hayan asignado de forma aleatoria. El ejemplo más
potencia del estudio y permite una mejor estimación extremo sería cuando sólo se estudian dos sujetos; en
de los efectos globales de la intervención. Sin embar- este caso, asignarlos de forma aleatoria no aporta
go, aunque aumenta la validez interna del estudio, ningún beneficio, ya que las posibles diferencias
40
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
entre ambos siguen existiendo. Así pues, es impor- pantes, desconozcan qué intervención recibe cada
tante tener presente que la asignación aleatoria no individuo.
garantiza que los grupos sean similares, sino que Si los investigadores conocen quién recibe cada
aumenta la probabilidad de que lo sean. Existen algu- intervención, o los participantes saben qué tratamien-
nas técnicas, como la asignación estratificada o por to reciben, existe la posibilidad de que se examine
bloques, que pueden ayudar a garantizar la distribu- con mayor minuciosidad cualquier respuesta (aunque
ción equilibrada de las variables principales. sea de modo no intencionado), o se pregunte con
En segundo lugar, la asignación aleatoria permite más detalle por los posibles efectos secundarios de
la utilización de técnicas de enmascaramiento, que alguno de los tratamientos. Estas preferencias se evi-
son muy útiles para obtener una estimación no sesga- tan con la técnica del doble ciego, donde tanto los
da de la variable de respuesta. pacientes como los investigadores desconocen el tra-
Dado que la asignación aleatoria es la clave de un tamiento administrado. Cuando ambos grupos reci-
ECA, debe realizarse correctamente, de modo que ni ben un tratamiento activo, suele implicar un doble
las preferencias del médico ni las del paciente influ- enmascaramiento de las intervenciones, recibiendo
yan en la decisión del grupo al que éste es asignado. cada grupo uno de los tratamientos y un placebo del
Por ello, es esencial que se produzca después de que tratamiento del otro grupo.
el paciente haya sido incluido en el estudio y que la Por último, existe también la técnica del triple ciego,
secuencia de asignación esté oculta para el investiga- en la que, además, hay otras personas que también des-
dor, de manera que el conocimiento de los grupos no conocen el tratamiento que recibe cada sujeto, ya sea
influya en su decisión de incluirlo en uno u otro. el profesional estadístico que analizará los resultados,
Generalmente, la asignación se realiza tras completar o la persona responsable de decidir si se suspende un
una serie de pruebas (cuestionarios, examen físico, tratamiento por la aparición de reacciones adversas o
exploraciones complementarias, etc.) para decidir si si debe interrumpirse prematuramente el ensayo.
los pacientes cumplen o no los criterios de selección. Cuando estos métodos no pueden llevarse a cabo,
En caso afirmativo, el paciente deberá dar su consen- puede utilizarse la técnica de la evaluación enmasca-
timiento antes de ser incluido. Una vez cumplidos rada de la respuesta, o del evaluador ciego. Consiste en
estos dos requisitos se procederá a asignar aleatoria- que la persona que ha de medir la variable de res-
mente a los pacientes, pero no antes. De este modo, puesta desconozca el grupo al que pertenece cada
la decisión de incluir o no a un sujeto no estará influi- uno de los sujetos, con la finalidad de que la medi-
da por el conocimiento del tratamiento que recibirá. ción se realice e interprete de la misma forma para
cada grupo. Esta técnica es muy importante cuando
la variable de respuesta es blanda e incluye algún ele-
TÉCNICAS DE ENMASCARAMIENTO
mento de subjetividad (p. ej., una medida de la inten-
Las expectativas tanto de los pacientes como de los sidad del dolor, un cuestionario sobre síntomas, la
investigadores pueden influir en la evaluación de la percepción de mejoría en relación a una situación
respuesta observada. Este problema se evita utilizan- previa o la interpretación de una radiografía). En
do las llamadas técnicas de ciego o de enmascaramiento. cambio, cuando la variable de respuesta es objetiva
Se definen como aquellos procedimientos realizados (dura), como una medida de laboratorio, esta técni-
con el fin de que algunos de los sujetos relaciona- ca no es imprescindible.
dos con el estudio (equipo investigador, participan-
tes, etc.) no conozcan algunos hechos u observacio- V ENTAJAS DEL ENMASCARAMIENTO
nes (básicamente el tratamiento que recibe cada suje- Un investigador puede no ser completamente impar-
to) que pudieran ejercer un cambio en sus acciones o cial en la evaluación de dos intervenciones o más.
decisiones y sesgar los resultados. Un estudio que no Siempre existe un cierto grado de escepticismo o pre-
utiliza técnicas de enmascaramiento se denomina juicio hacia una de ellas. Incluso si es completamente
ensayo abierto. imparcial, los primeros resultados pueden influir
sobre sus expectativas y crear un cierto entusiasmo o
T IPOS DE ENMASCARAMIENTO desilusión, que será difícil de ignorar. Aunque sea de
La técnica del simple ciego consiste en que los investi- modo inconsciente, cuando en el estudio no se aplica
gadores, o más frecuentemente los propios partici- ninguna técnica de enmascaramiento, los errores en
41
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
42
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
43
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
En algunos casos, será de pocas semanas, como suce- nes, deben ser claramente descritas para poder eva-
de con las infecciones urinarias. En otros, se alargará luar su impacto potencial sobre los resultados.
durante años, en especial cuando se evalúan medi- La propuesta CONSORT, que presenta recomen-
das de prevención primaria. Cuanto menor sea el daciones para mejorar las publicaciones de los ECA,
tiem-po de seguimiento, más fácil será mantener incluye un gráfico que representa el flujo de pacien-
el contacto con los participantes, así como el interés tes a lo largo del estudio, permitiendo una rápida
y la motivación de los investigadores por el estudio, y, apreciación de cómo se ha desarrollado (fig. 5.3).
por consiguiente, la probabilidad de pérdidas será También debe preverse la posibilidad de que
menor. determinados sujetos deban ser retirados del estudio
Las fuentes de pérdidas durante el tiempo de ob- por efectos secundarios o por una ausencia de res-
servación son diversas. Algunas personas cambiarán puesta al tratamiento que reciben. En estos casos,
de opinión una vez hayan dado su consentimiento y debe estar prevista la intervención que recibirán al
hayan sido asignadas a uno de los grupos, mientras ser excluidos del estudio (medicación de rescate).
que otras dejarán el estudio a causa de los efectos
secundarios de la medicación, por cambios de lugar ESTRATEGIA DE ANÁLISIS
de residencia o de médico, o por la pérdida de la
motivación. El número de pérdidas dependerá de La estrategia de análisis de un ECA es muy similar a la
la duración del estudio y la complejidad del protoco- de cualquier estudio analítico que compara dos o
lo, por lo que es importante que el seguimiento se más grupos, y será comentada ampliamente en el
haya previsto de forma que evite estos problemas en capítulo correspondiente. Sin embargo, hay que te-
lo posible. Sin embargo, la posibilidad de que se pro- ner en cuenta algunos aspectos específicos que se
duzca un sesgo no depende de las pérdidas, sino de esbozan a continuación.
los motivos y del hecho de que su respuesta a la inter- En un ECA pueden presentarse ciertas situaciones
vención sea distinta de la observada en los individuos que obliguen a considerar si determinados sujetos u
que finalizan el estudio. observaciones deben ser excluidos del análisis. Según
la actitud que se adopte ante estas situaciones, las
Ejemplo 5.11. Supongamos un ECA en el que se in- conclusiones del estudio pueden ser diferentes.
cluyen 200 sujetos, asignados a dos grupos de 100 Por un lado, la exclusión de sujetos u observacio-
individuos cada uno. Finalizan 80 en cada grupo, de nes del análisis disminuye la potencia estadística, ya
los que 40 han presentado un resultado positivo, por lo que el número de individuos que se tiene en cuenta
que la eficacia ha sido del 50% en ambos grupos entre es inferior al previsto en el inicio, por lo que existirá
los sujetos que han finalizado el estudio. Sin embargo, una menor capacidad para detectar la diferencia o
este resultado puede estar sesgado por las pérdidas asociación de interés. Pero lo más importante es que,
que se han producido. Supongamos que los 20 sujetos si el porcentaje de pérdidas o abandonos, o los moti-
que se pierden en el grupo A, lo han hecho por moti- vos por los que determinados sujetos no son conside-
vos no relacionados con el estudio, de forma que 10 rados en el análisis, son diferentes entre los grupos,
de ellos han presentado un resultado positivo. Por estas situaciones especiales pueden alterar la compa-
tanto, la eficacia en los 100 pacientes del grupo A es de rabilidad. En general, las pérdidas y las violaciones
(40 + 10)/100 = 50%. Por el contrario, las pérdidas en del protocolo, o por lo menos algunas de ellas, no se
el grupo B no se han producido al azar, sino que se han producen al azar, sino que pueden depender de los
debido a los efectos secundarios de la intervención, de tratamientos administrados. Por tanto, la decisión de
forma que en ninguno de ellos se ha observado un excluir determinados sujetos del análisis puede intro-
resultado positivo. Por consiguiente, la eficacia en los ducir un sesgo y comprometer la validez interna del
100 individuos del grupo B es de (40 + 0)/100 = 40%. estudio.
Este ejemplo ilustra cómo, aunque se haya producido Una opción de análisis es considerar exclusiva-
un mismo número de pérdidas en ambos grupos, si sus mente los sujetos de cada uno de los grupos que han
motivos son diferentes, pueden introducir un sesgo en cumplido el protocolo del ensayo, han recibido el tra-
los resultados. tamiento asignado y han finalizado el seguimiento
Dado que las pérdidas pueden ser una indicación del estudio. Esta estrategia se denomina análisis de
de cómo reaccionan los individuos a las intervencio- casos válidos o por protocolo.
44
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
NÚMERO DE PACIENTES
QUE CUMPLEN LOS CRITERIOS
DE INCLUSIÓN
NÚMERO DE PÉRDIDAS
ANTERIORES
MOTIVOS A LA ASIGNACIÓN ALEATORIA
Administrativos
No se dio
consentimiento NÚMERO DE PACIENTES
ASIGNADOS
ALEATORIAMENTE
45
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
expertos que no esté implicado en el diseño ni en el Algunas de sus características se han comentado en el
seguimiento del estudio. Tomar esta decisión como ejemplo 5.5. El estudio se suspendió de forma antici-
consecuencia de la demostración de efectos benefi- pada tras un seguimiento promedio de 60,2 meses de
ciosos debe exigir una evidencia muy convincente. los 22.071 participantes, al observarse una importante
Interrumpir un ensayo cuando esta evidencia convin- reducción relativa del riesgo de IAM del 44% en el
cente estaba disponible precozmente podría consi- grupo AAS en relación con el placebo (riesgo relati-
derarse poco ético, sobre todo cuando un fármaco vo = 0,56; IC95%: 0,45-0,70; p < 0,00001). Se consideró
está probándose contra un placebo. La decisión de que la evidencia de que el AAS reducía el riesgo de
finalizar un ensayo clínico a causa de unos resultados IAM era suficientemente concluyente para justificar la
negativos es todavía más compleja y se acepta que finalización anticipada del ensayo, a pesar de que las
pueda exigirse disponer de evidencias menos conclu- pruebas sobre la incidencia de AVC y la mortalidad
yentes. En la tabla 5.5 se resumen los motivos de inte- cardiovascular total eran todavía insuficientes, dado
rrupción prematura de un ensayo clínico. el escaso número de eventos observados (Steering
Committee of the Physicians’ Health Study Research
Group, 1989).
Tabla 5.5. Motivos de interrupción prematura
de un ensayo clínico
ENSAYOS PRAGMÁTICOS
Por datos generados por el ensayo clínico Y ENSAYOS EXPLICATIVOS
• Evidencia inequívoca de beneficio o perjuicio Al diseñar un ECA deben tomarse múltiples decisio-
del tratamiento nes, como cuál es el comparador, qué criterios de
• Número muy alto e inaceptable de efectos selección deben utilizarse, cuál es la pauta de segui-
secundarios o colaterales miento más adecuada, etc. En general, en el diseño
pueden adoptarse dos posturas contrapuestas: expli-
• Ausencia de tendencias y de probabilidad
cativa y pragmática (tabla 5.6).
razonable de que se demuestren beneficios
La actitud explicativa consiste en establecer criterios
Por cuestiones relativas al propio desarrollo de selección muy estrictos, que definan una población
del ensayo muy homogénea, con escasa variabilidad, buena cum-
plidora, en la que sea más fácil obtener datos de cali-
• Insuficiente reclutamiento de pacientes
dad y en la que exista una mayor probabilidad de
en el plazo previsto
encontrar un efecto o asociación si existe. Esta actitud
• Mal cumplimiento del tratamiento tiene algunos inconvenientes, ya que, si los criterios
en un porcentaje elevado de casos son muy estrictos, puede no encontrarse un número
• Insuficientes recursos financieros suficiente de sujetos, o no detectarse un efecto en un
determinado subgrupo, al no haberse considerado
Por datos provenientes de fuentes externas antes. Además, se trata de una población altamente
al ensayo seleccionada, lo que dificulta la generalización o
• Datos de otros ensayos que proporcionen una extrapolación de los resultados. Precisamente ésta es
evidencia inequívoca de beneficio o perjuicio una de las principales limitaciones de los ECA, tal
del tratamiento como se realizan habitualmente, como base para la
• Nuevos desarrollos que dejen obsoleto el
elaboración de recomendaciones terapéuticas.
seguimiento terapéutico objeto del ensayo La actitud pragmática consiste en establecer unos
criterios de selección amplios, que definan una pobla-
ción heterogénea, más representativa de la población
general. Su inconveniente es que se pierde cierto gra-
Ejemplo 5.12. El American Physicians’ Health Study do de control sobre la situación y puede diluir o en-
es un ensayo clínico doble ciego controlado con pla- mascarar una asociación o un efecto existentes, por lo
cebo, diseñado para evaluar si 325 mg de ácido acetil- que se complica la interpretación de los resultados.
salicílico (AAS) administrado a días alternos reduce la No hay un acuerdo sobre cuál de ambas actitudes
mortalidad cardiovascular en pacientes asintomáticos. es la más aconsejable. La elección de una u otra
46
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO
Tabla 5.6. Actitud explicativa y actitud pragmática en el diseño de un ensayo clínico aleatorio
dependerá de la propia actitud del investigador y del Steering Committee of the Physicians’ Health Study Research
objetivo concreto que se desee alcanzar. Group. Final report on the aspirin component of the
ongoing Physicians’ Health Study. N Eng J Med 1989; 321:
B IBLIOGRAFÍA DE LOS EJEMPLOS 129-135.
Djulbegovic B, Lacevic M, Cantor A et al. The uncertainty
principle and industry-sponsored research. Lancet 2000; B IBLIOGRAFÍA
356: 635-638. Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
García Puig J, Mateos Antón F, Gil Aguado A, Barcina Sán- medicamentos: fundamentos básicos, metodología y
chez C. ¿Puede conocerse el «doble ciego» antes de des- práctica. Barcelona: Doyma, 1994.
velar los códigos de identificación? Med Clin (Barc) 1995; Begg C, Cho M, Eastwood S et al. Mejora en la calidad de la
105: 437-438. presentación de los ensayos controlados y de asignación
Hennekens CH, Eberlein K. A randomized trial of aspirin aleatoria: la declaración CONSORT. Aten Primaria 1998;
and beta-carotene among US physicians. Prev Med 1985; 21: 399-404.
14: 165-168. Charlton BG. Understanding randomized controlled trials:
Lipid Research Clinics Program. The lipid research clinics explanatory or pragmatic? Fam Pract 1994; 11: 243-244.
coronary primary prevention trial results. 1. Reduction in Ellenberg SS, Temple R. Placebo-controlled trials and active-
incidence of coronary heart disease. JAMA 1984; 251: 351- control trials in the evaluation of new treatments. Part 2:
364. practical issues and specific cases. Ann Intern Med 2000;
Multiple Risk Factor Intervention Trial Research Group. 133: 464-470.
Multiple risk factor intervention trial. JAMA 1982; 248: Fergusson D, Aaron SD, Guyatt G, Hebert. Post-randomisa-
1465-1477. tion exclusions: the intention to treat principle and
Pierce M, Lundy S, Palanisamy A, Winning S, King J. excluding patients from analysis. BMJ 2002 21; 325:
Prospective randomised controlled trial of methods of 652-654.
call and recall for cervical cytology screening. Br Med J Fleming TR, DeMets DL. Surrogate end points in clinical trials:
1989; 299: 160-162. are we being mislead? Ann Intern Med 1996; 125: 605-613.
47
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Fletcher RH. Evaluation of interventions. J Clin Epidemiol Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S.
2002; 55: 1183-1190. Assessing the quality of randomized controlled trials: an
Galende I, Sacristán JA, Soto J. Cómo mejorar la calidad de annoted bibliography of scales and checklists. Control
los ensayos clínicos. Med Clin (Barc) 1994; 102: 465-470. Clin Trials 1995; 16: 62-73.
García Alonso F, Guallar E, Bakke OM, Carné X. El placebo Moher D, Jadad AR, Tugwell P. Assessing the quality of ran-
en ensayos clínicos con medicamentos. Med Clin (Barc) domized controlled trials. Current issues and future
1997; 109: 797-801. directions. Int J Technol Assess Health Care 1996; 12:
García López FJ, Gutiérrez Bezón S, Galende Domínguez I, 195-208.
Avendaño Solá C. Evaluación de calidad de los ensayos Montori VM, Guyatt GH. Intention-to-treat principle. CMAJ
clínicos: justificación, utilidad e inconvenientes. Med 2001; 165: 1339-1341.
Clin (Barc) 1999; 112 (Supl. 1): 35-42. Pablos Méndez A, Barr G, Shea S. Run-in periods in ran-
Gibaldi M, Sullivan S. Intention-to-treat analysis in random- domized trials: implications for the analysis of results in
ized trials: who gets counted? J Clin Pharmacol 1997; 37: clinical practice. JAMA 1998; 279: 222-225.
667-672. Peduzzi P, Henderson W, Hartigan P, Lavori P. Analysis of
Godwin M, Ruhland L, Casson I et al. Pragmatic controlled randomized controlled trials. Epidemiol Rev 2002; 24:
clinical trials in primary care: the struggle between exter- 26-38.
nal and internal validity. BMC Med Res Methodol 2003 Pocock SJ. When to stop a clinical trial. BMJ 1992; 305: 235-
22; 3 (1): 28. 240.
Green SB. Design of randomized trials. Epidemiol Rev 2002; Roland M, Torgerson BJ. What are pragmatic trials? BMJ
24: 4-11. 1998; 316: 285.
Greenhalgh T. How to read a paper: papers that report drug Rothman KJ, Mitchels KB. The continuing and ethical use of
trials. BMJ 1997; 315: 480-483. placebo controls. NEJM 1994; 331: 394-398.
Guyatt G, Rennie D, eds. Users’ Guides to the Medical Lite- Sackett DL, Straus SE, Richardson WS, Rosenberg W,
rature: a manual for evidence-based clinical practice. Haynes RB. Evidence-Based Medicine: how to practice
Chicago: American Medical Association, 2002. and teach EBM. 2.a ed. Londres: Churchill Livingstone,
Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine 2000.
Working Group. Users' guides to the medical literature Sacristán JA, Soto JA, Galende I. Evaluación crítica de en-
II. How to use an article about therapy or prevention. A. sayos clínicos. Med Clin (Barc) 1993; 100: 780-787.
Are the results of the study valid? JAMA 1993; 270: 2598- Schulz KF, Altman DG, Moher D. Allocation concealment in
2601. clinical trials. JAMA 2002; 288: 2406-2407.
Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Schultz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
Working Group. Users' guides to the medical literature dence of bias: dimensions of methodological quality
II. How to use an article about therapy or prevention. B. associated with estimates of treatment effects in con-
What were the results and will they help me in caring for trolled trials. JAMA 1995; 273: 408-412.
my patients? JAMA 1994; 271: 59-63. Tannock IF. The recruitment of patients into clinical trials.
Kienle G, Kiene H. The powerful placebo effect: fact or fic- Br J Cancer 1995; 71: 1134-1135.
tion? J Clin Epidemiol 1997; 50: 1311-1318. Task Force of the Working Group on Arrythmias of the Eu-
Lachin JM. Statistical considerations in the intent-to-treat ropean Society of Cardiology. The early termination of
principle. Control Clin Trials 2000; 21: 167-189. clinical trials: causes, consequences, and control. With
Lewis JA, Jonsson B, Kreutz G, Sampaio C, Van Zwieten-Boot special reference to trials in the field of arrhythmias and
B. Placebo-controlled trials and the Declaration of sudden death. Eur Heart J 1994; 15: 721-738.
Helsinki. Lancet 2002; 359: 1337-1340. Temple R, Ellenberg SS. Placebo-controlled trials and active-
McMahon AD. Study control, violators, inclusion criteria control trials in the evaluation of new treatments. Part 1:
and defining explanatory and pragmatic trials. Stat Med ethical and scientific issues. Ann Intern Med 2000; 133:
2002; 21: 1365-1376. 455-463.
48
Capítulo 6
Estudios experimentales II:
otros diseños
n el capítulo anterior se han presentado las sólo cinco pasan a la fase clínica y solamente uno llega
49
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 6.1. Clasificación de los estudios en función del momento del desarrollo de un fármaco
Fases Características
concepto, con la que se determina si existen indicios cia (o ineficacia) de un fármaco antes de realizar los
razonables de que el fármaco puede ser eficaz en la costosos ensayos de la fase III.
indicación seleccionada. Los ensayos clínicos de fase III se diseñan para pro-
En la fase II se diseñan estudios de aproximada- bar la eficacia y la seguridad de un fármaco a largo
mente 100 a 300 pacientes voluntarios para confir- plazo. Son generalmente estudios a doble ciego, con-
mar la seguridad, determinar la eficacia en seres trolados con placebo, e incluyen habitualmente de
humanos a corto plazo y ayudar a determinar algunos 1.000 a 3.000 pacientes en un período de cerca de tres
parámetros como la dosificación para los ensayos pos- años. Aunque el número de pacientes incluidos puede
teriores. Típicamente se realizan ensayos controlados ser elevado, los riesgos son relativamente mínimos, debi-
con placebo y doble ciego. Estos ensayos suelen durar do a que las pruebas anteriores establecen su seguridad.
alrededor de dos años. El uso adecuado de la infor- El gran alcance de estos ensayos da a los investigadores
mación obtenida en los ensayos de las fases preclíni- la oportunidad de demostrar la eficacia y la seguridad
ca y I permite optimizar los diseños de los ensayos de del medicamento, así como identificar algunos efectos
la fase II, pudiéndose demostrar claramente la efica- secundarios raros del tratamiento, si los hubiera.
50
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
Toda la información obtenida se recopila en un que el número de personas que desarrollarán la en-
dossier de registro, que se presenta a las autoridades fermedad es muy bajo, y quizá tras un largo espacio
sanitarias para solicitar la aprobación de la comercia- de tiempo, mientras que las complicaciones de una
lización del fármaco. enfermedad se pueden detectar en una alta propor-
Tras la comercialización, se debe continuar remi- ción de individuos enfermos en un tiempo relati-
tiendo informes periódicos a las autoridades regula- vamente corto. En consecuencia, los ensayos que
doras, incluyendo todos los casos de reacciones evalúan una medida preventiva suelen requerir un
adversas y los registros de control de calidad apropia- mayor número de individuos y un seguimiento más
dos. También pueden realizarse estudios posteriores largo, lo que comporta importantes problemas orga-
a la comercialización del medicamento (fase IV), que nizativos.
suelen ser de gran tamaño, a menudo con diseños En muchas ocasiones, los estudios que evalúan
observacionales, dirigidos a conocer mejor su perfil medidas de prevención secundaria, como la detec-
de seguridad, sus efectos a largo plazo y otros aspec- ción precoz de una enfermedad, se limitan a valorar
tos relacionados con su utilización. las características de la prueba de identificación de
los sujetos con el factor de riesgo o la enfermedad
(fig. 6.1A), considerando que la detección precoz
EVALUACIÓN DE LA EFICACIA
mejora el pronóstico de estos sujetos. En estos estu-
DE MEDIDAS PREVENTIVAS
dios se asume que existe una intervención eficaz,
Los ensayos clínicos que evalúan la eficacia de una y que esta eficacia es tanto mayor cuanto antes se apli-
medida preventiva presentan algunas diferencias res- que, lo que no siempre es cierto. Además, en muchas
pecto de los ensayos que estudian la eficacia de un ocasiones se ha demostrado que la intervención es
tratamiento. La primera es que habitualmente se es- eficaz para controlar el factor de riesgo, pero no que
tudian individuos presuntamente sanos. Ello implica ello redunde en un mejor pronóstico de los sujetos.
DETECCIÓN INTERVENCIÓN
A
B
51
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Por tanto, la evaluación de la eficacia de una medida En segundo lugar, el sesgo por adelanto en el diagnós-
de detección precoz debería incluir estudios que tico (lead time bias). El período de latencia de una en-
comprobaran si su aplicación seguida de la interven- fermedad se define como el tiempo transcurrido
ción mejora el pronóstico, lo que debería realizarse entre su inicio biológico y la aparición de los signos o
mediante un ECA (fig. 6.1E). los síntomas que permitirían su diagnóstico. Durante
Si la eficacia de esta prueba de detección precoz este período, el problema de salud puede ser detec-
no se evalúa mediante un ECA, se puede concluir tado a través de la realización de una actividad pre-
que la nueva prueba mejora el pronóstico incluso ventiva antes del momento en que lo habría sido
cuando el tratamiento que se deriva de haber detec- dejado a su evolución natural. Cuando se evalúa la
tado un caso es ineficaz. La simple observación pue- eficacia de una prueba de detección precoz, debe
de llevar a engaño en multitud de ocasiones porque, tenerse en cuenta este tiempo de adelanto del
además de las limitaciones inherentes a los estudios diagnóstico (lead time) para evitar sobrestimar los
observacionales, cuando se evalúan actividades pre- beneficios obtenidos (fig. 6.2).
ventivas hay que tener en cuenta la posibilidad de tres
sesgos específicos. Ejemplo 6.1. Supongamos un estudio hipotético en el
En primer lugar, el llamado sesgo de participación. que la supervivencia media del grupo de sujetos
Dado que, en general, las personas que aceptan y sometidos a cribado es de 7 años, mientras que la del
reciben una medida preventiva suelen gozar de grupo control es de 5 años. En apariencia ha existido
mejor salud que aquellas que la rechazan o no tienen un aumento de 2 años de la supervivencia media. Sin
acceso a ella, si se realizara un estudio observacional embargo, debido a la existencia de un intervalo de
que comparara los sujetos que han recibido la medi- detección, lo que puede haber ocurrido es que se
da preventiva con los que la han rechazado, podría haya adelantado en 2 años el diagnóstico de la enfer-
obtenerse una conclusión errónea favorable a la medad, sin que en realidad se haya mejorado el
medida preventiva. De hecho, este beneficio aparen- pronóstico de los sujetos. De hecho, lo que se ha con-
te puede deberse a otros muchos factores que no han seguido es aumentar el tiempo de enfermedad.
podido controlarse en un estudio observacional,
entre los que uno de los más importantes es la auto- El tercer problema potencial es el sesgo de duración
selección de los sujetos que forman el grupo de estu- de la enfermedad (length time bias). Puede producirse
dio. El mejor modo de tener una cierta garantía de porque el cribado tiene mayor probabilidad de detec-
que no se produce este sesgo de participación es la tar los casos de progresión más lenta, que quizá sean
asignación al azar de los individuos a los grupos de menos graves y tengan mejor pronóstico, ya que su
estudio. período presintomático es más largo.
Detección Diagnóstico
precoz clínico
Supervivencia tras
el diagnóstico
Falso aumento de
la supervivencia
tras el diagnóstico
Adelanto
Verdadero del diagnóstico
aumento de la
supervivencia tras
el diagnóstico Aumento
de la
supervivencia Figura 6.2. Sesgo por
adelanto del diagnóstico
(lead time bias).
52
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
La realización de un ECA, dado que lleva a cabo intervención en relación con otra, sino de compro-
una asignación aleatoria de los sujetos para conseguir bar si ambas son iguales, ya que la nueva intervención
grupos de características similares, previene la apari- presenta ventajas por su seguridad, comodidad de
ción de estos sesgos. administración o coste, por ejemplo, o simplemente
puede representar una nueva alternativa terapéutica.
En este tipo de estudios, el diseño debe ser espe-
EVALUACIÓN DE LA EFICACIA
cialmente riguroso. Debe asegurarse la imparcialidad
DE UNA PRUEBA DIAGNÓSTICA
de la comparación, es decir, que las condiciones del
La evaluación de la eficacia de una prueba diagnósti- ensayo no favorecen a ninguna de las intervenciones
ca puede abordarse bajo diferentes enfoques. Por un por encima de la otra (dosis y pautas óptimas para
lado, puede diseñarse un estudio con la finalidad de ambas, evitar subgrupos de pacientes que podrían
determinar la capacidad de la prueba para distinguir manifestar de forma distinta los efectos de los trata-
entre los sujetos que padecen un problema de salud y mientos, variables y tiempo de valoración adecua-
los que no lo padecen. Este diseño corresponde a un dos), lo que habitualmente implica utilizar criterios
estudio descriptivo de las características de la prueba, similares a los de los estudios en los que la interven-
comparándola con un estándar de referencia, y se ción de comparación demostró su eficacia.
aborda en el capítulo correspondiente. La equivalencia absoluta no puede demostrarse
El segundo enfoque es el de evaluar los beneficios completamente. Cuando un estudio comparativo no
y riesgos asociados al uso de la prueba. Para ello, detecta ninguna diferencia entre dos tratamientos,
debe considerarse la prueba diagnóstica como una puede ser debido tanto a que ambos tengan una efi-
intervención sanitaria, y diseñar un ECA en que los cacia similar como a la incapacidad del estudio para
sujetos sean asignados aleatoriamente a dos grupos, a detectar una diferencia entre ellos. Por ello, es fun-
uno de los cuales se aplica una estrategia diagnóstica damental que los estudios de equivalencia se diseñen
que incluye la prueba en estudio, mientras que al de manera que tengan la sensibilidad suficiente para
otro grupo se le aplica una estrategia alternativa detectar alguna diferencia entre los tratamientos que
(grupo de comparación). Todos los sujetos se siguen se comparan.
para determinar la frecuencia de aparición de los Uno de los aspectos clave de este tipo de estudios
resultados de interés clínico en ambos grupos y com- es, precisamente, establecer el margen de equivalen-
pararla, tal como se ha comentado en el caso de la cia, que corresponde a la máxima diferencia entre
evaluación de la eficacia de una actividad preventiva. ambos tratamientos que se considera clínicamente
aceptable por su escasa relevancia clínica. Este valor
se conoce como delta, y la finalidad del estudio es des-
ESTUDIOS DE EQUIVALENCIA
cartar estadísticamente su existencia. Se trata de
Un estudio de equivalencia no busca detectar posibles demostrar que la nueva intervención es lo suficiente-
diferencias de eficacia, sino mostrar que dos trata- mente similar a la de referencia como para conside-
mientos son igualmente efectivos dentro de unos már- rarlas equivalentes desde el punto de vista clínico.
genes determinados prefijados. Al hablar de equiva-
lencia, deben considerarse dos contextos diferentes. Ejemplo 6.2. Birtwhistle et al (2004), ante la escasa evi-
En primer lugar, los llamados estudios de bioequiva- dencia sobre la periodicidad adecuada de las visitas de
lencia, que corresponden a ensayos de fase I, realiza- seguimiento de los pacientes hipertensos, compara-
dos por la industria farmacéutica para comparar dos ron el control de la presión arterial, la satisfacción y la
formulaciones o métodos de administración de un adherencia al tratamiento de estos pacientes, según si
fármaco, con la intención de demostrar que son las visitas se realizaban cada 3 meses o cada 6. Para
intercambiables. Las variables de respuesta que se uti- ello, diseñaron un ensayo clínico en el que participa-
lizan son medidas farmacocinéticas. Suelen realizarse ron 50 médicos de familia de Canadá. Los 609 pacien-
con un número reducido de sujetos y utilizando tes incluidos fueron asignados a dos grupos, cada uno
diseños cruzados. de los cuales fue seguido con una de las estrategias
El segundo contexto es el de la comparación de la que se comparaban. La asignación fue aleatoria, estra-
eficacia de dos intervenciones. El ECA no se diseña tificada por médico y por bloques de 8 pacientes para
con el objetivo de establecer la superioridad de una asegurar que cada médico tenía un número de pa-
53
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
cientes similar en cada grupo. El diseño fue planteado que la inclusión en el análisis de los sujetos que no
como un estudio de equivalencia, con la hipótesis de han cumplido el protocolo tiende a hacer más simila-
que la verdadera diferencia en el porcentaje de pa- res los resultados de ambos grupos. Sin embargo, en
cientes controlados entre los grupos sería inferior al un estudio de equivalencia, de lo que se trata es pre-
10%. A los 3 años de seguimiento, el porcentaje de cisamente de evitar cualquier influencia que pueda
pacientes controlados, el grado de satisfacción y su hacer que los grupos parezcan más similares de lo
adherencia al tratamiento fueron similares en ambos que son en realidad. La estrategia de análisis por pro-
grupos, sin diferencias relevantes ni estadísticamente tocolo tiende precisamente a resaltar cualquier dife-
significativas. Los autores concluyeron que la estrate- rencia entre los grupos más que a disminuirla. Sin
gia de seguimiento de visitas cada 6 meses es suficien- embargo, en algunas ocasiones, dependiendo de los
te, ya que es equivalente a la de cada 3 meses. motivos por los que se han producido las violaciones
del protocolo, esta última estrategia puede distorsio-
El análisis se basa en el cálculo del intervalo de nar los resultados hacia la conclusión de no diferen-
confianza de la diferencia en la respuesta observada cia. Por ello, en los estudios de equivalencia es prefe-
con ambas intervenciones (fig. 6.3). Si todo el inter- rible realizar ambas estrategias de análisis y esperar
valo cae dentro del rango de equivalencia definido que ambas muestren equivalencia, así como recoger
por el valor delta prefijado, puede concluirse que las información detallada de todos los sujetos incluidos,
intervenciones son equivalentes con una escasa pro- lo que permitirá una mayor flexibilidad en el análisis
babilidad de error. Si cae fuera de dicho rango, se y proporcionará una base más fuerte para la conclu-
concluye que no son equivalentes. En el resto de situa- sión del estudio.
ciones, los resultados del estudio no son concluyentes. En otras ocasiones, el objetivo del estudio no es
La estrategia de análisis de los estudios de equiva- comprobar si la nueva intervención es equivalente a
lencia tiene algunos aspectos diferentes de la de los la de referencia, sino que basta con demostrar que no
estudios de superioridad, en los que dicha estrategia es inferior (estudios de no-inferioridad). El enfoque de
por intención de tratar es la más conservadora, ya estos estudios es similar a los de equivalencia, pero el
No equivalentes
No concluyente
Equivalentes
Equivalentes
Equivalentes
No concluyente
No equivalentes
No concluyente
Figura 6.3. Interpretación de
los resultados de un ensayo de
– delta 0 + delta equivalencia, en función del
intervalo de confianza, de la
Diferencia entre los tratamientos A y B diferencia observada entre los
tratamientos.
54
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
valor delta que se ha establecido se refiere tan sólo la introducción de sesgos. La asignación de los gru-
a uno de los sentidos de la comparación (límite de pos debe realizarse de forma aleatoria y con el mismo
no-inferioridad). rigor que si fuera individual. También puede intro-
ducirse un sesgo de selección si los profesionales de
cada uno de los grupos identifican y reclutan a los
ECA CON ASIGNACIÓN POR GRUPOS
pacientes de forma diferente. Puffer et al (2003)
Habitualmente, en un ECA cada sujeto se asigna de encontraron problemas en este último aspecto que
forma individual a uno de los grupos que se compa- podría haber introducido un sesgo en 14 de los
ran, recibe directamente la intervención asignada y 36 ensayos con asignación por grupos publicados en
es él sobre quien se mide la respuesta observada. Sin BMJ, Lancet y New England Journal of Medicine
embargo, en ocasiones, esta asignación individual no entre enero de 1997 y octubre de 2002.
es posible o no es adecuada, por lo que se recurre a El principal problema de estos estudios es que no
una asignación por grupos (clusters), como ocurre, puede asumirse que el resultado de cada paciente es
por ejemplo, cuando se asignan zonas geográficas independiente del de cualquier otro (p. ej., el manejo
para desarrollar un programa de cribado de cáncer de dos sujetos por un mismo profesional es probable
de mama, o escuelas para recibir un determinado que sea más similar que si fueran atendidos por dos
programa educativo de promoción de la salud, o profesionales diferentes), por lo que su potencia
cuando se evalúan los efectos de una guía de práctica estadística es menor que la de un ECA habitual con un
clínica o una intervención de educación médica, de número de pacientes parecido. Este hecho debe tener-
manera que los profesionales sanitarios y no los se en cuenta al determinar el tamaño necesario de la
pacientes son la unidad de asignación. muestra, que puede llegar a ser muy superior
Este diseño también es útil cuando se pretende al de un ECA habitual si existe una gran variabilidad
evitar la posible contaminación que puede producirse entre las unidades de asignación y poca variabilidad en
entre las intervenciones al realizarse en un mismo el interior de cada una de ellas.
emplazamiento. Por ejemplo, si se desea comparar el Por otro lado, este mismo hecho tiene repercusio-
efecto del consejo individualizado para la modifica- nes importantes en el análisis de los resultados, que
ción de los hábitos de vida de los pacientes, forman- deberá realizarse de forma agregada, ya que la unidad
do y entrenando a los profesionales sanitarios para de análisis debe corresponder a la unidad de asigna-
proporcionarlo. Si se asignara a los pacientes de for- ción (zona geográfica, escuela, centro de salud, profe-
ma individual, un mismo profesional tendría pacien- sional, etc.), ya que, si se ignora el hecho de que la asig-
tes de ambos grupos, pero, dado que ha sido formado nación se ha realizado por grupos, y se analizan los
y entrenado para proporcionar consejo, difícilmente pacientes como un ECA habitual, se produce una dis-
podría proporcionar la atención habitual (como si minución de los valores de significación estadística y un
no hubiera recibido la formación específica) a los estrechamiento de los intervalos de confianza, aumen-
sujetos del grupo control. Este fenómeno podría evi- tando la probabilidad de detectar diferencias signifi-
tarse realizando una asignación por profesionales cativas y obtener conclusiones erróneas. Una forma
(o por centros de salud). sencilla de analizar estos estudios es construir un
estadístico sintético para cada una de las unidades de
Ejemplo 6.3. Eccles et al (2001) eligieron aleatoria- asignación, y analizarlos, preferiblemente realizando
mente a 244 equipos de atención primaria con el fin alguna ponderación según su tamaño. Sin embargo, las
de evaluar dos estrategias de formación para reducir técnicas de análisis habituales suelen ser ineficientes y
el número de solicitudes de exploraciones radiológi- es preferible recurrir a técnicas más específicas.
cas en los pacientes que consultaban por problemas
de rodilla o en la espalda. La variable de respuesta Ejemplo 6.4. En el Reino Unido se realizó un estudio
que utilizaron fue el número de peticiones de radio- en 34 consultas de atención primaria que derivaban
logía por 1.000 pacientes y año. los pacientes para exploraciones radiológicas a un
mismo centro. Los pacientes fueron asignados alea-
Estos estudios suelen ser más difíciles de diseñar y toriamente a dos grupos (Oakeshott et al, 1994). Las
ejecutar que los ECA habituales, y deben tenerse en consultas de uno de los grupos recibieron un docu-
cuenta algunos aspectos que los hacen susceptibles a mento con las guías del Royal College of Radiologists
55
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
adaptadas a la atención primaria con los criterios Tabla 6.2. Elementos clave para la realización
recomendados para la derivación. No se realizó nin- de un diseño secuencial
guna intervención sobre las consultas del grupo con-
trol. Dado que todos los pacientes de una misma 1. Parámetro que exprese la ventaja del
consulta recibieron la misma intervención, la unidad tratamiento experimental sobre el control.
experimental fue la consulta. La medida de la res- Se trata de una característica desconocida
puesta fue el porcentaje de exploraciones radiológi- de la población sobre la que pueden realizarse
cas solicitadas que podían considerarse adecuadas de hipótesis y de la que pueden obtenerse
acuerdo con las guías. estimaciones
2. Criterio estadístico que exprese la ventaja del
ENSAYO CLÍNICO SECUENCIAL tratamiento experimental sobre el control, a
partir de la muestra de datos disponibles en un
En el diseño habitual de un ECA, se determina el nú- análisis intermedio, y un segundo criterio
mero de sujetos necesario para tener la suficiente estadístico que exprese la cantidad de
potencia estadística para detectar una diferencia información sobre la diferencia entre los
determinada con un nivel de significación fijado, asu- tratamientos contenida en dicha muestra
miendo que el análisis se realizará una vez que se 3. Regla de finalización (stopping rule) que
hayan recogido los datos de todos los sujetos. determine si el análisis intermedio debe ser el
En ocasiones, por motivos éticos y económicos, último, y, en caso afirmativo, si puede concluirse
puede ser importante realizar alguna monitorización que el tratamiento experimental es mejor
de los datos del estudio, con la intención de finalizar- o peor que el control, o bien si no se ha establecido
lo tan pronto como exista la suficiente evidencia de la existencia de una diferencia entre los
que uno de los tratamientos es superior al otro, o tratamientos
bien de que ambas alternativas que se comparan son 4. Método de análisis válido para el diseño
iguales. Sin embargo, la repetición de análisis estadís- específico utilizado, que proporcione un valor
ticos a medida que se van acumulando datos tiene de p y una estimación puntual y por intervalo
ciertos problemas. Por un lado, la probabilidad de
cometer un error tipo I, es decir, de concluir erró- Modificada de Whitehead, 1999.
neamente que el tratamiento de estudio es diferente
del de comparación, aumenta con el número de aná-
lisis intermedios que se realicen (p. ej., si se realizan cia entre los tratamientos a lo largo del estudio. Si el
cuatro análisis intermedios, la probabilidad de come- valor de este estadístico excede un valor crítico prefi-
ter un error tipo I se sitúa alrededor del 14%). Por jado, el ensayo se finaliza y se rechaza la hipótesis nula
otro lado, el análisis final del estudio también debe de ausencia de diferencia. Si el valor del estadístico no
realizarse teniendo en cuenta la realización previa de sobrepasa dicho valor crítico, no existe todavía la sufi-
los análisis intermedios. ciente evidencia para alcanzar una conclusión y el
En estas situaciones, se utilizan diseños específicos estudio continúa. Sin embargo, la decisión de finali-
que se engloban bajo la denominación de métodos zar el estudio debe tomar en consideración otros
secuenciales. Se trata de ensayos en los que el tamaño aspectos adicionales, como los efectos secundarios, la
de la muestra no está predeterminado, sino que facilidad de administración, el coste, las evidencias
depende de las observaciones que se realizan. Su procedentes de otras fuentes, etc., de manera que el
característica principal es la definición de una regla criterio estadístico no sea el único determinante de
de finalización explícita (stopping rule) en la que se dicha decisión.
establece la forma en que la decisión de finalizar el Los análisis intermedios pueden realizarse después
estudio depende de los resultados obtenidos hasta de conocer el resultado de cada uno de los pacientes
ese momento. La tabla 6.2 muestra los cuatro ele- incluidos o bien de grupos de sujetos. Lógicamente, si
mentos clave de este tipo de estudios, de los que los solamente se realizan uno o dos análisis intermedios,
dos primeros son comunes con los ECA tradicionales. se reduce la posibilidad de detectar precozmente una
El diseño de estos estudios requiere la monitoriza- diferencia y se retrasa la posible finalización del estu-
ción de un criterio estadístico que sintetice la diferen- dio. Sin embargo, dado que la realización de estos
56
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
análisis complica el estudio, en la práctica se reco- durante un período de 4 horas, asignando una prefe-
mienda realizar entre cuatro y ocho análisis interme- rencia para cada pareja al tratamiento más efectivo. En-
dios. Una vez finalizado el estudio, debe efectuarse un contraron un número de preferencias similar (8 y 7),
análisis final que tenga en cuenta el carácter secuen- concluyendo que el 25% de la dosis equivalente de
cial del ensayo, ya que la utilización de los métodos 4 horas puede ser suficiente para reducir la intensi-
tradicionales conduce a valores de p demasiado dad de la disnea y la taquipnea en pacientes oncoló-
pequeños, estimaciones puntuales excesivamente gicos terminales con disnea persistente.
grandes e intervalos de confianza muy estrechos. Para poder utilizar un diseño secuencial, la res-
Así, por ejemplo, en los diseños secuenciales de prefe- puesta debe poder observarse en un tiempo relativa-
rencias por parejas, los pacientes se incluyen de dos en mente corto que permita tomar la decisión de finali-
dos, recibiendo cada uno de ellos uno de los trata- zar o no el estudio de forma rápida. Los hipnóticos y
mientos de forma aleatoria, y se determina cuál de los analgésicos son ejemplos de fármacos que han sido
dos responde mejor. A medida que progresa el estu- evaluados, en ocasiones, mediante este diseño.
dio, se van acumulando preferencias a favor de uno u
otro tratamiento, que se van representando en un grá-
ENSAYO CLÍNICO FACTORIAL
fico (fig. 6.4). El ensayo finaliza tan pronto como los
resultados alcanzan uno de los límites prefijados por El diseño factorial permite al investigador evaluar dos
la regla de finalización: si se alcanza el límite superior, intervenciones o más en un único estudio. En su forma
se concluye que A es mejor; si se alcanza el límite infe- más sencilla para evaluar dos tratamientos (A y B),
rior, se concluye que B es mejor; y si se alcanza el lími- cada sujeto se asigna aleatoriamente a uno de cuatro
te central, se concluye que no se tiene evidencia de grupos (tabla 6.3): un grupo recibe ambos tratamien-
que existan diferencias entre los tratamientos. tos, dos grupos reciben solamente uno de los trata-
mientos cada uno, y el cuarto grupo no recibe
Ejemplo 6.5. Allard et al (1999) utilizaron un diseño ningún tratamiento. Si existe enmascaramiento, cada
secuencial para evaluar la eficacia de las dosis suple- uno de los tres últimos grupos debe recibir un place-
mentarias de opioides para la disnea de los pacientes bo del tratamiento o de los tratamientos que no se
oncológicos terminales. Incluyeron 15 parejas de administran.
pacientes. En cada pareja, el orden de las interven- Este diseño es muy útil para evaluar a la vez varios
ciones (administración del 25 o del 50% de su dosis tratamientos con mecanismos de acción y efectos
de opioides) fue asignado aleatoriamente. Se midió independientes (A tiene la misma eficacia tanto en el
la intensidad de la disnea y la frecuencia respiratoria grupo que recibe también B como en el que no lo
Evidencia de que
20 A es mejor
A
10 No evidencia
de diferencia
Exceso de
preferencias 0
20 40 60 80 Número
de preferencias
10
B
20
Evidencia de que
B es mejor
57
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Sí No Total
Tratamiento B Sí AB B0 B
No A0 00 No B
Total A No A
recibe, y viceversa) con el mismo número de indivi- no altere los criterios de inclusión y exclusión de la
duos que hubiera sido necesario para evaluar un solo principal, ya que, de otro modo, se perderá eficiencia
tratamiento. En este caso, el análisis consiste en com- y se complicará mucho la ejecución del estudio.
parar todos los sujetos que han recibido cada uno de No es conveniente evaluar más de una hipótesis
los tratamientos con los que no lo han recibido (mar- de forma simultánea cuando se sospecha que una de
ginales de la tabla 2 ⫻ 2). las intervenciones tiene muchos efectos secundarios
o es muy mal tolerada, ya que ello condicionará un
Ejemplo 6.6. En el estudio americano sobre el efecto mal cumplimiento de todas las intervenciones. Por
de la aspirina en la prevención primaria del infar- otro lado, es imprescindible que ambas intervencio-
to de miocardio, los investigadores aprovecharon nes no interaccionen entre sí.
la misma muestra de individuos para estudiar el efec- Cuando existe interacción entre los tratamientos,
to del beta-caroteno sobre el cáncer (Hennekens y tanto si es sinérgica (A es más eficaz si se administra
Eberlin, 1985). Los sujetos fueron distribuidos alea- conjuntamente con B, o viceversa) como antagónica
toriamente en cuatro grupos: los asignados al prime- (A es menos eficaz cuando se administra conjunta-
ro de ellos recibieron aspirina más beta-caroteno; los mente con B, o viceversa), la estrategia de análisis es
del segundo, aspirina más un placebo de beta-caro- diferente, y obliga a comparar los resultados de cada
teno; los del tercero, beta-caroteno más un placebo una de las celdas. Por ejemplo, la eficacia de A se
de aspirina, y los del cuarto grupo, un placebo de determina comparando el grupo que ha recibido
beta-caroteno más un placebo de aspirina. Los resul- solamente A con el que no ha recibido ningún trata-
tados de todos aquellos que recibieron aspirina se miento. De forma similar se calcularía la eficacia de
compararon con los de aquellos que recibieron pla- B. La evaluación de la interacción supone comparar
cebo de aspirina, con independencia de que recibie- los efectos de cada uno de los tratamientos cuando se
ran beta-caroteno o placebo. Por otro lado, se com- administra solo o conjuntamente con el otro. De ello
pararon los individuos que tomaron beta-caroteno se deduce que, cuando se utiliza este diseño para eva-
con los que tomaron su correspondiente placebo con luar interacciones, el tamaño muestral debe incre-
independencia de que recibieran aspirina o placebo. mentarse de forma importante.
58
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
Dado que la variabilidad intrasujetos es menor que la de un cartucho presurizado comparada con la de la
entresujetos, la comparación sería más potente y inhalación con ayuda de una cámara de aerosol, en
la estimación de la diferencia más precisa. Este tipo pacientes con limitación al flujo aéreo (Mayos et al,
de estudios se denominan ensayos cruzados (cross-over). 1987). El estudio se realizó en dos días sucesivos,
En el caso más sencillo de comparación de dos tra- siempre por la mañana y a la misma hora, mediante
tamientos, cada individuo es asignado aleatoriamen- un diseño de doble ciego cruzado. El tratamiento
te a un grupo, que recibe, en un primer período, una broncodilatador se suspendió 12 horas antes de cada
de las dos intervenciones y, en un segundo período, prueba. Cada uno de los días, se administró al pacien-
la otra (fig. 6.5). Ambos períodos suelen estar separa- te dos inhalaciones consecutivas de 0,1 mg de salbu-
dos por una fase de lavado o blanqueo para permitir tamol y dos inhalaciones de placebo, a través de dos
que el paciente vuelva a su estadio inicial. Este perío- cartuchos en apariencia idénticos, uno de forma
do intermedio debe ser lo suficientemente largo para directa y otro con la cámara de aerosol intercalada:
asegurar que el efecto del tratamiento administrado
en el primer período ha desaparecido. Día A: cartucho salbutamol y (cartucho placebo
Las características diferenciales entre un estudio + cámara de aerosol).
en paralelo y uno cruzado se recogen en la tabla 6.4. Día B: cartucho placebo y (cartucho salbutamol
+ cámara de aerosol).
Ejemplo 6.7. Un estudio tenía por objetivo evaluar la El orden de distribución del cartucho-cámara de
respuesta espirométrica al salbutamol inhalado des- aerosol y del salbutamol-placebo fue aleatorio.
Muestra
Asignación aleatoria
Grupo A Grupo B
Secuencia AB Secuencia BA
Grupo A Grupo B
Tratamiento A Tratamiento B
Período 1
Respuesta A1 Respuesta B1
Período
de lavado
Grupo B Grupo A
Período 2 Tratamiento A Tratamiento B
Respuesta A2 Respuesta B2
59
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 6.4. Principales características diferenciales entre un estudio paralelo y uno cruzado
• Los grupos de estudio y de comparación están • Cada sujeto actúa como su propio control
formados por sujetos diferentes
• Los pacientes se asignan para recibir • Los sujetos se asignan a la secuencia en que recibirán
uno de los tratamientos ambos tratamientos
• Período de blanqueo no necesario • Período de blanqueo imprescindible
Sin embargo, en la mayoría de las ocasiones este mizar este efecto es que cada paciente cambie de tra-
diseño no es factible, ya que habitualmente los trata- tamiento varias veces, recibiéndolos durante varios
mientos producen cambios irreversibles en el estado intervalos de tiempo, de forma que si existe un efecto
de salud de los pacientes, o a veces deben adminis- período, éste quede contrarrestado. Sin embargo, ello
trarse durante largos períodos. El diseño cruzado es dificulta mucho la ejecución del estudio y también el
adecuado cuando se evalúan intervenciones que pro- que los pacientes acepten participar.
ducen rápidas mejorías en los síntomas de enferme- La evaluación de la existencia de un efecto pe-
dades crónicas, relativamente estables, y cuyos resul- ríodo requiere comprobar si existen diferencias
tados también desaparecen de forma rápida. No es entre los resultados obtenidos en el primer período
adecuado en el caso de que la secuencia en que se (A1 + B1) y en el segundo (A2 + B2).
administran las intervenciones pueda alterar el resul-
tado, o cuando no es posible realizar un período de E FECTO SECUENCIA
blanqueo que asegure la total desaparición del efecto Los pacientes no se asignan a un único tratamiento,
de la intervención recibida en primer lugar. sino a una secuencia de intervenciones. Si todos los
La estructura básica de un diseño cruzado se pre- sujetos recibieran las distintas intervenciones siguien-
senta en la figura 6.5. Los pacientes asignados al do una misma secuencia, primero A y después B, se
grupo A reciben el tratamiento A en el período 1, y el asumiría que los efectos del segundo tratamiento B
B en el período 2. Los pacientes del grupo B los reci- después de A no se diferenciarían de los obtenidos
ben en el orden inverso. El efecto del tratamiento se si B se hubiera administrado en primer lugar.
obtiene comparando los resultados obtenidos por la El único modo de evaluar si la secuencia en que se
intervención A en ambos períodos (A1 + A2) con los reciben las intervenciones afecta los resultados es que
obtenidos por la intervención B (B1 + B2). Sin em- unos pacientes reciban la secuencia AB y otros la BA.
bargo, esta comparación no tiene en cuenta que los El mejor método es asignar los pacientes de forma
tratamientos se han administrado en períodos y aleatoria a cada una de estas secuencias.
secuencias diferentes. Además del efecto propio de la Un efecto secuencia puede darse siempre que un
intervención, el análisis de los resultados de un ensa- individuo se observa más de una vez en períodos dis-
yo cruzado debe tomar en consideración la posible tintos. De modo intuitivo, se puede entender co-
existencia de los efectos período y secuencia. mo una interacción entre el propio tratamiento y el
efecto período que se presenta en las siguientes
E FECTO PERÍODO situaciones:
Dado que cada paciente se observa en dos períodos
distintos, es importante determinar si ha existido – Cuando la respuesta en el segundo período está
algún cambio entre el primero y el segundo. La enfer- afectada por el tratamiento recibido durante el pri-
medad o síntoma puede progresar, regresar o fluctuar mero. Es el llamado efecto residual. La forma de pre-
en su gravedad, por lo que es posible encontrar cam- venirlo es la aplicación de una fase de blanqueo
bios entre los diferentes períodos, con independencia entre ambos períodos, en la que el paciente no reci-
del tratamiento administrado. Una manera de mini- be ningún tratamiento o, a lo sumo, un placebo. Sin
60
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
61
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 6.5. Ventajas y desventajas de estudio. De hecho, cuando solamente existen dos
de un estudio cruzado comunidades, no es importante si la intervención se
asigna aleatoriamente o no, ya que las diferencias en la
Ventajas línea basal serán de la misma magnitud (en todo caso,
• Es más eficiente que un estudio en paralelo, ya únicamente la dirección de las diferencias se vería
que requiere un número menor de participantes afectada). Idealmente, debería incluirse un número
de unidades (comunidades) suficiente para que la
• Cada participante es su propio control, por lo que
asignación aleatoria resultara eficaz y tendiera a la dis-
se pueden utilizar técnicas estadísticas para datos
tribución equilibrada de las características basales de
apareados, que son más potentes
ambos grupos.
Desventajas La principal ventaja de los ensayos comunitarios
es la elevada capacidad de generalización de sus
• Tienen mayor duración que los estudios
resultados (validez externa). El fundamento de estos
en paralelo
estudios es desarrollar métodos de reducción de ries-
• No puede utilizarse en enfermedades agudas gos que sean aplicables en las condiciones reales en
o cuya evolución cursa a brotes las que vive la población y evaluar su eficacia en un
• No se puede aplicar cuando no es posible contexto que los hace más generalizables que si se lle-
asegurar la desaparición del efecto de la primera varan a cabo en un contexto clínico. Otras ventajas se
intervención en todos los participantes relacionan con el tipo de intervención que evalúan,
dada la buena relación coste-eficiencia que presen-
tan, al permitir el uso de los medios de comunicación
de masas, la posibilidad de aumentar la eficacia
ENSAYOS COMUNITARIOS
mediante la difusión de la información y el aumento
El ensayo comunitario es el diseño apropiado para la de la comunicación interpersonal, así como la pro-
evaluación de intervenciones de base comunitaria. ducción de cambios en las estructuras sociales e insti-
Por lo tanto, conceptualmente se diferencia de un tucionales que puedan ayudar al mantenimiento de
ensayo clínico en que la intervención no se lleva a los cambios de conducta.
cabo separadamente para cada individuo, sino sobre Sus limitaciones más importantes se relacionan
la comunidad en su conjunto (p. ej., la fluoración de con la dificultad de realizar una inferencia causal,
las aguas de abastecimiento de una comunidad o las dado que habitualmente existe un reducido número
recomendaciones sobre estilos de vida realizadas a de unidades de intervención, las diferencias en la
través de los medios de comunicación). línea basal de las comunidades que se comparan (en
especial, si la asignación no es aleatoria) y la existen-
Ejemplo 6.8. En el Minnesota Heart Health Program se cia de tendencias temporales en la evolución de la
seleccionaron tres parejas de comunidades. Cada pare- exposición y del resultado, que pueden interferir con
ja incluía una comunidad de estudio y una de control la estimación del efecto de la intervención.
que habían sido emparejadas por tamaño, tipo de En cualquier ensayo de intervención comunitaria
comunidad y distancia del área metropolitana. Dentro con una duración prevista de varios años hay que
de cada pareja, la asignación al grupo de estudio o al estimar la tendencia en el tiempo que es probable
control no fue aleatoria. La intervención iba dirigida a que se observe en la variable de respuesta en el
la prevención y el control de la hipertensión arterial, a grupo control. Si la tendencia secular de la variable
la promoción de hábitos alimentarios saludables, a la de respuesta en el grupo control va en la misma
lucha contra el tabaquismo y a la promoción de la prác- dirección que la del grupo de intervención, y es
tica regular de ejercicio físico, y se utilizaron múltiples superior a la esperada, será difícil observar un efecto
estrategias: implicación de los líderes de la comunidad de magnitud suficiente para que el resultado sea
y de los profesionales sanitarios, medios de comunica- estadísticamente significativo. Por esta razón, hay
ción de masas, educación en las escuelas, etc. que tener presente esta información en el diseño,
para no llevar a cabo un estudio que puede ser muy
En el ejemplo anterior no se realizó una asignación costoso, y con pocas probabilidades de encontrar el
aleatoria, dado el reducido número de comunidades resultado esperado.
62
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
63
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Muestra
Situación basal
(preintervención)
INTERVENCIÓN
Respuesta
(postintervención)
Figura 6.7. Esquema de un
estudio de intervención no
controlado (antes-después).
clusión de un grupo control concurrente no se consi- diologists’ guidelines on general practitioners’ referral
dera imprescindible. Sin embargo, a medida que pro- for radiographic examination. Br J Gen Pract 1994; 44:
gresa el desarrollo de un nuevo fármaco, el empleo de 197-200.
un grupo control concurrente y aleatorizado se hace Puffer S, Torgerson DJ, Watson J. Evidence for risk of bias in
cluster randomised trials: review of recent trials pub-
imprescindible.
lished in three general medical journals. BMJ 2003; 327:
785-789.
B IBLIOGRAFÍA DE LOS EJEMPLOS
Allard P, Lamontagne C, Bernard P, Tremblay C. How effec-
tive are supplementary doses of opioids for dyspnea in
B IBLIOGRAFÍA
Argimon JM. La ausencia de significación estadística en un
terminally ill cancer patients? A randomized continuous
ensayo clínico no significa equivalencia terapéutica. Med
sequential clinical trial. J Pain Symptom Manage 1999;
Clin (Barc) 2002; 118: 701–703.
17: 256-265.
Armitage P, Berry G, Matthews JNS. Statistical Methods in
Birtwhistle RV, Godwin MS, Delva MD et al. Randomised
equivalence trial comparing three month and six month Medical Research. 4.a ed. Oxford: Blackwell Science,
follow up of patients with hypertension by family practi- 2002.
tioners. BMJ 2004; 15. Atienza AA, King AC. Community-based health intervention
Eccles M, Steen N, Grimshaw J et al. Effect of audit and feed- trials: an overview of methodological issues. Epidemiol
back, and reminder messages on primary care referrals: Rev 2002; 24: 72-79.
a randomised trial. Lancet 2001; 357: 1406-1409. Bland JM, Kerry SM. Trials randomised in clusters. BMJ
Hennekens CH, Eberlein K. A randomized trial of aspirin 1997; 315: 600.
and beta-carotene among US physicians. Prev Med 1985; Buring JE. Special issues related to randomized trials of pri-
14: 165-168. mary prevention. Epidemiol Rev 2002; 24 (1): 67-71.
Mayos M, Casan P, Heredia JL, Sanchis J. Cámara de aerosol Campbell MK, Grimshaw JM. Cluster randomised trials: time
para pacientes con inhalación incorrecta. Arch Bron- for improvement. BMJ 1998; 317: 1171-1172.
coneumol 1987; 23: 118-122. Campbell MK, Mollison J, Steen N, Grimshaw JM, Eccles M.
Oakeshott P, Kerry SM, Williams JE. Randomised con- Analysis of cluster randomized trials in primary care:
trolled trial of the effect of the Royal College of Ra - a practical approach. Fam Pract 2000; 17: 192-196.
64
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS
Chow SC, Shao J. A note on statistical methods for assessing Kerry SM, Bland JM. Statistics notes: analysis of a trial ran-
therapeutic equivalence. Control Clin Trials 2002; 23: domised in clusters. BMJ 1998; 316: 54.
515-520. Kerry SM, Bland JM. Statistics notes: sample size in cluster
Djulbegovic B, Clarke M. Scientific and ethical issues in randomisation. BMJ 1998; 316: 549.
equivalence trials. JAMA 2001; 285: 1206-1208. McAlister FA, Straus SE, Sackett DL, Altman DG. Analysis
Donner A, Klar N. Pitfalls of and controversies in cluster ran- and reporting of factorial trials: a systematic review.
domization trials. Am J Public Health 2004; 94: 416-422. JAMA 2003; 289: 2545-2553.
Donner A, Klar N. Statistical considerations in the design Todd S, Whitehead A, Stallard N, Whitehead J. Interim
and analysis of community intervention trials. J Clin analyses and sequential designs in phase III studies. Br
Epidemiol 1996; 49: 435-439. J Clin Pharmacol 2001; 51: 394-399.
Fleming TR. Design and interpretation of equivalence trials. Torgerson DJ. Contamination in trials: is cluster randomisa-
Am Heart J 2000; 139: S171-S176. tion the answer? BMJ 2001; 322: 355-357.
Jones B, Jarvis P, Lewis JA, Ebbutt AF. Trials to assess equiva- Whitehead J. A unified theory for sequential clinical trials.
lence: the importance of rigorous methods. BMJ 1996; Stat Med 1999; 18: 2271-2286.
313: 36-39.
65
Capítulo 7
Estudios de cohortes
l término cohorte se utiliza para designar a un Ejemplo 7.1. En el Framingham Heart Study se de-
66
ESTUDIOS DE COHORTES
Seguimiento
Enfermos
No expuestos
Figura 7.1. Pérdidas de Muertos por No enfermos
seguimiento otras causas
Estructura básica de
un estudio
de cohortes.
de ese momento, es decir, el inicio del estudio es tanto la exposición como la enfermedad ya han
anterior al desarrollo de los hechos. ocurrido cuando se inicia el estudio, sólo pueden
En un estudio retrospectivo de cohortes tanto la expo- realizarse si existe un mecanismo adecuado para
sición como la enfermedad ya han ocurrido cuando identificar las cohortes y registros completos de
se lleva a cabo el estudio. La identificación de las co- estas personas. Si los datos son incompletos o no
hortes expuesta y no expuesta se basa en su situa- son comparables para todos los sujetos, el estudio
ción en una fecha previa bien definida (p. ej., la carece de validez. Además, en muchas ocasiones la
fecha de inicio de una exposición laboral), suficien- información sobre factores de confusión no está
temente lejos en el tiempo para que la enfermedad disponible.
en estudio haya tenido tiempo de desarrollarse, y se Los estudios de cohortes también pueden clasi-
determina en cuántos sujetos se ha presentado el ficarse según si utilizan un grupo de comparación
efecto de interés. interno o externo. Cuando se estudia una sola co-
En algunas circunstancias, los estudios pueden horte general (p. ej., los residentes en un área
ser ambispectivos, en los que se recogen datos retros- geográfica determinada, como es el caso del estu-
pectiva y prospectivamente en una misma cohorte. dio de Framingham), pueden distinguirse dos
cohortes internas como consecuencia de la clasifica-
Ejemplo 7.2. Supongamos que en 1990 se decidió ción de los sujetos de la cohorte general en expues-
realizar un estudio de las consecuencias de la expo- tos y no expuestos.
sición a un agente tóxico. Se seleccionó una cohor-
te de 1.500 individuos que habían estado expuestos Ejemplo 7.3. Supongamos que se desea estudiar la
al agente entre 1980 y 1985, y una cohorte de su- relación entre la exposición al tabaco y la enferme-
jetos que no lo habían estado. Se recogieron datos dad coronaria entre los médicos que ejercen en una
retrospectivos con el fin de determinar si habían Comunidad Autónoma. La cohorte expuesta la for-
existido diferencias entre ambas cohortes en la apa- marían los médicos que fuman y la cohorte no ex-
rición de problemas de salud como defectos con- puesta los médicos no fumadores o que fuman una
génitos, infertilidad y trastornos mentales, entre cantidad inferior que los clasificados como expues-
otros. Además, como existía la posibilidad de que tos. Existe una cohorte general definida por la perte-
este agente incrementara el riesgo de cáncer, las co- nencia a un grupo profesional y un criterio geográfi-
hortes se siguieron prospectivamente desde 1990 co, cuyos sujetos se dividen en dos o más cohortes
hasta el año 2000. internas en función del grado de exposición.
Aunque los estudios retrospectivos se pueden En otras situaciones no existe una cohorte gene-
llevar a cabo más rápida y económicamente, ya que ral bien definida, sino que la cohorte expuesta se
67
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
ha definido por su alta frecuencia de exposición, posición: intensidad, diferentes períodos de tiem-
como, por ejemplo, trabajadores de determinadas po, diversas combinaciones de los factores de ries-
industrias. En estos casos se utiliza una cohorte de go, etc. También permite evaluar si los cambios
comparación externa, formada por un grupo de su- en los valores de exposición se relacionan con la
jetos no expuestos al factor de estudio que son se- incidencia de la enfermedad.
guidos simultáneamente a la cohorte expuesta. – El riesgo relativo como medida de la magnitud de
la asociación entre el factor de riesgo y la variable
Ejemplo 7.4. Supongamos que se desea estudiar si de respuesta. Estima el riesgo de los sujetos ex -
un determinado agente químico aumenta la inci- puestos de presentar la respuesta en relación a los
dencia de cáncer. La cohorte expuesta la forman no expuestos (anexo 2). También permite estimar
trabajadores de una industria expuestos al produc- el riesgo relativo según diferentes características
to químico, mientras que la cohorte de compara- de la exposición, y se puede evaluar, por ejemplo,
ción la podrían formar trabajadores de otra indus- la existencia de un gradiente dosis-respuesta en-
tria no expuestos a dicho producto. En este caso no tre la exposición y la aparición del efecto.
existe una única cohorte general, sino que las co- – La fracción o proporción atribuible o proporción
hortes son grupos de sujetos seleccionados de for- de casos de una enfermedad que resulta de la ex-
ma independiente. posición a un factor determinado o a una combi-
En ocasiones, la cohorte externa de comparación nación de ellos (ver capítulo 32).
puede provenir de la población general, y estaría for- – La diferencia de incidencias como medida del im-
mada por una muestra de la misma que sería seguida pacto potencial que tendría la eliminación de la
simultáneamente a la cohorte de estudio. exposición (ver capítulo 32).
Algunos estudios sólo siguen una cohorte de
sujetos expuestos y utilizan, como referencia, in-
IDENTIFICACIÓN DE LAS COHORTES
formación registrada procedente de la población
general. Para que la duración del estudio, el coste y el
tamaño de la muestra sean mínimos hay que selec-
Ejemplo 7.5. Si se estudia un grupo de individuos cionar a individuos que tengan una alta probabili-
que trabajan en una industria con un riesgo aumen- dad de presentar la enfermedad o desenlace de
tado de desarrollar cáncer de vejiga urinaria, la mor- interés, y excluir a aquellos que ya la presentan o
talidad por este tipo de cáncer en estos sujetos puede que no puedan desarrollarla. Con frecuencia la
compararse con las cifras de mortalidad de la pobla- identificación de sujetos con antecedentes de la
ción general. En este caso no se sigue una cohorte de enfermedad o que la padecen de forma asintomáti-
sujetos provenientes de la población general, sino ca o subclínica puede resultar difícil. Las pruebas y
tan sólo las estadísticas referidas a ella. Por esta ra- exploraciones complementarias que se utilicen para
zón en estos estudios las únicas variables de confu- tratar de identificarlos deben ser sencillas, seguras y
sión que pueden controlarse son la edad, el sexo u baratas, si han de aplicarse a toda la cohorte.
otras que aparezcan en los registros de mortalidad. Dado que son estudios analíticos (estudian una
presunta relación causa-efecto), la consideración
más importante es la comparabilidad de las cohor-
ESTIMACIONES QUE PUEDEN
tes expuesta y no expuesta, así como asegurar que
REALIZARSE EN LOS ESTUDIOS
se dispone del número suficiente de sujetos con las
DE COHORTES
características predictoras más importantes y de
Los estudios de cohortes son longitudinales. Al exis- desenlaces observados durante el estudio, a fin de
tir seguimiento de sujetos permiten realizar las si- permitir un análisis válido. Cuando se utiliza una
guientes estimaciones: cohorte interna, dado que la cohorte no expuesta
procede de la misma población que la expuesta, la
– La incidencia de la enfermedad en los sujetos ex- comparabilidad es fácil de asegurar. En cambio,
puestos y en los no expuestos (anexo 1). Además, cuando la cohorte de comparación es externa es
en los individuos expuestos permite estimar la in- más difícil asumir que ambas cohortes proceden de
cidencia según diferentes características de la ex- la misma población.
68
ESTUDIOS DE COHORTES
69
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
expuestos como no expuestos procedan de un mis- viduos que trabajan en una industria, debe tenerse
mo subgrupo de población, sino que habitualmen- en cuenta que las personas que tienen y mantienen
te implica que también estarán sujetos a los mismos un empleo gozan, en general, de mejor salud que
procedimientos de seguimiento y tendrán, por tan- los que no trabajan (efecto del trabajador sano).
to, la misma probabilidad de que se les detecte la Los sujetos que trabajan suelen tener mayores in-
enfermedad. gresos económicos y mejor acceso a la atención mé-
La selección de una cohorte externa suele ser la dica, y pueden tener estilos de vida que redunden
mejor elección para estudiar exposiciones raras o en una mejor salud. Dado que la población general
exposiciones a posibles factores de riesgo laborales incluye a individuos que no trabajan debido a en-
o ambientales, aunque será más difícil asegurar que fermedad o incapacidad, las tasas de mortalidad
las dos cohortes proceden de la misma población. son casi siempre mayores en la población general.
Por esta razón el problema que pueden plantear los La consecuencia de este fenómeno de selección es
posibles factores de confusión se acentúa en estos que cualquier exceso de riesgo asociado a una ocu-
estudios. Las cohortes pueden ser diferentes en pación específica se infraestimará al compararla
otros aspectos importantes, además de la exposi- con la población general.
ción a la variable de interés, capaces de influir so- La consideración de que las personas seleccio-
bre la enfermedad. Algunas de estas diferencias po- nadas por su exposición pueden estar más o menos
tencialmente generadoras de confusión pueden sanas que la población general se refiere no sólo a
medirse y llegar a controlarse, pero otras son des- la exposición de interés sino también a otros facto-
conocidas o imposibles de determinar. res etiológicos. Por ejemplo, si la exposición de in-
Si la cohorte expuesta la componen grupos selec- terés es el uso de anticonceptivos orales, el proble-
cionados por su alta frecuencia de exposición, como ma es decidir si el grupo de comparación deben ser
trabajadores de determinadas industrias, se puede mujeres que no los utilizan o limitarse a mujeres
elegir como referencia a un grupo de individuos que utilizan otros métodos de anticoncepción,
que trabajan en otras industrias y que no estén ex- ya que las que no utilizan ningún método pueden
puestos al factor de estudio, o bien trabajadores de ser diferentes de las que sí los toman en relación
la misma empresa cuyo puesto de trabajo no im- con sus prácticas sexuales, deseos de quedar emba-
plique la exposición al factor de estudio. Los indivi- razadas o situación fértil.
duos de esta cohorte externa deben ser semejantes En ocasiones puede considerarse de interés la
a los de la cohorte expuesta en cuanto a característi- utilización de más de un grupo de comparación. Si
cas demográficas y socioeconómicas y otros factores se observan resultados diferentes al comparar con
relevantes que puedan influir sobre la enfermedad. cada uno de ellos, debe preguntarse el porqué. Por
Una alternativa es comparar la frecuencia de de- otro lado, estas inconsistencias producen una ma-
senlaces observada en la cohorte expuesta con los yor incertidumbre en los resultados.
datos procedentes de la población general obteni-
dos a partir de registros. Para efectuar dicha com- C OHORTE FIJA O COHORTE DINÁMICA
paración se ha de disponer de información sobre el Se habla de cohorte fija cuando sólo se incluyen los
desenlace o la enfermedad en estudio referida a individuos que cumplen los criterios de inclusión
toda la población (p. ej., estadísticas de mortalidad, en la fecha de inicio del estudio. Por tanto, la fecha
registros de cáncer poblacionales). Se asume que la de inclusión es la misma para todos los sujetos y
proporción de expuestos al factor entre la pobla- coincide con la del inicio del estudio. Se habla de
ción general es pequeña (o se tiene información so- cohorte dinámica cuando los individuos se van inclu-
bre su frecuencia) ya que, de otro modo, se infraes- yendo a medida que progresa el estudio, es decir, a
timaría la verdadera asociación. medida que se van identificando. Por tanto, en una
La población general puede diferir de la cohor- cohorte dinámica la fecha de inclusión es diferente
te expuesta por diferentes factores (p. ej., en los es- para cada sujeto.
tilos de vida), cuya información no suele estar dis- Es más probable que exista un sesgo de selec-
ponible en los registros de mortalidad, por lo que ción en una cohorte fija, ya que los individuos con
no puede controlarse su posible efecto de confu- un mayor grado de exposición pueden haber desa-
sión. Si la cohorte expuesta está formada por indi- rrollado la enfermedad y, por tanto, quedarían ex-
70
ESTUDIOS DE COHORTES
cluidos de la cohorte inicial. En cambio, en una co- ble si la enfermedad de interés es frecuentemente
horte dinámica pueden incluirse los sujetos en un letal. A pesar de sus limitaciones, en general, se
mismo momento de su historia de exposición. acepta como causa de muerte la que aparece en el
certificado de defunción, pero en otros casos se
recoge información adicional procedente de regis-
MEDICIÓN DE LA EXPOSICIÓN
tros médicos, autopsias, etc., con la finalidad de
Uno de los puntos fuertes de los estudios de cohor- aumentar su calidad.
tes prospectivos es que permiten obtener una in- Cuando las personas que presentan la respuesta
formación detallada, precisa y objetiva de la ex- suelen requerir hospitalización, pueden monitori-
posición en estudio. Así, por ejemplo, si se desea zarse los registros de los hospitales de referencia
estudiar el efecto de determinados hábitos alimen- para establecer su aparición. A menudo se utilizan
tarios sobre la incidencia de enfermedades cardio- los informes de alta por la rapidez y bajo coste de su
vasculares o diferentes tipos de cáncer, el grado de uso. Sin embargo, dado que no puede asumirse
detalle necesario sobre la alimentación hace que su exactitud ni su exhaustividad, suele ser necesario
la recogida retrospectiva de esta información sea recurrir a la historia clínica para complementar la in-
poco fiable. formación. Los procedimientos para combinar
La medición detallada de la exposición permite información procedente de diferentes fuentes de-
estudiar el efecto en un subgrupo de sujetos someti- ban establecerse claramente a priori.
dos a determinado grado o subtipo de exposición, o Cuando la información procede de registros ya
incluso clasificar la exposición en diferentes grados existentes, pueden presentarse problemas relacio-
para evaluar una posible relación dosis-respuesta. nados con la ausencia de estandarización de la in-
La duración de la exposición puede utilizarse, formación, la variabilidad de los criterios diagnósti-
en ocasiones, como un sustituto de la dosis acumu- cos utilizados o la exhaustividad de la información
lada de exposición, siempre que la intensidad de la contenida en los registros. Además, los sujetos pue-
exposición sea poco variable en el tiempo. den solicitar atención a centros o médicos diferen-
Por otro lado, el grado de exposición puede sufrir tes de los monitorizados, por lo que puede sobre o
cambios durante el seguimiento, por lo que es im- infraestimarse la incidencia de la enfermedad.
portante anotar tanto los cambios como sus motivos. También pueden utilizarse registros poblacionales,
si existen. Por estas razones es conveniente exami-
nar de forma periódica a los miembros de la cohor-
MEDICIÓN DEL DESENLACE
te, aunque ello suponga un coste importante.
Los procedimientos para determinar qué sujetos de Cuando el diagnóstico requiere la realización de
las cohortes desarrollan el desenlace de interés va- examen físico y exploraciones complementarias, es
rían en función de la respuesta que se estudia y los preferible utilizar criterios estándares reconocidos,
recursos disponibles. Esta medición debe ser lo más lo que permitirá comparar los resultados con los de
objetiva posible. Cuando se trata de síntomas o sín- otros estudios. En algunos casos puede resultar útil
dromes para los que no existe ningún examen obje- subdividir el diagnóstico según su grado de certeza
tivo, debe recurrirse a definiciones sobre las que o su etiología. La combinación de todos los subti-
exista un amplio consenso. pos como un solo grupo dificulta la identificación
Es importante que esta determinación se realice de los factores de riesgo.
de la misma forma en los expuestos y los no expues- También debe tenerse en cuenta que la enfer-
tos, mediante criterios establecidos explícitamente medad puede ser indetectable clínicamente, tan-
antes del inicio del estudio. Además, en la medida de to si es infecciosa (hepatitis, poliomielitis, etc.)
lo posible, esta medición debería ser realizada por como si no lo es (arteriosclerosis coronaria, cáncer,
personas que no conozcan si los sujetos están ex- etc.). Los factores de riesgo pueden tener una
puestos o no, para prevenir sesgos de información. influencia diferente en los casos clínicos y en los
En muchos estudios el resultado de interés es si subclínicos, posibilidad que deberá tenerse en
la persona fallece y, en caso afirmativo, cuáles han cuenta en el análisis. No debe olvidarse que la exis-
sido las causas específicas. La utilización de la mor- tencia de resultados falsos positivos y falsos negati-
talidad como variable de respuesta sólo es razona- vos puede sesgar los resultados.
71
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
72
ESTUDIOS DE COHORTES
cia de los estudios de casos y controles, en los que a la glucosa), la incidencia estimada es del 35,8%,
no siempre puede establecerse con seguridad una lo que implica que sólo será necesario seguir a
adecuada secuencia temporal. 28 sujetos con estas características durante el
La medición de la exposición y de las variables mismo período de tiempo para encontrar el mismo
pronósticas tiende a ser más exacta y completa que número de casos (Wilson et al, 1987).
en los estudios de casos y controles, ya que no de- Los estudios de cohortes prospectivos tampoco
pende, en la mayoría de las ocasiones, de la memo- son eficientes para el estudio de enfermedades con
ria del paciente ni está influida por la presencia de un largo período de latencia, ya que obligan a un
la enfermedad, en especial cuando la información seguimiento muy largo, lo cual, además del coste y
se recoge de forma prospectiva. En los estudios esfuerzo que supone, puede aumentar las pérdidas.
retrospectivos la calidad de la información depen- Los estudios de cohortes requieren un número
de de los registros y de si éstos se adecuan a los obje- elevado de participantes y tienen un coste elevado.
tivos del estudio. Por estas razones, en general, sólo se llevan a cabo
Los estudios de cohortes permiten evaluar los después de que una hipótesis etiológica haya sido
efectos del factor de riesgo sobre varias enfermeda- evaluada mediante un diseño de casos y controles.
des, por ejemplo de la hipertensión arterial en rela-
ción con diferentes desenlaces cardiovasculares. Ejemplo 7.7. Un caso es el estudio sobre la utiliza-
Los estudios de cohortes no son eficientes para ción de benzodiazepinas durante el primer trimes-
el estudio de enfermedades poco frecuentes, ya que tre de embarazo y la aparición del labio leporino y
obligan a seguir a un número elevado de sujetos hendidura palatina en el recién nacido. Existe con-
durante un largo período de tiempo para observar troversia acerca del efecto que ejerce la ingestión
un número suficiente de casos de la enfermedad. de estos fármacos sobre el aumento de hendiduras
De todos modos, aunque la frecuencia de una en- orales. Parte de los resultados contradictorios na-
fermedad sea muy baja en la población general, cen a raíz de que el diseño más utilizado para eva-
puede ser lo suficientemente elevada en grupos es- luar esta hipótesis ha sido el de casos y controles, en
peciales que hayan estado expuestos de forma in- el que la información sobre la exposición se consi-
tensa a un factor de riesgo y, en consecuencia, pue- gue de forma retrospectiva, después del nacimien-
de llevarse a cabo un estudio de cohortes en este to. En este caso, es muy posible que las madres que
grupo de población expuesto. Por ejemplo, aunque hayan tenido un niño con fisura palatina tiendan a
el mesotelioma es una enfermedad muy poco fre- recordar con más exactitud su historia farmacológi-
cuente entre la población general, es relativamente ca que las que no han padecido este problema. En
común entre los trabajadores de los astilleros, por los estudios de cohortes, al obtener la información
lo que sería factible realizar un estudio de cohortes sobre los medicamentos antes de que la madre dé a
con estos sujetos. luz se evita este posible sesgo.
Siguiendo este razonamiento, Shiono y Mills
Ejemplo 7.6. Supongamos un estudio cuyo desenla- (1984) llevaron a cabo un estudio de cohortes. El
ce de interés es la enfermedad coronaria. Se estima problema con el que toparon los autores fue que
que su incidencia en mujeres de 45 años que pre- después de seguir a 854 mujeres expuestas al
sentan bajo riesgo (presión arterial sistólica inferior fármaco, sólo una de ellas tuvo un recién nacido
a 110 mmHg, colesterolemia inferior a 185 mg/dl, con la malformación. En el grupo no expuesto de
sin hipertrofia ventricular izquierda, no fumadora 32.364 mujeres, sólo 32 recién nacidos presentaron
y sin intolerancia a la glucosa) es del 0,8% a los fisura palatina. Aunque es cierto que no se produjo
6 años. Esto significa que para encontrar 10 casos se ningún sesgo de memoria, no pudieron encontrar
deberían seguir a unas 1.250 mujeres con estas ca- un resultado estadísticamente significativo debido a
racterísticas durante 6 años. que el tamaño de la muestra era insuficiente. In-
Si, por el contrario, se selecciona un grupo de cluso si el riesgo relativo fuera de 3,0, la potencia de
hombres de la misma edad con alto riesgo (presión este estudio para encontrar esta diferencia sería
arterial sistólica por encima de 180 mmHg, coleste- de un 50%.
rolemia superior a 310 mg/dl, fumador, con hiper- Las principales ventajas y desventajas de los es-
trofia ventricular izquierda y, además, intolerancia tudios de cohortes se resumen en la tabla 7.1.
73
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
74
ESTUDIOS DE COHORTES
Cuando la exposición ha tenido lugar muchos Ellenberg JH. Cohort studies: selection bias in observational
años antes del inicio del estudio, su medición pue- and experimental studies. Stat Med 1994; 13: 557-556.
de ser muy difícil y sólo puede realizarse una clasifi- Hunt JR, White E. Retaining and tracking cohort study mem-
bers. Epidemiol Rev 1998; 20(1): 57-70.
cación en grandes grupos (sin poder diferenciar los
Kelsey JL, Thompson WD, Evans A. Methods in observatio-
grados de exposición), por lo que es probable que nal epidemiology. 2.a ed. Nueva York: Oxford University
aparezcan errores de medición que sesguen la apa- Press, 1986.
rente magnitud de la asociación. Además, al no po- Kleinbaum D, Kupper L, Morgenstern H. Epidemiologic Re-
der utilizar una clasificación por diferentes grados search. Belmont: Lifetime Learning Publications, 1982.
de exposición, no puede evaluarse la existencia de Laupacis A, Wells G, Richardson WS, Tugwell P. Evidence-
una relación dosis-respuesta, que es un importante Based Medicine Working Group. Users’ guides to the
criterio para inferir causalidad. medical literature. V. How to use an article about prog-
La naturaleza retrospectiva de la recogida de nosis. JAMA 1994; 272: 234-237.
Levine M, Walter S, Lee H, Haines T, Holbrook A, Moyer V.
datos también dificulta la medida de la aparición
Evidence-Based Medicine Working Group. Users’ guides
de la enfermedad. Dado que el investigador de- to the medical literature. IV. How to use an article about
be utilizar información recogida con otras fina- harm. JAMA 1994; 271: 1615-1619.
lidades, su calidad puede no ser suficiente, lo Pearce N. Methodological problems of time-related variables
que limita la realización de este tipo de estudios. in occupational cohort studies. Rev Epidemiol Sante Pu-
Además, pueden existir problemas adicionales en blique 1992; 40 (supl 1): S43-54.
la recogida de información sobre importantes Phillips AN, Smith GD. The design of prospective epidemio-
variables de confusión. Por tanto, los resultados de logical studies: more subjects or better measurements?
muchos estudios retrospectivos difícilmente pue- J Clin Epidemiol 1993; 46: 1203-1211.
Prentice RL. Design issues in cohort studies. Stat Methods
den considerarse definitivos al abordar relaciones
Med Res 1995; 4: 273-292.
causales.
Samet JM, Muñoz A. Evolution of the cohort study. Epi-
demiol Rev 1998; 20(1): 1-14.
B IBLIOGRAFÍA DE LOS EJEMPLOS Samet JM, Muñoz A. Perspective: cohort studies. Epidemiol
Beale N, Nethercott S. Job loss and morbidity in a group of Rev 1998; 20(1): 135-136.
employees nearing retirement age. J R Col Gen Pract Szklo M. Population-based cohort studies. Epidemiol Rev
1986; 36: 265-266. 1998; 20(1): 81-90.
Shiono PH, Mills JL. Oral clefts and diazepam use during Tager IB. Outcomes of cohort studies. Epidemiol Rev 1998;
pregnancy. N Engl J Med 1984; 311: 919-920. 20(1): 15-28.
Wilson P, Castelli W, Kannel W. Coronary risk prediction in White E, Hunt JR, Casso D. Exposure measurement in co-
adults (The Framingham Heart Study). Am J Cardiol hort studies: the challenges of prospective data collec-
1987; 59: 91G-94G. tion. Epidemiol Rev 1998; 20(1): 43-56.
Whitney CW, Lind BK, Wahl PW. Quality assurance and qua-
B IBLIOGRAFÍA lity control in longitudinal studies. Epidemiol Rev 1998;
Breslow NE, Day NE. Statistical methods in cancer research. 20(1): 71-80.
Vol. II. The design and analysis of cohort studies. Lyon: Willett WC, Colditz GA. Approaches for conducting large
IARC Publications, 1987. cohort studies. Epidemiol Rev 1998; 20(1): 91-99.
75
Capítulo 8
Estudios de casos y controles
n los estudios de casos y controles se elige un anticonceptivos orales (AO), el grupo de casos lo
Expuestos
Enfermos
(casos)
No expuestos
Expuestos
No enfermos
(controles)
No expuestos
Figura 8.1.
Estructura básica
de un estudio de
casos y controles.
76
ESTUDIOS DE CASOS Y CONTROLES
es estimar la proporción de exposición esperada en todo el espectro de gravedad, existe el riesgo de cla-
un grupo que no padece la enfermedad. sificar mal a individuos sin la enfermedad como
Las estimaciones que se obtienen son la propor- casos leves y viceversa, dado que en muchas enfer-
ción de casos y controles expuestos a un posible fac- medades es muy difícil conseguir un diagnóstico de
tor de riesgo. También son de interés la intensidad certeza. Si se incluyen sólo formas graves, el riesgo
y la duración de la exposición en cada uno de los de clasificar mal disminuye, aunque obtener el nú-
grupos. La medida de asociación o del riesgo de mero de individuos necesario puede ser difícil y,
padecer un determinado problema de salud asocia- además, se limita la generalización de los resultados.
do a la presencia de una exposición es la odds ratio En algunos casos existe desacuerdo entre dis-
(OR) (anexo 2). tintos investigadores en la definición de una enfer-
medad, lo que puede introducir variabilidad en la
SELECCIÓN DE LOS CASOS estimación del efecto y reducir la posibilidad de re-
producir los resultados. Siempre que exista una de-
Para identificar los casos deben establecerse, de finición estándar y ésta sea adecuada para el propó-
forma clara y explícita, la definición de la enferme- sito del estudio, debe usarse con el fin de disminuir
dad y los criterios que deben cumplir aquellos que la variabilidad y de que los hallazgos sean compara-
la presenten para ser incluidos en el estudio. Por bles con los de otros investigadores.
otro lado, los criterios de selección deben dirigirse
a que sólo se incluyan sujetos que potencialmente Ejemplo 8.3. El síndrome del túnel carpiano puede
han podido estar expuestos al presunto factor de presentarse con sintomatología diversa, no siempre
riesgo. Estos criterios deben aplicarse por igual a fácil de diferenciar por criterios únicamente clíni-
casos y a controles. cos, de las acroparestesias nocturnas. Los signos de
Tinel y Phalen positivos pueden ser de gran ayuda al
Ejemplo 8.2. En el estudio hipotético del ejemplo 8.1, reproducir la sintomatología, pero sólo tienen valor
se excluiría a las mujeres que por causa de enfer- de sospecha diagnóstica. Según la gravedad del cua-
medad crónica presentaran alguna contraindica- dro existe una mayor o menor afectación sensitiva o
ción para la toma de AO. Las mujeres diabéticas,
motora, no siempre objetivable a la exploración físi-
hipertensas o dislipémicas no entrarían a formar
ca. Por esto, para conseguir un diagnóstico preciso y
parte del estudio, ya que en estas enfermedades el
fiable de la afectación del nervio mediano es prefe-
uso de AO está contraindicado, o al menos su indi-
rible utilizar pruebas electrofisiológicas, y no con-
cación es muy individualizada. Los criterios de ex-
clusión dependen de la definición de exposición formarse con los criterios clínicos.
que se adopte. Si el interés se centra en el uso de La elección de unos criterios más o menos estric-
AO en los últimos 5 años o más, una mujer recién tos para definir la enfermedad tiene implicaciones
diagnosticada de diabetes entraría a formar parte en los resultados del estudio. Si se aplican criterios
del grupo de casos por tener la probabilidad de ha- diagnósticos poco sensibles y específicos, se
ber estado expuesta al factor de riesgo. hallarán muchos falsos positivos y negativos, lo que
Lo ideal sería que los casos seleccionados fueran tiende a diluir el efecto que se está estudiando. En
una muestra aleatoria de todos los individuos de la el caso de que no sea posible aplicar en todos los
población de estudio que presentan la enfermedad. casos las mejores técnicas para el diagnóstico, es
En los estudios de cohortes la enfermedad se busca conveniente clasificarlos en categorías como «pro-
de forma sistemática en todos los participantes, pe- bable» o «definitivo». Es de esperar que en el grupo
ro en los estudios de casos y controles los casos se con diagnóstico «definitivo» se encuentren menos
obtienen de una serie de pacientes en quienes la falsos positivos que en el de «probable», lo que per-
enfermedad ya ha sido diagnosticada y están dispo- mitirá analizar con más detenimiento los posibles
nibles para el estudio, por lo que pueden no ser re- errores de una mala clasificación.
presentativos de la población de estudio.
I DENTIFICACIÓN DE LOS CASOS
D EFINICIÓN DE CASO Una vez se ha elaborado una definición conceptual
Los investigadores pueden estudiar formas leves y/o del caso, el siguiente paso es desarrollar una defini-
graves de la enfermedad. Si se incluyen casos con ción operativa para identificarlos. El objetivo es
77
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
78
ESTUDIOS DE CASOS Y CONTROLES
79
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
proporción más elevada de individuos sin empleo, el número de casos es limitado se puede aumentar
o de baja laboral, con más tiempo libre para dedi- la potencia estadística del estudio para detectar un
carlo a contestar unas preguntas que entre los que efecto determinado y seleccionar más de un con-
no aceptan. Si el hecho de no trabajar está relacio- trol por cada caso. Esta última alternativa es muy
nado directa o indirectamente con algún factor de útil cuando el coste de seleccionar a un control es
estudio, un alto porcentaje de no respuestas puede relativamente bajo.
sesgar los resultados. En tercer lugar, los controles Como norma general, cuando la razón de contro-
poblacionales, al estar en general menos motivados les por caso exceda el valor de 4:1 la ganancia en tér-
por el estudio, tenderán a recordar con menos pre- minos de potencia estadística es muy pequeña com-
cisión su historia pasada. Ello puede dar lugar a que parada con el coste de seleccionar a los controles.
la calidad de la información que se recoge sea dife-
rente para los casos y los controles. En la tabla 8.1 se N ÚMERO DE GRUPOS CONTROL
resumen las ventajas y desventajas de la utilización Para valorar la posibilidad de que se haya cometido
de controles procedentes de la población general un sesgo en la selección de los controles, algunos
o de sujetos demandantes. autores recomiendan, si es posible, utilizar dos gru-
Una tercera fuente de controles la proporcio- pos control. Si se obtiene la misma estimación al
nan personas relacionadas con los casos, como pa- comparar con cada uno de ellos, se podría asumir
rientes, amigos o vecinos. Este grupo presenta la que no ha existido un sesgo de selección. A pesar
ventaja de reducir los costes de realización de la en- de todo, siempre existe la posibilidad remota de
trevista, en particular en tiempo de desplazamien- que las dos estimaciones tengan el mismo grado
to, y ofrece más garantías de comparabilidad, al de sesgo.
tener más probabilidad de que provengan de la
misma base poblacional que los casos. Además, ten- Ejemplo 8.7. El objetivo de un estudio era valorar el
derán a ser mucho más colaboradores que la pobla- riesgo de padecer cáncer de vejiga asociado a la
ción general por el interés que despierta la cercanía ocupación laboral, al consumo activo y pasivo de
del caso. El inconveniente es el potencial riesgo de tabaco, la dieta, el consumo de café, analgésicos,
sobreemparejamiento que conlleva, dado que algu- edulcorantes y antecedentes de infección y litiasis
nos hábitos de vida son compartidos por familiares, urinaria (González et al, 1989). Para ello se estudia-
amigos, e incluso tienden a concentrarse en los mis- ron 497 casos y 583 controles hospitalarios, así co-
mos barrios. mo 530 controles de población. El porcentaje de
encuestas no realizadas en los controles de pobla-
N ÚMERO DE CONTROLES POR CASO ción fue del 34,3%, ligeramente superior que en los
Cuando existe un número de casos suficiente se controles hospitalarios (29,5%). Las causas por las
suele seleccionar un control por cada uno. Cuando que no se realizó la encuesta fueron, principalmente,
80
ESTUDIOS DE CASOS Y CONTROLES
la dificultad para localizar los controles (mayor en El grupo de casos debe incluir todos los casos, o
el grupo poblacional) y la negativa a ser entrevista- una muestra representativa, que aparecen en una
do (también mayor en el grupo poblacional). Para población definida. Si se dispone de un registro de
los controles hospitalarios utilizaron una lista enfermedad de base poblacional, como los que sue-
amplia de diagnósticos de exclusión por ser enfer- len existir para cáncer o enfermedades congénitas,
medades asociadas con los factores de estudio. Con ésta será la fuente de elección, ya que se tendrá una
el objeto de evitar que los controles pudieran con- lista exhaustiva de todos (o casi todos) los casos. Si
centrarse en alguna enfermedad asociada a las ex- no se dispone de este tipo de registros, debe recu-
posiciones, seleccionaron controles de la mayoría rrirse a otras fuentes, en general servicios hospitala-
de servicios y con una amplia variedad de diagnós- rios u otros centros sanitarios. En esta situación la
ticos, como hernia inguinal, apendicitis, fractura de inclusión de los casos está relacionada con la pro-
tibia, glaucoma, dolor dorsal y osteoartrosis, entre babilidad de que hayan sido diagnosticados y ad-
otros. Además, ninguno de estos diagnósticos supe- mitidos en dichos servicios o centros. Si esta pro-
raba el 7% del total de los controles hospitalarios. babilidad depende de factores como el grado de
Los autores defendían la inclusión de un control especialización o el prestigio del servicio, o bien
poblacional, además del hospitalario, como pre- de características del paciente (lugar de residencia,
caución frente a la eventualidad de que ciertos há- clase socioeconómica, etc.), y estos factores están
bitos relacionados con los factores de estudio fue- relacionados con el hecho de haber sido expuestos,
ran diferentes en ambos grupos. Contar con dos la muestra de casos no será representativa y se ob-
grupos control tenía, además, el objetivo de aumen- tendrá una estimación sesgada del efecto.
tar la precisión y el poder estadístico del estudio. Al Otro sesgo de selección que puede presentarse
comparar ambos grupos por las variables conside- en los estudios de casos y controles es el sesgo de Berk-
radas de interés no se observaron diferencias signi- son. Suele ocurrir cuando la combinación de la
ficativas, lo que sugiere que ambos grupos proce- exposición y la enfermedad en estudio aumenta
den de una misma población. la probabilidad de ingreso en un hospital, lo cual
La recomendación de usar dos grupos control es conduce a una frecuencia de exposición sistemáti-
difícil de llevar a la práctica por su coste en tiempo y camente más elevada en los casos que en los con-
dinero. Además, algunos autores argumentan que troles hospitalarios. El resultado es una estimación
los investigadores no suelen depositar igual confian- sesgada de la OR.
za en la validez de las comparaciones basadas en dos El uso de casos prevalentes en lugar de inciden-
o más grupos diferentes, y que con grupos de com- tes puede dar lugar a un error sistemático que se
paración distintos hay que esperar a que se observen conoce con el nombre de sesgo de Neyman o de super-
resultados distintos. ¿Qué sucede si en un estudio vivencia selectiva. La prevalencia depende tanto de la
largo y costoso se observan resultados discrepantes duración de la enfermedad, que se verá afectada
con distintos grupos de comparación? Si los investi- por el tratamiento y la atención sanitaria recibida,
gadores depositan mayor confianza en uno de ellos, como de la letalidad de la enfermedad. Por estas
los resultados del otro restarían credibilidad a sus razones, los casos prevalentes pueden no ser repre-
hallazgos. En consecuencia, algunos epidemiólogos sentativos de todos los casos.
recomiendan escoger sólo un grupo de compara- El llamado sesgo de detección aparece como conse-
ción, en general en el que se tenga mayor confianza. cuencia de la existencia de una diferente probabili-
dad de diagnosticar a los casos y a los controles.
Este sesgo mereció la atención de muchos investi-
SESGOS EN LA SELECCIÓN DE CASOS
gadores a raíz de la controversia surgida con el uso
Y CONTROLES
de estrógenos y el riesgo de padecer cáncer de en-
Un sesgo de selección aparece cuando los casos o dometrio. Se argumentó que la exposición (uso de
los controles son incluidos o excluidos de un estu- estrógenos) estaba asociada a una mayor probabili-
dio debido a alguna característica relacionada con dad de que los médicos detectaran la enfermedad,
la exposición. Aunque los sesgos se explican con ya que las mujeres que utilizaban estrógenos eran
detalle en el capítulo correspondiente, a continua- visitadas con mayor frecuencia y de forma más cui-
ción se mencionan los más importantes. dadosa que las que no los consumían. Sin embargo,
81
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Ventajas
• Es un proceso fácil de comprender
• Equilibra el número de casos y controles en cada categoría de la variable por la que se empareja
• Facilita la detección de una interacción entre la exposición y el factor por el que se aparea siempre que éste
tenga un gran efecto sobre el riesgo de padecer la enfermedad y sea poco frecuente en la población
• Si el emparejamiento es perfecto, como sucede con las variables dicotómicas o las cuantitativas cuando
se aparea exactamente por el mismo valor de la variable, el efecto de confusión se controlará completamente
Desventajas
• No se podrá estudiar el efecto de la variable por la que se empareja sobre la enfermedad
• Sólo se previene el posible efecto de confusión de las variables por las que se ha emparejado
e, indirectamente, por aquellos factores que están muy relacionados con ellas
• Permite evaluar la existencia de interacción, pero no su estudio detallado
• Es un proceso laborioso que requiere mucho tiempo y puede alargar la duración del estudio
• Reduce la flexibilidad del análisis, al ser necesario utilizar técnicas para datos apareados
• Si se empareja por una variable que no es un factor de confusión se obtendrá una estimación poco precisa
• Aumenta la complejidad del estudio, a menudo con escaso beneficio, en términos de precisión y exactitud
del estimador
82
ESTUDIOS DE CASOS Y CONTROLES
83
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Ejemplo 8.10. En un estudio se describió la concor- diante entrevista personal sobre ocho posibles ex-
dancia entre la información dada por los pacientes posiciones durante el embarazo, y se comparó con
y sus médicos con respecto a la práctica de la tin- la registrada en la historia clínica del obstetra. Se
ción de Papanicolaou y su resultado (Walter et al, consiguió la misma información, y de las mismas
1988). Los datos procedían de un estudio de casos fuentes, de un grupo de madres de hijos sin malfor-
y controles recogidos mediante entrevista personal. maciones, que sirvió de control (Werler et al, 1989).
Posteriormente, se contactó con sus respectivos mé- La información sobre cinco de las ocho exposicio-
dicos de cabecera o del centro de planificación fa- nes fue igual de exacta en los casos que en los con-
miliar con el fin de verificar la información. Al com- troles, pero la historia de infección durante el emba-
parar los hallazgos histológicos encontraron que razo, de infertilidad tratada o no, y de la utilización
existía bastante concordancia si se consideraban de métodos anticonceptivos durante 2 semanas o
sólo como «normal-anormal», pero cuando se soli- más después del último período menstrual, fue mu-
citaba el diagnóstico exacto de los resultados anor- cho más exacta en los casos que en los controles.
males la concordancia disminuyó sensiblemente. Estos resultados indican que el sesgo de memo-
Las displasias eran clasificadas a menudo por las ria puede estar presente en algunas exposiciones y
pacientes como cáncer, y viceversa. Las diferencias no en otras. Este hecho no es sorprendente, y pro-
pueden deberse a que el médico ha proporcionado bablemente se deba a una mezcla de memoria,
una información deficiente o incompleta, o simple- emoción e impresiones de las personas sobre los
mente a que las pacientes no reconocen las dife- riesgos asociados a un determinado factor. Sin
rencias entre una displasia y una neoplasia invasiva. embargo, es muy difícil poder determinar a priori
Cuando los autores calcularon los resultados por qué exposiciones son susceptibles a un sesgo de
separado para los casos y los controles, se observó memoria.
que en los primeros los datos eran más concordan- La probabilidad de que se produzca este sesgo
tes que en los segundos. Los casos estaban quizá aumenta cuando se recoge información sobre va-
más motivados para responder a este tipo de pre- rios factores de forma simultánea. Puede intentarse
guntas debido a que padecían una enfermedad prevenir seleccionando como controles pacientes
grave. Además, es muy posible que les hicieran pre- con enfermedades similares a la de estudio. Por
guntas similares mientras duraba el proceso ejemplo, en el caso de estudiar un determinado
diagnóstico, y de este modo tuvieran más tiempo de tipo de cáncer, el grupo control estaría formado
considerar sus respuestas. por pacientes con otros cánceres, o, si la enferme-
dad de interés es una malformación determinada,
S ESGO DE MEMORIA estaría constituido por madres de niños con otras
Los estudios de casos y controles se han criticado malformaciones. Si se adopta esta estrategia hay
muy a menudo a causa de que la información sobre que tener la seguridad de que la exposición en estu-
la exposición se recoge retrospectivamente y, de dio no está relacionada con las enfermedades que
este modo, se facilita la posibilidad de incurrir en componen el grupo control, porque de otro modo
un sesgo de memoria. Este sesgo suele ocurrir se incurriría en un sesgo de selección.
en enfermedades graves y/o cuando suponen un
fuerte trauma psicológico, como las malformacio- S ESGO DEL ENTREVISTADOR
nes congénitas. En estas circunstancias es muy posi- Puede aparecer siempre que el encuestador (u ob-
ble que los casos recuerden sus antecedentes perso- servador, en general) tenga conocimiento del gru-
nales con mucho más detalle que los controles, al po al que pertenece el sujeto al que está entrevis-
estar más sensibilizados por la enfermedad y por- tando y del objetivo del estudio. A la mayoría de los
que sus médicos les habrán preguntado con insis- investigadores les gusta obtener resultados positivos
tencia por ellos. La presencia y la magnitud de este y, de forma involuntaria, pueden preguntar con más
sesgo varían según la exposición. detalle e insistencia a los casos que a los controles.
Por ello, cuando la información se recoge a través
Ejemplo 8.11. En un estudio cuyo objetivo era eva- de un cuestionario y siempre que los recursos lo per-
luar su presencia en madres de niños con malfor- mitan, es preferible que el encuestador sea alguien
maciones congénitas, se obtuvo información me- ajeno al equipo que ha diseñado el protocolo.
84
ESTUDIOS DE CASOS Y CONTROLES
La forma de evitar este problema es que el en- conduce al diagnóstico precoz con independencia
cuestador no sepa si entrevista a un caso o a un de que el tratamiento aplicado tempranamente sea
control. Sin embargo, esto puede ser difícil de con- o no eficaz. En consecuencia, la población some-
seguir cuando los controles son personas sanas. tida con regularidad a algún tipo de técnica de de-
Además, es muy posible que los casos antes o duran- tección precoz tendrá una alta frecuencia de casos
te la entrevista digan alguna frase o comentario que descubiertos durante el intervalo de detección (pe-
haga sospechar al encuestador. De todos modos, ríodo de tiempo transcurrido entre la detección de
siempre que sea posible se intentará que los entre- la enfermedad por cribado y el momento en que
vistadores permanezcan «ciegos» al grupo al que habría sido diagnosticada por los cuidados médicos
pertenece cada persona, e igualmente que no co- habituales en ausencia del cribado). Si una persona
nozcan la hipótesis que se está evaluando. se considera caso en función de una característica
de la enfermedad que se manifiesta durante ese in-
ESTUDIOS DE CASOS Y CONTROLES tervalo, habrá un exceso de casos detectados por
QUE EVALÚAN MEDIDAS PREVENTIVAS cribado y, por consiguiente, se enmascarará su posi-
ble efecto beneficioso.
Existen medidas preventivas muy utilizadas y acep-
Es necesario que los casos se elijan en función
tadas tanto por la población como por los profesio-
de las manifestaciones que desarrollen después del
nales sanitarios que nunca se han evaluado median-
te un ensayo clínico. Por ejemplo, aunque se han intervalo de detección. Una variable de respuesta
publicado multitud de estudios que sugieren la que cumple esta condición es la mortalidad. El gru-
efectividad del cribado para reducir la mortalidad po de casos lo formarían aquellos individuos que
por cáncer de cuello uterino, la mayoría de los murieron de la enfermedad y que se diagnosticaron
resultados se sostienen en la comparación de las como resultado del despistaje, así como los que
tasas entre poblaciones con diferente intensidad en murieron y la enfermedad se descubrió cuando ya
sus programas de cribado o de una misma pobla- había dado síntomas. En el grupo control se
ción durante distintos períodos de tiempo. Dada la incluirían todos los miembros vivos (personas que
probabilidad de sesgo en los resultados de estos no han padecido nunca la enfermedad más aque-
estudios, se podría dudar de que la relación entre la llos que sí la padecen) de la población de donde
aplicación de un programa de despistaje y la reduc- proceden los casos. A simple vista puede parecer
ción de la mortalidad por cáncer de cuello fuera extraño incluir a individuos con la enfermedad en
causal. Aunque la evidencia debería proporcionar- el grupo control, pero si el diagnóstico temprano es
la un ensayo clínico, la realización de este estudio eficaz lo más probable es que las personas que
es difícil ya que el cribado está considerado, tanto sepan que padecen la enfermedad hayan sido
por el público general como por los profesionales sometidas a cribado. Si estos individuos se excluye-
sanitarios, como una prueba útil. ran de forma sistemática se tendería a reducir la
Cuando la práctica de un método de cribado es estimación del efecto protector del cribado.
muy frecuente, se puede utilizar el diseño de casos En ocasiones no es sencillo recoger la historia de
y controles para evaluar su eficacia. Si la medida es exposición de los registros de los casos que han
eficaz para prevenir una enfermedad y se ha aplica- muerto. En esta situación se pueden elegir como
do en una población concreta, los individuos que la casos a los individuos que se encuentran en estadios
componen y que mueran a causa de esta enferme- avanzados de la enfermedad. El grupo control
dad deberían haberse sometido a cribado con me- estará formado por todas aquellas personas de la
nos frecuencia que el resto de la población. Así población de donde procedan los casos pero que
pues, la comparación entre la historia de cribado no tengan la característica que los define, es decir,
de los casos que mueren por la enfermedad y la de que no padezcan la enfermedad en estadios avan-
los controles da una estimación del efecto protec- zados. Ello significa que entre los individuos poten-
tor del cribado. cialmente elegibles habrá personas sin la enferme-
Los estudios de casos y controles que evalúan la dad, con independencia de si se les han aplicado o
eficacia de un método de cribado tienen caracterís- no medidas preventivas, y otras en las que la enfer-
ticas propias. En primer lugar, el cribado está impli- medad estará menos avanzada, se haya o no descu-
cado directamente en el propio proceso, ya que bierto después de un cribado.
85
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Sin embargo, un error frecuente es elegir como por la proporción que existe en la comunidad. Una
grupo control sólo a pacientes con manifestaciones excepción son los estudios poblacionales en los que
poco avanzadas de la enfermedad y comparar su his- se asume que la tasa del grupo control es represen-
toria de exposición con la del grupo de casos. Esta tativa de toda la población y además se conoce su
comparación no es apropiada, ya que con toda pro- incidencia. A partir de esta información puede
babilidad su historia de cribado no será representati- calcularse la incidencia en el grupo expuesto y no
va de la población de donde provienen los casos. En expuesto (tabla 8.3). Los estudios de casos y con-
la mayoría de las ocasiones la enfermedad se habrá troles permiten estimar directamente el riesgo de
detectado gracias al cribado, por lo que su exposi- padecer una enfermedad asociado a un determina-
ción será superior, en promedio, a la de la población. do factor de riesgo.
La tabla 8.4 resume las ventajas y limitaciones de
estos estudios. En general, en la exploración inicial
VENTAJAS Y LIMITACIONES de una hipótesis son mucho más útiles los estudios
DE LOS ESTUDIOS DE CASOS de casos y controles por su eficiencia en tiempo,
Y CONTROLES coste y posibilidad de estudiar varios factores de
La mayor ventaja de los estudios de casos y contro- forma simultánea. En el caso de que se requiera una
les es el grado de información que ofrecen, ya que mayor evidencia, los estudios de cohortes, siempre
se pueden estudiar un gran número de casos de que sean factibles, ofrecen datos sobre la evaluación
una enfermedad, mientras que en un estudio de co- de una asociación de una manera más directa y con
hortes sólo unos pocos la desarrollarán. Esta venta- una metodología distinta a la aplicada a los estudios
ja se ve acrecentada cuando se estudian enfermeda- de casos y controles.
des poco frecuentes. Además, permiten evaluar
varios factores de riesgo de forma simultánea y la
DISEÑOS HÍBRIDOS
existencia de interacciones entre ellos.
Una segunda ventaja es su eficiencia, ya que se Los diseños híbridos tienen características tanto de
realizan en mucho menos tiempo y con un coste los estudios de cohortes como de los de casos y con-
menor que los estudios de cohortes, al no tener que troles, pero obvian algunas de sus desventajas. Se
seguir a los pacientes durante el período de laten- caracterizan por analizar todos los casos aparecidos
cia de la enfermedad. en una cohorte estable seguida en el tiempo y utili-
Por último, permiten estudiar exposiciones que zar como controles sólo una muestra de los sujetos
son raras en la población general, siempre y cuan- de esa misma cohorte. Según el plan de muestreo
do estén asociadas a la enfermedad en estudio. Por que se utilice para constituir los grupos a partir de
ejemplo, la exposición a las anilinas es rara en la po- los componentes de la cohorte, pueden diferen-
blación general, pero está relacionada con el cán- ciarse dos tipos generales de diseños: estudios de
cer de vejiga, por lo que es una exposición que po- casos y controles anidados dentro de una cohorte y
drá investigarse de manera eficiente mediante un estudios de cohorte y casos.
estudio de casos y controles. Dado que la incidencia de la mayor parte de los
Su limitación más importante es que son muy enfermedades que se estudian es relativamente
susceptibles a la introducción de sesgos tanto en la baja, interesa seleccionar todos los casos que apare-
selección de los grupos como en la información cen en la cohorte, aunque podría utilizarse cual-
que se obtiene sobre los factores de riesgo. Los estu- quier otra fracción de muestreo. Por el contrario,
dios de cohortes, al elegir la población a partir de la los controles serán una muestra de sujetos proce-
exposición, están menos sujetos a la introducción dentes de la cohorte inicial, con lo que se pierde
de errores sistemáticos. precisión estadística; sin embargo, este hecho se
Los estudios de casos y controles no proporcio- compensa por la considerable reducción en el
nan una estimación directa de la incidencia ni de la número de sujetos estudiados y del coste en la reco-
prevalencia de una enfermedad, ya que la propor- gida de datos y el tiempo de seguimiento, y por un
ción de los participantes en el estudio que tienen la mayor control de calidad de la recogida y procesa-
exposición está determinada por el investigador, no miento de los datos.
86
ESTUDIOS DE CASOS Y CONTROLES
Tabla 8.3. Cálculo de las tasas de incidencia a partir de un estudio de casos y controles
Para el cálculo de las tasas de incidencia es imprescindible conocer la incidencia de la enfermedad en toda la
población (p. ej., a partir de registros de enfermedad) y asumir que la prevalencia de exposición en el grupo
control es representativa de toda la población
La incidencia en toda la población (It) es igual a la media ponderada de las incidencias según varios grados de
exposición, y el factor de ponderación es la proporción de individuos en cada grado. De este modo, la It es la
suma de la incidencia en el grupo expuesto (le) multiplicado por la proporción de expuestos en toda la
población (Pe) y de la incidencia en el grupo no expuesto (Io) multiplicado por la proporción de no expuestos
en la población (Po)
It = (Ie ⫻ Pe) ⫹ (Io ⫻ Po)
Dado que el riesgo relativo (RR) es la razón de incidencias entre el grupo expuesto y el no expuesto,
la incidencia en el grupo expuesto será igual a:
Ie = RR ⫻ Io
Por tanto:
It = (RR ⫻ Io ⫻ Pe) ⫹ (Io ⫻ Po)
En un estudio de casos y controles, la RR se puede sustituir por la odds ratio (OR):
It = (OR ⫻ Io ⫻ Pe) ⫹ (Io ⫻ Po)
Despejando, se obtendrá la incidencia en el grupo no expuesto (Io)
It
Io =
(OR ⫻ Pe) ⫹ Po
Una vez calculada la incidencia en el grupo no expuesto, basta multiplicarla por la OR y se obtendrá
la incidencia en el grupo expuesto
87
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
que son seguidas durante un período de tiempo, y no podrá analizarse como si se tratara de un estudio
el hecho de que la información sobre los factores de cohorte tradicional.
de riesgo de interés y las variables principales se La misma subcohorte puede servir de grupo de
han recogido al inicio del seguimiento, de forma comparación para el estudio de diversas enfermeda-
prospectiva y antes de que se desarrolle la enferme- des. Si se deseara estudiar la relación entre determi-
dad, lo que elimina algunos sesgos de información nados factores de riesgo y la aparición de dos enfer-
que hubieran podido aparecer si se hubiera utiliza- medades bastaría con comparar los casos de cada
do un diseño clásico de casos y controles. Además, enfermedad con la misma subcohorte seleccionada.
comparten con los de casos y controles el plan de Este diseño permite determinar las tasas de inci-
muestreo: se recogen todos los casos de la enferme- dencia de la enfermedad y no sólo el riesgo relativo.
dad y una muestra de controles representativa de la
población de la que proceden los casos con riesgo Ejemplo 8.13. Un ejemplo de diseño de cohorte y
de enfermedad, pero que en el momento en que se casos es un estudio que estimaba la relación entre
seleccionaron como controles aún no la habían el consumo de alcohol y el desarrollo de cáncer de
desarrollado. mama (Van der Brandt et al, 1995). La cohorte ini-
cial estaba constituida por 62.573 mujeres entre
Ejemplo 8.12. Un ejemplo de un estudio de casos y 55 y 69 años de edad en las que se evaluaban aspec-
controles anidado es un estudio que investigaba la tos relacionados con la dieta y el cáncer. Los inves-
relación entre las concentraciones séricas de coles- tigadores seleccionaron de forma aleatoria una sub-
terol y el cáncer de colon (Sidney et al, 1986). La cohorte de 1.812 mujeres, que fueron seguidas
cohorte en que se anidaba el estudio consistía en bianualmente para recoger información detallada
48.314 individuos a los que se había practicado un sobre covariables de interés. Los casos fueron las
examen de salud, y que fueron seguidos durante 422 mujeres que desarrollaron cáncer de mama
un período promedio de 7,2 años (más de 348.000 durante el seguimiento de la cohorte inicial. Estos
personas-año) para observar el desarrollo de cán- casos podían proceder de la subcohorte o de la co-
cer de colon. Los 245 individuos de la cohorte que horte inicial. Nótese que se ha podido recoger in-
desarrollaron la enfermedad se consideraron casos, formación más exacta y detallada de 1.812 mujeres
y, para cada uno de ellos se seleccionaron cinco que de las 62.573 de la cohorte inicial. Además,
controles. Los casos y los controles se emparejaron estas 1.812 mujeres pueden servir de denominador
por la edad, el sexo y el tiempo transcurrido desde no sólo para evaluar hipótesis relacionadas con el
el primer examen. En lugar de tener que analizar el cáncer de mama sino con otros tipos de cáncer.
colesterol y otras variables en todos los miembros La elección de una u otra alternativa de diseño
de la cohorte, los investigadores concentraron to- depende sobre todo del tipo de datos que el inves-
dos sus esfuerzos en los 245 casos y sus controles, tigador necesita procesar. Si el procesamiento o
una muestra mucho más pequeña y asequible. ciertas características de los datos cambian con el
tiempo, son más ventajosos los diseños anidados.
E STUDIOS DE COHORTE Y CASOS Por el contrario, si se puede asumir la estabilidad
En estos estudios se selecciona aleatoriamente una de la información en el tiempo, la posibilidad de es-
muestra (subcohorte) de la cohorte inicial, que ser- tudiar múltiples enfermedades con el mismo grupo
virá como grupo de comparación para todos los de comparación hace que los diseños de cohorte y
casos que aparezcan durante el seguimiento, con casos sean de elección.
independencia de si ya pertenecían o no a la sub-
cohorte. En resumen, se eligen todos los casos de
la cohorte inicial aparecidos durante el seguimien-
B IBLIOGRAFÍA DE LOS EJEMPLOS
Colditz G, Bonita R, Stampfer M et al. Cigarette smoking
to, y su información se compara con la procedente and risk of stroke in middle aged women. N Engl J Med
de una muestra de la cohorte inicial. Lo que se per- 1988; 318: 937-941.
sigue es obtener una nueva cohorte, con menos González CA, López Abente G, Errezola M et al. Diseño y
sujetos que la inicial, en la que los casos están sobre- realización de un estudio multicéntrico caso control
rrepresentados. Esta sobrerrepresentación de los sobre cáncer de vejiga en España. Med Clin (Barc) 1989;
casos debe tenerse en cuenta en el análisis, ya que 92: 646-651.
88
ESTUDIOS DE CASOS Y CONTROLES
Sidney S, Friedman GD, Hiatt RA. Serum cholesterol and Maclure M, Schneeweiss S. Causation of bias: the episcope.
large bowel cancer. Am J Epidemiol 1986; 124: 33-38. Epidemiology 2001; 12: 114-122.
Van der Brandt PA, Goldbohm RA, Van’t Veer P. Alcohol and Miller AB. Hospital or population controls? It depends on
breast cancer: results from the Netherlands Cohort Stu- the question. Prev Med 1994; 23: 263-266.
dy. Am J Epidemiol 1995; 141: 907-915. Morabia A. Case-control studies in clinical research: mecha-
Walter SD, Clarke EA, Hatcher J, Stitt LW. A comparison of nism and prevention of selection bias. Prev Med 1997;
physician and patient of reports of pap smears histories. 26: 674-677.
J Clin Epidemiol 1988; 4: 401-410. Schlesselman JJ. Case-control studies: design, conduct, ana-
Werler M, Pober B, Nelson K, Holmes L. Reporting accuracy lysis. Nueva York: Oxford University Press, 1982.
among mothers of malformed and nonmalformed in- Schulz KF, Grimes D. Case-control studies: research in rever-
fants. Am J Epidemiol 1989; 129: 415-421. se. Lancet 2002; 359: 431-434.
Sturmer T, Brenner H. Degree of matching and gain in po-
B IBLIOGRAFÍA wer and efficiency in case-control studies. Epidemiology
Bland JM, Altman DG. The odds ratio. BMJ 2000; 320: 1468. 2001; 12: 101-108.
Delgado-Rodríguez M. Discordancias entre los estudios de ám- Thompson WD. Statistical analysis of case-control studies.
bitos hospitalario y comunitario cuando evalúan la misma Epidemiol Rev 1994; 16: 33-50.
pregunta de investigación. Gac Sanit 2002; 16: 344-353. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
Delgado-Rodríguez M, Sillero M. Revisión: diseños híbridos Selection of controls in case-control studies. I. Principles.
de estudios de cohortes y de estudios de casos y contro- Am J Epidemiol 1992; 135: 1019-1028.
les. Gac Sanit 1995; 9: 42-52. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
Grimes DA, Schulz KF. Bias and causal associations in obser- Selection of controls in case-control studies. II. Types of
vational research. Lancet 2002; 359: 248-252. controls. Am J Epidemiol 1992; 135: 1029-1041.
Hosek RS, Flanders WD, Sasco AJ. Bias in case-control stu- Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
dies of screening effectiveness. Am J Epidemiol 1996; Selection of controls in case-control studies. III. Design
143: 193-201. options. Am J Epidemiol 1992; 135: 1042-1050.
89
Capítulo 9
Estudios descriptivos
as principales finalidades de los estudios des- En ocasiones, los diseños transversales se utilizan
90
ESTUDIOS DESCRIPTIVOS
que la obesidad comporta una sobrecarga mecánica de supervivencia que conduzca a estimaciones sesga-
sobre la articulación, y acelera de este modo el dete- das de la relación entre algunas variables y la enfer-
rioro del cartílago. Por otro lado, hay autores que medad (fig. 9.2).
piensan que la obesidad es una consecuencia, más
que la causa de la artrosis, ya que ésta, al producir Ejemplo 9.2. En un estudio se compararon las carac-
una limitación de la movilidad y el ejercicio, proba- terísticas clínicas de 1.135 pacientes recién diagnosti-
blemente conduce a la obesidad. Como comentan cados de diabetes mellitus desde 1945 hasta 1969,
los autores, los datos sólo sugieren que la obesidad con la de los casos prevalentes en el año 1970 en esta
es una causa, ya que con un estudio transversal, la misma comunidad, con los siguientes resultados
hipótesis de que la obesidad antecede a la aparición (Melton et al, 1983): los pacientes prevalentes tenían
de la artrosis no puede probarse, porque ambas va- mayor edad y la relación hombre/mujer era menor
riables se miden a la vez. que la observada en los casos incidentes. Además, los
casos prevalentes presentaban una mayor probabili-
Cuando una de las variables es la presencia de una dad de tomar hipoglucemiantes orales, tenían valores
enfermedad, hay que tener en cuenta que se estudian de glucosa en ayunas menores, menor probabilidad de
casos prevalentes y que, por tanto, existe una mayor estar sintomáticos, pero mayor probabilidad de pade-
proporción de casos con enfermedad de larga dura- cer complicaciones macrovasculares y microvascula-
ción (fig. 9.1). Si las características de los individuos res. Estas diferencias eran el resultado de la diferente
cuya enfermedad es de corta duración o rápidamen- tasa de supervivencia. Por todo ello, los resultados de
te mortal son diferentes de aquellas en que la enfer- los estudios de asociación cruzada se han de inter-
medad es de larga duración, puede existir un sesgo pretar con suma cautela.
Casos
Momento en el tiempo
Inicio de la enfermedad en el que se realiza el estudio
Duración de la enfermedad
Curación, remisión o evolución fatal de la enfermedad
91
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Pérdidas (cambio
de residencia, etc.)
Defunciones
Figura 9.2. Diferencias entre
Curaciones casos prevalentes y casos inci-
dentes.
Las ventajas y desventajas de estos estudios se resu- Tabla 9.1. Ventajas y desventajas
men en la tabla 9.1. de los estudios de prevalencia
y asociación cruzada
CARACTERÍSTICAS DE LA ENFERMEDAD
La enfermedad estudiada debe ser de inicio lento y Ventajas
de larga duración, ya que, en caso contrario, existirán
• Suelen estudiar muestras representativas
pocos individuos que la padezcan en un momento de la población de estudio, lo que facilita
determinado. Estos estudios no son útiles en el caso la extrapolación de resultados
de enfermedades poco frecuentes, ya que para en-
• Se pueden estudiar varias enfermedades
contrar un número suficiente de casos debería reco-
o factores de riesgo en un solo estudio
gerse información de una gran cantidad de personas.
Las variables estudiadas deben ser fácilmente me- • Se realizan en un corto período de tiempo
dibles a través de cuestionarios o exámenes médicos • Permiten estimar la prevalencia y ayudan
simples y seguros, ya que se estudia una muestra de la a la planificación de los servicios sanitarios
población que en su mayoría no tendrá la enferme- • Son un primer paso en la realización de muchos
dad, por lo que no pueden usarse métodos que estudios prospectivos
supongan algún riesgo para los participantes. Las
pruebas deben ser lo más sensibles y específicas posi- Desventajas
ble para evitar la clasificación incorrecta de sujetos en • Falta de una secuencia temporal (dificultades
situación de remisión o en tratamiento. para evaluar relaciones causa-efecto)
• No son útiles para enfermedades poco frecuentes
Ejemplo 9.3. Si se desea conocer la prevalencia de la
hipertensión arterial (HTA) en una población y ésta • Posibilidad de que exista un sesgo de supervivencia
se define a partir de un determinado grado de pre- en los estudios de asociación cruzada
sión arterial, es posible que muchos individuos ya • Posibilidad de sesgo debido a las no respuestas
diagnosticados y tratados presenten cifras inferiores a
92
ESTUDIOS DESCRIPTIVOS
las de referencia para definir la HTA. Si esto no se datos del estudio son válidos, e interpretarlos de
tiene en cuenta, se infraestimará la verdadera preva- forma correcta.
lencia de la enfermedad. Por otro lado, la considera-
ción de hipertensos por el mero hecho de estar en
SERIES DE CASOS
tratamiento también puede tener sus inconvenientes,
ya que probablemente no han seguido los mismos Las series de casos transversales consisten en la enume-
criterios diagnósticos que se han establecido para la ración descriptiva de unas características selecciona-
realización del estudio. das, observadas en un momento del tiempo, en un
grupo de pacientes con una enfermedad determina-
N O RESPUESTAS da o en un grupo de sujetos que tienen una determi-
Si la prevalencia entre los que no participan difiere nada condición en común. Por ejemplo, describir las
de la de los que sí lo hacen, se producirá un sesgo en cifras actuales de presión arterial, colesterol y otros
la estimación del resultado. factores de riesgo cardiovascular en los diabéticos del
centro de salud.
Ejemplo 9.4. La tabla 9.2 recoge los resultados de un En las series de casos longitudinales o seguimiento de
ejemplo hipotético. Se observa que la prevalencia una cohorte se describe la evolución temporal de
estimada de hipercolesterolemia sería del 15% si determinadas características observadas en un grupo
sólo se tuvieran en cuenta los resultados de los par- de pacientes con una enfermedad o en un grupo de
ticipantes. Sin embargo, la prevalencia real en el sujetos que tienen una determinada condición en
total de la muestra es del 21%. Las diferencias apa- común. Existe una secuencia temporal definida, pero
recen porque el 30% de las no respuestas padecía la el estudio no evalúa ninguna relación causa-efecto
enfermedad. entre las variables.
93
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
los abandonos durante el seguimiento. Si los motivos menos graves. Por esta razón, en el grupo de estudio
por los que se producen están relacionados con el se han de incluir pacientes con diferentes estados clí-
problema estudiado, es decir, si la incidencia o el nicos y patológicos de la enfermedad. Así mismo, es
pronóstico es distinto entre los que abandonan y los importante que no se excluyan aquellos sujetos que
que no lo hacen, se obtendrá una estimación sesgada se encuentren en el límite diagnóstico.
del resultado. El grupo de no enfermos permite determinar los
falsos positivos. En este grupo se deben incluir indivi-
duos que tengan enfermedades que planteen proble-
ESTUDIOS QUE EVALÚAN
mas de diagnóstico diferencial con los pacientes del
UNA PRUEBA DIAGNÓSTICA
otro grupo. Si se incluyen sólo individuos sanos, exis-
El objetivo de estos estudios es estimar la capacidad te el peligro de encontrar un número menor de fal-
de una medida (prueba diagnóstica) para discrimi- sos positivos, lo que se traduce en una especificidad
nar entre las personas que padecen una enfermedad de la prueba más elevada.
y aquellas que no la padecen, pero presentan unos Existen diferentes estrategias para seleccionar la
síntomas similares. Se asume que el problema de muestra o las muestras de individuos que se incluirán
salud puede medirse de forma válida y fiable median- en el estudio.
te un procedimiento de referencia o gold standard
(estándar de oro) y se desea evaluar la utilidad de Selección de una sola muestra
una nueva prueba. Consiste en seleccionar una única muestra represen-
La estrategia de investigación consiste en aplicar tativa de los sujetos a los que en la práctica se les apli-
en una muestra de individuos tanto el criterio de caría la prueba para realizar el diagnóstico de la
referencia como la prueba en estudio. El primero enfermedad, y aplicar a todos ellos el criterio de refe-
permitirá diferenciar los sujetos que padecen la rencia y la nueva prueba simultáneamente. Esta estra-
enfermedad de los que no la padecen, de forma que tegia utiliza un diseño transversal muy similar al de
se podrá evaluar la capacidad de la nueva prueba los estudios de asociación cruzada.
diagnóstica para discriminar entre ambos grupos.
Los resultados permiten clasificar a los sujetos estu- Ejemplo 9.5. Un estudio tenía por objetivo evaluar
diados en cuatro grupos en una tabla 2 ⫻ 2, a partir qué variables clínicas y analíticas discriminaban a los
de la que se calculan la sensibilidad, la especificidad y pacientes que presentaban neumonía. Se selecciona-
otros índices de utilidad (anexo 3). ron 141 pacientes consecutivos que habían ingresa-
Previamente al inicio del estudio, debe evaluarse do en urgencias en un hospital con fiebre de más de
la reproducibilidad de la prueba, es decir, si produce 38 °C en las últimas 48 horas tanto si tenían síntomas
los mismos resultados cuando se aplica en más de respiratorios como si no tenían ninguna focalidad.
una ocasión a pacientes estables. Una pobre repro- A estos 141 pacientes se les midieron las variables clí-
ducibilidad puede deberse a la propia naturaleza de nicas y analíticas de interés y, a continuación, se les
la prueba, o a que se requiere habilidad en su realiza- aplicó el criterio de referencia para clasificarlos en
ción o en la interpretación clínica de los resultados, enfermos (sujetos con neumonía) y no enfermos
sobre todo en aquellas pruebas cuyos resultados (sujetos sin neumonía).
dependen de la subjetividad del observador. Una
prueba poco reproducible puede afectar de forma Esta estrategia tiene ventajas de validez porque,
grave la validez de los resultados. una vez definidos los criterios de selección de la po-
blación de estudio, es de esperar que se encuentren
S ELECCIÓN DE LOS SUJETOS individuos con un espectro amplio de la enfermedad,
Los pacientes en los que se evalúa una nueva prueba así como sujetos con signos y síntomas que impliquen
no han de diferir sustancialmente de la población a la un diagnóstico diferencial. Sin embargo, al tener que
que se aplicará en la práctica clínica. Si se estudiaran administrar a todos los pacientes la nueva prueba y el
sólo aquellos que presentasen un proceso más grave, criterio de referencia, el estudio puede resultar muy
o más extenso, la nueva prueba daría más resultados caro si el tamaño muestral requerido es muy amplio.
positivos que si el grupo lo compusieran pacientes Además, en determinadas ocasiones, la aplicación del
94
ESTUDIOS DESCRIPTIVOS
criterio de referencia puede suponer riesgos excesi- eficiente, de los cocientes de probabilidad y de las
vos, lo que puede plantear problemas si debe aplicar- curvas ROC, dificulta la estimación de los valores
se a un número elevado de sujetos. predictivos (anexo 3), ya que éstos dependen de la
prevalencia de la enfermedad, y ésta depende del
Selección de dos muestras número de sujetos incluidos en cada grupo.
a partir del diagnóstico Respecto a la anterior, esta estrategia tiene una
Se parte de dos grupos, uno formado por pacientes mejor relación coste-efectividad, si el coste de las
con la enfermedad diagnosticada a partir del criterio pruebas es elevado. Por tanto, es el diseño a conside-
de referencia y otro formado por individuos sin ella. rar cuando se trata de evaluar exploraciones de alta
A todos ellos se les aplica la prueba en estudio y se tecnología.
comparan los resultados obtenidos. Este diseño es
similar al de los estudios de casos y controles, en el Selección de dos muestras a partir
sentido de que la enfermedad clasifica a los sujetos y del resultado de la prueba
la prueba se explora a continuación. Se parte de un grupo de individuos a los que se apli-
Como se ha comentado, es importante que en el ca la nueva prueba, y se obtienen dos subgrupos de
grupo control se incluyan pacientes con situaciones sujetos: uno con resultado positivo y otro con resulta-
que planteen problemas de diagnóstico diferencial do negativo. A continuación se aplica a cada subgru-
con la enfermedad en estudio. Por ejemplo, si se po el criterio de referencia para comprobar la exis-
desea evaluar una prueba diagnóstica del cáncer de tencia de enfermedad. Esta estrategia se asemeja más
colon, el grupo control debería incluir pacientes con a un estudio de cohortes. Tiene la ventaja de que los
enfermedades como la colitis ulcerosa o la enferme- valores predictivos pueden calcularse directamente,
dad de Crohn que pueden plantear problemas pero dificulta la estimación de la sensibilidad y la
diagnósticos con el cáncer de colon, así como pacien- especificidad.
tes con otros tipos de cáncer.
S ELECCIÓN DEL CRITERIO
Ejemplo 9.6. Cuando se evaluó originalmente el antí- DE REFERENCIA
geno carcinoembrionario (CEA, según sus siglas en El criterio de referencia se utiliza para diferenciar
inglés) en el diagnóstico precoz del cáncer de colon entre enfermos y no enfermos y, por tanto, corres-
se hizo en 36 pacientes con cáncer en grado avanzado ponde a la «verdad» contra la que se va a comparar la
y la prueba resultó positiva en 35 de ellos (Thomson nueva prueba diagnóstica. Por ello, es muy importan-
et al, 1969). Al mismo tiempo, se observó que los valo- te definir con claridad la enfermedad o problema de
res de CEA eran mucho más bajos en sujetos asin- salud que se desea estudiar y elegir el criterio de refe-
tomáticos. Los resultados sugerían que el CEA podía rencia adecuado.
ser útil en el diagnóstico del cáncer colorrectal. En
estudios posteriores, realizados en pacientes con cán- Ejemplo 9.7. Para estudiar la enfermedad coronaria,
cer colorrectal en estadios no tan avanzados, compa- pueden distinguirse tres posibles conceptos: enfer-
rando los resultados con los obtenidos en otros cán- medad coronaria aterosclerosa, que es un concepto
ceres gastrointestinales, el CEA mostró una validez anatómico; angina de pecho, que es un concepto clí-
mucho menor y se dejó de utilizar como prueba de nico, o isquemia miocárdica, que es un concepto fi-
cribado (Bates, 1991). siopatológico. Los tres están muy relacionados, aun-
que no son exactamente idénticos. Cada uno de ellos
Con esta estrategia, la prevalencia de la enferme- puede ser medido a través de un criterio de referen-
dad en la población de estudio (la relación entre el cia distinto. Por ejemplo, para la enfermedad coro-
grupo de enfermos y el de no enfermos) puede ser naria aterosclerosa, el criterio debería ser anatomo-
muy diferente de la que existe en la práctica. Así, por patológico; para la angina de pecho, sería un juicio
ejemplo, si se incluye el mismo número de enfermos clínico realizado preferiblemente por un panel de
que de no enfermos, la prevalencia en los sujetos expertos tras una historia clínica, y para la isquemia
estudiados es del 50%. Si bien permite la determina- miocárdica, el mejor método sería el resultado de las
ción de la sensibilidad, de la especificidad de forma determinaciones metabólicas en el seno coronario.
95
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
96
ESTUDIOS DESCRIPTIVOS
var si aparece la enfermedad en estudio, y detectar así En un estudio que evalúa la fiabilidad, no siempre
errores de clasificación. se estudian todas las posibles fuentes de variación.
El criterio de referencia debe aplicarse de forma Por ejemplo, al evaluar la fiabilidad de un método de
ciega para que el evaluador no tenga conocimiento medición automática de la presión arterial, en el que
del resultado de la prueba que se está evaluando y evi- el propio aparato proporciona la cifra de presión
tar así sesgos de información. Del mismo modo, la arterial, no tiene sentido evaluar la concordancia
aplicación de la prueba y la interpretación de los intra e interobservador. De la misma forma, en un
resultados deben ser ciegos e independientes del cri- estudio que evalúe la fiabilidad de una prueba cruen-
terio de referencia. Los resultados obtenidos no ta con riesgos potenciales para el paciente, no podría
deben conducir a verificaciones en caso de discordan- evaluarse la repetibilidad, ya que no sería ético reali-
cia con el criterio de referencia, ya que se produciría zar la prueba en más de una ocasión.
un sesgo aumentando la sensibilidad y la especificidad Los sujetos incluidos en el estudio deben ser una
de la prueba. Las técnicas de enmascaramiento impi- muestra representativa de la población a la que se
den que se produzca un sesgo de sospecha diagnóstica. piensa aplicar la medida y cubrir un amplio rango de
Otra posibilidad de error aparece cuando los valores de la variable que se desea medir, para poder
resultados de la prueba son dudosos o están en el evaluar la fiabilidad durante todo su recorrido.
límite de la normalidad. Al calcular la sensibilidad y En el anexo 4 se presentan los índices que evalúan
la especificidad (anexo 3), si no se incluyen estos la concordancia entre medidas.
resultados indeterminados en el denominador, pue-
den obtenerse estimaciones sesgadas de estos índices. R EPETIBILIDAD
La evaluación de la repetibilidad tiene por objetivo
ESTUDIOS DE CONCORDANCIA determinar si una prueba da los mismos resultados o
similares, cuando se aplica a una misma persona en
Estos estudios se realizan con la finalidad de evaluar
más de una ocasión. Requiere que las condiciones de
si un aparato de medida o un cuestionario, por ejem-
aplicación sean iguales en todas las ocasiones.
plo, son fiables, o si dos observadores concuerdan en
El hecho de aplicar la misma prueba en más de una
la medición de una variable.
ocasión en la misma muestra de individuos conlleva
La medición de un fenómeno está sujeta a dife-
rentes fuentes de variación, a menudo difíciles de algunos problemas. En primer lugar, algunas de las
diferenciar en la práctica: individual, del instrumen- características pueden variar con el tiempo. Es el caso
to y del observador. Cuando se evalúa la fiabilidad de de la medida del estado físico o de la salud de una per-
una medida, deben estudiarse diferentes aspectos: sona; cuanto más tiempo transcurra entre ambas prue-
bas mayor es la probabilidad de que hayan ocurrido
– Repetibilidad de la medida. Su evaluación requiere cambios reales en su estado de salud, o de que su opi-
aplicar el método de medida de la misma manera y nión o actitud hacia un problema de salud haya cam-
a los mismos sujetos en dos o más momentos del biado. En esta situación, la fiabilidad de la prueba será
tiempo (fiabilidad test-retest). infravalorada. Esta dificultad se puede subsanar, al
– Concordancia intraobservador. Su evaluación requiere menos parcialmente, efectuando la segunda medición
que un mismo observador valore en dos o más oca- poco tiempo después de la primera. Sin embargo, si el
siones a los mismos sujetos. intervalo de tiempo entre la aplicación de las dos prue-
– Concordancia interobservador. Su evaluación requiere bas es corto, es posible que el resultado obtenido en
que dos o más observadores valoren una misma la segunda ocasión esté influido por el aprendizaje
prueba en una muestra de sujetos. adquirido la primera vez, en cuyo caso ambas medicio-
nes no serán independientes y el coeficiente de fiabili-
Una medida ha de ser reproducible, es decir, debe dad estará artificialmente elevado.
producir el mismo resultado antes de poderla com- Cabe la posibilidad de que los participantes no
parar con otro método. Igualmente, hay que evaluar accedan a que se les efectúe una prueba en más de
si un observador es consistente consigo mismo antes una ocasión en poco tiempo, sobre todo cuando sea
de evaluar la concordancia entre observadores. dolorosa o molesta.
97
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
98
ESTUDIOS DESCRIPTIVOS
permitían descubrir más fácilmente la enfermedad, talidad por infarto agudo de miocardio y el consumo
sin descartar un aumento real de su incidencia. de cigarrillos en España en los últimos 30 años).
La característica fundamental de los estudios
– Cambios en la estructura demográfica, que alterarían las ecológicos es que no se dispone de información
tasas brutas o crudas, pero no las tasas específicas por sobre la exposición y la enfermedad individual. Por
edad y/o sexo. ello, el solo hecho de que exista una asociación ecoló-
– Si se comparan prevalencias, hay que tener en cuen- gica no garantiza que también exista de forma indivi-
ta posibles cambios en el tratamiento que disminuyan la dual. La elaboración de conclusiones individuales
mortalidad, con lo que la proporción de personas con inadecuadas, basada en datos ecológicos, se denomi-
la enfermedad iría en aumento, aunque la inciden- na falacia ecológica.
cia fuera la misma. Las ventajas de rapidez, facilidad y economía de
– Cambios en la situación socioeconómica, características esfuerzos pueden convertirse en una amenaza. El uso
demográficas o en los estilos de vida de las poblaciones, de datos ya existentes hace posible que se comparen
que pueden contribuir a la disminución de las tasas. múltiples variables con la frecuencia de una enfer-
medad, hasta encontrar alguna que sea significativa,
Ejemplo 9.13. Aunque la profilaxis de la fiebre reumá- pero sin poder explicar un mecanismo plausible del
tica, basada en el correcto diagnóstico y tratamiento de resultado.
la faringoamigdalitis estreptocócica, ha sido crucial A pesar de sus limitaciones, los estudios ecológicos
en el descenso de la enfermedad, conviene no olvidar pueden ser útiles para generar hipótesis que deben
que el declinar de la fiebre reumática en los países ser evaluadas posteriormente con estudios analíticos.
desarrollados se inició mucho antes de que se dispu- Además, en algunas situaciones el enfoque ecológico
siera de antibióticos eficaces. Parece indudable que la puede ser el más razonable. Si la hipótesis de trabajo
mejoría en la calidad de vida, la mejor nutrición y el que existe es poco firme o está poco madura, puede
menor hacinamiento, junto con una atención sanita- no ser conveniente realizar un estudio analítico indi-
ria de más calidad y más accesible, han desempeñado vidual y sea más razonable llevar a cabo uno ecológi-
un papel decisivo en el descenso de la fiebre reumáti- co. También, si el interés se centra en fenómenos
ca, sin que ninguno de ellos de manera aislada sea sociales o culturales, los estudios ecológicos pueden
capaz de explicar la situación actual (Batlle, 1987). ser los más adecuados, ya que se pretende obtener
inferencias sobre comunidades completas más que
En los estudios de correlación ecológica se obtiene, de sobre individuos.
cada una de las unidades de análisis, una medida sinté-
tica de la frecuencia de la enfermedad (p. ej., la inci- B IBLIOGRAFÍA DE LOS EJEMPLOS
dencia, la prevalencia o la mortalidad) y una medida Bates SE. Clinical applications of serum tumor markers. Ann
Intern Med 1991; 115: 623-638.
sintética de la frecuencia de la exposición a uno o
Batlle Gualda E. ¿Dónde está la fiebre reumática? Med Clin
varios factores. Las unidades de estudio pueden ser, (Barc) 1987; 88: 61-64.
por ejemplo, diferentes países, regiones dentro de un Davis M, Ettinger W, Neuhaus J, Hauck W. Sex differences
mismo país o comarcas de una región. El análisis se in osteoarthritis of de knee: the role of obesity. Am
centra en determinar si las unidades ecológicas con J Epidemiol 1988; 127: 1019-1029.
alta frecuencia de la enfermedad también tienen ten- Melton J, Ochi J, Palumbo P, Chu Pin Chu. Sources of dis-
dencia a un mayor grado de exposición. Estos estudios parity in the spectrum of diabetes mellitus at Incidence
son útiles cuando no se dispone de información indi- and Prevalence. Diabetes Care 1983; 6: 427-431.
vidual. Esta correlación puede realizarse sobre datos Pozo F, Fernández MJ, Suárez TV, Tojo S, Lamamie E,
referidos a un mismo momento del tiempo (p. ej., rela- Rodrigo LR. Estudio epidemiológico de la hidatidosis en
Asturias (1975-1984). Med Clin (Barc) 1987; 89: 773-777.
cionar la mortalidad por infarto agudo de miocardio y
Salleras Sanmartí Ll. Estudios descriptivos. Aten Primaria
el consumo de cigarrillos per cápita en los países eu- 1989; 6: 504-510.
ropeos en un año determinado), o bien sobre tenden- Thomson DMP, Krupey J, Freedman SO, Gold P. The
cias temporales y comparar la tendencia en el tiempo radioimmunoassay of circulating carcino-embryonic
de una enfermedad y una exposición, analizando la antigen of the human digestive system. Proc Natl Acad
evolución conjunta de ambas variables (p. ej., la mor- Sci USA 1969; 64: 161-167.
99
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
100
Capítulo 10
Revisiones sistemáticas
na revisión sistemática (RS) de la evidencia sión. Como cualquier otro estudio, requiere elabo-
101
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
102
REVISIONES SISTEMÁTICAS
pequeños, ya que pueden estar realizados de mo un metaanálisis acumulativo en que los estudios
forma poco rigurosa y sin controles de calidad sean incluidos sucesivamente en el análisis según su
adecuados. puntuación de calidad, de la mayor a la menor, o
– Duración del seguimiento de los estudios. Es necesario bien mediante un procedimiento estadístico (meta-
asegurar que los estudios han realizado un segui- rregresión) que permite analizar la posible relación
miento suficiente para poder observar la respues- entre el efecto observado y determinadas covaria-
ta de interés. bles relacionadas con la calidad, como el tipo de di-
– Exhaustividad de la información necesaria presenta- seño (ensayo clínico, estudio de cohortes, estudio
da en el artículo original. de casos y controles), la procedencia de los datos
(entrevistas, cuestionarios por correo, etc.) o la
procedencia de los sujetos (registros poblacionales,
VALORACIÓN CRÍTICA
hospitales, etc.).
DE LOS ESTUDIOS SELECCIONADOS
Es conveniente registrar el cumplimiento de los
Idealmente, sólo deberían incluirse en una RS aque- criterios de selección en todos los estudios candida-
llos estudios con una calidad mínima suficiente, es- tos, ya que es recomendable prever análisis de sen-
tablecida de antemano, para asegurar que sus re- sibilidad, repitiendo el metaanálisis en función de
sultados sean válidos. La evaluación de la calidad de diferentes criterios de inclusión y de exclusión para
un estudio es un proceso subjetivo y más teniendo examinar si el resultado final y las conclusiones de
en cuenta que, en ocasiones, la información necesa- la RS cambian en función de dichos criterios.
ria no está disponible o es inadecuada. Por esta ra-
zón, es preferible valorar sólo algunos aspectos clave
EXTRACCIÓN DE LOS DATOS
de su validez y relevancia.
Existen múltiples escalas para realizar esta valo- El protocolo de la RS ha de contemplar la informa-
ración. En la tabla 10.2 se presenta una de las más ción que se extraerá de los diferentes estudios: datos
sencillas y utilizadas. generales del estudio, nombre del autor, año de rea-
La mayoría de las escalas conceden una puntua- lización, características principales del diseño, tipo
ción de calidad a cada uno de los estudios, que pue- de pacientes (características demográficas, condi-
de utilizarse de diferentes maneras: para definir un ción clínica, etc.), características metodológicas (ta-
punto de corte a partir del cual identificar los ar- maño de la muestra, enmascaramiento, duración
tículos que van a ser incluidos o excluidos de la RS, del estudio, etc.), características de las intervencio-
para ponderar el peso relativo de cada uno de los nes de estudio y de comparación (pauta de inter-
estudios en el análisis, para evaluar si existe relación vención, duración, etc.), comparabilidad inicial de
entre la magnitud del efecto observado y las pun- los grupos, variables de respuesta, etc.
tuaciones de calidad, etc. Esta última finalidad po- La recogida de información sobre el resultado
drá ser realizada mediante un método gráfico, co- del estudio es fundamental. Debe utilizarse un úni-
Tabla 10.2. Escala de Jadad para valorar la calidad de un ensayo clínico aleatorio
103
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
co (o, como mínimo, que sea comparable), sistema Tabla 10.3. Fases de la estrategia de análisis
de clasificación del evento de interés (muerte, apa- de una revisión sistemática
rición de enfermedad, mejoría de los síntomas,
etc.). Por ejemplo, no sería lícito que, para un estu- • Decidir si es adecuado realizar una integración
dio, se utilizara el valor estimado que compara el de los estudios
consumo excesivo de alcohol con la ausencia total • Decidir qué comparaciones se van a hacer
de dicho consumo como categoría de referencia, • Analizar la heterogeneidad de los estudios
mientras que, para otro, se tomara como valor esti- (tablas de evidencias, pruebas estadísticas,
mado aquel que toma como categoría de referencia métodos gráficos)
la del consumo de menos de determinada cantidad • Si es adecuado, calcular un estimador global
semanal de alcohol. Se debería escoger también el del efecto (metaanálisis) con su intervalo
mismo tipo de estimador para todos los estudios, o de confianza
calcularlo de nuevo si no aparece en el artículo, por • Presentación gráfica de los resultados
lo que éste deberá contener la información necesa- • Análisis de subgrupos
ria. De no ser así, habrá que contactar con los inves- • Análisis de sensibilidad:
tigadores para tratar de obtenerla. – Para evaluar la robustez del resultado
– Para explorar la heterogeneidad de los estudios
Es conveniente que la información la extraigan
• Evaluar la existencia de un posible sesgo
como mínimo dos revisores independientes y, a ser
de publicación
posible, que desconozcan los resultados, los autores
• Pruebas para detectar diferencias sistemáticas
y la revista donde se publicaron los artículos prima- entre estudios
rios. Incluso aunque los investigadores sigan estric-
tamente un protocolo de recogida de datos con cri-
terios explícitos y bien definidos, suele existir cierto
componente de subjetividad. Es importante evaluar comparaciones se van a realizar, definidas con clari-
la concordancia entre ellos para asegurar la calidad dad a priori y de acuerdo con el objetivo de la RS.
de los datos que se utilizarán. El primer paso es analizar la heterogeneidad. So-
lamente tiene sentido combinar estadísticamente
los resultados si los estudios son lo suficientemen-
ESTRATEGIA DE ANÁLISIS
te homogéneos. En caso contrario, debe explorarse
El último paso de una RS suele ser la combinación esta heterogeneidad y tratar de identificar los facto-
estadística de los distintos estudios, si es posible, res de los que depende y que pueden explicarla.
para obtener un resultado global que estime el efec- Si se decide realizar un metaanálisis y combinar
to de la intervención, exposición o procedimiento los resultados, debe determinarse qué tipo de medi-
diagnóstico en estudio. Sin embargo, los proce- da se utilizará para obtener una estimación global
dimientos estadísticos no pueden suplir la falta de del efecto y qué procedimiento estadístico se apli-
sentido común o de criterio clínico en el diseño del cará para calcular su magnitud y su intervalo de
protocolo de la revisión, o de plausibilidad biológi- confianza. Los resultados de este metaanálisis sue-
ca en la interpretación de los resultados. Así pues, el len presentarse gráficamente para facilitar la com-
lector de una RS debe evaluar estos aspectos antes prensión (fig. 10.1). Habitualmente, el resultado
de examinar los métodos estadísticos que han usado de cada uno de los estudios individuales se muestra
los revisores y los resultados que han obtenido. La como una línea horizontal que representa el inter-
combinación de datos de poca calidad, muy sesga- valo de confianza (IC) del 95% de la estimación de
dos o procedentes de estudios muy dispares entre sí la medida del efecto, con una señal que indica la es-
producirá un resultado poco creíble. timación puntual observada en dicho estudio. Una
En la tabla 10.3 se presenta el esquema de la es- última línea horizontal representa el resultado glo-
trategia de análisis de una RS. En primer lugar, de- bal obtenido con el metaanálisis, cuya estimación
be evaluarse si la validez de los estudios es suficien- puntual suele representarse por un rombo. Una lí-
te y si tiene sentido integrar los diferentes estudios, nea vertical representa la ausencia de efecto (valor
para decidir si es adecuado combinar estadística- uno cuando se utilizan medidas relativas como la
mente sus resultados. Después, debe decidirse qué odds ratio o el riesgo relativo, o valor cero cuando se
104
REVISIONES SISTEMÁTICAS
GLOBAL 6.332
Figura 10.1. Presentación gráfica de una misma revisión sistemática. En el gráfico de la derecha se presentan los
resultados en forma acumulativa.
105
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
cualquier RS tenderá a obtener también resultados publicadas en determinados países, no lo estén. Por
positivos (fig. 10.2). ejemplo, de las más de 4.000 revistas indizadas en
EMBASE, MEDLINE o Science Citation Index, sólo
S ESGO EN LA LOCALIZACIÓN el 2% procede de países en vías de desarrollo.
DE ESTUDIOS Los artículos que se publican en revistas no indi-
Además del sesgo de publicación, existen otros mu- zadas en estas bases de datos difícilmente serán loca-
chos factores que contribuyen a una inclusión ses- lizados por los autores de una RS, y si sus resultados
gada de estudios en una RS. Los más importantes difieren del obtenido en los estudios indizados, el
son el sesgo del idioma inglés, el sesgo de las bases resultado de la revisión sistemática estará sesgado. De
de datos, el sesgo de citación y el sesgo de publica- hecho, es más probable que los artículos con resulta-
ción múltiple. dos positivos estén publicados en revistas indizadas.
A B
Figura 10.2. Sesgo de publicación. Cada círculo representa el resultado de un estudio. El círculo negro representa
el resultado global de los estudios incluidos en una revisión sistemática. El círculo blanco representa la verdadera magnitud
del efecto. A: revisión sistemática que ha incluido todos los estudios existentes. Su resultado se aproxima
al verdadero efecto. B: revisión sistemática en que algunos estudios no han sido incluidos. Su resultado está sesgado.
106
REVISIONES SISTEMÁTICAS
Ejemplo 10.1. En el estudio de Helsinki, un ensayo liarizado con el tema y, por consiguiente, con los
clínico en el que se evaluó la eficacia de un fibrato principales estudios publicados. Este conocimiento
para prevenir la cardiopatía isquémica en pacientes puede influir a la hora de definir estos criterios, lo
sin antecedentes de la enfermedad, se obtuvieron que puede conducir a una inclusión selectiva de
resultados estadísticamente significativos y fue pu- determinados estudios.
blicado en una prestigiosa revista (Frick et al, 1987).
El estudio tenía otra parte destinada a evaluar la efi-
REVISIONES SISTEMÁTICAS QUE USAN
cacia de la intervención para la prevención secun-
DATOS DE PACIENTES INDIVIDUALES
daria de la enfermedad, cuyos resultados no fueron
estadísticamente significativos. Los resultados de Las RS se basan habitualmente en los datos publi-
esta segunda parte se publicaron seis años después cados en los artículos originales. Sin embargo, en
en una revista de mucho menor impacto (Frick ocasiones, la presentación de los datos no favorece
et al, 1993). El primer artículo fue citado en más de su revisión. Por ejemplo, en una RS sobre la eficacia
450 ocasiones durante los tres años siguientes a su del tratamiento antihipertensivo en ancianos, pue-
publicación, mientras que el segundo fue citado de ocurrir que algún estudio no incluya a los pa-
sólo en 17 ocasiones. cientes mayores de 60 años, mientras que otros esta-
blezcan un límite de edad distinto. Además, como
Sesgo de publicación múltiple muchos estudios no presentan resultados estratifi-
La publicación múltiple de resultados de un mismo cados por edad, sus datos no podrán incluirse en el
estudio es un fenómeno frecuente que se da espe- análisis. La recogida de los datos de los pacientes in-
cialmente en los estudios de gran envergadura, y dividuales directamente de los investigadores pue-
que puede conducir a un sesgo. Por un lado, los es- de resolver alguno de estos problemas, ya que se
tudios con resultados estadísticamente significati- solicitan datos sobre tipos específicos de pacientes y
vos tienden a publicarse con más frecuencia; por lo resultados.
tanto, es más fácil localizarlos e incluirlos en una Los principios que guían una revisión con datos
revisión. Por otro lado, si no se identifican como de pacientes individuales son los mismos que los de
publicación múltiple, pueden incluirse datos dupli- cualquier RS. La principal diferencia es que incor-
cados que conduzcan a una sobreestimación del pora, en la medida de lo posible, toda la evidencia
efecto. En ocasiones, es difícil deducir que los resul- relevante disponible. Se trata de conseguir que to-
tados publicados en diferentes artículos proceden dos los pacientes aleatorizados y ninguno de los no
de un mismo estudio, especialmente en estudios aleatorizados de cualquier ensayo considerado váli-
multicéntricos en los que, además de los resultados do y pertinente sean incluidos y se analicen siguien-
globales, se publican resultados de centros aislados. do el principio de «intención de tratar».
Este tipo de RS son el medio más fiable para
S ESGO POR DATOS AUSENTES combinar datos de ensayos clínicos similares. Sus
O DE MALA CALIDAD principales ventajas son las siguientes:
En ocasiones, los artículos no incluyen todos los da-
tos necesarios para efectuar una RS. Muchos facto- – Se pueden realizar análisis de supervivencia, si la
res pueden estar relacionados con la voluntad de variable de respuesta es el tiempo de superviven-
los investigadores de hacer públicos estos resulta- cia o el tiempo hasta que se produce un suceso.
dos, pero uno de ellos puede ser la dirección y la Este enfoque es más potente e informa mejor so-
significación estadística de los mismos. Este sesgo es bre el curso de la enfermedad y el efecto del tra-
más probable en los estudios publicados como tamiento en el transcurso del tiempo.
comunicaciones a congresos y en los no publicados. – Se pueden efectuar análisis de subgrupos con una
definición común para poner a prueba y generar
S ESGO EN LA DEFINICIÓN hipótesis.
DE LOS CRITERIOS DE INCLUSIÓN – Se puede controlar mejor la calidad de los datos,
También es posible introducir un sesgo cuando se teniendo la posibilidad de validarlos y corregirlos
establecen los criterios de inclusión y exclusión, ya si fuera necesario, mediante la comunicación di-
que son definidos por un equipo investigador fami- recta con los investigadores.
107
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
– Es más fácil detectar desviaciones en el protocolo men with dyslipidemia. N Engl J Med 1987; 317: 1237-
de los estudios individuales. 1245.
– Se puede actualizar la información sobre el segui- Frick MH, Heinonen OP, Huttunen JK, Koskinen P, Marttari
miento de los pacientes cuando los registros están M, Manninen V. Efficacy of gemfibrozil in dyslipidaemic
subjects with suspected heart disease. Ann Med 1993; 25:
disponibles.
41-45.
– Es más fácil estandarizar las medidas de resultado.
108
REVISIONES SISTEMÁTICAS
McAuley L, Pham B, Tugwell P, Moher D. Does the inclusion Sterne JA, Gavaghan D, Egger M. Publication and related
of grey literature influence estimates of intervention ef- bias in meta-analysis: power of statistical tests and preva-
fectiveness reported in meta-analysis? Lancet 2000; 356: lence in the literature. J Clin Epidemiol 2000; 53: 1119-
1228-1231. 1129.
Moher D, Pham B, Klassen TP, Schulz KF, Berlin JA, Jadad Sterne JA, Juni P, Schulz KF, Altman DG, Bartlett C, Egger M.
AR, Liberati A. What contributions do languages other Statistical methods for assessing the influence of study
than English make on the results of meta-analysis? J Clin characteristics on treatment effects in «meta-epidemio-
Epidemiol 2000; 53: 964-972. logical» research. Stat Med 2002; 21: 1513-1524.
Montori VM, Smieja M, Guyatt GH. Publication bias: a brief Sutton AJ, Duval SJ, Tweedie RL, Abrams KR, Jones DR.
review for clinicians. Mayo Clin Proc 2000; 75: 1284- Empirical assessment of effect of publication bias on me-
1288. ta-analysis. BMJ 2000; 320: 1574-1577.
Shapiro S. Is meta-analysis a valid approach to the evaluation Vale CL, Tierney JF, Stewart LA. Effects of adjusting for cen-
of small effects in observational studies? J Clin Epidemiol soring on meta-analysis of time-to-event outcomes. Int
1997; 50: 223-229. J Epidemiol 2002; 31: 107-111.
Silagy CA, Middleton P, Hopewell S. Publishing protocols of Verhagen AP, De Vet HC, De Bie RA, Boers M, Van den
systematic reviews: comparing what was done to what was Brandt PA. The art of quality assessment of RCTs inclu-
planned. JAMA 2002; 287 (21): 2831-2834. ded in systematic reviews. J Clin Epidemiol 2001; 54: 651-
Sterne JA, Egger M. Funnel plots for detecting bias in meta- 654.
analysis: guidelines on choice of axis. J Clin Epidemiol Weed DL. Interpreting epidemiological evidence: how meta-
2001; 54: 1046-1055. analysis and causal inference methods are related. Int
Sterne JA, Egger M, Smith GD. Systematic reviews in health J Epidemiol 2000; 29: 387-390.
care: Investigating and dealing with publication and
other biases in meta-analysis. BMJ 2001; 323: 101-105.
109
Capítulo 11
Protocolo de investigación
113
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
114
PROTOCOLO DE INVESTIGACIÓN
geneidad de los datos se mantienen a lo largo de miembros del equipo investigador, con el fin de
todo el estudio, y utilización de técnicas de ciego, si realizar una primera aproximación al desarrollo
es posible, para evitar posibles interferencias causa- del objetivo y a la evaluación de la pertinencia y la
das por el investigador o el participante, entre otras viabilidad del estudio.
soluciones. El siguiente paso es desarrollar un esquema ge-
En el protocolo también debe constar el plan de neral sobre cómo se pretende abordar el problema,
análisis de los datos, con la identificación de las e indicar, de forma muy escueta en 2-4 páginas, los
variables demográficas que se utilizarán para des- aspectos metodológicos presentados en la tabla 11.1.
cribir la población estudiada, de los factores Así, por ejemplo, en esta versión, cuando se identi-
pronósticos que se emplearán para valorar la com- fiquen los criterios de selección de los sujetos, no
parabilidad de los grupos, los subgrupos de sujetos será necesario definirlos de forma operativa. Igual-
en los que se deseará realizar el análisis, así como mente, aunque se deben identificar las principales
las pruebas estadísticas que se aplicarán. variables del estudio, no es necesario definirlas con
En el protocolo se recogen aspectos relaciona- precisión ni indicar detalladamente el método de
dos con el método y la organización del estudio, y el recogida de la información. En las versiones sucesi-
calendario previsto. La buena marcha de un estu- vas del protocolo se desarrollarán con más detalle
dio depende, en gran medida, de su buena organi- estos aspectos y se matizarán con la incorporación
zación, por lo que es importante identificar las ta- de los elementos organizativos.
reas administrativas y las personas que las llevarán a Tanto el manual de procedimientos como el
cabo. La realización de un estudio suele precisar la protocolo de estudio deben estar siempre disponi-
colaboración de otras personas, servicios o centros bles para poder ser consultados ante cualquier du-
ajenos al propio equipo investigador, por lo que es da. Una vez que estos documentos han sido deba-
conveniente contactar con ellos y asegurar su cola- tidos y consensuados por el equipo investigador, es
boración antes de iniciarlo. El presupuesto ha de conveniente que los lean otras personas ajenas al
ser realista, ya que es un aspecto muy importante estudio para que juzguen su pertinencia, emitan los
para evaluar la viabilidad de un estudio. Es impor- comentarios y las sugerencias que crean oportunos,
tante asegurar, antes de iniciar el trabajo, que se po- y ayuden a mejorar el proyecto.
drá contar con la financiación necesaria. En el anexo 6 se presenta, en forma de frases o
El éxito de un trabajo de investigación depen- preguntas, una guía para la elaboración de un pro-
derá de lo bien que se haya diseñado y de si se han tocolo de estudio.
identificado los posibles problemas antes de ini-
ciarlo. Además, si el estudio está bien planeado, las
EQUIPO INVESTIGADOR
fases de recogida y de análisis de los datos serán
mucho más fáciles. Por esta razón, antes de iniciar Generalmente, en un proyecto de investigación in-
el estudio propiamente dicho, es conveniente reali- tervienen varias personas que lo impulsan. El equi-
zar una o varias pruebas piloto que pongan de ma- po ha de ser multidisciplinario, es decir, en él de-
nifiesto los aspectos en los que hay que insistir o ben estar representados expertos o conocedores de
que deben mejorarse. los diferentes aspectos del estudio. Es conveniente
que exista un investigador principal que actúe co-
mo líder, que debe ser respetado por el resto del
ELABORACIÓN DEL PROTOCOLO
equipo, y tener el tiempo y la energía suficientes
DE ESTUDIO
para llevar adelante el proyecto y mantener el
El protocolo es un documento que se va desarro- interés del estudio hasta el final.
llando y mejorando a medida que el equipo investi- Entre las funciones del equipo investigador se
gador concreta la idea y el diseño del estudio. incluye redactar el protocolo y el manual de proce-
El punto de partida es la identificación del pro- dimientos. De todas formas, es preferible que esta
blema y la redacción de una hipótesis genérica. tarea sea asumida por un número reducido de per-
Aunque en esta fase de la investigación esta hipóte- sonas, con una de ellas como responsable, y que el
sis es poco operativa, es conveniente que se ponga protocolo sea consensuado por todo el equipo, con
por escrito para poder debatirla con otros colegas o atención a las sugerencias y aportaciones de los
115
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
miembros. También es conveniente que partes muy pen en ellos. Es conveniente que esto se haga en fa-
especializadas del protocolo, como el análisis ses tempranas del diseño, como mínimo antes del
estadístico o determinados procedimientos de labo- inicio del estudio, con la finalidad de implicarlos en
ratorio, sean redactados por expertos en la materia. el diseño o de poder debatir con ellos el protocolo.
Desde el inicio, el investigador principal ha de Una vez contactados, su aceptación dependerá de
mantener reuniones periódicas con el resto del varios factores: su interés por el tema, la compleji-
equipo, con un orden del día preestablecido, en las dad del protocolo, la interferencia excesiva con la
que se informe de cómo está progresando el práctica clínica habitual, la dificultad de la recogida
diseño, los problemas y las dudas que se plantean, de datos, el número de reuniones, etc. Los incenti-
etc. Estas reuniones ayudan a mantener la motiva- vos económicos o de otro tipo también pueden de-
ción y el interés de los investigadores. El número y cantar el sentido de la respuesta a la solicitud de
la duración de las reuniones han de ser los impres- participación.
cindibles, sin ser excesivos.
En estudios multicéntricos, con frecuencia se
BIBLIOGRAFÍA
crean comités para el diseño del proyecto, en los
que suelen intervenir profesionales de gran presti- Gómez de la Cámara A. Análisis de la estructura metodoló-
gio, que difícilmente se harán cargo del desarrollo gica de las propuestas de investigación presentadas al
del estudio en el día a día. Por ello, ha de existir Fondo de Investigación Sanitaria. Med Clin (Barc) 1997;
una persona que asuma este papel y que se ocupe 109: 445-451.
Hulley SB, Cummings SR, Browner WS, Grady D, Hearst N,
de conocer las convocatorias de ayudas para la fi-
Newman RB. eds. Designing clinical research: an epide-
nanciación, qué centros pueden ser los candidatos miologic approach. 2.a ed. Baltimore: Lippincott Wi-
para participar, conducir las reuniones de los inves- lliams & Wilkins, 2001.
tigadores, etc.; es decir, que asuma el proyecto co- Knatterud GL. Management and conduct of randomized
mo una de sus prioridades y con la estabilidad labo- controlled trials. Epidemiol Rev 2002; 24: 12-25.
ral suficiente como para finalizarlo. Rebagliato M, Ruiz I, Arranz M. Metodología de investiga-
En los estudios multicéntricos, una de las fun- ción en epidemiología. Madrid: Díaz de Santos, 1996.
ciones del equipo investigador es identificar y selec- Roca J. Cómo y para qué hacer un protocolo. Med Clin
cionar los centros y los investigadores que partici- (Barc) 1996; 106: 257-262.
116
Capítulo 12
Búsqueda bibliográfica
117
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
(fuentes primarias), diversas instituciones se dedican Tabla 12.2. Ejemplo de un registro de la base
a seleccionar, resumir, ordenar y catalogar los trabajos de datos MEDLINE
científicos que aparecen en las revistas médicas de
mayor consideración, en forma de repertorios (fuen- TI: Generalizing from clinical trials
tes secundarias), facilitando la tarea de identificación AU: Davis-CE
y localización de la información relevante. AD: Department of Biostatistics, University of North
Internet permite el acceso a múltiples fuentes de Carolina, School of Public Health, Chapel Hill
información desde cualquier lugar y a cualquier hora, 27599-7400
de un modo fácil, cómodo y económico. Además, SO: Control-Clin-Trials. 1994 Feb; 15(1): 11-4
pueden consultarse las nuevas fuentes de información PY: 1994
que aparecen continuamente y que pueden comple- LA: ENGLISH
mentar a las clásicas, aunque deben utilizarse con cau- CP: UNITED-STATES
tela, ya que no puede asegurarse que se hayan cons- AB: Although randomized controlled clinical trials
truido con el suficiente rigor, pueden contener have become the «gold standard» for evaluating
errores deliberados y no es infrecuente que desapa- new treatments, only a small subset of the
rezcan sin dejar rastro. population considered for treatment participate
in randomized clinical trials. To what extent is it
reasonable to generalize beyond the boundaries
BASES DE DATOS BIBLIOGRÁFICOS
of a specific clinical trial? This paper argues that
Por base de datos bibliográfica se entiende un con- several pieces of information are necessary
junto de referencias bibliográficas de publicaciones, to determine the extent of extrapolation or
almacenadas informáticamente, y que pueden ser generalization warranted in a specific clinical trial.
recuperadas interactivamente gracias a un lenguaje The necessary items of information are derived
de consulta. Hablamos, por tanto, de referencias, y from basic science laboratory studies; animal
no de artículos a texto completo. studies; genetic studies (where applicable);
Una base de datos está formada por registros que observational, clinical, and epidemiological studies;
corresponden a las referencias de los documentos and other randomized clinical trials in similar
indizados (tabla 12.2). Cada registro se articula en settings or with similar treatments. An example
diferentes campos que contienen información relati- from the field of cholesterol reduction is presented
va al documento: autores, título, revista en que se ha MESH: Adult-; Aged-; Coronary-Disease-blood; Data-
publicado, año de publicación, tipo de publicación, Interpretation-; Statistical; Middle-Age; Randomized-
etc. (tabla 12.3). Los tres campos más interesantes Controlled-Trials-statistics-and-numerical-data;
para la localización de documentos son el título, el Reproducibility-of-Results; Risk-Factors
resumen del contenido y las palabras clave, o des- MESH:*Cholesterol-blood;*Coronary-Disease-
criptores, que identifican su temática. prevention-and-control; *Randomized-
Controlled-Trials
M EDLINE TG: Animal; Female; Human; Male
MEDLINE es una base de datos bibliográfica produ- PT: JOURNAL-ARTICLE
cida por la National Library of Medicine (NLM) RN: 57-88-5
de Estados Unidos (http://www.ncbi.nlm.nih.gov/ NM: Cholesterol
PubMed) (fig. 12.1). Es el resultado de la automati- AN: 94199997
zación del repertorio del antiguo Index Medicus, al UD: 9407
que se ha sumado el International Nursing Index y el
Index to Dental Literature. Contiene más de diez
millones de referencias bibliográficas, publicadas en Recoge mayoritariamente las publicaciones médi-
unas 3.900 revistas. Su contenido es muy amplio; cas de Estados Unidos y aquellas de otros países que
abarca prácticamente todas las especialidades médi- reúnan unos requisitos mínimos (periodicidad de
cas y paramédicas, aunque presenta deficiencias en publicación, existencia de comité editorial, etc.) y
las áreas de medicinas alternativas e información que lo soliciten a la NLM. Esto se refleja en un núme-
sobre medicamentos. ro relativamente reducido de publicaciones de otros
118
BÚSQUEDA BIBLIOGRÁFICA
TI Title Título del artículo. Aparece en inglés. Si el artículo está escrito en otro
idioma, aparecerá en otro campo en su lengua original, delimitado
entre claudátors, y precedido por el código TO (título original)
AU Author Autor o autores del artículo
AD Address Centro de trabajo
SO Source Cita bibliográfica: abreviatura del título de la revista, año de publicación,
mes, volumen, número de fascículo y páginas
PY Publication year Año de publicación
LA Language Lengua original del artículo
CP Country of publication País de publicación
AB Abstract Resumen del artículo. En la base de datos MEDLINE, este resumen
corresponde al elaborado por el autor del artículo
MESH Términos descriptores del tesauro MeSH que representan los contenidos
del documento. Los términos que van precedidos por un asterisco
corresponden a los descriptores principales (Major Topics) que reflejan
el tema central del artículo. El resto de términos corresponde a otros
aspectos tratados en el artículo, pero que no constituyen el contenido
fundamental del mismo
TG Check Tags Términos asignados rutinariamente a cada artículo para facilitar la
restricción de la búsqueda a aspectos concretos como pacientes,
sexo, grupos de edad, animales de experimentación, etc.
PT Publication type Tipo de publicación
NM Name of substance Nombre de la sustancia
AN Access number Número de acceso en la base de datos. Las dos primeras cifras
corresponden al año
119
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
La versión impresa, Excerpta Medica, se publica por dor de 2.400 revistas, así como de los trabajos citados
series temáticas (hay cuarenta series que se publican en ellas (aproximadamente cinco millones al año),
en volúmenes independientes), lo que facilita la rea- por lo que permite, cuando se dispone de una refe-
lización de búsquedas más exactas y precisas. Ade- rencia interesante, seguir las aportaciones a un tema
más, tiene un carácter selectivo y analítico, es decir, a través de los trabajos posteriores que la citan. Se
sólo aparecen artículos de una cierta calidad y acom- utiliza para evaluar la producción científica y para
pañados de un resumen. calcular indicadores bibliométricos, como el factor
Utiliza un vocabulario denominado MALIMET de impacto.
(Master List of Medical Indexing Terms), compuesto
por más de 37.000 palabras, que se estructuran en un C OCHRANE L IBRARY
tesauro denominado EMTREE. Las bases de datos anteriores son repertorios de refe-
rencias bibliográficas de artículos publicados en algu-
S CISEARCH nas revistas médicas y, por tanto, no recogen toda la
SCISEARCH es una base de datos producida por el información científica disponible. Por ejemplo, se
Institute for Scientific Information (ISI), un organis- estima que, aproximadamente, la mitad de los ensa-
mo privado localizado en Filadelfia (Estados Unidos). yos clínicos publicados no se recoge en la base de da-
Incluye la versión automatizada de Current Contents, tos MEDLINE. La Cochrane Library, elaborada por la
servicio de alerta bibliográfica que cubre cerca de Colaboración Cochrane, es una base de datos orien-
7.000 publicaciones, muy útil para mantenerse al día, tada a la toma de decisiones clínicas, principalmente
pero no tanto para las búsquedas retrospectivas. Está terapéuticas y diagnósticas, que intenta suplir algunas
compuesta por siete series temáticas. El campo de las de las limitaciones anteriores. Contiene diferentes
ciencias de la salud queda recogido en tres de ellas: bases de datos, entre las que destacan:
Social and Behavioral Sciences, Life Sciences (CCLS)
y Clinical Medicine (CCCM). Para el profesional médi- – Cochrane Database of Systematic Reviews (CDSR), que
co, las más importantes son CCLS y CCCM, que inclu- incluye las revisiones sistemáticas elaboradas por los
yen referencias de 1.200 y 850 revistas, respectivamen- grupos de expertos de la Colaboración Cochrane
te. Ambas series contienen una sección del Current que sintetizan el estado actual de los conocimientos
Book Contents con cerca de 600 publicaciones. sobre temas específicos. Además, incluye detalles
La SCISEARCH incluye también el Science Ci- de los protocolos de las revisiones que están en
tation Index, que recoge la información de alrede- período de elaboración.
120
BÚSQUEDA BIBLIOGRÁFICA
121
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
español, aunque los términos de la interrogación bases de datos de la United States National Library of
deben ser en inglés (http://www.sumsearch.uthsc- Medicine (NLM).
sa.edu/espanol.htm. Utilizado correctamente, este vocabulario constituye
una herramienta poderosa que mejora el acceso a la lite-
ratura biomédica. Refleja todo el ámbito de la literatura
TESAURO
biomédica. La NLM lo mantiene, añadiéndole nuevos
Un tesauro es una forma de clasificación y de indiza- términos, a medida que aparecen nuevos conceptos, o
ción de una base de datos. Se basa en el uso de pala- bien modificando o eliminando otros ya existentes.
bras clave que forman un vocabulario especializado La NLM indiza cada referencia con 10-12 térmi-
cuyos términos se relacionan entre sí de forma jerár- nos seleccionados de los 17.000 que componen el
quica. Su finalidad es la de «traducir» el lenguaje na- tesauro MeSH, de acuerdo con su contenido, asig-
tural empleado en los documentos a un vocabulario nando los descriptores más precisos posibles. Cada
controlado de términos que permite representar el uno de los términos representa un único concepto.
contenido de los documentos y facilita la indización y El MeSH se presenta como una lista alfabética y en
la consulta de la base de datos. Sólo los términos que una estructura jerárquica (fig. 12.3), e incluye tanto
figuran en una lista predefinida pueden ser utiliza- términos genéricos como específicos, así como cientos
dos. El hecho de que un concepto esté representado de términos relacionados que ayudan a encontrar los
por un único término descriptor resuelve los proble- descriptores más apropiados. La estructura jerárquica
mas de sinonimias y polisemias. agrupa los descriptores en 15 categorías, en cada una
Un tesauro no es un índice ni un diccionario de de las cuales se hallan ordenados jerárquicamente del
sinónimos, sino un conjunto de términos que permi- más general al más específico, hasta siete niveles. Un
ten expresar con la mayor exactitud posible una mismo descriptor puede encontrarse en varias subca-
determinada noción o concepto. Por lo tanto, debe tegorías o árboles diferentes.
ser conciso, unívoco, bien estructurado, inteligible y Una aplicación interesante de la clasificación
capaz de evolucionar. jerárquica consiste en que pueden recuperarse, me-
El tesauro más utilizado en el ámbito de la medi- diante una opción denominada explosión del término
cina es el MeSH (Medical Subject Headings), que (explode), no sólo los artículos indizados por dicho
corresponde al vocabulario o tesauro preestablecido descriptor, sino también todos los indizados con los
de descriptores, utilizado para indizar diferentes términos más específicos que le están subordinados.
122
BÚSQUEDA BIBLIOGRÁFICA
123
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
124
Capítulo 13
Objetivo del estudio
• Voluntad de investigar
tidad de esfuerzos a la recogida y el análisis de los
• Talento
datos, pero, si no están bien dirigidos, serán de
poca utilidad. Esta etapa requiere una profunda • Experiencia
reflexión, ya que muchos aspectos del diseño de- • Capacidad para generar datos
penden de lo que se decida al inicio.
• Honestidad
• Capacidad para obtener recursos
IDENTIFICACIÓN DEL PROBLEMA
• Flexibilidad
Un problema debe entenderse como una incerti- • Perseverancia
dumbre sobre algún hecho o fenómeno que el inves-
tigador desea resolver realizando mediciones en los • Confianza
sujetos del estudio. Su identificación es fruto habi- • Capacidad para reconocer problemas
tualmente de la capacidad del propio profesional y desarrollar hipótesis
para generar ideas y formular interrogantes, y rara • Capacidad para congeniar
vez se produce por pura intuición. con sus colaboradores
La buena investigación depende, en gran medida,
• Competitividad
de las buenas ideas. Un investigador debe poseer no
sólo talento, sino también capacidad de observación • Capacidad de redacción
cuidadosa de lo que acontece en su práctica, honesti-
dad y una buena dosis de tenacidad y perseverancia
(tabla 13.1). Muchas veces, las preguntas surgen del análisis de
La observación cuidadosa de los pacientes puede estudios previos, propios o de otros autores. El inves-
detectar sucesos, situaciones o respuestas a trata- tigador ha de mantener un estado de alerta, realizan-
mientos que parezcan contradecir los conocimientos do una lectura crítica de la literatura, asistiendo a
aceptados, sugiriendo posibles hipótesis de trabajo. reuniones científicas y congresos, y colaborando con
125
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
126
OBJETIVO DEL ESTUDIO
127
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
do en responder y que pueda ser bien contestada, y el tes elementos: el factor de estudio, que corresponde a la
resto puede considerarse como preguntas secundarias. exposición o intervención de interés; la variable de res-
Una buena pregunta principal debe cumplir las puesta, o criterio de evaluación, con la que se preten-
siguientes condiciones: ser única, relevante, simple, de medir el efecto o la asociación con dicho factor, y
consistente, novedosa, viable, contrastable, ética, defi- la población, o conjunto de sujetos a los que se desea
nida a priori y formulada explícitamente. aplicar los resultados del estudio. En ocasiones, pue-
de ser conveniente incluir en la formulación el factor
F ORMULACIÓN DEL OBJETIVO o los factores que se utilizarán como comparación.
ESPECÍFICO En esta fase del diseño, basta con una definición
La formulación del objetivo específico de un estudio genérica de estos elementos. A medida que se avance
descriptivo debe incluir el fenómeno que se desea en la elaboración del protocolo se irán definiendo
describir (p. ej., la prevalencia, la incidencia, la super- con más detalle sus características.
vivencia, los síntomas de presentación, la evolución
natural, etc.), el problema de salud y la población Ejemplo 13.5. Objetivo del estudio: evaluar si la edu-
objeto de estudio. cación sanitaria grupal produce mejores resultados
que la individual en el control metabólico de los
Ejemplo 13.2. Objetivo del estudio: estimar la preva- pacientes diabéticos tipo II. El factor de estudio es la
lencia de hipertensión arterial en una zona básica de educación sanitaria grupal, cuyo efecto se comparará
salud. Esta formulación del objetivo informa que se con la individual, que actuará como referencia. La
desea estudiar la frecuencia de hipertensión arte- variable de respuesta es el control metabólico, mien-
rial mediante la prevalencia, y que la población obje- tras que la población corresponde a los sujetos con
to de estudio son los residentes en una zona básica de diabetes mellitus tipo II.
salud.
Ejemplo 13.6. Objetivo del estudio: determinar si el
Ejemplo 13.3. Objetivo del estudio: describir la su- consumo de tabaco aumenta la incidencia de cardio-
pervivencia de los pacientes con enfermedad pulmo- patía isquémica en sujetos hipertensos. El factor de
nar obstructiva crónica que reciben oxigenoterapia estudio es el consumo de tabaco, la variable de res-
domiciliaria. El fenómeno que se estudia es la super- puesta es el desarrollo de cardiopatía isquémica y la
vivencia. La población no se define geográficamente, población son los sujetos hipertensos.
sino que corresponde a los sujetos con un determina-
do problema de salud y que reciben oxigenoterapia Es frecuente que el objetivo de un estudio esté mal
domiciliaria. definido. A veces, el problema radica, simplemente,
en su deficiente redacción. Ello no implica que el
Ejemplo 13.4. Objetivo del estudio: evaluar si la con- estudio esté mal diseñado, pero un objetivo mal escri-
centración sérica del antígeno prostático específico to no ayuda a su comprensión.
permite distinguir a los pacientes mayores de 50 años
con cáncer de próstata de los que no lo padecen, uti- Ejemplo 13.7. En un artículo se definía el objetivo del
lizando como método de referencia el tacto rectal y el estudio del siguiente modo: «El propósito de nues-
estudio anatomopatológico del material obtenido tro estudio radica en el conocimiento de los tumores
por punción transuretral. Obsérvese que se trata de del sistema nervioso central en el marco de una comu-
un estudio que evalúa una prueba diagnóstica (con- nidad autónoma.» Este objetivo se expresa en térmi-
centración sérica del antígeno prostático específico). nos demasiado vagos. Debería especificar si se refiere,
En este tipo de estudios, en el objetivo debe constar por ejemplo, a su epidemiología, las características clí-
la cuestión clínica precisa que se pretende resolver nicas, el pronóstico o los factores de riesgo.
con la aplicación de la prueba diagnóstica, la natura-
leza de la población estudiada y el método utilizado Ejemplo 13.8. Supongamos un estudio cuyo objetivo
como criterio de referencia. se define como «determinar los efectos de la vacuna
frente al virus de la hepatitis A». Definido de esta for-
En un estudio analítico, la formulación del objeti- ma, no se puede saber qué pretenden los autores.
vo específico requiere la identificación de los siguien- Puede tratarse tanto de un estudio descriptivo de los
128
OBJETIVO DEL ESTUDIO
efectos secundarios de la vacuna como de un estudio Tabla 13.3. Características de una buena
experimental que evalúe su eficacia. Además, tampo- variable de respuesta
co da ninguna orientación sobre el tipo de sujetos en
quienes se realiza el estudio. • Estar definida con precisión y antes de iniciar
el estudio
En otras ocasiones, se incluyen como objetivos de • Ser apropiada a la pregunta que se desea
investigación cuestiones que no lo son. En realidad, responder
un objetivo específico de investigación no es más que
una pregunta concreta a la que se pretende respon- • Medir lo que se quiere medir
der mediante la realización del estudio. No debe con- • Ser suficientemente sensible para detectar
fundirse con los objetivos de un programa sanitario, el efecto de interés
que consisten en la modificación de un estado de • Poderse medir tan detallada como sea posible
salud en un colectivo.
• Poderse medir con un método fiable, preciso
y reproducible
Ejemplo 13.9. Supongamos un estudio que define sus
objetivos como: a) conocer el tipo de reacciones adver- • Poderse medir en todos los sujetos y de la misma
sas a medicamentos notificadas por los facultativos de manera
atención primaria; b) identificar su posible infranotifi- • Ser única en la medida de lo posible. Si hay varias,
cación, y c) proponer medidas para intentar mejorar es preferible utilizar la más relevante y fiable
dicha notificación. El tercer objetivo corresponde más
a recomendaciones que realizan los autores que a un
objetivo de investigación, ya que no implica ninguna
pregunta a la que el estudio pueda dar respuesta. Tabla 13.4. Dificultades en la elección
de la variable de respuesta
En otras ocasiones, el objetivo no existe. El inves-
Relacionadas con la variable
tigador se limita a recoger datos y analizarlos sin una
estrategia previa. Este solo hecho compromete la vali- • Fenómenos que no pueden medirse
dez de cualquier estudio. objetivamente
• Utilización de variables aproximadas
VARIABLE DE RESPUESTA • Utilización de variables intermedias
De los tres elementos que componen el objetivo
específico de un estudio analítico, el que plantea más • Existencia de más de una variable
problemas es la variable de respuesta. Se puede consi- • Medida parcial del fenómeno
derar adecuada si mide el fenómeno que se desea es- • Uso de escalas combinadas
tudiar y puede ser valorada con un instrumento ade-
cuado y en todos los sujetos del estudio (tabla 13.3). • Uso de variables que no miden el fenómeno
Existen múltiples situaciones en las que la elección de interés
de la variable más adecuada puede resultar una tarea Relacionadas con la medición
difícil (tabla 13.4). Estas dificultades pueden estar
relacionadas tanto con la propia variable como con las • Variabilidad inter e intraobservador
limitaciones inherentes al proceso de su medición. • Variabilidad inter e intraindividual
A menudo, interesa estudiar fenómenos que in- • Precisión y exactitud del instrumento de medida
cluyen un gran componente de subjetividad, como
puede ser la evolución del dolor, la mejoría de sínto-
mas clínicos o la calidad de vida. A veces, es difícil
definir una variable que mida estos conceptos con las te un método objetivo para determinar la intensidad
suficientes validez y precisión. del dolor, los autores se ven obligados a utilizar una
escala visual analógica, que consiste en una represen-
Ejemplo 13.10. Supongamos un estudio sobre la efi- tación gráfica en forma de línea recta cuyos extremos
cacia de un tratamiento analgésico. Dado que no exis- definen los valores límite de la intensidad del dolor.
129
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Los pacientes marcan en la escala el punto que, a su El uso adecuado de variables intermedias o subro-
juicio, representa la intensidad de su síntoma. gadas depende de la validez de los estudios que
demuestran su correlación con la variable primaria y,
En otras ocasiones, la mejor variable de respuesta en definitiva, de los conocimientos fisiopatológicos,
no está al alcance de los investigadores y se utiliza una epidemiológicos y clínicos que se tengan sobre la
variable aproximada. enfermedad en estudio. Dado que estos conocimien-
tos cambian con el tiempo, el uso de estas variables
Ejemplo 13.11. Consideremos un estudio en el que se está en permanente debate. Por ejemplo, muchos
evalúa el grado de adherencia a un tratamiento tras estudios evaluaron la eficacia de intervenciones sobre
una intervención educativa. Supongamos que se pue- el sida utilizando como variable de respuesta el
den medir los valores del fármaco o sus metabolitos recuento de linfocitos CD4+, mientras que actual-
en orina. Aunque ésta sería la variable de respuesta mente se sabe que el recuento de viriones circulantes
de elección, si la prueba no está disponible, es muy en sangre mediante pruebas de amplificación genéti-
cara o incómoda para los pacientes, los autores pue- ca es un método mejor para medir la respuesta.
den optar por la utilización de una variable de res- Puede ocurrir que existan diferentes variables que
puesta aproximada, como alguna técnica de determi- midan aspectos distintos del fenómeno de interés.
nación del cumplimiento autocomunicado. Estas situaciones pueden plantear problemas, ya que,
si se obtienen resultados contradictorios o inconsis-
En ocasiones, se recurre al uso de una variable tentes para cada una de ellas, la interpretación resul-
intermedia o subrogada en sustitución de la varia- ta difícil. La mejor solución es haber definido a prio-
ble primaria de interés, porque se cree que está co- ri una variable principal. Esto no quiere decir que no
rrelacionada con ella, refleja la totalidad o gran parte puedan estudiarse todas las variables simultáneamen-
del efecto, y puede obtenerse con un coste inferior, en te, sino que deberá decidirse cuál de ellas es la más
un período más breve, o en circunstancias en las que importante para el investigador, y en la que se basará
aquella no podría estudiarse. Los cambios observados la conclusión del estudio.
en la variable intermedia o subrogada se supone que
reflejan los que se producirían en la variable primaria. Ejemplo 13.13. En un estudio que evaluaba la eficacia
El uso de estas variables lleva implícita la asunción de de un tratamiento preventivo de las crisis convulsivas
la existencia de una relación directa con la respuesta febriles en la infancia, los investigadores utilizaron
final. Así, el uso de la reducción de las cifras de coles- como variable de respuesta la frecuencia de las crisis.
terolemia total tras la administración de un fármaco Ello no significa que no midieran otros aspectos
se hace bajo la asunción de que comporta la disminu- como la gravedad de las crisis, sino que la conclusión
ción de la morbimortalidad cardiovascular. Si esta sobre la eficacia del tratamiento se basó en la dismi-
asunción no es válida, la variable intermedia o subro- nución de su frecuencia.
gada tampoco lo es, e incluso, si la asunción es válida,
estrictamente la conclusión sólo podrá aplicarse a la Otro problema que puede presentarse es el uso
variable intermedia. de variables que sólo midan parcialmente el fenóme-
no de interés.
Ejemplo 13.12. Supongamos un estudio que evalúa la
eficacia de una técnica de educación sanitaria en Ejemplo 13.14. En un estudio se comparaba el efecto
sujetos hipertensos. Los investigadores utilizan como de dos estrategias de atención sanitaria sobre el esta-
variable de respuesta los conocimientos de los pa- do de salud de un grupo de pacientes ancianos. Como
cientes después de la educación y asumen que un variable de respuesta se utilizó una escala que valoraba
mejor conocimiento comporta un mejor control de su estado funcional. Sin embargo, esta variable sólo
la hipertensión arterial y, por ello, una disminución mide parcialmente las necesidades de salud de los an-
de la morbimortalidad cardiovascular. Esta asunción cianos y no tiene en cuenta, por ejemplo, su estado cog-
puede ser cuestionable. De hecho, cuanto más aleja- nitivo. Como siempre, las conclusiones del estudio de-
da esté una variable intermedia o subrogada del berán limitarse a la variable de respuesta, que en este
resultado final, más probable es que no sea válida. estudio es el estado funcional de los sujetos.
130
OBJETIVO DEL ESTUDIO
Cuando no existe una variable única que, por sí riesgo de no recoger toda la información necesaria y
sola, exprese toda la complejidad del fenómeno que limitar su número, ya que su estudio supone incre-
se desea medir, se pueden utilizar escalas o índices mentar la complejidad del diseño y su realización. De
compuestos, en los que se agrupan variables de natu- todas formas, dado que el estudio ha sido diseñado
raleza diferente (p. ej., escalas para medir la auto- para responder a la pregunta principal, la respuesta a
nomía para realizar las actividades de la vida diaria, la las preguntas secundarias será menos «sólida».
calidad de vida, la salud física o mental, etc.). Es im- En su definición es de gran ayuda haber estableci-
portante que este tipo de escalas hayan sido validadas do el marco teórico. En el ejemplo 13.1 sobre la edu-
en el medio en que se va a realizar el estudio. cación sanitaria en los pacientes diabéticos, el interés
En otras ocasiones, se usa una variable de respues- se centraba en el control metabólico, pero sería inte-
ta principal, que es la suma o la combinación de dife- resante estudiar otros aspectos del modelo. Por ejem-
rentes variables que se supone que reflejan el fenó- plo, los conocimientos, ya que puede ser útil evaluar
meno o los fenómenos de interés. Por ejemplo, un si, en el caso de no poderse demostrar la eficacia de la
estudio sobre prevención cardiovascular podría utili- técnica esto se debe a que la educación sanitaria no
zar como variable principal de respuesta el núme- ha sido eficaz, o bien a que los pacientes no han com-
ro de episodios cardiovasculares, definido como la prendido la información proporcionada. Además,
suma de episodios de infarto agudo de miocardio pueden estudiarse otros aspectos colaterales, como
(IAM) mortal, IAM no mortal, muerte súbita, acci- las características de los pacientes que no acuden
dente vascular cerebral (AVC) mortal y AVC no mor- a las sesiones grupales, si el incremento del grado de
tal. Una variable combinada de esta naturaleza per- conocimientos se acompaña de un mejor control
mite aumentar el poder estadístico del estudio, pero metabólico de la enfermedad, etc., de forma que
hay que ser muy prudente a la hora de interpretar los pueda obtenerse el máximo rendimiento de la infor-
resultados y es recomendable analizar cada una de las mación recogida.
variables de forma separada.
Otro problema distinto es la utilización de una B IBLIOGRAFÍA
variable de respuesta que no mida el fenómeno de Albers GW. Choice of endpoints in antiplatelet trials: which
interés, aunque existan otras variables válidas, preci- outcomes are most relevant to stroke patients? Neu-
rology 2000; 54: 1022-1028.
sas y factibles de medir.
Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
medicamentos: fundamentos básicos, metodología y
Ejemplo 13.15. En un estudio se pretende evaluar la práctica. Barcelona: Doyma, 1994; 116-126.
eficacia de una intervención educativa sobre el con- Berger VW. Improving the information content of categori-
trol metabólico de los pacientes diabéticos y, en lugar cal clinical trial endpoints. Control Clin Trials 2002; 23:
de utilizar la hemoglobina glucosilada como varia- 502-514.
ble de respuesta, se escoge una determinación aisla- Hughes MD. Evaluating surrogate endpoints. Control Clin
da de glucemia, que es menos válida y precisa. Trials 2002; 23: 703-707.
Hulley SB, Cummings SR, Browner WS, Grady D, Hearst N,
Newman RB, eds. Designing clinical research: an epi-
PREGUNTAS SECUNDARIAS demiologic approach. 2.a ed. Baltimore: Lippincott
Williams & Wilkins, 2001.
La pregunta principal puede complementarse con Molenberghs G, Buyse M, Geys H, Renard D, Burzykowski T,
otras preguntas secundarias. Algunas de ellas harán Alonso A. Statistical challenges in the evaluation of sur-
referencia a subgrupos de sujetos de especial interés rogate endpoints in randomized trials. Control Clin
y otras requerirán variables de respuesta diferentes a Trials 2002; 23: 607-625.
la principal, ya sea complementándola o midiendo Rebagliato M, Ruiz I, Arranz M. Metodología de investi-
efectos diferentes. Deben fijarse a priori para evitar el gación en epidemiología. Madrid: Díaz de Santos, 1996.
131
Capítulo 14
Población de estudio
NIVELES DE POBLACIÓN
Muestreo Validez
Pueden considerarse tres niveles de población interna
(fig. 14.1):
Muestra
1. Población diana: conjunto de individuos al que Sujetos realmente
hace referencia la pregunta principal u objetivo estudiados
del estudio. Es la población a la que se desearía
generalizar los resultados. Se define principal-
mente por sus características clínicas y demográ- Figura 14.1. Selección de los sujetos de estudio.
ficas generales.
2. Población de estudio: subconjunto de la población
diana al que se tiene la intención de estudiar. Se 3. Muestra: conjunto de individuos realmente estu-
define por los criterios de selección establecidos diados. En la mayoría de las ocasiones, el núme-
en el protocolo y presenta determinadas carac- ro de sujetos necesarios para la realización del
terísticas geográficas y temporales que la hacen estudio es mucho menor que el de candidatos
accesible a los investigadores. que forman la población de estudio, por lo que,
132
POBLACIÓN DE ESTUDIO
por razones de eficiencia y disponibilidad de Ejemplo 14.2. Heiat et al (2002) revisaron 59 ensayos
recursos (viabilidad), se selecciona una muestra. clínicos aleatorios (ECA) efectuados en pacientes
En otras ocasiones, se incluyen sujetos consecuti- con insuficiencia cardíaca, y observaron que los su-
vamente hasta alcanzar el número necesario. En jetos incluidos eran más jóvenes, con un mayor por-
cualquier caso, la estrategia de inclusión de los centaje de varones y de raza blanca y con una mayor
sujetos debe intentar que la muestra sea repre- probabilidad de una fracción de eyección sistólica
sentativa de la población de estudio. alterada. La exclusión de determinados grupos de
pacientes en los ECA dificulta la generalización de
Ejemplo 14.1. Se desea ensayar un nuevo diurético sus resultados. Este mismo problema se ha puesto
para el control de la hipertensión arterial (HTA) de manifiesto para múltiples enfermedades.
esencial leve-moderada en pacientes de la tercera
edad. La población diana serían, pues, los sujetos de
PRINCIPIOS DE REPRESENTATIVIDAD
la tercera edad con HTA esencial leve-moderada.
Y COMPARABILIDAD
A continuación, deben establecerse criterios de inclu-
sión y exclusión para definir la población de estudio: La muestra de sujetos estudiada debe ser represen-
sujetos mayores de 65 años, con HTA esencial, con tativa de la población de estudio (principio de re-
cifras de presión arterial diastólica (PAD) entre 90 presentatividad). Este principio puede verse com-
y 109 mmHg, sin tratamiento previo, en los que se prometido cuando la muestra inicial ha sido mal
ha seguido un protocolo para descartar HTA secun- seleccionada o cuando, aun habiendo utilizado una
daria, que no han recibido tratamiento antihiper- técnica de muestreo adecuada, la variabilidad alea-
tensivo previamente, que no presentan otras pato- toria (el azar) ha hecho que se obtenga una mues-
logías concomitantes y que han sido visitados y tra no representativa, o cuando la muestra de suje-
diagnosticados en los centros en que trabajan los tos finalmente analizados está sesgada debido a las
investigadores. Se ha calculado que son necesarios no respuestas (sujetos de la muestra inicial de los
200 sujetos para la realización del estudio, por lo que no se ha podido obtener la información desea-
que los investigadores incluyen a los primeros 200 da) o pérdidas durante el seguimiento (en estudios
sujetos que cumplen los criterios de selección prospectivos).
(muestra).
Ejemplo 14.3. Supóngase que se desea conocer la opi-
La consideración de estos niveles tiene repercu- nión de los médicos de una provincia sobre un deter-
siones sobre la interpretación de los resultados. Un minado tema y, para ello, se envía un cuestionario a
investigador desea que sus observaciones puedan profesionales que trabajan en equipos de atención
generalizarse a todos los individuos que forman la primaria (EAP). La muestra resultante no es repre-
población diana, independientemente de que se sentativa de los médicos de la provincia, ya que no
visiten o no en los centros en que se realiza el estu- incluye a los médicos que no trabajan en EAP ni a los
dio. La posibilidad de realizar inferencias sobre que sólo tienen consulta privada, por ejemplo.
otras poblaciones dependerá, en primer lugar, de
cómo se haya diseñado y realizado la investigación, Ejemplo 14.4. Supóngase que en el ejemplo anterior
de si la muestra es representativa de la población de se selecciona una muestra aleatoria de médicos a par-
estudio, de si se han perdido sujetos que puedan tir del registro del Colegio de Médicos de la provin-
comprometer esta representatividad, de si los datos cia, a la que se le envía un cuestionario. Responde el
han sido medidos y registrados correctamente, y de 40% de los profesionales. Si la opinión de los que no
otros factores que condicionan la validez interna. responden difiere de la de los que sí lo han hecho, el
Por otro lado, la validez externa, o capacidad de resultado basado únicamente en las respuestas obte-
extrapolación de los resultados a poblaciones dife- nidas estará sesgado, ya que la muestra analizada no
rentes, o su generalización a otras más amplias de- es representativa de la población de estudio.
pende de factores como las diferencias entre la po-
blación de estudio y la población diana o entre el En los estudios analíticos debe cumplirse,
tipo de sujetos que se visitan en los centros de estu- además, el principio de comparabilidad de los grupos.
dio y la población diana. Estos estudios se basan en que los grupos son com-
133
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
parables por todos los factores pronóstico y en que Tabla 14.1. Características generales
se ha obtenido la información de la misma forma de la población de estudio
en todos los sujetos, de manera que las diferencias
en los resultados observados pueden atribuirse al – Pacientes idóneos para observar el efecto
factor que se está estudiando. o asociación de interés
– Individuos en los que exista una alta probabilidad
Ejemplo 14.5. En un estudio se revisan las historias de detectar el efecto hipotético o la asociación
clínicas de los sujetos que han sufrido un infarto de interés
agudo de miocardio con la finalidad de comparar su
pronóstico en función de si han recibido tratamien- – Sujetos que probablemente cumplirán el
to médico o quirúrgico. Ya que la indicación del protocolo de estudio (en función del objetivo)
tipo de tratamiento depende de la gravedad de la – Excluir aquellos sujetos en los que exista una alta
enfermedad y de otros factores, los grupos no son probabilidad de que no pueda medirse la respuesta
comparables (p. ej., entre los sujetos que han recibi-
do tratamiento médico pueden haber tanto sujetos
con enfermedad leve como individuos que estén tan
graves que en ellos esté contraindicada la cirugía). tes que puedan beneficiarse de ella, y se exclui-
rían los que presenten enfermedades o situacio-
El principio de comparabilidad se discute más nes concomitantes (embarazo, edad avanzada,
ampliamente en el capítulo destinado a la forma- alergias, etc.) en las que la intervención pueda
ción de los grupos de estudio. resultar peligrosa o causar efectos indeseables.
– Seleccionar individuos en los que exista una alta proba-
bilidad de detectar el efecto o la asociación de interés. La
POBLACIÓN DE ESTUDIO
selección de los sujetos debe hacerse de forma
Su definición permitirá identificar en qué indivi- que se optimicen las posibilidades de detectar la
duos se evaluará la presencia del efecto o asocia- diferencia o asociación que se busca. Esta consi-
ción de interés, evaluar su idoneidad para alcanzar deración es especialmente importante cuando se
el objetivo, así como la posibilidad de extrapolación estudian fenómenos que se presentan con una
de los resultados a otras poblaciones. Así mismo, baja frecuencia o con una latencia muy prolonga-
permitirá que otros investigadores puedan utilizar da. Para reducir el número de sujetos necesarios
criterios semejantes a la hora de diseñar estudios o la duración del seguimiento, muchos estudios
con objetivos similares. seleccionan poblaciones de alto riesgo.
134
POBLACIÓN DE ESTUDIO
seleccionar un grupo de muy alto riesgo, ya que, si niente excluir pacientes embarazadas, ya que el
no, se hubiera necesitado un tamaño de muestra y parto puede interferir con el seguimiento.
un seguimiento mucho mayor para encontrar un
efecto significativo. C RITERIOS DE SELECCIÓN
Los criterios de selección deben establecerse en tér-
– Seleccionar sujetos que probablemente cumplirán el pro- minos realistas que permitan la inclusión del nú-
tocolo de estudio. Se pretende evitar situaciones mero deseado de sujetos en el tiempo previsto.
como omisiones de información o incumplimien- Aunque es posible que sean diferentes en estudios
tos de la intervención que podrían comprometer con objetivos similares, pueden agruparse en cua-
la validez interna del estudio. tro grandes categorías (tabla 14.2):
135
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
136
POBLACIÓN DE ESTUDIO
lados que habían participado en ensayos clínicos esta misma enfermedad en la población deman-
con los que no lo habían hecho, y comprobaron dante de un centro, la muestra deberá ser repre-
que los primeros tomaban dosis superiores de cor- sentativa de aquellos que se visitan en el centro.
ticoides y acudían menos a los servicios de urgen- Desde un punto de vista estricto, los resultados
cias, demostrando la existencia de diferencias que de un estudio son aplicables a la población de la
pueden limitar la generalización de los resultados. que la muestra de sujetos estudiados sea realmente
representativa. Por tanto, los resultados que se ob-
Al definir los criterios de selección, los investiga- tienen pueden variar en función de los criterios de
dores deben tener en cuenta algunas consideracio- selección utilizados y del ámbito o tipo de centro en
nes generales (tabla 14.3) y balancear la necesidad que se realiza el estudio. De hecho, algunas de las
de definir una población lo suficientemente diferencias observadas en la literatura entre estu-
homogénea como para permitir detectar el efecto o dios dependen más de la diferente procedencia de
asociación que se busca con la necesidad de facili- los sujetos que de otros aspectos del diseño.
tar la generalización de los resultados, lo que habi-
tualmente implica adoptar una posición interme- Ejemplo 14.11. Ellenberg y Nelson (1980) revisaron
dia entre ambos extremos. los estudios publicados sobre la pertinencia del tra-
tamiento preventivo de las recurrencias de las crisis
convulsivas febriles en la infancia. Por un lado, en
Tabla 14.3. Consideraciones generales los estudios de base poblacional se encontraron
en la definición de criterios tasas de recurrencia muy bajas, entre 1,5 y 4,6%,
para la selección de la población mientras que si los niños estudiados procedían de
de estudio consultas hospitalarias o unidades especializadas,
las tasas eran muy variables, y en general más altas
– Optimización de las posibilidades de detectar (desde 2,6 hasta 76,9%). Si se tuvieran en cuenta
una diferencia o asociación, si existe únicamente los resultados del último tipo de estu-
– Población suficientemente homogénea respecto dios, la necesidad de un tratamiento preventivo de
a las características más relevantes del fenómeno las recurrencias parecería clara. Sin embargo, si se
de estudio consideran los estudios de base poblacional, esta
– Debe asemejarse, dentro de unos límites decisión no es tan evidente. Esto no significa que
razonables, a la población diana a la que unos sean mejores que otros, sino simplemente
se desearía generalizar los resultados que las poblaciones estudiadas son distintas en lo
que se refiere al tipo de enfermedad, su gravedad,
– Criterios realistas que permitan la inclusión del
otras patologías concomitantes, etc., por lo que es
número deseado de sujetos en el tiempo previsto
importante que los investigadores utilicen criterios
– Aspectos éticos de selección coherentes con el objetivo concreto
del estudio.
137
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
138
POBLACIÓN DE ESTUDIO
Bell-Syer SE, Moffett JA. Recruiting patients to randomized McMahon AD. Study control, violators, inclusion criteria
trials in primary care: principles and case study. Fam and defining explanatory and pragmatic trials. Stat Med
Pract 2000; 17: 187-191. 2002; 21: 1365-1376.
Fairhurst K, Dowrick C. Problems with recruitment in a ran- Olson SH, Voigt LF, Begg CB, Weiss NS. Reporting partici-
domised controlled trial of counselling in general prac- pation in case-control studies. Epidemiology 2002; 13:
tice: causes and implications. J Health Serv Res Policy 123-126.
1996; 1: 77-80. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS. Se-
Foy R, Parry J, Duggan A et al. How evidence based are lection of controls in case-control studies. I. Principles.
recruitment strategies to randomized controlled trials in Am J Epidemiol 1992; 135: 1019-1028.
primary care? Experience from seven studies. Fam Pract Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
2003; 20: 83-92. Selection of controls in case-control studies. II. Types of
Gross CP, Mallory R, Heiat A, Krumholz HM. Reporting the controls. Am J Epidemiol 1992; 135: 1029-1041.
recruitment process in clinical trials: who are these pa- Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
tients and how did they get there? Ann Intern Med 2002; Selection of controls in case-control studies. III. Design
13: 10-16. options. Am J Epidemiol 1992; 135: 1042-1050.
Haidich AB, Ioannidis JP. Patterns of patient enrollment in
randomized controlled trials. J Clin Epidemiol 2001; 54:
877-883.
139
Capítulo 15
Tamaño de la muestra
l cálculo del tamaño de la muestra permite res- evaluar cuál de dos pautas terapéuticas consigue un
140
TAMAÑO DE LA MUESTRA
precisión de la estimación, depende del grado de Tabla 15.1. Fórmulas para el cálculo
confianza, la variabilidad del parámetro de interés y del número de sujetos necesarios
el número de sujetos estudiados. Cuanto menor sea para la realización de un estudio
la variabilidad del parámetro y mayor el número de cuyo objetivo es la estimación
sujetos, mayor precisión existirá en la estimación de una media o una proporción
para un grado de confianza determinado. Cuanta
más confianza se desee obtener, más amplio será el Estimación de una proporción
IC, y menor la precisión obtenida. (variable cualitativa)
Zα2 P (1 – P)
C ÁLCULO DEL TAMAÑO DE LA MUESTRA N=
i2
Para calcular el tamaño de la muestra debe conocerse: Estimación de una media
(variable cuantitativa)
– La variabilidad del parámetro que se desea estimar. Zα2 s2
Si no se conoce, puede obtenerse una aproxima- N=
ción a partir de datos propios o de otras investiga- i2
ciones, o un estudio piloto. En el caso de las varia-
bles cuantitativas se mide por la variancia, y en el de N: número de sujetos necesarios.
Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
las cualitativas, por el producto P·(1 – P).
P: valor de la proporción que se supone existe en la
– La precisión con que se desea obtener la estimación, es población.
decir, la amplitud del IC. Cuanto más precisa se s2: variancia de la distribución de la variable cuantitativa
desee, más estrecho deberá ser este intervalo, y más que se supone que existe en la población.
sujetos deberán ser estudiados. La precisión debe i: precisión con que se desea estimar el parámetro
fijarse previamente, en función de la finalidad de la (2·i es la amplitud del intervalo de confianza).
estimación. En algunos casos, puede requerirse una
gran precisión, mientras que, en otros, si sólo se nece-
sita conocer aproximadamente entre qué valores se que debe estar situado alrededor del 40% (p = 0,40).
encuentra el parámetro, se requerirá una menor pre- Se quiere realizar la estimación con una precisión de
cisión y, consecuentemente, menos sujetos. ± 4% (i = 0,04) y una confianza del 95% (1 – α = 0,95;
– El nivel de confianza deseado, que habitualmente se α = 0,05; Zα = 1,96). Aplicando la fórmula correspon-
fija en el 95%, correspondiente a un valor α de 0,05. diente, se obtiene que se precisan 576 sujetos. La
Este valor indica el grado de confianza que se tiene tabla A proporciona el mismo resultado.
de que el verdadero valor del parámetro en la
población se sitúa en el intervalo obtenido. Cuanta Esta estimación del número de sujetos realizada a
más confianza se desee, menor será el valor de α, priori no es más que una aproximación. Si en el ejem-
y más elevado el número de sujetos necesario. plo el porcentaje real de pacientes controlados es
diferente del 40%, puede alterarse el grado de preci-
De estos tres elementos, sólo debe conocerse la sión de la estimación.
variabilidad del parámetro, ya que tanto la precisión En la tabla 15.2 puede apreciarse cómo diferentes
como el nivel de confianza se fijan a partir de los inte- grados de precisión y diferentes valores del porcenta-
reses del investigador. je esperado modifican el número de sujetos necesa-
rios. Así, por ejemplo, para estimar el porcentaje del
Estimación de una proporción 40% del ejemplo 15.2 con el mismo nivel de confian-
La fórmula para el cálculo del número de sujetos para za del 95%, los 576 sujetos se convierten en 9.220
estimar una proporción se presenta en la tabla 15.1. cuando se desea una precisión muy alta (i = 0,01), o
También puede utilizarse la tabla A que se encuentra en tan sólo 92 si se es menos exigente (i = 0,1). Mo-
al final del libro. dificando cualquiera de estos valores, puede obte-
nerse un número de individuos que se aproxime al
Ejemplo 15.1. Un estudio se propone estimar el por- «deseado» o al disponible. Debe evitarse cualquier
centaje de pacientes hipertensos de un centro que es- manipulación del cálculo, ya que, al reducir el núme-
tán controlados. A partir de datos previos, se estima ro de sujetos que se van a estudiar, también disminu-
141
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 15.2. Influencia de la precisión forma que el número obtenido supera cualquier otra
de la estimación y del valor combinación de parámetros. Esta actitud también es
supuesto de la proporción útil, por ejemplo, cuando se realizan encuestas en las
que se desea estimar sobre que interesa estimar múltiples parámetros. Su incon-
el número de sujetos necesarios veniente es que requiere el estudio de un número de
sujetos a veces muy superior al realmente necesario.
Influencia de la precisión
P i N Estimación de una media
El cálculo es similar a la situación anterior (ver tabla
0,40 0,100 92 15.1). También debe fijarse el nivel de confianza y la
0,40 0,075 164 precisión de la estimación, que se traduce en la ampli-
0,40 0,050 369 tud del intervalo alrededor de la media que se desea
0,40 0,025 1.475 estimar. En las variables cuantitativas, la medida de la
0,40 0,010 9.220
variabilidad viene proporcionada por la variancia de
su distribución en la población. La tabla B del final del
Influencia del valor de la proporción
libro proporciona una fácil solución alternativa al
P i N
cálculo matemático.
0,10 0,05 138
0,20 0,05 246 Ejemplo 15.2. Supongamos que se desea estimar la
0,30 0,05 323 tensión arterial diastólica (TAD) de los pacientes
0,40 0,05 369 diabéticos registrados en un centro de salud. Por estu-
0,50 0,05 384 dios previos, se conoce que la desviación estándar de
la TAD en sujetos diabéticos es de 25 mmHg (s = 25
Todos los cálculos se han realizado con el grado de confianza mmHg; s2 = 625 mmHg). Se quiere realizar la estima-
del 95%. ción con una confianza del 95% (1 – α = 0,95) y una
P: valor supuesto de la proporción que se desea estimar. precisión de α 5 mmHg (i = 5). Aplicando la fórmula,
i: medida de la precisión de la estimación, que corresponde a se puede determinar que son necesarios 96 sujetos.
la mitad del intervalo de confianza. Esta cifra debe aumentarse en función del porcenta-
N: número de sujetos necesarios para realizar la estimación de
je de sujetos en que se prevea que no podrá determi-
P con la precisión deseada y el 95% de confianza.
narse la TAD. El mismo resultado se obtiene consul-
tando la tabla B en la línea correspondiente al valor
ye el grado de precisión con que el parámetro va a ser i/s = 5/25 = 0,200.
estimado y aumenta la amplitud del IC.
En el cálculo del tamaño de la muestra también Si no se dispone de una estimación de la variabili-
debe tenerse en cuenta la estrategia de análisis y cómo dad, puede utilizarse una regla práctica, que consiste
se presentarán los resultados. Así, si en el ejemplo 15.1 en determinar la diferencia entre los valores máximo
los investigadores presentan el resultado principal en y mínimo esperables. Dado que se asume que es-
función del sexo, la estratificación hará que la estima- ta variable es de distribución normal, el intervalo
ción se haya obtenido en un número menor de suje- m ± (2s), siendo m la media y s la desviación estándar
tos, por lo que la precisión será menor de la deseada. de la distribución, incluye aproximadamente el 95% de
En algunas ocasiones no se conoce el valor apro- los valores posibles, por lo que, al dividir dicha ampli-
ximado del parámetro que se está buscando. Si no tud de valores entre 4, puede obtenerse una cierta
existen datos de la literatura que resulten útiles, o si aproximación al valor de la desviación estándar s.
no puede realizarse una prueba piloto para obtener
una primera aproximación a dicho valor, puede C ORRECCIÓN PARA POBLACIONES
adoptarse la postura de la máxima indeterminación. FINITAS
Esta actitud consiste en suponer que el porcentaje En los cálculos anteriores no ha intervenido el tamaño
que se quiere estimar se sitúa alrededor del 50%, de la población, ya que en ellos se ha asumido que es
ya que es el valor que requiere una mayor cantidad infinito. Sin embargo, en muchas ocasiones, es preciso
de individuos para una precisión determinada, de obtener una muestra de una población de tamaño
142
TAMAÑO DE LA MUESTRA
conocido (finito). En esta situación, puede aplicarse la que B es más eficaz que A en el tratamiento de los
siguiente fórmula que ajusta el número de individuos hipertensos esenciales de edad avanzada. En la reali-
necesarios según el tamaño de la población: dad, esta hipótesis puede ser verdadera o falsa, y eso
es lo que se trata de averiguar. Dado que el investiga-
na = n / [1 + (n/N)] dor no puede estudiar todos los hipertensos esencia-
les de edad avanzada, la hipótesis debe contrastarse
donde na es el número de sujetos necesarios, n es el en una muestra de esta población. A partir única-
número de sujetos calculado para poblaciones infini- mente de los datos recogidos en un estudio, no pue-
tas y N es el tamaño de la población. de aceptarse o rechazarse absolutamente la hipótesis
que se contrasta. Existe cierto riesgo de error, sea
Ejemplo 15.3. En el ejemplo 15.1 se ha calculado que cual sea la conclusión a la que se llegue.
son necesarios 576 sujetos para estimar el porcentaje
de hipertensos controlados de un centro, realizando Error α y error β
determinadas asunciones. Si la población de referen- Desde el punto de vista estadístico, el investigador se
cia es de 1.000 hipertensos, aplicando la fórmu- enfrenta al problema del contraste de una hipótesis
la anterior podría determinarse que son necesarios realizando la asunción de que no existen diferencias
365 pacientes hipertensos. en la eficacia de los dos fármacos A y B (hipótesis nula).
A partir de los resultados observados en la muestra, el
investigador utilizará las pruebas de significación
ESTUDIOS QUE COMPARAN
estadística para evaluar si existe la suficiente evidencia
DOS GRUPOS
que le permita rechazar esta hipótesis nula y, conse-
Muchos estudios tienen por objetivo responder a pre- cuentemente, aceptar la hipótesis alternativa de que sí
guntas del siguiente tipo: ¿es más eficaz el fármaco A existen diferencias entre ambas terapéuticas.
que el B en el tratamiento de una enfermedad?, ¿exis- El error tipo I, conocido también como error α (ta-
te un aumento del riesgo de malformaciones congé- bla 15.3), se comete cuando el investigador rechaza la
nitas en los niños nacidos de madres que han padeci- hipótesis nula, siendo ésta verdadera en la población.
do cierto trastorno durante el embarazo?, etc. Es equivalente a encontrar un resultado falso positivo,
ya que el investigador concluye que hay una diferen-
C ONSIDERACIONES PREVIAS : cia, cuando en realidad no existe.
PRUEBAS DE CONTRASTE DE HIPÓTESIS El error tipo II, o error ß (ver tabla 15.3), se comete en
Bajo las preguntas que se han planteado en el párra- la situación contraria, cuando el investigador no recha-
fo anterior, subyace una hipótesis, por ejemplo, la de za la hipótesis nula, siendo ésta falsa en la población.
Tabla 15.3. Tipos de error aleatorio en una prueba estadística de contraste de hipótesis
Realidad (población)
Existe diferencia No existe diferencia
o asociación o asociación
(Ho falsa) (Ho cierta)
Resultado Diferencia
de la prueba o asociación No error Error tipo I
(muestra) significativa α
(rechazo de Ho)
Diferencia
o asociación Error tipo II No error
no significativa β
(no rechazo de Ho)
143
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Es equivalente a un resultado falso negativo, ya que el formulación precisa de la hipótesis que se contrasta.
investigador concluye que ha sido incapaz de encon- Si se pretende determinar si dos fármacos A y B difie-
trar una diferencia que existe en la realidad. Si ß re- ren en su eficacia, sin suficiente evidencia de cuál de
presenta la probabilidad de un resultado falso negati- ellos ha de ser mejor o peor, se habla de hipótesis bila-
vo, su complementario 1 – ß, conocido como poder o teral, o de dos colas (fig. 15.1). En cambio, si la hipó-
potencia estadística, representa la probabilidad de obser- tesis alternativa es que el fármaco A es más eficaz que
var en la muestra una determinada diferencia o un el B, se habla de hipótesis unilateral, o de una cola. En
efecto, si existen en la población. este caso, interesa únicamente evaluar si B es, como
Para calcular el tamaño de la muestra, se fijan a mínimo, tan eficaz como A, es decir, tan sólo una de
priori los riesgos que se está dispuesto a asumir de las direcciones de la comparación.
cometer estos errores. Lo ideal sería poder reducirlos Desde un punto de vista estricto, son preferibles
a cero, pero ello no es posible. Una de las formas las hipótesis bilaterales, ya que son más conservado-
para disminuirlos consiste en aumentar el número ras y requieren un mayor número de participantes.
de sujetos estudiados.
Magnitud de la diferencia
Hipótesis unilaterales o de la asociación
e hipótesis bilaterales La magnitud de la diferencia o de la asociación tiene
Desde el punto de vista estadístico, otro aspecto que una gran influencia sobre el tamaño de la muestra. Si
afecta al cálculo del tamaño de la muestra es el de la la diferencia es muy amplia (p. ej., si la eficacia del
Prueba unilateral*
Ho: A ≤ B
Ha: A > B
α = 0,05
0 Z = 1,645
Prueba bilateral**
Ho: A = B
Ha: A = B
Z = – 1,96 0 Z = 1,96
Figura 15.1. Valores de la distribución normal tipificada (Z) correspondientes al valor α del 5% en las pruebas
estadísticas unilaterales y bilaterales.
144
TAMAÑO DE LA MUESTRA
fármaco A es el doble que la del B), se podrá detectar fármacos en el cálculo del tamaño de la muestra, se
con más facilidad que si es de escasa magnitud, y necesitará un número reducido de sujetos, pero una
requerirá un número menor de sujetos. En la ta- diferencia del 40%, que puede ser muy importante
bla 15.4 puede apreciarse cómo una diferencia de desde el punto de vista clínico, no será estadística-
40 mg/100 ml en la media de colesterol de dos mues- mente significativa, ya que el investigador ha decidi-
tras puede ser significativa, aunque se hayan estudia- do considerar como importantes sólo las diferencias
do tan sólo 20 sujetos, mientras que una pequeña superiores al 50%.
diferencia de 3 mg/100 ml no alcanza suficiente sig- En función del enfoque del estudio, esta magni-
nificación, aunque se hayan estudiado 200 individuos tud puede fijarse como una diferencia entre grupos,
en cada grupo. o bien, en términos relativos, como una relación de
Para calcular el tamaño de la muestra, debe defi- riesgos.
nirse la mínima magnitud de la diferencia o de la aso-
ciación que se desea detectar y que se considera de C ÁLCULO DEL TAMAÑO DE LA MUESTRA
relevancia clínica. Esta diferencia debe fijarse en tér- Para calcular el tamaño de la muestra deben utilizar-
minos realistas, dentro del rango de valores espera- se los siguientes elementos principales (tabla 15.5):
bles. A menudo, es tentador utilizar diferencias más
amplias, ya que se obtiene un tamaño de la muestra – Definir la hipótesis que se va a contrastar, precisan-
más reducido. Esta actitud debe evitarse, ya que do si es uni o bilateral.
implica que diferencias menores a la establecida, a – Establecer el riesgo de cometer un error de tipo I
pesar de que pueden ser de importancia clínica, no (α) que se está dispuesto a aceptar. Habitualmente
alcanzarán el grado de significación estadística con el suele aceptarse un riesgo α del 5%, y preferible-
número de sujetos estudiados. Si, por ejemplo, se uti- mente con hipótesis bilaterales, ya que son más con-
liza una diferencia del 50% en la eficacia de los dos servadoras.
Ejemplo 1. Una diferencia de gran magnitud es estadísticamente significativa incluso con un reducido número
de sujetos
Colesterolemia
n (media ± DE) t p
Muestra 1 20 260 ± 20
6,32 < 0,001
Muestra 2 20 220 ± 20
Ejemplo 2. Una diferencia de escasa magnitud no es estadísticamente significativa, aunque se haya estudiado
un elevado número de sujetos
Colesterolemia
n (media ± DE) t p
Muestra 1 200 218 ± 20
1,5 0,14
Muestra 2 200 215 ± 20
145
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 15.5. Elementos que intervienen – Establecer, así mismo, el riesgo que se acepta de
en el cálculo del número de sujetos cometer un error tipo II (ß). Habitualmente se sitúa
necesarios para la realización entre el 5 y el 20%. La elección variará en función de
de un contraste de hipótesis las consecuencias que pueda tener cometer dicho
error. A menudo, es más fácil enfrentar esta decisión
1. Hipótesis uni o bilateral a partir del concepto de poder o potencia estadística
(1 – ß), que es la capacidad del estudio para detectar
2. Riesgo aceptado de cometer un error α
una determinada diferencia. Aceptar el riesgo de
3. Riesgo aceptado de cometer un error β cometer un error ß del 20% significa que, si la dife-
(potencia: 1 – β) rencia que se busca existe en la realidad, el estudio
4. Magnitud mínima de la diferencia o asociación tiene un 80% de probabilidades de detectarla.
que se considera importante detectar – Definir la magnitud de la diferencia, el efecto o la
asociación que se quiera detectar. Debe basarse en
5. Variabilidad de la variable de respuesta
datos de estudios previos o de la literatura que defi-
en el grupo de referencia
nan el rango de los valores esperables, y en la míni-
6. Otros factores: ma magnitud que se considere de relevancia clínica.
• Prueba estadística que se utilizará en el análisis – Es necesario, también, disponer de alguna medida
• Tipos especiales de diseño del estudio de la variabilidad de la variable de respuesta en la
• Comparación de más de dos grupos población o grupo de referencia.
• Grupos de tamaño diferente
• Equivalencia de las intervenciones De estos cinco elementos, sólo debe conocerse el
• Estratificación por las características basales último, ya que los cuatro primeros son fijados por
• Múltiples variables de respuesta el investigador. A continuación, se aplica la fórmula
• Porcentaje de pérdidas y abandonos esperado correspondiente, que depende de la prueba estadísti-
durante el seguimiento ca que vaya a ser utilizada en el análisis. En la tabla 15.6
se presentan las fórmulas de uso más habitual, corres-
Tabla 15.6. Fórmulas para el cálculo del número de sujetos necesarios por grupo en un estudio
cuyo objetivo es la comparación de dos muestras del mismo tamaño
2·(Zα + Zβ)2·s2
N=
d2
146
TAMAÑO DE LA MUESTRA
pondientes a la comparación de dos variables dicotó- que comparan dos grupos, y para ello utilizan una
micas (dos proporciones) o de dos variables cuantita- variable de respuesta cualitativa dicotómica.
tivas (dos medias). Las tablas 15.7 y 15.8 recogen los
valores de la variable normal tipificada, correspon- Ejemplo 15.4. Un estudio tiene por objetivo determi-
dientes a los riesgos a y ß utilizados con mayor fre- nar si un nuevo tratamiento T consigue un mayor
cuencia en dicho cálculo, respectivamente. porcentaje de éxitos en las sobreinfecciones respira-
Las fórmulas pueden resultar algo complicadas, torias que el tratamiento estándar E. Lo primero que
por lo que se recomienda utilizar tablas como las pre- debe conocerse es el porcentaje de curaciones en
sentadas al final del libro (tablas C y D). pacientes de características similares a los que van a
ser estudiados, obtenido con el tratamiento estándar
E. Supongamos que esta cifra se sitúa alrededor del
Tabla 15.7. Valores de Zα utilizados 40% (P1 = 0,4).
con mayor frecuencia en el cálculo El siguiente paso es determinar la diferencia míni-
del tamaño de la muestra ma que se quiere detectar, es decir, responder a la pre-
gunta: ¿a partir de qué porcentaje de éxitos con el
Zα nuevo tratamiento se considerará que éste es mejor
Prueba Prueba que E y, por lo tanto, se estará dispuesto a modificar la
α unilateral bilateral pauta terapéutica habitual? Es decir, si el porcentaje
de individuos curados con T es del 41%, ¿puede con-
0,200 0,842 1,282 siderarse que esta diferencia del 1% es un resultado lo
0,150 1,036 1,440 suficientemente importante para modificar la pauta
0,100 1,282 1,645 terapéutica?, ¿o se exigirá un mínimo, por ejemplo,
0,050 1,645 1,960 del 50% de éxitos? La respuesta a estas preguntas
0,025 1,960 2,240 depende de muchos factores, tales como la seguridad
0,010 2,326 2,576 del fármaco, la facilidad de administración o el cos-
te, entre otros. Supongamos que los investigadores
consideran que, si se cura el 50% de pacientes con T
Tabla 15.8. Valores de Zβ utilizados (P2 = 0,5), se aceptará como la elección terapéutica.
con mayor frecuencia en el cálculo A continuación, sólo falta determinar los niveles de
del tamaño de la muestra riesgo de cometer algún tipo de error aleatorio que se
está dispuesto a asumir. Supongamos que se acepta el
Potencia nivel de riesgo α habitual del 5% con una hipótesis
bilateral y un riesgo β del 20% (potencia: 1 – β = 0,80).
β (1 – β) Zβ
Aplicando la fórmula de la tabla 15.6 puede cal-
0,01 0,99 2,326 cularse que son necesarios 387 sujetos por grupo de
0,05 0,95 1,645 estudio. Con la tabla C del final del libro se obtiene la
0,10 0,90 1,282 misma cifra.
0,15 0,85 1,036 Este número indica los sujetos que deben finalizar
0,20 0,80 0,842 el estudio para tener un 80% de probabilidades de
0,25 0,75 0,674 detectar una diferencia igual o superior a la fijada,
0,30 0,70 0,524 con un nivel de error α del 5%. Por lo tanto, hay que
0,35 0,65 0,385 incrementarlo en función del número de pérdidas de
0,40 0,60 0,253 seguimiento y de abandonos que se prevea que ocu-
0,45 0,55 0,126 rrirán durante el estudio.
0,50 0,50 0,000
El tamaño de la muestra requerido es mayor cuan-
to más pequeña es la diferencia que se desea detectar
Comparación de dos proporciones y menos elevados son los riesgos α y β que se aceptan.
La comparación de dos proporciones es, probable- Es importante destacar que una misma diferencia del
mente, la prueba de contraste de hipótesis más utili- 5% entre dos porcentajes requiere el máximo núme-
zada en investigación clínica. Se trata de estudios ro de pacientes cuando éstos se sitúan alrededor del
147
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
50%. Ello se debe a que, si el porcentaje del grupo de mero suficiente de expuestos. Si la frecuencia de la ex-
referencia es del 5%, una diferencia del 5% impli- posición en la población general (f) fuera de un 20%,
ca que el grupo de estudio debe pasar a un 10%, es sería necesario examinar a N/f = 199/0,2 = 995 sujetos
decir, dobla la eficacia. En cambio, si el porcentaje para encontrar a 199 expuestos.
del grupo de referencia es del 50%, una diferen-
cia del 5% implica solamente un incremento relativo Estimación de una odds ratio
del 10%, es decir, pasar del 50 al 55%. En los estudios de casos y controles, la magnitud de la
asociación se estima mediante la odds ratio (OR). Se trata
Estimación de un riesgo relativo de una situación similar a la de la estimación de un RR,
Si el objetivo del estudio es determinar la magnitud de en la que debe conocerse la proporción de exposición
la asociación en términos relativos, la medida que se esperada en los controles (P1) y fijar la magnitud de la
utilizará en los estudios prospectivos (ensayos clínicos OR que se desea detectar. Análogamente a la situación
y estudios de cohortes) es el riesgo relativo (RR). Lo anterior, la proporción esperada de exposición entre los
que debe fijarse en este caso es la mínima magnitud casos es
del RR que se quiere ser capaz de detectar. En esta
situación, puede utilizarse la misma fórmula que en el P2 = (P1·OR) / [1 + P1·(OR – 1)].
caso de la comparación de dos proporciones, teniendo
en cuenta que RR = P2/P1. La magnitud de la asocia- La tabla E del final del libro presenta el resultado
ción que se quiere detectar corresponde al mínimo RR del cálculo del número de sujetos necesarios para los
que se considerará de importancia clínica, donde P1 es estudios que estiman una OR en las situaciones más
el riesgo de desarrollar la enfermedad en el grupo no habituales.
expuesto y P2 el riesgo de desarrollarla en el grupo
expuesto (P2 = P1·RR). Ejemplo 15.6. Un estudio de casos y controles pre-
La tabla D del final del libro presenta el resultado tende evaluar el riesgo de padecer un infarto agudo
del cálculo del número de sujetos necesarios para los de miocardio (IAM) asociado al uso de anticoncepti-
estudios que estiman un RR en las situaciones más vos orales (AO) en mujeres jóvenes. Se estima que la
habituales. proporción esperada de uso de AO en la población
candidata a ser incluida en el grupo control es del
Ejemplo 15.5. Se pretende realizar un estudio de co- 30% (P1 = 0,30). El incremento mínimo del riesgo
hortes con el objetivo de estimar el riesgo de desarro- que se quiere detectar es de 3 (OR = 3). El riesgo α es
llar infarto agudo de miocardio (IAM) asociado a la de 0,05 (hipótesis bilateral) y el riesgo ß es de 0,10
hipercolesterolemia. El riesgo esperado en la cohor- (potencia: 1 – ß = 0,90). Por lo tanto:
te no expuesta (P1) es del 10% a los diez años (inci-
dencia acumulada). El riesgo relativo (RR) que se P2 = (0,3·3) / [1 + 0,3·(3 – 1)] = 0,56
considera relevante detectar es de 2. El valor del ries-
go de cometer un error α será el convencional del Aplicando la fórmula de la tabla 15.6, puede de-
5% (hipótesis bilateral) y el de cometer un error ß, terminarse que son necesarios 74 sujetos por grupo.
del 20% (potencia: 1 – β = 0,80). A partir de estos La tabla E del final del libro proporciona un resulta-
datos, puede calcularse el valor de P2: do similar.
148
TAMAÑO DE LA MUESTRA
T2, con la finalidad de determinar cuál de ellas con- te fijando diferencias muy pequeñas, se requerirá un
sigue un mayor control de la enfermedad. Se utiliza número muy elevado de sujetos.
habitualmente la pauta T1, con la que se consigue La tabla 15.9 presenta la fórmula para el cálculo
unos valores medios de fructosamina de 3 mmol/l, del tamaño de la muestra cuando la variable de res-
con una desviación estándar de 0,625 mmol/l. Por lo puesta es dicotómica. La tabla G del final del libro
tanto, el valor de la variancia s2 es de (0,625)2 = 0,39. presenta el número de sujetos necesarios para estu-
A continuación, se establece que la diferencia míni- dios de equivalencia en las situaciones más habituales.
ma entre ambos grupos que se considera de relevan-
cia clínica es de 0,5 mmol/l (d = 0,5). El riesgo de
error α que se está dispuesto a asumir es de 0,05. Tabla 15.9. Fórmula para el cálculo
Dado que se pretende evaluar qué pauta es más efi- del tamaño de la muestra
en un estudio de equivalencia
caz, se trata de una hipótesis bilateral. Interesa tener
(variable cualitativa)
una capacidad del 90% para detectar la diferencia, si
existe realmente (1 – ß = 0,90).
Para utilizar la tabla F del final del libro, debe calcu- 2·P·(1 – P)·(Zα + Zβ)2
N=
larse el valor d/s, que corresponde al cociente entre la d2
diferencia que se quiere detectar y la desviación están-
dar de la variable de respuesta en el grupo de referen- N: número de sujetos necesarios en cada uno de los grupos.
cia. En este caso, corresponde a 0,5/0,625 = 0,8. Bus- Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
cando este valor en la primera columna de las tablas, Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8).
y leyendo la fila correspondiente al valor de α de 0,05 P: proporción que se espera en el grupo control.
en una hipótesis bilateral, en el punto de intersección d: diferencia máxima entre la eficacia de ambos tratamientos
que se tolerará para concluir que son equivalentes.
con la potencia de 0,90, se obtiene un tamaño de 33
sujetos por grupo; es decir, en total, debe incluirse en
el estudio un mínimo de 66 personas. El mismo resul- Ejemplo 15.8. Un estudio se propone evaluar la efica-
tado se obtiene utilizando la fórmula de la tabla 15.6. cia de una pauta monodosis para el tratamiento de
las infecciones urinarias frente a la pauta habitual
Equivalencia de dos intervenciones de 7-10 días, cuya eficacia se sitúa alrededor del 90%
En ocasiones se diseña un estudio para determinar si (P = 0,90). La monodosis es menos costosa y facilita el
una nueva intervención, que ofrece alguna ventaja, cumplimiento del paciente, por lo que interesa deter-
como ser menos costosa o producir menos efectos minar si la monodosis y la pauta de 7-10 días pueden
secundarios, es tan eficaz como la terapéutica habi- considerarse equivalentes. Se concluirá que lo son si
tual. El problema radica en que no existe un procedi- la diferencia de eficacia entre ellas no supera el 15%.
miento estadístico para demostrar la equivalencia de Se aceptan los niveles de error α del 0,05 (hipótesis
ambas pautas. La ausencia de significación estadística bilateral) y ß del 20% (potencia: 1 – ß = 0,80). Apli-
en su comparación no significa que sean idénticas, cando la fórmula, puede determinarse que son nece-
especialmente en estudios con pocos sujetos. sarios 63 sujetos por grupo. La tabla G del final del
El concepto de equivalencia requiere descartar libro proporciona el mismo resultado.
pequeñas diferencias en la respuesta a las interven-
ciones. Para considerar dos intervenciones equiva- Comparación de grupos cuando la
lentes, la diferencia entre ellas debe ser menor que la variable de respuesta es ordinal
mínima diferencia clínicamente significativa, defini- Cuando la variable de respuesta se mide en una esca-
da ésta como la diferencia entre los resultados que la ordinal, o cuando en el análisis deben utilizarse
induciría a adoptar la mejor terapia. El procedimien- pruebas estadísticas no paramétricas, el cálculo es
to que se sigue es el de utilizar este valor como la dife- más complejo. Por criterios de operatividad, suele
rencia que se desea detectar en el cálculo del núme- calcularse el tamaño como si fuera a utilizarse una
ro de sujetos. De esta forma, si existe una diferencia prueba paramétrica. La estimación será tanto mejor
real igual o mayor, el estudio tiene las suficientes cuanto menos se aleje la distribución de la variable
garantías (potencia estadística) para detectarla. Si se de la ley normal.
quiere determinar con un alto grado de confianza la En el anexo 7 se presenta el cálculo del tamaño
existencia de una equivalencia definida estrictamen- de la muestra en otras situaciones.
149
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
150
Capítulo 16
Muestreo
151
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
pueden dedicar más esfuerzos al estudiar un menor El primer paso para planificar un muestreo sue-
número de individuos. Paradójicamente, podría le ser la definición del marco muestral, que es esen-
darse el caso de que se obtuvieran resultados más fi- cialmente una lista, o forma de identificación, de
dedignos al estudiar una muestra que a toda la las unidades de muestreo sobre las que se aplicará
población. el proceso de selección. La definición de este mar-
También es un problema de cantidad de infor- co debe ser cuidadosa, ya que condiciona la inter-
mación. Al poder invertir más recursos en el estudio pretación de los resultados.
de cada individuo, pueden medirse otras variables,
lo que no es posible hacer en toda la población. Si Ejemplo 16.3. En un estudio sobre la asociación en-
algunas de estas variables son potenciales factores tre la adaptación social y la depresión, Luty et al
de confusión, su medición posibilita su control en el (2002) comprobaron que esta asociación no varia-
análisis, lo que aumenta la validez de los resultados ba entre los diferentes países, pero sí que dependía
del estudio. del marco muestral del estudio, ya que se observa-
ron resultados diferentes en la comunidad y en los
Ejemplo 16.2. En un estudio cuyo objetivo era cono- centros sanitarios.
cer la prevalencia de factores de riesgo cardiovascu-
lar en jóvenes de 16 a 19 años, se seleccionó aleato- Ejemplo 16.4. Fuchs et al (2001) compararon la pre-
riamente una muestra de 1.176 estudiantes en los valencia de HTA que se obtenía al utilizar dos mar-
que se evaluaron unos pocos factores de riesgo (An- cos muestrales diferentes: los adultos residentes en
dersen et al, 1989). A partir de esta muestra se selec- una población y los que acuden a una unidad de
cionó uno de cada cuatro estudiantes, en los que prevención de la HTA en un centro sanitario. Las
además se analizó su perfil lipídico, se midió la pre- diferencias en la prevalencia observada (24% fren-
sión arterial, el pliegue corporal, y el pulso en con- te a 42%, respectivamente) ilustran la influencia
diciones basales y después de una actividad intensa. del proceso de muestreo sobre la evaluación de los
Con la finalidad de establecer la representatividad factores de riesgo en la población.
de la segunda muestra se comparó la edad, el sexo,
la talla y el peso con la primera, no encontrándose El siguiente paso es decidir cómo seleccionar la
diferencias significativas. El hecho de estudiar un muestra. En líneas generales, las técnicas de mues-
conjunto de variables más exhaustivamente en una treo pueden clasificarse en probabilísticas y no pro-
muestra reducida persigue el objetivo de alcanzar babilísticas.
mayor exactitud y estandarización en las medidas
llevadas a cabo. TÉCNICAS DE MUESTREO
M UESTREO PROBABILÍSTICO
PLANIFICACIÓN DEL MUESTREO
Se define como el proceso de selección en que to-
Las unidades de muestreo son los elementos sobre los dos los individuos candidatos tienen una probabi-
que se aplicará la técnica de selección. Pueden ser lidad conocida, distinta de cero, de ser incluidos
personas, centros de salud o escuelas, por ejemplo. en la muestra. Se utiliza alguna forma de selección
Si se quiere estimar la prevalencia de hipertensión aleatoria para obtener las unidades que serán estu-
arterial (HTA) en una población, serán las perso- diadas.
nas; si se pretende conocer el número de escuelas Existe una tendencia a considerar sinónimas
de una provincia en las que se imparte educación las expresiones muestra probabilística y muestra repre-
sanitaria, serán las escuelas. sentativa. El uso de una técnica de muestreo pro-
Las unidades de muestreo no tienen que coinci- babilístico tiende a asegurar que se obtendrá una
dir necesariamente con las unidades de análisis. En un muestra representativa, en especial, si la pobla-
estudio para conocer la prevalencia de HTA en la ción y la muestra son de gran tamaño. Sin embar-
población escolar, las unidades de muestreo pueden go, puede que no sea así, ya que el propio azar
ser las escuelas, pero se analiza en cada una la pre- puede conducir a una muestra que no tenga la
sión arterial de sus alumnos (unidades de análisis). misma distribución de las variables de interés que
152
MUESTREO
la población de referencia, sobre todo si su simple, ya que cualquiera de los 252 subconjuntos
tamaño es reducido. Por otro lado, pueden obte- diferentes de 5 niños puede ser seleccionado y con
nerse muestras representativas utilizando técnicas la misma probabilidad.
no probabilísticas.
En todas las técnicas probabilísticas la selección Como se deduce del ejemplo anterior, el primer
de las unidades se realiza al azar y se evita la posible paso es preparar una lista de las unidades de mues-
parcialidad, consciente o inconsciente, de los inves- treo, numerándolas, por ejemplo, de forma secuen-
tigadores. Por esta razón, es más probable que las cial. Este proceso puede ser fácil y rápido si la po-
muestras tiendan a ser representativas, aunque ello blación de referencia se encuentra en una base de
no significa que estén exentas de error. En realidad, datos informatizada, o muy laborioso si se realiza
la muestra seleccionada no es más que una de las manualmente y la población es amplia. A continua-
muchas que podrían obtenerse de la población de ción, se seleccionan tantos números aleatorios co-
referencia. Es probable que la estimación de la mo elementos debe tener la muestra. La selección
variable obtenida a partir de una muestra difiera de de números aleatorios suele realizarse con un orde-
su verdadero valor en la población de referencia nador o una calculadora de mano.
por azar (error aleatorio o debido al muestreo), y lo Esta técnica es sencilla y de fácil comprensión, y
es más cuanto menor es el tamaño de la muestra. El permite el cálculo rápido de medias y variancias.
uso de muestras probabilísticas permite la aplica- Requiere, sin embargo, que se conozca de antema-
ción de técnicas estadísticas capaces de cuantificar no la lista completa de todas las unidades de mues-
este error aleatorio. treo. Si la lista contiene fallos u omite segmentos de
la población, se perderán las ventajas propias del
Muestreo aleatorio simple muestreo aleatorio, ya que todas las unidades no
Es aquella técnica en la que cada unidad del marco tendrán la misma probabilidad de aparecer en la
muestral tiene la misma probabilidad de ser escogi- muestra.
da y en la que cada una de las posibles muestras del
mismo tamaño tienen la misma probabilidad de ser Muestreo aleatorio estratificado
escogidas. El muestreo aleatorio simple es, pues, un Se trata de una modificación del método anterior
procedimiento equiprobabilístico, pero no todo que intenta asegurar que la muestra presente la
método equiprobabilístico es aleatorio simple. misma distribución que la población en relación
con determinadas variables.
Ejemplo 16.5. Silva (1993) ilustra este concepto con La población se divide en estratos en función de
el siguiente ejemplo: supongamos un grupo de las categorías de las variables por las que se desea
10 niños ordenados alfabéticamente, de los que se estratificar, formando subgrupos con alguna carac-
quiere seleccionar una muestra de 5 niños. Consi- terística en común y mutuamente excluyentes.
deremos los tres siguientes procedimientos de se- A continuación, se escoge una muestra aleatoria de
lección: a) tomar los 5 primeros de la lista; b) dividir cada estrato, manteniendo las proporciones obser-
el listado en dos grupos (los 5 primeros y los 5 úl- vadas en la población de referencia (muestreo aleato-
timos), lanzar una moneda al aire y tomar como rio estratificado proporcional).
muestra los elementos del primer grupo en caso de Los estratos deben definirse en función de varia-
obtener cara, y los del segundo en caso de obtener bles que puedan influir sobre los resultados. Si se
cruz, y c) numerar los 10 elementos y obtener 5 nú- desea determinar la prevalencia de HTA en una co-
meros aleatorios. El método a no es probabilístico, munidad, posibles factores de confusión serían,
ya que los últimos 5 niños del listado no podrán sa- entre otros, la edad, el sexo o la presencia de obesi-
lir en la muestra. El método b es equiprobabilístico dad, ya que son variables relacionadas con la pre-
porque todos los niños tienen la misma probabili- sencia de HTA. Si se aplicara un muestreo aleatorio
dad de salir en la muestra, pero no es aleatorio sim- simple, podría obtenerse una muestra en la que la
ple, ya que sólo dos muestras pueden ser elegidas distribución de estas variables no fuera la misma
(existen subconjuntos de 5 elementos que no po- que en la población, lo que conduciría a un sesgo
drían ser seleccionados). El método c es aleatorio en los resultados. Un muestreo estratificado por
153
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
estos factores garantizaría una distribución similar sí (miembros de distintos estratos no comparten la
a la de la población de referencia. variable).
En general, con el muestreo estratificado se ob-
Ejemplo 16.6. Supongamos un marco de muestreo tienen estimaciones más precisas que con el mues-
de 2.000 personas en las que se desea estimar la pre- treo aleatorio simple, porque la variancia total se
valencia de hipertensión arterial (HTA), estudian- basa en la de cada uno de los estratos, y éstos son
do para ello una muestra de 250 sujetos. Se conoce más homogéneos que la población. El aumento de
que la prevalencia de HTA varía en función del precisión que se consigue depende de las diferen-
sexo y la presencia de obesidad. Por tanto, los inves- cias entre los estratos. Cuanto mayor sea esta dife-
tigadores desean que la muestra en que se realizará rencia, y menor la variabilidad dentro de cada estra-
el estudio refleje fielmente la distribución, según el to, mayor será la reducción de la variancia que se
sexo y la presencia de obesidad que tiene la pobla- produce. Por tanto, siempre que se utiliza un mues-
ción de referencia, que se muestra en la tabla 16.1. treo estratificado, debe tenerse en cuenta en el aná-
Así, por ejemplo, existe un 12% de hombres obe- lisis, al realizar las estimaciones.
sos, por lo que, de los 250 sujetos de la muestra, un Cuando alguno de los estratos tiene un tamaño
12% deberán tener estas características. Por tanto, reducido, puede desaparecer esta ventaja, ya que
de los 240 hombres obesos de la población, deben disminuiría la precisión de la estimación en dicho
seleccionarse aleatoriamente 30 para formar parte estrato y podría afectar a la de la estimación global.
de la muestra. Se procede de la misma forma con En esta situación, puede aplicarse un muestreo no
los otros estratos (tabla 16.1). proporcional que sobrerrepresente este estrato, apli-
cando sobre él una fracción de muestreo diferente.
La correcta aplicación de esta técnica requiere Esta alternativa dificulta el análisis, ya que la esti-
que se conozca la distribución en la población de mación del parámetro en el global de la muestra
la(s) variable(s) empleada(s) para la estratificación deberá hacerse a partir de cada estrato por separa-
y que la variabilidad entre los distintos estratos sea do, y ponderando la diferente variabilidad de cada
lo más amplia posible, mientras que dentro de cada uno de ellos. De hecho, el muestreo no propor-
estrato debe ser lo más pequeña posible. Así, se ob- cional se utiliza más cuando la finalidad es realizar
tendrán subgrupos homogéneos respecto a la posi- comparaciones entre los estratos, con el fin de ase-
ble variable de confusión (todos los miembros de gurar que cada uno de ellos tiene el tamaño sufi-
un estrato la presentan o no) y heterogéneos entre ciente para obtener estimaciones con la suficiente
precisión.
Tabla 16.1. Muestreo estratificado Ejemplo 16.7. Supongamos que se lleva a cabo una
(ejemplo 16.6) encuesta entre los médicos de atención primaria
para conocer su opinión sobre un determinado
Distribución de una población de 2.000 personas problema de salud. La distribución de médicos
en función del sexo y la obesidad según su ámbito de trabajo es la siguiente: 230
Varones Mujeres Total (. 56%) trabajan en el medio urbano, 160 (39%) en
el semiurbano y 20 (5%) en el rural. Si se seleccio-
Obesidad 240 (12%) 320 (16%) 560 (28%)
nara una muestra de 100 médicos y se mantuvieran
No obesidad 960 (48%) 480 (24%) 1.440 (72%) las mismas proporciones, sólo se conseguirían las
Distribución de una muestra de 250 personas respuestas de 5 médicos rurales, lo cual sería insufi-
que mantiene la misma distribución en función ciente para conocer su opinión y compararla con la
del sexo y la obesidad que la población general de otros grupos. Los investigadores deciden aplicar
diferentes fracciones de muestreo en cada uno de
Varones Mujeres Total los estratos (urbanos, 20%; semiurbanos, 30%; ru-
Obesidad 30 (12%) 40 (16%) 70 (28%) rales, 100%), con lo que la distribución de encues-
No obesidad 120 (48%) 60 (24%) 180 (72%) tados es de 46, 48 y 20, respectivamente. Hay que
tener en cuenta las diferentes fracciones si se quie-
154
MUESTREO
ren realizar estimaciones globales de toda la mues- personas. Además, si una o varias familias son muy
tra, lo que añade cierta dificultad al análisis. Si se numerosas contribuirán de una forma despropor-
tiene la intención de realizar un análisis sólo de los cionada al tamaño de la muestra
subgrupos por separado, no es necesario tener en Otro inconveniente es que la variabilidad es ma-
cuenta las diferentes fracciones de muestreo, por- yor que las técnicas anteriores, y su cálculo es com-
que cada estrato puede considerarse como una po- plejo. Una solución parcial es extraer una muestra
blación diferente. de mayor tamaño y considerarla como aleatoria
simple, y procurar que las unidades de muestreo
Muestreo en múltiples etapas sean lo más pequeñas posible.
Esta técnica consiste en seleccionar unidades de
muestreo de una población (unidades primarias), Ejemplo 16.8. Un estudio tenía por objetivo co-
y, en una segunda etapa, obtener una muestra de nocer las creencias y opiniones de los escolares
cada una de las unidades primarias (unidades se- respecto al tabaco, el alcohol y el ejercicio físico
cundarias). Por ejemplo, si se desea estudiar la pre- (Comín et al, 1989). Se seleccionó una muestra re-
valencia de escoliosis en niños de edad escolar, una presentativa de escolares de la ciudad de Barcelo-
manera de seleccionar la muestra sería elegir al na. La técnica de muestreo empleada fue la de con-
azar escuelas y, dentro de cada una, una muestra de glomerados en varias etapas. Se tomó como unidad
niños. Se pueden usar el número de etapas que de muestreo el aula, estratificando por las siguien-
sean necesarias y, en cada una de ellas, aplicar un tes variables: curso, tipo de escuela (pública, priva-
método diferente de muestreo (simple, estratifica- da) y tamaño del curso (número de aulas). Es im-
do, sistemático). Cuando en el estudio se incluyen portante remarcar que todos estos factores están
todas las unidades secundarias (es decir, la fracción relacionados con las variables estudiadas; el curso
de muestreo es del 100%), se denomina muestreo en se asocia a los hábitos de vida a través de la edad, y
conglomerados. el tipo de escuela, a través de la clase social. La es-
Esta técnica es útil cuando la población de refe- tratificación permite obtener estimaciones más pre-
rencia es muy grande y está dispersa, como en el cisas. El empleo del muestreo por conglomerados
caso de la población escolar de un país o una gran es prácticamente inevitable al estudiar la población
ciudad. El uso de una técnica aleatoria simple sería escolar. El aumento de la variabilidad que acom-
muy costoso, ya que la muestra incluiría a pocos paña a la utilización de conglomerados se minimiza
estudiantes de cada institución y los investigadores al tomar el aula, en lugar del colegio, como unidad
tendrían que ir a casi todas ellas para entrevistarlos primaria de muestreo, y se compensa parcialmente
o examinarlos, rentabilizando muy poco cada viaje. con la estratificación.
Además, es probable que no se disponga de un lis-
tado de todos los niños en edad escolar de una ciu- Muestreo sistemático
dad, pero sí de una lista de escuelas, y que cada una Este procedimiento se basa en aplicar alguna regla
de ellas tenga el listado de sus alumnos. sistemática simple, como elegir uno de cada n indivi-
Su desventaja principal es que si las unidades duos. Los pasos a seguir son los siguientes: en primer
primarias contienen personas similares en relación lugar, se calcula la constante de muestreo (k), dividiendo
con el fenómeno de interés, la precisión de la esti- el total de la población candidata por el tamaño de la
mación será menor que si se utiliza un muestreo muestra deseado. A continuación, se extrae la pri-
aleatorio simple, por ejemplo. Si se considera un es- mera unidad al azar entre las k primeras unidades de
tudio sobre los hábitos alimentarios de una comu- muestreo, y se le suma la constante, sucesivamente,
nidad y se encuesta a 100 individuos obtenidos me- hasta completar el tamaño de la muestra.
diante un muestreo aleatorio simple, el grado de
información y la precisión de las estimaciones no Ejemplo 16.9. Supongamos que deseamos obtener
será igual que si se estudian 100 individuos (unidad se- una muestra de 200 historias clínicas de un archi-
cundaria) procedentes de 25 familias (unidad pri- vo de 1.000 historias. La constante de muestreo es
maria). Los hábitos alimentarios son muy parecidos 1.000/200 = 5, lo que significa que se escoge una de
entre miembros de una misma familia, por lo que, cada 5 historias. La primera se elige de forma alea-
en realidad, es casi como si sólo se estudiara a 25 toria entre los números del 1 al 5. Si la elegida es la
155
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
2, la siguiente es la 7 (2 + 5), después la 12 (7 + 5), Las ventajas y desventajas de cada uno de los mé-
la 17 (12 + 5) y así, sucesivamente, hasta conseguir todos de muestreo probabilístico se encuentran en
las 200 historias necesarias. la tabla 16.2.
156
MUESTREO
Ventajas Desventajas
demiológica, es el muestreo por cuotas, en el que la En las técnicas adaptativas el diseño del muestreo
composición general de la población de referencia se adapta en función de las observaciones que se
en términos de características como la edad, el se- van realizando durante el estudio, por ejemplo, so-
xo, o la clase de educación se decide, o se conoce, licitando a los participantes en un estudio sobre
de antemano. Seguidamente, se determina el nú- consumo de drogas que informen al investigador
mero de personas requerido, o las cuotas, para los sobre otros consumidores. Dependiendo del meca-
hombres y mujeres, según las diferentes edades y la nismo de adaptación, reciben nombres como bola
clase de educación, siendo el único requerimiento de nieve, paseos aleatorios o muestreo en red. Estas técni-
conseguir el número adecuado de personas para cas son especialmente útiles cuando la población
llenar cada una de las cuotas. de interés es difícil de alcanzar, ya que, además de
En algunas ocasiones, en especial cuando tanto la ganancia que suponen en términos de eficiencia
el tamaño de la población de referencia como el de en relación con las técnicas convencionales, pue-
la muestra son muy pequeños, la selección puede den ser la única forma operativa de obtener una
hacerse por criterios razonados. Por ejemplo, si se muestra lo suficientemente amplia. Su principal
desea conocer el funcionamiento de los centros inconveniente es que deben aplicarse procedimien-
de salud de una provincia a través de un análisis tos estadísticos que tengan en cuenta su utilización.
exhaustivo de dos de ellos, es preferible seleccionar
los dos centros que puedan considerarse los más re- La figura 16.1 presenta un algoritmo para la se-
presentativos, en vez de dejar la selección al azar. lección de la técnica de muestreo.
157
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
¿Existe una
No población de referencia Sí
accesible y bien diferenciada
antes de iniciar
el estudio?
Muestreo Muestreo
no probabilístico probabilístico
¿La población
de referencia es muy
grande, dispersa y está agrupada
por alguna
No característica? Sí
Muestreo en
múltiples etapas
¿Interesa
a priori controlar la
distribución de alguna variable
de confusión?
No Sí
Las preguntas son orientativas y han de realizarse en función de las ventajas y desventajas de cada técnica
B IBLIOGRAFÍA DE LOS EJEMPLOS personality, and clinic versus community sampling. J Af-
Andersen LB, Henckel P, Saltin B. Risk factors for cardio- fect Disord 2002; 70: 143-154.
vascular disease in 16-19 year old teenagers. Int J Med Silva Ayçaguer LC. Muestreo para la investigación en cien-
1989; 225: 157-163. cias de la salud. Madrid: Díaz de Santos, 1993.
Comín E, Nebot M, Villalbí JR. Exercici i consum de tabac i
alcohol dels escolars de Barcelona. Gac Sanit 1989; 3: B IBLIOGRAFÍA
355-365. Armitage P, Berry G, Matthews JNS. Statistical methods in me-
Fuchs SC, Petter JG, Accordi MG, Zen VL, Pizzol AD Jr, dical research. 4.a ed. Oxford: Blackwell Science, 2002.
Moreira LB et al. Establishing the prevalence of hyper- Kelsey JL, Wittemore AS, Evans A, Thompson WD. Methods
tension. Influence of sampling criteria. Arq Bras Cardiol in observational epidemiology. 2.a ed. New York. Oxford
2001; 76: 445-452. University Press, 1996.
García Olmos LM, Pérez Fernández MM, Bassolo Abad A, Phillips CV, LaPole LM. Quantifying errors without random
Abraira V, Gervás JJ. Estudios de morbididad ambulato- sampling. BMC Med Res Methodol. 2003; 3: 9.
ria: ¿qué muestra elegir? Aten Primaria 1987; 4: 136-139. Rodríguez Osuna J. Métodos de muestreo. Colección «Cua-
Lee ML, Yano EM, Wang M, Simon BF, Rubenstein LV. What dernos metodológicos» núm. 1. Madrid: Centro de In-
patient population does visit-based sampling in primary vestigaciones Sociológicas, 1991.
care settings represent? Med Care 2002; 40: 761-770. Thompson SK, Collins LM. Adaptive sampling in research
Luty SE, Joyce RR, Mulder RT, McKenzie JM. Social adjust- on risk-related behaviors. Drug Alcohol Depend 2002; 68
ment in depression: the impact of depression severity, (Suppl 1); S57-S67.
158
Capítulo 17
Formación de los grupos de estudio
159
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Muestra Muestra
Asignación
aleatoria
160
FORMACIÓN DE LOS GRUPOS DE ESTUDIO
factores pronóstico (potenciales factores de confu- duos que, en el supuesto de desarrollar la enferme-
sión), puede afectarse la comparabilidad inicial de dad, hayan sido detectados como casos. Si no se tie-
los grupos. Por lo tanto, deben medirse todas las va- nen en cuenta estos supuestos, se podría cometer
riables pronóstico conocidas y controlar su influen- un sesgo de selección relacionado con alguna varia-
cia en la fase de análisis para obtener resultados ble ligada al hecho de poder ser detectado como
válidos. En cambio, en los ensayos clínicos aleato- caso. Así, en un estudio de casos y controles hospi-
rios, al existir una asignación al azar de los sujetos a talarios, la selección de los controles a partir de los
los grupos, si el tamaño de la muestra es grande, se individuos ingresados en el mismo hospital en que
tiende a conseguir grupos comparables por todos se han identificado los casos se sustenta en la asun-
los posibles factores de confusión, conocidos o no, ción de que la distribución de la exposición es la
medidos o no. misma que en la población de donde proceden los
Además, la comparabilidad entre los grupos casos. Esta asunción es razonable cuando se cum-
también puede afectarse por las diferencias en la plen dos supuestos:
recogida de la información y por las pérdidas de su-
jetos que puedan haber durante el seguimiento. – El área de influencia del hospital es la misma para los
En los diseños en que no se parte de una cohor- casos y para los controles. Implica que los sujetos que
te general, sino que se identifica un grupo de suje- son ingresados en un hospital como casos habrían
tos expuestos al factor de estudio (cohorte de estu- sido ingresados en el mismo hospital si hubieran
dio) y un grupo de sujetos no expuestos que actúa tenido la enfermedad de los controles, y viceversa,
como control (cohorte externa de comparación) aquellos ingresados como controles hubieran
(ver fig. 17.1), a los problemas comentados ante- sido ingresados en el mismo hospital en el supues-
riormente se les añade la dificultad de asegurar que to de que hubiesen padecido la enfermedad de
la cohorte externa sea representativa de la misma los casos.
población de la que procede la cohorte de estu- – La selección de los controles no está relacionada con la
dio, es decir, de que ambas procedan de una misma exposición en estudio. En la práctica, implica excluir
población. del grupo control a los pacientes que tengan en-
fermedades relacionadas positiva o negativamen-
E STUDIOS DE CASOS Y CONTROLES te con la exposición en estudio. Igualmente, con
El grupo de casos y el de controles deben ser repre- el fin de evitar que los controles puedan concen-
sentativos de una misma población, formada con- trarse en alguna enfermedad relacionada con la
ceptualmente por los miembros de una cohorte exposición, conviene escoger controles con dis-
subyacente, definida por los criterios de inclusión y tintas patologías, con el fin de minimizar un posi-
exclusión (ver fig. 17.1). Un tipo de estudio para- ble sesgo debido al muestreo.
digmático en este sentido es el de casos y controles
anidado en una cohorte, donde se identifica clara-
COMPARABILIDAD DE LOS GRUPOS
mente la cohorte subyacente, de la que proceden
EN LOS ESTUDIOS EXPERIMENTALES:
tanto los casos como los controles.
ASIGNACIÓN ALEATORIA
En los estudios de casos y controles poblaciona-
les, en los que se seleccionan todos los casos que se En los estudios experimentales, el investigador de-
desarrollan en una zona determinada, el grupo be distribuir a los sujetos en dos grupos que sean
control debe ser una muestra representativa de la comparables por los factores pronóstico. La asigna-
población que reside en el área geográfica de la ción aleatoria, también conocida por el anglicismo
que proceden los casos. En estas circunstancias, la randomización, es la técnica que más tiende a asegu-
selección del grupo control se simplifica, ya que rar esta comparabilidad.
puede extraerse una muestra aleatoria de la pobla- La asignación aleatoria significa que la decisión
ción mediante técnicas probabilísticas. de qué tratamiento (o intervención) recibirá cada
En cambio, cuando el diseño no es poblacional, uno de los pacientes incluidos en el estudio se rea-
sino que los casos se detectan sin identificar la co- liza al azar, sin que exista ninguna influencia por
horte subyacente de donde proceden, el grupo parte del propio sujeto o del investigador. Por ello,
control debe ser representativo de aquellos indivi- el ensayo clínico aleatorio es el estudio que propor-
161
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
ciona mayor fuerza a los resultados observados, y después de haber tomado la decisión de incluir el
constituye el estándar con el que se compara el res- sujeto en el estudio, de forma que ésta no pueda
to de los diseños de investigación. verse influida por el conocimiento previo de la in-
tervención que debería recibir (ocultación de la se-
VENTAJAS DE LA ASIGNACIÓN ALEATORIA cuencia aleatoria).
Las ventajas de la asignación aleatoria son múltiples La ocultación de la secuencia aleatoria no debe
(tabla 17.2). En primer lugar, tiende a producir una confundirse con el concepto de «ciego». La oculta-
distribución equilibrada de las variables pronósti- ción de la secuencia aleatoria trata de prevenir un
cas, tanto de las conocidas como de las desconoci- sesgo de selección y evita que el investigador conoz-
das, entre los diferentes grupos de estudio. Si el ca la secuencia antes de la asignación, mientras que
proceso es realmente aleatorio, ni el sujeto ni el in- las técnicas de «ciego» tratan de evitar un sesgo de
vestigador influyen en la decisión de qué interven- información y protegen la aleatorización una vez se
ción recibirá cada uno de los participantes. De esta ha producido la asignación.
forma se intenta prevenir posibles sesgos que pue-
dan comprometer la comparabilidad de los grupos. Ejemplo 17.1. Chalmers et al (1983) clasificaron 145
El azar tiende a producir grupos comparables, ensayos clínicos sobre el tratamiento del infarto
pero no lo asegura. Esta tendencia es mayor cuanto agudo de miocardio en tres grupos. El primero de
más elevado es el número de sujetos. Por consiguien- ellos correspondía a aquellos en que el investigador
te, en los estudios que se llevan a cabo con un núme- había sido informado del tratamiento que debía
ro de pacientes relativamente reducido, aumenta la asignar a un paciente después de haber decidido in-
probabilidad de que alguna variable quede distribui- cluirlo en el estudio (ocultación de la secuencia de
da de forma desigual. Si esta variable está relacio- aleatorización). El segundo grupo lo formaban los
nada con la respuesta que se mide, actuará como un estudios en que el tratamiento asignado había sido
factor de confusión. conocido antes de incluir al paciente (asignación
La asignación aleatoria permite el uso del cálcu- aleatoria no ciega), y el tercero, aquellos en los que
lo de probabilidades para determinar hasta qué la asignación no se había realizado de forma alea-
punto una diferencia observada puede ser causada toria. El porcentaje de variables pronósticas que no
por el azar, garantizando que las pruebas estadísti- presentaron una distribución similar en los grupos
cas proporcionen valores de significación válidos. de estudio fue del 35,7 y 34,4%, respectivamente.
Por último, permite el uso de placebo y técnicas de Sólo en el primer grupo este porcentaje se man-
enmascaramiento. tenía por debajo del 5% esperable por azar. En los
El hecho de que la asignación aleatoria propor- otros dos grupos se encontraron diferencias en di-
cione grupos comparables depende, en la práctica, chas distribuciones que favorecían al grupo trata-
de dos aspectos muy relacionados: por un lado, miento en más del 75% de los casos, y conducían a
debe generarse una secuencia aleatoria que no sea una mayor frecuencia de observación de resultados
predecible ni por el investigador ni por el paciente, significativos a favor del tratamiento ensayado, lo
y, por otro, es esencial que la secuencia se aplique que sugiere un sesgo debido al investigador.
162
FORMACIÓN DE LOS GRUPOS DE ESTUDIO
con la secuencia de las asignaciones en el centro de toria de tratamientos, de forma que los pacientes
coordinación, donde deben telefonear los investi- sean asignados a partir de esta secuencia a medida
gadores cuando se incluye un nuevo paciente para que vayan siendo incluidos en el estudio.
conocer la intervención que le ha sido asignada. Una forma sencilla de proceder a la distribución
Es conveniente que la mecánica del proceso de de los sujetos en dos grupos es la asignación sistemá-
asignación recaiga en personas o servicios no directa- tica, según la cual se asignan alternativamente se-
mente involucrados en el estudio. Por ello, con el gún la secuencia ABABABAB... Sin embargo, este
tiempo cada vez será más frecuente el uso de procesos método no es aleatorio, salvo en todo caso para el
automatizados para realizar la asignación aleatoria. primer individuo, y no es aconsejable su uso, ya que
el investigador conoce qué tratamiento recibirá el
T ÉCNICAS DE ASIGNACIÓN próximo sujeto que entre en el estudio, lo que pue-
Aunque se utiliza una terminología similar, mues- de, por ejemplo, influir en su decisión de incluirlo
treo y asignación son dos conceptos diferentes o no. Lo mismo ocurre si la asignación se realiza se-
(fig. 17.2). La asignación parte de una muestra de gún las fechas de nacimiento (días pares o impares)
pacientes que debe ser distribuida en dos o más o las iniciales de los apellidos.
grupos. En algunas ocasiones, existe un registro La mayoría de las técnicas aleatorias asignan los
previo de la población candidata, a partir del cual sujetos según una probabilidad prefijada, habitual-
puede obtenerse una muestra aleatoria. Después, mente la misma para todos los grupos, y que no se
se procede a la distribución aleatoria de los sujetos modifica a lo largo del estudio. A continuación,
de esta muestra en dos grupos, cada uno de los cua- se presentan los métodos utilizados con mayor
les recibirá una de las intervenciones que se com- frecuencia (tabla 17.3).
paran. Si no se conocen previamente los sujetos
candidatos, deberá prepararse una secuencia alea-
Tabla 17.3. Técnicas de asignación
de los sujetos a los grupos
de estudio
163
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 17.4. Ventajas y desventajas será asignada a un grupo, y la otra mitad, al otro. El
de la asignación aleatoria simple orden en que estas intervenciones se asignan den-
tro de los bloques es aleatorio, y el proceso se repi-
Ventajas te sucesivamente para cada uno de ellos, hasta que
• Técnica muy sencilla todos los sujetos han sido asignados. Esta técnica
Desventajas
garantiza que, en cualquier momento a lo largo del
• Puede producir desequilibrios en el número proceso, el número de sujetos de cada uno de los
de pacientes asignados a cada uno de los grupos, grupos será muy similar.
sólo por azar
• Puede producir desequilibrios en el número Ejemplo 17.3. Supongamos que se pretende estu-
de sujetos asignados a cada uno de los grupos si diar una muestra de 60 individuos, a los que se de-
el estudio finaliza antes de haber incluido a todos sea asignar aleatoriamente dos tratamientos, A y B.
los sujetos previstos Si se utilizara la técnica de la asignación aleatoria
simple, podría ocurrir que, si sólo se reclutaran
42 pacientes, 27 hubieran recibido el tratamiento
mero entre 0,5 y 0,9999, recibirá la B. Este método A, y los 15 restantes, el B. La asignación por bloques
se puede generalizar cuando son más de dos grupos previene este desequilibrio. Pueden utilizarse, por
y también permite utilizar probabilidades de asigna- ejemplo, bloques de 6 individuos. Se establece una
ción diferentes para cada uno de los grupos. correspondencia entre los números aleatorios y las
posibles combinaciones de las asignaciones en los
Ejemplo 17.2. En un ensayo clínico se desea compa- bloques. Existen 20 permutaciones de bloques de
rar tres grupos, con unas probabilidades de asigna- 6 elementos (tabla 17.5), cada una de las cuales se
ción del 25, 25 y 50%, respectivamente. Puede esta- corresponde con 5 números aleatorios de 2 cifras
blecerse una correspondencia como la siguiente: (del 00 al 99).
Dado que se pretende estudiar a 60 individuos
Entre 0 y 0,2499 = A
y que los bloques son de 6 sujetos, se precisarán
Entre 0,25 y 0,4999 = B
Entre 0,5 y 0,9999 = C
Si se estudia a un número reducido de pacientes, Tabla 17.5. Asignación por bloques.
puede existir un cierto desequilibrio en la cantidad Permutaciones de las asignaciones
de ellos que ha sido asignada a cada uno de los gru- de dos tratamientos en bloques
pos. Existen dos técnicas para prevenir este proble- de 6 sujetos
ma: supongamos que se dispone de una muestra de
40 sujetos, y se desea distribuirla en dos grupos Números Números
de forma que cada uno tenga el mismo número de Permutación aleatorios Permutación aleatorios
pacientes. Se procede a la lectura de la tabla de nú-
meros aleatorios y se obtiene una secuencia de 20 AAABBB 00-04 BAAABB 50-54
números de dos cifras entre 0 y 40, que correspon- AABABB 05-09 BAABAB 55-59
den a los sujetos que recibirán el tratamiento A. Los AABBAB 10-14 BAABBA 60-64
AABBBA 15-19 BABAAB 65-69
20 individuos restantes recibirán el tratamiento B.
ABAABB 20-24 BABABA 70-74
Sin embargo, esta técnica no previene la aparición
ABABAB 25-29 BABBAA 75-79
de desequilibrios si se finaliza el estudio antes de lo
ABABBA 30-34 BBAAAB 80-84
previsto, ya que la distribución se equilibra al asig- ABBAAB 35-39 BBAABA 85-89
nar los 40 sujetos. La otra técnica es la asignación ABBABA 40-44 BBABAA 90-94
por bloques. ABBBAA 45-49 BBBAAA 95-99
164
FORMACIÓN DE LOS GRUPOS DE ESTUDIO
10 bloques. A partir de una tabla se seleccionan aleatorio 80 pacientes hipertensos esenciales con
10 números aleatorios de dos cifras. Utilizando las edades comprendidas entre los 40 y 70 años. Se con-
correspondencias de la tabla 17.5, se sustituye cada sidera que la edad y la presencia de obesidad son
uno de ellos por la permutación de 6 pacientes co- variables pronósticas que pueden influir en la res-
rrespondiente. Si los números obtenidos son 21, 47, puesta a dichos tratamientos. Dado que el tamaño
29, etc. la secuencia de asignación de los tratamien- de la muestra no es muy elevado, se desea prevenir
tos sería ABAABB ABBBAA ABABAB... Como pue- la posible aparición de desequilibrios en la distribu-
de apreciarse, en ningún momento existirá una di- ción de estas variables en los grupos de estudio. Para
ferencia de más de tres sujetos (la mitad del tamaño ello se procede a una asignación estratificada (tabla
del bloque) entre ambos grupos. 17.7). En primer lugar, se divide la muestra en fun-
ción de tres grupos de edad (40-49, 50-59 y 60-69
Otra ventaja de este procedimiento es que, si el años, respectivamente) y la presencia o ausencia de
tipo de sujetos reclutados cambia durante el perío- obesidad, y se distribuye a los 80 individuos en los
do de inclusión (p. ej., porque se utilizan consecu- 6 estratos. Posteriormente, se procede a la asigna-
tivamente diferentes fuentes de pacientes), la asig- ción de los sujetos que forman cada uno de los es-
nación por bloques producirá grupos que incluso tratos a los dos grupos de tratamiento, ya sea con la
serán más comparables. técnica aleatoria simple o por bloques.
El número de estratos que se crean es igual al
Asignación estratificada producto del número de subgrupos que se conside-
Implica la división de la muestra en subgrupos en ran por cada variable de estratificación. Si se uti-
función de las variables pronósticas consideradas, lizan muchas variables, se crea un gran número
procediéndose, a continuación, a la asignación de estratos, lo que hace que el tamaño de alguno de
aleatoria de los sujetos dentro de cada uno de los ellos pueda ser muy reducido. No se aconseja crear
estratos, utilizando alguna de las técnicas ya comen- más de 8 o 10 estratos.
tadas. Esta técnica ayuda a prevenir la aparición de Las variables de estratificación son diferentes
desequilibrios en la distribución de las variables para cada estudio y deben considerarse únicamente
pronósticas (tabla 17.6). las que tengan verdadera importancia sobre la res-
puesta a la intervención. No tiene sentido estratifi-
Ejemplo 17.4. Supongamos que en un estudio sobre car por variables fisiológicas o sociodemográficas,
la eficacia de dos tratamientos, A y B, para la hiper- como la edad, el sexo o la profesión, si no existe
tensión arterial, se incluyen en un ensayo clínico ningún motivo para sospechar que puedan mo-
dificar la respuesta o su evaluación. También debe
tenerse presente que los estratos han de ser exclu-
yentes para evitar que existan ambigüedades en la
Tabla 17.6. Ventajas y desventajas de la
asignación aleatoria estratificada
inclusión de los sujetos a los diferentes subgrupos.
Al mismo tiempo, estos estratos deben ser lo sufi-
cientemente distintos como para sospechar que los
Ventajas
resultados puedan ser diferentes en cada uno de
• Previene desequilibrios en la distribución
de las variables pronósticas consideradas en
ellos, y homogéneos en su interior para facilitar la
la estratificación (muy útil en estudios con detección de diferencias.
un reducido número de sujetos) Dentro de cada estrato es preferible usar una
• Disminuye la variabilidad dentro de los estratos, técnica de asignación por bloques, con el fin de que
y aumenta, en consecuencia, la potencia el proceso sea más efectivo.
estadística del estudio Una asignación estratificada debe tenerse en
cuenta en el momento del análisis. Los individuos
Desventajas
incluidos en cada uno de los estratos son similares
• Complica el análisis estadístico
• Si existen muchos estratos, puede haber un
en cuanto a las características pronósticas conside-
número muy reducido de sujetos en alguno radas, por lo que la variabilidad es menor y permite
de ellos (no se aconsejan más de 8-10 estratos) aumentar la potencia del ensayo si se utilizan las
técnicas estadísticas adecuadas.
165
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 17.7. Asignación estratificada según la edad y la obesidad, con posterior asignación en bloques
de 4 sujetos en cada uno de los estratos (ejemplo 17.6)
166
FORMACIÓN DE LOS GRUPOS DE ESTUDIO
B IBLIOGRAFÍA DE LOS EJEMPLOS Kernan WN, Viscoli CM, Makuch RW, Brass LM, Horwitz RI.
Alexander F, Roberts MM, Lutz W, Hepburn W. Randomiza- Stratified randomization for clinical trials. J Clin Epide-
tion by cluster and the problem of social class bias. J Epi- miol 1999; 52: 19-26.
demiol Community Health 1989; 43: 29-36. Roberts C, Torgerson DJ. Randomisation methods in con-
Chalmers TC, Celano P, Sacks HS, Smith H. Bias in treat- trolled trials. BMJ 1998; 317: 1301.
ment assignment in controlled clinical trials. N Engl Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
J Med 1983; 309: 1358-1361. dence of bias: dimensions of methodological quality as-
sociated with estimates of treatment effects in controlled
B IBLIOGRAFÍA trials. JAMA 1995; 273: 408-412.
Altman DG, Bland JM. Treatment allocation in controlled Schulz KF, Altman DG, Moher D. Allocation concealment in
trials: why randomise? BMJ 1999; 318: 1209. clinical trials. JAMA 2002; 288: 2406-2407.
Altman DG, Schulz KF. Concealing treatment allocation in Schulz KF, Grimes DA. Generation of allocation sequences
randomised trials. BMJ 2001; 323: 446-447. in randomised trials: chance, not choice. Lancet 2002;
Bracken MB. On stratification, minimization and protection 359: 515-519.
against types 1 and 2 error. J Clin Epidemiol 2001; 54: Schulz KF, Grimes DA. Unequal group sizes in randomised
104-105. trials: guarding against guessing. Lancet 2002; 359: 966-
Chalmers I. Comparing like with like: some historical miles- 970.
tones in the evolution of methods to create unbiased Scott NW, McPherson GC, Ramsay CR, Campbell MK. The
comparison groups in therapeutic experiments. Int method of minimization for allocation to clinical trials a
J Epidemiol 2001; 30: 1156-1164. review. Control Clin Trials 2002; 23: 662-674.
Cobo Valeri E. Necesidad y limitaciones de la asignación ale- Torgerson DJ. Contamination in trials: is cluster randomisa-
atoria. Med Clin (Barc) 2000; 115: 73-77. tion the answer? BMJ 2001; 322: 355-357.
167
Capítulo 18
Medición de variables
edir es asignar valores a una variable. Al- 75 kg y sean obesos, aunque de baja estatura, y otros
168
MEDICIÓN DE VARIABLES
Figura 18.1. Relación entre error aleatorio y error sistemático. Medición de la presión arterial sistólica
de un paciente por cinco observadores independientes (01, 02, 03, 04 y 05).
en una báscula mal calibrada; seguramente se obten- fuentes de variación por separado, en la práctica, todas
drían resultados similares, pero no válidos, ya que ellas actúan de forma simultánea.
la balanza proporcionaría mediciones inexactas.
Variación individual
F UENTES DE VARIABILIDAD La mayoría de fenómenos biológicos varían de un
La fiabilidad de una medida no es una propiedad momento a otro. Una medición realizada en un mo-
intrínseca de ella, sino más bien de un instrumento mento dado puede considerarse una muestra de todas
cuando se aplica en una muestra de individuos con- las posibles mediciones de este fenómeno durante un
creta, en unas condiciones dadas. La medición de un período determinado y no tiene por qué representar
fenómeno clínico está sujeta a la variación biológica su verdadero valor.
individual, del observador o del instrumento utilizado.
Así, si dos médicos toman la presión arterial de un Ejemplo 18.3. Las variaciones del colesterol sérico en
paciente y no obtienen el mismo resultado, puede un mismo individuo pueden ser lo suficientemente
deberse a la propia variación de la tensión arterial grandes como para que sea difícil evaluar su riesgo
entre una medición y otra, a que el esfigmomanóme- cardiovascular en una sola determinación. Para po-
tro utilizado proporciona resultados variables, a que ner de relieve este hecho, se realizó un trabajo en el
los clínicos difieren en la forma de medir y registrar la que se analizaba el colesterol sérico de un individuo
presión arterial, o a una combinación de todas estas en ayunas cada 20 minutos durante 6 horas (Natelson
circunstancias. Aunque se describirá cada una de las et al, 1988). Los valores de colesterol variaron des-
169
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
de un mínimo de 189 mg/dl hasta un máximo de Para reducir la variabilidad debida a los observa-
211 mg/dl. De las 19 muestras extraídas, 8 presenta- dores es necesario entrenarlos debidamente antes
ban valores por encima de 200 mg/dl. Por consiguien- de iniciar el estudio y elegir medidas lo más objeti-
te, si el criterio de inclusión en un estudio fuera preci- vas posible, ya que, cuanto más subjetivas sean,
samente el tener unos valores superiores a 200 mg/dl, mayor es la probabilidad de que exista variabilidad
esta persona hubiera podido o no ser candidata, según de una medición a otra y entre los distintos obser-
la muestra considerada. Igualmente, es posible que un vadores. Por último, siempre que sea factible es
individuo presente valores más bajos o más altos de conveniente evaluar la variabilidad inter e intraob-
colesterol una vez finalizado un estudio, con indepen- servadores.
dencia de la intervención practicada.
E VALUACIÓN DE LA FIABILIDAD
Ejemplo 18.4. En un estudio en el que se analizaban La fiabilidad se evalúa repitiendo el proceso de medi-
los registros de 8 tomas de la presión arterial de 30 ción, con el fin de analizar la concordancia entre las
individuos se observó una gran variabilidad intraindi- distintas medidas. El índice más utilizado para ello,
viduo. La variabilidad media de la presión sistólica fue en caso de variables cualitativas, es el índice Kappa,
de 13,2 mmHg (DE: 6,8) y de la presión diastólica de que corrige la concordancia observada por la que se
8,8 mmHg (DE: 4,6), utilizando un esfigmomanóme- esperaría simplemente por azar (anexo 4). Si las
tro de mercurio (Cuesta y Gómez Moro, 1987). Los variables son cuantitativas, se utiliza el coeficiente de
autores observaron también una diferencia significati- correlación intraclase, que combina un análisis de la
va entre la presión sistólica del brazo derecho respecto correlación de las medidas con una prueba de la dife-
a la observada simultáneamente en el brazo izquierdo. rencia de las medias entre ellas, o el método gráfico
Las cifras diastólicas no mostraron diferencias de uno de Bland y Altman (anexo 4).
a otro brazo. Deben estudiarse diferentes aspectos de la fiabili-
dad: la repetibilidad (fiabilidad test-retest), la con-
Para minimizar la variación biológica intraindivi-
cordancia intraobservador y la concordancia interob-
dual, una estrategia consiste en repetir la medición
varias veces y utilizar alguna medida promedio de los servador.
resultados. Sin embargo, antes de ponerla en marcha
hay que considerar el coste y las dificultades prácticas Repetibilidad
que implica. La evaluación de la repetibilidad tiene por objetivo
determinar si una prueba da los mismos resultados o
Variación causada por el instrumento similares, cuando se aplica a una misma persona en
Por instrumento se entiende cualquier vehículo útil más de una ocasión. Requiere que las condiciones de
para recoger datos de una forma organizada; por aplicación sean iguales en ambas ocasiones.
ejemplo, un esfigmomanómetro, un autoanalizador o El hecho de aplicar la misma prueba en más de
un cuestionario. Siempre pueden presentarse varia- una ocasión en la misma muestra de individuos con-
ciones al aplicar un instrumento de medida y en la téc- lleva algunos problemas, ya que algunas característi-
nica empleada. Por ejemplo, al tomar la presión arte- cas pueden variar con el tiempo. Es el caso de una
rial, la presión del brazal o la posición del estetoscopio medida sobre el estado físico o de salud de una perso-
pueden cambiar, lo que originará inconsistencias en las na; cuanto más tiempo transcurra entre ambas prue-
mediciones. Por ello, es importante estandarizar los bas mayor es la probabilidad de que hayan ocurrido
procedimientos y seleccionar el instrumento que pre- cambios reales en su estado de salud, o de que su opi-
sente menor variabilidad. nión o actitud hacia un problema de salud haya cam-
biado. En esta situación, la fiabilidad de la prueba será
Variación causada por el observador infravalorada. Esta dificultad se puede subsanar, al
La tercera fuente de variabilidad es el observador. Las menos parcialmente, efectuando la segunda medi-
personas que llevan a cabo la medición de la presión ción poco tiempo después de la primera. Sin embar-
arterial pueden variar; por ejemplo, el ángulo de go, si el intervalo de tiempo entre la aplicación de las
observación, las condiciones en que realizan las me- dos pruebas es breve, es posible que el resultado obte-
diciones, o aumentar su experiencia a medida que nido en la segunda ocasión esté influido por el apren-
progresa el estudio. dizaje adquirido la primera vez. En otras palabras,
170
MEDICIÓN DE VARIABLES
ambas mediciones no son independientes y el coefi- escoger las que hayan demostrado ser más fiables en
ciente de fiabilidad estará artificialmente elevado. estudios anteriores.
Cabe la posibilidad de que los participantes no Si la medición de la variable de respuesta tiene
accedan a que se les efectúe la misma prueba más de poca fiabilidad, la consecuencia directa es que la esti-
una vez en poco tiempo, en especial cuando sea dolo- mación del efecto que se obtenga será poco precisa, es
rosa o molesta, o implique mucho tiempo de realiza- decir, su intervalo de confianza será muy amplio. Este
ción o desplazamiento, lo cual significa que se perderá problema puede soslayarse aumentando el tamaño de
mucha información, ya que si un individuo no ha com- la muestra, ya que el número de sujetos necesario
pletado las dos pruebas no será útil para el análisis. depende, entre otros factores, de la variabilidad de las
medidas, aunque ello supone un incremen-
Concordancia intra e interobservador to de la complejidad y el coste del estudio.
La concordancia intraobservador se refiere al grado de
consistencia de un observador consigo mismo al leer
VALIDEZ
o interpretar un resultado. Al igual que con la repeti-
bilidad, las dos medidas que realiza cada observador El término validez se refiere al grado en que una va-
deben ser independientes una de otra, lo que puede riable mide realmente aquello para lo que está desti-
ser muy difícil de conseguir cuando la observación de nada. Es un concepto ligado al de error sistemático.
interés es un hallazgo físico que requiere la presencia Cuanto menos válida sea una medida más probabili-
directa del paciente, ya que el recuerdo de la prime- dades hay de cometer un sesgo.
ra exploración puede condicionar el resultado de la Unas variables son más válidas que otras. Por
segunda. Esta dificultad queda soslayada si la obser- ejemplo, la hemoglobina glucosilada representa
vación es, por ejemplo, una radiografía o un electro- mejor el grado de control de un diabético que una
cardiograma. medición aislada de la glucemia. Los responsables
Por concordancia interobservador se entiende la con- del estudio deben procurar escoger siempre las medi-
sistencia entre dos observadores independientes das más válidas, en especial cuando se trata de las
sobre una medida practicada en el mismo individuo. variables importantes del estudio.
Para asegurar la independencia de las medidas entre
ambos observadores, uno no debe conocer el resulta- F UENTES DE ERROR SISTEMÁTICO
do proporcionado por el otro (observadores ciegos). Las posibles fuentes de error sistemático son las mis-
Con frecuencia, la concordancia intra e interob- mas que las enumeradas en el apartado destinado a la
servador se evalúa en un mismo estudio. En este caso, fiabilidad.
hay que asegurar la independencia de todas las medi-
das, para lo que puede ser muy útil aplicar técnicas Error causado por el individuo
como la aleatoriedad en la secuencia de aplicación Ocurre cuando el error en la medición de un fenó-
de las medidas y las técnicas de enmascaramiento. meno se introduce a causa de los participantes en el
El análisis de la concordancia inter e intraobser- estudio. El ejemplo más sencillo es el sesgo de memo-
vador es, en muchas ocasiones, un paso previo a la ria. Los pacientes que sospechen que el problema de
validación de una nueva prueba diagnóstica, ya que, salud que padecen está relacionado con alguna varia-
si los distintos observadores discrepan en los resulta- ble en estudio, es posible que recuerden con mucha
dos, la prueba, aunque teóricamente pueda ser váli- más exactitud su historia pasada de exposición que
da, tendrá poca utilidad clínica. aquellos participantes libres de la enfermedad. Este
diferente recuerdo se traduce en un error en la medi-
C ONSECUENCIAS DE UNA MEDIDA ción de la variable en estudio.
POCO FIABLE
La fiabilidad de las medidas no se ha de analizar en Ejemplo 18.5. Para investigar los posibles efectos te-
cada estudio. Sólo es necesario cuando se desarrolle ratogénicos de un fármaco, se realizó un estudio de ca-
una nueva medida o como control de la calidad de las sos y controles. Los casos eran los recién nacidos con
mediciones. Sin embargo, al planificar un trabajo de malformaciones, y los controles, recién nacidos sin
investigación es imprescindible considerar las posi- malformaciones. Se preguntaba a las madres por el
bles medidas alternativas de las distintas variables y consumo de fármacos durante el embarazo. Es muy
171
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
probable que las madres de niños con malformaciones gurar la validez de los instrumentos que se van a utili-
tiendan a recordar más todo lo que ocurrió durante su zar en una investigación.
embarazo, incluidos los fármacos que tomaron, que las
madres de niños sin malformaciones. E VALUACIÓN DE LA VALIDEZ
Para evaluar la validez de una medida se comparan
En otras ocasiones, los participantes pueden fal- sus valores con los obtenidos con una técnica de refe-
sear de forma deliberada las respuestas simplemente rencia objetiva, fiable y ampliamente aceptada como
para complacer al entrevistador o porque piensen una buena medida del fenómeno de interés (validez
que una determinada respuesta no está bien vista de criterio).
socialmente, por ejemplo, cuando se interroga sobre Cuando la variable es dicotómica, los índices de
los hábitos tóxicos de una persona. validez de criterio más usados son la sensibilidad y la
especificidad (anexo 3). La sensibilidad se define como
Error causado por el observador la probabilidad de que una persona que presente la
Ocurre cuando el observador mide una variable de característica sea clasificada correctamente por la me-
forma errónea, por ejemplo, al utilizar una técnica dida empleada en el estudio. La especificidad se define
incorrecta para la toma de la presión arterial (mala como la probabilidad de que una persona que no
posición del brazal, tomarla en el brazo inadecua- tenga la característica sea correctamente clasificada
do, etc.) o al administrar un cuestionario de forma por la medida utilizada. Para que una medida sea útil
errónea. deberá ser lo más sensible y específica posible. Si la
En los estudios analíticos puede ocurrir también variable es cuantitativa, una forma de evaluar la vali-
cuando el observador mide una variable de forma sis- dez es el análisis de las diferencias individuales entre
temáticamente distinta en un individuo u otro, según los valores que proporciona la medida que se está uti-
el grupo de estudio al que pertenece. Si un investiga- lizando y la obtenida con el método de referencia, sin-
dor supone que los pacientes que reciben un trata- tetizadas en su media y desviación estándar (anexo 4).
miento presentan con más frecuencia un determina- A veces es difícil disponer de un criterio de refe-
do efecto secundario, es posible que, incluso de rencia adecuado, bien porque no existe o porque no
forma inconsciente, lo busque con mayor insistencia está al alcance del investigador. En estos casos, el pro-
(con preguntas más frecuentes o con más pruebas cedimiento más empleado es evaluar la validez de cons-
complementarias) en aquellos que lo reciben que en tructo o de concepto, que analiza la correlación de la
los participantes del otro grupo. medida con otras variables que se cree que están rela-
cionadas con ella (validez convergente) y la correlación
Error causado por el instrumento con otras que se sospecha que no tienen relación algu-
Ocurre cuando la medida empleada no es la adecuada na (validez divergente). Si la correlación es alta en el pri-
para el fenómeno que se quiere analizar, o en el caso mer caso y baja en el segundo, puede considerarse que
de que el instrumento utilizado no esté bien calibrado. la medida tiene validez de constructo.
Otro aspecto a tener en cuenta es la evaluación de
Ejemplo 18.6. En un estudio se revisaron los esfigmo- la validez de contenido de la medida, es decir, si contem-
manómetros de 9 centros de salud, lo que suponía pla o abarca todas las dimensiones del fenómeno que
una muestra de 44 aparatos de mercurio y 58 aneroi- se quiere medir. Por ejemplo, la concentración de tri-
des, comparándose sus lecturas con las de un aparato glicéridos puede ser una medida fácil de definir, fiable
testigo debidamente certificado (Borrell et al, 1984). y con cifras muy exactas por parte del laboratorio. Sin
Se consideró que los aparatos funcionaban incorrec- embargo, puede no ser una medida válida de arterios-
tamente cuando tenían fugas de aire que producían clerosis. Es conveniente abordar estos problemas en la
un descenso de la columna de mercurio superior a fase de diseño de un estudio, ya que después esta
5 mmHg, aun con la válvula cerrada, registraban dife- información ayudará a matizar los resultados.
rencias superiores o inferiores a 4 mmHg en los va-
lores de 106 o 96, o mostraban este mismo error C ONSECUENCIAS DE UNA MEDIDA
(4 mmHg) en dos de las cifras siguientes: 180, 160 o POCO VÁLIDA
146. El 13,6% de los aparatos de mercurio y el 67,2% La utilización de medidas poco válidas conduce a una
de los aneroides funcionaban incorrectamente. Estos respuesta errónea a la pregunta de investigación. Si se
resultados ponen de manifiesto la necesidad de ase- trata de un estudio descriptivo que estime, por ejem-
172
MEDICIÓN DE VARIABLES
plo, la frecuencia de una enfermedad, se obtendrá aplica para detectar la enfermedad tiene una sensibi-
una prevalencia errónea. Si se trata de estudios analí- lidad del 85% y una especificidad del 90% en ambos
ticos, los sesgos de información conducirán a una esti- grupos. Aplicando estos valores se obtienen los datos
mación errónea del efecto del factor de estudio. En de la tabla 18.1. Por ejemplo, en el grupo A se espe-
este tipo de estudios, conviene distinguir entre los raría que de las 60 personas con la enfermedad, la
errores diferenciales y los no diferenciales. prueba identificara correctamente a 51 (60 ⫻ 0,85), y
que 36 (40 ⫻ 0,90) se clasificaran correctamente
Error no diferencial como que no la tienen.
Es el error que ocurre al medir el factor de estudio De esta forma, la incidencia acumulada en el
y/o la variable de respuesta y que se produce por igual grupo A ha disminuido del 60 al 55%, mientras que
en todos los participantes, con independencia del en el grupo B ha aumentado del 20 al 25%. Esto es así
grupo al que pertenecen o del valor de cualquier otra porque cuando la incidencia o la prevalencia no es
variable. En otras palabras, significa que cuando la muy alta, como sucede en el grupo B, incluso una
variable es cualitativa, la sensibilidad y la especificidad pequeña proporción de falsos positivos puede com-
para medirla permanecen constantes en todos los par- pensar una mayor proporción de falsos negativos.
ticipantes, al margen de otros factores. Si la variable es Si se calcula la razón de incidencias, se observa
continua lo que permanece constante es la diferencia que ha disminuido de 3 a 2,2 como resultado de una
entre la media observada y la verdadera media. mala clasificación no diferencial.
Ejemplo 18.7. Consideremos un estudio en el que un Cuando se comparan dos grupos y se usa una me-
60% de los individuos del grupo A desarrollan la dida poco válida que afecta a todos los participantes
enfermedad, mientras que en el grupo B, la inci- por igual, se introduce un error no diferencial que
dencia es sólo del 20%. La verdadera razón de inci- conduce a una infraestimación del verdadero efecto
dencias es igual a 3. Supongamos que la prueba que se o asociación.
Tabla 18.1. Estudio hipotético que ilustra un error sistemático no diferencial (ejemplo 18.7)
Grupo A
Resultados Enfermedad
de la prueba Presente Ausente Total
Positivos 51 4 55 Incidencia
Negativos 9 36 45 observada
Total 60 40 100 55%
Incidencia acumulada verdadera: 60%.
Sensibilidad de la prueba: 85%.
Especificidad de la prueba: 90%.
Grupo B
Resultados Enfermedad
de la prueba Presente Ausente Total
Positivos 17 8 25 Incidencia
Negativos 3 72 75 observada
Total 20 80 100 25%
Incidencia acumulada verdadera: 20%. Razón de incidencias verdadera: 3.
Sensibilidad de las pruebas: 85%. Razón de incidencias observada: 2,2.
Especificidad de las pruebas: 90%.
173
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Cuando el efecto real es de gran magnitud, esta 98% en el grupo A y sólo del 70% en el B. El resulta-
infraestimación no tiene una gran trascendencia. Sin do es que se sobrestima la verdadera razón de inci-
embargo, en aquellos estudios que no encuentran un dencias, que de 3 ha pasado a 3,75 (tabla 18.2).
efecto, el investigador debe valorar la posibilidad de
que la prueba empleada sea poco sensible o específi- Un ejemplo clásico de error diferencial es el sesgo
ca y que ésta sea la verdadera causa de que no se haya de memoria en los estudios de casos y controles, en el
encontrado ninguna asociación. que el conocimiento de la enfermedad influye sobre
el recuerdo de la exposición (ejemplo 18.5). Otro
Error diferencial ejemplo son los estudios prospectivos en los que no se
Ocurre cuando la medición del factor de estudio y/o aplican o no es posible aplicar técnicas de ciego: el
la variable de respuesta depende del valor de otra conocimiento de la exposición (o la intervención)
variable, y afecta de modo diferente a los participan- puede condicionar la búsqueda, consciente o incons-
tes en el estudio según el grupo al que pertenecen. ciente, de un efecto en este individuo, de forma dife-
Cuando la medida es poco válida, y la sensibilidad rente a la realizada en otro individuo no expuesto. En
y la especificidad de la prueba son diferentes en cada ambos casos, la medición no se realiza independiente-
grupo, la mala clasificación que resulta puede sesgar mente y puede sobrevalorarse o infraestimarse la ver-
los resultados en cualquier dirección. Una verdadera dadera magnitud del efecto o de la asociación.
asociación puede quedar enmascarada, disminuida o
aumentada, o bien puede encontrarse un efecto que ESTRATEGIAS PARA AUMENTAR
en realidad no existe. LA FIABILIDAD Y LA VALIDEZ
Ejemplo 18.8. En un estudio similar al del ejemplo Las cinco primeras estrategias tienen efecto sobre la
18.7 se utiliza una prueba de detección de la enfer- validez y sobre la precisión; la sexta sólo mejora la fia-
medad que tiene la misma especificidad en ambos bilidad, mientras que las restantes sirven para aumen-
grupos (98%), mientras que la sensibilidad es del tar la validez de la medición.
Tabla 18.2. Estudio hipotético que ilustra un error sistemático diferencial (ejemplo 18.8)
Grupo A
Resultados Enfermedad
de la prueba Presente Ausente Total
Positivos 59 1 60 Incidencia
Negativos 1 39 40 observada
Total 60 40 100 60%
Incidencia acumulada verdadera: 60%.
Sensibilidad de la prueba: 99%.
Especificidad de la prueba: 98%.
Grupo B
Resultados Enfermedad
de la prueba Presente Ausente Total
Positivos 14 2 16 Incidencia
Negativos 6 78 84 observada
Total 20 80 100 16%
Incidencia acumulada verdadera: 20%. Razón de incidencias verdadera: 3.
Sensibilidad de las pruebas: 70%. Razón de incidencias observada: 3,75.
Especificidad de las pruebas: 98%.
174
MEDICIÓN DE VARIABLES
1. Seleccionar las medidas más objetivas posibles. Si la La puesta en marcha de todas las estrategias
variable de respuesta es, por ejemplo, la mortali- simultáneamente es muy difícil. No obstante, la estan-
dad total, no existirán variaciones en su determi- darización de las variables y la formación de los obser-
nación por parte de los observadores. Si, por el vadores debe realizarse siempre. La aplicación del
contrario, es la aparición o el alivio de un síntoma, resto de estrategias dependerá de las características
es más probable que la evaluación se lleve a cabo de las variables que se estén estudiando, el diseño
de forma dispar entre los observadores. empleado y la disponibilidad de recursos.
2. Estandarizar la definición de las variables. Es imprescin-
dible que las variables estén definidas de forma ope- B IBLIOGRAFÍA DE LOS EJEMPLOS
rativa en el protocolo o en el manual de instruccio- Borrell F, Dalfó A, Esteban J et al. Fiabilidad de los datos pro-
nes, para que todos los investigadores utilicen los porcionados por los aparatos de medida de la tensión
mismos criterios incluso ante situaciones dudosas. arterial. Aten Primaria 1984; 1: 5-10.
3. Formar a los observadores. Su entrenamiento no per- Cuesta V, Gómez Moro MB. Precisión en la toma de tensión
mitirá controlar totalmente la variación entre un arterial: eficacia de los esfigmomanómetros automáticos.
observador y otro, pero sí reducirla. Rev Clin Esp 1987; 180: 482-485.
4. Utilizar la mejor técnica posible. Por ejemplo, si se tiene Natelson B, Tapp W, Munsif A, Burns W. Fluctuating serum
cholesterol: implications for coronary prevention. Lan-
la posibilidad de escoger entre un aparato aneroide
cet 1988; 2: 404-405.
y otro de mercurio para medir la presión arterial, se
elegirá este último, ya que es más fiable. B IBLIOGRAFÍA
5. Utilizar instrumentos automáticos. Si es factible, y el Armstrong BK, White E, Saracci R. Principles of exposure
instrumento automatizado es más preciso, permi- measurement in epidemiology. Oxford: Oxford Uni-
tirá reducir la variabilidad interobservador. versity Press, 1994; 5.
6. Obtener varias mediciones de una variable. El prome- Bland JM, Altman DG. Comparing two methods of clinical
dio de varias medidas tiende a ser más preciso que measurement: a personal history. Int J Epidemiol 1995;
una medida aislada. El ejemplo más clásico es la 24 (Supl. 1): S7-S14.
presión arterial: dado que es una medida muy Bland JM, Altman DG. Measurement error and correlation
variable, la práctica más habitual es tomarla en más coefficients. BMJ 1996; 313: 41-42.
de una ocasión y obtener la media de las distintas Bland JM, Altman DG. Measurement error. BMJ 1996; 312:
mediciones. De la misma forma, se obtendrá una 1654.
Bland JM, Altman DG. Measurement error proportional to
estimación más precisa de un fenómeno como la
the mean. BMJ 1996; 313: 106.
calidad de vida si se realizan varias preguntas rela-
Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin
cionadas con el tema en un cuestionario. Esta Epidemiol 1993; 46: 423-429.
estrategia sólo mejora la precisión, no la validez. Doyle JR, Doyle JM. Measurement error. Measurement error
7. Emplear técnicas de enmascaramiento (ciego). En los ensa- is that which we have not yet explained. BMJ 1997; 314:
yos clínicos controlados con placebo donde es posible 147-148.
utilizar las técnicas de enmascaramiento, y más con- Guggenmoos-Holzmann I. The meaning of kappa: proba-
cretamente las de doble ciego, es muy difícil incurrrir bilistic concepts of reliability and validity revisited. J Clin
en un error diferencial, ya que ni los observadores ni Epidemiol 1996; 49: 775-782.
los participantes conocen la intervención que están Jiménez Villa J. Comparación de métodos cuantitativos de
recibiendo. En algunos estudios observacionales es medida. FMC 1994; 1: 404-410.
factible mantener ciegos a los observadores, pero no Kundel HL, Polansky M. Measurement of observer agree-
así a los participantes. En esta situación se elimina ment. Radiology 2003; 228: 303-308.
Latour J, Abraira V, Cabello JB, López Sánchez J. Las me-
el error potencial que se deriva de las expectativas de
diciones clínicas en cardiología: validez y errores de me-
los observadores, pero no el que puede provenir dición. Rev Esp Cardiol 1997; 50: 117-128.
de los participantes. De todos modos, las técnicas de Luiz RR, Costa AJ, Kale PL, Werneck GL. Assessment of agree-
ciego no evitan los errores no diferenciales. ment of a quantitative variable: a new graphical approach.
8. Calibrar los instrumentos. El ejemplo 18.6, correspon- J Clin Epidemiol 2003; 56: 963-967.
diente a un estudio sobre la calibración de los esfig- Mertens TE. Estimating the effects of misclassification.
momanómetros, ilustra lo que puede ocurrir si no se Lancet 1993; 342: 418-421.
toma esta precaución. Hay que calibrar los instru- Michels KB. A renaissance for measurement error. Int J
mentos con el fin de evitar medidas sesgadas. Epidemiol 2001; 30: 421-422
175
Capítulo 19
Selección y definición de las variables
176
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES
nado y cómo se han comportado ante el resto de en la actualidad o la habitual. Si se está estudiando
los factores. una determinada exposición laboral, interesa más
El cuarto grupo lo forman las variables que des- la historia ocupacional que la profesión.
criben las características de los sujetos estudiados, A menudo, no existe una variable única que, por
de forma que pueda evaluarse la capacidad de ge- sí sola, exprese toda la complejidad del fenómeno
neralización de los resultados a otros grupos de que se desea medir. En estas situaciones, pueden
sujetos o poblaciones. Son variables la clasificación utilizarse diferentes variables, de manera que cada
de la enfermedad, el tiempo de evolución, y los tra- una de las cuales refleje un aspecto diferente de di-
tamientos previos, entre otras. También se incluyen cho fenómeno, y que después puedan agruparse en
variables que podrían llamarse universales, ya que una escala combinada.
se recogen en la mayoría de los estudios, como el
sexo o la edad. Ejemplo 19.2. Para evaluar la calidad de vida puede
El último grupo corresponde a las variables que utilizarse un cuestionario como el SF-36 (Short-
complementan la medición del efecto o la asocia- Form-36 Health Survey) validado en España (Alon-
ción, definen subgrupos de sujetos de especial so et al, 1995), que consta de 36 ítems, medidos en
interés o son necesarias para responder a las pre- una escala ordinal, que abarca 8 dimensiones: esta-
guntas secundarias. do físico, limitaciones por problemas físicos, dolor,
Una buena práctica es elaborar una lista de las salud mental, limitaciones de vida a causa de pro-
variables contenidas en cada una de estas categorías blemas emocionales, vitalidad, energía o fatiga y
y debatirla entre todo el equipo investigador para percepción de la salud general.
valorar la pertinencia de su recogida.
En ocasiones, es necesario descomponer un fe-
nómeno complejo en diferentes aspectos que se mi-
DEFINICIÓN DE LAS VARIABLES
den por variables separadas. Un ejemplo es el elec-
Es conveniente adoptar definiciones estándar, utili- trocardiograma, cuya valoración requiere estudiar
zadas y validadas por otros investigadores, con la el patrón QRS, el segmento ST, la onda T, el ritmo y
finalidad de poder comparar los resultados con los la frecuencia, entre otros.
de otros trabajos.
ESCALAS DE MEDIDA
Ejemplo 19.1. En una revisión de los ensayos clíni-
cos que evalúan las intervenciones de apoyo a los La escala de medida determinará el análisis estadís-
cuidadores de pacientes con demencia, Thompson tico que podrá realizarse. La más simple correspon-
y Briggs (2000) ponen de manifiesto que tanto el de a las variables nominales, cuyos valores son ca-
tipo de las intervenciones evaluadas como el de las tegorías no numéricas bien definidas, como por
variables de respuesta y sus definiciones son distin- ejemplo, el tipo de tratamiento de la diabetes melli-
tas en la mayoría de los estudios, lo cual dificulta tus codificado como dieta sola, dieta + hipoglice-
enormemente tanto la comparación de los resulta- miantes orales, dieta + insulina y otras combina-
dos como su interpretación conjunta. ciones. En el caso concreto de que sólo existan dos
valores posibles (sí/no, presente/ausente, masculi-
Las definiciones han de ser claras, operativas y no no/femenino, etc.) se habla de variables dicotómicas.
deben dejar lugar a la ambigüedad; además, deben En las variables ordinales las categorías pueden
prever todas las situaciones posibles. Por ejemplo, en ordenarse de alguna forma lógica. Por ejemplo, la
la definición de visita: ¿se incluyen las de enferme- codificación del dolor, en ausente, leve, moderado
ría?, ¿y las consultas telefónicas?, ¿o las debidas a mo- o grave.
tivos burocráticos?, ¿o las consultas sobre el paciente Las variables cuantitativas discretas pueden
realizadas por sus familiares? adoptar sólo ciertos valores (en general, números
Para muchos conceptos se utilizan mediciones enteros), como ocurre con el número de hijos o el
aproximadas. Por ejemplo, al definir la profesión de ingresos hospitalarios. Las variables cuantitativas
de un sujeto deberá decidirse si interesa la ejercida continuas pueden adoptar cualquier valor numéri-
177
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
co, en general, dentro de un rango; por ejemplo, el alcohol, el cálculo de los gramos consumidos dia-
peso, la edad o la glucemia basal. riamente requiere un esfuerzo suplementario. Si
En muchas ocasiones, la propia definición de la esta variable tiene un interés marginal en el estu-
variable lleva implícita la escala de medida, pero en dio, puede bastar con medirla con una escala ordi-
otras puede ser necesario escoger entre diversas po- nal (no consumo/consumo moderado/consumo
sibilidades. El consumo de tabaco puede expresar- importante), mucho más fácil de obtener. Pero si la
se como una variable nominal (sí/no, o bien nunca variable es importante, debe medirse con la mayor
ha fumado/fumador/exfumador), ordinal (no/fu- precisión y cuantitativamente, si es posible.
mador leve/fumador moderado/fumador impor-
tante) e incluso cuantitativa (número de cigarrillos Ejemplo 19.3. Existen diversos métodos para medir
o gramos de nicotina diarios). Como norma gene- la intensidad del dolor. Las escalas descriptivas sim-
ral, es preferible escoger la escala continua, si es po- ples resultan poco sensibles. Se han desarrollado
sible. En primer lugar, porque contiene más infor- otras técnicas, entre las que destacan los métodos
mación, lo cual permite utilizar pruebas estadísticas gráficos y las escalas analógicas visuales, siendo estas
más potentes (la tabla 19.2 enumera las escalas por últimas las que se han mostrado más sensibles. Con-
orden creciente de información que contienen). En sisten en representaciones gráficas en forma de lí-
segundo lugar, porque, a partir de los datos cuan- nea recta cuyos límites se definen como los límites
titativos, puede agruparse como categorías cualita- extremos de la sensación que se quiere medir. El pa-
tivas, incluso según diferentes criterios, mientras ciente marca en la escala el punto que, a su juicio,
que el proceso inverso no es posible. representa la intensidad de su síntoma. Es recomen-
Sin embargo, debe valorarse la dificultad de la dable que la línea no contenga señales ni puntos
recogida de la información necesaria frente al be- intermedios de referencia, ya que pueden con-
neficio esperado. Si se desea medir el consumo de dicionar la respuesta, convirtiendo una escala incial-
mente cuantitativa en una prácticamente categórica,
como se ilustra en la figura 19.1. Las escalas analógi-
Tabla 19.2. Escalas de medida de las variables cas visuales no sólo se utilizan en la valoración del
dolor, sino también de otros síntomas percibidos
Escala Ejemplos por el paciente más o menos subjetivamente.
– Cualitativa: Una buena escala debería cumplir los criterios
• Nominal Sexo: masculino/femenino enumerados en la tabla 19.3.
Cefalea: sí/no
Tabaco: sí/no
Vía de administración del fármaco FUENTES DE INFORMACIÓN
• Ordinal Clase social: I, II, III, IV, V Las fuentes de obtención de datos pueden clasifi-
Proteinuria: –, ⫹, ⫹⫹, ⫹⫹⫹ carse en cinco grupos (tabla 19.4). Algunas varia-
Cefalea: no, leve, moderada, grave
bles pueden medirse utilizando diferentes fuentes.
Tabaco: no, fumador moderado,
La elección de la más adecuada se basa en el tipo y
gran fumador
la validez de la información que pueden proporcio-
– Cuantitativa: nar, los recursos necesarios para obtenerla, la acep-
• Discreta Número de hijos tabilidad del método por los sujetos y la probabili-
Número de ingresos hospitalarios dad de que proporcione una cobertura adecuada a
Número de episodios
todos ellos.
de una enfermedad
Número de visitas en el último año
Ejemplo 19.4. Un estudio comparó la información
• Continua Peso proporcionada por las mujeres respecto a la reali-
Glucemia basal zación previa de pruebas de Papanicolaou median-
Consumo de alcohol (g/día) te entrevista y la registrada en las historias clínicas
Presión arterial
(. Walter et al, 1988). Los datos procedentes de la en-
178
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES
Moderado
Método gráfico
Grave
Máximo dolor
N.º de observaciones
Leve
Grave 32
28
24
Moderado
20
16
Leve 12
8
4
Sin dolor
0
1 3 5 7 9 11 13 15 17 19
Escala analógica visual Resultados de 100 mediciones consecutivas
Máximo dolor N.º de observaciones
32
28
24
20
16
12
8
4
Sin dolor
0
1 3 5 7 9 11 13 15 17 19
Resultados de 100 mediciones consecutivas
trevista indicaban una mayor cantidad de pruebas variables como el grupo sanguíneo, que permane-
realizadas en los 5 años previos, una fecha más re- cen fijas durante toda la vida, y en el otro, variables
ciente de la última exploración, una mayor presen- como el monóxido de carbono, que indican el con-
cia de sintomatología y una gran discrepancia en sumo de tabaco en las horas que preceden a su me-
los resultados de la prueba. Un estudio similar dición. En una situación intermedia estarían, por
comparó la información obtenida mediante entre- ejemplo, el peso o la presión arterial.
vista sobre el consumo de anticonceptivos orales Un problema que se puede presentar con las
con la registrada en las historias clínicas (Rosen- medidas biológicas es que su valor se modifique
berg et al, 1983). En la entrevista se utilizaron por la presencia de una enfermedad.
recordatorios de sucesos relevantes y fotografías de
las marcas disponibles en el mercado. Se obtuvo Ejemplo 19.5. Supongamos un estudio de casos y
una concordancia bastante buena (90%) en la controles en el que se estudiara el riesgo de pade-
duración en meses del consumo, pero bastante cer infarto agudo de miocardio (IAM) asociado a
menor en cuanto a la duración y la marca (62%) y la presencia de hipercolesterolemia. En las horas
la dosis (54%). inmediatas después de padecer un IAM se observa
un descenso de las cifras de colesterol, por lo que
O BSERVACIÓN DIRECTA si la valoración de la colesterolemia se hace en
La utilidad del examen físico o de las medidas función de una medición de las cifras de coleste-
biológicas depende, principalmente, de su estabili- rol a las pocas horas de padecer el IAM, se produ-
dad en el tiempo. En un extremo se encuentran cirá un error de medición, y un sesgo en la estima-
179
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 19.3. Características de una buena escala Muchas variables se pueden modificar mediante
de medida una intervención preventiva o terapéutica. Esta con-
sideración es importante en los diseños transversa-
• Apropiada para su uso en el estudio, de acuerdo les de asociación cruzada, por ejemplo, entre la pre-
con los objetivos y la definición de la variable sión arterial y la edad, en el supuesto de que los
• Viable, de acuerdo con los métodos que podrán individuos hipertensos hayan recibido alguna inter-
utilizarse para recoger la información vención para reducir sus cifras de presión arterial.
• Con suficiente potencia para alcanzar
los objetivos del estudio E NTREVISTAS Y CUESTIONARIOS
Permiten obtener información tanto sobre exposi-
• Categorías claramente definidas
ciones ocurridas en el pasado como en la actuali-
• Número suficiente de categorías, dad. Son la fuente de información de elección
pero no innecesariamente elevado cuando se requieren grandes cantidades de datos,
• Exhaustiva en su conjunto para permitir clasificar en especial, si se refieren principalmente a exposi-
todas las situaciones posibles ciones pasadas y que han tenido un gran impacto
• Categorías mutuamente excluyentes (cada en la vida del individuo. Los capítulos 20 y 21 de
situación debe clasificarse en una única categoría) esta obra se dedican al diseño de cuestionarios y a
• Categorías ordenadas jerárquicamente su validación.
• Capacidad para medir tanto la mejoría como Cada vez es más frecuente que las variables de
el empeoramiento del síntoma o la enfermedad respuesta tanto de los ensayos clínicos como de los
en estudio estudios observacionales sean medidas de la calidad
de vida relacionada con la salud (CVRS). El desa-
rrollo y el uso creciente de los instrumentos de la
Tabla 19.4. Fuentes de información CVRS viene dado por la convicción de que las me-
didas de resultado tradicionales, como la tasa de
– Observación directa: mortalidad, no son lo suficientemente sensibles
• Exploración física para analizar las posibles diferencias entre trata-
• Exploraciones complementarias mientos, y que algunos de ellos, si bien aumentan la
superviviencia, pueden tener un impacto negativo
– Entrevistas y cuestionarios
sobre la calidad de vida del paciente.
– Registro de datos por el propio paciente
– Informador indirecto R EGISTRO POR EL PROPIO PACIENTE
– Registros y documentos ya existentes Se refiere a un registro detallado y prospectivo lle-
(datos secundarios): vado a cabo por los propios sujetos del estudio. El
• Datos individuales detalle (y la duración del registro) con que se reco-
• Datos agregados ge la información está definida por el investigador.
En la mayoría de las ocasiones, el registro es diario
y su duración de pocos días o semanas.
ción de su efecto sobre el riesgo de desarrollar la Al ser registros prospectivos, no dependen de
enfermedad. la memoria de los sujetos, y son muy útiles para
exposiciones muy frecuentes y que tengan, por
Cuando las mediciones corresponden a pruebas ejemplo, poco impacto en la vida de los indivi-
de laboratorio o pruebas complementarias, es im- duos. Se han usado para medir la actividad física,
portante asegurarse de que los valores no depen- la actividad sexual, el consumo de alcohol o la
den del observador, que los aparatos de medida dieta. Por otro lado, al registrar las actividades a
están bien calibrados, que las unidades de medida medida que se realizan, permite conocerlas con
son las de referencia y que sus valores normales son detalle, lo que supone una ventaja frente a otras
conocidos y comparables entre los laboratorios par- fuentes de información que recogen simplemente
ticipantes en el estudio. la actividad habitual.
180
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES
La principal limitación es que sólo se pueden duos que han muerto puede causar un sesgo im-
registrar variables que se observan durante la reali- portante y, por consiguiente, es útil el estudio de la
zación del estudio. Por tanto, no sirven para medir historia de exposición a través de sujetos próximos
una exposición en el pasado, a no ser que esté muy a él. Su uso puede aumentar el número de suje-
correlacionada con la actual. Además, los diarios tos disponibles y conseguir una muestra más repre-
requieren más tiempo de dedicación por parte de sentativa.
los sujetos incluidos en el estudio, por lo que éstos Este método de obtención de información pre-
deben estar motivados para llevar a cabo el regis- senta limitaciones añadidas a las de las entrevistas
tro. Al recoger gran cantidad de datos, tienen el personales. Es posible que la persona que responde
inconveniente añadido de una mayor dificultad de no sepa con exactitud la historia de exposición del
codificación y procesamiento de dichos datos. Por individuo. Además, si la razón por la cual ha de res-
todas estas dificultades, su uso ha sido muy limita- ponder es por la muerte de una persona, es posible
do, en general, como criterio de referencia para que este hecho pueda alterar las respuestas. Con el
estudios de validación de cuestionarios u otros fin de atenuar estos errores, es conveniente que los
métodos de recogida de datos. Las principales informadores indirectos sean personas muy próxi-
fuentes de error de este tipo de registros se resu- mas al individuo incluido en el estudio.
men en la tabla 19.5. La fiabilidad de los datos proporcionados por
un informador indirecto varía en función de la va-
riable sobre la que se recoge la información. Por
Tabla 19.5. Errores frecuentes en el uso
ejemplo, la fiabilidad es alta cuando se pregunta
de los registros por el propio sobre los estudios, y moderada, si es sobre el consu-
paciente mo de tabaco o la dieta.
En ocasiones, el uso de una persona próxima
• El tiempo de cobertura del registro puede no ser puede proporcionar información más fiable que el
suficiente para reflejar la verdadera exposición propio sujeto, por ejemplo, si se interroga a una
del individuo madre sobre la historia de las enfermedades pade-
cidas por su hijo en la infancia.
• El registro puede no reflejar las variaciones
en la exposición con el tiempo
R EGISTROS PREVIOS
• El hecho de mantener un registro diario puede Los registros previos contienen datos obtenidos
afectar (cambiar) el comportamiento de los para otro propósito que no es el del estudio de in-
participantes en relación con la exposición
vestigación, y se denominan datos secundarios, por
• Inexactitudes de los participantes al recoger oposición a los datos primarios, recogidos directa-
los datos mente para la realización del estudio. La tabla 19.6
• Errores en la codificación presenta algunos ejemplos de registros utilizados
frecuentemente en investigación.
Sus principales ventajas radican en que son
fuentes de datos rápidas, sencillas y económicas.
I NFORMADOR INDIRECTO Además, si los registros son exhaustivos, no habrá
La entrevista a personas próximas a los sujetos in- pérdidas de información debido a las no respues-
cluidos en el estudio se usa cuando éstos no son ca- tas. Si la información que contienen se ha registra-
paces de proporcionar la información necesaria. do prospectivamente, se minimizan errores de me-
Las causas más frecuentes de esta incapacidad son moria.
la defunción del individuo seleccionado, la presen- Tienen importantes limitaciones relacionadas
cia de enfermedades mentales o la edad. fundamentalmente con su validez y calidad. Los da-
Son muy útiles en estudios de casos y controles tos que contienen han sido recogidos por múltiples
sobre una enfermedad de elevada letalidad y cuan- personas, que pueden haber utilizado definiciones
do la serie de casos es muy pequeña. En estas cir- y métodos diferentes. Además, aunque los datos
cunstancias la falta de información de los indivi- sean homogéneos, pueden no corresponder a la
181
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 19.6. Ejemplos de datos secundarios ser tratada como tal y no como si el individuo no
fumara.
• Censo poblacional Antes de utilizar una determinada base de datos,
• Estadísticas de mortalidad
deben conocerse las definiciones empleadas, el mé-
todo de recogida y procesamiento de los datos y su
• Estadísticas de natalidad validez.
• Estadísticas demográficas Pueden diferenciarse dos grandes tipos de datos
• Registros laborales secundarios:
• Encuestas poblacionales
– Datos individuales, que proporcionan información
• Registros de malformaciones separadamente para cada sujeto. Provienen sobre
• Estadísticas de centros de control epidemiológico todo de la documentación clínica de los hospita-
• Enfermedades de declaración obligatoria les y los centros de salud, de registros de determi-
nadas enfermedades o procesos, o de datos reco-
• Altas hospitalarias
gidos en estudios previos.
• Registros hospitalarios – Datos agregados, que proporcionan información
• Registros de actividad de los centros de salud sobre grupos de individuos, pero no de forma se-
• Historias clínicas
parada para cada uno de ellos. Su principal incon-
veniente radica en la posibilidad de incurrir en
• Datos de estudios previos una falacia ecológica, ya que las asociaciones ob-
servadas en los datos agregados no son necesaria-
mente ciertas individualmente.
definición concreta que el investigador desea utili- B IBLIOGRAFÍA DE LOS EJEMPLOS
zar. Por ejemplo, en muchas historias clínicas no se Alonso J, Prieto L, Antó JM. La versión española del SF-36.
registra el número de cigarrillos que fuma habitual- Health Survey (cuestionario de Salud SF-36): un instru-
mente una persona o los gramos de alcohol que be- mento para la medida de resultados clínicos. Med Clin
be. Existen problemas añadidos relacionados con la (Barc) 1995; 104: 771-776.
ilegibilidad de algunas caligrafías o la dificultad Rosenberg MJ, Layde PM, Ory HW, Strauss LT, Rooks JB,
para encontrar determinada información enmasca- Rubin GL. Agreement between women’s histories of oral
rada entre otros muchos datos irrelevantes para el contraceptive use and physician records. Int J Epidemiol
estudio. 1983; 12: 84-87.
Las bases de datos se mantienen habitualmente Thompson C, Briggs M. Support for carers of people with
con finalidades clínicas o administrativas, pero no Alzheimer’s type dementia. Cochrane Database Syst Rev
2000 (2): CD000454.
de investigación, por lo que no suelen recogerse
Walter SD, Clarke EA, Hatcher J, Stitt LW. A comparison of
con la debida meticulosidad. Una decisión que de-
physician and patient reports of Pap smear histories.
be tomarse con la información que falta es si se
J Clin Epidemiol 1988; 41: 401-410.
debe considerar que el individuo no tiene la expo-
sición o la enfermedad, o si se debe considerar
como una pérdida de información. En enfermeda- B IBLIOGRAFÍA
Armstrong BK, White E, Saracci R. Principles of exposure
des (o exposiciones) graves y poco frecuentes, se
measurement in epidemiology. Oxford: Oxford Univer-
puede asumir que la falta de información es equi-
sity Press, 1994.
valente a la ausencia de la condición. Por ejemplo, Badia X, Salamero M, Alonso J. La medida de la salud: guía
en un trabajo en el que se estudian los aneurismas de escalas de medición en español. 3.a ed. Barcelona:
de aorta, si la información no especifica claramen- Edimac, 2002.
te que el individuo tiene esta enfermedad, se Casas Anguita J, Ramon Repullo Labrador J, Pereira Candel
puede codificar como que no la tiene. Por el con- J. Medidas de calidad de vida relacionadas con la salud.
trario, si se trata de exposiciones frecuentes, como Conceptos básicos, construcción y adaptación cultural.
el consumo de tabaco, la falta de información debe Med Clin (Barc) 2001; 116 (20): 789-796.
182
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES
Doyle JR, Doyle JM. Measurement error. Measurement error ted quality of life instrument. J Clin Epidemiol 2001; 54:
is that which we have not yet explained. BMJ 1997; 314: 571-579.
147-148. Muñoz A, Gange SJ. Methodological issues for biomarkers
Howe GR. Use of computerized record linkage in cohort stu- and intermediate outcomes in cohort studies. Epidemiol
dies. Epidemiol Rev 1998; 20: 112-119. Rev 1998; 20: 29-42.
Hyland ME. A brief guide to the selection of quality of life Nelson LM, Longstreth WT Jr, Koepsell TD, Van Belle G.
instrument. Health Qual Life Outcomes 2003 3; 1 (1): Proxy respondents in epidemiologic research. Epide-
24. Epub 2003 Jul 03. miol Rev 1990; 12: 71-86.
Latour J, Abraira V, Caballero JB, López Sánchez J. Las medi- Phillips CV. Quantifying and reporting uncertainty from sys-
ciones clínicas en cardiología: validez y errores de me- tematic errors. Epidemiology 2003; 14: 459-466.
dición. Rev Esp Cardiol 1997; 50: 117-128. White E, Hunt JR, Casso D. Exposure measurement in co-
Michels KB. A renaissance for measurement error. Int J Epi- hort studies: the challenges of prospective data collec-
demiol 2001; 30: 421-422. tion. Epidemiol Rev 1998; 20: 43-56.
Moran LA, Guyatt GH, Norman GR. Establishing the mini-
mal number of items for a responsive, valid, health-rela-
183
Capítulo 20
Diseño de cuestionarios
U
Tabla 20.1. Etapas en la preparación
recogida de información a través de la cum- de un cuestionario
plimentación de una serie predeterminada de
preguntas. Estructurado significa que a todos los 1. Decidir la información necesaria y revisar
participantes se les formulan las mismas preguntas, la bibliografía
de la misma forma y en la misma secuencia. La fi- 2. Elegir el tipo de cuestionarios
nalidad es conseguir la máxima fiabilidad en la in- 3. Elegir el tipo de preguntas para cada variable
formación. 4. Definir códigos, puntuaciones y escalas
Existe una gran cantidad de instrumentos o es- 5. Elegir el orden de las preguntas
calas disponibles, pero es frecuente que los investi- 6. Diseñar el formato
gadores rechacen los cuestionarios empleados en 7. Preparar el manual de instrucciones
otros estudios, aduciendo que ninguno de ellos les 8. Entrenar a los encuestadores
es totalmente adecuado, y desarrollen uno nuevo, 9. Realizar una prueba piloto
con la esperanza de que será más válido y fiable, 10. Revisar el cuestionario y el manual
desestimando los esfuerzos y dificultades que supo- de instrucciones
ne elaborar y validar un nuevo cuestionario. Ade-
más, esta multiplicidad de escalas dificulta la com-
paración de resultados entre estudios. por el modo de registrarlas, y además el estudio es
Las etapas que se siguen en la elaboración de un más económico. Otra ventaja es que la duración del
nuevo cuestionario se muestran en la tabla 20.1. estudio será menor, ya que se puede obtener in-
formación de un gran número de personas sin
necesidad de entrevistarlas personalmente.
TIPOS DE CUESTIONARIOS
Cuando el cuestionario se envía por correo, su
La forma de obtener la información a través de principal desventaja es que el porcentaje de res-
un cuestionario puede ser de dos tipos: que sea el puestas es muy bajo comparado con los otros méto-
propio participante quien lo cumplimente (encues- dos. Este porcentaje varía según el problema estu-
tas autocumplimentadas) o que sea administrado por diado y la motivación de las personas seleccionadas
un encuestador, ya sea personalmente o por teléfono. para la encuesta.
Una estrategia para mejorar el número de res-
ENCUESTAS AUTOCUMPLIMENTADAS puestas es enviar el cuestionario dos y hasta tres ve-
Al no mediar un entrevistador, no se introducen ces a las personas que no lo devuelven y/o efectuar
sesgos por la forma de formular las preguntas ni una llamada telefónica invitando a su cumplimen-
184
DISEÑO DE CUESTIONARIOS
tación y devolución. Aun así, es de esperar que el completos. Por otro lado, puede introducir un ses-
número de personas que respondan sea menor que go al preguntar, ya sea omitiendo cuestiones o cam-
en las entrevistas personales. biando sus palabras, al clarificar las respuestas; ya
Cuando se estudian personas que pertenecen a sea porque no lo hace o lo hace de forma inade-
grupos muy definidos, como escuelas o centros sa- cuada o sesgada, al registrar las respuestas dadas
nitarios, puede darse el cuestionario personalmen- por el entrevistado; ya sea porque falsea los datos y
te a cada individuo seleccionado y recogerlo un registra respuestas de preguntas (o todo un cues-
tiempo después. tionario) que no se han formulado.
Las preguntas han de ser sencillas y las instruc-
ciones muy claras. Si el cuestionario es complejo se Ejemplo 20.1. Supongamos que en un estudio para
corre el riesgo de que muchas preguntas queden validar los datos sobre el uso de servicios sanitarios
sin contestar, o lo que es peor, que se respondan en que la información se recoge a través de una en-
erróneamente por falta de comprensión. Además, trevista personal, se observa que la frecuencia re-
serán de poca utilidad cuando la muestra de perso- gistrada en el uso de los servicios sanitarios descien-
nas seleccionadas no posea un grado de escolariza- de en los cuestionarios cumplimentados a partir de
ción suficiente como para leer y escribir las respues- la quinta semana desde que se inició el estudio, lo
tas con fluidez. La tabla 20.2 recoge las ventajas y que podría indicar una pérdida de interés y en-
desventajas mencionadas. tusiasmo por parte de los entrevistadores a medida
que avanza el estudio. Éste es un ejemplo de un ses-
go debido al entrevistador.
Tabla 20.2. Características de los cuestionarios
autocumplimentados La variación debida al entrevistador no puede
ser controlada en su totalidad. Incluso si se emplea
Ventajas a un solo encuestador, éste puede variar su técnica
– Bajo coste en relación con los cuestionarios de entrevista durante el estudio. Por ello, la selec-
por entrevista personal ción y la formación de los entrevistadores es un
– Mayor posibilidad para encuestar a un gran paso clave, que permite estandarizar la manera de
número de personas formular las preguntas y de registrar las respuestas.
– Se elimina el sesgo debido al entrevistador Estos aspectos se comentan con detalle en el capí-
– Contestación más cómoda para el encuestado tulo dedicado a los preparativos para la puesta en
– Mayor estandarización en la presentación marcha.
del material
Desventajas Entrevistas personales
– Requieren un mínimo grado de escolarización Éste es el tipo de encuestas que proporciona el ma-
y capacidad de lectura yor número de respuestas. Es más fácil contestar
– La limitación habitual radica en que las preguntas unas preguntas verbalmente que por escrito. Ade-
han de ser simples y cerradas más, en un cuestionario por correo los participan-
– Incapacidad de clarificar preguntas o respuestas tes pueden dejar sin contestar parte de una sección
– Si se envían por correo, hay un alto porcentaje y pasar a la siguiente. En la tabla 20.3 se resumen
de no respuestas sus características.
– No permiten observar respuestas emocionales Las preguntas pueden ser más complejas y la in-
– Ausencia de seguridad sobre quién responde formación más exhaustiva. La presencia de un en-
y si lo hace solo cuestador facilita la respuesta a personas con difi-
cultades para leer y escribir. Permite, también,
reconducir la entrevista en el supuesto de que el en-
ENCUESTAS ADMINISTRADAS cuestado se muestre distraído o confuso.
POR UN ENCUESTADOR Un error frecuente es que no todos los encuesta-
El entrevistador puede aumentar el porcentaje de dores siguen las mismas técnicas de entrevista, con
respuestas y motivar al participante a responder lo que se pierde uniformidad en el proceso de re-
correctamente, o clarificar y obtener datos más cogida de datos. La actitud del entrevistador es per-
185
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 20.3. Características de los cuestionarios La entrevista ha de ser breve y muy sencilla.
para entrevistas personales Estar muchos minutos al teléfono respondiendo
preguntas que por su complejidad requieren fre-
Ventajas cuentes aclaraciones es cansado y hace que el en-
– Permiten alcanzar un alto porcentaje trevistado termine colgando el auricular. Hay que
de respuestas evitar las preguntas íntimas porque muy probable-
– Mayor control sobre la secuencia de las preguntas mente la gente se muestre reticente a responderlas
– Permiten clarificar las preguntas y las respuestas por teléfono.
– Las preguntas pueden ser más complejas Con el fin de conseguir un buen número de res-
– El número de preguntas puede ser elevado, puestas es indispensable, al igual que en cualquier
con lo que se obtiene una información otro tipo de encuesta, enviar una carta previa donde
más exhaustiva se expliquen los motivos por los que se realiza el es-
Desventajas tudio y la institución que lo efectúa. Es primordial,
– Alto coste además, la presentación telefónica. Hay que decir el
– Se necesita más tiempo para terminar el estudio nombre del encuestador y repetir los fines del estu-
– Posibilidad de introducir sesgos debidos dio, el nombre de la institución que lo respalda y
al entrevistador cómo son seleccionados los participantes.
El éxito de la encuesta dependerá del número de
personas candidatas que no tengan teléfono, y si di-
cibida por los sujetos; las palabras que usa al for- fieren sustancialmente respecto a las características a
mular una pregunta y la entonación que les da son estudiar. Si el número es muy alto y las diferencias
factores que influyen sobre las respuestas. Los parti- importantes, se obtendrá un resultado sesgado.
cipantes, a menudo, desean complacer a los encues-
tadores y dan una respuesta que piensan que mere-
TIPOS DE PREGUNTAS
cerá su aprobación.
Existen dos tipos de preguntas: las cerradas y las
Encuestas telefónicas abiertas (tabla 20.4).
El uso de la encuesta telefónica ha ido en aumento
en los últimos años. Muchas de las ventajas de las en- PREGUNTAS CERRADAS
trevistas personales también se consiguen con las te- Las preguntas cerradas son aquellas en que se espe-
lefónicas. Tienen un coste intermedio y el porcenta- cifica de antemano las posibles respuestas alternati-
je de respuestas es más alto que en las encuestas por vas. Son más fáciles de aplicar y, también, de tabular y
correo, aunque algo más bajo que en las realizadas analizar que la mayoría de las preguntas abiertas. La
por entrevista personal. recogida de datos gana en precisión y uniformidad,
Ventajas
– Obligan a reflexionar sobre detalles – Útiles para informaciones complejas
– Uniformidad de respuesta – Permiten observaciones y comentarios
– Facilidad de codificación – No se inducen respuestas
Desventajas
– No son útiles para informaciones complejas – Requieren mayor tiempo y esfuerzo
– Inducción de las respuestas – Dificultad para codificar
– Pueden no recoger datos importantes – No son útiles cuando se pregunta sobre hechos
o actitudes mal vistas socialmente
186
DISEÑO DE CUESTIONARIOS
a la vez que es más eficiente, ya que una persona gorías, un 37,5% estimó que la miraba más de
puede contestar, por norma general, un mayor nú- 2 horas y media. En general, muchos participantes
mero de preguntas cerradas que abiertas, en un tiem- huyen de los valores extremos y escogen los inter-
po determinado. Además, si se leen las posibles res- medios, ya que piensan que esto es lo que contesta-
puestas, pueden ayudar al entrevistado a recordar o a rá la mayoría. Si la pregunta hubiera sido del tipo
considerar opciones que de otra forma le hubieran abierta se hubiera soslayado este problema.
pasado inadvertidas.
Las preguntas cerradas son más difíciles de ela-
SELECCIÓN DE LOS ÍTEMS
borar, ya que hay que considerar todas las posibles
opciones alternativas en términos correctos y com- El diseño de un cuestionario generalmente se inicia
prensibles para todos los participantes. Otra des- con la selección de los ítems que luego se tradu-
ventaja es que permiten sólo un número limitado cirán a preguntas. Hay que recoger la cantidad mí-
de opciones, sin que los encuestados puedan mati- nima de datos necesarios para alcanzar los objetivos
zarlas o proporcionar información adicional. del estudio.
Entre los aspectos que limitan la viabilidad de la
PREGUNTAS ABIERTAS administración de un cuestionario se encuentra su
En las preguntas abiertas las respuestas no están pre- duración. Se estima que un cuestionario mediante
establecidas. Las respuestas suelen ser más detalladas, entrevista no debe durar más de 60-90 minutos,
al recogerse íntegramente lo que los participantes y por teléfono, no más de 40 minutos. Si un cues-
expresan libremente con sus propias palabras. Sin tionario enviado por correo es muy largo, es posi-
embargo, es difícil medir diferencias entre los parti- ble que las personas que deban responderlo pien-
cipantes, ya que una misma pregunta puede ser con- sen que será demasiado pesado y decidan no re-
testada con diferentes frases, lo que dificulta su in- llenarlo. Por esta razón, se recomienda que los
terpretación. Las preguntas abiertas son más útiles cuestionarios autocumplimentados no sobrepasen
cuando la información que se desea recoger es muy las 12 páginas (Dillman, 1978).
compleja, de forma que, si se quisieran utilizar pre-
guntas cerradas, ello obligaría a predefinir multitud Ejemplo 20.3. En un estudio se comparaba la admi-
de opciones, o cuando se usan con finalidades explo- nistración de una versión completa de un cuestio-
ratorias porque se desconocen cuáles serían las op- nario con otra abreviada a un grupo de estudiantes
ciones de respuesta más adecuadas. (Herzog y Batchman, 1981). Las personas que res-
El análisis de las preguntas abiertas suele ser pondieron la versión completa tenían más tenden-
lento, y si se decide tabular las respuestas, puede ser cia a dar las mismas opciones de respuesta a la ma-
difícil decidir en qué categoría hay que clasificar yoría de los ítems (p. ej., contestaban siempre de
una determinada respuesta. Es posible que el inves- acuerdo o en desacuerdo) que aquellos a los que se
tigador decida más en función de sus opiniones o les administró la versión abreviada.
preferencias que en las de los propios participantes.
Existen preguntas abiertas en las que la respues- Otros aspectos que dificultan las respuestas son
ta es directa, como la edad, el lugar de nacimiento el espacio de tiempo al que se refieren las pregun-
o de residencia, el número de cigarrillos fumados tas, el impacto que ha podido tener en la vida del
por día, etc. El uso de preguntas cerradas para este individuo el hecho por el que se le pregunta, y la
tipo de cuestiones conlleva una pérdida de infor- complejidad y el detalle de los datos que se solici-
mación y, para conductas mal consideradas social- tan. Si los encuestados tienen que recordar hechos
mente, un mayor grado de error. que han sucedido muchos años atrás, y/o se trata
de hechos que han tenido poco impacto y/o son
Ejemplo 20.2. En un estudio en el que se formulaba muy complejos de explicar, muchos tenderán a no
una pregunta cerrada sobre el número de horas contestar el cuestionario.
al día en que se miraba la televisión (Schwartz et al, Como consecuencia de los aspectos menciona-
1985), un 16% estimó que la miraba más de 2 horas dos en los párrafos anteriores, existe el riesgo de
y media. Cuando se aumentó el número de las cate- que los participantes den por terminada la entrevis-
187
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
188
DISEÑO DE CUESTIONARIOS
189
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Ejemplo 20.9. Para un encuestado puede ser muy útil que el encuestador muestre una tarjeta en la
embarazoso contestar directamente a la pregunta de que se reproduzcan las distintas alternativas con el
si ha padecido una determinada enfermedad vené- fin de facilitar la respuesta, ya que el encuestado
rea en los últimos años. Sin embargo, si esta en- podrá leerlas.
fermedad se encuentra como una opción dentro de Además del número, es conveniente que las res-
una lista de enfermedades, se facilita la respuesta: puestas alternativas no sean muy largas porque es
¿El año pasado padeció usted alguna de las si- molesto para los participantes tener que leer tantas
guientes enfermedades? palabras o tratar de recordar tantos detalles.
LAS PREGUNTAS HAN DE SER NEUTRAS Ejemplo 20.11. Consideremos la siguiente pregun-
Deben evitarse preguntas que sugieran algún tipo ta: ¿dónde tuvo lugar la última consulta que hizo us-
particular de respuesta. El uso de palabras con un ted al médico?
alto contenido emocional o ideológico (p. ej., liber- ( ) Centro de salud.
tad, democracia, saludable, etc.) condiciona res- ( ) Consulta externa de un hospital.
puestas positivas, mientras que otros términos (bu- ( ) Servicio de urgencias de un ambulatorio.
rocracia, inspección, control, etc.) pueden llevar a ( ) Servicio de urgencias de un hospital.
respuestas negativas. Del mismo modo, el uso de ( ) Consulta privada de un médico.
atributos o adjetivos en el enunciado puede influir Aunque a primera vista pueda parecer una lista
en la respuesta. completa, muchas personas pueden no entrar en
ninguna de estas categorías, porque han consulta-
Ejemplo 20.10. Si a alguien se le pide que dé su opi- do al médico de su empresa o por teléfono, por ci-
nión sobre la siguiente frase: «desde el punto de tar dos ejemplos.
vista sanitario es indudable que se debería prohibir
fumar en los restaurantes», la palabra indudable Para evitar estos problemas se suele incluir una
puede inducir a los encuestados a mostrar un total categoría denominada otros, y se solicita al encues-
acuerdo con esta proposición. tado que especifique la respuesta. Durante la reali-
zación de la prueba piloto pueden detectarse estas
Hay que ser muy cuidadoso cuando se pregun- omisiones. Si se observa que muchos encuestados
ta sobre conductas o actitudes que no están bien eligen la opción otros, hay que revisar y completar
aceptadas socialmente. Ante estas preguntas el par- las opciones de respuesta.
ticipante es más proclive a falsear las respuestas. En
estas circunstancias, cualquier palabra, o la entona- LAS ALTERNATIVAS HAN DE SER
ción del entrevistador, puede ser motivo para que el MUTUAMENTE EXCLUYENTES
encuestado no exprese su propia opinión, y contes- Si el encuestado sólo puede elegir una alternativa,
te lo que «todo el mundo espera que conteste». éstas deben ser mutuamente excluyentes.
190
DISEÑO DE CUESTIONARIOS
testar la segunda o la tercera opción. Aunque en Ejemplo 20.14. A continuación encontrará una se-
este ejemplo el error parece evidente, no es raro rie de afirmaciones. Indique el grado de acuerdo o
descubrir este tipo de errores cuando se realiza la desacuerdo con cada una de ellas. Por favor, mar-
prueba piloto. que con un círculo la opción elegida.
ORDENAR LÓGICAMENTE
LAS ALTERNATIVAS No Total
Las distintas alternativas deben seguir un orden ló- Total estoy Des- des-
gico, sobre todo cuando las opciones siguen una lí- acuerdo Acuerdo seguro acuerdo acuerdo
nea de continuidad o jerarquía.
La publicidad 1 2 3 4 5
Ejemplo 20.13. ¿Cómo valora la forma en que el mé- del tabaco
dico atiende a las explicaciones que usted le da? debería
( ) Muy satisfactoria. prohibirse
( ) Bastante satisfactoria.
( ) Aceptable. Hay 1 2 3 4 5
( ) Bastante insatisfactoria. demasiadas
( ) Muy insatisfactoria. restricciones
para fumar
PUNTUACIONES Y ESCALAS
Hoy en día 1 2 3 4 5
Los códigos y las puntuaciones transforman las res- se insiste
puestas en variables que pueden ser tabuladas y demasiado
analizadas estadísticamente. sobre el daño
Las respuestas dicotómicas, dada su simplicidad, del tabaco
se emplean con frecuencia en cuestionarios muy lar-
gos. A menudo incluyen una tercera categoría: no
sabe/no contesta. Sus principales limitaciones son El primer paso consiste en reunir un buen nú-
la pérdida de información y el hecho de que algún mero de frases, entre 10 y 20, que señalen actitudes
participante no quiera contestar alguna de las pre- favorables y desfavorables sobre un tema. Habi-
guntas, ya que no puede matizar la respuesta. Las tualmente cada frase tiene cinco alternativas, que
preguntas cerradas con múltiples opciones tratan van desde el total acuerdo hasta el total desacuer-
de superar estos inconvenientes. Las variables tam- do. El número de frases que contengan actitudes
bién se pueden medir en una escala ordinal o cuan- positivas o negativas ha de ser similar. Es importan-
titativa. te no incluir actitudes neutras o muy extremas que
Para poder medir algunos fenómenos se requie- generen una aceptación o rechazo definitivos.
re efectuar varias preguntas interrelacionadas. A continuación se concede una puntuación a las
Desde un punto de vista estadístico se pueden usar respuestas dadas en cada pregunta. En general, la
escalas más complejas para combinar las diferentes puntuación más alta es para la aceptación de las acti-
respuestas en una única puntuación. Para conse- tudes consideradas como positivas, o el desacuerdo
guir esta puntuación global todas las preguntas de- con las consideradas negativas. La suma aritmética
ben evaluar la misma característica. El tipo de esca- de las puntuaciones servirá para clasificar a los parti-
la más usado es la de Likert, aunque también se cipantes y permitir comparaciones entre ellos. La
emplean la de Guttman y la escala visual analógica, suma de todas las puntuaciones proporciona una
entre otras. puntuación ordinal total que no garantiza la lineali-
dad o igualdad de los intervalos.
ESCALA DE LIKERT En algunos pocos casos se obtienen «pesos» para
Esta escala comprende varias frases y los encuesta- cada ítem que reflejan su importancia relativa en el
dos deben expresar su grado de acuerdo o desa- contexto de la escala. En la mayoría de los instru-
cuerdo con cada una de ellas. mentos cada ítem se puntúa igual ya que se ha de-
191
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
mostrado que el uso de «pesos» no mejora la capa- Las primeras preguntas han de despertar el inte-
cidad discriminante o la sensibilidad al cambio del rés del encuestado y aumentar su motivación para
instrumento y, por contra, complica la tarea de cal- colaborar. Las cuestiones más generales, como el
cular las puntuaciones. estado civil, el trabajo, la dirección o el teléfono, no
son buenas para conseguir este propósito y deben
ESCALA DE GUTTMAN dejarse para el final de la encuesta. Igualmente, no
En esta escala se escoge un número relativamente hay que iniciar un cuestionario con preguntas de
pequeño de frases que expresan una actitud favora- índole personal o que puedan herir la susceptibili-
ble o desfavorable hacia un tema y que están redac- dad de los participantes. Si un encuestado se moles-
tadas de tal manera que quien está de acuerdo con ta por un pregunta en concreto puede dar por ter-
una de ellas también lo está con las anteriores. minada la entrevista, y si esta pregunta está al inicio
del cuestionario, se perderá toda la información.
Ejemplo 20.15. Por favor, marque con un círculo La primera pregunta ha de ser sencilla, de tal for-
cada una de las frases con la que está de acuerdo. ma que todos los participantes puedan responderla
en pocos segundos; se han de evitar las preguntas
1. El tabaco puede causar enfermedad. abiertas o las cerradas con muchas alternativas.
2. El tabaco es una causa importante de enfer- También ha de ser neutral. Un cuestionario no debe
medad. empezar con una pregunta en la que los encues-
3. El tabaco es una causa muy importante de enfer- tados deban expresar su acuerdo o desacuerdo
medad y muerte. sobre una cuestión.
4. El tabaco es la causa más importante de enfer- Si en un cuestionario se incluyen preguntas
medad y muerte en España. abiertas y cerradas sobre un mismo tema, es prefe-
rible colocar en primer lugar las abiertas, ya que de
En la escala de Guttman las frases son siempre esta forma las personas pueden expresar sus opi-
de intensidad creciente y referidas a un solo tema o niones sin estar influidas por las distintas alternati-
concepto, y su número no es superior a cuatro o vas de las preguntas cerradas.
cinco. El hecho de que el número de frases referi- Toda encuesta debe iniciarse con los plantea-
das a un concepto sea pequeño hace que este tipo mientos más generales para pasar posteriormente a
de escalas no discrimine lo suficiente entre indivi- los más específicos.
duos y limita su uso generalizado.
Ejemplo 20.16. En un cuestionario sobre la detec-
ción precoz del cáncer de mama se incluían las si-
ESCALA VISUAL ANALÓGICA
guientes preguntas:
Se presenta a los encuestados una escala en forma
lineal con los límites claramente definidos, por – ¿Le han hecho alguna vez una mamografía?
ejemplo, entre 0 y 1, o ente 0 y 100. Estos límites son – ¿Por qué se hizo la mamografía?
fijos en el sentido de que un extremo representa el – El resultado de la mamografía fue...
estado menos preferido, por ejemplo, el peor esta-
do de salud o más dolor, y el otro el más preferido. En esta secuencia de preguntas, la primera ac-
Si la línea está dividida en milímetros, se denomina tuaría como filtro, ya que si la encuestada respon-
termómetro, y si sólo tiene definidos los límites inicial diera negativamente, no sería necesario contestar
y final, se denomina escala visual analógica. las siguientes.
192
DISEÑO DE CUESTIONARIOS
Para recoger información sobre sucesos cronoló- mentos que consume habitualmente) o cuando una
gicos (historia laboral, lugares de residencia, etc.), es sección va dirigida a un subgrupo de personas (p. ej.,
aconsejable comenzar por el último y retroceder esta sección trata sobre aspectos de salud en la mujer
hasta el primero. y sólo ha de ser contestada por mujeres). Es conve-
La tabla 20.6 resume los puntos principales que niente que estos subtítulos queden bien resaltados.
se deben considerar cuando se decide el orden de Estas anotaciones sirven, además, para romper la
las preguntas. monotonía y evitan que el cuestionario parezca un
listado interminable de preguntas.
En las preguntas filtro, se han de especificar con
FORMATO DEL CUESTIONARIO
claridad las instrucciones de cuál es la siguiente
El formato se ha de diseñar prestando atención a los pregunta que se debe responder. Ha de quedar
pequeños detalles. Un buen formato evita errores. claro quién debe contestarla y qué es lo que se su-
Los cuestionarios deben iniciarse con una breve pone que debe hacer el que no la ha de responder.
introducción sobre la naturaleza y la finalidad del Los números que identifican cada una de las op-
estudio. En las encuestas personales o telefónicas, ciones de respuesta se sitúan a la izquierda. La ra-
la lee el encuestador. En los cuestionarios auto- zón principal de ello es que algunas respuestas son
cumplimentados, estará aparte del cuestionario más largas que otras, y si el número está a la de-
para que el encuestado pueda hojearla cuando recha aumenta la probabilidad de error.
desee. Debe incluir la finalidad del estudio, la im- El formato del cuestionario ha de permitir una
portancia de que los participantes dediquen unos rápida codificación. La opción más simple es que
minutos a responder la encuesta, el nombre de la cada alternativa esté numerada y en el margen de-
institución que avala el proyecto, el método de se- recho del cuestionario se anote el código de la op-
lección de los participantes, el uso que se hará de la ción seleccionada, y se repita el número de la pre-
información y si se conservará el anonimato y gunta, con el fin de facilitar la introducción de los
la confidencialidad de los datos, y debe agradecer resultados en el ordenador.
de antemano la colaboración de los participantes. Las preguntas no se han de partir nunca. Termi-
Al inicio del cuestionario autocumplimentado se nar una página con una pregunta a medias crea
darán las instrucciones básicas que se deben seguir confusión e invita al error.
acompañadas de los consiguientes ejemplos. En la primera hoja del cuestionario se ha de re-
Es importante no apiñar demasiadas preguntas servar un espacio para el código de los encuestados.
en un espacio reducido. Es preferible que cada una Esto será muy práctico cuando se tenga que verifi-
de las opciones esté en una línea. car y consultar alguna pregunta de un participante
Es conveniente utilizar frases introductorias cuan- en concreto. También suele ser útil anotar el tiem-
do se cambia de tema (p. ej., la alimentación es una po de duración de la encuesta, así como reservar un
parte importante en nuestra vida cotidiana; a conti- espacio para que el encuestador pueda anotar sus
nuación me gustaría preguntarle acerca de los ali- propios comentarios.
• Las preguntas han de ser lo suficientemente importantes como para despertar el interés
• Se evitará que la primera pregunta sea una pregunta abierta o una cerrada con muchas alternativas
• La primera pregunta será «neutral»
• Las preguntas sociodemográficas (edad, sexo, grado de estudios, etc.) suelen ir al final del cuestionario
• Las preguntas relacionadas con un mismo tema han de ir consecutivamente
• Si se incluyen preguntas abiertas y cerradas sobre un mismo tema, es preferible colocar en primer lugar
las abiertas
• Las preguntas que pueden causar mayor objeción entre los participantes deben ir al final
• Empezar por los planteamientos generales para poder pasar después a los más específicos
193
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Una buena pregunta presentada en un buen tionarios sobre conocimientos, esta frecuencia refle-
formato conduce a un fácil registro. La tabla 20.7 ja la dificultad de la pregunta. En los cuestionarios
resume algunas recomendaciones. El mejor conse- sobre opiniones o actitudes, la frecuencia refleja la
jo para conseguir un buen formato es realizar una popularidad de cada ítem. Cuando una alternati-
prueba piloto rigurosa con el fin de detectar los va se responde con mucha o poca frecuencia (por
problemas y corregirlos. encima del 95% o por debajo del 5%), discrimina
poco entre individuos y, en definitiva, aporta poca
información. Este tipo de preguntas no mejora las
Tabla 20.7. Recomendaciones para propiedades psicométricas del cuestionario y
la elaboración del formato además hace que sea más largo, por lo que son can-
de un cuestionario didatas a eliminarse.
Otro índice de utilidad de un ítem es su capaci-
– Utilizar distintos formatos de letra para cada parte dad de discriminación. Indica si una persona con pun-
de la pregunta. Por ejemplo, usar: tuación elevada en el total del cuestionario es más
• MAYÚSCULAS para la pregunta probable que haya obtenido también una pun-
• negrita para las opciones de respuesta tuación elevada en un determinado ítem. En otras
• cursiva para las instrucciones palabras, se trata de saber si un ítem será de ayuda
– Incluir junto a cada pregunta sus instrucciones para discriminar entre los individuos que obtienen
específicas una puntuación total alta y los que la obtienen baja.
Otra característica importante es la homogeneidad
– Usar un formato vertical para las respuestas
de los ítems, es decir, que midan diferentes aspec-
– Precodificar todas las preguntas cerradas tos de un mismo fenómeno y no diferentes aspectos
– Asociar siempre el mismo código para una misma de diferentes fenómenos. Esto implica que cada
opción de respuesta (p. ej., utilizar siempre: sí = 1) ítem debe estar moderadamente relacionado con
– Registrar la respuesta a una pregunta cerrada los demás, y a la vez con la puntuación total. Estas
poniendo un círculo o una cruz (pero siempre dos condiciones son el fundamento de las pruebas
lo mismo) en la opción escogida de consistencia interna de un cuestionario. Por un
lado, si un ítem no está relacionado con otro, quie-
– Proporcionar los espacios necesarios para las
re decir que probablemente miden fenómenos
preguntas abiertas de respuesta directa
diferentes y, por tanto, no es lógico sumar sus pun-
– Recordar que el diseño del formato ha de facilitar tuaciones en una sola escala. Si, por el contrario,
la entrada de datos dos ítems están muy relacionados quiere decir que
la información proporcionada por uno de ellos es
redundante.
Una alta consistencia interna de los ítems tiene
PRUEBA PILOTO
sentido cuando el interés principal del instrumento
Una vez que se ha completado la primera versión reside en describir, por ejemplo, un concepto, un
del cuestionario y ya se ha evaluado su legibilidad, comportamiento o un problema de salud. Por el
éste se administra a un grupo de sujetos represen- contrario, cuando el objetivo principal de la escala
tativo de la población a la que va dirigida el instru- es discriminar las personas que tienen un deter-
mento. El tamaño de la muestra de esta prueba pi- minado atributo de las que no lo tienen, la escala no
loto debe ser siempre superior al número de ítems tiene que ser necesariamente homogénea. Por
y se recomienda que el número de sujetos se sitúe ejemplo, en un cuestionario de conocimientos so-
entre dos y diez veces el número de ítems que tiene bre una determinada enfermedad, destinado a dis-
el instrumento. criminar a los que saben sobre ella, para alcanzar un
La aplicación del instrumento a estos individuos rango variado de respuestas correctas entre todos
permitirá obtener los primeros resultados. Se ob- los participantes, se tendrán que incluir tanto pre-
servará, en primer lugar, la frecuencia de respuesta guntas fáciles como difíciles, lo que hará disminuir
de las distintas opciones de cada ítem. En los cues- la consistencia interna del cuestionario.
194
DISEÑO DE CUESTIONARIOS
195
Capítulo 21
Validación de cuestionarios
ntes de generalizar la aplicación de un cues- partir del cual pueda considerarse que un cuestiona-
196
VALIDACIÓN DE CUESTIONARIOS
197
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Ejemplo 21.2. El Older Americans Resources and didos entre 0 y 1, y su interpretación es similar a la
Services Multidimensional Functional Assessment de un coeficiente de correlación. Pueden calcular-
Questionnaire (OARS-MFAQ) es un cuestionario se diferentes valores del alfa de Cronbach exclu-
sobre la capacidad funcional y las necesidades de yendo determinados ítems del cuestionario, de for-
atención de las personas de edad avanzada. Dado ma que puede evaluarse si la supresión de algunas
que las puntuaciones del cuestionario se basan en preguntas mejora la fiabilidad. De todas formas,
una revisión de las respuestas por un observador, la antes de decidir eliminar un ítem, debe evaluarse si
fiabilidad interobservador es especialmente impor- ello puede afectar a la validez del cuestionario, ya
tante. En un estudio (Fillenbaum y Smyer, 1981), se que puede ser preferible mantener la pregunta aun
evaluó la concordancia entre 11 observadores que a costa de una consistencia interna ligeramente
evaluaron a 30 pacientes, obteniéndose coeficientes menor.
de correlación intraclase que oscilaron entre 0,66 Como norma general se sugiere que el valor del
para el estado físico y 0,87 para los autocuidados. alfa de Cronbach ha de ser igual o superior a 0,70
para considerar que un instrumento tiene una bue-
CONSISTENCIA INTERNA na consistencia interna.
La consistencia interna se refiere a si los ítems que
miden un mismo atributo presentan homogenei- Ejemplo 21.3. El cuestionario de apoyo social fun-
dad entre ellos. cional Duke-UNC-11 consta de 11 ítems medidos
Los cuestionarios se desarrollan para medir se- en una escala de Likert con puntuaciones de 1 a 5,
paradamente diferentes componentes o dimensio- y evalúa el apoyo social confidencial (posibilidad de
nes de un problema. Un cuestionario de salud sue- contar con personas para comunicarse con ellas) y
le estar dividido en preguntas que tratan de medir el afectivo (demostraciones de amor, cariño y em-
la salud física y mental, o un cuestionario de satis- patía). En el marco de un estudio de su validez y fia-
facción en apartados que identifican, por ejemplo, bilidad, se evaluó también su consistencia interna
los componentes de competencia profesional, las (Bellón et al, 1996a). El alfa de Cronbach de la
cualidades personales del profesional sanitario y la escala fue de 0,90, el de la subescala de apoyo con-
accesibilidad de los servicios. En todas estas situa- fidencial de 0,88 y el del apoyo afectivo de 0,79. Los
ciones es de esperar que exista una buena homo- autores no observaron que la extracción de ningún
geneidad entre las distintas preguntas que miden ítem mejorara la consistencia interna de la escala ni
un mismo componente. Si en un cuestionario de de las subescalas.
satisfacción los usuarios contestan que su médico se
preocupa bastante de ellos como persona, es de es- FUENTES DE ERROR
perar que, en otra pregunta sobre si su médico está La fiabilidad de una medida puede afectarse por al-
dispuesto a escucharles, contesten afirmativamen- gunos de los factores que se citan a continuación:
te. De otro modo se pensará que los distintos ítems
que componen la satisfacción con el médico que les – Cambios a través del tiempo en la característica estudia-
atiende son poco consistentes entre sí y que el cues- da. Al repetir un cuestionario se debe tener en
tionario es poco fiable. cuenta qué medidas son susceptibles de variar con
Cuando un cuestionario está compuesto por di- el tiempo. De hecho, muchas actitudes, creencias
ferentes subescalas, cada una de las cuales pretende o estilos de vida pueden hacerlo, como la frecuen-
medir una dimensión diferente del fenómeno, cia de cepillado de los dientes o la práctica de ejer-
debe evaluarse la consistencia interna de cada una cicio físico. Si ha existido un cambio, una repetibi-
de ellas. lidad baja no implica necesariamente una escasa
A diferencia de los otros aspectos de la fiabili- fiabilidad del cuestionario.
dad, la evaluación de la consistencia interna sólo re- – Cambios debidos a las condiciones de administración del
quiere la administración del cuestionario en una cuestionario. Algunos factores personales del entre-
única ocasión. vistado, como el estado emocional, el cansancio, el
La técnica estadística para su análisis es el alfa de estado de salud o las condiciones del entorno
Cronbach, que expresa la consistencia interna en- (ruido, calor, frío, etc.), pueden influir en el modo
tre tres o más variables. Sus valores están compren- de contestar a las preguntas y alterar la fiabilidad.
198
VALIDACIÓN DE CUESTIONARIOS
– Variaciones debidas al propio cuestionario. En ocasio- la sensación de control del propio paciente sobre la
nes, el formato del cuestionario, la formulación de enfermedad. La repetibilidad, que se evaluó en 100
las preguntas o las instrucciones para cumplimen- pacientes con limitación crónica al flujo aéreo esta-
tarlo son poco comprensibles y pueden ser inter- ble, fue excelente para las cuatro dimensiones. La
pretadas de forma distinta por el encuestado al sensibilidad para detectar cambios en la enferme-
repetir la prueba. Por consiguiente, hay que insistir dad se evaluó en 13 pacientes antes y después de
en que las instrucciones sean cortas y precisas y que adecuar su tratamiento farmacológico, y en otros
las preguntas estén definidas de forma operativa 28 antes y después de entrar en un programa de
con un lenguaje claro y sin ambigüedades. rehabilitación respiratoria. En ambos casos, se en-
– Cambios atribuidos a los encuestadores. Los encuesta- contraron mejoras estadísticamente significativas
dores deben atenerse estrictamente a la estructura para las cuatro dimensiones.
y la secuencia del cuestionario y a cómo han esta-
do formuladas las preguntas. La transcripción de La sensibilidad al cambio se mide con el estadísti-
las respuestas a las preguntas abiertas debe ser lite- co «tamaño del efecto» (effect size) que relaciona la
ral. Al poner en marcha un estudio es de suma media de las diferencias entre las puntuaciones antes
importancia entrenar a los entrevistadores para y después de una intervención con la desviación
evitar estos errores y conseguir al mismo tiempo estándar de la puntuación antes de la intervención.
que exista uniformidad entre ellos. El conocimiento de la sensibilidad al cambio de
– Errores en el manejo de los datos. Estos errores se pue- un instrumento es importante para la estimación
den producir al codificar, grabar y/o transformar del cálculo del tamaño muestral necesario para de-
las variables para su análisis. mostrar los cambios debidos al tratamiento en un
ensayo clínico. Cuanto mayor sea la sensibilidad al
cambio del instrumento menor será el tamaño de la
SENSIBILIDAD AL CAMBIO
muestra necesario.
El concepto de sensibilidad (sensitivity) se refiere a
la capacidad de un instrumento para detectar casos
VALIDEZ
verdaderos.
La sensibilidad al cambio (responsiveness) es la ca- La validez se refiere a la capacidad de un cuestiona-
pacidad que tiene un instrumento para detectar cam- rio para medir aquello para lo que ha sido diseña-
bios clínicos importantes en el atributo verdadero do; tiene diferentes aspectos o componentes, que
que se mide. La sensibilidad al cambio es un aspecto deben ser evaluados en la medida de lo posible.
crucial en los ensayos clínicos, la valoración de pro-
gramas y los análisis de coste-utilidad; en otras pala- VALIDEZ LÓGICA
bras, cuando el instrumento se utiliza como variable La validez lógica o aparente (face validity) es el gra-
de respuesta. Cuando interesa que un instrumento do en que parece que un cuestionario, una parte de
sea sensible al cambio, hay que prestar atención a la él o un ítem mide lo que quiere medir.
escala con que se miden las respuestas: cuantos más La decisión sobre si las preguntas deben tener o
puntos haya en las categorías de respuesta, más sensi- no validez lógica ha de tomarse antes de iniciar su
ble será el instrumento a los cambios significativos. redacción. Si las preguntas carecen de validez lógi-
ca es muy probable que los encuestados rechacen
Ejemplo 21.4. Dado que la relación entre la capaci- contestar. De todos modos, en alguna ocasión pue-
dad pulmonar y la calidad de vida en enfermos pul- de ser de interés formular preguntas carentes
monares crónicos es débil, Guyatt et al (1987) desa- de validez lógica. Por ejemplo, cuando se trata de
rrollaron un cuestionario sobre calidad de vida temas muy sensibles, conflictivos o que no están
para utilizarlo en ensayos clínicos. Los existentes bien vistos socialmente, si se realizan preguntas
hasta el momento se centraban en la disnea y deja- directas (con mucha validez lógica), es muy proba-
ban a un lado otros aspectos que pueden influir en ble que el encuestado no responda o falsee la res-
la vida cotidiana de los pacientes. Por ello, desarro- puesta, por lo que puede ser preferible realizar pre-
llaron un cuestionario que comprende cuatro gran- guntas que aborden el tema de una forma más
des dimensiones: disnea, fatiga, estado emocional y indirecta, con una menor validez aparente.
199
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
200
VALIDACIÓN DE CUESTIONARIOS
Ejemplo 21.7. En el ejemplo 21.5 se presentaba la mento, seleccionando, por ejemplo, el 30% de los
evaluación de la repetibilidad y la sensibilidad al sujetos con mejores puntuaciones y el 30% de
cambio de un cuestionario sobre calidad de vida en los que tienen las peores puntuaciones. El segundo
enfermos pulmonares crónicos. Los autores tam- problema es similar al que se presenta al evaluar
bién evaluaron la validez de criterio, comparando una prueba diagnóstica: puede ser relativamente
las puntuaciones del cuestionario con los resultados sencillo discriminar entre dos grupos muy extre-
espirométricos y con otros cuestionarios destinados mos, pero ésta no es la utilidad que se pretende dar
a medir la disnea y la calidad de vida en general. al instrumento en la práctica habitual. Por tanto,
comprobar que un cuestionario es útil para dife-
Cuando la escala de medida es cualitativa, los ín- renciar entre dos grupos extremos no es suficiente
dices que se utilizan para evaluar la validez de crite- para demostrar su validez.
rio son la sensibilidad y la especificidad (anexo 3).
Cuando se trata de una escala cuantitativa, se utiliza Ejemplo 21.8. En un estudio que tenía por objetivo
habitualmente el coeficiente de correlación intra- evaluar la validez y fiabilidad de un cuestionario de
clase (anexo 4). función familiar (Bellón et al, 1996b), se utilizó el
A menudo, surge el interrogante de por qué, si ya método de los grupos extremos para evaluar la vali-
existe un buen criterio de referencia, interesa una dez de constructo. Se partió de la hipótesis de que los
nueva medida. El desarrollo de esta nueva medida casados tienen una mejor función familiar que
está justificado si el criterio de referencia es muy caro, los divorciados, por lo que deberían obtener puntua-
requiere mucho tiempo de administración, presenta ciones superiores en el cuestionario.
muchos efectos secundarios, o bien no se desarrolla
hasta un tiempo después. En las tres primeras situa- Otra estrategia para evaluar la validez de cons-
ciones el interés se centra en evaluar la validez con- tructo es comprobar que el cuestionario se correla-
currente, mientras que en la última interesa determi- ciona con otras variables que se cree que están re-
nar la validez predictiva del cuestionario. lacionadas con él (validez convergente), mientras que
no lo hace con otras con las que se sospecha que no
VALIDEZ DE CONSTRUCTO O DE CONCEPTO tiene relación alguna (validez divergente).
A veces resulta imposible evaluar la validez de crite-
rio, ya que éste no existe o no está al alcance del Ejemplo 21.9. En un estudio se evaluó la validez y la
investigador. En estos casos, el procedimiento más fiabilidad del cuestionario de apoyo social funcional
empleado es evaluar la validez de constructo, que Duke-UNC-11 en una muestra de 656 pacientes
engloba distintas estrategias. La validez discriminan- (Bellón et al, 1996a). Para evaluar la validez de cons-
te se refiere a la capacidad para distinguir entre sub- tructo, los autores eligieron determinadas carac-
grupos de pacientes o individuos con distintos ni- terísticas que, según la literatura, están relacionadas
veles del atributo de interés. Por ejemplo, es de con el apoyo social, y que son la edad, el estado civil,
esperar que la calidad de vida relacionada con la el estado de salud, la utilización de servicios, la salud
salud será peor en los pacientes asmáticos con gran mental, la función familiar y el número de convi-
afectación funcional que en aquellos con formas vientes. Para ello, compararon las distribuciones de
más leves. estas variables entre los sujetos con un apoyo social
El método más sencillo para evaluar la validez normal o bajo, según el cuestionario, y determina-
discriminante es el de los grupos extremos, que con- ron los coeficientes de correlación entre el cuestio-
siste en administrar el cuestionario a dos grupos de nario evaluado y el resto de escalas cuantitativas.
sujetos: uno con la característica o conducta de in-
terés, y otro que carece de ella. Este enfoque pre- FUENTES DE ERROR
senta dos problemas. El primero es la propia defini- Los aspectos del diseño del cuestionario que pue-
ción de los grupos extremos, ya que no siempre den influir en su validez son los siguientes:
existe un criterio adecuado para conocer quién
tiene y quién no tiene la característica de interés. – Orden de las preguntas. Es conveniente situar las más
En este caso se puede dividir la muestra en función conflictivas al final del cuestionario, ya que, si se
de la puntuación obtenida con el propio instru- ponen al principio, existe la posibilidad de que la
201
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
persona encuestada rechace seguir respondiendo vistado tenga intención de engañar, mientras que
o no lo haga con la sinceridad deseada. en otras el individuo no dice lo que piensa de
– Redacción de las preguntas, ya que puede inducir a forma deliberada.
una respuesta sesgada. – Tendencia sistemática a dar siempre la misma respuesta.
Otra fuente de error es la tendencia sistemática
Ejemplo 21.10. Supongamos una pregunta en la que de algunos individuos a contestar «sí», «verdade-
se plantea la posibilidad de que una enfermedad ro» o «de acuerdo» a las cuestiones planteadas.
afecte a 600 individuos y se informa que existen dos En el caso más extremo estas respuestas se dan
programas alternativos: el programa A, que salvará independientemente del contenido de la pregun-
200 vidas, y el B, con el que hay un tercio de pro- ta. Como ejemplo se podría dar el caso de un indi-
babilidades de salvarse y dos tercios de morir. La viduo que contestara afirmativamente a la pre-
gran mayoría de los encuestados preferirá el pro- gunta de si toma medicación todos los días a la
grama A. Nótese que los resultados de los progra- hora indicada, y también lo hiciera cuando se le
mas A y B (en términos de vidas salvadas) son los preguntara si a menudo se olvida de tomar la
mismos. La diferencia está en cómo se ha explicado medicación. En el otro extremo del espectro se
o descrito la situación. En el programa A, el número encuentran los que siempre contestan negativa-
de supervivientes queda explícito, mientras que el mente o no están de acuerdo.
número que muere (400) queda implícito. Desde – Características del encuestador. La respuesta de una
un punto de vista aritmético, el número de sujetos persona a la pregunta de si cumple con la medi-
que debería preferir uno u otro programa tendría cación prescrita puede ser muy distinta si la reali-
que ser el mismo o similar. Esta aparente paradoja se zan los profesionales sanitarios que atienden al
puede explicar porque los individuos tienen aver- paciente o si lo hace un entrevistador no implica-
sión al riesgo cuando se presenta una situación de do directamente en su seguimiento médico.
posible ganancia y, por el contrario, aceptan el ries- – Elección de la categoría o puntuación intermedia. En
go cuando la situación se presenta desde el punto las escalas de puntuación o las de Likert existe la
de vista de pérdida. posibilidad, además, de que aparezcan otros ses-
gos. Uno de ellos se refiere a que algunos indivi-
– Errores en la categorización de las respuestas. En los duos siempre escogen la categoría o puntuación
cuestionarios con opciones de respuestas prede- intermedia. El efecto de este sesgo es la reduc-
terminadas hay que tener en cuenta todas las po- ción, en la práctica, de las posibles respuestas. Así,
sibilidades de respuesta, de modo que el encues- si en una escala de Likert con cinco opciones, las
tado encuentre siempre una opción adecuada. En extremas recogen la posibilidad de «siempre» o
otras ocasiones, son los factores personales del «nunca», un sesgo de aversión hacia los extremos im-
entrevistado los que introducen los sesgos en las plica que la escala queda reducida a tres catego-
respuestas. Hay individuos que, al ser encuesta- rías, ya que el individuo no contesta ni «nunca» ni
dos, tienden a contestar de forma distinta a como «siempre», con la consiguiente pérdida de fiabili-
lo harían normalmente. dad. Existen dos posibles soluciones a este pro-
– Sesgo de conveniencia social. Algunas personas tien- blema. La primera es evitar términos absolutos y,
den a dar la respuesta más aceptable socialmente, en su lugar, utilizar «casi siempre» y «casi nunca».
o la que piensan que contesta la mayoría de indi- La segunda consiste en aumentar las categorías
viduos. Este sesgo depende de muchos factores posibles en cada respuesta, de modo que, si en
individuales, como la edad, el sexo, la clase social realidad se desea una pregunta con cinco cate-
del entrevistado y el contexto en el que se realiza gorías de respuesta, finalmente tenga siete, sien-
la pregunta. Ejemplos de él se pueden encontrar do las categorías extremas las ocupadas por los
en cuestionarios o preguntas sobre el consumo de términos absolutos.
alcohol o el aborto. Un mecanismo para intentar
evitarlo es dar en primer lugar las opciones
ADAPTACIÓN TRANSCULTURAL
menos convenientes, de modo que sea más fácil
seleccionarlas. En muchas ocasiones, el sesgo de La adaptación de un cuestionario a otra cultura
conveniencia social se produce sin que el entre- tiene como objetivo conseguir un instrumento
202
VALIDACIÓN DE CUESTIONARIOS
equivalente al desarrollado en el país de origen. No cultura original para poder identificar similitudes
puede limitarse a una simple traducción, sino que en la nuestra.
debe seguir una metodología que asegure la equi- A continuación, hay que traducir el cuestionario.
valencia conceptual y semántica con el original y la Deben realizarse al menos dos traducciones con-
comprensión por los pacientes de la versión adap- ceptuales más que literales. La persona que traduce
tada. El método más utilizado es el de la traducción- el cuestionario no sólo debe ser un perfecto cono-
retraducción por personas bilingües (fig. 21.1), segui- cedor de los dos idiomas, sino también de los conte-
do de un análisis de la nueva versión para detectar nidos y los propósitos del cuestionario, ya que la tra-
discrepancias y de la comprobación en un grupo de ducción literal de un término puede tener un
pacientes de su comprensión y aceptabilidad. significado distinto según el idioma. Por ejemplo,
Para realizar una adaptación transcultural, en en inglés se usa la palabra blue para designar tristeza.
primer lugar debe evaluarse si el fenómeno que Si la frase: «I feel blue» se tradujera literalmente al
tiene que medir el cuestionario existe en la cultura español no tendría ningún sentido. A partir de estas
a la que se desea adaptar. Por ejemplo, si el cuestio- traducciones, el equipo investigador consensúa una
nario trata sobre cómo una enfermedad o un pro- primera versión del cuestionario. Es conveniente
blema de salud afecta al grado o la manera de reali- que un panel de expertos evalúe la equivalencia
zar una determinada actividad, hay que preguntarse conceptual de esta versión con la original.
si estos conceptos se operativizan de igual modo en Después se retraduce el cuestionario dos veces al
una cultura que en otra. Es esencial conocer qué sig- idioma original por al menos dos individuos
nificado tiene el concepto y cómo se expresa en la bilingües, evaluando su equivalencia conceptual
con el cuestionario original. Es conveniente reali-
zar una revisión del cuestionario por un panel de
población general o de pacientes de diferentes
características sociodemográficas con la finalidad
Versión original
de llegar a un acuerdo sobre los ítems a incluir. A
partir de toda esta información, se consensúa una
Traducción Traducción versión preliminar. Finalmente, debe realizarse un
versión A versión B estudio piloto de esta versión en una muestra de
sujetos de características similares a las de la pobla-
Consenso con el equipo investigador
ción a la que se administrará el cuestionario, para
y panel de expertos poder evaluar su comprensión y viabilidad.
Versión 1 Una vez obtenida la versión final, deben com-
probarse sus propiedades métricas mediante el re-
escalamiento de los ítems y dimensiones en nuestro
Equivalencia Estudios
Retraducción medio, ya que su importancia, o valor relativo, pue-
conceptual piloto
de ser distinta en ambas culturas. Y, finalmente, de-
be comprobarse su validez y fiabilidad. Además, si
Consenso con el equipo investigador pretende utilizarse para medir la respuesta en es-
y panel de expertos tudios longitudinales, hay que evaluar su sensibili-
Versión 2 dad al cambio.
203
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
hasta alcanzar un consenso. Otras dos personas que los ítems que la formen midan todos los con-
bilingües evaluaron la equivalencia conceptual, la ceptos relevantes de la enfermedad o del problema
claridad y la naturalidad de cada una de las frases y que se esté estudiando, y que la mayoría de ellos
de las opciones de respuesta de esta primera ver- sean capaces de detectar cambios. La sensibilidad al
sión. A continuación, fue traducido al inglés por dos cambio vendrá determinada por la interacción
personas bilingües. Sus dos retrotraducciones fue- entre los propios ítems que formen la escala, la
ron comparadas con la versión original por un equi- intervención que se evalúe y la población en la que
po de expertos, quienes señalaron algunos ítems o se aplique.
palabras que no parecían tener una completa equi- Si al contestar un ítem de un cuestionario los
valencia conceptual con el original. También se rea- pacientes no reflejan tener un problema de salud,
lizó una reunión con los autores de todas las versio- entonces este ítem no será válido para detectar una
nes del cuestionario existentes en diferentes países, mejoría. Del mismo modo, si un ítem sólo se altera
durante la que se trató de armonizar el contenido en los casos más graves, en los estudios donde se
del cuestionario en los casos en que existían dife- incluyan pacientes menos graves este ítem tampoco
rentes expresiones alternativas del mismo concepto. será útil para detectar cambios. Por otro lado, si un
Por ejemplo, se sustituyó la distancia de una milla ítem se altera en todos los pacientes porque es una
por la de un kilómetro. Se realizaron diferentes característica de la enfermedad, tampoco servirá
estudios piloto con diversos grupos de pacientes cró- para detectar cambios, a menos que la intervención
nicos para valorar la comprensibilidad del cuestio- que se evalúe consiga la curación del paciente. En
nario y la factibilidad de su administración. definitiva, los ítems que muestren un efecto «te-
cho» (ceiling effect) o un efecto «suelo» (floor effect)
no serán sensibles para detectar cambios.
OBTENCIÓN DE VALORES
Los efectos «techo» o «suelo» dependen, en par-
DE REFERENCIA
te, de la población de estudio. Un ítem puede mos-
La utilidad de un instrumento depende básicamen- trar un efecto «cielo» cuando se estudia a pacientes
te de su fiabilidad y validez, pero también de su in- muy graves, pero no cuando estos pacientes tienen
terpretabilidad clínica. Ésta viene dada por el grado un grado menor de afectación del estado de salud.
en que se pueden realizar juicios de valor sobre un Los efectos «cielo» o «techo» se pueden inferir de los
resultado cuantitativo, que permitan, por ejemplo, resultados de las pruebas piloto o de los estudios que
la toma de decisiones clínicas. La estrategia más uti- se hayan efectuado en distintas poblaciones
lizada para aumentar la interpretabilidad de los ins- Estos efectos también dependen de la validez de
trumentos de medida de la salud percibida ha sido contenido del cuestionario. Si un ítem es irrelevan-
su administración a una muestra representativa de te para un grupo de población, su capacidad para
la población general para obtener valores o normas detectar un cambio a lo largo del estudio será
poblacionales de referencia, basados habitualmen- pequeña.
te en el cálculo de los percentiles.
Ejemplo 21.12. Los resultados de algunas investiga-
ciones sobre el asma sugieren que los ítems relacio-
SELECCIÓN Y USO DE UN INSTRUMENTO
nados con la práctica de un deporte son más sen-
DE MEDIDA
sibles al cambio en las personas jóvenes, mientras
Los instrumentos de medida una vez validados se que en las mayores lo son menos. Una explicación
usan generalmente con dos fines distintos: para es que para las personas mayores la posibilidad de
evaluar la efectividad de una intervención sanitaria practicar un deporte es menos importante. La rele-
o para describir y/o discriminar entre grupos de vancia de un ítem depende mucho de la población
pacientes. en la que se administra el cuestionario.
204
VALIDACIÓN DE CUESTIONARIOS
pacientes con escalas genéricas. Como norma gene- de la función pulmonar. Debido a la gran variabili-
ral, las escalas específicas suelen contener más ítems dad observada en la puntuación del cuestionario de
con capacidad para detectar cambios que las gené- calidad de vida es posible que se reduzca la posible
ricas y, por consiguiente, son las más usadas en los asociación entre calidad de vida y la medida de la
ensayos clínicos. función pulmonar. En este caso sería preferible el
El que un ítem sea o no sensible a los cambios uso de un cuestionario específico, en el que no exis-
también depende del formato de respuesta. Las res- tieran interferencias de preguntas que no tuvieran
puestas tipo escala de Likert son las más sensibles una relación directa con la enfermedad. Por el con-
para detectar cambios. trario, si se deseara una medida general del estado
Como las escalas que se usan en los ensayos clí- de salud de una población, o compararlo con el de
nicos han de contener una elevada proporción de otro grupo, teniendo en cuenta la comorbididad,
ítems sensibles al cambio, no suelen ser muy largas sería preferible una medida genérica.
y, habitualmente, no superan los 30 o 40 ítems.
BIBLIOGRAFÍA DE LOS EJEMPLOS
Alonso J, Prieto L, Antó JM. La versión española del SF-36
E STUDIOS TRANSVERSALES Health Survey (Cuestionario de Salud SF-36): un instru-
Cuando un instrumento se emplea en un estudio mento para la medida de los resultados clínicos. Med
transversal con el fin de describir el estado de salud Clin (Barc) 1995; 104: 771-776.
Bellón JA, Delgado A, Luna del Castillo JD, Lardelli P.
y/o discriminar entre los pacientes, no es necesario
Validez y fiabilidad del cuestionario de apoyo social fun-
que el número de ítems sea reducido. Un instru- cional Duke-UNC-11. Aten Primaria 1996a; 18: 153-163.
mento tendrá más capacidad de discriminación Bellón JA, Delgado A, Luna del Castillo JD, Lardelli P.
cuanto mayor sea el número de ítems que contenga. Validez y fiabilidad del cuestionario de función familiar
En un ensayo clínico no conviene usar instru- Apgar-familiar. Aten Primaria 1996b; 18: 289-296.
mentos que contengan ítems frente a los que más Fillenbaum GG, Smyer MA. The development, validity and
del 70% de los pacientes opten por la respuesta más reliability of the OARS Multidimensional Functional
extrema (efecto «techo» o «cielo»). Sin embargo, Assessment Questionnaire. J Gerontol 1981; 36: 428-434.
en un estudio transversal interesa usar instrumen- Guyatt G, Berman L, Towsend M, Pugsley S, Chambers L.
tos donde los pacientes opten por todas las posibles A measure of quality of life for clinical trials in chronic
respuestas en función de su gravedad. Por tanto, lung disease. Thorax 1987; 42: 773-778.
Hunt S, Mc Kenna, Williams J. Reliability of a population sur-
los pacientes más graves o con menos calidad de
vey tool for measuring percieved health problems:
vida optarán por una respuesta extrema, mientras
a study of patients with osteoarthrosis. J Epidemiol Com-
que los que tengan menor afectación optarán por munity Health 1981; 35: 297-300.
otra respuesta.
La elección entre una escala genérica o específi- BIBLIOGRAFÍA
ca para una enfermedad dependerá del objetivo Altman DG, Bland JM. Cronbach's alpha. BMJ 1997; 314:
del estudio. 572.
Badia X. La investigación de resultados en salud. Barcelona:
Ejemplo 21.13. Supóngase que en un estudio se em- Edimac, 2000.
plea un instrumento genérico para valorar la cali- Badia X, Salamero M, Alonso J. La medida de la salud: guía
dad de vida de un grupo de pacientes diagnostica- de escalas de medición en español. 3.a ed. Barcelona:
dos de enfermedad pulmonar obstructiva crónica Edimac, 2002.
(EPOC), y que este instrumento contiene un nú- Badia X. Sobre la adaptación transcultural de medidas de la
calidad de vida relacionada con la salud para su uso en
mero importante de ítems relacionados con el do-
España. Med Clin (Barc) 1995; 105: 56-58.
lor. Como los pacientes con EPOC suelen ser ma-
Bland JM, Altman DG. Validating scales and indexes. BMJ
yores y presentan otras enfermedades, algunas de 2002; 324: 606-607.
ellas cuyo síntoma principal puede ser el dolor, Cohen RD. Validation of health-related quality of life instru-
existirá una gran variación en las puntuaciones de ments. Hepatology 1999; 29 (6 Suppl): 7-8.
estos enfermos. Supóngase que se desea, a conti- Epstein RS. Responsiveness in quality-of-life assessment:
nuación, correlacionar la puntuación obtenida en nomenclature, determinants, and clinical applications.
el cuestionario de calidad de vida con una medida Med Care 2000; 38 (9 Suppl): 1191-1194.
205
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Guyatt GH, Osoba D, Wu AW, Wyrwich KW, Norman GR, Moran LA, Guyatt GH, Norman GR. Establishing the mini-
Clinical Significance Consensus Meeting Group. Me- mal number of items for a responsive, valid, health-rela-
thods to explain the clinical significance of health status ted quality of life instrument. J Clin Epidemiol 2001; 54:
measures. Mayo Clin Proc 2002; 77: 371-383. 571-579.
Herdman M. La medida de la calidad de vida relacionada Patrick DL, Chiang YP. Measurement of health outcomes in
con la salud. Med Clin (Barc) 2000; 114 (Suppl 3): 22-25. treatment effectiveness evaluations: conceptual and me-
Hyland ME. A brief guide to the selection of quality of life thodological challenges. Med Care 2000; 38 (9 Suppl):
instrument. Health Qual Life Outcomes 2003 3; 1 (1): II14-25.
24. Epub 2003 Jul 03. Schwartz CE, Sprangers MA. Methodological approaches for
Knauper B, Turner PA. Measuring health: improving the assessing response shift in longitudinal health-related
validity of health assessments. Qual Life Res 2003; 12 quality-of-life research. Soc Sci Med 1999; 48 (11): 1531-
(Suppl 1): 81-89. 1548.
Liang MH. Longitudinal construct validity: establishment of Streiner DL, Norman GR. Health measurement scales: a
clinical meaning in patient evaluative instruments. Med practical guide to their development and use. 2.a ed.
Care 2000; 38 (9 Suppl): II84-90. Oxford: Oxford University Press, 1995.
Liang MH, Lew RA, Stucki G, Fortin PR, Daltroy L. Mea -
suring clinically important changes with patient-oriented
questionnaires. Med Care 2002; 40 (4 Suppl): II45-51.
206
Capítulo 22
Estrategia de análisis
207
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tándar. Si esta última es muy elevada en relación con Tabla 22.1. Pasos de la estrategia de análisis
la media, indica una gran dispersión de los valores o de un estudio descriptivo
una falta de normalidad en la distribución, lo que
deberá tenerse en cuenta para seleccionar la prueba 0. Revisar los datos previamente al análisis
estadística más adecuada. También resulta muy útil
1. Describir los sujetos estudiados
observar con detenimiento la distribución de los
valores, ya sea gráficamente o utilizando un número 2. Evaluar la representatividad de la muestra
suficiente de percentiles. De esta forma, pueden 3. Estimar el valor del parámetro de interés
detectarse valores extremadamente altos o bajos, 4. Calcular el intervalo de confianza de la estimación
que pueden influir sobre la media, alterando los
resultados de las pruebas estadísticas. Estos valores 5. Describir las no respuestas y/o pérdidas de
extremos deben ser verificados y corregidos si seguimiento y evaluar su impacto potencial
es necesario. Por ejemplo, valores de potasemia de 6. Análisis de subgrupos
10 mEq/l son incorrectos con toda seguridad, ya que
son incompatibles con la vida, o valores de colestero-
lemia muy bajos (p. ej., inferiores a 125 mg/dl) pue- DESCRIBIR LOS SUJETOS ESTUDIADOS
den requerir una confirmación, dada su escasa pro- La descripción de la muestra de los sujetos estudia-
babilidad. Si los criterios de inclusión fijan un rango dos permite:
de edad entre los 15 y los 45 años, valores fuera de
este rango pueden corresponder a la inclusión erró- – Evaluar la adecuación de la muestra respecto al
nea de algún sujeto o a errores en la transcripción problema planteado.
del dato. – Conocer en qué tipo de sujetos se ha obtenido el
Al mismo tiempo, si se desea reclasificar una resultado y poder interpretar correctamente las
variable cuantitativa en una cualitativa mediante la conclusiones del estudio.
creación de intervalos, para facilitar la compren- – Evaluar la posibilidad de extrapolar los resultados
sión de los resultados, el conocimiento de la distri- del estudio a otras poblaciones. Los lectores po-
bución de frecuencias puede ser de inestimable drán determinar las diferencias entre las carac-
ayuda para definir sus límites. terísticas de su población y la estudiada, y tomar
También conviene prever cruces de variables en consideración cómo pueden influir sobre los
dos a dos para detectar valores improbables o ilógi- resultados.
cos. Por ejemplo, los varones no pueden estar to- – Replicar el estudio por otros investigadores, utili-
mando anticonceptivos orales o tener antecedentes zando criterios similares, de forma que puedan
de histerectomía. Es improbable que un sujeto de detectarse diferencias entre poblaciones, ámbitos
16 años tenga 5 hijos, por lo que debe verificarse si geográficos, etc.
el dato es correcto.
Mediante estos sencillos procedimientos, y otros No se trata de describir exhaustivamente la
similares, pueden corregirse gran parte de los erro- muestra, sino de sintetizar sus principales carac-
res de transcripción y codificación, aumentando la terísticas relacionadas con las finalidades citadas
calidad de los datos de la matriz en la que se basará (tabla 22.2).
el análisis.
E VALUAR LA REPRESENTATIVIDAD
DE LA MUESTRA
ESTRATEGIA DE ANÁLISIS
Debe preverse qué variables se analizarán para eva-
DE UN ESTUDIO DESCRIPTIVO
luar la representatividad de la muestra estudiada en
La estrategia que se presenta es útil para los estu- relación con la población de estudio. Si, por ejem-
dios cuyo objetivo es estimar un parámetro (p. ej., plo, ésta la forman individuos de 20 a 70 años de
la prevalencia o la incidencia de un problema de sa- edad, residentes en una comunidad, y la muestra se
lud) en la población (tabla 22.1). Las estrategias extrae del padrón municipal, la representatividad
útiles para los estudios con otros objetivos se co- de la muestra se estudiará comparando las carac-
mentan al presentar sus diseños específicos. terísticas de los individuos seleccionados con las dis-
208
ESTRATEGIA DE ANÁLISIS
209
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
a un resultado diferente debido a la variabilidad del Si se desea realizar un análisis de subgrupos, de-
muestreo. Por ello, se necesita una medida de esta berá tenerse en cuenta en el cálculo del tamaño
variabilidad que permita conocer entre qué límites de la muestra y en el método de selección de los
se encuentra el verdadero valor de la población con sujetos, ya que, en caso de no hacerlo, se perderá
una confianza determinada, lo que se hace median- precisión en la estimación del parámetro en cada
te el llamado intervalo de confianza (IC). subgrupo en relación con la obtenida cuando se
El IC proporciona mucha más información que analiza el total de la muestra, ya que el número de
la simple estimación puntual, ya que permite cono- sujetos será claramente inferior.
cer la precisión con que el parámetro poblacional
ha sido estimado, es decir, cuál es el posible error
ESTRATEGIA DE ANÁLISIS
de la estimación puntual en relación con el verda-
DE UN ESTUDIO ANALÍTICO
dero pero desconocido valor, debido a la variabili-
dad aleatoria. Habitualmente, el IC se calcula para El objetivo de los estudios analíticos es estimar la
un nivel de confianza del 95%. magnitud del efecto o la asociación entre un factor
de estudio y una variable de respuesta. La finali-
D ESCRIBIR LAS NO RESPUESTAS dad de la estrategia de análisis es obtener la estima-
Y / O PÉRDIDAS DE SEGUIMIENTO ción más válida, eliminando la influencia de todas
Y EVALUAR SU IMPACTO POTENCIAL las variables que puedan interferir, y lo más precisa
La descripción de las no respuestas y pérdidas posible. Las fases de la estrategia se resumen en la
deberá incluir no sólo su número, sino también sus tabla 22.3.
motivos, ya que pueden suponer un sesgo. Para eva-
luar su impacto potencial pueden ser útiles dife-
Tabla 22.3. Pasos de la estrategia de análisis
rentes estrategias de análisis:
de un estudio analítico
– Comparar los sujetos que responden y los que no lo ha-
0. Revisar los datos
cen, por las variables disponibles. Por ejemplo, si se
desea seleccionar, a partir del padrón municipal, 1. Describir los sujetos estudiados
una muestra de individuos de ambos sexos, con 2. Evaluar la comparabilidad inicial de los grupos
edades comprendidas entre los 20 y 60 años, de-
3. Estimar la magnitud del efecto o asociación
bería conocerse la edad y el sexo de los que res-
ponden y de los que no lo hacen. Si se observan 4. Evaluar la existencia de modificación del efecto
diferencias entre ellos, las no respuestas podrían 5. Ajustar por potenciales factores de confusión
introducir un sesgo de selección. 6. Análisis de subgrupos
– Comparar los que responden a la primera llamada de los
investigadores con los que lo hacen en llamadas sucesi- 7. Responder las preguntas secundarias
vas. En este caso se podrá comparar no sólo por las
variables utilizadas para seleccionar la muestra,
sino también por la frecuencia de la exposición o D ESCRIBIR LOS SUJETOS ESTUDIADOS
de la enfermedad que se está estudiando. La asun- Su utilidad y las características por las que se reali-
ción que se realiza en esta situación es que aque- za esta descripción son similares a las comentadas
llos que responden más tardíamente tienen carac- para los estudios descriptivos (ver tabla 22.2).
terísticas intermedias entre los que responden
rápidamente y los que no responden. E VALUAR LA COMPARABILIDAD
INICIAL DE LOS GRUPOS
A NÁLISIS DE SUBGRUPOS El análisis se basa en que los grupos de estudio son
Cuando los investigadores piensan que la frecuen- comparables y no existen sesgos que alteren los re-
cia del problema de salud puede variar en función sultados. Por ello, antes de determinar si el efecto
de diferentes características, puede ser práctico pla- o la asociación es diferente entre los grupos, debe
nificar la estimación del parámetro en los diferen- planificarse un análisis de su comparabilidad basal.
tes subgrupos de interés. Si se encuentran diferencias relevantes en alguna
210
ESTRATEGIA DE ANÁLISIS
variable importante, deberá controlarse su poten- diafragma puede influir sobre el efecto del trata-
cial efecto de confusión en fases posteriores del miento, la diferencia en su uso entre los grupos
análisis. deberá tenerse en cuenta en fases posteriores del
El análisis de esta comparabilidad no se basa en análisis.
la significación estadística, ya que algunas diferen-
cias podrían ser estadísticamente significativas sólo E STIMAR LA MAGNITUD DEL EFECTO
por azar, mientras que diferencias relevantes po- O DE LA ASOCIACIÓN
drían no serlo si el número de sujetos es reducido. La planificación de esta fase del análisis supone ele-
Además, los grupos podrían diferir en alguna ca- gir la medida óptima del resultado, identificar las
racterística importante, que no hubiera sido medi- variables que pueden influir sobre el efecto de
da en el estudio. interés y utilizar las pruebas estadísticas adecuadas.
Ejemplo 22.1. En un ensayo clínico aleatorio a doble Elección de la medida del efecto
ciego cuyo objetivo era comparar la eficacia del tri- La medida más adecuada depende del tipo de estu-
metoprim-sulfametoxazol en pauta de 10 días y en dio y su finalidad, y de la escala de medida de las
monodosis, en mujeres con sintomatología de disu- variables. Existen dos tipos de medidas: relativas y
ria aguda (Fihn et al, 1988), se incluyó a 255 muje- absolutas. Las medidas relativas más utilizadas son el
res que cumplían los criterios de selección; 126 riesgo relativo (RR) y la odds ratio (OR) (anexo 2).
de ellas recibieron la monodosis, y 129, la pauta de El RR corresponde al cociente entre las inci-
10 días. En la tabla 22.4 se presentan los resultados dencias observadas en el grupo expuesto y en el no
de la evaluación de la comparabilidad inicial de expuesto, y por tanto sólo puede calcularse direc-
ambos grupos respecto a las variables pronósticas de tamente en aquellos estudios que permitan deter-
la respuesta. Puede comprobarse que son compara- minar incidencias (estudios de cohortes y ensayos
bles para todas las variables analizadas, excepto en clínicos). El RR indica el número de veces que es
el uso de diafragma, más frecuente en el grupo asig- más frecuente la aparición de la respuesta en un
nado a la monodosis. Si se considera que el uso de grupo respecto al de referencia. Por este motivo, al
Tabla 22.4. Características de las 255 mujeres incluidas en un ensayo clínico aleatorio comparativo
de la eficacia de trimetoprim-sulfametoxazol en monodosis respecto a la pauta de 10 días
(ejemplo 22.1)
Grupos
211
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
preparar la estrategia de análisis, es importante –5,5 a 20,6). Además de medir el efecto en la escala
decidir cuál será la categoría que se utilizará como absoluta como diferencia en las respuestas observa-
referencia, y definirla con claridad. das, los autores también estimaron el efecto en una
En los estudios de casos y controles no puede escala relativa (OR = 1,4; IC 95%: 0,8 a 2,4).
calcularse directamente el RR, por lo que se utiliza
la OR. Si el estudio está bien diseñado y se cumplen Variables a controlar
determinadas asunciones, la OR es una buena esti- Al planificar la estrategia de análisis, es importante
mación del RR. identificar todas las variables implicadas a partir del
Cada vez es más frecuente el uso de la OR como marco conceptual elaborado al diseñar el estudio, y
medida relativa del efecto en investigación clínica y decidir por cuáles deberá ajustarse la estimación,
epidemiológica, debido a que puede calcularse in- por cuáles no, y qué factores podrían modificar el
dependientemente del diseño del estudio. Además, efecto estudiado. En esta fase, es muy útil una buena
las técnicas estadísticas multivariantes de uso habi- revisión bibliográfica que permita identificar los
tual, como la regresión logística o el modelo de posibles factores de confusión y modificadores del
Cox, facilitan su cálculo. efecto tenidos en cuenta por otros investigadores.
Otra forma de expresar los resultados de un es- Según su función en la relación causa-efecto que
tudio es a través de medidas absolutas. La más utili- se esté estudiando, pueden distinguirse los siguien-
zada es la diferencia de riesgos, o diferencia entre las tes tipos de variables (fig. 22.1):
incidencias observadas en ambos grupos, que pro-
porciona una idea del impacto que tendría sobre la – Variable de respuesta. En términos estadísticos, suele
incidencia la eliminación de un factor de riesgo o denominarse variable dependiente.
la aplicación de una intervención. En los estudios – Factor de estudio. Suele denominarse variable inde-
de casos y controles no puede determinarse direc- pendiente principal, ya que la finalidad del análisis
tamente, ya que estos estudios no permiten estimar es estimar su efecto sobre la variable dependiente,
la incidencia. ajustando o controlando la influencia del resto de
las variables.
Ejemplo 22.2. En el estudio sobre la disuria aguda – Variables modificadoras del efecto. Cuando el efecto o
del ejemplo 22.1, la respuesta sintomática fue uno la asociación entre el factor de estudio y la variable
de los criterios de evaluación del estudio. Se midió de respuesta varían según la existencia de una ter-
en tres tiempos diferentes. Se observó que las di- cera variable o de diferentes niveles de ella, se dice
ferencias favorecían al grupo tratado con pauta de que ésta es modificadora de dicho efecto. Estas
10 días. Así, por ejemplo, en el grupo tratado con variables son importantes porque forman parte del
monodosis, el 56,1% de mujeres no presentaba sín- propio efecto del factor de estudio, por lo que, más
tomas a las 6 semanas frente a un 63,6% de mujeres que controlar por ellas, interesa tenerlas en cuenta
del grupo tratado con pauta de 10 días. La diferen- en el análisis para poder describir cómo modifican
cia de los porcentajes fue, pues, del 7,5% (IC 95%: dicho efecto.
Factores de confusión
Variables Variables
Factor de estudio Variable de respuesta
intermedias posteriores
Factores modificadores
del efecto
212
ESTRATEGIA DE ANÁLISIS
Ejemplo 22.3. En el estudio sobre el tratamiento de perinatal. A diferencia del ejemplo anterior, la va-
la disuria aguda (ejemplo 22.1), se observó que los riable intermedia no sólo está asociada al factor de
resultados en las mujeres cuyo cultivo inicial presen- estudio, sino que es consecuencia del mismo en la
taba menos de 100.000 colonias/ml eran diferentes cadena causal que conduce hacia la respuesta. Si se
en relación con los resultados de las que presenta- elimina el efecto debido al bajo peso al nacer (es
ban 100.000 colonias/ml o más. Por lo tanto, el nú- decir, si se ajusta por esta variable), se obtendrá una
mero de colonias en el cultivo inicial es una variable estimación sesgada del efecto del consumo de taba-
modificadora del efecto del tratamiento sobre la res- co, que no tendrá en cuenta la parte del efecto que
puesta al mismo, por lo que deberán presentarse los se produce a través del bajo peso al nacer.
resultados separadamente en función del número
de colonias. Ejemplo 22.6. Supóngase un estudio que trata de
estimar el efecto del consumo de tabaco durante el
– Potenciales factores de confusión. Son variables que embarazo sobre la probabilidad de bajo peso al na-
están relacionadas tanto con el factor de estudio cer. En esta situación, la mortalidad perinatal sería
como con la variable de respuesta, de forma que, una variable posterior y no debería ajustarse por
si no se tienen en cuenta en el análisis, se obtiene ella, ya que se eliminaría del análisis el efecto del
una estimación sesgada del efecto. Por lo tanto, consumo de tabaco sobre la mortalidad perinatal,
deberá ajustarse la estimación del efecto por estas de forma que sólo se estimaría el efecto del consu-
variables. mo de tabaco sobre el riesgo de bajo peso al nacer
no relacionado con la mortalidad.
Ejemplo 22.4. Supóngase un estudio que desea es-
timar el efecto del consumo de alcohol sobre el Elección de la prueba estadística
riesgo de presentar una enfermedad coronaria. Un En la planificación de la estrategia de análisis es ne-
potencial factor de confusión es el consumo de cesario prever las pruebas estadísticas que se utili-
tabaco, ya que se sabe que las personas que consu- zarán, que dependerán fundamentalmente del tipo
men más alcohol fuman con más frecuencia, y que de variables implicadas, el número de grupos que
los fumadores tienen un mayor riesgo de enferme- se compararán, el tamaño de la muestra y las condi-
dad coronaria. Si no se ajusta por el consumo de ciones de aplicación específicas de cada una de las
tabaco, se obtendrá una estimación sesgada del pruebas (anexo 8).
efecto del consumo de alcohol sobre el riesgo de Si es necesario obtener una estimación del efec-
enfermedad coronaria. to, ajustando por múltiples variables, debe recurrir-
se a modelos estadísticos multivariantes. La elección
– Variables de la cadena causal. Se relacionan con el del modelo apropiado depende de la escala de me-
factor de estudio y con la variable de respuesta, dida de la variable de respuesta (variable depen-
pero se encuentran situadas en la cadena causal, diente) y de otras condiciones de aplicación especí-
ya sea antes (variables intermedias) o después de ficas. Los modelos más utilizados en investigación
la variable de respuesta (variables posteriores). En clínica y epidemiológica son la regresión lineal múl-
principio no debe ajustarse por este tipo de va - tiple (cuando la variable de respuesta es cuantitati-
riables, ya que, al formar parte de la cadena causal, va), la regresión logística (cuando es dicotómica) y
la estimación ajustada del efecto del factor de estu- el modelo de Cox (cuando la variable de respuesta
dio no tendría en cuenta el componente que pasa es el tiempo de aparición de un suceso) (anexo 8).
a través de las variables intermedias o el relaciona-
do con las variables posteriores. Confusión y modificación del efecto
La estrategia de análisis ha de planificarse de forma
Ejemplo 22.5. Supóngase un estudio que trata de es- que permita obtener la mejor estimación posible de
timar el efecto del consumo de tabaco durante el la magnitud del efecto del factor de estudio sobre la
embarazo sobre la mortalidad perinatal. Una varia- variable de respuesta, teniendo en cuenta las influen-
ble intermedia podría ser el bajo peso al nacer, ya cias del resto de variables que pueden interferir.
que puede ser consecuencia del consumo de taba- En primer lugar, deben identificarse las varia-
co y, a la vez, es un factor de riesgo de mortalidad bles que pueden ser modificadoras del efecto, pre-
213
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
ver la estimación del efecto en los diferentes estra- (OR ajustada), sino que deben presentarse separa-
tos definidos por los valores de dichas variables, y damente para cada estrato. De todas formas, para
la aplicación de pruebas estadísticas para compa- poder asegurar que existe modificación de efecto
rar las estimaciones obtenidas. Si se detecta la exis- debería comprobarse que la diferencia de los valores
tencia de modificación del efecto, deberá tenerse de OR de cada estrato es estadísticamente significati-
en cuenta al presentar los resultados, ya que no va, aunque si el número de sujetos de los estratos es
existirá un único resultado, sino que variará en reducido, esta prueba puede no tener la potencia
función de las categorías o los valores de otras suficiente para detectarla.
variables. Si no se detecta ninguna modificación
del efecto, deberá obtenerse una estimación del Ejemplo 22.8. Siguiendo con el mismo estudio del
resultado ajustada por los potenciales factores de ejemplo 22.1, se había detectado una diferencia es-
confusión. tadísticamente significativa en el porcentaje de mu-
jeres utilizadoras de diafragma entre los grupos de
Ejemplo 22.7. En el estudio sobre el tratamiento de estudio. Dado que esta variable puede estar asocia-
la disuria aguda del ejemplo 22.1, se analizaron los da con la respuesta terapéutica, por ejemplo, a tra-
resultados en función de diferentes variables. En la vés de la infección por patógenos diferentes, podría
tabla 22.5 se presentan los resultados en función inter ferir con la medición de la respuesta. Por ello,
del número de colonias en el cultivo inicial. Se ob- puede recurrirse al análisis estratificado, analizan-
ser va que las OR de los estratos son muy distintas do por separado las utilizadoras de las que no lo
entre sí, lo cual sugiere que el efecto de la mono- son, y evaluando las diferencias en la respuesta al
dosis respecto a la pauta de 10 días produce resul- tratamiento en cada grupo (tabla 22.6). Se aprecia
tados diferentes en función del recuento inicial de que en el grupo tratado con monodosis existe un
colonias. Si se calculara una única OR ajustada, se mayor porcentaje de mujeres utilizadoras de dia-
obtendría el valor 1,60, que resumiría inadecuada- fragma (61 frente al 48%), y que éstas tienen un
mente los resultados, ya que parecería indicar que mayor porcentaje de fallos terapéuticos que las no
el porcentaje de fallos con la monodosis es superior utilizadoras (27,5 frente al 16%). Por lo tanto, pue-
en todos los sujetos, cuando el análisis estratificado de cuestionarse si la mayor tasa de fracasos observa-
indica que ello es así en las pacientes con más de da en el grupo de monodosis puede ser consecuen-
100.000 colonias/ml (OR = 1,97), mientras que pa- cia del mayor porcentaje de utilizadoras incluidas
rece ser todo lo contrario si el recuento inicial de en dicho grupo. Los datos de la tabla muestran que,
colonias es menor (OR = 0,63). Por ello, cuando en ambos estratos, la tasa de fracasos fue más eleva-
existe modificación de efecto, no es adecuado resu- da en el grupo tratado con monodosis, si bien la
mir los resultados en un solo índice ponderado diferencia respecto al otro grupo fue ligeramente
Tabla 22.5. Fallos del tratamiento con trimetoprim-sulfametoxazol (monodosis frente a pauta
de 10 días) en mujeres con disuria aguda, en función del número de colonias del cultivo
inicial (ejemplo 22.7)
Grupo
Monodosis 10 días
(fallos/casos) (fallos/casos) OR (IC 95%)
214
ESTRATEGIA DE ANÁLISIS
Tabla 22.6. Fallos del tratamiento con trimetoprim-sulfametoxazol (monodosis frente a pauta
de 10 días) a los 42 días en mujeres con disuria aguda, en función del uso de diafragma
(ejemplo 22.8)
Grupo
Monodosis 10 días
(fallos/casos) (fallos/casos) OR (IC 95%)
215
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 22.7. Criterios de validez de un análisis Altman DG, Bland JM. Units of analysis. BMJ 1997; 314: 1874.
de subgrupos Argimon JM, Jiménez Villa J. Medidas del efecto de un trata-
miento. FMC 1998; 5 (Supl. 7); Atención primaria basa-
da en la evidencia 1998 (3): 45-46.
– Hipótesis específica sobre los resultados del
Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup
subgrupo planteada a priori en el diseño analysis and other (mis)uses of baseline data in clinical
del estudio como una de las pocas hipótesis trials. Lancet 2000; 355: 1064-1069.
que se querían contrastar Bland JM, Altman DG. Multiple significance tests: the Bon-
– Análisis de subgrupos realizado dentro de una ferroni method. BMJ 1995; 310: 170.
estrategia adecuada de comparaciones múltiples Cobo E, Buekens P. Necesidad y limitaciones del ajuste. Med
Clin (Barc) 1990; 95: 702-708.
– Magnitud del efecto clínicamente relevante Furberg CD, Vittinghoff E, Davidson M et al. Subgroup inte-
– Efecto estadísticamente muy significativo ractions in the Heart and Estrogen/Progestin Replace-
(cuanto más bajo es el valor de p, más creíble ment Study: lessons learned. Circulation 2002; 105: 917-
es la diferencia) 922.
Gardner MJ, Altman DG. Confidence intervals rather than p
– Resultados consistentes con los de otros estudios
values: estimation rather than hypotesis testing. Br Med
– Evidencia indirecta que avale los resultados J 1986; 292: 746-750.
encontrados (plausibilidad biológica) Goodman SN. Multiple comparisons, explained. Am J Epi-
demiol 1998; 147: 807-812.
Lang JM, Rothman KJ, Cann CI. That confounded P-value.
Epidemiology 1998; 9: 7-8.
enriquecer la discusión y la interpretación de los re- Norman GR, Streiner DL. Bioestadística. Madrid: Mosby/
sultados. Sin embargo, están sometidas a los mismos Doyma, 1996.
inconvenientes que se han citado para el análisis Oxman AD, Guyatt GH. A consumer's guide to subgroup
analyses. Ann Intern Med 1992; 116: 78-84.
por subgrupos, por lo que deben ser escasas en nú-
Ramalle Gómara E. Validez de los análisis de subgrupos.
mero, establecidas a priori y estar debidamente fun-
FMC 1999; 6 (Supl. 2); Atención primaria basada en la
damentadas. En su interpretación, deben recordar- evidencia 1999 (1): 1-2.
se las limitaciones de las comparaciones múltiples. Rotwell PM. Can overall results of clinical trials be applied to
all patients? Lancet 1995; 345: 161-162.
B IBLIOGRAFÍA DE LOS EJEMPLOS Savitz DA, Olshan AF. Multiple comparison and related
Fihn SD, Johnson C, Roberts PL, Running K, Stamm WE. issues in the interpretation of epidemiological data. Am
Trimetoprim-sulfamethoxazole for acute dysuria in wo- J Epidemiol 1995; 142: 904-908.
men: a single-dose or 10-day course. A double blind ran- Simon R. Confidence intervals for reporting results of clini-
domized trial. Ann Intern Med 1988; 108: 350-357. cal trials. Ann Intern Med 1986; 105: 429-435.
Vickers AJ, Altman DG. Analysing controlled trials with baseli-
B IBLIOGRAFÍA ne and follow up measurements. BMJ 2001; 323: 1123-
Altman DG. Practical statistics for medical research. Lon- 1124.
dres: Chapman & Hall, 1991. Yusuf S, Wittes J, Probstfield J, Tyroler HA. Analysis and inter-
Altman DG, Bland JM. Interaction revisited: the difference pretation of treatment effects in subgroups of patients in
between two estimates. BMJ 2003; 326: 219. randomized clinical trials. JAMA 1991; 266: 93-98.
216
Capítulo 23
Sujetos a incluir en el análisis
n el capítulo anterior se ha presentado el es- del análisis puede introducir un sesgo y compro-
217
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 23.1. Situaciones que pueden plantear menor potencia estadísitica, ya que se habrá estu-
la posible exclusión de diado un número menor de individuos, pero no
determinados sujetos del análisis estará sesgada.
de un ensayo clínico aleatorio En realidad, el impacto potencial de las no res-
puestas sobre la medida del fenómeno de interés
• Violaciones de los criterios de inclusión y exclusión depende tanto de su número como de la frecuencia
• Diagnóstico incorrecto
de presentación de dicho fenómeno.
• Asignación incorrecta Ejemplo 23.1. Supongamos un estudio transversal
• Falta de cooperación o voluntad de continuar que desea estimar la prevalencia de una enfermedad
en el ensayo a partir de una muestra de 200 sujetos, de los que
• Pérdida de contacto durante el seguimiento 20 rehúsan participar. De los 180 restantes, 36 presen-
tan la enfermedad, por lo que la estimación puntual
• Enfermedades intercurrentes de la prevalencia en ellos es del 20%. Si ninguno de
• Insuficiente cumplimiento con la intervención los 20 sujetos que han rehusado participar tuviera la
asignada enfermedad, la verdadera prevalencia en la muestra
• Administración de una intervención diferente de 200 sujetos sería de 36/200 = 0,18. Por el contra-
de la asignada rio, si los 20 sujetos tuvieran la enfermedad, sería de
(36 + 20)/200 = 0,28. Si las no respuestas fueran alea-
• Uso de medicación concomitante prohibida
torias y se comportaran como el resto de los sujetos
• Fallecimiento por causas no relacionadas de la muestra, cabría esperar que 4 de ellos tuvieran
con la enfermedad en estudio la enfermedad, por lo que la prevalencia sería de
• Ausencia de datos (36 + 4)/200 = 0,20, por lo que la estimación de la
• No finalización del estudio por acontecimientos prevalencia no habría sido sesgada.
adversos Supongamos que en este mismo estudio, de los
180 sujetos que participan, tan sólo 4 tuvieran la en-
• No finalización del estudio por falta de eficacia fermedad, de forma que la estimación puntual
de la prevalencia sería del 2,2%. Si ninguno de los
20 sujetos que no participan tuviera la enfermedad,
tos que forman parte de esta muestra, pero que no la prevalencia sería de 4/200 = 0,02, mientras que,
colaboran en el estudio o de los que no se dispone si los 20 la tuvieran, sería de (4 + 20)/200 = 0,12. En
de la información deseada, de forma que el análisis este caso, en que la prevalencia de la enfermedad es
únicamente del conjunto de sujetos de los que se inferior, el impacto potencial de las no respuestas
dispone de información puede vulnerar el princi- puede ser mayor, ya que puede haber estimaciones
pio de representatividad. hasta seis veces superiores.
Conceptualmente, el problema de las no res- Finalmente, si en lugar de 20 no respuestas se
puestas radica no tanto en su número o en el por- hubieran producido tan sólo 2, su impacto poten-
centaje que suponen respecto a la muestra, sino en cial sobre las estimaciones sería mucho menor. Y si
los motivos por los que se han producido. Si están hubieran sido 100 las no respuestas, su impacto po-
asociadas al problema en estudio o a determinadas dría ser todavía mayor al descrito.
características relacionadas con éste, el conjunto de
sujetos analizados no es representativo de la pobla- El diseño del estudio debe prever mecanismos
ción que se deseaba estudiar, y el resultado obteni- que ayuden a conseguir el máximo número de res-
do no será una buena estimación del verdadero va- puestas y a recaptar las no respuestas cuando se pro-
lor de dicha población. ducen. Así mismo, en el análisis de los datos es con-
Si, por el contrario, las no respuestas se produ- veniente realizar un estudio de éstas y evaluar si el
cen de forma aleatoria o se deben a motivos que no valor de la variable de interés difiere en relación con
están relacionados con el problema en estudio, la el de las respuestas. Por ello, es frecuente que, si se
consecuencia será que la estimación que se obtenga han realizado varios intentos para captar a los sujetos
tendrá una menor precisión, o la comparación, una de la muestra, se analicen por separado los resulta-
218
SUJETOS A INCLUIR EN EL ANÁLISIS
dos de cada uno de ellos para ver si existen diferen- tos a participar en el estudio, no son finalmente
cias en la estimación del valor de la variable de incluidos en él, ya sea porque no cumplen todos los
interés, y poder así evaluar un posible sesgo en dicha criterios de selección o bien porque no consienten
estimación. Es importante describir las causas por las en participar. Si los criterios de selección son muy
que se han producido las no respuestas y evaluar si rigurosos y/o muchos sujetos rehúsan colaborar en
existen diferencias, en relación con las respuestas, en el estudio, la muestra de pacientes realmente in-
las características que puedan estar relacionadas con cluida diferirá mucho de la candidata, lo que limi-
la variable de interés. tará la generalización de los resultados. Además,
También en los estudios analíticos puede apare- algunos ensayos clínicos utilizan un período de pre-
cer el problema de las no respuestas. En los estu- inclusión con la finalidad de excluir, antes del ini-
dios de casos y controles, suelen ser más frecuentes cio del estudio propiamente dicho, a los sujetos que
en el grupo de los controles, en especial cuando presentan efectos secundarios, problemas de cum-
provienen de la población general. Estas situacio- plimiento, etc., lo que conformará una muestra en
nes pueden alterar la estimación de la frecuencia la que será más fácil observar el efecto que se busca,
de la exposición en los grupos, de forma que, si su pero que será más difícilmente extrapolable.
impacto es diferente en los casos y en los controles, En los ensayos clínicos, dado que estas exclusio-
además del principio de representatividad, puede nes se han producido antes de la asignación de los
vulnerarse también el de comparabilidad. sujetos a los grupos, no se vulnera el principio de
En los estudios de cohortes, también puede afec- comparabilidad y, por tanto, no se afecta la validez
tarse el principio de comparabilidad, ya que las no interna de los resultados. Sin embargo, a pesar de
respuestas se producen cuando los grupos ya están que no se analicen como parte del propio estudio,
formados (dado que los sujetos no son asignados a debe recogerse información sobre los motivos por
los grupos, sino que forman parte de ellos por deter- los que no son incluidos, tanto si es porque no cum-
minadas características sobre las que los investiga- plen los criterios de selección, como si es porque
dores no tienen control). no desean participar en el estudio, o por cualquier
otro motivo. Esta información será imprescindible
Ejemplo 23.2. Supongamos que se realiza un estudio para evaluar su posible impacto sobre la extrapola-
de cohortes para evaluar el efecto del consumo de ción de los resultados.
tabaco sobre la incidencia de cardiopatía isquémica.
Supongamos que todos los no fumadores aceptan
participar, ya que son sujetos preocupados por su PÉRDIDAS
salud, mientras que, entre los fumadores, existe un Se entiende por pérdidas aquellos casos que, habien-
porcentaje de sujetos que rehúsa participar tanto do iniciado el estudio, lo abandonan o se pierde el
más elevado cuanto mayor es su consumo de tabaco contacto con ellos, de forma que no es posible deter-
y peor su estado de salud. De esta forma, la compa- minar el valor de la variable de respuesta. Habi-
ración de las tasas de incidencia de cardiopatía tualmente se producen por abandono del sujeto,
isquémica entre ambas cohortes estaría sesgada, ya que no desea continuar participando en el estudio,
que los sujetos con peor estado de salud y mayor por pérdida durante el seguimiento o por la apari-
probabilidad de desarrollar dicha enfermedad ha- ción de algún suceso concomitante durante éste que
brían rehusado participar en uno de los grupos de impide la valoración de la respuesta.
estudio. Según la naturaleza de la variable de respuesta
que se utiliza puede realizarse algún esfuerzo suple-
EXCLUSIONES PREASIGNACIÓN mentario para obtener información sobre ella en los
EN LOS ENSAYOS CLÍNICOS sujetos que se han perdido. Por ejemplo, si se trata
de la mortalidad, puede acudirse a los registros de
En los ensayos clínicos, la repercusión de estos pro- mortalidad para obtener esta información. Sin em-
blemas tiene características que los diferencian de bargo, en otras ocasiones, es imposible determinar-
lo que ocurre en los estudios observacionales. Las la. Si se trata de la valoración del estado funcional
llamadas exclusiones preasignación corresponden a de un paciente al mes de una intervención, o una to-
los sujetos que, aunque inicialmente son candida- ma de presión arterial al año de seguimiento, y no se
219
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
ha determinado en ese momento, puede ser un frecuencia menor, en que la estimación del efecto
dato que resulte imposible de obtener. puede ser hasta cuatro veces mayor en función de
Si las pérdidas se producen aleatoriamente, es cómo se comporten las pérdidas.
decir, por motivos no relacionados con lo que se
está estudiando, no introducen un sesgo en la com- Ejemplo 23.4. Imaginemos un estudio comparativo
paración de los resultados. Si su número es impor- del efecto de dos fármacos, A y B, en el tratamien-
tante, pueden conducir a una disminución en la to de una enfermedad. La variable de respuesta es
precisión de la estimación del efecto. En la tabla la mejoría en el estado funcional del paciente al
23.2 se resumen las implicaciones que pueden tener año de seguimiento. Se diseña un ensayo clínico
estas situaciones en los ensayos clínicos aleatorios. aleatorio, en el que se asignan 100 pacientes a cada
Por otro lado, su posible impacto sobre los resulta- uno de los grupos (tabla 23.4). Al año, el 90% de
dos depende de la frecuencia de presentación de la los pacientes que finalizan el estudio en cada uno
respuesta. de los grupos muestra mejoría, por lo que podría
suponerse que su eficacia es idéntica. Sin embargo,
Ejemplo 23.3. En la tabla 23.3 se presentan los datos al analizar los datos con detenimiento, puede ob-
de dos estudios hipotéticos de seguimiento de una servarse que en el grupo A se ha producido un 30%
cohorte de 100 pacientes, ambos con un 10% de de pérdidas, mientras que en el grupo B sólo un
pérdidas, pero que difieren en la frecuencia de apa- 10%. Aun suponiendo que las pérdidas estén rela-
rición de la respuesta. En la situación A fallecen el cionadas con una menor eficacia de los tratamien-
60% de los pacientes, mientras que en la situación tos, y que ésta sea del 20% para ambos grupos, al
B, sólo el 3,3%. Puede observarse cómo la distorsión tener en cuenta en el análisis todos los sujetos que
producida en la estimación del efecto es mayor en la han sido asignados, puede verse que el fármaco B
situación B, cuando la respuesta se presenta con una es más eficaz (83 frente a 69%). Si el investigador se
Tabla 23.2. Exclusiones preasignación, pérdidas y retiradas en los ensayos clínicos aleatorios
220
SUJETOS A INCLUIR EN EL ANÁLISIS
Tabla 23.3. Influencia de las pérdidas y retiradas del análisis sobre la estimación del efecto, en función
de la frecuencia de presentación de la respuesta (ejemplo 23.3)
Datos hipotéticos del seguimiento de una cohorte de 100 pacientes, durante el cual se han producido
10 pérdidas (10%). La variable de respuesta es la defunción del sujeto
Se plantean dos situaciones con diferentes valores observados de mortalidad
En cada una de ellas se estima el efecto potencial de las pérdidas en función de dos asunciones: el peor caso
(las 10 pérdidas fallecen) y el mejor caso (las 10 pérdidas sobreviven) posibles
Tabla 23.4. Resultados de un ensayo clínico hipotético comparativo de la eficacia de dos fármacos
A y B, administrados a dos grupos de 100 pacientes. La variable de respuesta corresponde
al cambio en el estado funcional al año de seguimiento. Se presentan los resultados por
separado para los sujetos que han finalizado el estudio y para las pérdidas de seguimiento
(ejemplo 23.4)
Mejoría al año
conforma con analizar a los sujetos que finalizan el servada en los sujetos que han finalizado el estudio
estudio, puede llegar a conclusiones erróneas. no es una buena estimación, ya que compromete la
Este problema es muy similar al comentado para validez de la comparación. La mejor estrategia es,
las no respuestas. La medición de la respuesta ob- una vez más, diseñar el estudio de forma que se es-
221
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tablezcan todos los mecanismos posibles para pre- para calcular un factor de corrección para cada uno
venir estas pérdidas y minimizar sus efectos. Y si, a de los estratos e incluirlo en la ponderación. La
pesar de todo, se producen, debe intentar obtener- asunción que se realiza es que la submuestra estu-
se la máxima información de ellas para poder in- diada es una muestra aleatoria de todas las pérdidas
cluirlas en el análisis. o no respuestas que se han producido.
Una tercera alternativa es asignar o imputar valo-
TRATAMIENTO DE LAS PÉRDIDAS res de la variable de respuesta u otras variables rele-
Y LAS NO RESPUESTAS vantes a las pérdidas o no respuestas. Existen dife-
rentes opciones para realizar esta imputación de
Una primera alternativa es considerar que las pérdi- valores: extrapolar, para cada caso, los valores de la
das o no respuestas se han producido al azar, y usar última visita realizada a las siguientes; interpolar los
en el análisis sólo la información de los sujetos que valores (si se dispone de datos anteriores y posterio-
han completado el estudio. El resultado de este aná- res); calcular los valores según un modelo estadísti-
lisis es equivalente a aplicar a las pérdidas la misma co (se determina el valor de la respuesta de los su-
frecuencia de la respuesta observada entre los que jetos en función de sus características basales,
permanecen en el estudio. Un inconveniente que
aplicando este modelo posteriormente a los sujetos
existe es la reducción de la precisión consiguiente a
con datos ausentes), y comparar los resultados de di-
la disminución del número de sujetos, aunque, si se
ferentes análisis, aplicando a los datos ausentes dife-
ha previsto la posibilidad de pérdidas o no respues-
rentes posibilidades de respuesta.
tas al determinar el tamaño de la muestra, esta dis-
En general, las técnicas de imputación también
minución puede ser contrarrestada. Sin embargo, la
asumen que las pérdidas y las no respuestas se han
asunción de que las pérdidas o no respuestas se han
producido al azar y de que no introducen ningún producido de forma aleatoria. Uno de los inconve-
sesgo es habitualmente difícil de asegurar. nientes de estas técnicas es que reducen artificial-
Una segunda alternativa es utilizar alguna técni- mente la variabilidad de los valores, en especial,
ca de ponderación de los resultados de la propor- cuando se asignan valores promedio en función de
ción observada de respuestas en diferentes estratos determinadas características, de forma que existirá
de la muestra. Las variables utilizadas para definir una precisión artificialmente elevada, por lo que los
estos estratos deben ser predictoras del hecho de intervalos de confianza deberán interpretarse con
que los sujetos completen el estudio. Por ejemplo, cautela.
ponderar los resultados por el inverso de la propor- Ninguna de las alternativas presentadas es ideal,
ción de respuestas observadas en hombres y muje- y los estudios con gran cantidad de datos ausentes
res, y/o grupos de edad. Si se desea definir gran siempre son criticables. Sea cual fuere la opción uti-
cantidad de estratos, el ajuste por este método es lizada, debe hacerse constar en el protocolo del es-
poco eficiente, ya que en algunas casillas habrá po- tudio, y al publicar los resultados, hay que explicar
cos sujetos y los factores de ponderación serán muy el procedimiento seguido y los valores asignados en
inestables. En esta situación, es preferible utilizar lugar de los datos ausentes.
una regresión logística para determinar las varia-
bles predictoras del hecho de completar el estudio, RETIRADAS
y utilizar esta información en la ponderación. El
principal inconveniente de esta estrategia es la difi- Se entiende por retiradas aquellas personas inclui-
cultad en el cálculo de las variancias. Por otro lado, das en el estudio, pero que deliberadamente no son
la asunción que se realiza es que las pérdidas que se tenidas en cuenta en el análisis, a pesar de que en
han producido han sido aleatorias, y el único hecho ellas se ha podido determinar la variable de res-
que se tiene en cuenta es que la proporción de suje- puesta. Este tipo de problemas se presenta, en ge-
tos que han completado el estudio difiere según de- neral, en los estudios con seguimiento de sujetos, y
terminadas características de ellos mismos. ha sido ampliamente debatido en los ensayos clíni-
Si se ha estudiado una submuestra de las pérdi- cos, dadas las repercusiones que el análisis y la in-
das o las no respuestas para determinar en los estra- terpretación de estos estudios tienen sobre las deci-
tos la variable de interés y evaluar la posible existen- siones terapéuticas. Las causas por las que puede
cia de un sesgo, esta información puede utilizarse plantearse la posible exclusión de un sujeto del aná-
222
SUJETOS A INCLUIR EN EL ANÁLISIS
lisis son muy variadas: personas incluidas por error los criterios se obtiene posteriormente al inicio de la
o que no cumplen todos los criterios de selección, intervención.
desviaciones del protocolo, sujetos que no han
cumplido con la intervención prescrita, individuos Ejemplo 23.5. En un estudio se comparó la eficacia
que han recibido una intervención distinta de la de la vasopresina y de la epinefrina en 324 pacien-
asignada, etc. tes que sobrevivieron a un paro cardíaco mientras
En algunos casos, estas situaciones pueden im- estaban ingresados en un hospital. Cincuenta de
plicar un porcentaje importante de sujetos, por lo estos pacientes fueron finalmente excluidos del es-
que su eliminación del análisis puede sesgar los re- tudio porque el paro ocurrió antes de la llegada al
sultados. La comparabilidad inicial de los grupos hospital y, en consecuencia, habían sido asginados
debe mantenerse a lo largo de todo el estudio. Si se erróneamente (Stiell et al, 2001).
excluye un número diferente de pacientes en cada
uno de los grupos, puede alterarse dicha compara- En la primera situación, la exclusión del análisis
bilidad. Pero, aunque el número de retiradas sea el de los pacientes que se han incluido por error puede
mismo en ambos grupos, sus motivos pueden diver- sesgar los resultados, si, como puede suceder, el des-
ger y afectar a un tipo diferente de individuos, por cubrimiento del error no se produce al azar. Por
lo que también puede alterarse la comparabilidad. ejemplo, los pacientes que responden peor a un tra-
Por tanto, es fundamental que el diseño del estudio tamiento o que presentan más efectos adversos son
prevea las posibles fuentes de retiradas e intente los que pueden llamar la atención de los investiga-
evitarlas. dores, que, en consecuencia, pueden buscar con
más ahínco errores en la evaluación de los criterios
S UJETOS QUE NO CUMPLEN de inclusión y exclusión de estos pacientes.
LOS CRITERIOS DE SELECCIÓN
Puede ocurrir que los sujetos sean incluidos en el es- Ejemplo 23.6. El estudio The Anturane Reinfarction
tudio y asignados a un grupo, pero que se considere Trial (1980) comparaba el tratamiento con sulfin-
a posteriori que no cumplen los criterios de inclu- pirazona frente a placebo en pacientes con infarto
sión. Se pueden distinguir dos situaciones: cuando agudo de miocardio (tabla 23.5). De los 1.558 suje-
se producen errores en la valoración de los criterios tos incluidos y asignados, 71 (38 del grupo trata-
de inclusión (p. ej., al registrar la edad o el sexo), en miento y 33 del grupo placebo) fueron considera-
alguna determinación de laboratorio o incluso dos inelegibles a posteriori. Si se excluyen del
en los criterios diagnósticos, debido a la necesidad análisis, puede apreciarse que el grupo sulfinpira-
de efectuar con rapidez la inclusión en algunos pro- zona presenta una menor mortalidad que el grupo
cesos agudos; o cuando debe instaurarse un trata- placebo, aunque no alcanza el nivel convencional
miento rápidamente y la confirmación de alguno de de significación del 5%, pero se acerca bastante. En
Tabla 23.5. Resultados finales de mortalidad en el Anturane Reinfarction Trial (1980), que tienen en
cuenta a los individuos que fueron eliminados del análisis por ser considerados inelegibles
(ejemplo 23.6)
Mortalidad (%)
Grupo Grupo
sulfinpirazona placebo p*
223
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
cambio, si se analiza a todos los pacientes asignados, tratamiento produzca un beneficio, crea una falsa
las diferencias son menores y no significativas. impresión de eficacia. De hecho, entre los que tu-
Puede apreciarse, así mismo, que en el grupo pla- vieron la enfermedad, el tratamiento causó vómitos
cebo los sujetos inelegibles presentan una mortali- o náuseas en el 19% de los pacientes, y es de espe-
dad similar al resto de los sujetos (el 12,1 frente rar que entre los 255 que no tenían la infección por
al 10,9%), mientras que en el grupo tratamiento el virus de la influenza, el porcentaje de pacientes
esta mortalidad es tres veces superior (el 26,3 frente con efectos adversos sería similar, pero sin el bene-
al 8,3%). ficio que produce el tratamiento.
Como regla general, los pacientes que no cum- En los estudios de cohortes también pueden
plan con los criterios de elegibilidad y que se hayan presentarse este tipo de situaciones. Supongamos
incluido por error deben permanecer en el estu- que se evalúa la asociación entre la exposición a un
dio. Una excepción podría darse cuando el estable- factor de riesgo y un determinado tipo de cáncer.
cimiento de los criterios de inclusión y exclusión es Obviamente, ninguno de los sujetos debe presentar
difícil. En estas circunstancias, un comité ajeno al la enfermedad al inicio del estudio. Los casos en los
diseño y la ejecución del estudio, y que desconozca que se detecte el cáncer a los pocos meses de inicia-
a qué grupo ha sido asignado cada paciente y los re- do suelen ser excluidos del análisis, al considerar
sultados relacionados con la variable de respuesta, que la enfermedad ya estaba presente desde el prin-
podría valorar la información sobre los criterios de cipio, aunque en una fase todavía indetectable.
selección obtenida antes de la asignación.
En la segunda situación, también conviene in- C UMPLIMIENTO INSUFICIENTE
cluir a todos los sujetos en el análisis, incluso aun- CON LA INTERVENCIÓN
que después se demuestre que algunos no cumplan Si el objetivo de un estudio es comparar la eficacia de
los criterios de inclusión, ya que los resultados refle- dos pautas terapéuticas, puede parecer lógico no con-
jarán más fielmente lo que sucede en la práctica clí- siderar en el análisis a aquellos sujetos que no hayan
nica, donde los médicos, en algunos procesos agu- cumplido adecuadamente con la intervención asig-
dos, inician un tratamiento antes de disponer de nada. Sin embargo, esta actitud puede comprometer
toda la información diagnóstica. la validez interna.
Los fallos de cumplimiento pueden deberse al su-
Ejemplo 23.7. En un estudio que evaluó la efecti- jeto, a su médico habitual o al propio investigador,
vidad de un tratamiento frente al virus de la in- y pueden estar motivados por la aparición de efectos
fluenza, el fármaco debía administrarse durante las secundarios de las intervenciones, pérdida de inte-
primeras 48 horas después de haberse iniciado los rés en permanecer en el estudio o aparición de cam-
síntomas, que, en muchas ocasiones son indistin- bios en la situación del sujeto, entre otras razones.
guibles de los de otras infecciones (Treanor et al, La validez de las comparaciones entre cumplido-
2000). En el protocolo del estudio se especificaba res y no cumplidores para determinar el efecto de
que sólo se incluiría a los pacientes que dieran un un tratamiento asume que ambos grupos son simi-
resultado positivo a la infección en los cultivos o lares en todas las características, excepto en el cum-
pruebas serológicas. Se asignaron 629 pacientes, de plimiento de la intervención. Sin embargo, no sue-
los cuales 255 (40%) no dieron un resultado positi- le ser así.
vo en las pruebas diagnósticas de infección por el vi-
rus de la influenza. Los investigadores informaron Ejemplo 23.8. Al comparar los datos de los grupos
que en los 374 pacientes infectados, el tratamiento en tratamiento con clofibrato y con placebo del The
redujo la duración de la enfermedad en un 30%. Coronary Drug Project (1980), puede apreciarse
Sin embargo, el análisis en el que se tenía en cuen- que ambos grupos muestran cifras similares de
ta a los 629 pacientes inicialmente incluidos y asig- mortalidad a los 5 años. La técnica de medida utili-
nados a los distintos grupos de estudio mostró una zada fue el recuento de las cápsulas. Los pacientes
reducción del 22%, un resultado menos impactan- fueron clasificados como buenos cumplidores si
te. La exclusión retrospectiva de un número impor- habían tomado al menos el 80% de las cápsulas
tante de pacientes en los que no se espera que el prescritas. La mortalidad fue superior entre los no
224
SUJETOS A INCLUIR EN EL ANÁLISIS
cumplidores, incluso en el grupo placebo (28,2 cial establecida por la asignación aleatoria. Si se
frente 15,1%), evidenciando que se trataba de suje- incluyen en el grupo de educación sanitaria grupal,
tos de características diferentes de los cumplidores. aumenta la probabilidad de encontrar resultados
favorables a ella. En el grupo individual, al eliminar
Algunos autores proponen la eliminación de los a estos mismos pacientes, se disminuye el porcenta-
no cumplidores del análisis, argumentando que, je de pacientes controlados.
si no han seguido la intervención, no pueden bene- La mejor estrategia para manejar estas situacio-
ficiarse de ella. Sin embargo, ya que el cumplimien- nes es la de considerar a cada individuo en el grupo
to puede estar relacionado con la intervención, y al que ha sido asignado, con independencia de la
de hecho puede considerarse un efecto de ella, no intervención que haya recibido (análisis por inten-
se recomienda esta actitud. Si los no cumplidores ción de tratar).
son más frecuentes en uno de los grupos, puede
aparecer un sesgo en la comparación. Pero incluso Ejemplo 23.9. El Heart Protection Study (2002) tuvo
si el porcentaje es similar en ambos grupos, puede como objetivo evaluar si un tratamiento hipolipe-
ser debido a causas diferentes y afectar a un tipo di- miante podía reducir la morbilidad y la mortalidad
ferente de sujetos. cardiovascular en pacientes de alto riesgo, inde-
En algunas situaciones, cuando el estudio busca pendientemente de sus cifras de colesterol. Se in-
establecer si un tratamiento es eficaz cuando se ad- cluyó a 20.536 hombres y mujeres de 40-80 años de
ministra correctamente, puede utilizarse un perío- edad, con unas concentraciones plasmáticas de co-
do de preinclusión (run-in phase) que permita valo- lesterol total de al menos 3,5 mmol/l, siempre que
rar el cumplimiento de los candidatos, y que sólo tuvieran en un plazo de 5 años un riesgo considera-
aquellos que sobrepasen los criterios definidos sean ble de muerte a causa de unos antecedentes previos
incluidos y asignados aleatoriamente, de forma que de enfermedad coronaria, o enfermedad oclusiva de
las características relacionadas con el cumplimiento las arterias no coronarias, o diabetes, o hipertensión
sean distribuidas equitativamente en ambos grupos. tratada, o una combinación de estos factores. Esta
muestra fue distribuida aleatoriamente en dos gru-
S UJETOS QUE RECIBEN pos: uno de ellos recibió tratamiento hipolipemian-
UNA INTERVENCIÓN DIFERENTE te, y el otro, un placebo. Durante el seguimiento, el
DE LA ASIGNADA 17% de los pacientes asignados al grupo placebo
Supongamos que se desea evaluar si una determi- recibieron un tratamiento hipolipemiante debido a
nada estrategia de educación sanitaria grupal es efi- que sus médicos consideraron que sus concentracio-
caz como medida complementaria en el control de nes de colesterol habían aumentado lo suficiente
los pacientes diabéticos. Para ello se diseña un ensa- como para requerirlo. De todos modos, los investiga-
yo clínico aleatorio, en el que los pacientes diabéti- dores analizaron los datos de estos pacientes como si
cos del centro de salud que cumplen con determi- hubieran recibido un placebo, ya que ésta era la in-
nados criterios de selección son asignados a dos tención inicial del tratamiento.
grupos, uno de los cuales recibirá la nueva modali-
dad de educación sanitaria, y el otro, la individual O UTLIERS
habitual en la consulta. Puede ocurrir, y de hecho Un outlier es un valor aberrante o inusual en com-
ocurre, que algunos pacientes tengan conocimien- paración con el resto. Su inclusión en el análisis
to de la realización de los grupos de educación, y puede distorsionar los resultados, sobre todo en los
acudan a ellos, aunque hayan sido asignados al estudios con un número reducido de sujetos. Algu-
grupo de control. ¿Dónde se van a considerar estos nos autores recomiendan eliminar estos valores del
pacientes? En realidad, han recibido la interven- análisis. Sin embargo, sólo deberían eliminarse si
ción, por lo que parece lógico incluirlos en el gru- son claramente un error de medición, ya que, en
po de estudio. Sin embargo, habían sido asignados caso contrario, su exclusión podría alterar los resul-
al grupo de control. tados, despreciando la información de alguna situa-
Si del grupo control se elimina a los pacientes ción que puede ser muy interesante.
que acuden a la educación grupal, probablemente Es lícito argumentar que, si se utilizan pruebas
los más motivados, se rompe la comparabilidad ini- estadísticas paramétricas, los outliers tienen una gran
225
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
influencia. Como solución de compromiso en estos tudio que han recibido la intervención con los 80
casos, puede procederse al análisis con estos valores del grupo control que recibieron la atención habi-
y sin ellos. Si las conclusiones obtenidas en ambos tual. Sin embargo, hay que tener en cuenta que se
análisis son diferentes, los resultados deberán ser excluyen, del grupo de intervención grupal, 20 suje-
interpretados con mucha precaución. tos que podrían considerarse como los menos mo-
tivados para reducir peso, ya que rehúsan acudir a
los grupos, mientras que del grupo control se exclu-
MODALIDADES DE ANÁLISIS
ye a 10 sujetos que podrían considerarse muy mo-
DE UN ENSAYO CLÍNICO ALEATORIO
tivados, ya que acuden a los grupos de educación de
Dado que las pérdidas y retiradas difícilmente se forma espontánea. Por tanto, la exclusión de estos
producen al azar, cualquier exclusión de sujetos del 30 sujetos del análisis conduciría a una compara-
análisis puede alterar la comparabilidad de los gru- ción sesgada entre los grupos.
pos. Con el fin de preservarla, la única opción válida Otra posibilidad sería analizar a los sujetos se-
de análisis es evaluar a todos los pacientes incluidos gún la intervención que han recibido realmente,
en el estudio según el principio denominado aná- pero en este caso todavía se agravaría más el pro-
lisis según intención de tratar (intention-to-treat analysis) blema anterior.
o según asignación aleatoria (as-randomized), según el La asignación aleatoria ha formado dos grupos
cual se analiza a todos los pacientes como perte- de 90 sujetos, que son los que pueden considerarse
necientes al grupo al que fueron inicialmente asig- como comparables. Por ello, la única opción válida
nados, con independencia del tratamiento que es analizar a los sujetos según el grupo al que fue-
hayan recibido realmente o de cualquier desviación ron asignados.
del protocolo que se haya producido. Algunos auto-
res matizan la definición de este principio, inclu- Una alternativa diferente al análisis según inten-
yendo en el análisis tan sólo a los sujetos que han re- ción de tratar es la de comparar sólo a los pacientes
cibido al menos una dosis del tratamiento. que han sido asignados a un grupo, han recibido el
Aunque pueda parecer extraño analizar en un tratamiento correspondiente y han sido seguidos
grupo a sujetos que no han tomado el tratamiento hasta el final del estudio. Esta estrategia se conoce
asignado, o incluso que han recibido la interven- como análisis de casos válidos o según protocolo (per-
ción del otro grupo u otras medicaciones, si no se protocol). Aunque esta alternativa pueda parecer
siguiese el principio de intención de tratar, se com- más atractiva a primera vista, la exclusión de sujetos
prometería la comparabilidad de los grupos. De del análisis puede generar sesgos y conducir a con-
todas formas, si estas situaciones se producen en un clusiones erróneas, en especial, si estas situaciones
gran número de sujetos, el estudio debería ser con- se producen en las primeras fases del ensayo y en
siderado como no evaluable. mayor número en uno de los grupos, ya que no apa-
recen por azar. Si, por ejemplo, algunos sujetos de
Ejemplo 23.10. Supongamos un ensayo clínico que un grupo no finalizan el estudio porque presentan
evalúa la eficacia de una intervención educativa acontecimientos adversos, su exclusión del análisis
grupal para reducir peso en pacientes obesos, en conducirá, quizá, a un sesgo favorable al tratamien-
relación con la atención habitual que reciben estos to. Habitualmente se producen más retiradas por
sujetos, en el que se ha incluido a 180 pacientes, de acontecimientos adversos entre los pacientes que
los cuales 90 han sido asignados a cada uno de los reciben un tratamiento activo que entre los que re-
grupos. Una vez iniciado el estudio, 10 pacientes ciben placebo. También puede conducir a sesgos la
del grupo control manifiestan su deseo de recibir la exclusión de sujetos que no finalizan el estudio por-
intervención grupal y acuden a las sesiones. Por que se han curado, o porque han requerido un tra-
otro lado, entre los individuos asignados a la inter- tamiento adicional por ineficacia de la interven-
vención grupal, 20 no acuden a ninguna de las se- ción recibida.
siones a pesar de que habían dado su consenti- Por todo ello, la estrategia de análisis de un en-
miento para participar en el estudio. sayo clínico debe ser la de intención de tratar. En
Una posibilidad sería excluir a estos sujetos del determinadas circunstancias pueden aceptarse eva-
análisis, comparando los 70 sujetos del grupo de es- luaciones secundarias, en las que se excluyan algu-
226
SUJETOS A INCLUIR EN EL ANÁLISIS
227
Capítulo 24
Preparativos para la puesta en marcha
ara que un estudio se ejecute de forma correc- del estudio. En este documento se definen de
228
PREPARATIVOS PARA LA PUESTA EN MARCHA
229
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
estudios llevados a cabo en el mismo centro o por el tudio y del sujeto, debe recogerse la información
mismo profesional. que permite comprobar que el candidato cumple
Es preferible utilizar un CRD para cada indivi- con los criterios de inclusión y exclusión exigidos
duo (o unidad de estudio), lo que facilita el poste- (fig. 24.1).
rior manejo de los datos. Debe identificarse a cada A continuación, deben indicarse las exploracio-
sujeto en todas las hojas, habitualmente mediante nes que delimiten el estado inicial del sujeto y, pos-
un número secuencial. Ello evita confusiones y per- teriormente, el resto de las variables en orden cro-
mite verificar posteriormente algunos datos y locali- nológico. Deben agruparse los ítems por visitas y
zar al paciente si es necesario su seguimiento. Sin evitar tener que retroceder varias hojas para anotar
embargo, no debe olvidarse la confidencialidad de algún dato durante una visita.
la información contenida en estos documentos. Las páginas deben ser espaciosas, con conteni-
Puede ser útil mantener un fichero separado en el dos distribuidos ampliamente y bien alineados. De-
que consten sus datos de identificación. ben resaltarse los encabezamientos y los aspectos
El CRD debe seguir la secuencia en que los datos más importantes con caracteres tipográficos de di-
serán recogidos. Después de la identificación del es- verso tamaño o subrayándolos. Incluso puede ser
Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . años x _ x _ x
Teléfono . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x _ x _ x _ x _ x _ x _ x _ x _ x _ x
B. CRITERIOS DE INCLUSIÓN
SÍ NO
C. CRITERIOS DE•EXCLUSIÓN
Figura 24.1. Ejemplo de hoja de recogida de datos. Identificación del sujeto y criterios de selección.
230
PREPARATIVOS PARA LA PUESTA EN MARCHA
aconsejable utilizar algún tipo de ilustración. Hay ma posición, y ajustar las cifras por la derecha. De-
que evitar el uso de abreviaturas no habituales. be tenerse un cuidado especial en la señalización
Si existen varias páginas, éstas deberían estar de los puntos decimales. Es preferible sobreesti-
identificadas con un sistema de acceso rápido me- mar que infraestimar el número de dígitos necesa-
diante indicaciones del número de visita, o bien uti- rios. No es conveniente categorizar variables con-
lizar hojas, o indicadores de diferentes colores. tinuas que pueden recogerse directamente, por
Es conveniente que el CRD especifique todas las ejemplo, la edad.
instrucciones y codificaciones necesarias para su – Fechas. Las fechas suelen introducirse con el for-
cumplimentación. Además de facilitar la recogida mato día/mes/año. Hay que asegurarse de que el
de datos, puede ser un complemento importante programa informático permita trabajar con fechas
del protocolo, al incluir una lista de los criterios de en este formato.
inclusión y exclusión, o de las exploraciones que – Datos no precodificados porque existen demasiadas
deben realizarse en cada visita. respuestas posibles; por ejemplo, otros procesos
concomitantes, tratamientos previos, etc. Si se
P RECODIFICACIÓN desea procesar esta información automáticamen-
Debe facilitarse el procesamiento de los datos. Lo te, deberá establecerse una fase intermedia de co-
ideal es un documento precodificado en el que el dificación de las respuestas obtenidas.
investigador deba escribir lo menos posible. No de-
be obligarse a las personas que recogen los datos a Es aconsejable utilizar el mismo código para las
hacer cálculos antes de codificarlos, sino que es pre- no respuestas en todas las variables. En cualquier
ferible entrar los datos brutos y hacer los cálculos di- caso, deben evitarse los espacios en blanco que pue-
rectamente en la fase de análisis. dan indicar tanto la ausencia de respuesta como
Sin embargo, una recogida completamente pre- que ésta no ha sido valorada, no ha sido considera-
codificada tiene el inconveniente de que pueden no da relevante o se ha olvidado.
reflejarse aspectos relevantes. Este problema se evita Si bien el CRD ha de ser autoexplicativo y conte-
dejando algún espacio para comentarios y observa- ner las instrucciones necesarias para su cumpli-
ciones, que, aunque a priori puedan parecer inne- mentación, no debe sustituir al manual de procedi-
cesarias, después pueden resultar de interés. mientos que explique detalladamente cómo debe
Pueden identificarse diferentes tipos de datos recogerse toda la información, e incluya las defini-
precodificados: ciones de las variables, las instrucciones para los
investigadores y el circuito que debe seguir la infor-
– Datos alfanuméricos que deben escribirse completa- mación recogida.
mente (p. ej., nombre y apellidos).
– Datos dicotómicos. Preferiblemente debe utilizarse
FORMACIÓN DEL PERSONAL
una codificación numérica (1: sí / 2: no), evitando
el dígito 0 para no confundirlo con los datos ausen- La calidad de los datos depende en gran medida de
tes. Puede ser útil prever un código para la res- la persona que los recoge, de su experiencia, su co-
puesta «no se sabe», que idealmente debe ser el nocimiento del protocolo, su motivación por el es-
mismo para todas las variables. Los códigos de las tudio y su meticulosidad. La persona más cualificada
respuestas deben ser consistentes en todas las pre- para recoger los datos no es necesariamente la más
guntas. Es decir, si en una pregunta con dos posi- competente desde el punto de vista profesional.
bles opciones de respuestas, éstas se han codificado Muchos investigadores prestan poca atención a
como 1 = sí y 2 = no, en las siguientes preguntas di- la recogida de datos porque la consideran tediosa y
cotómicas se han de respetar los mismos códigos. menos estimulante desde el punto de vista intelec-
– Respuestas múltiples. Deberían ser mutuamente ex- tual que las fases de diseño y análisis. En conse-
cluyentes y contemplar todas las situaciones posi- cuencia, las conclusiones de un estudio bien
bles. Si no son excluyentes, es preferible desagre- diseñado pueden ser poco válidas por la existencia
gar las respuestas y considerarlas como variables de errores en los datos recogidos.
aisladas. Debe recogerse información sobre todas las
– Datos numéricos. Es aconsejable que las centenas, variables consideradas de interés, de forma
las decenas y las unidades ocupen siempre la mis- homogénea por todos los investigadores, para
231
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
todos los sujetos y durante todo el estudio. Para C ONTACTAR CON EL PARTICIPANTE
ello, se requiere una definición clara de las varia- En el contacto inicial, la persona que recoge los datos
bles, de la fuente de datos, del instrumento de debe presentarse, identificarse, indicar la institución
medida y de las codificaciones utilizadas, que que promueve la investigación y explicar sus objetivos.
deben estar especificadas en el protocolo y/o El entrevistador debe estar preparado para res-
manual de procedimientos, y la formación adecua- ponder a las preguntas más habituales que le pue-
da de las personas que participarán en la recogida. den formular: ¿cómo me seleccionaron?, ¿quién le
La primera estrategia es elegir un número redu- dio mi nombre?, ¿para qué sirve todo esto?, ¿qué
cido de personas adecuadas y entrenarlas correcta- más tendré que hacer?, ¿cómo sé que estos datos
mente. Las sesiones de formación y entrenamiento son confidenciales?, ¿por qué quiere saber todo es-
de los investigadores y personas que participen en to?, ¿qué van a hacer con todas estas respuestas?
la recogida de la información para promover su ho-
mogeneidad son cruciales, sobre todo en estudios F ORMULAR LAS PREGUNTAS
de gran tamaño. Debe discutirse con ellos la impor- Para aumentar la homogeneidad de la recogida de
tancia de una recogida exhaustiva y exacta de los datos, es importante que quienes la llevan a cabo
datos. De la misma forma, deben calibrarse y vali- dispongan de instrucciones precisas y detalladas
darse los instrumentos de medida. sobre cómo formular las preguntas y clarificar las
respuestas (tabla 24.2). Se debe explicar la necesi-
Ejemplo 24.1. Supongamos que se desea realizar un dad de una estricta estandarización en los métodos
estudio sobre pacientes con demencia. Dada la difi- de entrevista. Cada pregunta se ha de formular tal y
cultad que entraña el diagnóstico de la enferme- como está en el cuestionario, sin interpretaciones
dad, existe mucha variabilidad entre los profesio- subjetivas o aclaraciones adicionales, ya que
nales. Para mejorar las habilidades y homogeneizar pequeñas variaciones pueden comportar cambios
los criterios diagnósticos, se decide utilizar una en el significado de la pregunta.
estrategia de formación y entrenamiento, en la que Cuando un participante no entienda una pre-
se incluye a actores que simulan ser pacientes con gunta, el encuestador deberá repetirla nuevamente
demencia. Se graban las entrevistas, y se debaten
con los investigadores para corregir los errores y
homogeneizar los criterios.
Tabla 24.2. Recomendaciones para la recogida
de datos mediante un cuestionario
Ejemplo 24.2. En un estudio sobre el tratamiento de
la hipertensión arterial, se instruyó a los profesiona-
• Leer las preguntas exactamente como están
les que recogían los datos en las técnicas para loca-
formuladas en el cuestionario
lizar la arteria braquial, aplicar el manguito de pre-
sión, insuflar y desinsuflar el manguito, y reconocer • Leer despacio cada una de las preguntas
los sonidos que indican la presión arterial diastóli- • Usar una entonación correcta
ca. Además, se les realizó una prueba teórica escrita • Preguntar las cuestiones en el orden en que están
sobre los contenidos del manual de procedimien- en el cuestionario
tos y una prueba práctica de la toma de la presión
• Preguntar sólo las cuestiones que afectan
arterial (Siegel et al, 1987). a los participantes
Si los datos que se han de recoger son muy obje-
tivos (p. ej., los resultados de una analítica), la for- • Repetir en su totalidad una pregunta que haya
mación debe ir dirigida principalmente al registro sido malinterpretada por un participante
cuidadoso y detallado de los datos. Si el estudio re- • Usar sólo las frases permitidas para clarificar
quiere la recogida de información mediante en- respuestas
cuestas o entrevistas, quienes las hayan de realizar • Leer las frases que enlazan bloques de preguntas
deberán someterse a una formación y entrena- como están impresas en el cuestionario
miento específicos sobre cómo contactar con el su- • No dar explicaciones por propia cuenta, a menos
jeto, cómo formular las preguntas y cómo clarificar que estén escritas en el cuestionario
y registrar las respuestas.
232
PREPARATIVOS PARA LA PUESTA EN MARCHA
233
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tipo de preguntas es conveniente usar alguna frase detectar datos ficticios, ítems con poca fiabilidad,
aclaratoria como: «antes me dijo algo sobre esta encuestadores que se equivocan sistemáticamente
cuestión, pero no he tenido tiempo de anotarlo, ¿le en las mismas preguntas, etc. También es útil com-
importaría repetirlo?», y, a continuación, formular parar los datos recogidos por los distintos observa-
la pregunta tal y como está en el cuestionario. dores para ver si difieren sistemáticamente.
En ocasiones, la comparación de la evolución de
las medidas de variabilidad de la variable de res-
CONTROL DE CALIDAD DE LOS DATOS
puesta a medida que avanza el estudio puede per-
Ya que las conclusiones del estudio se basarán en el mitir apreciar un progresivo deterioro en la fiabili-
análisis de los datos recogidos, hay que prever me- dad de las mediciones.
canismos para asegurar su calidad. Las estrategias Todos estos mecanismos de control de la calidad
para mejorarla pueden aplicarse en distintas fases de los datos son más valiosos cuando existe una es-
del proyecto: trecha relación con los profesionales que los reco-
gen, intentando solucionar los problemas a medida
– En el diseño, elaborar un manual detallado y preci- que se detectan. Deben realizarse reuniones para
so de todos los procedimientos que se emplearán reentrenar a las personas que recogen los datos, dis-
y un instrumento adecuado para la recogida de cutir los problemas que hayan aparecido y mante-
los datos. ner la motivación.
– En las fases previas al inicio de la recogida, formar a
las personas responsables. S UPERVISIÓN DE LOS RESPONSABLES
– Durante la recogida, supervisar el proceso y contro- DE LA RECOGIDA DE DATOS
lar la exhaustividad y la calidad de los datos. Además de la formación inicial, los responsables
– Durante su manejo, asegurar su correcta codifica- del estudio deben seguir la evolución de las perso-
ción y proceso informático. nas que recogen los datos de la siguiente forma:
C ONTROL DE CALIDAD DE LOS DATOS – Supervisar todos y cada uno de los CRD. Cuando se
DURANTE LA RECOGIDA detecten errores se darán a conocer al entrevista-
Durante la realización del estudio, la verificación dor para que los corrija. El principal inconve-
de los datos permitirá detectar inexactitudes, erro- niente de esta estrategia es que consume mucho
res u omisiones, datos incorrectamente recogidos o tiempo.
resultados dudosos o improbables. Este proceso de- – Buscar posibles variaciones de un encuestador a otro. Si
be realizarse de forma simultánea a la recogida la población es similar y se observan resultados
de datos para permitir la recuperación o la rectifi- diferentes entre los entrevistadores querrá decir
cación de la información. que se está introduciendo un error sistemático. Es
Antes de dar por finalizada cualquier visita o en- el momento de detener el estudio y volver a insis-
trevista con un participante, debe comprobarse que tir en la necesidad de estandarizar los métodos.
se han recogido todos los datos. No debería archi- – Impartir durante el estudio alguna sesión de recuerdo
varse ningún CRD que no estuviera completo. Si los complementada con entrevistas supervisadas. El princi-
datos ausentes o no registrados son frecuentes, pue- pal inconveniente de esta estrategia es su coste.
den producir un sesgo en las conclusiones. Si se re- Sin embargo, permite que los encuestadores re-
quiere la utilización de instrumental, éste debe revi- fresquen conceptos y se den cuenta de la impor-
sarse periódicamente, aunque haya sido calibrado tancia de seguir con fidelidad las instrucciones. El
inicialmente. Por ejemplo, si se mide la presión ar- simple hecho de saber que los responsables del
terial con esfigmomanómetros aneroides, deben estudio controlan la calidad de las encuestas hace
compararse regularmente con uno de mercurio. Lo que los entrevistadores se esfuerzen en seguir fiel-
mismo ocurre si se almacena material que puede mente el manual de instrucciones.
deteriorarse con el tiempo (p. ej., tiras reactivas), y
prever las condiciones necesarias de almacenaje. P ROCESAMIENTO DE LOS DATOS
Otra estrategia útil es la de volver a entrevistar a Previamente a la introducción de los datos, un
una muestra de los participantes en el estudio para miembro del equipo investigador debe revisar los
234
PREPARATIVOS PARA LA PUESTA EN MARCHA
CRD para detectar errores u omisiones de informa- obtención de datos (p. ej., la existencia de determi-
ción o problemas de legibilidad y, si aparecen, in- nada información en la historia clínica), evaluar la
tentar corregirlos con las instrucciones del manual reproducibilidad de algunas mediciones, la validez
de procedimientos; por ejemplo, llamar a los parti- y la fiabilidad de un instrumento de medida o un
cipantes, consultar a los profesionales que han re- cuestionario, etc.
gistrado los datos o verificarlos a partir de registros Antes de iniciar el estudio, puede ser convenien-
clínicos. te poner a prueba todos los procedimientos de re-
Es conveniente entrar los datos poco tiempo clutamiento y medición y, en general, los aspectos
después de haberse recogido y de haber comproba- organizativos y logísticos del estudio, en un ensayo
do su veracidad. También existen mecanismos para general, en el que se incluyan individuos que cum-
verificar los datos a medida que se introducen. Uno plen los criterios de selección. Aunque en el papel
de los más útiles es la doble entrada, que consiste puede parecer un protocolo que no tenga proble-
en introducir dos veces cada uno de los registros, mas de ejecución, en la práctica pueden aparecer
con el fin de comparar ambas versiones y detectar multitud de dificultades que deberán subsanarse
inconsistencias. Otro es el de utilizar programas in- antes de iniciar el estudio.
formáticos que impiden introducir valores de una La muestra de personas que participa en la
variable fuera del rango previamente definido o prueba piloto ha de tener características similares a
dejar sin informar determinados campos. la que se incluirá en el estudio. Habitualmente, su
A medida que se introducen los datos, deben re- tamaño es de 30-50 sujetos. En la tabla 24.3 se enu-
visarse periódicamente las distribuciones de las va- meran los pasos a seguir en la prueba piloto y el
riables para verificar errores en su entrada, buscar desarrollo de la versión final del CRD.
valores extremos o ilógicos y corregirlos. Los datos
registrados incorrectamente pueden llegar a ser in-
detectables. La única solución es evitar, en la medida Tabla 24.3. Pasos a seguir en la prueba
de lo posible, que aparezca este tipo de problemas. piloto y el desarrollo de la versión
Hay que evaluar la coherencia de los datos. Por ejem- final del cuaderno de recogida
plo, no pueden anotarse pulsos periféricos simétri- de datos (CRD)
cos en extremidades inferiores en una persona con
antecedentes de amputación, ni pueden detectarse 1. Solicitar a los colegas la revisión del CRD
cambios de gran magnitud en el peso de una perso-
na entre dos visitas próximas. También deben corro- 2. Evaluar el CRD en una muestra de conveniencia
borarse los valores improbables obtenidos en explo- 3. Revisar las instrucciones para el uso del CRD
raciones o exámenes complementarios. 4. Entrenar a los responsables de la recogida
de datos para la prueba piloto
PRUEBA PILOTO 5. Realizar una prueba piloto en una muestra
de 30-50 sujetos de características similares a la
El número de pruebas piloto y sus características población de estudio
dependerán de la naturaleza y la envergadura del
6. Recoger las opiniones de los responsables
estudio. Su finalidad es poner a prueba los métodos
de la recogida de datos y participantes,
y procedimientos del estudio para conseguir un
preferiblemente por escrito
protocolo que garantice que se podrá responder a
la pregunta de investigación. Pueden hacerse estu- 7. Revisar las preguntas que presentan alguna
dios piloto para poner a prueba, principalmente, dificultad
los métodos de reclutamiento de sujetos, de medi- 8. Realizar una nueva prueba piloto y revisar
ción de variables y de gestión de datos. Pueden pro- el CRD
porcionar estimaciones sobre el número de sujetos 9. Preparar las instrucciones revisadas y entrenar
disponibles y dispuestos a participar, la eficiencia de a los responsables de la recogida de datos
diferentes métodos de reclutamiento o sobre las 10. Monitorizar las primeras fases de administración
que basar el cálculo del tamaño de la muestra, así del CRD
como evaluar la factibilidad de algún método de
235
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
B IBLIOGRAFÍA DE LOS EJEMPLOS tice: causes and implications. J Health Serv Res Policy
Siegel D, Culler L, Lazarus NP et al. Predictors of cardiovas- 1996; 1: 77-80.
cular events and mortality in the Systolic Hipertension in Gassman JJ, Owen WW, Kuntz TE, Martin JP, Amoroso WP.
the Elderly Pilot Project (SHEP). Am J Epidemiol 1987; Data quality assurance, monitoring and reporting. Con-
126: 385-399. trol Clin Trials 1995; 16 (2 Supl.): 104S-136S.
Knatterud GL. Management and conduct of randomized
B IBLIOGRAFÍA controlled trials. Epidemiol Rev 2002; 24: 12-25.
Caloto T. Multicentre Project for Tuberculosis Research Stu- Rebagliato M, Ruiz I, Arranz M. Metodología de investiga-
dy Group. Quality control and data-handling in multi- ción en epidemiología. Madrid: Díaz de Santos, 1996.
centre studies: the case of the Multicentre Project for Tu- Whitney CW, Lind BK, Wahl PW. Quality assurance and qua-
berculosis Research. BMC Med Res Methodol 2001; lity control in longitudinal studies. Epidemiol Rev 1998;
1 (1): 14. 20: 71-80.
Fairhurst K, Dowrick C. Problems with recruitment in a ran-
domised controlled trial of counselling in general prac-
236
Capítulo 25
Solicitud de ayuda
para la financiación
a mayoría de los proyectos o protocolos de in- ción. En estos casos, además del protocolo de estu-
237
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Para elaborar una solicitud de ayuda de financia- Tabla 25.1. Elementos de una solicitud
ción no es necesario tener un protocolo de estudio de ayuda para un proyecto
totalmente finalizado que contenga todos los detalles de investigación al Fondo de
del estudio. No se trata de extenderse en detalles Investigación Sanitaria
metodológicos y definiciones operativas, sino de ex-
poner la estructura general del diseño con el fin de 1. Identificación del proyecto
que la agencia pueda evaluar si el tratamiento meto- 2. Resumen estructurado
dológico es correcto y permitirá obtener una res-
puesta válida y fiable. 3. Antecedentes y estado actual del tema
En la tabla 25.1 se presentan los principales ele- 4. Bibliografía más relevante
mentos que contempla la solicitud de una ayuda del • Señalar sólo aquella más fundamental
Fondo de Investigación Sanitaria a un proyecto de y comentarla
investigación. Los contenidos metodológicos de la 5. Objetivos concretos
solicitud se han de exponer de forma escueta, y deben
6. Razones que justifican la necesidad
quedar especialmente claros el objetivo y la pregunta
de coordinación.
o preguntas concretas que se quieren responder, así • Sólo en proyectos coordinados
como la arquitectura básica del estudio. Los apartados
de experiencia del equipo investigador y de medios 7. Aplicabilidad y utilidad práctica de los
necesarios y disponibles están destinados a evaluar la resultados previsibles en el área de la salud
idoneidad y la capacidad del equipo para poder llevar 8. Hipótesis, metodología y plan de trabajo
a cabo el estudio. La investigación requiere una dedi- • Incluir sujetos de estudio, diseño, variables,
cación sustancial, sin la cual es improbable la obten- recogida y análisis de datos, dificultades
ción de logros importantes, por lo que es necesario y limitaciones del estudio y etapas
que los equipos tengan el personal y la dedicación de su desarrollo
suficientes. De la misma forma, la mayoría de agencias 9. Experiencia del equipo investigador sobre
no ven favorablemente que un mismo investigador el tema
participe en múltiples proyectos de forma simultánea. • Reseñar los logros alcanzados en los últimos
La ayuda solicitada debe justificarse con detalle, 5 años
teniendo en cuenta que sólo podrán solicitarse con- 10. Instalaciones, instrumentación y técnicas
ceptos directamente relacionados con el proyecto y disponibles para la realización del proyecto
sólo, excepcionalmente, personal técnico y auxiliar.
11. Otros medios necesarios no disponibles
Conjuntamente con la memoria del proyecto debe
enviarse el compromiso del organismo que gestiona 12. Justificación detallada de la ayuda solicitada:
el centro o centros donde se realizará el estudio, así • Personal
como la composición del equipo investigador y un • Instalaciones y equipos
currículum normalizado de cada uno de sus miem- • Material fungible
bros. La mayoría de las agencias exigen que algún • Viajes y dietas
miembro del equipo investigador ostente la función • Otros gastos
de investigador principal, que será quien dirija los 13. Otras consideraciones que se desee hacer
esfuerzos y asuma el compromiso con la agencia fi- constar
nanciadora. Además, algunas agencias solicitan que la 14. Posibilidad de que la investigación propuesta
propuesta se acompañe de un informe del Comité conduzca a patentes u otros resultados
Ético de Investigación Clínica que avale el proyecto. explotables comercialmente
Hay que tener presente que cada agencia finan- 15. Financiación del equipo investigador
ciadora tiene su propio modelo de solicitud, a veces • Reseñar los proyectos con participación de
con exigencias específicas. Por tanto, lo primero es miembros del equipo investigador que hayan
decidir a qué agencia se solicitará la ayuda, y a con- recibido financiación en los últimos 3 años,
tinuación obtener un modelo de solicitud y de las e indicar la entidad financiadora
instrucciones para su cumplimentación. Si no se
238
SOLICITUD DE AYUDA PARA LA FINANCIACIÓN
tiene mucha experiencia, es de gran utilidad con- tener derecho de réplica si considera que su trabajo
sultar con profesionales que la tengan y disponer de no se ha valorado de forma adecuada.
una propuesta modelo que ilustre de manera con- Los evaluadores de los proyectos han de ser impar-
creta el formato y el contenido de cada uno de los ciales, evaluar el contenido científico y sus méritos o
apartados. defectos intrínsecos desde una postura de máxima
Antes de escribir la versión final, es conveniente neutralidad. Tampoco deben tener ningún conflicto
que la propuesta sea revisada por colegas que estén de intereses con los proyectos que se evalúan. Así, por
familiarizados con este proceso. Es mejor tener críticas ejemplo, un evaluador no debería revisar un proyecto
inteligentes y detalladas antes de presentar la propues- presentado por él mismo o por compañeros de traba-
ta que tener que aceptar que ésta sea rechazada por jo, o proyectos en los que tenga intereses económicos
problemas de forma, por una presentación poco per- o financieros, o que sean presentados por grupos
suasiva o porque no prevé soluciones a problemas competidores en su misma línea de investigación. La
potenciales. documentación que se entrega a los evaluadores para
revisión es confidencial y no debe ser divulgada ni uti-
lizada en beneficio propio, por ejemplo, para antici-
EVALUACIÓN DE LAS SOLICITUDES
parse en el desarrollo de una idea.
DE AYUDAS PARA LA FINANCIACIÓN
Por otro lado, el evaluador debe ser competente
El propósito de la evaluación es asegurar que se cum- científica y técnicamente, y estudiar a fondo el proyec-
plen los requisitos éticos, la calidad científica del pro- to con el fin de formular el dictamen con criterio. No
yecto y su viabilidad, es decir, la capacidad para llevar debe tomar decisiones rápidas ni caprichosas, ni ofen-
a cabo el estudio en las condiciones con las que se der a los autores. Las críticas al proyecto deben efec-
cuenta, tratando de evitar que se pongan en marcha tuarse con corrección y profesionalidad, sin valoracio-
iniciativas con una alta probabilidad de fracaso o nes peyorativas de la capacidad de los investigadores.
abandono. A continuación se comentan los principales aspec-
La evaluación de un proyecto incluye tanto la revi- tos que tienen en cuenta los evaluadores en cada uno
sión de cada uno de los apartados de la propuesta de los apartados de la solicitud.
como los aspectos formales de la solicitud. El princi-
pal requerimiento formal es la presencia de toda la A NTECEDENTES Y ESTADO ACTUAL
documentación solicitada. La falta de algún docu- DEL TEMA
mento impedirá que un proyecto llegue a la etapa de Este apartado permite a los evaluadores determinar el
revisión científica. Aunque pueda parecer poco razo- grado de conocimiento de los investigadores de la cues-
nable denegar una ayuda a un proyecto por defectos tión de estudio, así como la pertinencia del proyecto.
de forma, parece existir una relación directa entre la Esta sección debe redactarse de forma escueta y
calidad científica del proyecto y su adecuada presen- precisa, y ha de estar orientada hacia las hipótesis de
tación en tiempo y forma. trabajo. Los investigadores deben presentar los co-
Actualmente, el principal mecanismo de control nocimientos principales existentes en el campo de
de la calidad de un proyecto de investigación es su investigación y qué preguntas quedan por responder.
revisión por expertos independientes, proceso cono- La descripción de generalidades y la falta de concre-
cido como revisión por pares (peer-review), que juzgan ción de los problemas que quedan por resolver pue-
su pertinencia y si cumple los requisitos mínimos de den indicar que los investigadores no están muy fami-
calidad para alcanzar sus objetivos. Este sistema liarizados con la materia, aunque ello no signifique
de revisión no está exento de errores, sobre todo necesariamente una falta de competencia en la prác-
cuando se ha de revisar un número elevado de pro- tica clínica.
yectos en un tiempo limitado. Para minimizar estos
errores, conviene que cada proyecto sea revisado por B IBLIOGRAFÍA MÁS RELEVANTE
al menos dos expertos de forma independiente y, en Esta sección sirve de apoyo a la anterior; en ella de-
caso de discrepancias, resolverlas mediante el consen- ben constar los artículos más relevantes, siempre rela-
so entre revisores o recurrir a un tercer revisor. Así cionados con la hipótesis de trabajo, que pueden ayu-
mismo, el investigador que presenta el proyecto debe dar a llevar a cabo el proyecto.
239
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
240
SOLICITUD DE AYUDA PARA LA FINANCIACIÓN
de sus miembros deben quedar claramente estableci- mental de estos comités consiste en salvaguardar los
das. La composición del equipo debe reflejar las derechos y el bienestar de los seres humanos que son
necesidades del proyecto, con expertos en las técni- objeto de investigación, haciendo respetar los princi-
cas que se van a utilizar durante su realización. pios éticos establecidos. Por ello, lo deseable es que
Un equipo consolidado y con experiencia aumen- estos comités puedan evaluar cualquier proyecto de
ta las probabilidades de completar de forma satisfac- investigación que implique la participación de seres
toria el proyecto. La presencia de investigadores con humanos, y no sólo de los ensayos clínicos con medi-
experiencia es imprescindible cuando el investigador camentos.
principal carece de ella. En la práctica, es difícil deslindar los problemas
éticos de los científicos, ya que un protocolo incorrec-
I NSTALACIONES, INSTRUMENTACIÓN tamente diseñado plantea, por definición, problemas
Y TÉCNICAS éticos. Los CEIC deben valorar los aspectos meto-
El evaluador juzga si la disponibilidad de medios ma- dológicos, éticos y legales del protocolo propuesto, así
teriales de los investigadores, tanto de los existentes como el balance de riesgos y beneficios. Para ello, a
como de los solicitados, es suficiente para realizar el diferencia de lo que sucede cuando se solicita una
proyecto. ayuda para la financiación de un proyecto, los investi-
gadores deben presentar al CEIC el protocolo com-
J USTIFICACIÓN DETALLADA pleto del estudio, incluyendo el cuaderno de recogida
DE LA AYUDA SOLICITADA de datos y todos los anexos que sean necesarios. El
Los evaluadores han de revisar el presupuesto solici- protocolo del ensayo clínico debe adaptarse a la
tado, juzgar si se ajusta a la envergadura del proyecto, estructura que se presenta en la tabla 25.2.
y si existe algún valor añadido que pueda aportar a la
institución, como la consolidación de un grupo inves-
tigador y el fomento de relaciones entre institucio- Tabla 25.2. Apartados de un protocolo
nes, entre otros. de ensayo clínico
El personal contratado con cargo al proyecto se
refiere a profesionales que se están formando como 1. Resumen
investigadores y no, por ejemplo, a personal auxiliar
2. Índice
para recoger datos o realizar tareas administrativas.
Por tanto, debe tratarse de proyectos de cierta enver- 3. Información general
gadura que justifiquen la necesidad de uno o más 4. Justificación y objetivos
becarios, solicitados por equipos que tengan expe- 5. Tipo de ensayo clínico y su diseño
riencia en la formación de personal investigador.
6. Selección de los sujetos
Difícilmente se considera que un proyecto de corta
duración permita la formación de un investigador. 7. Descripción del tratamiento
En cuanto a las instalaciones y los equipos, el 8. Desarrollo del ensayo y evaluación
material fungible, los viajes, las dietas y otros gastos de la respuesta
sólo deberán solicitarse si son relevantes para el desa- 9. Acontecimientos adversos
rrollo del estudio.
10. Aspectos éticos
11. Consideraciones prácticas
EVALUACIÓN DE UN PROTOCOLO
12. Análisis estadístico
POR UN COMITÉ ÉTICO
DE INVESTIGACIÓN CLÍNICA Anexo 1. Cuaderno de recogida de datos
En España, los proyectos de investigación correspon- Anexo 2. Manual del investigador
dientes a ensayos clínicos con medicamentos deben Anexo 3. Procedimientos normalizados de trabajo
ser aprobados por el Comité Ético de Investigación
Anexo 4. Memoria analítica de las muestras
Clínica (CEIC), ya sea el de la propia institución o el a utilizar
que actúe como comité de referencia. El papel funda-
241
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
242
Capítulo 26
Interpretación de resultados
245
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Verdadera Verdadera
(existe asociación) (no existe asociación)
Útil
Error α
(azar) Error β Comparación
(azar) poco sensible
Sesgo Figura 26.1.
Aspectos a considerar
Número insuficiente de sujetos en la interpretación de
(falta de potencia estadística) Sesgo los resultados
de un estudio.
incluya el verdadero valor de la prevalencia de HTA que deban descartarse, como sesgos o factores de
en la comunidad de referencia. confusión no controlados.
Por otro lado, un resultado estadísticamente no
En los estudios en los que se comparan dos o más significativo quiere decir que, si en realidad no existe
grupos, el resultado que se obtiene es una diferencia ninguna diferencia, es relativamente probable que el
de incidencias o de medias, o bien una medida relati- resultado observado en el estudio pueda haberse pro-
va de asociación como la odds ratio o el riesgo relativo. ducido simplemente por variabilidad aleatoria. No
En este caso, la estadística también permite cuantifi- debe interpretarse como indicativo de que no existe
car la precisión con que se ha estimado esta diferen- una diferencia en la realidad, sino tan sólo de que los
cia o asociación, mediante un IC, así como determi- resultados del estudio no permiten descartar esta
nar si este resultado es estadísticamente significativo posibilidad. En esta situación, es importante determi-
mediante la utilización de una prueba estadística de nar la potencia estadística del estudio, es decir, su
contraste de hipótesis. capacidad para haber detectado una determinada
Un resultado estadísticamente significativo signi- diferencia si existiera en la realidad.
fica que, si en realidad no existe ninguna diferencia,
es poco probable que el resultado observado en el Ejemplo 26.2. Supongamos un estudio que compara
estudio se deba simplemente a la variabilidad aleato- un grupo de sujetos con hipercolesterolemia que reci-
ria, lo que conduce a la conclusión de que quizá refle- ben un tratamiento hipolipemiante frente a otro gru-
ja una diferencia real entre los grupos. Sin embargo, po que no recibe ninguna intervención. Se observa
no debe interpretarse que necesariamente el factor que el primer grupo ha reducido sus cifras de coleste-
de estudio sea el responsable de esta diferencia, rolemia en 10 mg/dl más que el grupo de compara-
ya que pueden existir otras explicaciones alternativas ción. Tras aplicar una prueba estadística de contraste
246
INTERPRETACIÓN DE RESULTADOS
de hipótesis, se concluye que este resultado es estadís- pia para una ligadura de trompas. En este grupo con-
ticamente significativo (p = 0,03), lo cual quiere decir trol sólo se diagnosticó endometriosis en cuatro
que, en el supuesto de que el tratamiento no fuera efi- mujeres. El valor de la odds ratio fue de 13. Se puede
caz, existiría un 3% de probabilidades de producirse argumentar que la información sobre la endometrio-
una diferencia como la observada o mayor, simple- sis no es comparable en los casos y en los controles, ya
mente por azar. Dado que puede considerarse que que no es lo mismo buscar este proceso cuando la
esta probabilidad es pequeña, se concluye que la laparoscopia se realiza a causa de infertilidad que
mayor reducción de la colesterolemia en el primer cuando se hace por ligadura de trompas. Probable-
grupo de sujetos refleja una diferencia real. Sin mente, en el primer caso se busca con más insisten-
embargo, no puede asegurarse que el tratamiento sea cia, lo que da lugar a un sesgo de información que
el responsable de dicha diferencia, sino que deberá sobrevalora la asociación. De todos modos, si se corri-
evaluarse si el diseño del estudio era adecuado, si los giera este sesgo es muy probable que esta fuerte aso-
grupos eran comparables, si la estrategia de análisis ha ciación disminuyera, pero no que desapareciese en
sido la correcta, si pueden haber existido otros facto- su totalidad. Por el contrario, si la asociación que se
res que hayan podido interferir, etc. Además, si se ha observado es débil, la existencia de un sesgo po-
llega a la conclusión de que el tratamiento es la única dría alterar totalmente la interpretación de los resul-
explicación plausible de la diferencia observada, de tados. Un estudio positivo puede pasar a ser negativo,
ello tampoco puede deducirse que sea una buena y viceversa, según la dirección del sesgo.
alternativa terapéutica de la hipercolesterolemia, sino
que deberá evaluarse la relevancia clínica de un des- Otro elemento a tener en cuenta en la evaluación
censo promedio de 10 mg/dl, los efectos secundarios de la validez interna de un estudio es la existencia de
del tratamiento, su coste, otras ventajas e inconve- factores de confusión. Se trata de variables que pue-
nientes de su administración, la existencia de otras den distorsionar la relación entre el factor de estudio
alternativas terapéuticas, etc. y la variable de respuesta. Por tanto, si no se han con-
trolado, o se ha hecho de forma inadecuada, también
pueden obtenerse estimaciones distorsionadas del
SESGOS Y FACTORES DE CONFUSIÓN
resultado.
Para evaluar si el resultado observado proporciona
una respuesta válida a la pregunta formulada en el Ejemplo 26.4. Supongamos un estudio de casos y con-
objetivo, deben descartarse errores en el diseño del troles que evalúa si el consumo de alcohol es un fac-
estudio que puedan comprometer su validez interna. tor de riesgo de cáncer de pulmón. Si no se tienen en
De hecho, se trata de comprobar hasta qué punto cuenta otros factores, podría encontrarse una rela-
puede concluirse que el factor de estudio causa el ción positiva entre ambos. Sin embargo, esta conclu-
efecto o asociación observados. sión sería errónea. Dado que el consumo de alcohol
Los sesgos son errores sistemáticos introducidos se asocia también al de tabaco, y éste es un factor muy
en un estudio tanto en el proceso de selección de los asociado con el desarrollo de cáncer de pulmón. El
sujetos como en el de recogida de la información, consumo de tabaco estaría actuando como un factor
que conducen a estimaciones erróneas del resultado. de confusión, de forma que, si no se controla su
No sólo hay que evaluar la posible existencia de estos influencia, podría observarse una aparente relación
errores, sino también, en caso de que existan, su ten- entre el consumo de alcohol y el cáncer de pulmón.
dencia a sobre o infraestimar el resultado, y valorar su En cambio, si se controla en la fase de análisis, esta
magnitud y sus implicaciones prácticas. aparente asociación desaparece e indica que, en rea-
lidad, el consumo de alcohol no está asociado con la
Ejemplo 26.3. En un estudio de casos y controles cuyo enfermedad, sino que lo parecía porque estaba rela-
objetivo era evaluar la hipótesis de que la endome- cionado con el de tabaco.
triosis predispone a la infertilidad, se revisaron las
historias clínicas de 100 mujeres a las que se había
UTILIDAD PRÁCTICA
practicado una laparoscopia a causa de su infertilidad
(Strathy et al, 1982). En 21 de ellas se diagnosticó Aunque el resultado de un estudio sea válido, no por
endometriosis. Como grupo control se eligieron 200 ello es clínicamente relevante o aplicable a la prácti-
mujeres a las que se había practicado una laparosco- ca clínica.
247
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Para poder evaluar la relevancia clínica de un estu- ción relativa del 50%. Sin embargo, en términos abso-
dio, es de gran ayuda calcular el IC del resultado, que lutos, la diferencia es el 10%, por lo que, por cada 100
indica entre qué valores es probable que esté situado pacientes tratados, se evitan 10 casos de enfermedad,
el verdadero efecto o asociación. Muchos estudios o, lo que es lo mismo, es necesario tratar a 10 sujetos
presentan el resultado en forma de una medida rela- para evitar la aparición de un caso.
tiva (odds ratio, riesgo relativo, etc.), pero para evaluar
el impacto del resultado en la práctica es preferible El ejemplo anterior ilustra cómo las medidas abso-
utilizar medidas absolutas, como la diferencia de inci- lutas proporcionan información más útil sobre la
dencias o la reducción absoluta del riesgo producida relevancia clínica que las relativas, y son más eficaces
por una intervención. Cuando se refiere a interven- cuando hay que elaborar recomendaciones prácticas
ciones terapéuticas, una medida absoluta muy útil es basadas en los resultados de los estudios. Incluso
el número de personas que es necesario que reciban habiendo considerado que un resultado es clínica-
una determinada intervención para conseguir un mente relevante, las recomendaciones que se derivan
éxito o prevenir una muerte o un suceso perjudicial. de él no siempre pueden aplicarse directamente a
Por otro lado, el estudio debe proporcionar infor- pacientes o entornos diferentes del estudiado. Por
mación sobre todas las respuestas y desenlaces rela- ello, al interpretar los resultados, hay que considerar
cionados con el factor de estudio. No basta con cono- todos los elementos que pueden limitar su generali-
cer los beneficios de una intervención sobre una zación y extrapolación, sobre todo cuando se utilizan
variable de respuesta, sino que deben conocerse sus para realizar recomendaciones prácticas.
efectos sobre otras variables relevantes, sus efectos
secundarios u otros inconvenientes derivados de su B IBLIOGRAFÍA DE LOS EJEMPLOS
administración, etc., de forma que pueda realizarse Strathy JH, Molgaard CA, Coulam CB et al. Endometriosis
un balance entre los beneficios y los riesgos derivados and infertility: a laparoscopic study of endometriosis
del tratamiento. among fertile and infertile women. Fertil Steril 1982; 38:
667-672.
Ejemplo 26.5. Consideremos un estudio que evalúa la
eficacia de una intervención farmacológica preventi- B IBLIOGRAFÍA
va que consigue reducir la incidencia de una enfer- Altman DG, Bland JM. Absence of evidence is not evidence
medad, que es del 2% en el grupo de referencia, al of absence. BMJ 1995; 311: 485.
Altman DG, Bland JM. Generalization and extrapolation.
1%. En términos relativos, se ha reducido el riesgo
BMJ 1998; 317: 409-410.
en un 50% (a la mitad). En términos absolutos, el
Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S.
riesgo se ha reducido en un 1%, lo que significa que
Basic statistics for clinicians. Part 2. Interpreting study
es necesario que 100 sujetos reciban la intervención results: confidence intervals. CMAJ 1995; 152: 169-173.
para evitar la aparición de un caso de la enfermedad. Porta M, Plasencia A, Sanz F. La calidad de la información
Con esta información, puede evaluarse la relación clínica (III): ¿estadísticamente significativo o clínica-
entre los beneficios y los riesgos potenciales de tratar mente importante? Med Clin (Barc) 1988; 90: 463-468.
a 100 sujetos. Schlesselman J. Biostatistics in epidemiology: a view from the
Supongamos que la misma intervención se aplica a faultline. J Clin Epidemiol 1996; 49: 627-629.
otra población en la que la incidencia es muy superior, Wright JG. The minimal important difference: who’s to say
por ejemplo, del 20%. Si la incidencia en el grupo de what is important? J Clin Epidemiol 1996; 49: 1221-
estudio es del 10%, se ha conseguido la misma reduc- 1222.
248
Capítulo 27
Papel de la estadística
249
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
estadística están dirigidas a confirmar hipótesis, mien- cierto si la variable es normal en la población de ori-
tras que las técnicas exploratorias son eminentemen- gen. Pero, aunque no lo sea, la distribución de las me-
te gráficas y descriptivas. En este capítulo se abordan, dias muestrales tiende a ser normal a medida que su
sobre todo, las bases de la utilización de la inferencia tamaño aumenta, aceptándose que, si las muestras
estadística para confirmar la hipótesis de trabajo y son de más de 30 sujetos, la distribución de sus me-
alcanzar el objetivo del estudio. dias es normal.
Esta distribución de medias muestrales tiene dos
características que la hacen especialmente interesan-
VARIACIONES DEL MUESTREO
te. La primera es que su media es la media de la po-
En estadística, el término población se utiliza para des- blación de la que proceden las muestras; es decir, las
cribir todas las posibles observaciones de una deter- medias muestrales se distribuyen normalmente alre-
minada variable o todas las unidades sobre las que po- dedor de la media poblacional desconocida que se
dría haberse realizado una observación. El significado quiere estimar. La segunda es que la desviación están-
preciso de este concepto varía en función del contex- dar de dicha distribución tiene el valor σ/√n, siendo
to en que se utiliza. Puede tratarse de una población σ la desviación estándar de la población de origen y n
de pacientes, de profesionales o de determinacio- el tamaño de la muestra. Este valor es conocido como
nes de laboratorio, e incluso difiere según la localiza- error estándar de la media (EEM), y mide la dispersión
ción geográfica y la fuente de sujetos u observaciones de las medias muestrales respecto de la media pobla-
utilizada. A menudo no tiene una realidad física con- cional. No debe confundirse con la desviación están-
creta, ya que, por ejemplo, la población de infeccio- dar (DE, s), cuyos valores miden la dispersión de
nes urinarias no existe como tal, sino que el proceso los valores de la variable (no de las medias muestra-
va apareciendo y desapareciendo en diferentes sujetos les) en la población y en la muestra, respectivamente
en función de múltiples y variados factores. (fig. 27.1). Puede deducirse fácilmente que el EEM
En sentido amplio, el término muestra se refiere a disminuye cuando aumenta el tamaño de la muestra
cualquier conjunto específico de sujetos u observa- n, lo que explica el hecho de que las muestras gran-
ciones procedentes de una población determinada. des estimen el valor poblacional con mayor precisión.
Para que sea útil y permita aplicar las técnicas estadís- En el caso de las variables cualitativas, la distribu-
ticas, se requiere que la muestra tenga un tamaño ción de la proporción sigue la ley binomial. Sin embar-
razonable y sea representativa de la población de la go, cuando los productos n·p y n·(1 – p) son superiores
que procede. Un tamaño grande no asegura la repre- a 5, la distribución se asemeja bastante a la normal. Así,
sentatividad, sino que ésta radica básicamente en que las proporciones observadas en las muestras se distri-
la muestra se haya escogido aleatoriamente y esté buyen alrededor de la verdadera proporción poblacio-
libre de sesgos. nal, y la dispersión de esta distribución se mide
Se estudian muestras en lugar de poblaciones por mediante el error estándar de la proporción (EEP), cuyo
criterios de eficiencia. El propósito fundamental del valor es √p·(1 – p)/n, y tiene características similares
muestreo es estimar el valor de una determinada varia- al EEM.
ble (parámetro) en la población, a partir de un núme-
ro menor de observaciones (muestra). Sin embargo,
ESTIMACIÓN DE UN PARÁMETRO
tan sólo se estudia una de las múltiples muestras que
POBLACIONAL: INTERVALO
podrían seleccionarse de la población de referencia,
DE CONFIANZA
en cada una de las cuales podría obtenerse un valor
diferente, simplemente por azar. Las diferentes técni- Un objetivo frecuente en la investigación médica es
cas de la estadística inferencial se fundamentan en que estimar un parámetro poblacional a partir de los valo-
esta variabilidad inherente al proceso de muestreo res que la variable de interés adopta en los individuos
sigue unas leyes conocidas y puede ser cuantificada. de una muestra. Si la variable es cuantitativa, la media
Así, en el caso de una variable cuantitativa, en ca- y la desviación estándar (DE) observadas en la mues-
da muestra se obtendrá una media diferente. Si se tra son la mejor estimación disponible de los verda-
representa gráficamente la distribución de las medias deros valores de los parámetros poblacionales. Pero,
de todas las muestras posibles de un mismo tamaño, ¿cuáles serían los resultados si se repitiera el estudio
se puede comprobar que sigue la ley normal. Esto es en múltiples ocasiones?
250
PAPEL DE LA ESTADÍSTICA
Distribución de los valores de una variable x medidos en los individuos de una población
Número
de sujetos
(frecuencia)
μ Valores de x
μ: media
σ: desviación estándar
Distribución de las medias observadas en las múltiples muestras de tamaño n que pueden
obtenerse de una población de media μ y desviación estándar σ
Número
de muestras
(frecuencia)
EEM
μ Medias observadas
μ: media
EEM: error estándar de la media = σ
n
Ejemplo 27.1. Supongamos que en una muestra de valor α del 5%, que corresponde a un valor Z de 1,96.
60 sujetos se observa una media de presión arterial Aplicando la fórmula, se obtendría un IC del 95%,
sistólica (PAS) de 150 mmHg con una DE de 20 que sería aproximadamente de 150 ± 5 mmHg, lo que
mmHg, y que se desea conocer el verdadero valor de significa que hay un 95% de confianza de que el valor
la PAS media en la población de referencia. En prin- medio de la PAS de la población de referencia se
cipio, el valor más probable es la estimación puntual encuentre entre 145 y 155 mmHg.
obtenida en la muestra (150 mmHg), pero, dado que
si se hubiera estudiado una muestra diferente proba- De forma similar se calcularía el IC en el caso de
blemente se habría obtenido un resultado distinto, se una variable cualitativa (ver tabla 27.2).
necesita una medida de la precisión de esta estima- El IC proporciona mucha más información que la
ción, lo que se hace mediante el cálculo del llamado estimación puntual, ya que permite evaluar la preci-
intervalo de confianza (IC) (tabla 27.2). Habitualmente sión con que se ha estimado el parámetro poblacio-
se trabaja con una confianza del 95%, es decir, con un nal; es decir, entre qué límites se tiene una determi-
251
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 27.2. Cálculo del intervalo de error no debidas al azar (errores sistemáticos o ses-
de confianza (IC) en la estimación gos). Si éstas existen, o si la muestra no es aleatoria, el
de un parámetro poblacional error de la estimación puede ser mayor que el sugeri-
do por la amplitud del intervalo.
IC de una media (variable cuantitativa)*: Siempre que se realizan inferencias sobre pará-
–x ± (Zα ⋅ EEM) metros poblacionales a partir de criterios estadísticos
muestrales, los resultados deben expresarse como IC,
s y no sólo como estimaciones puntuales, para poder
siendo EEM =
n valorar la precisión de la estimación.
252
PAPEL DE LA ESTADÍSTICA
tesis alternativa (Ha), según la cual existen diferencias que la diferencia observada es estadísticamente signi-
entre ambos grupos. ficativa, ya que es poco probable (p < 5%) que el azar
El primer paso es formular la Ho. A continuación, pueda haber producido estos resultados. La respuesta
se calcula, mediante la prueba estadística más adecua- a la pregunta de si esta diferencia se debe al nuevo tra-
da, la probabilidad de que los resultados observados tamiento D dependerá del diseño y la ejecución
puedan deberse al azar, en el supuesto de que la Ho correctos del estudio. El valor de p sólo informa de la
sea cierta. En otras palabras, la probabilidad de que, a existencia de una diferencia entre ambos grupos, y de
partir de una población de referencia, puedan obte- que muy probablemente no se deba al azar, pero no
nerse dos muestras que presenten unos valores tan informa sobre la causa de dicha diferencia.
diferentes como los observados. Esta probabilidad es
el grado de significación estadística, que suele represen- El valor de p no es una medida de la fuerza de la
tarse con la letra p. En tercer lugar, basándose en esta asociación. Un estudio en el que se obtenga un valor
probabilidad, se decide si se rechaza o no la Ho. p < 0,001 no quiere decir que la asociación encontra-
Cuanto menor sea la p, es decir, cuanto menor sea la da sea más fuerte (o la diferencia más importante)
probabilidad de que el azar pueda haber producido que otro estudio en que sea de 0,04. Sólo quiere decir
los resultados observados, mayor será la evidencia en que es más improbable que su resultado sea por azar.
contra de Ho y, por tanto, mayor será la tendencia a No hay que ser excesivamente rígido en el límite
concluir que la diferencia existe en la realidad. del valor de significación. Un valor de p de 0,048 es
En el ejemplo, una vez aplicada la prueba estadís- estadísticamente significativo con el umbral del 5%, y
tica adecuada, se obtiene un valor de p aproximada- uno de 0,052, en cambio, no lo es, pero en ambos
mente de 0,10. Esto significa que, si la Ho fuera cier- casos la probabilidad de observar el resultado por
ta, la probabilidad de que el azar pueda producir azar es prácticamente la misma, y muy próxima al
unos resultados como los observados es del 10%, es 5%. Por ello, es conveniente indicar el valor de p
decir, que existe un 10% de probabilidad de que dos al dar los resultados, sobre todo si es próximo al valor
muestras de 30 sujetos obtenidas de una misma po- de significación, en lugar de limitarse a decir si existe
blación presenten unos porcentajes del 70 y el 50% o no significación estadística. De esta forma, el lector
sólo por variabilidad aleatoria. podrá valorar adecuadamente los resultados.
Para decidir si se rechaza o no la Ho, debe fijarse
previamente un valor de p por debajo del cual se consi- P RUEBAS UNILATERALES
dera que se dispone de la suficiente evidencia en contra Y PRUEBAS BILATERALES
de la Ho para rechazarla. Este valor se conoce como En ocasiones, lo que interesa no es determinar si exis-
valor de significación estadística α. De forma arbitraria, y ten diferencias entre dos tratamientos, sino evaluar si
por convenio, se fija habitualmente en el 5% (0,05). un nuevo fármaco es mejor que otro. En este caso, la
Dado que el valor de p obtenido en el ejemplo es de hipótesis alternativa no es que D y E difieran, sino que
0,10, superior al valor de significación de 0,05, se con- D es mejor que E. Por tanto, la Ho que se va a contras-
sidera que la probabilidad de haber obtenido estos tar es que D no difiere o es peor que E. Dado que sólo
resultados por azar es demasiado elevada y que, por interesa un sentido de la comparación, se habla de
tanto, no se dispone de la suficiente evidencia para pruebas unilaterales, o de una cola.
rechazar la Ho. Se concluye que la diferencia observa- ¿Cómo afecta este hecho a la prueba de significa-
da en el porcentaje de pacientes controlados no es ción? No es la prueba en sí misma la que se ve afecta-
estadísticamente significativa. No significa que ambos da. El cálculo es idéntico al anterior. Lo que se modi-
grupos sean iguales, sino que no se ha encontrado la fica es el valor de p. Como la distribución de Z sigue
suficiente evidencia para decir que son diferentes. la ley normal y, por tanto, es simétrica, en las pruebas
unilaterales el valor de p corresponde a la mitad del
Ejemplo 27.3. Supongamos ahora que en el grupo valor α, dado que sólo se está interesado en uno de
que recibió el tratamiento E sólo se hubieran contro- los extremos.
lado 12 pacientes a los 3 meses, lo que supondría un
porcentaje observado en este grupo del 40%. Si se E RROR α Y ERROR β
repiten los cálculos, se obtiene un valor de p menor de En estadística no puede hablarse de certeza absoluta.
0,02. Como este valor es inferior a 0,05, se considera Sea cual sea la decisión que se tome respecto a la
253
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
hipótesis nula, se corre un cierto riesgo de equivocar- Si, por el contrario, se concluye que la diferencia
se (fig. 27.2). no es estadísticamente significativa, es decir, si no se
La realidad no es conocida, ya que, si lo fuera, no rechaza la Ho, puede ocurrir que la hipótesis sea falsa
sería necesario realizar el estudio. Si no se rechaza la y que, en realidad, exista una diferencia entre ambos
Ho, y ésta es cierta, no se comete ningún error. Si se re- grupos, en cuyo caso se cometerá otro tipo de error,
chaza y es falsa, tampoco. Pero, ¿qué pasa en las otras llamado error tipo II o β. Utilizando el símil con la
dos situaciones? prueba diagnóstica, equivale a la probabilidad de obte-
En un estudio, puede concluirse que existe una ner un resultado falso negativo. Su valor complemen-
diferencia cuando en realidad no la hay. Es decir, tario 1 – β, denominado potencia, o poder estadístico, indi-
puede rechazarse la Ho cuando en realidad es cierta. ca la capacidad que tiene la prueba para detectar una
Si esto ocurre, la decisión es incorrecta y se comete un diferencia que existe en la realidad. Lógicamente,
error, conocido como error tipo I o error α. La proba- cuanta más diferencia hay entre dos poblaciones y
bilidad de cometer este error es la de que, si se con- mayor es el número de individuos estudiados, mayor
cluye que existe una diferencia significativa, ésta sea capacidad existe para detectarla; es decir, el poder
en realidad debida al azar. Si se hace un símil entre estadístico es mayor y, por tanto, la probabilidad de
una prueba estadística y una diagnóstica, equivale a la cometer un error β es menor.
probabilidad de obtener un resultado falso positivo. Existe una interdependencia entre el grado de
Esto es precisamente lo que mide el valor de p, o significación p, la potencia estadística, el número
grado de significación estadística de la prueba. de individuos estudiados y la magnitud de la diferen-
Realidad
No existe Existe
diferencia diferencia
(Ho cierta) (Ho falsa)
B
A
β α
O R D
Ho: hipótesis nula; Ha: hipótesis alternativa; A: distribución de la diferencia cuando la Ho es cierta
(media = O); B: distribución de la diferencia cuando la Ha es cierta (media desconocida = D);
R: resultado (diferencia) observado en el estudio.
254
PAPEL DE LA ESTADÍSTICA
cia observada. Conociendo tres de estos parámetros, Tabla 27.3. Influencia del número
puede calcularse el cuarto. Así, antes de iniciar un de sujetos estudiados sobre
estudio, puede calcularse el número de sujetos nece- el grado de significación estadística
sario, fijando a priori el grado de significación, la de la comparación de los
potencia estadística y el valor de la diferencia que porcentajes de pacientes
quiere detectarse. De igual modo, si una vez acabado controlados con dos tratamientos:
el estudio se concluye que no se ha encontrado una D (70%) y E (65%) (ejemplo 27.4)
diferencia estadísticamente significativa, dado que n,
p y la diferencia observada son conocidas, puede cal- Número de sujetos
cularse el poder estadístico. No es lo mismo concluir estudiados por grupo Valor de Z* Valor de p
que no se ha encontrado una diferencia estadística-
mente significativa entre dos tratamientos cuando se 30 0,41 0,68
100 0,76 0,45
tiene una probabilidad del 90% de haberla detectado
200 1,06 0,29
si hubiera existido (β = 0,10), que cuando esta proba-
500 1,69 0,09
bilidad es sólo del 20% (β = 0,20). 700 2,00 0,05
1.000 2,39 < 0,02
¿D IFERENCIA ESTADÍSTICAMENTE 2.000 3,38 < 0,001
SIGNIFICATIVA O CLÍNICAMENTE
RELEVANTE ? * Valor de la Z de comparación de dos proporciones.
Un resultado estadísticamente significativo no impli-
ca que sea clínicamente relevante. El valor de p no
mide la fuerza de la asociación. Pueden obtenerse
E STIMACIÓN FRENTE A SIGNIFICACIÓN
valores pequeños de p (resultados estadísticamente
ESTADÍSTICA
significativos) simplemente estudiando un número
Al analizar los resultados de un estudio, los investiga-
grande de sujetos. Al aumentar el tamaño de la mues- dores están interesados no sólo en saber si una dife-
tra, se incrementa el poder estadístico para detectar rencia o una asociación son estadísticamente significa-
incluso pequeñas diferencias. tivas, sino también en determinar su magnitud. La
diferencia observada en el estudio es la mejor estima-
Ejemplo 27.4. Supongamos un estudio en que se ción puntual de dicha magnitud. Pero, dado que si se
comparan dos fármacos D y E para el tratamiento de repitiera el estudio con otras muestras podrían obser-
la hipertensión arterial. El porcentaje de pacientes varse resultados de diferente magnitud, hay que calcu-
controlados en el grupo que ha recibido el fármaco D lar un intervalo que contenga, con una determinada
es del 70%, y en el que ha sido tratado con E, del confianza, la verdadera magnitud del parámetro de
65%. En la tabla 27.3 se aprecia que la conclusión de interés, tanto si se trata de una diferencia (tablas 27.4
si esta diferencia es o no estadísticamente significa- y 27.5) como de una medida de asociación (anexo 2).
tiva depende del número de individuos. Estudiando Existen fórmulas para el cálculo de los IC en cualquier
30 pacientes en cada grupo, se concluiría que la dife- situación.
rencia no es significativa. A medida que aumenta el Cuando se utiliza como medida del efecto una
tamaño de los grupos, aumenta el valor de Z y dismi- diferencia, si el IC del 95% incluye el valor 0, que es
nuye el de p. Al estudiar 700 pacientes en cada grupo, el que corresponde a la Ho (ausencia de diferencia
ya se alcanza el nivel de significación del 0,05. Y si se entre ambos grupos), se concluirá que el resultado
estudiaran 2.000 individuos, el valor de p sería menor no es estadísticamente significativo, ya que no puede
de 0,001. descartarse que ése sea el verdadero valor. Si, por el
contrario, el IC excluye este valor 0, se concluirá que
La diferencia que se considera clínicamente rele- la diferencia observada es estadísticamente significa-
vante depende de su magnitud y de otros factores, tiva, ya que puede descartarse dicho valor (con un
como la frecuencia y la gravedad de los efectos secun- riesgo de error inferior al 5%). Por tanto, el IC,
darios de ambos fármacos, la facilidad de administra- además de indicar si la diferencia es o no estadística-
ción o su coste económico. mente significativa, permite conocer entre qué lími-
255
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 27.4. Cálculo del intervalo Tabla 27.5. Cálculo del intervalo
de confianza (IC) de la diferencia de confianza (IC) de la diferencia
entre dos proporciones entre dos medias
tes es probable que se encuentre la verdadera dife- entre un 4% a favor del tratamiento A y un 44% a
rencia, lo que es muy útil en la interpretación de los favor de B. Dado que una diferencia del 0% es posi-
resultados. ble, no puede descartarse que éste sea su verdadero
valor, por lo que el resultado no es estadísticamente
Ejemplo 27.5. Supongamos un estudio que compara significativo. En cambio, el IC informa, además, que
la eficacia de dos tratamientos A y B en dos grupos de también son posibles grandes diferencias a favor de
30 pacientes. Se observa una diferencia en el porcen- B, y que son improbables grandes diferencias a favor
taje de éxitos del 20% (70 – 50%) a favor del trata- de A. Aunque los resultados siguen sin ser conclu-
miento B, que no es estadísticamente significativa yentes, se dispone de más información para interpre-
(p = 0,12). El IC del 95% de la diferencia entre los tarlos de forma adecuada. El IC cuantifica el resulta-
dos tratamientos es: do encontrado y provee un rango donde es muy
probable que se encuentre el valor real que se está
IC 95%: 0,2 ± 0,24; es decir, de –4 a 44% buscando.
Con un 95% de confianza, la verdadera magnitud Ejemplo 27.6. Supongamos un estudio que compara la
de la diferencia está en el intervalo comprendido eficacia de dos tratamientos A y B en dos grupos de 80
256
PAPEL DE LA ESTADÍSTICA
pacientes. Se observa una diferencia del 5% (65 – 60%) te significativo, también debe determinarse si incluye
a favor del tratamiento B, que es estadísticamente sig- o excluye el valor de la mínima diferencia de relevan-
nificativa (p = 0,04). El IC del 95% de esta diferencia es: cia clínica, para poder evaluar si el estudio es conclu-
yente acerca de la existencia de una diferencia clíni-
IC 95%: 0,05 ± 0,047; es decir, de 0,3 a 9,7% camente importante.
Al excluir el valor 0%, se concluye que la diferen- Ejemplo 27.7. En la figura 27.3 se presentan 6 posibles
cia es estadísticamente significativa. El IC informa resultados de un estudio que compara dos grupos y
que la diferencia es de pequeña magnitud, como má- utiliza como medida del resultado la diferencia entre
ximo de aproximadamente un 10% a favor de B. los porcentajes observados en cada uno de ellos.
Supongamos que los investigadores establecieron a
Los IC tienen otra ventaja adicional, y es la de priori que la mínima diferencia de relevancia clínica
expresar los resultados en las unidades en que se han era del 20%.
realizado las mediciones, lo que permite al lector Situación A. Se observa una diferencia del 10%
considerar críticamente su relevancia clínica. (IC 95%: de –5 a +25%), que no es estadísticamente sig-
Al diseñar un estudio, los autores establecen la nificativa, ya que el IC incluye el valor 0. Pero el valor
magnitud mínima de la diferencia que consideran de 20% también es un valor posible, ya que está situado en
relevancia clínica, en función de la cual han calcula- el interior del IC. Se trata, por tanto, de un resultado
do el tamaño necesario de la muestra. Al acabar el que no permite descartar ninguna conclusión.
estudio, la interpretación del resultado observado y Situación B. En esta ocasión, se observó una diferen-
de su IC debe tener en cuenta también esta magni- cia entre los grupos del 5% (IC 95%: de –5 a +15%).
tud. Además de determinar si el IC del 95% excluye No es estadísticamente significativa, ya que el IC inclu-
el valor 0 para saber si el resultado es estadísticamen- ye el valor 0, pero excluye el valor 20%. Así pues, el
Ho RC Diferencia Significación
observada estadística IC 95% Interpretación
A
A 10% NS –5 a +25% No concluyente
B B 5% NS –5 a +15% Negativo
C 10% ES +5 a +15% No importante
C D 15% ES +5 a +25% Potencialmente
importante
D (observado
< relevante)
Figura 27.3. Posibles resultados de un estudio que compara dos grupos y utiliza como medida del efecto
la diferencia entre los porcentajes observados. Se considera que la mínima diferencia de relevancia clínica
es del 20% (ejemplo 27.7).
257
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
resultado es negativo en el sentido de que no puede – La realización de pruebas para cada variable por
descartarse que los grupos sean iguales, pero, aunque separado ignora el hecho de que muchas de ellas
fueran diferentes, es muy improbable que la diferencia pueden estar relacionadas entre sí, de forma que el
sea mayor del 15%. Por tanto, puede descartarse que resultado de una prueba estadística determinada
exista una diferencia de relevancia clínica. puede estar influido por diferencias en la distribu-
Situación C. La diferencia observada del 10% ción de otras variables relacionadas.
(IC 95%: de +5 a +15%) es estadísticamente significa- – Si cada una de las pruebas estadísticas se realiza con
tiva, ya que el IC excluye el valor 0. Dado que el lími- el nivel de significación prefijado del 5%, en pro-
te superior del IC no alcanza el valor 20%, puede medio, 5 de cada 100 comparaciones pueden resul-
concluirse que existe una diferencia, pero que ésta tar significativas sólo por azar. Al realizar múltiples
no es de relevancia clínica. comparaciones, aumenta la probabilidad de obte-
Situación D. La diferencia observada es del 15% ner algún resultado estadísticamente significativo
(IC 95%: de +5 a +25%), estadísticamente significati- que no refleje una diferencia real.
va y potencialmente importante, ya que el valor 20%
es un valor posible. Así pues, el estudio no es del todo Para estimar la probabilidad de obtener un resul-
concluyente. tado significativo por azar tras realizar un número n
Situación E. Similar a la anterior. Aunque la dife- de pruebas estadísticas, cada una de ellas con el ni-
rencia observada es mayor del 20%, el resultado no es vel de significación α, puede usarse la llamada desi-
del todo concluyente, ya que el límite inferior del IC gualdad de Bonferroni, de la que se deriva la siguiente
está por debajo del 20% e indica que la verdadera fórmula:
diferencia podría ser inferior a este valor.
Situación F. La diferencia observada es del 30%. Pr = 1 – (1 – α)n
Dado que el límite inferior del IC es mayor del 20%,
este resultado es estadísticamente significativo y con-
donde Pr representa la probabilidad de encontrar
cluyente a favor de la existencia de una diferencia de
un resultado significativo.
relevancia clínica.
Cuando se utiliza una medida relativa del efecto Ejemplo 27.8. Supongamos que se realizan 8 compa-
(riesgo relativo, odds ratio, etc.), la Ho de igualdad entre raciones independientes, cada una de ellas con el
los grupos corresponde al valor 1, ya que se trata de un nivel de significación de 0,05. La probabilidad de que
cociente y no de una diferencia. Por tanto, cuando el alguna de estas comparaciones conduzca a un resul-
IC del 95% de una medida relativa incluye el valor 1, tado significativo simplemente por azar es:
el resultado no es estadísticamente significativo.
Aunque las pruebas de significación continúan Pr = 1 – (1 – 0,05)8 = 0,336
siendo los procedimientos estadísticos más emplea-
dos, las ventajas de la utilización complementaria de es decir, existe un 33% de probabilidades de cometer
los IC en el análisis e interpretación de los resultados, algún error α, y no el 5% con el que se deseaba tra-
tanto si el objetivo es la estimación de parámetros bajar.
como el contraste de una hipótesis, hacen que cada
vez haya más revistas que recomienden a los investi- Puede utilizarse como aproximación el producto
gadores su empleo. del valor de significación por el número de pruebas
realizadas (n·α). En el ejemplo, este valor sería 0,40,
C OMPARACIONES MÚLTIPLES que, como puede observarse, sobrestima ligeramente
En cualquier estudio, se realizan habitualmente múlti- dicha probabilidad.
ples comparaciones; por ejemplo, cuando se evalúa si La solución más adecuada a este problema es
los grupos difieren por alguna variable, cuando se com- reducir en lo posible el número de comparaciones a
paran diferentes variables de respuesta o cuando se realizar, aplicándolas solamente para contrastar hipó-
analizan diversos subgrupos de sujetos. Efectuar com- tesis previas, y asignar prioridades antes del análisis,
paraciones múltiples tiene dos grandes inconvenientes: decidiendo cuál es la comparación principal y cuáles
258
PAPEL DE LA ESTADÍSTICA
las secundarias, de forma que estas últimas se utilicen trucción de un modelo matemático. La elección de
para matizar la respuesta a la primera. un modelo u otro dependerá del diseño del estudio,
Otra solución es dividir el valor de significación la naturaleza de las variables y las interrelaciones entre
deseado por el número de pruebas a realizar y obte- el factor de estudio, la variable de respuesta y las res-
ner así un valor de significación corregido para apli- tantes variables incluidas en el modelo (anexo 8).
carlo a cada una de las pruebas. Este procedimiento Estas técnicas pueden aplicarse con las siguientes
se conoce como corrección de Bonferroni. En el ejemplo finalidades:
27.8, si se desea mantener el valor de significación
global del 0,05, cada una de las pruebas deberá reali- – Proporcionar una estimación del efecto de una
zarse con el valor corregido de 0,05/8 = 0,00625. Esta variable independiente principal (factor de estu-
técnica es muy estricta, ya que exige un valor de sig- dio) sobre una dependiente (variable de respues-
nificación muy bajo. Además, la corrección de ta), ajustada por un conjunto de factores o variables
Bonferroni asume que las comparaciones son inde- independientes (potenciales factores de confusión
pendientes, por lo que no resulta adecuado cuando y modificadores del efecto).
los análisis están mutuamente asociados.
Otra alternativa más adecuada es el empleo de Ejemplo 27.9. Supongamos un ensayo clínico aleato-
técnicas multivariantes que tomen en consideración rio que evalúa el efecto de un nuevo fármaco (varia-
las relaciones que existen entre las variables que se ble independiente principal) sobre la colesterolemia
comparan. (variable dependiente), controlando la influencia de
Un problema similar puede presentarse en estu- la edad y el sexo de los sujetos.
dios con un seguimiento prolongado, cuando el
investigador decide analizar sus datos repetidamen- – Describir la relación que existe entre un conjunto
te a medida que el estudio progresa. El uso del valor de variables independientes (sin identificar una
de significación estadística según el método habitual de ellas como principal) y una variable depen-
no resulta apropiado, ya que el cálculo convencional diente, y la contribución de cada una de ellas a la
asume que el tamaño de la muestra es un valor fijo, y relación.
que los resultados del estudio se analizarán una
única vez con los datos de todos los sujetos. Por Ejemplo 27.10. Supongamos un estudio transversal
tanto, si un investigador analiza los datos en diversas que pretende evaluar, de entre un conjunto de varia-
ocasiones, la probabilidad de alcanzar un resultado bles independientes (colesterol, edad, sexo, gluce-
significativo es mayor que la deseada. Cuando se mia, etc.), cuáles están asociadas con una variable
efectúa este tipo de estudios, lo mejor es utilizar un dependiente (cifras de presión arterial).
diseño secuencial, en el que no es necesario asumir
que el análisis se realizará una sola vez, y en el que las – Predecir el valor de una variable dependiente en fun-
normas para finalizar el estudio permiten la evalua- ción de los valores que toma un conjunto de varia-
ción continuada de los datos. bles independientes.
259
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Cuando la finalidad del análisis es predictiva o dad de los datos, combinando un conjunto amplio de
descriptiva de las relaciones entre variables, lo que variables observadas en unas pocas variables ficticias
interesa es obtener una ecuación o un modelo lo más (combinaciones lineales de las anteriores) que repre-
sencillo posible, de forma que la selección de las senten casi la misma información que los datos origi-
variables que formarán el modelo se basa en criterios nales (análisis factorial y análisis de componentes prin-
de significación estadística. En cambio, cuando la cipales). Estas técnicas se utilizan con frecuencia en la
finalidad es estimar el efecto del factor de estudio investigación sobre servicios sanitarios, pero poco en
controlando determinados factores de confusión, no investigación clínica y epidemiológica.
puede confiarse en que la selección automática inclu-
ya las variables que interesa controlar, ya que no siem- Ejemplo 27.12. Supongamos que se desea desarro-
pre están asociadas de forma estadísticamente signifi- llar un indicador del estado de salud aplicable a dife-
cativa, por lo que se utilizan otros procedimientos rentes regiones. Para ello, se recogen multitud de
que obligan a la selección por parte del investigador indicadores sanitarios, demográficos, sociales, etc.,
de las variables que desea controlar. de estas regiones, y se aplica una técnica multiva-
La correcta utilización de la estadística en el análi- riante para reducir todos estos indicadores a unas
sis de los datos es fundamental para poder interpretar- pocas variables ficticias, con la extracción de facto-
los de forma adecuada y obtener conclusiones válidas. res, cada uno de los cuales representa una dimen-
Por ello, una vez realizado el análisis multivariante, hay sión de la información contenida en la totalidad de
que evaluar la adecuación del modelo obtenido (bon- los indicadores.
dad de ajuste), ya que, por ejemplo, una ecuación
puede ser estadísticamente significativa, pero predecir B IBLIOGRAFÍA
con poca fiabilidad el riesgo de enfermar de un sujeto. Altman DG. Practical statistics for medical research. Lon-
dres: Chapman & Hall, 1991.
Debe prestarse atención a las medidas globales de bon-
Altman DG, Bland JM. Units of analysis. BMJ 1997; 314:
dad del modelo, así como comprobar si se cumplen las 1874.
condiciones de aplicación de cada una de las técnicas. Altman DG, Bland JM. Statistics notes: variables and para-
También en las técnicas multivariantes, el resulta- meters. BMJ 1999; 318: 1667.
do obtenido es una estimación puntual, por lo que Altman DG. Statistics in medical journals: some recent
deberá calcularse el correspondiente IC para evaluar trends. Stat Med 2000; 19: 3275-3289.
su relevancia clínica. Todos los comentarios realiza- Altman DG, Goodman SN, Schroter S. How statistical exper-
dos a propósito de la significación estadística y la rele- tise is used in medical research. JAMA 2002; 287: 2817-
vancia clínica en las pruebas estadísticas bivariantes 2820.
son aplicables a las multivariantes. La principal dife- Argimon JM. El intervalo de confianza: algo más que un
valor de significación estadística. Med Clin (Barc) 2002;
rencia es que en el análisis multivariante se tienen en
118: 382-384.
cuenta simultáneamente las relaciones entre múlti- Argimon JM. La ausencia de significación estadística en un
ples variables, de forma que una ecuación predictiva ensayo clínico no significa equivalencia terapéutica. Med
mejorará su capacidad de predicción al incorporar Clin (Barc) 2002; 118: 701-703.
más de una variable o la estimación del efecto del fac- Bayarri MJ, Cobo E. Una oportunidad para Bayes. Med Clin
tor de estudio estará ajustada, es decir, se habrá con- (Barc) 2002; 119: 252–253.
trolado el efecto simultáneo de diferentes factores de Bland JM, Altman DG. Multiple significance tests: the Bon-
confusión. ferroni method. BMJ 1995; 310: 170.
En otras ocasiones, no puede diferenciarse entre Bland JM, Altman DG. Survival probabilities (the Kaplan-
variables dependientes e independientes, sino que, de Meier method). BMJ 1998; 317: 1572.
Bender R, Lange S. Adjusting for multiple testing-when and
acuerdo con el objetivo del estudio, el análisis persi-
how? J Clin Epidemiol. 2001; 54: 343-349.
gue finalidades diferentes, como la clasificación de
Bender R. Calculating confidence intervals for the number
variables o individuos aparentemente heterogéneos needed to treat. Control Clin Trials 2001; 22: 102-110.
en grupos homogéneos, según un conjunto de datos Bradburn MJ, Clark TG, Love SB, Altman DG. Survival
(análisis de conglomerados o cluster analysis), o la iden- Analysis Part II: Multivariate data analysis - an introduc-
tificación de los factores subyacentes en un conjunto tion to concepts and methods. Br J Cancer 2003; 89:
de variables, es decir, la reducción de la dimensionali- 431-436.
260
PAPEL DE LA ESTADÍSTICA
Clark TG, Bradburn MJ, Love SB, Altman DG. Survival Moss M, Wellman DA, Cotsonis GA. An appraisal of multi-
Analysis. Part I: Basic concepts and first analyses. Br J variable logistic models in the pulmonary and critical
Cancer 2003; 89: 232-238. care literature. Chest 2003; 123: 923-928.
Cobo E. Análisis multivariante en investigación biomédica: Moye LA. P-value interpretation and alpha allocation in clin-
criterios para la inclusión de variables. Med Clin (Barc) ical trials. Ann Epidemiol 1998; 8: 351-357.
2002; 119: 230-237. Thompson JR. Invited commentary. Re: multiple compari-
Delgado-Herrera L, Anbar D. A model for the interim ana- son and related issues in the interpretation of epidemio-
lysis process: a case study. Control Clin Trials 2003; 24: logical data. Am J Epidemiol 1998; 147: 801-806.
51-65. Vickers AJ, Altman DG. Analysing controlled trials with base-
Goodman SN. Multiple comparisons, explained. Am J Epi- line and follow up measurements. BMJ 2001; 323: 1123-
demiol 1998; 147: 807-812. 1124.
Katz MH. Multivariable analysis: a primer for readers of med- Wilhelmsen L. Role of the Data and Safety Monitoring
ical research. Ann Intern Med 2003; 138: 644-650. Committee (DSMC). Stat Med 2002; 21: 2823-2829.
Lang JM, Rothman KJ, Cann CI. That confounded P-value. Wright JG. The minimal important difference: who’s to say
Epidemiology 1998; 9: 7-8. what is important? J Clin Epidemiol 1996; 49: 1221-1222.
261
Capítulo 28
Potencia de un estudio
os estudios cuyos resultados no son estadística- sultados negativos publicados en tres revistas de ci-
262
POTENCIA DE UN ESTUDIO
Tabla 28.1. Errores en una prueba estadística que contrasta la hipótesis de que OR = 1
en función de la hipótesis alternativa considerada
Conclusión de la prueba
del tamaño de la muestra necesario, para intentar dicha variabilidad (selección de poblaciones
garantizar que el estudio tiene la capacidad (poten- homogéneas, reducción de los errores de medida,
cia) suficiente para detectar una determinada dife- etc.) aumentarán la potencia del estudio. Lo mismo
rencia (si existe). ocurre cuando la variable se mide en una escala cua-
litativa. En este caso, la potencia dependerá del va-
lor de la variable de respuesta en el grupo control.
POTENCIA ESTADÍSTICA
Cuando este valor sea muy pequeño, cualquier
La potencia de un estudio depende de cuatro ele- aumento observado en el grupo de estudio será fácil
mentos: la asociación o la diferencia existente entre de detectar.
los grupos considerada de interés, la variabilidad de
la variable de respuesta, el valor de significación es- Ejemplo 28.4. Supongamos un ensayo clínico que
tadística y el número de sujetos estudiado. compara un nuevo fármaco con otro estándar, y
La potencia depende de la asociación o la dife- que la variable de respuesta es el porcentaje de cu-
rencia entre los grupos que se considera de interés raciones. Si el fármaco estándar produce un por-
o relevancia, es decir, de la hipótesis alternativa, de centaje muy bajo de curaciones, cualquier mejoría
forma que la potencia es tanto mayor cuanto más se observada con el nuevo fármaco será fácil de detec-
aleja Ha de Ho. El aumento de la potencia es mayor tar. Si el grupo control tiene, por ejemplo, un por-
de lo que podría parecer intuitivamente. centaje de éxitos (Pc) del 10% y el grupo de estudio
(Pe) del 20%, esta diferencia absoluta del 10% será
Ejemplo 28.3. Un estudio que compara dos grupos más fácil de detectar que en el supuesto de que Pc
de 200 sujetos cada uno, en el que la proporción fuera del 45% y Pe del 55%. En el primer caso, la di-
observada en el grupo control es del 10%, tiene ferencia relativa es del 100%, mientras que en el se-
una potencia del 33% para detectar un RR de gundo, es sólo del 22%.
1,5 (Ha: RR = 1,5), del 81% para detectar un RR
de 2 (Ha: RR = 2) y de hasta el 98% para detectar El valor de significación estadística prefijado
un RR de 2,5 (Ha: RR = 2,5). influye directamente sobre la potencia: si se dismi-
nuye α con el fin de reducir el riesgo de llegar a una
La potencia también depende de la variabilidad conclusión falsamente positiva, se aumenta la pro-
del parámetro de interés. Cuando la variable de res- babilidad de obtener un resultado falsamente ne-
puesta se mide en una escala cuantitativa, puede gativo (se disminuye la potencia estadística). Aun-
deducirse intuitivamente que, cuanto mayor sea su que este comentario parece poco relevante porque
variabilidad (mayor variancia), más difícil será po- casi siempre se fija el valor de α en el 5%, es impor-
der descartar que determinadas diferencias puedan tante cuando debe decidirse entre el carácter uni o
deberse a las fluctuaciones del muestreo, es decir, bilateral de la prueba. Sin embargo, aunque la prue-
menor será la potencia del estudio. Por ello, al ba unilateral es más potente que la bilateral, la con-
diseñar un estudio, las medidas dirigidas a reducir trapartida es que sólo se presta atención a un senti-
263
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
do de la comparación, por lo que las desviaciones en investigadores están tentados de añadir categorías
la dirección contraria conducirán a un resultado no diferentes de la enfermedad. Sin embargo, esta
significativo (no rechazo de Ho). práctica puede disminuir la potencia y conducir a
Finalmente, cuanto mayor sea el número de par- un sesgo en la estimación del efecto, ya que aumen-
ticipantes en un estudio, mayor será su potencia es- ta la heterogeneidad de la muestra y determinados
tadística. Por ello, los estudios con una muestra muy efectos pueden quedar diluidos.
pequeña son los que con más probabilidad pueden
dar conclusiones falsamente negativas. Ejemplo 28.5. Supongamos un estudio de cohortes
que investiga si la administración de un fármaco
durante el embarazo aumenta la incidencia de una
POTENCIA Y DISEÑO DEL ESTUDIO
determinada malformación congénita. Dado que
Numerosos aspectos del diseño del estudio están ésta sólo aparece en un número muy reducido de
relacionados con su potencia. La mayoría de ellos casos, los investigadores deciden incluir todas las
son interdependientes y, a menudo, resulta imposi- malformaciones, con independencia de su tipo, en
ble optimizarlos de forma simultánea. una variable de respuesta única. Como no existe un
teratógeno único que cause todas las malformacio-
D EFINICIÓN DE LA POBLACIÓN nes, el problema del análisis puede ser agrupar mal-
DE ESTUDIO formaciones no relacionadas con el medicamento
Si bien la elección de la población es obligada por la de estudio con otras que sí lo están.
misma naturaleza del estudio y de la hipótesis que se
desea contrastar, es conveniente tener en cuenta Las estrategias para prevenir fenómenos de con-
algunos aspectos que pueden aumentar la potencia. fusión (emparejamiento y estratificación) también
En primer lugar, ya que la potencia depende son útiles para aumentar la potencia estadística, al
de la variabilidad de la variable de respuesta, la ho- reducir la variabilidad del parámetro de estudio.
mogeneidad de la población de estudio tiende a
aumentar la potencia. M EDICIÓN DEL FACTOR DE ESTUDIO
Por otro lado, la potencia de un estudio es tanto Y LA VARIABLE DE RESPUESTA
mayor cuanto más se aproxima al 50% la proporción Los errores de medida conducen a sesgos de clasifi-
de sujetos expuestos (en los estudios de casos y con- cación, una de cuyas consecuencias es una pérdida
troles) o la frecuencia de la enfermedad (en los es- de la potencia causada por una dilución de la aso-
tudios de cohortes y ensayos clínicos). Pero, en la ciación. Por otro lado, no debe olvidarse que la pro-
práctica, raramente se alcanzan estos valores, por lo pia elección de la variable de medida de la exposi-
que se trata de definir una población de estudio en ción al factor de estudio y de la respuesta tiene una
la que estos porcentajes sean lo más elevados posible. gran influencia sobre la potencia, ya que de ella de-
Dado que la potencia también depende de la pende, en gran parte, la capacidad para detectar
magnitud de la asociación considerada (Ha), es con- una diferencia o una asociación. Por ello, es funda-
veniente seleccionar una población de estudio en la mental asegurar que las variables estén perfecta-
que sea probable que el efecto sea de mayor mag- mente definidas al inicio del estudio y que su medi-
nitud (p. ej., utilizando a personas de edad avanza- da sea lo más exacta posible.
da o niños asmáticos para evaluar el riesgo respira-
torio asociado a la contaminación atmosférica). TAMAÑO DE LA MUESTRA
El empleo de criterios de selección amplios con El número de sujetos incluidos en un estudio influ-
la finalidad de conseguir un mayor número de ye directamente sobre su potencia. En general, la
casos no necesariamente aumenta la potencia del máxima potencia se alcanza cuando los grupos tie-
estudio, ya que puede introducir una mayor varia- nen el mismo tamaño. Sin embargo, en ocasiones,
bilidad y diluir la asociación, al incluir casos en los el número de sujetos accesibles está limitado en uno
que ésta sea menor o en los que ésta no esté asocia- de los grupos (habitualmente los casos en los es-
da con la exposición. Por ejemplo, en ocasiones, tudios de casos y controles, y los expuestos en los de
dado el previsible reducido número de casos, los cohortes), de forma que si se elige el mismo núme-
264
POTENCIA DE UN ESTUDIO
ro en el otro grupo, la potencia será muy reducida. En algunas situaciones, la definición de un pe-
En estas circunstancias, se puede incrementar el ríodo de exposición de interés puede influir sobre
número de sujetos del otro grupo de comparación la potencia del estudio.
para aumentar la potencia, aunque esta ganancia es
casi nula cuando la relación es superior a 4:1. Ejemplo 28.6. El riesgo de cáncer asociado a la expo-
La ausencia de información sobre algunos suje- sición ambiental a determinados agentes químicos
tos puede comportar una disminución de la poten- suele manifestarse tras períodos de inducción muy
cia al reducirse el número de individuos útiles para largos, entre 10 y 40 años. Por ello, cuando se detec-
el análisis, especialmente cuando se utilizan técni- ta la aparición de uno de estos cánceres en un indi-
cas multivariantes, ya que éstas sólo tienen en cuen- viduo, las exposiciones muy recientes (p. ej., en los
ta a los sujetos de los que se dispone de informa- últimos 10 años) o muy antiguas (p. ej., hace más de
ción en todas las variables implicadas. 40 años) no deberían incluirse en el cálculo de la ex-
posición acumulada, el cual debería limitarse a una
ventana temporal (en el ejemplo, 10-40 años antes
POTENCIA Y ANÁLISIS ESTADÍSTICO de la aparición del cáncer). La inclusión de exposi-
El investigador también puede influir sobre algu- ciones ocurridas fuera de este intervalo podrían
nos aspectos del análisis de los datos con la finali- producir una dilución de la asociación y, por tanto,
dad de aumentar la potencia estadística. una pérdida de la potencia.
265
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
ble es que el resultado refleje que, en realidad, la Tabla 28.2. Tabla de conversión de valores
diferencia no existe o es inferior a la magnitud que de Zβ a potencia estadística
se deseaba descartar. Si es reducida, el resultado es
poco informativo y debe interpretarse como que las Zβ Potencia Zβ Potencia
evidencias obtenidas son insuficientes para llegar a
una conclusión sobre la existencia o la ausencia de –2,5 0,006 0,0 0,500
la diferencia. –2,4 0,008 0,1 0,540
–2,3 0,011 0,2 0,579
–2,2 0,014 0,3 0,618
CÁLCULO DE LA POTENCIA –2,1 0,018 0,4 0,655
ESTADÍSTICA –2,0 0,023 0,5 0,691
El cálculo de la potencia estadística se sustenta en el –1,9 0,029 0,6 0,726
cálculo de Zβ a partir de los resultados observados –1,8 0,036 0,7 0,758
en el estudio, el número de sujetos realmente ana- –1,7 0,045 0,8 0,788
lizados y el valor de la significación estadística prefi- –1,6 0,055 0,9 0,816
jado. Los métodos que se presentan a continuación –1,5 0,067 1,0 0,841
–1,4 0,081 1,1 0,864
son aproximados, ya que utilizan valores de pará-
–1,3 0,097 1,2 0,885
metros que son, de hecho, desconocidos (p. ej., la
–1,2 0,115 1,3 0,903
variancia cuando se trata de variables cuantitativas, –1,1 0,136 1,4 0,919
o el valor del porcentaje, si la hipótesis alternativa –1,0 0,159 1,5 0,933
es cierta, cuando se trata de variables cualitativas), y –0,9 0,184 1,6 0,945
no tienen en cuenta que la mayoría de los análisis –0,8 0,212 1,7 0,955
estadísticos que se llevarán a cabo usarán métodos –0,7 0,242 1,8 0,964
de ajuste o modelos multivariantes. –0,6 0,274 1,9 0,971
Puede utilizarse una tabla de la distribución nor- –0,5 0,309 2,0 0,977
mal para determinar la probabilidad de cometer un –0,4 0,345 2,1 0,982
error β asociada al valor Zβ. La tabla 28.2 presenta los –0,3 0,382 2,2 0,986
valores más frecuentes. El cálculo de la potencia es- –0,2 0,421 2,3 0,989
tadística cuando la variable de respuesta es cualitati- –0,1 0,460 2,4 0,992
va puede realizarse con la fórmula de la tabla 28.3. 0,0 0,500 2,5 0,994
√
50 (0,35 0,25)2 n: es el número de sujetos estudiados en cada grupo
zβ = 1,96 = 0,87 (se asume que es el mismo en ambos grupos).
2 0,3 0,7
p0: es el porcentaje de eficacia observado en el grupo control.
p1: es el porcentaje de eficacia del grupo de intervención que
(cabe recordar que p = (0,25 + 0,35)/2 = 0,30, por se desearía detectar (así pues, p1-p0 sería la diferencia de
lo que q = 1 –0,30 = 0,70). A partir de la tabla 28.2 relevancia clínica que se desearía detectar).
p: = (p0 + p1)/2.
puede apreciarse que la potencia estadística se si-
q: = 1–p.
túa entre un 18 y un 21%. Si se busca el valor de Zα/2: es el valor de la distribución normal Z para el valor α
Zβ = –0,87 en las tablas de la distribución normal, se bilateral fijado (habitualmente, α = 0,05 y Zα/2 = 1,96).
266
POTENCIA DE UN ESTUDIO
obtiene que la probabilidad de cometer un error β dios de casos y controles. En esta situación, p1
es de 0,81, es decir, que la potencia del estudio para representa la proporción de casos expuestos que se
detectar esta diferencia es sólo de 0,19 (19%). desea detectar y p0 la proporción de controles
expuestos. Si en lugar de definir la diferencia de
Si la variable de respuesta es cuantitativa, puede relevancia clínica que se desea detectar en forma de
utilizarse la fórmula de la tabla 28.4. porcentajes se realiza en forma de magnitud de
OR, puede aplicarse la misma fórmula, calculando
p1 del siguiente modo:
Tabla 28.4. Fórmula para el cálculo
de la potencia estadística cuando p0 OR
la variable de respuesta p1 =
es cuantitativa
1 p0 (OR 1)
0,3 2
p1 = = 0,46
Ejemplo 28.8. Supongamos un estudio diseñado 1 0,3 (2 1)
para comparar la función pulmonar de dos grupos p = (0,30 0,46) / 2 = 0,38
de 50 varones utilizando el volumen espiratorio
forzado (FEV). La desviación estándar del FEV es q = 1 0,38 = 0,62
de 0,5 l (s = 0,5). Se desea calcular la potencia de
√
dicho estudio para detectar una diferencia entre 50 (0,46 0,30)2
zβ = = 1,96 = 0,31
las medias de FEV de ambos grupos de 0,25 l. 2 0,38 0,62
Aplicando la fórmula, se obtiene:
En la tabla 28.2 puede apreciarse que la poten-
√
0,25 50 cia se sitúa alrededor del 38%. Buscando el valor de
Zβ = 1,96 = 0,54
0,5 2 Zβ = –0,31 en las tablas de la distribución normal, se
obtiene que la probabilidad de cometer un error β
En la tabla 28.2 puede apreciarse que este valor es de 0,62, es decir, que la potencia del estudio para
corresponde a una potencia que se sitúa entre el 70 detectar esta diferencia es de 0,38 (38%). Así pues,
y el 73%. Buscando el valor de Zβ = 0,54 en las si el riesgo de IAM asociado al uso de AO en las mu-
tablas de la distribución normal, se obtiene que la jeres jóvenes fuera de 2, y sólo se incluyeran 50 ca-
probabilidad de cometer un error β es de 0,29, es sos y 50 controles, el estudio sólo tendría un 38%
decir, que la potencia del estudio para detectar esta de posibilidades de detectar esta diferencia como
diferencia es de 0,71 (71%). estadísticamente significativa.
La fórmula para el cálculo de la potencia cuan- Nótese que esta fórmula asume que se han in-
do la variable de respuesta es cualitativa (ver ta- cluido el mismo número de casos que de controles
bla 28.3) también permite su cálculo en los estu- (o aproximadamente el mismo). Si no es éste el
267
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
caso, deberá aplicarse la fórmula para la situación tar un riesgo de 1,5 de AVC asociado al consumo de
en que hay más de un control por caso: tabaco, si éste existe.
√
n (p1 p0)2 De las relaciones entre los diferentes términos
zβ = – Zα/2 implicados en los cálculos anteriores, puede dedu-
(1 1/c)pq
cirse una sencilla fórmula que permite determinar,
si se conoce el número de sujetos que era necesario
Donde n representa el número de casos; c, el de para detectar una determinada diferencia con la
controles por cada caso, y p se calcula del siguiente potencia deseada al inicio del estudio, la diferencia
modo: que ha sido capaz de detectar con el número de
sujetos realmente estudiado y la potencia deseada:
p 1 c p0
p=
√
1c n1
d2= d1
n2
siendo q el complementario de p.
Donde d2 es la diferencia entre ambos grupos
Ejemplo 28.10. Supongamos un estudio de casos y que podría detectarse con el número de sujetos
controles sobre el riesgo de padecer un accidente estudiado; d1 es la diferencia considerada de rele-
vascular cerebral (AVC) asociado al consumo de ta- vancia clínica, a partir de la cual se determinó el
baco, en el que se han estudiado 474 casos, de los número de sujetos necesario; n1 es el número de
cuales 171 fumaban, y 255 controles, de los que fu- sujetos que se determinó que era necesario para
maban 90. Se desea determinar la potencia estadís- detectar la diferencia d1; y n2 es el número de suje-
tica de este estudio para detectar un riesgo de AVC tos realmente estudiado.
asociado al consumo de tabaco de 1,5 (OR = 1,5),
aceptando una probabilidad de error α bilateral Ejemplo 28.11. Supongamos que se ha realizado un
del 0,05. El cálculo se realizaría del siguiente modo:
ensayo clínico para evaluar la eficacia de un nuevo
fármaco. La eficacia del tratamiento utilizado como
c = 255/477 = 0,54
control es del 25% (p0 = 0,25). Se diseñó el estudio
p0 = 90/255 = 0,35 de forma que, para detectar una diferencia entre
0,35 1,5 los tratamientos del 10% (p1 – p0 = 0,1) con un valor
p1 = = 0,45 de significación bilateral del 5%, tuviera una poten-
1 0,35 (1,5 1) cia del 90%, lo que significaba que eran necesarios
0,45 0,54 0,35 439 sujetos por grupo. Sin embargo, al realizar el
p= = 0,41 estudio, sólo se encontraron 600 sujetos disponi-
1 0,54 bles, 300 en cada grupo. ¿Qué diferencia ha sido ca-
paz de detectar este estudio con el número de suje-
q = 1 0,41 = 0,59
tos estudiado con la potencia deseada del 90%?
√
474 (0,45 0,35)2
zβ = 1,96 = 0,66 439
(1 1/0,54) 0,41 0,59 d2 = 0,1 = 0,12
300
En la tabla 28.2 se aprecia que la potencia se
sitúa entre el 73 y el 76%. Buscando el valor de Por lo tanto, al haber estudiado 300 sujetos por
Zβ = 0,66 en las tablas de la distribución normal, se grupo, se tenía una potencia del 90% para detectar
obtiene que la probabilidad de cometer un error β una diferencia mínima del 12%; es decir, dado que
es de 0,25, es decir, que la potencia del estudio para la eficacia del tratamiento de control es del 25%,
detectar esta diferencia es de 0,75 (75%). Así pues, podrá detectarse un aumento de la eficacia con el
el estudio tiene un 75% de posibilidades de detec- nuevo tratamiento a partir del 37%.
268
POTENCIA DE UN ESTUDIO
B IBLIOGRAFÍA DE LOS EJEMPLOS Lang TA, Secic M. How to report statistics in medicine.
Dimick JB, Diener-West M, Lipsett PA. Negative results of Filadelfia: American College of Physicians, 1997.
randomized clinical trials published in the surgical litera- Matthews JN. Small clinical trials: are they all bad? Stat Med
ture: equivalency or error? Arch Surg 2001; 136: 796-800. 1995; 14: 115-126.
Freiman JA, Chalmers TC, Smith H, Kuebler RR. The impor- Moher D, Dulberg CS, Wells GA. Statistical power, sample
tance of beta, type II error and sample size in the design size, and their reporting in randomized controlled trials.
and interpretation of the randomized control trial. JAMA 1994; 272: 122-124.
N Engl J Med 1978; 299: 690-694. Redelmeier DA, Guyatt GH, Goldstein RS. Assessing the
minimal importat difference in symptoms: a comparison
B IBLIOGRAFÍA of two techniques. J Clin Epidemiol 1996; 49: 1215-1219.
Altman DG, Bland JM. Absence of evidence is not evidence Sahai H, Khurshid A. Formulae and tables for the determi-
of absence. BMJ 1995; 311: 485. nation of sample sizes and power in clinical trials for tes-
Armitage P, Berry G, Matthews JNS. Statistical Methods in ting differences in proportions for the two-sample
Medical research. 4.a ed. Oxford: Blackwell Science, 2002. design: a review. Stat Med 1996; 15: 1-21.
Bouyer J, Hémon D, Cordier S, Derriennic F, Stücker I, Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
Stengel B et al. Épidémiologie: principes et méthodes dence of bias: dimensions of methodological quality
quantitatives. París: INSERM, 1995. associated with estimates of treatment effect in con-
Galbraith S, Marschner IC. Guidelines for the design of cli- trolled trials. JAMA 1995; 273: 408-412.
nical trials with longitudinal outcomes. Control Clin Wright JG. The minimal important difference: who’s to say
Trials 2002; 23: 257-273. what is important? J Clin Epidemiol 1996; 49: 1221-1222.
Godwin M. Hypothesis: the research page. Part 3: Power,
sample size, and clinical significance. Can Fam Physician
2001; 47: 1441-1443.
269
Capítulo 29
Sesgos
270
SESGOS
Tabla 29.1. Preguntas que se han de formular para evaluar la presencia de un sesgo
Tipo de sesgo si la
Pregunta respuesta es negativa Observaciones
¿Todos los participantes tienen la Sesgo de selección En los ensayos clínicos se previene
misma probabilidad de haber con la asignación al azar
recibido la intervención o haber En los estudios observacionales se
estado expuestos al factor previene siguiendo unos criterios de
de estudio? selección y exclusión muy estrictos
¿Los individuos que se pierden Sesgo de selección que limita Hay que conocer los motivos y
tienen la misma probabilidad la comparabilidad final del estudiar una muestra de los que
de desarrollar la respuesta estudio se pierden para poder contestar
que los que finalizan el estudio? a la pregunta y poder interpretar
los resultados
¿La detección de la respuesta se ha Sesgo de información Emplear técnicas de enmascaramiento
hecho con las mismas pruebas Dar resultados falsos negativos (atenúa
y con la misma intensidad la asociación)
en todos los participantes?
¿La medición de la variable Sesgo de información En algunas ocasiones puede estimarse
de respuesta es sensible su magnitud o corregirse una vez
y específica? finalizado el estudio
Tabla 29.2. Situaciones en las que principio es más difícil de asegurar en los estudios
puede haberse introducido un observacionales, especialmente en los diseños de casos
sesgo de selección en un estudio y controles y en los retrospectivos de cohortes.
271
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
a haber recibido el programa de educación. Al revisar de salud relacionados con el consumo de tabaco
los criterios de selección de ambos grupos, puede (p. ej., un mayor número de defunciones por infarto
observarse que son diferentes, ya que el grupo control de miocardio). Si no se tiene en cuenta este hecho, se
está formado por sujetos que habían rechazado el producirá un sesgo en la estimación del riesgo de
programa de educación y que podían no haber acudi- cáncer de pulmón asociado al consumo de tabaco, ya
do a las visitas de seguimiento. Así pues, estos dos que probablemente los sujetos más expuestos (más
hechos parecen indicar que el grupo de referencia fumadores) habrán presentado otros problemas
podría estar formado por individuos menos motiva- de salud relacionados, de forma que la incidencia de
dos por su enfermedad que los del grupo de estudio, cáncer se estimará en un grupo de sujetos que
de forma que podría ser esta diferente motivación la estarán menos expuestos que la cohorte inicial.
que les hubiera conducido a un peor control de la dia-
betes, independientemente del efecto del programa de S UPERVIVENCIA SELECTIVA
educación. Este ejemplo pone de manifiesto la dificul- El sesgo de selección debido a la supervivencia selec-
tad que existe en los estudios retrospectivos para eva- tiva se produce en los estudios en que se incluyen
luar determinadas prácticas preventivas o exposiciones, casos prevalentes, es decir, sujetos que han sobrevivi-
debido a la introducción de sesgos de selección. do a las primeras fases de su enfermedad. Si la letali-
dad de una enfermedad depende de la exposición
La elección de un grupo de comparación adecua- (p. ej., si la cardiopatía isquémica es más grave en
do que evite los sesgos de selección es particularmente los sujetos que presentan más factores de riesgo), los
difícil en los estudios de casos y controles. La selección casos prevalentes no serán representativos de todos
de los sujetos del grupo control ha de ser indepen- los casos, sino que presentarán menores niveles de
diente de la historia de exposición, y debe excluir exposición, lo que puede conducir a una estimación
aquellos individuos que tengan enfermedades relacio- sesgada de la asociación. Además, los casos prevalen-
nadas positiva o negativamente con la exposición. Por tes pueden haber cambiado sus hábitos en relación
otro lado, también se recomienda utilizar pacientes con la exposición (p. ej., haber dejado de fumar tras
con diferentes patologías como grupo control, y com- un infarto de miocardio), hecho que también condu-
probar que las frecuencias de exposición son similares ciría a un sesgo en los resultados.
entre ellas. La finalidad de esta estrategia es que, si
alguna de las patologías seleccionada está asociada Ejemplo 29.3. Supongamos un estudio de cohortes
positiva o negativamente con la exposición, su influen- en el que se incluyen 1.000 individuos expuestos a un
cia dentro del grupo control sea pequeña. factor de riesgo (p. ej., hipertensión arterial, HTA) y
1.000 no expuestos. Ambos grupos son seguidos
P ÉRDIDAS DE SEGUIMIENTO durante 10 años con el fin de comparar las tasas de
En los estudios prospectivos, una de las principales incidencia de cardiopatía isquémica (CI) observadas
causas potenciales de sesgos de selección son las pér- en cada uno de ellos. Los resultados a los 10 años se
didas de individuos, o abandonos, producidas duran- presentan en la tabla 29.3. El riesgo de CI sería
te el período de seguimiento. Cuando las personas 3 veces mayor en los expuestos que en los no expues-
que se pierden durante el seguimiento difieren de tos (300 casos de CI entre los expuestos y sólo 100
las que no abandonan por variables relacionadas con entre los no expuestos).
el factor de estudio y la variable de respuesta, se pro- Supongamos ahora que, en lugar de haberse lle-
ducirá un sesgo en los resultados. La introducción de vado a cabo este estudio, se hubiera realizado un estu-
este sesgo dependerá de los motivos de la pérdidas, dio de casos y controles 10 años después, seleccio-
más que de su número. nando los casos prevalentes (supervivientes). Por lo
tanto, se incluirían como casos los sujetos vivos con
Ejemplo 29.2. Supongamos un estudio de cohortes CI (primera columna de resultados de la tabla), y
en el que se sigue un grupo de sujetos fumadores y como controles, los vivos sin CI (tercera columna de
otro de no fumadores, para comparar en ellos la inci- resultados de la tabla). En este estudio hipotético, la
dencia de cáncer de pulmón. A lo largo del segui- estimación del riesgo de CI sería OR = (50 ⫻ 900)
miento, es muy probable que se produzcan pérdidas /(700 ⫻ 80) = 0,80. Dado que la OR es inferior a 1,
de seguimiento con mayor frecuencia en la cohor- este resultado parece sugerir que la HTA habría
te de fumadores debido a la aparición de problemas actuado como un factor protector de la CI. Por estos
272
SESGOS
motivos, en los estudios de casos y controles sobre Ejemplo 29.5. Un ejemplo clásico de este tipo de ses-
una enfermedad con elevada mortalidad deben utili- go es el estudio sobre el riesgo de tromboembolia
zarse siempre casos incidentes. pulmonar (TP) asociado al uso de anticonceptivos
orales (AO). En el primer estudio de casos y contro-
M UESTRA NO REPRESENTATIVA les publicado sobre esta asociación (Sartwell et al,
DE LA POBLACIÓN DE ESTUDIO 1969), se discutió que una posible explicación era el
La selección de una muestra no representativa es una hecho de que algunos médicos conocían la hipótesis
causa frecuente de sesgo de selección en los estudios de trabajo y, en consecuencia, las usuarias de AO te-
transversales, aunque también puede presentarse en nían mayor probabilidad de ser ingresadas con el
los estudios analíticos. Se introduce en el proceso diagnóstico de TP y, además, podían haber sido some-
de selección de la muestra a partir de la población de tidas a un mayor número de pruebas para diagnosticar
estudio. o descartar la enfermedad que las mujeres del grupo
control. Si esto hubiera sucedido realmente, la obser-
Ejemplo 29.4. Consideremos que se realiza un estu- vación de una mayor frecuencia de uso de AO en las
dio transversal para estimar la prevalencia de un pro- mujeres con TP podría explicarse, al menos en parte,
blema de salud (p. ej., hipercolesterolemia) en una porque la hospitalización y la determinación del
comunidad determinada. Si se selecciona la muestra diagnóstico habrían estado influidas por el uso de AO.
a partir de los individuos que acuden espontánea-
mente a los centros sanitarios públicos por cualquier PARTICIPACIÓN DE VOLUNTARIOS
motivo, probablemente se obtendrá una estimación O EFECTO DE AUTOSELECCIÓN
sesgada de la prevalencia, ya que las personas que Cuando se decide utilizar voluntarios en un estudio,
consultan no son representativas de la población debe tenerse en cuenta que pueden introducir un
general, ni las que lo hacen en centros públicos son sesgo, ya que estos sujetos habitualmente son dife-
comparables a las que acuden a centros privados. rentes de los no voluntarios (autoselección). Si la
voluntad de participar está relacionada con factores
En este tipo de estudios debe identificarse clara- que pueden influir sobre la relación que se estudia, la
mente la población de estudio y obtener una muestra selección de este tipo de sujetos puede conducir a
de ella mediante una técnica de selección que tienda una estimación sesgada.
a asegurar su representatividad y prever estrategias
para reducir el número de no respuestas. Ejemplo 29.6. Un ejemplo de este tipo de sesgo es la
evaluación del efecto de la vacuna antipolio de Salk.
S ESGO DE DETECCIÓN Se utilizaron dos diseños diferentes para valorar la
El sesgo de detección se produce cuando el proce- eficacia de la vacuna (Meier, 1978). En algunas comu-
dimiento utilizado para identificar la presencia de nidades, se asignaron los niños al azar para recibir la
la respuesta varía o se modifica según la presencia o la vacuna o una inyección de placebo. Sin embargo,
ausencia del factor de estudio. Por ejemplo, en los es- otras comunidades rehusaron participar en un ensa-
tudios de casos y controles, este sesgo podría presentar- yo clínico aleatorio, pero estuvieron de acuerdo en
se si los casos fueran individuos en los que la presencia que la vacuna se podía dar a los niños de familias que
de enfermedad hubiera tenido mayor probabilidad de mostraban su interés en recibirla y que los demás
diagnosticarse por la presencia de la exposición. podían servir de control. Al analizar los datos, los
273
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
investigadores encontraron que las familias que mo (o expuesto/no expuesto en los estudios de
voluntariamente aceptaron la participación de sus cohortes). Cuando los errores de clasificación no son
hijos tenían un nivel de estudios superior e ingresos independientes se habla de mala clasificación diferen-
económicos mayores que los del grupo control. cial, y cuando lo son, de mala clasificación no diferencial.
Aunque estas variables se puedan controlar en el aná-
lisis, da idea de que ha existido una cierta selección E RROR DE CLASIFICACIÓN
por múltiples factores, algunos de ellos no medidos, NO DIFERENCIAL
y que pueden sesgar la estimación del efecto, en este Cuando la proporción de sujetos clasificados erró-
caso, la eficacia de la vacuna. neamente es similar en cada uno de los grupos de
estudio, se produce un error de clasificación no dife-
Este proceso de selección puede producirse antes rencial. Un ejemplo de esta situación es el empleo de
de que los sujetos sean identificados para su inclusión una técnica poco sensible para medir la exposición al
en el estudio. Por ejemplo, es bien conocido que la factor de riesgo, que se aplica por igual a los indivi-
mortalidad de los trabajadores en activo es menor duos de ambos grupos.
que la de la población de la misma edad y sexo en su Todos los estudios de investigación clínica y epi-
conjunto. Este efecto del trabajador sano se debe pre- demiológica tienen siempre algún grado de mala cla-
sumiblemente a un fenómeno de autoselección, que sificación de la exposición al factor de estudio o de la
permite a la gente que goza de buena salud conver- variable de respuesta, ya que generalmente es impo-
tirse en (o mantenerse como) trabajador en activo, sible utilizar un proceso de medición que sea a la vez
en tanto que los que permanecen desempleados, reti- 100% sensible y 100% específico.
rados, incapacitados o de algún modo fuera de la Los errores de clasificación no diferenciales tien-
población trabajadora activa son, en general, un den a producir una infraestimación de la verdadera
grupo que goza de menos salud. diferencia o asociación, es decir, que la estimación
estará sesgada hacia la unidad cuando se expresa en
medidas relativas, o hacia el cero si se expresa como
SESGOS DE INFORMACIÓN
una diferencia absoluta. Por esta razón, para la validez
Se producen cuando la información sobre el factor de un estudio estos errores suelen considerarse como
de estudio o la variable de respuesta es errónea o se una amenaza menor que los errores diferenciales. Sin
recoge de forma sistemáticamente diferente entre los embargo, pueden ser un problema importante, ya
grupos de estudio. Son causas frecuentes el uso de que pueden explicar algunas discrepancias entre los
instrumentos de medida inadecuados o de definicio- resultados de diferentes estudios epidemiológicos.
nes poco válidas o precisas de las variables, los errores El grado de infraestimación que producen depen-
introducidos por los encuestadores o por el personal de no sólo de la sensibilidad y la especificidad del ins-
que recoge la información, o errores debidos a los trumento de medida utilizado, sino también de la
propios participantes en el estudio, como el sesgo de prevalencia de la exposición.
memoria. En el diseño del estudio debe preverse su
aparición, utilizando definiciones e instrumentos de Ejemplo 29.7. Supongamos un estudio en que se
medida válidos y asegurando que el personal que los mide la exposición al factor de estudio con un instru-
aplica lo haga de igual forma en los distintos grupos. mento que tiene una sensibilidad del 90% y una espe-
Cuando la finalidad de un estudio es la estimación cificidad del 90%, y en el que la prevalencia de expo-
de un parámetro en una muestra de sujetos, la pre- sición es del 50%. Si la verdadera magnitud de la
sencia de un sesgo de este tipo conduce a la obten- asociación entre la exposición y la enfermedad fuera
ción de un resultado no válido. En los estudios analí- OR = 5, en el estudio se observaría una OR = 3,29. Si
ticos, la introducción de un sesgo de información la prevalencia de exposición fuera del 1%, el valor
conduce a una mala clasificación de los sujetos res- de la OR observado en el estudio sería de 1,33.
pecto al factor de estudio o a la variable de respuesta.
Las consecuencias son diferentes según si el error de Este hecho puede ser importante cuando se reali-
clasificación respecto al estado de expuesto/no za un ajuste por factores de confusión, ya que, si la
expuesto en los estudios de casos y controles (o de prevalencia de la exposición es diferente en cada una
enfermo/no enfermo en los estudios de cohortes) es de las categorías por las que se estratifica, el efecto del
o no independiente del estado de enfermo/no enfer- error de medida será diferente en cada una de ellas.
274
SESGOS
En el ejemplo 29.7 puede verse que, si la prevalencia entrevista o un cuestionario, y los casos recuerdan sus
de exposición fuera del 1% en una categoría del fac- antecedentes de forma diferente a los controles.
tor de confusión y del 50% en la otra, se obtendrían También puede producirse cuando los individuos
OR de 1,3 y 3,3, respectivamente, lo cual daría la falsa expuestos a algún riesgo (ocupacional, ambiental,
impresión de que existe una modificación de efecto, etc.) informan sobre el desarrollo de problemas de
cuando en realidad la OR es de 5 en ambas situacio- salud de forma diferente a como lo hacen los que no
nes. Por lo tanto, si la variable de confusión se ha están expuestos. Este tipo de sesgo es especialmente
medido sin error, pero la exposición (o la respuesta) problemático en los estudios de casos y controles, y en
se ha medido incorrectamente, los resultados deben los retrospectivos de cohortes, ya que tanto la exposi-
interpretarse con cautela, ya que pueden ser artefac- ción como la enfermedad ya han ocurrido, y puede
tos producidos por el error de medida. Cuando es la conducir tanto a una sobrestimación como a una
propia variable de confusión la que está sujeta a un infraestimación de la asociación entre la exposición y
error de medida no diferencial se puede observar la la enfermedad, dependiendo de si los casos recuer-
misma falsa apariencia de modificación del efecto del dan su exposición mejor o peor que los controles.
factor de estudio sobre la respuesta.
Otra posible consecuencia del error de medición Ejemplo 29.8. En un estudio realizado en madres de
de una variable de confusión es que, al ajustar la esti- niños con malformaciones congénitas, se obtuvo
mación por dicha variable, puede quedar un efecto información mediante una entrevista personal sobre
de confusión residual. 8 posibles exposiciones durante el embarazo y se
Los ejemplos y comentarios anteriores ilustran los comparó con la información registrada en la historia
peligros de la utilización de medidas de baja calidad, clínica del obstetra (Werler et al, 1989). Se consiguió
no sólo a la hora de clasificar a los individuos según la misma información, y de las mismas fuentes, de
su exposición al factor de riesgo o su estado de enfer- un grupo de madres de hijos sin malformaciones,
medad, sino incluso de las variables de confusión por que sirvió de control. La información sobre 5 de las
las que se va a ajustar. 8 exposiciones fue igual de exacta en los casos que en
En la interpretación de los resultados de un estu- los controles, pero la historia de infección durante el
dio que no ha observado un efecto, debe tenerse en embarazo, de infertilidad tratada o no, y del uso de
cuenta la posibilidad de que se haya introducido un métodos anticonceptivos durante dos semanas o más
sesgo de clasificación no diferencial, para evaluar en después del último período menstrual, fue mucho
qué medida podría haber enmascarado un efecto más exacta en los casos que en los controles.
real. Por el contrario, tiene menos importancia en Otro tipo de sesgo diferencial es el debido al
estudios en los que se ha observado un efecto impor- entrevistador o a la persona que recoge la informa-
tante, ya que este sesgo lo que produce es una infraes- ción, que aparece cuando existe alguna diferencia sis-
timación del mismo. Consecuentemente, en términos temática en la forma en que solicita, recoge o inter-
generales, no es correcto desdeñar un estudio que ha preta los datos procedentes de los participantes en
observado un efecto simplemente por el hecho de un estudio, en función del grupo al que pertenecen.
que exista un error de clasificación no diferencial.
Ejemplo 29.9. En un estudio de casos y controles cuyo
E RROR DE CLASIFICACIÓN objetivo era evaluar la hipótesis de que la endometrio-
DIFERENCIAL sis predispone a la infertilidad, se revisaron las historias
Los errores de clasificación diferencial pueden ir clínicas de 100 mujeres en las que se había practicado
tanto en la dirección de infraestimar la magnitud de una laparoscopia a causa de una infertilidad (Strathy et
la asociación o de la diferencia, como en la dirección al, 1982). En 21 de ellas se diagnosticó endometriosis.
de sobrestimarla. Como grupo control eligieron a 200 mujeres a las que
Un ejemplo de error de clasificación diferencial es se había prácticado una laparoscopia para una ligadura
el denominado sesgo de memoria, que se produce cuan- de trompas. En este grupo control sólo se diagnosticó
do los individuos con un determinado problema de endometriosis en 4 mujeres, lo que suponía una OR =
salud recuerdan su historia de exposición de forma 13. Se puede argumentar que la información sobre la
distinta a cómo la recuerdan aquellos que no tienen endometriosis no es comparable en los casos y en los
dicho problema. Suele producirse cuando se recoge controles. No es lo mismo su búsqueda cuando la lapa-
la información sobre la exposición mediante una roscopia se realiza a causa de infertilidad que por liga-
275
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
dura de trompas. Probablemente, en el primer caso se por razones prácticas o éticas, no se utiliza un diseño
buscó con más insistencia, dando lugar a un sesgo de controlado con placebo ni técnicas de enmascara-
información que sobrevaloraba la asociación. De todos miento.
modos, si este sesgo se corrige es muy probable que esta
fuerte asociación disminuya, pero no que desaparezca. Ejemplo 29.11. En un estudio de casos y controles
Por el contrario, si la asociación que se está estudiando sobre el efecto protector de la aspirina frente al infar-
es débil, la introducción de un sesgo puede alterar to agudo de miocardio se pueden introducir pregun-
totalmente la interpretación de los resultados. Un estu- tas sobre la frecuencia de otros medicamentos
dio positivo puede pasar a ser negativo, y viceversa, analgésicos, de los que no se tenga constancia de que
dependiendo de la dirección del sesgo. Así pues, no muestren ningún efecto sobre la enfermedad. Si los
sólo hay que valorar la posible existencia de errores sis- casos y los controles difieren en la frecuencia de uso
temáticos, sino también su magnitud. de estos fármacos se puede sospechar que se ha co-
metido un sesgo de información. Si son dos o más las
Un encuestador puede introducir un error de cla- personas que recogen la información, otra estrategia
sificación diferencial, si conoce la hipótesis del estu- para evaluar la posible existencia de un sesgo de in-
dio y la condición (de expuesto o enfermo, según el formación es comparar los resultados obtenidos por
tipo de estudio) del entrevistado. En esta situación cada una de ellas. Si se observan diferencias respecto
puede obtener información de los individuos de a la frecuencia de exposición o en otras variables, se
forma diferente (más exacta o más exhaustiva) según pensará que existe un sesgo debido al entrevistador.
al grupo de estudio al que pertenezcan. En la tabla 29.4 se resumen los principales efectos
de los errores de mala clasificación tanto diferencia-
Ejemplo 29.10. Aunque el objetivo de un estudio de les como no diferenciales.
casos y controles era la evaluación del efecto del con-
sumo de alcohol sobre el infarto de miocardio, se
explicaba a los participantes que se trataba de una
investigación sobre factores de riesgo de la hospitali- Tabla 29.4. Principales efectos de la mala
zación. De esta forma, aunque los participantes sa- clasificación
bían que habían sufrido un infarto de miocardio, no
lo relacionaban con la hipótesis de estudio. Por otro • Cuando la enfermedad se clasifica como presente
lado, los investigadores obtenían información no o ausente, la mala clasificación no diferencial
sólo sobre el consumo de alcohol, sino también hace que se diluya la asociación y en
sobre otros factores, lo que servía, así mismo, para consecuencia se infraestima el efecto de interés
que los participantes no pudieran relacionar el con- • Cuando la exposición se clasifica en dos
sumo de alcohol como el único factor de riesgo en categorías, la mala clasificación no diferencial
estudio. De esta forma se minimizaba la probabili- infraestima la asociación
dad de un sesgo de memoria o de un sesgo debido al • Cuando la exposición se clasifica en más de dos
encuestador. categorías, la mala clasificación no diferencial
puede sobrestimar o infraestimar la asociación
En los estudios de casos y controles, el sesgo debi-
• La mala clasificación diferencial de la
do al entrevistador se produce al recoger datos sobre
enfermedad o la exposición pueden conducir
la historia de exposición, dado que el conocimiento
a un sesgo en cualquier dirección (sobrestimar
de si se está entrevistando a un caso o a un control
o infraestimar la asociación)
puede condicionar la forma en que se recoge. Por la
misma razón, en los estudios restrospectivos de • La mala clasificación de un factor de confusión
cohortes también puede aparecer un sesgo debido al conducirá a una ajuste incorrecto
entrevistador, cuando se recoge información sobre la • La mala clasificación de un factor de confusión
exposición. En los estudios prospectivos de cohortes, puede dar lugar a estimaciones diferentes según
el sesgo debido al entrevistador se puede dar en el las categorías de la variable de confusión,
momento de recoger información sobre la enferme- introduciendo una modificación espúrea
dad (variable de respuesta). Este sesgo también pue- del efecto
de aparecer en estudios experimentales en los que,
276
SESGOS
277
Capítulo 30
Confusión y modificación del efecto
a finalidad del análisis de los resultados de un incluidos es muy pequeño. Por lo tanto, la signifi-
278
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO
ligado a las lipoproteínas de alta densidad (cHDL) el riesgo de desarrollar un infarto agudo de miocar-
entre enfermos con sarcoidosis activa y los que no dio (IAM) es el consumo de tabaco. En un estudio
presentan actividad. Se observa que los pacientes sobre esta asociación no sería suficiente recoger
con enfermedad activa tienen unas concentracio- información sobre si un individuo fuma, ya que no
nes de cHDL más bajas y que a su vez el porcentaje podría controlarse toda la distorsión debida a la can-
de mujeres es más alto que en el grupo con enfer- tidad de tabaco consumido, de manera que que-
medad inactiva. Es conocido, por estudios previos, daría un fenómeno de confusión residual sin con-
que las mujeres tienen unas concentraciones de trolar, al considerar que todos los fumadores tienen
cHDL superiores a las de los hombres. Si no se ajus- el mismo riesgo, sin tener en cuenta el gradiente de
taran las diferencias observadas de cHDL en fun- riesgo asociado a la cantidad de tabaco consumido.
ción del sexo, se obtendría como resultado un
efecto observado menor que el verdadero. Por el Dado que los factores de confusión son una
contrario, en otras ocasiones, no ajustar por facto- amenaza constante a la validez de los datos de un
res de confusión puede suponer obtener en el estu- estudio, no sólo es necesario considerar qué varia-
dio una asociación mayor que la verdadera. bles pueden confundir una asociación, sino tam-
bién medirlas de forma válida y precisa.
Desde un punto de vista práctico, la presencia
de un fenómeno de confusión puede detectarse
AJUSTE POR FACTORES DE CONFUSIÓN
comprobando si el análisis bruto (sin tener en
cuenta el factor de confusión) y el ajustado (con- Aunque el ajuste puede realizarse en la fase de aná-
trolando el potencial fenómeno de confusión) lisis, también pueden utilizarse estrategias en el
conducen a resultados que difieren de forma clíni- diseño del estudio destinadas a evitar o reducir la
camente relevante. La evaluación de la confusión confusión (tabla 30.1). Estos procedimientos pue-
no se basa, pues, en una prueba estadística, sino en den utilizarse en diferentes combinaciones para
la valoración de lo relevante que pueda considerar- aumentar el grado de control.
se la diferencia entre ambas estimaciones. Aunque
es difícil fijar un criterio único para concluir que ha
existido confusión, ya que depende de cada situa- Tabla 30.1. Métodos para controlar factores
ción concreta, algunos autores lo establecen en un de confusión
cambio de un 15-20% en la estimación del efecto
de interés. Sin embargo, debe tenerse en cuenta En la fase de diseño:
que lo importante no es tanto identificar si ha exis- • Asignación aleatoria
tido confusión, sino, en caso de que se haya produ- • Restricción
cido, obtener una estimación no distorsionada de
la magnitud del efecto del factor de estudio sobre la En la fase de diseño y análisis:
• Emparejamiento
variable de respuesta, es decir, que se haya contro-
lado su influencia (estimación ajustada). En la fase de análisis:
Aunque en la fase de análisis puede ajustarse por • Análisis estratificado
las variables de confusión, no hay que olvidar que ya • Análisis multivariante
en el diseño se debe tener en cuenta qué variables
pueden actuar como tales, para medirlas. Esta iden-
tificación depende del conocimiento que se tenga T ÉCNICAS DE CONTROL DE FACTORES
de los mecanismos causales, así como de estudios DE CONFUSIÓN EN EL DISEÑO
previos que se hayan realizado sobre una hipótesis Dado que para que una variable actúe como un
similar. La información que se recoge sobre ellos factor de confusión es necesario que se distribuya
debe ser lo suficientemente detallada como para de forma desigual entre los grupos de estudio, las
permitir su adecuado control en el análisis. técnicas que buscan conseguir su distribución
equilibrada tienden a prevenir su aparición. Sin
Ejemplo 30.3. Supongamos que un posible factor de embargo, no todas estas técnicas pueden utilizarse
confusión de la asociación entre el ejercicio físico y en todos los tipos de estudio.
279
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
280
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO
las estimaciones obtenidas en cada estrato, es prefe- dio, la estimación del riesgo de IAM asociado a la
rible presentar los resultados como una estimación práctica de ejercicio físico, ajustada por el consumo
conjunta del efecto entre el ejercicio físico y el IAM de tabaco, es de 0,834. Como este valor es sensible-
que haya tenido en cuenta la influencia del sexo, es mente diferente del obtenido con los datos crudos
decir, ajustada (ponderada según los estratos). (OR = 0,65), puede decirse que existe fenómeno de
confusión por el consumo de tabaco.
Ejemplo 30.5. Supongamos un estudio sobre la aso-
ciación entre ejercicio físico e infarto agudo de mio- Como ya se ha comentado, la magnitud de un
cardio (IAM), en el que se considera que el con- efecto de confusión se evalúa observando el grado
sumo de tabaco puede ser un potencial factor de de discrepancia entre las estimaciones crudas y las
confusión. Para controlar su efecto, se divide esta va- ajustadas, y valorando no su significación estadísti-
riable en categorías homogéneas (estratos), en cada ca, sino su relevancia clínica. En el ejemplo ante-
una de las cuales se analiza el efecto del ejercicio físi- rior, como las estimaciones cruda y ajustada difie-
co sobre la enfermedad. Aunque las categorías de ren (0,65 y 0,83, respectivamente), si se considera
consumo de tabaco podrían ser múltiples (p. ej., que la diferencia es clínicamente relevante, puede
nunca fumador, fumador de < 10 cigarrillos/día, decirse que ha existido efecto de confusión debido
fumador de > 10 cigarrillos/día y exfumador), para a la variable consumo de tabaco. La mejor estima-
ilustrar este ejemplo se han considerado tan sólo ción es la ajustada, ya que ha controlado este fenó-
dos estratos: no fumador y fumador. meno de confusión.
De los datos de la tabla 30.2 se desprende que el El análisis estratificado es una técnica sencilla, ase-
ejercicio físico es un factor protector del IAM tanto quible para los investigadores y los lectores de revistas
en fumadores como en no fumadores. La OR calcu- biomédicas, que permite comprender fácilmente las
lada en cada uno de los estratos es una estimación interrelaciones entre el factor de estudio, la respues-
de la asociación entre el ejercicio físico y el IAM en ta y las variables que pueden actuar como factores de
fumadores y en no fumadores. Dado que ambos re- confusión y/o modificadoras del efecto. Su principal
sultados son muy similares, es preferible obtener limitación es la dificultad para estratificar por múlti-
una estimación global ponderada que tenga en ples variables. Por ejemplo, si se desea controlar por
cuenta la información de todos los individuos inclui- tres variables (de 2, 3 y 5 categorías, respectivamen-
dos en el estudio. Cuando se trata de tablas 2 2, el te), existirán 30 posibles estratos y, aunque en el estu-
procedimiento más utilizado para realizar esta pon- dio se haya incluido un número importante de suje-
deración es el de Mantel y Haenszel. En este estu- tos, es muy posible que en algunos estratos no exista
Tabla 30.2. Ejemplo de análisis estratificado. Estudio hipotético de la asociación entre ejercicio físico
(EF) e infarto agudo de miocardio (IAM), con estratificación por el consumo de tabaco
(ejemplo 30.5)
281
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
el número de efectivos suficiente para estimar un como variable de respuesta la disminución de las
efecto con una precisión aceptable. cifras de presión arterial diastólica (PAD). Los resul-
tados se resumen en la tabla 30.3. En el gru-
Análisis multivariante po con tratamiento activo, se ha observado un des-
El análisis multivariante supera esta limitación del censo de 25 mmHg, mientras que ha sido sólo de
análisis estratificado y permite estimar de forma efi- 10 mmHg en el grupo placebo, por lo que el efecto
ciente el efecto de un factor de estudio sobre una del tratamiento puede cuantificarse en una dismi-
enfermedad, ajustado por varios potenciales facto- nución de 15 mmHg (en la ecuación de regresión
res de confusión, simultáneamente. obtenida con los datos crudos, el coeficiente de la
Su uso implica la construcción de un modelo ma- variable tratamiento es 15).
temático, en el que deben identificarse la variable Dado que los investigadores consideran que el
dependiente (variable de respuesta), la variable in- sexo podría ser un factor de confusión, controlan
dependiente principal (factor de estudio) y el resto su efecto, obteniendo una estimación del efecto del
de las variables independientes (factores de confu- tratamiento de 5 mmHg tanto en hombres como
sión a controlar), y se determinan los valores de los en mujeres. Si se hubiera realizado un análisis mul-
coeficientes de regresión de cada una de las varia- tivariante se habría obtenido una ecuación de
bles independientes. El coeficiente del factor de es- regresión en la que el coeficiente de la variable tra-
tudio corresponde a la estimación de su efecto so- tamiento sería 5, una vez controlado el efecto de la
bre la variable de respuesta, ajustado por el resto de variable sexo (también incluida en la ecuación). El
las variables independientes incluidas en el modelo. coeficiente de la variable sexo indicaría la diferen-
cia en la respuesta observada entre hombres y mu-
Ejemplo 30.6. Supongamos un ensayo clínico jeres (obsérvese que la disminución de las cifras de
hipotético en el que se compara la eficacia de un tra- PAD en los hombres ha sido 20 mmHg superior a la
tamiento antihipertensivo con un placebo. Se utiliza conseguida en las mujeres).
Tabla 30.3. Ejemplo de análisis multivariante. Ensayo clínico hipotético que compara un fármaco
antihipertensivo con placebo. La variable de respuesta es la disminución de las cifras
de presión arterial diastólica (dif. PAD). Se estima el efecto del tratamiento con ajuste
por la variable sexo (ejemplo 30.6)
282
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO
P ROBLEMAS DEL AJUSTE POR FACTORES Ejemplo 30.7. Supongamos que se quiere estudiar la
DE CONFUSIÓN relación entre la dieta y el cáncer de mama y se
La mayoría de los estudios clínicos y epidemiológi- desea ajustar la estimación del efecto por la clase so-
cos presentan estimaciones del efecto ajustadas por cioeconómica. Si se utiliza como medida indirecta
las variables consideradas como potenciales facto- de esta variable el grado de estudios, dado que éste
res de confusión. Sin embargo, el hecho de haber no la representa adecuadamente, el ajuste de los
ajustado por algunas variables no garantiza que se datos sólo será parcial.
haya eliminado cualquier efecto de confusión. Pue-
den existir algunos problemas relacionados con la Mala clasificación de las variables
información de las variables de confusión o con el de confusión
uso de técnicas estadísticas inadecuadas, que pue- Cuando las variables de confusión se miden de for-
den conducir a fallos en el ajuste (tabla 30.4). ma imprecisa o poco válida, sus relaciones con el
resto de las variables no se estiman correctamente,
de forma que, al ajustar por ellas, no se controla to-
talmente el fenómeno de confusión, y también
Tabla 30.4. Problemas en el ajuste por factores puede quedar un efecto de confusión residual.
de confusión
Ejemplo 30.8. Supongamos un estudio que desea
– Información inadecuada sobre la variable estimar el efecto del consumo de tabaco sobre el
de confusión
riesgo de padecer un infarto agudo de miocardio
• Agrupación inadecuada de los datos
(IAM). Los investigadores sospechan que la asocia-
• Utilización de medidas indirectas poco válidas
ción puede ser total o parcialmente explicada por la
• Mala clasificación de las variables de confusión
influencia de la práctica de ejercicio físico. Asuma-
– Variables muy correlacionadas mos que el 10% de los hombres no realizan activi-
– Existencia de modificación de efecto dad física. La tabla 30.5a muestra los resultados que
– Variable intermedia en la cadena causal se obtendrían cuando no hay mala clasificación.
Para ajustar correctamente por un factor de con-
– Variables que no son factores de confusión fusión, los instrumentos de medida deberían ser
– Pruebas estadísticas inadecuadas per fectos. En la práctica, la medición del grado de
– Selección automática de variables en un modelo actividad física es difícil y puede cambiar en el tiem-
de regresión po. Además, pueden existir errores de información
debidos al instrumento de medida utilizado, al pro-
283
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 30.5. Efecto de los errores de medida del factor de confusión sobre el ajuste. Estudio hipotético
del efecto del consumo de tabaco sobre el riesgo de infarto agudo de miocardo (IAM)
ajustado por la realización de ejercicio físico (EF) (ejemplo 30.8)
b) Situación en que existe mala clasificación (el 50% de los hombres que realizan ejercicio físico son clasificados
como que no lo realizan, mientras que el 5% de los que no lo hacen son clasificados como que sí)
284
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO
mismo efecto en cada uno de los estratos o cate- confusión, y el efecto del consumo de alcohol sobre
gorías de la variable de confusión. Cuando existe el IAM no debe ajustarse por ellas. Por otro lado, si
una modificación del efecto, y los resultados son es de interés evaluar hasta qué punto el consumo
diferentes en cada estrato, la presentación de una de alcohol tiene un efecto sobre el IAM por meca-
única estimación ajustada no es adecuada. nismos distintos al aumento del cHDL, entonces el
análisis debería contemplar el cHDL como una va-
Variable intermedia en la cadena causal riable a controlar.
No es apropiado ajustar por una variable que es un
paso intermedio en la cadena causal entre el factor Variables que no son factores de confusión
de estudio y la variable de respuesta. Si se hiciera di- El ajuste por variables que no son verdaderos fac-
cho ajuste, se obtendría una infraestimación de la tores de confusión no sesga la estimación, pero la
verdadera asociación, ya que se eliminaría de la esti- hace más imprecisa (fenómeno que se conoce como
mación del efecto la parte mediada a través de sobreajuste).
dicha variable intermedia. El uso generalizado de programas informáticos
que permiten realizar análisis estadísticos complejos
Ejemplo 30.9. Supongamos que en un estudio que con multitud de variables, de forma rápida y cómo-
trata de estimar el efecto del consumo de tabaco da, facilita que algunos investigadores incluyan en el
sobre la mortalidad infantil, se ajuste por el peso análisis gran cantidad de variables, algunas de las
del recién nacido. El bajo peso en los recién naci- cuales no son relevantes para la relación que se estu-
dos es una de las consecuencias del consumo de ta- dia. Aunque las técnicas de análisis multivariante tie-
baco y, a su vez, puede ser una causa de mortalidad nen ventajas respecto a las del análisis estratificado,
infantil. Al ajustar por el bajo peso, parte del efecto para que sean realmente útiles, se deben tener en
del tabaco (exposición) quedaría neutralizado por cuenta dos condiciones básicas: el objetivo del estu-
dicho ajuste (se eliminaría la parte del efecto del ta- dio debe estar bien definido, especificando cuál es
baco que actúa a través del bajo peso), de forma la variable de estudio y cuál la de respuesta, cuáles
que se infraestimaría su verdadera magnitud. los potenciales factores de confusión y cuáles las po-
tenciales variables modificadoras del efecto; y hay
Una de las condiciones que debe reunir una va- que incluir en el modelo sólo aquellas variables que
riable para ser considerada un potencial factor de se conoce o se sospecha firmemente que pueden ser
confusión es la de no ser un paso intermedio en confusoras o modificadoras de efecto.
la cadena causal. Con frecuencia, es difícil distin-
guir si una variable lo es, por lo que se requiere un Pruebas estadísticas inadecuadas
conocimiento profundo de los mecanismos bioló- Si no se utilizan las pruebas estadísticas correctas,
gicos por los que una exposición puede causar una no se controla adecuadamente el fenómeno de
enfermedad. confusión. Por ejemplo, si en un estudio se utiliza el
emparejamiento, pero en el análisis no se tiene en
Ejemplo 30.10. Si se evalúa el efecto del consumo cuenta la naturaleza apareada de los datos, la esti-
moderado de alcohol sobre el riesgo de padecer un mación del efecto resultará sesgada.
infarto agudo de miocardio (IAM), una variable
que puede considerarse como un potencial factor Selección de variables en un modelo
de confusión es la concentración de cHDL. En al- de regresión
gunos estudios se ha observado que el consumo La finalidad del análisis estadístico es obtener la
moderado de alcohol aumenta las concentraciones mejor estimación (no sesgada y lo más precisa posi-
plasmáticas de cHDL y que, a mayor concentración ble) del efecto del factor de estudio. En esta situa-
de cHDL, menor riesgo de padecer un IAM. Se ha ción, el uso de un algoritmo automático para la se-
postulado que uno de los mecanismos por los que lección de las variables del modelo multivariante
el consumo moderado de alcohol reduce el riesgo puede no incluir variables importantes porque indi-
de IAM es precisamente el aumento de cHDL. Si se vidualmente no son estadísticamente significativas;
asume esta posible cadena causal, las concentracio- sin embargo, estas variables tomadas en conjunto
nes de cHDL no deben considerarse un factor de podrían ser responsables de una parte sustancial
285
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
del efecto estudiado, y por tanto serían variables re- ficación del efecto en un análisis estratificado se rea-
levantes a controlar. liza mediante pruebas estadísticas específicas, como
la de Welch, ya que se trata de determinar si las dife-
rencias entre las estimaciones obtenidas en cada
EVALUACIÓN DE LA MODIFICACIÓN DEL
estrato pueden ser causadas por la variabilidad alea-
EFECTO
toria o si, por el contrario, reflejan diferencias reales.
En las situaciones anteriores, los efectos observados
en los diferentes estratos eran similares, por lo que Ejemplo 30.11. Supongamos un estudio de casos y
tenía sentido obtener una única estimación ajusta- controles (tabla 30.6) que evalúa la asociación en-
da. Sin embargo, cuando no lo son y puede consi- tre la práctica de ejercicio físico y el riesgo de sufrir
derarse que existe una modificación del efecto, no un infarto agudo de miocardio (IAM), y que se
es adecuado calcular un único resultado global, desea evaluar si esta asociación es diferente según
sino que lo importante es precisamente describir el sexo de los sujetos.
que el efecto es diferente según las diversas cate- Los datos crudos sugieren que el ejercicio físico
gorías de otras variables. A diferencia del fenóme- disminuye el riesgo de IAM (OR = 0,64). Sin embar-
no de confusión, la modificación del efecto se go, al estratificar, en los hombres se observa un
evalúa estadísticamente, y puede decirse que existe efecto protector (OR = 0,53), mientras que en las
cuando las estimaciones de cada uno de los estratos mujeres no (OR = 1,19). Si se realizara una prueba
presentan una diferencia estadísticamente estadística para comparar ambas estimaciones, se
significativa. Las técnicas que se utilizan para eva- obtendría un resultado estadísticamente significati-
luar su existencia son también el análisis estratifica- vo, que indicaría que el sexo es una variable modi-
do y el multivariante. ficadora del efecto, y que la asociación entre el ejer-
cicio físico y el IAM es diferente en los hombres y
A NÁLISIS ESTRATIFICADO en las mujeres.
El análisis estratificado se realiza de la misma forma Si se hubiera realizado una estimación ajustada,
que en el caso del ajuste por factores de confusión: se hubiera obtenido un valor de OR = 0,64, similar
calculando la estimación del efecto en cada uno de al calculado con los datos crudos, que parecería
los estratos definidos por las categorías de la varia- indicar que existe un efecto protector en todos los
ble cuya influencia se desea evaluar. sujetos, sin poner de manifiesto que este efecto so-
A diferencia de lo que ocurre con el fenómeno lamente se ha observado en los hombres. Por lo
de confusión, la evaluación de la existencia de modi- tanto, cuando existe una modificación del efecto,
286
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO
es preferible presentar los resultados por estratos y Ejemplo 30.12. Recuérdese el ejemplo 30.6 que pre-
no utilizar una medida global ajustada, que podría sentaba un ensayo clínico hipotético en el que se
conducir a interpretaciones erróneas. comparaba la eficacia de un tratamiento antihiper-
tensivo con un placebo, utilizando como variable
A NÁLISIS MULTIVARIANTE de respuesta la disminución de las cifras de presión
Cuando se utiliza una técnica de análisis multiva- arterial diastólica (PAD).
riante para evaluar la presencia de modificación del Supongamos que los investigadores desean estu-
efecto, debe incluirse en el modelo no sólo la varia- diar la influencia de la presencia de diabetes melli-
ble que potencialmente puede producir dicho efec- tus sobre la eficacia del tratamiento. Al estratificar
to, sino también un término que refleje la interac- (tabla 30.7), se observa que el efecto del tratamien-
ción entre esta variable y el factor de estudio. Dado to en relación con el placebo es de 20 mmHg en los
que muchos programas estadísticos no evalúan la diabéticos y de sólo 5 mmHg en los no diabéticos.
existencia de modificación del efecto de forma Dado que la diferencia entre ambas estimaciones es
automática, es necesario crear los términos de in- estadísticamente significativa, se concluye que la
teracción previamente al análisis. diabetes modifica el efecto del tratamiento, es de-
Puede decirse que existe modificación del efec- cir, que la eficacia es diferente en diabéticos y en no
to cuando el coeficiente de regresión del término diabéticos.
de interacción es estadísticamente significativo (di- Si se hubiera realizado un análisis multivariante,
ferente de 0). En este caso, la estimación del efecto además de los términos tratamiento y diabetes, se ha-
no corresponde solamente al valor del coeficiente bría incluido en el modelo un término de interac-
de regresión del factor de estudio, sino que tam- ción tratamiento diabetes. En la ecuación obteni-
bién incluye el valor de los coeficientes de los tér- da, este término tiene un coeficiente de 15, que
minos de interacción. es estadísticamente significativo, indicando la exis-
Análisis estratificado
Diabéticos Dif. PAD Efecto del tratamiento
Tratamiento activo 35 mmHg
Placebo 15 mmHg 20 mmHg
287
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
288
Capítulo 31
Inferencia causal
Para poder establecer una relación causal es nece- ción recogida y, si existen, evaluar si pueden llegar a
sario que el estudio tenga validez interna (fig. 31.1). alterar sustancialmente los resultados. También debe
En primer lugar, debe descartarse la existencia de ses- valorarse si se han controlado adecuadamente todos
gos en la selección de la población o en la informa- los factores de confusión relevantes. Hay que valorar,
289
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
además, si en el proceso de análisis se han tenido en existía una asociación positiva entre los suplementos
cuenta posibles modificaciones del efecto causadas de lactancia artificial administrados en los hospitales
por otras variables. Finalmente, debe valorarse si el durante los primeros días después del parto y un
resultado final es relevante desde el punto de vista clí- período más corto de duración de la lactancia ma-
nico, teniendo en cuenta tanto su magnitud como la terna. Con el fin de evitar algunos de los problemas
precisión con que se ha estimado. inherentes a los estudios observacionales, Gray-
La evaluación de la validez interna está muy rela- Donald et al (1988) llevaron a cabo un ensayo clíni-
cionada con el diseño utilizado. Si se ha realizado co que abordaba este problema. Las madres fueron
un ensayo clínico aleatorio, bien diseñado y ejecu- asignadas al azar a una de las dos salas donde se
tado, y con una muestra de tamaño suficiente, es seguían regímenes alimentarios distintos: en una,
menos probable que existan sesgos o factores de los recién nacidos recibían suplementos de lactan-
confusión no controlados que si se ha utilizado un cia artificial junto con la lactancia materna, mientras
diseño observacional. que en la otra sólo recibían la lactancia materna.
De todas formas, el estudio perfecto no existe. Antes de iniciar este ensayo clínico, los autores
En cualquier investigación hay multitud de amena- realizaron durante cuatro meses una prueba piloto
zas que pueden comprometer o limitar la validez in- en la que se evaluaba la comparabilidad de los pro-
terna: en general, no se dispone de una medida per - fesionales que trabajaban en ambas salas con res-
fecta de la respuesta o del factor cuyo efecto se pecto a variables que se consideraban de interés.
desea estudiar; es posible que los investigadores in- Este estudio piloto proporcionó datos para un estu-
troduzcan sesgos o errores inconscientemente; pue- dio observacional. En este caso tanto las madres
den aparecer diferentes acontecimientos durante el como las enfermeras eran las que elegían el tipo de
seguimiento de los sujetos que interfieran con él; alimentación. Los criterios de inclusión y exclusión
pueden haber factores de confusión no conocidos y para formar parte de este estudio eran idénticos a
no controlados, etc. Además, un estudio evalúa la los especificados en el ensayo clínico. La informa-
hipótesis en una única muestra de sujetos proce-
ción sobre la variable de respuesta (duración de la
dente de una población determinada, lo que limita
lactancia materna) fue recogida a las nueve sema-
la generalización de las conclusiones. Aunque se
nas del alta mediante una entrevista telefónica, en
observe un resultado estadísticamente significativo,
la que el encuestador desconocía el tipo de alimen-
con un valor de p muy reducido, no se habrá descar-
tación que la madre había escogido. Los resultados
tado totalmente la posibilidad de que pueda ser cau-
de este estudio observacional mostraron una aso-
sado por la variabilidad aleatoria.
El hecho de que pueda asumirse que el resulta- ciación entre el tipo de alimentación y la duración
do observado es válido, no implica que la relación de la lactancia materna. Aquellos que habían re-
estudiada sea causal. Para evaluar si lo es, hay que cibido suplementos en el hospital tenían menos
tener en cuenta otros aspectos, que suponen un jui- probabilidad de seguir siendo alimentados con lac-
cio de valor y que, en muchas ocasiones, deben uti- tancia materna (OR = 3,3). El control de los poten-
lizar pruebas y conocimientos procedentes de otros ciales factores de confusión que se consideraron no
estudios. Por todos estos motivos, difícilmente redujo la magnitud de la asociación.
puede establecerse con seguridad una relación cau- En contraste con estos resultados, en el ensayo
sal a partir de un único estudio. clínico no se encontraron diferencias entre ambos
grupos (54,7 frente al 54,1%). Los autores comenta-
ban que no era probable que se debiera a una falta
TIPOS DE ESTUDIO de potencia estadística, ya que existía una probabili-
E INFERENCIA CAUSAL dad del 94% de detectar una diferencia de un 5% a
Dos estudios que aborden un mismo problema en favor del grupo que no recibía suplementos. La
poblaciones similares y con un mismo diseño pue- única diferencia entre ambos estudios era quién
den dar lugar a resultados divergentes. Esto es más controlaba la intervención. En el ensayo clínico eran
probable si los estudios utilizan diseños diferentes. los profesionales quienes asignaban al azar, mientras
que en el observacional eran las mujeres las que
Ejemplo 31.2. Estudios observacionales realizados elegían la intervención. Esta única diferencia podría
previamente habían llegado a la conclusión de que explicar la contradicción de los resultados.
290
INFERENCIA CAUSAL
En los estudios observacionales existen aspectos ello, algunas instituciones han incorporado explíci-
que pueden influir sobre la variable de respuesta tamente una valoración del rigor del estudio en la
y que no son fácilmente medibles. En este caso, las gradación de la calidad de la evidencia como el
madres más motivadas en amamantar a sus hijos po- Scottish Intercollegiate Guidelines Network (SIGN),
drían haber elegido el grupo sin suplementos, cuya dirección de Internet es: http://www.sign.
mientras que las menos motivadas podrían elegir, o ac.uk/guidelines/fulltext/50/index.htm. Algunas
permitir, los suplementos de lactancia artificial. El clasificaciones incorporan el metaanálisis como un
factor de confusión sería la motivación previa de la tipo de estudio, en ocasiones situándolo como el di-
madre, una variable difícil de medir y, por tanto, de seño de mayor rigor científico, asumiendo que su-
controlar en el análisis. Sin embargo, en el ensayo pone la mejor combinación de validez interna, u
clínico es de esperar que esta diferente motivación homogeneidad del diseño, y validez externa, o capa-
entre las madres se reparta por un igual entre los di- cidad de generalizar los resultados a la población ge-
ferentes grupos, gracias a la asignación al azar. Por neral. Sin embargo, a pesar de sus ventajas, el meta-
esta razón, si es factible realizar un ensayo clínico, y análisis no está exento de sesgos ni limitaciones
no existen contraindicaciones éticas, hay que pre- (sesgo de publicación, sesgo de idioma, selección
ferir este diseño, ya que es el que proporciona una inadecuada de estudios, evaluación sesgada de la
evidencia más directa de que una relación es de na- calidad de los artículos, etc.). Así, por ejemplo, en el
turaleza causal. caso de que los estudios seleccionados para el meta-
análisis fueran heterogéneos o de baja calidad, pro-
Ejemplo 31.3. Estudios observacionales han mostra- bablemente la fuerza de la evidencia proporcionada
do que las personas que consumen más frutas y ve- por un único ensayo clínico aleatorio bien diseñado
getales, ricos en betacarotenos, y aquellas con ma- y realizado podría ser mayor que la del metaanálisis.
yores concentraciones séricas de esta sustancia
tienen una menor frecuencia de enfermedad car- Ejemplo 31.4. Retomando el ejemplo 31.3, también
diovascular y cáncer. El betacaroteno tiene propie- se realizó un metaanálisis de los hallazgos sobre
dades antioxidantes, y es plausible esperar que pre- mortalidad cardiovascular, comparando los resulta-
venga la carcinogénesis y la aterogénesis, al reducir dos de seis estudios observacionales con los propor-
el daño oxidativo sobre el ADN y las lipoproteínas. cionados por los cuatro ensayos clínicos aleatorios
Contrariamente a otros problemas estudiados con (Egger et al, 1998). El metaanálisis de los estudios
diseños observacionales, esta hipótesis podría ser, y de cohortes mostró un menor riesgo de mortalidad
ha sido, abordada en estudios experimentales. Los cardiovascular entre los que consumen mayores
resultados de cuatro ensayos clínicos aleatorios no cantidades de betacaroteno (reducción relativa de
han confirmado estos hallazgos (Egger et al, 1998). riesgo del 31%; IC 95%: del 20 al 41%; p < 0,0001).
Sin embargo, los resultados combinados de los
Las escalas de clasificación de la evidencia cientí- ensayos clínicos mostraron un moderado efecto
fica suelen diferenciar de forma jerárquica los dis- adverso de los suplementos de betacaroteno (incre-
tintos grados, en función de la diferente capacidad mento del riesgo relativo del 12%; IC 95%: del 4 al
de los diversos tipos de diseños para determinar la 22%; p = 0,005).
existencia de una relación causal. La tabla 31.1 pre-
senta la gradación de la evidencia científica según Este ejemplo ilustra cómo en este caso el meta-
diferentes agencias. Sin embargo, algunas de estas análisis de estudios observacionales ha servido sólo
clasificaciones no discriminan explícitamente entre para aumentar la precisión de la estimación, pero
las posibles diferencias de calidad y rigor que pue- no ha corregido los posibles sesgos de los estudios
den existir entre dos estudios situados en el mismo individuales y, por tanto, no ha aumentado la vali-
grado de evidencia científica. Por otro lado, podría dez del resultado.
darse el caso de que un estudio situado en una cate-
goría inferior presentara mayor calidad y más rigor Ejemplo 31.5. Un estudio tenía por objetivo evaluar
en comparación con otro estudio situado en un ni- las discrepancias entre los resultados obtenidos en
vel superior en el esquema de clasificación, pero ensayos clínicos aleatorios de gran tamaño (más de
que no se hubiera ejecutado de forma correcta. Por 1.000 pacientes) y en metaanálisis sobre el mismo
291
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla 31.1. Gradación de los niveles de calidad de la evidencia en función del rigor
científico del diseño
tema (LeLorier et al, 1997). Los autores considera- taanálisis fue del 68% y el negativo del 67%. Es
ron los ensayos clínicos como el estándar de refe- decir, si no se hubieran realizado los ensayos clí-
rencia. Se incluyeron 12 ensayos clínicos de gran ta- nicos aleatorios, a partir de los resultados de los
maño publicados en 4 revistas, y 19 metaanálisis metaanálisis, se habrían adoptado tratamientos
que abordaban el mismo problema, y evaluaron los ineficaces en un 32% de los casos y rechazado tra-
resultados en relación con 40 variables de respues- tamientos útiles en el 33%.
ta, utilizadas en estos estudios. Observaron una
concordancia moderada (kappa = 0,35; IC 95%: del Los aspectos del diseño que se considera que
0,06 al 0,64). El valor predictivo positivo de los me- están asociados a un mayor rigor científico son la
292
INFERENCIA CAUSAL
293
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
contrar asociaciones que carecen de una mínima nicotina y cotinina en el moco cervical de mujeres
plausibilidad biológica. fumadoras, lo que representaba los primeros datos
que apoyaban las hipótesis anteriores, que empeza-
Ejemplo 31.7. En un estudio de cohortes en el que ron a ganar credibilidad (Sasson et al, 1985). Estu-
se incluyeron prostitutas con la finalidad de analizar dios posteriores han aportado nuevos datos y gene-
factores asociados a la transmisión del VIH entre rado nuevas hipótesis sobre la relación entre el
hombres y mujeres heterosexuales, se observó una consumo de tabaco y el cáncer de cérvix.
fuerte asociación entre el consumo de anticoncep-
tivos orales (AO) y la infección por VIH. Los auto- C ONSISTENCIA
res formularon la hipótesis de que, entre otros me- Según este criterio, los distintos estudios que han
canismos, el riesgo de transmisión podía estar abordado un objetivo similar deberían mostrar resul-
aumentado, debido al efecto de los AO sobre la tados concordantes. Si varios estudios están realiza-
mucosa genital, al incrementar el área de ectopia y dos en lugares y poblaciones diferentes, y todos lle-
el riesgo de rotura durante el acto sexual (Plummer gan a la misma conclusión, se refuerza la idea de
et al, 1991). En otro estudio publicado al mismo causalidad. Sin embargo, es frecuente que diferentes
tiempo, sus autores encontraron un resultado dia- estudios den resultados distintos. Esto no significa
metralmente opuesto, que indicaba que el uso de que la asociación no sea causal, sino que deben te-
AO protegía frente a la infección por VIH, y formu- nerse en cuenta las diferencias en la metodología em-
laron otra hipótesis igualmente plausible: dado que pleada y la calidad de cada uno de ellos, que podrían
los AO, que contienen progesterona, engrosan la explicar los resultados en apariencia contradictorios.
mucosa cervical, dificultarán la entrada del VIH
(Lazzarin et al, 1991). Es probable que sesgos y fac- Ejemplo 31.9. Los estudios diseñados para evaluar si
tores de confusión no controlados hayan desem- el consumo de anticonceptivos orales (AO) causa
peñado un papel importante en la obtención de cáncer de mama han producido resultados contra-
estos resultados contradictorios. dictorios. Algunos concluyen que las mujeres me-
nores de 35 años expuestas a los AO durante largos
Algunos autores argumentan que no es suficien- períodos tienen un riesgo aumentado de padecer
te sugerir simplemente un mecanismo aparente- cáncer de mama, mientras que otros no apoyan
mente plausible, sino que deben existir algunas evi- estos resultados. La revisión cuidadosa de los estu-
dencias que lo apoyen, mientras que otros obligan dios revela diferencias en los criterios de selección,
a que existan evidencias suficientes que muestren en las técnicas empleadas para medir la exposición
cómo el factor de estudio actúa sobre un mecanis- y en otros aspectos del diseño, que podrían explicar
mo conocido de producción de la enfermedad. El las aparentes contradicciones de los resultados.
riesgo de este criterio más restringido puede llevar
a descartar hipótesis sólo por la ausencia de conoci- R ELACIÓN TEMPORAL
mientos en un momento determinado. Según este criterio, la presunta causa ha de prece-
der al efecto y el tiempo de inducción o latencia
Ejemplo 31.8. En 1977, Winckelstein sugirió una po- (tiempo transcurrido entre el comienzo de la expo-
sible asociación entre el consumo de tabaco y el sición y la aparición de la respuesta) debe ser com-
cáncer de cérvix. Propuso dos hipótesis: primero, patible con el que se conoce de la historia natural
que el cáncer de cérvix es una enfermedad de célu- de la enfermedad. Aunque este principio es eviden-
las escamosas y que el tabaco causa cánceres de este te, en los estudios transversales y en los de casos y
tipo celular en otros órganos, como el pulmón; y se- controles con casos prevalentes esta condición es
gundo, que los componentes carcinógenos del ta- difícil de asegurar.
baco podían ser transportados al epitelio cervical a
través de la circulación. No citó ninguna evidencia G RADIENTE BIOLÓGICO
para estas hipótesis. El hecho de que la magnitud de la respuesta aumen-
Si se hubiera adoptado una postura restrictiva, te a medida que se incrementa el grado de exposi-
estas hipótesis hubieran sido descartadas por falta ción al factor de estudio (en cantidad y/o tiempo) es
de pruebas. Sin embargo, posteriormente, un estu- un argumento más a favor de que la relación entre
dio presentó resultados sobre concentraciones de ambos es causal. Para evaluar este criterio, la exposi-
294
INFERENCIA CAUSAL
ción al factor de estudio debe tener más de dos cate- large randomized, controlled trials. N Engl J Med 1997;
gorías, y cada una de ellas debe reflejar los incre- 337: 536-542.
mentos de la exposición; se trata de determinar si Plummer FA, Simonsen JN, Cameron DW et al. Cofactors in
implican también aumentos del riesgo. Algunos male-female sexual transmission of human immunodefi-
ciency virus type 1. J Infect Dis 1991; 233: 233-239.
autores incluyen este criterio como un elemento de
Sasson IM, Halley NJ, Hoffmann D et al. Cigarette smoking
la plausibilidad biológica. and neoplasia of the uterine cervix: smoke constituents
Sin embargo, no todas las relaciones causales in cervical mucus. N Engl J Med 1985; 312: 315-316.
deben tener necesariamente un gradiente dosis-res- Winckelstein W Jr. Smoking and cancer of the uterine cervix:
puesta. Puede ocurrir, por ejemplo, que exista un hypothesis. Am J Epidemiol 1977; 106: 257-259.
umbral por encima del cual aumente el riesgo, sin
hacerlo más aunque aumente el grado de exposi- B IBLIOGRAFÍA
ción. Así mismo, la relación no tiene por qué ser li- Argimon JM. Distinguiendo entre asociación y causa. FMC
neal; se puede adoptar otro tipo de relación que no 1998; 5: 555-556.
se ponga de manifiesto con las técnicas de análisis Goodman C. Literature searching and evidence interpretation
habituales. for assessing health care practices. Estocolmo: The Swedish
Council on Technology Assessment in Health Care, 1993.
D ISMINUCIÓN DEL RIESGO DESPUÉS Greenland S, Brumback B. An overview of relations among
causal modelling methods. Int J Epidemiol 2002; 31:
DE LA REDUCCIÓN DE LA EXPOSICIÓN
1030-1037.
Es tan importante como criterio de causalidad ob- Grimes DA, Schulz KF. Bias and causal associations in obser-
ser var que, al aumentar la dosis de exposición al vational research. Lancet 2002; 359: 248-252.
factor de estudio, aumenta el riesgo de enferme- Jovell AJ, Navarro-Rubio MD. Evaluación de la evidencia
dad, como el proceso inverso, es decir, que al redu- científica. Med Clin (Barc) 1995; 105: 740-743.
cirse, disminuye el riesgo. Karhausen LR. Causation in epidemiology: a Socratic dialo-
gue: Plato. Int J Epidemiol 2001; 30: 704-706.
Ejemplo 31.10. Desde la década de 1950, diversos Kaufman JS, Kaufman S. Estimating causal effects. Int
estudios de cohortes han demostrado que las per- J Epidemiol 2002; 31: 431-432.
sonas con concentraciones elevadas de colesterol Maclure M, Schneeweiss S. Causation of bias: the episcope.
sérico tienen un mayor riesgo de presentar proble- Epidemiology 2001; 12: 114-122.
Maldonado G, Greenland S. Estimating causal effects. Int
mas cardiovasculares. A partir de la década de 1980,
J Epidemiol 2002; 31: 422-429.
se han publicado los resultados de diferentes ensa- Olsen J. What characterises a useful concept of causation in
yos clínicos aleatorios que evalúan la eficacia de epidemiology? J Epidemiol Community Health 2003; 57:
una intervención para disminuir las cifras de coles- 86-88.
terol, observándose que aquellas personas que ha- Poole C. Causal values. Epidemiology 2001; 12: 139-141.
bían recibido la intervención tenían, en promedio, Shafer G. Estimating causal effects. Int J Epidemiol 2002; 31:
cifras menores de colesterol sérico que las del gru- 434-435.
po control, y también una menor frecuencia de epi- Susser M. Judgment and causal inference: criteria in epi-
sodios cardiovasculares. demiologic studies. Am J Epidemiol 1977; 105: 1-15 (publi-
cado también en Am J Epidemiol 1995; 141: 701-715).
B IBLIOGRAFÍA DE LOS EJEMPLOS US Preventive Services Task Force. Guide to Clinical Preven-
Egger M, Schneider M, Davey Smith G. Spurious precision? tive Services. 2.a ed. Alexandria (Virginia): International
Meta-analysis of observational studies. BMJ 1998; 316: Medical Publishing, 1996.
140-144. Weed DL, Hursting SD. Biologic plausibility in causal infe-
Gray-Donald K, Kramer MS. Causality inference in observa- rence: current methods and practice. Am J Epidemiol
tional vs experimental studies. An empirical comparison. 1998; 147: 415-425.
Am•J Epidemiol 1988; 127: 855-892. Weed DL. Interpreting epidemiological evidence: how meta-
Lazzarin A, Saracco A, Musicco M, Bicolosi A. Man-to-wo- analysis and causal inference methods are related. Int
man sexual transmission of the human immunodefi- J Epidemiol 2000; 29: 387-390.
ciency virus. Arch Intern Med 1991; 151: 2411-2416. Weiss NS. Can the «specificity» of an association be rehabili-
LeLorier J, Grégoire G, Denhaddad A, Lapierre J, Derderian tated as a basis for supporting a causal hypothesis? Epide-
F. Discrepances between meta-analysis and subsequent miology 2002; 13: 6-8.
295
Capítulo 32
Aplicabilidad práctica de los resultados
296
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS
nuevo tratamiento debería compararse con la me- por el tema, formados y con experiencia. Por tanto,
jor alternativa existente, ya que la pregunta que in- debe tenerse mucha precaución a la hora de extra-
teresa es si es mejor que ésta, y no si es superior al polar los resultados a ámbitos en los que la crioci-
placebo. De todas formas, el gran arsenal existente rugía cutánea no es una práctica habitual en las
de medicamentos hace que se espere que los nue- consultas.
vos representen tan sólo incrementos de eficacia de Algo similar ocurre, por ejemplo, con fármacos
escasa magnitud, lo que obliga a la realización en los que es necesario monitorizar sus concentra-
de estudios con un número muy elevado de sujetos. ciones plasmáticas, si se decide aplicarlos a entor-
Éste es uno de los motivos por los que muchos in- nos en los que la tecnología adecuada no está dis-
vestigadores e industrias farmacéuticas realizan los ponible. O cuando la intervención puede producir
estudios comparando con placebo, ya que esperan efectos adversos graves que requieren un trata-
encontrar diferencias de eficacia de mayor magni- miento sofisticado o que son de difícil diagnóstico,
tud y, por consiguiente, requieren estudios de un lo que aumentaría la gravedad de las consecuencias
tamaño más reducido. Sin embargo, hay que valo- de los efectos adversos, pudiendo interferir en la
rar si estas comparaciones vulneran los principios evaluación de la relación entre los riesgos y los be-
éticos de la investigación en seres humanos. neficios esperados.
Otro aspecto controvertido es el de decidir cuál
es la mejor alternativa de referencia, no sólo en tér-
VARIABLE DE RESPUESTA
minos de qué fármaco, sino también en términos
de qué pauta. Para poder elaborar recomendaciones sólidas a
Hay aspectos de la aplicación del factor de estu- partir de los datos de un estudio, idealmente éste
dio que pueden limitar su extrapolación a la prácti- debería evaluar el impacto de un factor de estudio
ca clínica en determinadas condiciones. Por ejem- (prueba diagnóstica, tratamiento, actividad preven-
plo, si se trata de una intervención quirúrgica, es tiva, supresión de una exposición, etc.) sobre una
importante tener en cuenta las capacidades y habi- variable de resultado final (mortalidad, incidencia
lidades necesarias para llevarla a cabo, que tienen de enfermedades, calidad de vida, etc.). Sin embar-
una influencia clara sobre los propios resultados de go, pocos estudios lo documentan directamente,
la intervención o sobre la morbilidad peroperatoria dadas las dificultades metodológicas de evaluar
y, por tanto, estas consideraciones pueden llegar a completamente un proceso en el que influyen múl-
alterar la relación entre riesgos y beneficios. tiples variables difíciles de controlar y que reque-
rirían seguimientos muy prolongados y un número
Ejemplo 32.1. Supongamos un ensayo clínico que elevado de sujetos. En consecuencia, en muchas
compare dos técnicas de criocirugía cutánea (nitró- ocasiones los estudios se limitan a evaluar aspectos
geno líquido y un aerosol de dimetil-éter-propano) parciales de la relación.
en consultas de atención primaria, en el que no se
observan diferencias clínicamente relevantes en Ejemplo 32.2. En la situación representada en la figu-
cuanto a eficacia, tolerancia y seguridad de ambos ra 32.1, lo ideal sería realizar un estudio que de-
agentes criogénicos. La evaluación de la aplicabili- muestre si la detección precoz de concentraciones
dad de los resultados requiere tener en cuenta las elevadas de colesterol en sangre mejora el pronósti-
ventajas y desventajas de cada una de las técnicas, la co de los sujetos y así reducir la incidencia y la mor-
capacidad diagnóstica de los profesionales para talidad cardiovasculares. Sin embargo, lo que se
identificar las lesiones dermatológicas susceptibles suele hacer es realizar estudios que aporten eviden-
de tratamiento, las habilidades técnicas adquiri- cias parciales, por ejemplo, sobre la utilidad de dife-
bles por cualquier profesional con una formación rentes técnicas de detección de las concentraciones
adecuada, los requerimientos técnicos necesarios elevadas de colesterol sérico, o sobre si la aplicación
para el adecuado almacenamiento de las sustancias de diferentes intervenciones, ya sea farmacológicas o
(p. ej., el nitrógeno líquido precisa de unos conte- dietéticas, produce una disminución de las concen-
nedores especiales, habitualmente no disponibles traciones de colesterol, o, lo que sería aún mejor, de
en los centros de salud). Este tipo de estudios sue- la incidencia de la enfermedad cardiovascular.
len hacerlo profesionales interesados y motivados Cuantos más pasos de este proceso abarque un estu-
297
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Detección Intervención
Concentraciones Disminución de Prevención
Individuos
elevadas de las concentraciones de la enfermedad
asintomáticos
colesterol sérico de colesterol sérico coronaria
Figura 32.1. Detección de las concentraciones elevadas de colesterol sérico: marco para la elaboración
de recomendaciones.
dio, más firmes podrán ser sus recomendaciones. debería poder explicar el efecto del fármaco sobre
Así, un estudio que evalúe la eficacia de una inter- la progresión clínica, lo que ocurre sólo parcial-
vención dietética sobre la incidencia de enfermedad mente. Hoy se sabe que los cambios en dicha cifra
cardiovascular proporcionará una base más sólida sólo explican un pequeño porcentaje del benefi-
para recomendarla que si tan sólo ha demostrado cio que proporciona el tratamiento antirretrovi-
que reduce las concentraciones de colesterol. ral, y que el recuento de viriones circulantes en
Es frecuente que la variable del resultado princi- sangre mediante pruebas de amplificación genéti-
pal presente alguna dificultad para su medición, de ca es, por ahora, el mejor método para valorar el
forma que muchos estudios optan por utilizar varia- grado de respuesta al tratamiento. El tiempo dirá
bles intermedias o subrogadas, es decir, correlacio- si la carga viral es una variable intermedia válida
nadas con la del resultado principal, que reflejan el con esta finalidad.
efecto del factor de estudio y son más fáciles de me-
dir. Dado que su uso comporta un coste menor del A la hora de interpretar los resultados de un es-
estudio, ya que se requiere un seguimiento más cor- tudio que ha utilizado variables intermedias, hay
to y un menor número de sujetos, muchos estudios que tener en cuenta las posibles limitaciones de su
utilizan este tipo de variables para evaluar el efecto uso. Se debe valorar si la relación entre la variable
del factor de estudio. Sin embargo, los resultados intermedia y la principal es causal, o si sólo se trata
deben evaluarse con cautela, ya que, por ejemplo, de una asociación coincidente o mediada por un
el hecho de que un fármaco disminuya el coleste- tercer factor. Otro problema puede presentarse
rol y los triglicéridos no implica que aumente la cuando hay varios mecanismos de actuación sobre
supervivencia, o de que un antihipertensivo reduz- la variable principal, y la variable intermedia refleja
ca la presión arterial no significa que disminuya el tan sólo uno de ellos.
riesgo de ictus, o que un tratamiento que aumente
la densidad mineral ósea, disminuya el riesgo de Ejemplo 32.4. La relación causa-efecto entre la hi-
fracturas. De hecho, muchas variables intermedias pertensión arterial y el aumento de riesgo de mor-
pueden ser consideradas válidas durante años, e talidad cardiovascular está bien establecida. Sin em-
investigaciones posteriores pueden demostrar que bargo, el beneficio del tratamiento antihipertensivo
no lo eran. sobre la mortalidad cardiovascular no puede gene-
ralizarse directamente de su eficacia sobre una va-
Ejemplo 32.3. La necesidad de intervenir de forma riable intermedia como es la medición de la pre-
rápida y eficaz sobre la epidemia de sida ha impul- sión arterial. Algunos fármacos, como los diuréticos
sado el uso sistemático de variables intermedias o los bloqueadores betaadrenérgicos, han demos-
para evaluar los efectos de los tratamientos. Du- trado en ensayos clínicos controlados mejoras de
rante mucho tiempo, el recuento de los linfocitos supervivencia en los pacientes del grupo sometido
CD4 se consideró como la mejor variable interme- a intervención, mientras que otros grupos de fár-
dia para esta valoración, ya que este marcador macos o no lo han demostrado, o hay datos que su-
muestra una gran correlación con el riesgo de pro- gieren un efecto negativo a través de mecanismos
gresión a sida. Sin embargo, para poder ser consi- de acción mal conocidos que contrarrestarían el be-
derada como una variable intermedia válida en la neficio obtenido por la reducción de la presión ar-
evaluación de la eficacia de los tratamientos, terial (Psaty et al, 1997).
298
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS
Una tercera limitación se da cuando el efecto so- tudiados y proporción de la incidencia en un grupo
bre la variable intermedia es de intensidad o dura- o población que puede ser atribuida al factor de
ción insuficiente para afectar a la variable principal. estudio.
Sin embargo, desde un punto de vista práctico, La diferencia de incidencias (DI) o exceso de
cuando un fármaco ha demostrado su efecto sobre riesgo se define como la diferencia entre la inciden-
una variable intermedia, y se ha comprobado que se cia en los expuestos (I1) y la incidencia en los no ex-
corresponde con una mejora en la variable princi- puestos al factor de estudio (I0) (tabla 32.1). La DI
pal, al evaluar el efecto de nuevos fármacos del mis- representa la cantidad de incidencia que puede ser
mo grupo terapéutico, no es imprescindible estudiar atribuida al factor de estudio. A diferencia de la DI,
de nuevo sus efectos sobre la variable principal, sino el riesgo relativo (RR) no tiene en cuenta la magni-
que basta con demostrar que producen un efecto tud de las incidencias que se están comparando.
sobre la variable intermedia igual o superior al del
otro fármaco. Igualmente, si se ha comprobado que
la detección precoz del cáncer de mama reduce la Tabla 32.1. Medidas de impacto
mortalidad por este proceso, cuando se refina el ins-
trumento de detección precoz, no es necesario eva- Diferencia de incidencias (DI) (1)
luar de nuevo su efecto sobre la mortalidad. DI = I1 – I0
De todas formas, el hecho de haber demostrado Riesgo atribuible en los expuestos (RAE):
que un factor de estudio tiene un efecto relevante so-
bre una única variable principal no es suficiente para (I1 – I0) / I1 RR – 1
RAE = =
elaborar una recomendación sin haber evaluado sus I1 RR
efectos sobre otras variables también relevantes. Por
ejemplo, es posible que un tratamiento antineoplási- (1) En un ensayo clínico aleatorio, se denominan
co aumente la supervivencia de los pacientes con reducción absoluta de riesgo (RAR)
determinado tipo de cáncer, pero disminuya su cali-
dad de vida, o que una intervención quirúrgica RAE = (I1 – I0) / I1
aumente la supervivencia a largo plazo de los pacien- RAE = (RR – 1) / RR*
tes, pero aumente la mortalidad peroperatoria, o
Riesgo atribuible poblacional (RAP):
que el tamoxifeno sea capaz de disminuir la inciden-
RAP = (Ip – I0) / Ip
cia de cáncer de mama en mujeres de alto riesgo, RAP = RAE Proporción de exposición entre
pero aumente la de cáncer de endometrio, o que el los enfermos**
ácido acetilsalicílico a determinadas dosis sea capaz
de prevenir el infarto agudo de miocardio, pero Disminución relativa de riesgo que se produce
tenga efectos secundarios importantes (hemorra- con el tratamiento (DRR)
gias, accidentes vasculares cerebrales, etc.). DRR = [Pc – Pt] / Pc
299
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
bre el exceso de riesgo en los individuos expuestos, eliminación de un factor de riesgo. De este modo,
comparado con los no expuestos, que sería del 60% permiten conocer la magnitud del daño a la salud
en el primer caso, y sólo del 2% en el segundo. ocasionado por un factor de riesgo determinado.
Estas medidas se han usado en planificación sanita-
La DI y el RR son dos formas diferentes (y com- ria para priorizar posibles intervenciones. Una de
plementarias) de abordar un mismo problema. Ba- sus principales limitaciones es su propia interpreta-
jo el punto de vista de la salud pública, la DI es más ción. Así, por ejemplo, el RAP se interpreta como la
informativa, ya que muestra el exceso de casos que proporción en la que se reduciría la incidencia de
están asociados a la exposición al factor de estudio. la enfermedad si se eliminase totalmente el factor
Por otro lado, desde el punto de vista de la investi- de riesgo. Plantearse la eliminación total de un fac-
gación etiológica, el RR es más informativo, ya que tor de riesgo no suele ser realista, por lo que estas
estima la fuerza de la asociación entre el factor de medidas son una estimación del impacto potencial,
estudio y la respuesta. La DI no sólo depende del pero no del real.
RR, sino también de la frecuencia de la enferme-
dad. Para enfermedades poco frecuentes, aun Ejemplo 32.7. En el estudio de Framingham se esti-
cuando el RR asociado a una exposición sea eleva- maron los RR de padecer enfermedad coronaria
do, la DI puede ser más pequeña que si el RR de esa asociados a la presencia de hipertensión arterial
misma exposición es menor, pero la enfermedad (HTA), obesidad y diabetes, que fueron de 2,2, 1,3
mucho más frecuente. y 2,1, respectivamente. Sin embargo, el RAP fue res-
pectivamente del 16,7, el 7,8 y el 0,7% para cada
Ejemplo 32.6. El ejemplo más clásico es la asocia- uno de los tres factores de riesgo. Estas cifras indi-
ción entre el consumo de tabaco y el cáncer de can que, a pesar de que la diabetes tenga un RR si-
pulmón, por un lado, y la cardiopatía isquémica, milar a la HTA y claramente superior a la obesidad,
por otro. El RR entre el consumo de tabaco y el cán- su RAP es bastante inferior dado que su prevalencia
cer de pulmón es mayor de 10, mientras que su aso- es menor que la de los otros factores. Ello indica
ciación con la cardiopatía isquémica es aproxima- que un programa dirigido a reducir la incidencia
damente de 2, pero al ser esta última enfermedad de la enfermedad coronaria mediante el control de
mucho más frecuente, su DI es mayor. la diabetes tendría menos impacto que otro enfoca-
do al control de la HTA o de la obesidad, siempre
El riesgo atribuible proporcional, o fracción atri- que las condiciones de factibilidad, relevancia so-
buible, representa la DI relativa. Existen dos medi- cial y eficiencia de los programas fueran iguales.
das de riesgo atribuible proporcional, según se re-
fiera a la incidencia del grupo expuesto o a la que Otra situación es cuando se mide el impacto de
se observa en la población de la que procede la co- un mismo factor de riesgo en la incidencia de dis-
horte (ver tabla 32.1). Si en el denominador se uti- tintas enfermedades.
liza la incidencia del grupo formado por las perso-
nas expuestas a un determinado factor de riesgo, se Ejemplo 32.8. En el estudio de Framingham se ha
habla de riesgo atribuible en los expuestos (RAE). Si en estimado que el RR asociado a la HTA en relación
el denominador se usa la incidencia de la pobla- con la enfermedad coronaria es de 2,2, mientras
ción total (Ip), compuesta tanto por los sujetos ex- que el RR asociado a la enfermedad vascular perifé-
puestos como por los no expuestos al factor de ries- rica es de 2,5. Dado que los RR son similares para
go, se habla de riesgo atribuible poblacional (RAP). El ambas enfermedades, el RAE y el RAP serán tam-
RAE y el RAP se suelen expresar en porcentajes y se bién similares, ya que se trata de un solo factor con
interpretan como la proporción de incidencia en el una determinada prevalencia (de hecho, el RAE
grupo en estudio (el utilizado en el denominador) para la enfermedad coronaria es del 57% y para la
que puede ser atribuida al factor de estudio. Tam- enfermedad vascular periférica, del 60%). En esta
bién pueden calcularse a partir del RR y de la OR situación, la incidencia de la enfermedad desem-
(ver tabla 32.1). peña un papel crucial, por lo que es necesario recu-
Estas medidas dan una idea del impacto que rrir a la DI para obtener una visión diferente del
tendría sobre la incidencia de una enfermedad la impacto del factor de riesgo. La DI para la enfer-
300
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS
medad coronaria es del 14,2% a los 10 años, mien- decir, en el grupo tratado la incidencia de ACV en 5
tras que para la enfermedad vascular periférica es años es un 33% menor que la observada en el grupo
sólo del 3,7%. La DI es superior en el caso de la placebo. Obsérvese que el valor 0,33 es el comple-
enfermedad coronaria dada su mayor incidencia. mentario del riesgo relativo del tratamiento, en rela-
ción con el placebo (1 ⫺ 0,67 = 0,33). Por tanto,
M EDIDAS DEL EFECTO RRR puede expresarse como:
DE UN TRATAMIENTO
El ensayo clínico aleatorio (ECA), al implicar el se- RRR = [Pc ⫺ Pt] / Pc = 1 ⫺ (Pt/Pc) = 1 ⫺ RR
guimiento de los sujetos, permite calcular la inci-
dencia del desenlace en cada uno de los grupos. La expresión de los resultados en términos rela-
Existen diferentes formas de expresar sus resulta- tivos, como a menudo se hace al difundir las con-
dos, ya sea con medidas relativas o con medidas ab- clusiones de los ensayos clínicos, puede hacer que se
solutas de riesgo. sobrevalore el efecto beneficioso real del fármaco.
Ejemplo 32.9. Supongamos un ECA que compara Ejemplo 32.10. Cuando una misma reducción rela-
un tratamiento para la hipertensión arterial y un tiva de riesgo del 33% se aplica a una población de
placebo, con el fin de evaluar su eficacia en la reduc- alta incidencia (p. ej., Pc = 40%), esta reducción
ción de la incidencia de accidente cerebrovascular de riesgo supone un descenso de la incidencia en el
(ACV) después de 5 años de tratamiento. En el gru- grupo tratado al 26,8% (diferencia absoluta del
po que ha recibido el placebo, al finalizar el estudio 13,2%), mientras que si la incidencia en la pobla-
un 15% de los sujetos ha presentado ACV, mientras ción es muy baja (p. ej., Pc = 1%), la misma reduc-
que sólo lo ha desarrollado un 10% de los que han ción relativa de riesgo supondrá un descenso de la
recibido el tratamiento. incidencia en el grupo tratado al 0,67% (diferencia
Una forma sencilla de expresar el resultado es absoluta del 0,33%). Por tanto, para valorar la
mediante la diferencia de incidencias acumuladas acción real del fármaco hay que conocer, además
en ambos grupos, que se conoce como reducción ab- de la disminución relativa de riesgo, la incidencia
soluta de riesgo (RAR). En el ejemplo, su valor es de real del proceso que se intenta reducir en la pobla-
un 15 ⫺ 10% = 5%, lo que significa que el trata- ción a la que se va a aplicar el tratamiento farma-
miento ha reducido en un 5% la incidencia acumu- cológico.
lada de ACV en 5 años en sujetos con hipertensión
arterial, en relación con el placebo. La aplicación práctica de los ensayos clínicos pue-
Otra forma de expresar los resultados sería co- de ser difícil para el profesional sanitario, que debe
mo riesgo relativo, que corresponde al cociente en- valorar en un determinado individuo los riesgos y los
tre las incidencias de ACV observadas en cada gru- beneficios de la instauración de un tratamiento far-
po. En el ejemplo, su valor sería 10/15 = 0,67, lo macológico a largo plazo. Otra medida que se puede
que significa que la incidencia de ACV en 5 años en obtener de estos estudios, fácil de calcular a partir de
el grupo tratado es 0,67 veces la observada en el la disminución absoluta de riesgo, comprensible
grupo que ha recibido placebo. También podría para el clínico y extrapolable a la realidad de su la-
calcularse el riesgo relativo de padecer ACV del bor diaria, es el número de casos que es necesario
grupo placebo en relación con el tratado, que sería tratar para prevenir un episodio. Desde el punto de
15/10 = 1,5, lo que significa que el riesgo de pade- vista matemático, esta medida equivale al recíproco
cer ACV a los 5 años es 1,5 veces superior en los su- del valor de la reducción absoluta de riesgo y, por
jetos que han recibido placebo, en relación con los tanto, presenta las mismas ventajas en la expresión
que han recibido el tratamiento. de resultados. Presenta la ventaja adicional de que
Los resultados también pueden presentarse indica el esfuerzo terapéutico que debe realizarse
como la reducción relativa de riesgo que se consigue para poder prevenir un episodio.
con el tratamiento (RRR), es decir, la reducción de
la incidencia en un grupo, expresado en forma Ejemplo 32.11. En el ejemplo 32.9, el número de
de tanto por ciento respecto al otro grupo (ver tabla personas que es necesario tratar (NNT) para preve-
32.1). El valor de la RRR es (15 ⫺ 10)/15 = 0,33, es nir un caso de ACV es:
301
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
302
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS
cumplen el resto de criterios de selección. Para análisis de subgrupos puede resultar de gran utili-
abordar esta cuestión hay que considerar, en pri- dad para determinar, por ejemplo, si el efecto de la
mer lugar, si el mecanismo de acción de la aspirina intervención es similar en diferentes subgrupos de
en la prevención del IAM es aplicable a las mujeres sujetos, o bien si en alguno de ellos es claramente
no médicos, es decir, si existe alguna diferencia en diferente. En muchas ocasiones, los pacientes in-
la fisiopatología de la enfermedad que haga sospe- cluidos en un ensayo clínico presentan característi-
char que los resultados no son extrapolables. Sin cas heterogéneas y pueden diferir, por ejemplo, en
embargo, en muchas ocasiones no es posible llegar la gravedad de la enfermedad al inicio del estudio y,
a una conclusión de esta naturaleza de forma ine- por tanto, en el riesgo absoluto del resultado que se
quívoca, dado que nuestro conocimiento sobre la está evaluando. De este modo, un tratamiento que
patogenia de las enfermedades no es definitivo. produce un efecto beneficioso en el conjunto de
Mientras no exista ningún dato que haga presumi- los individuos estudiados puede ser perjudicial
ble que los no médicos no puedan beneficiarse del en los pacientes con bajo riesgo.
tratamiento, en las mujeres hay que considerar las
diferencias hormonales y otras, que podrían resul- Ejemplo 32.13. Rotwell (1995) reanalizó los resulta-
tar en una extrapolación inexacta. Esta incertidum- dos del European Carotid Surgery Trial (ECST)
bre sería aún mayor si se decidiera generalizar los para ilustrar este punto. En dicho estudio se compa-
datos a hombres y/o mujeres que no cumplen raba el tratamiento quirúrgico (endarterectomía
los criterios de inclusión del estudio, o bien extra- carotídea) frente al no quirúrgico en pacientes con
polar si con una dosis menor se hubiera podido accidentes cerebrales isquémicos transitorios (AIT).
conseguir el mismo beneficio. El reanálisis se circunscribió a los pacientes con
estenosis de carótida grave, que fue en quienes se ob-
Muchos autores han cuestionado hasta qué pun- servó un beneficio del tratamiento quirúrgico. Este
to los resultados de un estudio pueden ser aplicables autor obtuvo, mediante la aplicación de un modelo
a pacientes que no han sido incluidos en él. Se ha de regresión, un índice pronóstico de padecer un
observado, por ejemplo, que pacientes incluidos en AIT de todos los participantes en el estudio. Los indi-
ensayos clínicos tienen mejor supervivencia y res- viduos incluidos en los grupos de intervención y con-
puesta al tratamiento que los no incluidos, con inde- trol fueron clasificados en tres categorías de riesgo:
pendencia de si recibían el tratamiento en estudio o bajo, intermedio y alto. A continuación, calculó los
la intervención del grupo control (Stiller, 1994). Al- riesgos absolutos y relativos del tratamiento en cada
gunas de las posibles razones son que los criterios de una de las tres categorías (tabla 32.2). Los resultados
inclusión restringen la entrada a pacientes con me- muestran que, en global, el tratamiento quirúrgico
nor comorbilidad y mejor pronóstico, que los estu- es beneficioso en toda la muestra, y en particular, en
dios suelen realizarse en centros sanitarios de exce- los de riesgo alto e intermedio. Estos resultados son
lencia con profesionales muy experimentados y con estadísticamente significativos, ya que el intervalo de
mejores equipamientos, los pacientes siguen un confianza de la reducción relativa de riesgo excluye
protocolo más riguroso, probablemente con un me- el valor 1. Sin embargo, en el subgrupo de riesgo
jor cumplimiento de la intervención, que han dado bajo el resultado no es estadísticamente significativo,
su consentimiento para participar, lo que indica que y el intervalo de confianza muestra que la interven-
adquieren cierto grado de compromiso para reali- ción incluso podría ser perjudicial en este grupo.
zar una mejor adherencia a todas las recomendacio- Los resultados de un ensayo clínico son generali-
nes e intervenciones que se les practican, etc. Por zables a pacientes con características similares a los
tanto, no es sorprendente que, en promedio, los pa- incluidos en el estudio. Si no se plantea un análisis
cientes incluidos en un ensayo clínico tengan un de subgrupos, se asume que el efecto del tratamien-
mejor pronóstico. to es el mismo en todos ellos. Si se hubiera aplicado
este criterio al ejemplo anterior, aunque en prome-
S UBGRUPOS DE POBLACIÓN dio la intervención hubiera sido beneficiosa, un sub-
Habitualmente, los resultados se presentan de for- grupo de sujetos hubiera podido recibir una inter-
ma global para todos los sujetos estudiados. Sin em- vención incluso perjudicial. Por esta razón, en los
bargo, cuando las poblaciones son heterogéneas, el estudios en los que se incluye una población muy
303
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Riesgo
Bajo 119 10 (8,4%) 183 18 (9,8%)
Intermedio 178 25 (14,0%) 273 19 (7,0%)
Alto 89 18 (20,2%) 132 8 (6,1%)
Total 386 53 (13,7%) 588 45 (7,7%)
Riesgo
Bajo 1,16 (0,6–2,4) –1,4%
Intermedio 0,53 (0,3–0,9) 7,0%
Alto 0,34 (0,1–0,7) 14,1%
Total 0,51 (0,3–0,8) 6,0%
heterogénea es conveniente que ésta se estratifique de los sujetos a los que se aplica un tratamiento que
en función del riesgo que tiene de padecer el re- produce una reducción relativa de riesgo del 30%.
sultado de interés. Es importante que esta estratifi- Se observa como, a medida que disminuye el riesgo
cación se haga durante la fase de diseño y no en la basal, aumenta el esfuerzo terapéutico necesario
de análisis, ya que si no se tratará de un caso especial para prevenir un episodio.
de análisis de subgrupos a posteriori con la posibi-
lidad que conlleva de resultados engañosos. El problema a la hora de aplicar los resultados a
la práctica es disponer de información sobre el ries-
R IESGO BASAL DE LA POBLACIÓN go basal de los sujetos (estudios de Framingham y
Las medidas de impacto que permiten evaluar la Marrugat).
utilidad práctica de un tratamiento como el NNT Este mismo concepto es aplicable a cualquier
varían en función del riesgo basal de la población a tipo de estudio. Si una investigación tiene por obje-
la que se aplican. tivo obtener una ecuación predictiva del riesgo de
presentar una enfermedad, su aplicabilidad a pobla-
Ejemplo 32.14. En la tabla 32.3 se presentan diversas ciones de características diferentes de la estudiada
estimaciones de NNT en función del riesgo basal debe tener en cuenta el entorno y las características
Tabla 32.3. Número de personas que deben ser tratadas para prevenir un episodio en función
del riesgo basal en el grupo de referencia (ejemplo 32.14)
304
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS
305
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
medical literature XVI. How to use a treatment recom- McQuay HJ, Moore RA. Using numerical results of systema-
mendation. JAMA 1999; 281: 1836-1843. tic reviews in clinical practice. Ann Intern Med 1997;
Haynes RB, Sackett DL, Gray JMA, Cook DJ, Guyatt GH. 126: 712-720.
Transferring evidence from research into practice: Nieto García FJ, Peruga Urrea A. Riesgo atribuible: sus for-
2. Getting the evidence straight. ACP J Club 1997; mas, usos e interpretación. Gac Sanit 1990; 4: 112-117.
Jan/Feb: A14-A16. Pablos-Méndez A, Barr G, Shea S. Run-in periods in rando-
Haynes RB, Sackett DL, Gray JMA, Cook DJ, Guyatt GH. mized trials: implications for the application of results in
Transferring evidence from research into practice: 2. clinical practice. JAMA 1998; 279: 222-225.
Getting the evidence straight. ACP J Club 1997; Nov/ Ramalle Gómara E. Validez de los análisis de subgrupos.
Dec: A14-A16. FMC 1999; 6 (Supl. 2; atención primaria basada en la evi-
Horwitz RI, Singer BH, Makuch RW, Viscoli CM. Can treat- dencia 1999/1): 1-2.
ment that is helpful on average be harmful for some pa- Rembold CM. Number needed to screen: development of a
tients? A study of the conflicting information needs of statistic for disease screening. BMJ 1998; 317: 307-312.
clinical inquiry and drug regulation. J Clin Epidemiol Rothman KJ, Mitchels KB. The continuing and ethical use of
1996; 49: 395-400. placebo controls. NEJM 1994; 331: 394-398.
Jaeschke R, Guyatt GH, Sackett DL for the Evidence-Based Rotwell PM. Can overall results of clinical trials be applied to
Medicine Working Group. Users’ guides to the medical all patients? Lancet 1995; 345: 161-162.
literature III. How to use an article about a diagnostic Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
test. B. What were the results and will they help me in dence of bias: dimensions of methodological quality as-
caring for my patients? JAMA 1994; 271: 703-707. sociated with estimates of treatment effects in controlled
Knipschild P, Leffers P, Feinstein AR. The qualification pe- trials. JAMA 1995; 273: 408-412.
riod. J Clin Epidemiol 1991; 44: 461-464. Stiller CA. Centralised treatment entry to trials and survival.
Longford NT. Selection bias and treatment heterogeneity in Br J Cancer 1994; 70: 352-362.
clinical trials. Stat Med 1999; 18: 1467-1474. Welch HG, Black WC. Evaluating randomized trials of screen-
Marcus SM. Assessing non-consent bias with parallel rando- ing. J Gen Intern Med 1997; 12: 118-124.
mized and nonrandomized clinical trials. J Clin Epide-
miol 1997; 50: 823-828.
306
Capítulo 33
Comunicación científica
a publicación de artículos en las revistas información, inventar ni omitir datos para dar
309
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
nas que no han contribuido de forma sustancial al lectores de la revista, así como mejorar la redacción
estudio. Es importante respetar escrupulosamente y la presentación de los datos del artículo.
los criterios de autoría. El proceso de revisión ha recibido diversas críti-
Los autores deberían hacer constar la existencia cas, entre las que destacan que es costoso, que con-
de cualquier relación con empresas o instituciones sume mucho tiempo a los expertos, que éstos pue-
u otro tipo de situación que pudiera suponer un den tener un sesgo en contra o a favor del mensaje
conflicto de intereses y comprometer la interpreta- del artículo, o incluso un conflicto de intereses. El
ción objetiva de los datos. Además, deben redactar revisor puede no tener la competencia técnica o los
los artículos con claridad, pensando en los lectores conocimientos metodológicos suficientes para valo-
potenciales y respetando las recomendaciones in- rar la calidad del diseño de un estudio y/o la rele-
ternacionales para la presentación de manuscritos vancia de la información que se presenta. Además,
a las revistas biomédicas. el proceso de revisión puede introducir un retraso
innecesario en la comunicación de hallazgos im-
portantes, a veces incrementado por la pereza del
EDITORES
revisor que incumple los plazos de tiempo que mar-
Los editores deben determinar la línea editorial de can los directores de las revistas.
la revista. Su función, y la del consejo de redacción, El proceso de revisión científica se basa en la con-
no consiste en poner dificultades a los autores, sino fianza y en la responsabilidad. Los revisores son res-
en ayudarles a publicar artículos de contenido y es- ponsables de evaluar el contenido científico del tra-
tilo correctos. Por ello, es recomendable que las re- bajo, sus méritos o defectos intrínsecos de forma
vistas publiquen periódicamente las instrucciones imparcial, desde una postura de máxima neutrali-
para los autores, así como información sobre el fun- dad, y de acuerdo con los estándares de calidad. El
cionamiento del proceso editorial y de evaluación evaluador no puede cometer abusos de poder, to-
de los trabajos. mando decisiones rápidas y caprichosas, ni menos-
La expansión que ha experimentado el volumen preciar u ofender a los autores. Las críticas al estudio
de revistas periódicas para dar cabida al ingente nú- deben realizarse siempre con corrección y profesio-
mero de publicaciones ha supuesto un enorme nalidad, respetando el pluralismo científico y sin va-
esfuerzo para mantener la calidad, preservar la vali- loraciones peyorativas de los investigadores. Los ase-
dez científica del texto impreso y proteger el dere- sores son colaboradores tanto del director como del
cho del lector a ser correctamente informado. En la autor, jamás sus adversarios.
actualidad se considera clave para garantizar la cali- La competencia científica y técnica es una condi-
dad de una revista que los trabajos que se reciben ción indispensable para ser un buen evaluador. La
sean sometidos a un proceso de evaluación por ex- obligación de competencia incluye el deber de es-
pertos que no formen parte del consejo editorial tudiar a fondo el artículo con el fin de dar un dicta-
(peer-review). Además, los editores han de acoger de men en conciencia. Si el experto no se considera
buen grado la publicación de los errores que han competente para evaluar el trabajo, deberá notifi-
de ser corregidos, de notificaciones de los autores, carlo, sin pérdida de tiempo, al director de la revista.
y de cartas de lectores que llaman la atención sobre La documentación que se entrega a los evalua-
el contenido erróneo o discutible de lo publicado. dores para su revisión es confidencial. El artículo
En caso necesario, se publicarán con el debido re- todavía inédito no puede ser divulgado por el ex-
lieve las retracciones acerca de artículos falsificados perto. No puede hacer copias de él ni pasarlo a sus
o plagiados. colaboradores u otras personas interesadas sin las
autorizaciones y garantías adecuadas.
REVISORES
LECTORES
Los objetivos principales del proceso de revisión
por expertos (peer-review) son evitar la publicación La finalidad de la comunicación científica en medi-
de un trabajo de mala calidad científica, no original cina no es simplemente la publicación de un estu-
o que no contenga información relevante para los dio de investigación u otro tipo de artículo, sino la
310
COMUNICACIÓN CIENTÍFICA
311
Capítulo 34
El artículo original
os artículos médicos están sometidos a reglas boración de un artículo original, ya que es el tipo de
312
EL ARTÍCULO ORIGINAL
que pretende llenar o, en otras palabras, las razo- Tabla 34.2. Errores frecuentes en la
nes que justifican su realización y su objetivo específico. introducción de un artículo original
La introducción debe redactarse pensando en real-
zar la necesidad del estudio y estimular la curiosidad • Realizar una revisión exhaustiva del tema
del lector. Una característica importante es la breve-
• Excesivo número de referencias bibliográficas
dad en la exposición y se considera que, por regla
general, esta sección no debe superar una página y • Poca actualidad de las referencias bibliográficas
media (45 líneas). Debe centrar el tema, no revisarlo. • Iniciar la introducción definiendo la enfermedad
Hay que utilizar pocas citas bibliográficas, y éstas en estudio
deben ser de actualidad y estar bien seleccionadas. Es • Realizar una revisión histórica de la enfermedad
recomendable que el número de referencias bibliográ-
ficas de este apartado no supere la mitad del total. • Explicar lo que se puede encontrar en cualquier
Hay que evitar realizar una revisión histórica de la texto de consulta
enfermedad y explicar lo que se puede encontrar en • Ausencia de justificación del estudio
cualquier texto de consulta. Si un lector ha decidido • Abrumar al lector con multitud de datos
leer este artículo, es porque está interesado en el pro- irrelevantes sobre la trascendencia del problema
blema y ya conoce sus aspectos más generales. Por esta
• Omitir el objetivo o enunciarlo de forma
razón no debe proporcionársele información genéri-
inadecuada
ca, sino la específica del problema concreto que se ha
estudiado. Si un lector quiere tener una visión general
de una enfermedad, escogerá artículos de revisión o
una monografía. Por este mismo motivo, se reco-
MATERIAL Y MÉTODOS
mienda no citar libros de texto en la bibliografía.
Cuando se concibe una pregunta y se planifica una Su finalidad es describir el diseño de la investigación
investigación, debe asegurarse que la pregunta que y cómo se ha llevado a cabo. Es el apartado evaluado
se formula no ha sido contestada previamente o que lo con mayor detalle en el proceso de revisión por los
ha sido de forma contradictoria. Es frecuente que un asesores de la revista y el más vulnerable para el re-
investigador novel se desilusione cuando, después de chazo de un manuscrito. Aunque habitualmente se
concebir una idea, se dirija a la biblioteca, busque en la denomina Material y métodos, algunos autores consi-
literatura y encuentre que ya se ha investigado antes deran que no es una expresión adecuada cuando la
sobre el tema. Siempre hay que pensar qué aspectos investigación se ha llevado a cabo en seres humanos y
novedosos aportará la investigación. Incluso cuando la sugieren denominarlo Pacientes y métodos, o bien Po-
idea ya ha sido previamente investigada, es útil pre- blación y métodos, si se han estudiado sujetos presunta-
guntarse si el método empleado por los anteriores mente sanos.
investigadores era el más adecuado, o bien si puede Probablemente, el principal problema que se plan-
considerarse útil repetirlo en otras poblaciones. Las tean los autores al redactar este apartado es decidir
razones que han llevado a los investigadores a realizar cuánta información debe incluirse y con qué detalle
el estudio deben ser comentadas de forma concisa en debe presentarse. La respuesta es que debe incluirse
la introducción, sin abrumar a los lectores con multi- la información suficiente para que un lector pueda
tud de datos irrelevantes sobre la trascendencia del comprender adecuadamente todo el proceso de la
problema. Tampoco deben adelantarse acontecimien- investigación, y con el detalle suficiente para que
tos, presentando, en este apartado, datos y conclusio- otros investigadores puedan replicar el estudio. Por lo
nes que se deriven del trabajo realizado. tanto, el texto de este apartado debe incluir los párra-
El último párrafo de la introducción se destina a fos correspondientes al diseño, los sujetos, las fuentes
enunciar el objetivo del estudio. Su definición explí- de información, las intervenciones, los instrumentos,
cita y clara facilita la comprensión del artículo, ya que las variables de respuesta, los procedimientos y la
el lector puede identificar con facilidad sus aspectos estrategia de análisis estadístico. Para facilitar la lectu-
más relevantes. ra, especialmente si es extenso, pueden utilizarse sub-
En la tabla 34.2 se resumen los errores más frecuen- epígrafes para cada uno de los bloques de informa-
tes que aparecen en la introducción de un artículo. ción citados.
313
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
El primer párrafo se reserva a la descripción, en doble ciego, triple ciego, etc.). Además también debe
una o dos frases, del tipo de estudio realizado. A con- especificarse si el estudio ha sido aprobado por el Co-
tinuación se especifican y describen los criterios de mité Ético de Investigación Clínica correspondiente.
inclusión y exclusión seguidos para seleccionar a la La última sección se reserva a la descripción de la
población de estudio. La definición de la enferme- estrategia de análisis y las técnicas estadísticas em-
dad o de la exposición que se estudia es el criterio pleadas. Cuando se utilizan varias pruebas ha de que-
que debe definirse con mayor precisión. Las finalida- dar claro en qué parte del artículo se utiliza cada una
des de esta descripción son evaluar la adecuación de de ellas. Si las pruebas son de uso muy frecuente,
la población, conocer en qué tipo de individuos se ha no es necesario que se describan en el texto. Si su uso
observado la presencia o la ausencia del efecto o de la es más infrecuente, conviene incluir una breve expli-
asociación estudiados, evaluar la posibilidad de extra- cación acompañada de una cita bibliográfica. Es pre-
polar los resultados a otras poblaciones y permitir la ferible que las referencias bibliográficas correspon-
replicabilidad del estudio. dan a un libro de texto o a un artículo de revisión
También debe describirse la procedencia de los sobre la prueba, antes que recurrir al artículo origi-
sujetos, ya que para la interpretación de los resulta- nal. Este último tiene, indudablemente, un gran
dos y su extrapolación no es lo mismo que procedan valor desde el punto de vista histórico y metodológi-
de un centro de atención primaria o de un hospital, co, pero suele ser muy complicado y ofrece pocos
por ejemplo, así como la técnica utilizada para la cap- ejemplos prácticos. Por el contrario, los libros de
tación de sujetos, indicando aquellos detalles que texto o los artículos de revisión suelen ser más didác-
permitan conocer las características de la muestra de ticos, lo cual facilita la comprensión del lector. Es
sujetos incluida (si son pacientes derivados, si se cap- recomendable hacer constar el programa estadístico
tan directamente de la consulta o a partir de algún utilizado. Hay que indicar la naturaleza de la hipóte-
sistema de registro, si existen filtros previos a su inclu- sis evaluada (unilateral o bilateral) y el valor de signi-
sión, etc.). En caso de haberse utilizado alguna técni- ficación aceptado (habitualmente el 0,05).
ca de muestreo, debe describirse adecuadamente. Es Dado que se está relatando lo que sucedió duran-
conveniente especificar el tiempo empleado en reu- te la investigación, lo más adecuado es redactar este
nir a todos los participantes. apartado en tiempo pasado. El estilo debe ser direc-
Hay que indicar qué asunciones se han utilizado to, utilizando frases cortas y sencillas que describan el
para calcular el número de sujetos necesarios para la proceso de la investigación con claridad, concisión y
realización del estudio. en la secuencia lógica. En la tabla 34.3 se presentan
En los estudios experimentales hay que especifi- los principales errores que se cometen al redactar
car el método de asignación de los participantes a los este apartado.
grupos de estudio.
Una vez definidos los aspectos relacionados con la
RESULTADOS
población de estudio y la formación de los grupos, se
describen las variables estudiadas, incluyendo su defi- Su finalidad es presentar los hallazgos que los autores
nición, técnicas de medida y fuentes de información, han encontrado en su investigación y los resultados
y, si fuera necesario, estimaciones o comentarios acer- de su análisis, pero no interpretarlos.
ca de su validez y precisión. Esta sección debe contener sólo la información
También debe describirse la arquitectura general importante, pero sin omitir nada que pueda interesar
del estudio, indicando la pauta de visitas y qué activida- al lector o que sea necesario para la adecuada com-
des se realizan en cada una de ellas, quiénes y cuántos prensión de los hallazgos. A algunos autores les cues-
son los observadores, si ha existido un entrenamiento ta mucho decidir qué información merece la pena
previo, los mecanismos de recaptación de los pacientes, incluir y, ante la duda, facilitan todo lo que ha estado
las técnicas de control de calidad de los datos recogidos, a su alcance. Publicar toda la información disponible
etc. Si el estudio evalúa la eficacia de un tratamiento, no es señal de honestidad científica, sino de falta de
debe señalarse si ha existido un período de lavado o criterio en su selección.
blanqueo previo a la intervención, las técnicas de regis- Es conveniente evitar la exposición excesivamente
tro de la presencia de reacciones adversas, los criterios detallada y exhaustiva de los datos numéricos, y recu-
utilizados para la retirada anticipada de sujetos, las téc- rrir a la síntesis, organización y presentación en tablas
nicas de enmascaramiento utilizadas (simple ciego, y figuras, cuando sea adecuado, teniendo siempre en
314
EL ARTÍCULO ORIGINAL
Tabla 34.3. Principales errores cometidos en la siones, y remitir al lector a las tablas y figuras en las que
redacción del apartado de Material encontrará organizado el resto de los datos relevantes.
y métodos Los resultados se han de presentar siguiendo una
sucesión lógica, de acuerdo con la estrategia de aná-
• No identificación del diseño del estudio lisis que se ha empleado. En primer lugar, se
expondrán los datos descriptivos de las principales
• Identificación de un diseño que no se características de los sujetos estudiados. En los estu-
corresponde con el realmente utilizado
dios analíticos, a continuación, se evalúa la compara-
• Diseño inapropiado para los objetivos bilidad inicial de los grupos de estudio respecto a las
de la investigación variables que pueden influir sobre la respuesta. Esta
• Descripciones innecesarias o superfluas evaluación no debe basarse exclusivamente en crite-
rios de significación estadística, ya que no resulta
• Ausencia de descripción del universo o población
infrecuente observar diferencias estadísticamente sig-
de referencia
nificativas pero clínicamente irrelevantes, especial-
• Ausencia de descripción del proceso mente si los grupos son de gran tamaño, o bien dife-
de captación de los sujetos rencias importantes que pueden condicionar las
• Definición insuficiente de los criterios respuestas, pero que no resultan estadísticamente sig-
de selección de los sujetos nificativas debido a que el número de sujetos es redu-
cido. Por ello, en la evaluación de la comparabilidad
• Ausencia de información sobre el cálculo
debe prestarse mucha atención a la magnitud de las
del tamaño de la muestra o sobre las asunciones
diferencias existentes entre los grupos y a su posible
en que se ha basado
impacto sobre la respuesta.
• Ausencia de datos sobre la asignación A continuación, se presenta el resultado principal,
de los sujetos a los grupos de estudio que corresponde a la estimación del efecto del factor
• Definición de variables que posteriormente de estudio sobre la variable de respuesta, o bien a la es-
no se utilizan en el análisis (frecuente en artículos timación de la asociación entre ambas variables. La
que informan sobre aspectos parciales de una elección de la medida adecuada para presentar este
investigación más amplia) resultado es importante, ya que los lectores pueden
• Explicación detallada de variables o pruebas verse influidos por la forma de presentación utilizada.
complementarias no esenciales dentro Así, un resultado expresado en forma de reducción
del estudio del riesgo relativo suele tener una mayor influencia
sobre las decisiones de los profesionales que el mismo
• Omisión de información necesaria para la resultado expresado en forma de reducción absoluta
interpretación del estudio o utilizar descripciones de riesgo o de número de personas que es necesario
incompletas (p. ej., criterios de selección, tratar. En caso de que existan potenciales factores de
definición de las principales variables del estudio,
confusión, debe presentarse la estimación del efecto o
descripción de la intervención, etc.)
de la asociación ajustada por ellos.
• Inclusión anticipada e innecesaria de resultados A continuación, se presentan los resultados del
• Omisión de las pruebas estadísticas utilizadas análisis de subgrupos, si se ha realizado. Y, finalmen-
te, los relacionados con las preguntas secundarias del
• Especificación de la marca y el tipo de ordenador
estudio.
utilizado
En cualquier estudio hay que informar del núme-
• Ausencia de orden lógico en la descripción ro de no respuestas o de personas perdidas durante
de los procedimientos el seguimiento, así como de los motivos por los que se
han producido.
Debe prestarse especial atención al uso inadecua-
do de determinados términos, tales como «normal»,
cuenta que su función es complementar el texto, no «aleatorio», «significativo» o «correlación», con un
duplicarlo. En el texto deben resaltarse los hallazgos significado estadístico muy concreto, pero que son
principales, es decir, aquellos que se refieren a las utilizados inadecuadamente con un significado
hipótesis de trabajo y en los que se basarán las conclu- menos técnico.
315
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
La información sobre los resultados de las prue- Tabla 34.5. Errores frecuentes en el apartado
bas estadísticas debe incluir la prueba utilizada, el de Resultados
valor del criterio estadístico, los grados de libertad y
el valor de significación estadística, así como los inter- • Incluir información no pertinente
valos de confianza. (no relacionada con los objetivos del estudio)
En las tablas 34.4 y 34.5 se presentan los errores
• Incluir información irrelevante
más frecuentes en la presentación de los datos estadís-
ticos y en el apartado de Resultados, respectivamente. • Omitir información relevante
• Presentar los resultados sin una secuencia lógica
Tabla 34.4. Errores frecuentes en la • Interpretar los resultados que se presentan
presentación de resultados o acompañarlos de opiniones de los autores
estadísticos • Presentación inadecuada de los aspectos
estadísticos (ver tabla 34.4)
• p huérfana (presentar el grado de significación • Duplicar la información presentada en tablas,
estadística sin indicar la prueba utilizada) figuras o texto
• Presentar estimaciones puntuales sin intervalos • No citar todas las tablas y figuras que presentan
de confianza resultados
• Expresar el grado de significación estadística de
forma dicotómica: significativo o no significativo.
Es preferible indicar el valor de p, especialmente ben tener un título breve (habitualmente menos de
cuando no está muy alejado del valor 0,05 diez palabras) que describa su contenido, sin adelan-
• Presentar solamente el grado de significación tar información sobre los resultados, y que, salvo
estadística, sin una estimación de la magnitud casos especiales, no debe incluir abreviaturas.
de la diferencia, efecto o asociación La facilidad y rapidez de comprensión de una
tabla depende en gran medida de la lógica de su
• Precisión excesiva de los resultados (p. ej.,
construcción (tabla 34.6). Las filas y las columnas
p = 0,000000002, o edad media = 34,6785 años)
deben ir precedidas de un encabezamiento corto o
• Expresar los resultados en porcentajes cuando abreviado, que identifique exactamente el material
el número de casos es muy reducido (p. ej., que contienen. El uso de símbolos y/o abreviaturas
en un estudio sobre 8 pacientes, escribir: el 50% puede suponer un deseable ahorro de espacio y una
de los casos...) simplificación de la presentación. En caso de utilizar-
• Acompañar una media aritmética de ± sin indicar se, debe recurrirse a las abreviaciones estándar y los
si corresponde a la desviación estándar, error símbolos convencionales, cuyo significado, si no es
estándar o intervalo de confianza autoexplicativo, debe hacerse explícito mediante el
• Utilizar el error estándar en lugar de la desviación uso de notas a pie de tabla.
estándar cuando se describe la distribución de Una buena tabla debe ser autoexplicativa, en el
una variable sentido de que la información que presenta sea auto-
suficiente para su comprensión, incluso separada-
mente del texto.
TABLAS Cuando se presenta más de una tabla de resultados,
Las tablas son conjuntos ordenados y sistemáticos de es conveniente utilizar un formato similar en todas
números y/o palabras presentados en filas y colum- ellas, de forma que se facilite su comprensión por el
nas. Su finalidad es la ordenación y presentación de lector. Por otro lado, debe comprobarse que todas apa-
información de tipo repetitivo de manera compren- recen mencionadas en el texto, y que los datos que se
sible. Constituyen un complemento muy útil del tex- presentan concuerdan con los que se citan.
to, pero no deben duplicarlo.
Las tablas deben ir numeradas de forma consecu- F IGURAS
tiva, según el orden en que se mencionan en el texto. Una figura es un material de ilustración que incluye
Deben presentarse separadamente del texto del ar- tanto gráficos que presentan datos numéricos en for-
tículo, cada una en una hoja aparte. Así mismo, de- ma visual como diagramas o fotografías.
316
EL ARTÍCULO ORIGINAL
317
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Los autores han de discutir las implicaciones teó- Tabla 34.7. Errores frecuentes en la
ricas y prácticas del estudio con prudencia e impar- elaboración de la Discusión
cialidad. La discusión debe basarse en la estimación de un artículo original
de la magnitud del efecto y su relevancia clínica, y no
simplemente en el grado de significación estadística. • Realizar una discusión general, no centrada
Finalmente, deben indicarse las líneas futuras de en los resultados de la investigación
investigación e incluir todas aquellas deducciones que
• Convertir la discusión en una revisión del tema
puedan sustentar un futuro estudio, evitando frases
como el manido «es necesario efectuar nuevas investi- • Repetir detallada e innecesariamente
gaciones en este campo», sin especificar los aspectos los resultados sin interpretarlos
concretos que convendría seguir trabajando. • Repetir conceptos ya planteados
En la tabla 34.7 se presentan los errores más fre- en la introducción
cuentes que se cometen en la redacción de este apar-
• Exagerar la importancia de los resultados
tado.
encontrados
• Conceder importancia solamente a la
BIBLIOGRAFÍA
significación estadística, sin evaluar la magnitud
Cuando se selecciona y escribe la bibliografía hay que del efecto observado
tener en cuenta dos normas. La primera, no citar todos • No confrontar los resultados con los de otros
los artículos indiscriminadamente por el mero hecho estudios
de haber tenido acceso a ellos, sino escoger los que se
• No relacionar los resultados con las hipótesis
consideren más adecuados para que los lectores pue-
y objetivos del trabajo
dan evaluar los resultados. La segunda es citar sin error.
Muchos autores piensan que un artículo adornado • Realizar interpretaciones que no son congruentes
con decenas de citas bibliográficas posee más rigor con los resultados
científico. Además, creen que los trabajos originales • Realizar interpretaciones injustificadas
deben ser artículos de revisión. Nada más alejado de de causalidad cuando se trata de simples
la realidad. La tarea del autor es la de seleccionar, asociaciones
entre los centenares de artículos que ha reunido y
• No discutir las limitaciones del diseño del estudio
revisado, las citas más relevantes, que conjuguen la
originalidad con la validez metodológica. Además, es • Hacer extrapolaciones y generalizaciones
más fácil publicar estudios poco voluminosos. A igual- no justificadas
dad de interés, los editores prefieren artículos cortos • Realizar conjeturas y comparaciones teóricas
en los que ha existido un trabajo previo por parte de sin fundamento
los autores de seleccionar las mejores y más novedosas
• Polemizar innecesariamente y de forma trivial
referencias bibliográficas.
Las normas de Vancouver especifican cómo debe • No determinar la probabilidad de cometer un
citarse cualquier tipo de documento, como artículos error β (o la potencia estadística) en estudios
de revistas, libros, prensa o documentos en soporte «negativos» (estudios que no encuentran
electrónico, entre otros. Para evitar los errores en la resultados estadísticamente no significativos)
citación, hay que comprobar siempre las referencias • Escribir una Discusión demasiado extensa
con el original delante para no omitir ninguna parte • No hacer recomendaciones sobre futuras líneas
de la cita. Los errores en la transcripción de una refe- de investigación
rencia dificultan o impiden su localización por los
lectores interesados. Estos errores se producen con • Acabar la Discusión con un resumen del trabajo
más frecuencia cuando los autores copian referencias
incluidas en otros trabajos sin haberlas leído.
Otros errores que se dan con frecuencia son: reali- actualidad, las españolas o las de grupos competidores,
zar afirmaciones sin citar la fuente que las fundamen- o que defienden opiniones contrarias; apoyar un con-
ta; apoyar conceptos ampliamente conocidos y acepta- cepto en una referencia que, o bien no lo desarrolla, o
dos con citas bibliográficas; omitir las citas de mayor no lo hace en el sentido pretendido por los autores.
318
EL ARTÍCULO ORIGINAL
319
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
320
Anexo 1
Medidas de frecuencia
a medida más básica de la frecuencia de una por el centro A. Cuando este número se relaciona con
Tabla A1.1. Datos hipotéticos de la frecuencia de hipertensión arterial (HTA) en la población atendida
en dos centros de salud
A 50 23.500 2,13
B 35 12.200 2,87
323
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
controlan con dieta), aunque generalmente se expre- bio del valor de una variable por cada unidad de otra
sa en tanto por ciento. variable de la cual depende la primera. Dado que
Una razón es un cociente en el que el numerador para comprender exactamente el significado de una
no está incluido en el denominador. En el ejemplo tasa instantánea se necesitan algunos conocimientos
A1.2, la razón entre los hipertensos controlados con de cálculo, en investigación clínica y epidemiológica
dieta y los no controlados sería de 75/25 o, lo que es se utilizan tasas promedio.
lo mismo, de 3/1.
Cuando en una razón el numerador representa la Ejemplo A1.5. Para explicar intuitivamente el concep-
probabilidad de que ocurra un suceso y el denomina- to de tasa promedio, puede utilizarse la comparación
dor la probabilidad de que no ocurra, se denomina con la velocidad. Por ejemplo, la velocidad de un
odds. En el ejemplo A1.2, la odds de control con dieta automóvil en un instante dado es una tasa que se
es de 3, o lo que es lo mismo, por cada hipertenso expresa en kilómetros/hora. De todos modos, viajar a
esencial que no se controla con dieta sin sal hay tres 80 km por hora no significa necesariamente que se
que sí lo consiguen. La escala de medida de una odds vayan a recorrer 80 km. En realidad, se puede ir a esta
va desde infinito en el caso de que un suceso siempre velocidad pero no conducir durante una hora. Del
ocurra (100/0) hasta cero cuando no ocurre nunca mismo modo, en el ejemplo anterior sobre la cardio-
(0/100). patía isquémica, la tasa no expresa el número de casos
En realidad, tanto las proporciones como la odds nuevos en un año, sino la «velocidad» con que se pro-
expresan el mismo fenómeno, pero en formas dife- duce el cambio de una situación clínica a otra en una
rentes. La relación entre ellas es la siguiente: población determinada.
324
MEDIDAS DE FRECUENCIA
325
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Años de observación
Persona A 3
Persona B 6
Persona C 2
Persona D 2
Persona E 5
Persona F 4
siones esta condición no se cumple, como es el caso el interés está en predecir el cambio en el estado de
de enfermedades con un largo período de latencia salud de un individuo en función de alguna carac-
y en el que el seguimiento se ha llevado a cabo terística, entonces se deberá estimar el riesgo de que
durante muchos años, en las que la aparición de este cambio ocurra. En este caso la densidad de inci-
nuevos casos tenderá a concentrarse en los últimos dencia será de poca ayuda, ya que no ofrece informa-
años de seguimiento. En esta situación es conve- ción individual.
niente dividir el período de observación en varios Por otro lado, si el objetivo principal consiste en
subperíodos. evaluar una hipótesis etiológica, la elección depen-
2. La tasa de incidencia en los que se pierden duran- derá de la naturaleza de la enfermedad. Si ésta es cró-
te el seguimiento es la misma que en los que con- nica y con un largo período de latencia, la medida
tinúan en observación; si esta condición no se cum- más apropiada será la densidad de incidencia. En
ple, se obtendrá un resultado sesgado. este caso, el tiempo de seguimiento sólo representa
3. El denominador es apropiado según la historia una parte del tiempo en el que la persona tiene el
natural de la enfermedad. Si se quiere estimar la riesgo de contraer la enfermedad.
tasa de incidencia de fallos de un método anticon-
ceptivo y se espera que en un alto porcentaje de Ejemplo A1.8. La figura A1.2 ilustra un ejemplo en el
pacientes ocurra antes de un año, no sería lógico que es preferible usar la densidad de incidencia en lugar
escoger como denominador los años-persona de de la incidencia acumulada. Se observa que en ambos
observación, ya que muchas personas contarían grupos 4 de 5 personas desarrollan la enfermedad, es
como un nuevo caso en el numerador, pero no decir, tienen una incidencia acumulada del 80%. Sin
contribuirían al denominador, por lo que la tasa de embargo, si nos fijamos atentamente veremos que en el
incidencia estaría artificialmente elevada. En este grupo con la exposición A estos 4 casos han aparecido
caso sería mejor escoger como denominador los después de 22 personas-año de observación, mientras
meses-persona. que en el B sólo se han necesitado 9 personas-año de
observación. Así, las tasas de densidad de incidencia
E LECCIÓN DE LA MEDIDA son 0,18 personas-año (4/22) y 0,44 personas-año
DE INCIDENCIA (4/9), respectivamente, lo que indica que la exposición
La elección de la medida de incidencia más adecua- B es mucho más agresiva (o protectora, en el supuesto
da viene condicionada por el objetivo del estudio. Si de que fuera una exposición preventiva) que la A.
326
MEDIDAS DE FRECUENCIA
Años de observación
Exposición A
Persona 1 4
Persona 2 4
Persona 3 5
Persona 4 4
Persona 5 5
Total: 22
Exposición B
Persona 1 2
Persona 2 1
Persona 3 1
Persona 4 3
Persona 5 2
Total: 9
Año 0 1 2 3 4 5
327
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tado. Así pues, la incidencia de tuberculosis en una Por ello, es preferible el uso de casos incidentes,
comarca se suele calcular usando como denomina- ya que cuando se comparan dos grupos (o dos perío-
dor el censo de población, sin corregir por los casos dos en el tiempo), una mayor prevalencia en uno de
prevalentes. ellos puede ser debida a: a) una mayor duración de
Por otro lado, en las estimaciones de la incidencia se la enfermedad, aún cuando la incidencia pudiera
ha de especificar si el numerador se refiere a casos nue- ser igual o menor; b) una incidencia mayor con una du-
vos o a episodios. En algunas enfermedades esto no es ración similar o menor, y c) una incidencia y una
necesario, como en el caso de la diabetes, ya que no duración mayores.
pueden ocurrir más de una vez. En otras, como el res- Si un factor está asociado con una enfermedad, y
friado común o los ataques agudos de una enfermedad en el estudio se utilizan casos prevalentes, sólo cuan-
crónica (p. ej., el infarto de miocardio en la enferme- do se den la segunda y tercera circunstancias se
dad coronaria), pueden suceder episodios en más de podrá considerar realmente que el factor es causa de
una ocasión, por lo que se tendrá que especificar si el la enfermedad. Por el contrario, si se cumple la pri-
numerador se refiere al número de personas que han mera circunstancia, el uso de casos prevalentes lle-
desarrollado la enfermedad o al número de episodios. vará a la conclusión errónea de que el factor es causa
de la enfermedad, cuando en realidad lo único que
RELACIÓN ENTRE LA INCIDENCIA hace es aumentar su duración. Para evitar este pro-
Y LA PREVALENCIA blema siempre que sea posible es conveniente utilizar
casos incidentes.
Ambas medidas están fuertemente relacionadas. La
prevalencia depende de la incidencia y de la dura-
ción de la enfermedad. Para las enfermedades cuya
B IBLIOGRAFÍA
Rothman KJ, Greenland S. Modern Epidemiology. Washing-
densidad de incidencia es relativamente estable, la ton: Lippincott-Raven, 1996.
prevalencia se puede expresar como el producto de Tapia Granados JA. Incidencia: concepto, terminología y
la incidencia por la duración. análisis dimensional. Med Clin (Barc) 1994; 103: 140-
142.
Prevalencia = densidad de incidencia Tapia Granados JA. On the terminology and dimensions of
⫻ duración media de la enfermedad incidence. J Clin Epidemiol 1997; 50: 891-897.
328
Anexo 2
Medidas de asociación
n los estudios analíticos, no sólo interesa cono- que se utiliza como medida de frecuencia la densidad
Tabla A2.1. Presentación de una tabla 2 2 para el cálculo de las medidas de asociación
Exposición a b a+b
No exposición c d c+d
Total a+c b+d a+b+c+d
329
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla A2.2. Presentación de una tabla Ejemplo A2.1. Una hipotética cohorte de 368 indivi-
para el cálculo de las medidas duos que reciben oxigenoterapia domiciliaria se ha
de asociación cuando el dividido en dos grupos, según si han dejado de fumar
denominador son unidades o no. Se siguen durante un año para evaluar su mor-
de persona-tiempo de talidad (tabla A2.3). La medida de frecuencia que
observación se decide utilizar es la incidencia acumulada. En pri-
mer lugar, se calcula el riesgo, o probabilidad, de que
Enfermedad Persona-tiempo un individuo que no tenga la enfermedad (en este
caso la muerte) la desarrolle durante el año de dura-
Exposición a PTe ción del estudio. El resultado es de 12,3% (19/154)
No exposición c PTo en la cohorte expuesta, mientras que para los exfu-
Total a+c PTe + PTo madores es de 7% (15/214). El riesgo relativo (RR)
de los fumadores respecto a los exfumadores es de
12,3/7,0 = 1,8, lo que significa que, en un año, un
a: número de personas enfermas en el grupo expuesto.
c: número de personas enfermas en el grupo
fumador tiene 1,8 veces más probabilidades de morir
no expuesto. que un exfumador.
PTe: unidades de persona-tiempo de observación
en el grupo expuesto. Cuando la medida de frecuencia es la densidad de
PTo: unidades de persona-tiempo de observación incidencia, el RR se calcula de forma similar:
en el grupo no expuesto.
En consecuencia, los marginales serán:
Ie a/PTe
a + c: total de personas enfermas.
PTe + PTo: total de unidades de persona-tiempo
RR = =
de observación. Io c/PTo
Tabla A2.3. Resultados de un estudio hipotético de una cohorte de 368 individuos que reciben
oxigenoterapia domiciliaria (ejemplo A2.1)
330
MEDIDAS DE ASOCIACIÓN
Un RR de 1,0 indica que no existe relación entre Dado que la fórmula anterior permite obtener los
el factor de estudio y la enfermedad. Si es mayor que límites del IC del logaritmo del RR, deberán deter-
1,0 indica que existe una asociación positiva entre el minarse sus antilogaritmos para conocer el IC del RR.
factor de estudio y la enfermedad. Cuando es menor
que 1,0 indica una asociación negativa. Ejemplo A2.3. En un estudio hipotético se ha seguido
El RR obtenido en un estudio es una estimación una cohorte de 500 sujetos expuestos y otra de 500
puntual y, por lo tanto, debe calcularse su intervalo sujetos no expuestos a un factor de riesgo, y se han
de confianza (IC). Si el IC del 95% no incluye el observado los resultados de la tabla A2.4. La estima-
valor RR = 1, existe una asociación estadísticamente ción puntual del RR es 4 y los límites de su IC del 95%
significativa entre el factor de estudio y el desenlace. son 2,1 y 7,4. Dado que el IC excluye el valor 1, existe
Para calcularlo, debe determinarse, en primer lugar, asociación estadísticamente significativa entre la
el error estándar del logaritmo natural (neperiano) exposición y la enfermedad.
del RR:
ODDS RATIO
√
b d
EE (ln RR) = + En los estudios de cohortes el RR se estima directa-
(a + b) a (c + d) c mente, ya que se conoce la incidencia de la enferme-
dad en los individuos expuestos y no expuestos a un
Donde ln RR es el logaritmo natural del RR. El IC factor. Por el contrario, en los estudios de casos y con-
de ln RR se calcula del siguiente modo: troles no se puede calcular la incidencia, porque la
población de estudio se selecciona a partir de indivi-
duos que ya han desarrollado la enfermedad. La
ln RR ± zα/2 EE (ln RR) razón a/(a + b), por ejemplo, no estima el riesgo de
Tabla A2.4. Ejemplo de cálculo del intervalo de confianza (IC) del riesgo relativo (RR)
48/500
Estimación puntual del RR: RR = = 4
12/500
331
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
contraer la enfermedad en aquellos expuestos al fac- entre aquellos que no la tienen (b + d). Lógicamente
tor de riesgo, sino que refleja, en parte, decisiones no se estudian todos los individuos, sino una muestra
tales como elegir dos controles por caso. de ellos. Si los casos y los controles se han elegido
La medida de asociación que se utiliza en los estu- independientemente de la historia de exposición
dios de casos y controles es la razón de odds u odds previa, la OR puede considerarse una buena estima-
ratio (OR). Por odds se entiende la razón entre la pro- ción del RR. El ejemplo de la tabla A2.5 ilustra este
babilidad de que un suceso ocurra y la probabilidad concepto.
de que no ocurra. Si la probabilidad de que una per- La OR aventaja al RR en que su resultado es inde-
sona con la enfermedad esté expuesta es del 0,75, la pendiente de si se expresa en términos de riesgo de
odds de exposición se calculará dividiendo este valor contraer la enfermedad, o de no contraerla.
por la probabilidad de no estar expuesto [0,75/(1 –
0,75) = 3]. La OR no es más que la razón entre la odds Ejemplo A2.4. En el estudio hipotético de la tabla
de exposición observada en el grupo de casos (a/c) y A2.6, el RR de enfermar en la comunidad A respecto
la odds de exposición en el grupo control (b/d).
a/c ad Tabla A2.5. Ejemplo que ilustra por qué la odds
OR = = ratio (OR) es una buena estimación
b/d bc del riesgo relativo (RR)
A 2 98 100
De este modo, un estudio de casos y controles
puede conceptualizarse como un estudio en el que el B 1 99 100
grupo de casos lo forman todos los individuos que tie- Total 3 197 200
nen la enfermedad (a + c), y los controles se escogen
332
MEDIDAS DE ASOCIACIÓN
Tabla A2.7. Ejemplo de cálculo del intervalo de confianza (IC) de la odds ratio (OR)
Expuestos 70 22 92
No expuestos 130 178 308
Total 200 200 400
333
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
infraestima cuando es menor de 1. De hecho, la dife- Las medidas de asociación no miden el impacto
rencia entre la OR y el RR depende tanto del riesgo potencial sobre la salud de la población de la exposi-
basal como de la propia magnitud del efecto, de ción al factor de estudio o de su eliminación. Las
forma que grandes discrepancias sólo se observan en medidas de impacto se presentan en el capítulo 32.
efectos de gran tamaño y riesgos basales elevados. Por
ello, en la gran mayoría de ocasiones, la interpreta- B IBLIOGRAFÍA
ción de la OR como RR no conduce a cambios en la Altman DG. Confidence interval for odds ratio. Physiother
interpretación cualitativa de los resultados, aunque Res Int 2000; 5: 134-135.
debe tenerse en cuenta que puede existir cierta sobres- Bland JM, Altman DG. The odds ratio. BMJ 2000; 320: 1468.
timación de la magnitud del efecto. Davies HTO, Crombie IK, Tavakoli M. When can odds ratio
En los estudios de cohortes, suele utilizarse la mislead? BMJ 1998; 316: 989-991.
regresión logística para controlar múltiples factores Martínez González MA, De Irala Estévez J, Guillén Grima F.
¿Qué es una odds ratio? Med Clin (Barc) 1999; 112: 416-
de confusión, obteniéndose una OR ajustada. Zhang
422.
y Yu (1998) proponen una fórmula para corregir este
Nurminen M. To use or not to use the odds ratio in epide-
valor y obtener una mejor estimación del RR: miologic analyses? Eur J Epidemiol 1995; 11: 365-371.
Pearce N. What does the Odds Ratio estimate in a case-con-
RR = OR / [(1 – Po) + (Po OR)] trol study? Int J Epidemiol 1993; 22: 1189-1192.
Zhang J, Yu KF. What's the relative risk? A method of correc-
Donde Po es la frecuencia del resultado de interés ting the Odds Ratio in cohort studies of common out-
en el grupo no expuesto (riesgo basal). Esta misma comes. JAMA 1998; 280: 1690-1691.
corrección puede aplicarse a los límites del IC.
334
Anexo 3
Sensibilidad y especificidad
Positivo a b n1
Negativo c d n2
Total m1 m2 N
Verdaderos positivos (a): número de individuos con la enfermedad, en los que el resultado de la prueba diagnóstica es positivo.
Falsos positivos (b): número de individuos sin la enfermedad, en los que el resultado de la prueba diagnóstica es positivo.
Falsos negativos (c): número de individuos con la enfermedad, en los que el resultado de la prueba diagnóstica es negativo.
Verdaderos negativos (d): número de individuos sin la enfermedad, en los que el resultado de la prueba diagnóstica es negativo.
De esta información se derivan los siguientes índices:
Sensibilidad (a/m1): probabilidad de obtener un resultado positivo en los individuos que tienen la enfermedad.
Especificidad (d/m2): probabilidad de obtener un resultado negativo en los individuos que no tienen la enfermedad.
Valor predictivo positivo (a/n1): probabilidad de que un individuo que presenta un resultado de la prueba positivo
tenga la enfermedad.
Valor predictivo negativo (a/n2): probabilidad de que un individuo que presenta un resultado de la prueba negativo
no tenga la enfermedad.
335
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
general, que se quiere evaluar. Para simplificar la Tabla A3.2. Resultados de un estudio que
exposición, la mayor parte de las veces se considerará evalúa un nuevo método
que se trata de una medida dicotómica, clasificándo- diagnóstico de infección urinaria
se su resultado en positivo o negativo.
De los resultados obtenidos en cada una de las Cultivo Cultivo
casillas de la tabla A3.1, se derivan, entre otros, dos positivo negativo Total
índices: la sensibilidad y la especificidad. La sensibili-
dad responde a la pregunta: si un individuo tiene una Tinción positiva 285 12 297
enfermedad o factor de riesgo, ¿qué probabilidad Tinción negativa 61 706 767
existe de que el resultado de la medida que se le apli- Total 346 718 1.064
ca sea positivo? En otras palabras, la probabilidad de
que una medida clasifique correctamente a un indi- Sensibilidad: 285/346 = 82,4%.
viduo enfermo. La especificidad responde a la pregun- Especificidad: 706/718 = 98,3%.
ta: si un individuo no tiene la enfermedad o el factor Valor predictivo positivo: 285/297 = 96,0%.
de riesgo, ¿qué probabilidad existe de que el resulta- Valor predictivo negativo: 706/767 = 92,0%.
do obtenido sea negativo? Representa la probabili- Razón de probabilidad positiva: 82,4/(100 – 98,3) = 49.
dad de que una medida clasifique correctamente a Razón de probabilidad negativa: (100 – 82,4)/98,3 = 0,18.
una persona no enferma. Ambos conceptos son
características intrínsecas de la propia medida. Es Variando el criterio de normalidad se modifican
decir, que si ésta se aplica en una población de indivi- los valores de estos parámetros. Si en el ejemplo A3.1,
duos semejante, y los observadores tienen la misma se considerara que un paciente presenta bacteriuria
experiencia, la sensibilidad y la especificidad de una cuando los valores fueran superiores a 104 UFC/ml,
medida no variarán cuando se emplee en distintos se aumentaría la sensibilidad de la medida a costa de
estudios. reducir su especificidad. Del mismo modo, si se fuese
más exigente en el criterio de normalidad, aumen-
Ejemplo A3.1. En un estudio se analizaron 1.064 mues- taría la especificidad y disminuiría la sensibilidad.
tras de orina con el objetivo de evaluar un método,
simple y económico de tinción directa para el diagnós-
VALORES PREDICTIVOS
tico de infección urinaria (García Curiel, 1988). Se uti-
lizó como colorante el azul de metileno, que permite En la práctica clínica, cuando un médico solicita una
teñir las bacterias y el material nuclear de leucocitos. prueba diagnóstica desconoce si el paciente tiene la
Esta prueba se comparó con el método tradicional de enfermedad. Los médicos deben efectuar inferencias
siembra en placa de agar (criterio de referencia). Las sobre la presencia o ausencia de la enfermedad a par-
orinas se clasificaron como positivas si existía un creci- tir de los resultados de la prueba. Existen dos modos
miento de 10–105 UFC/ml (unidades formadoras de de cuantificar esta inferencia: los valores predictivos y
colonias). Si el crecimiento era inferior a 105 UFC/ml los cocientes de probabilidad.
se consideró que no existía bacteriuria significativa. El valor predictivo positivo (VPP) es la probabilidad
Los resultados principales se exponen en la tabla de que un individuo con un resultado positivo tenga la
A3.2. Se encontraron 346 bacteriurias, lo que repre- enfermedad, y el valor predictivo negativo (VPN) es la
senta el 32,5% del total de las muestras estudiadas. La probabilidad de que si el resultado es negativo el
sensibilidad de la tinción para detectar una infección paciente no tenga la enfermedad. Los valores predicti-
urinaria fue de 82,4% (284/346), y la especificidad vos dependen no sólo de la sensibilidad y la especifici-
fue de 92,3% (706/718). Así pues, en el grupo de ori- dad, sino también de la prevalencia de la enfermedad.
nas con bacteriuria significativa se identificaron con
la nueva medida un 82,4%. De igual modo, el resul- Ejemplo A3.2. En el ejemplo A3.1 (ver tabla A3.2),
tado fue negativo en un 98,3% de las muestras consi- el VPP es del 96% (285/297) y el VPN es del 92%
deradas como negativas. La tinción fue falsamente (706/767). El trabajo se llevó a cabo en pacientes
negativa en un 17,6% de los casos (100 – sensibili- ingresados en un hospital o que acudían a las consul-
dad) y sólo fue falsamente positiva en un 1,7% de las tas externas, siendo la prevalencia del 32,5%. Si se
ocasiones (100 – especificidad). aplicara la misma prueba a la población que consulta
336
SENSIBILIDAD Y ESPECIFICIDAD
en un centro de salud, la prevalencia de infección uri- prueba diagnóstica (es decir, la suma de verdaderos y
naria sería, muy probablemente, menor y, por consi- falsos positivos) son derivados a otro nivel de atención,
guiente, el VPP disminuiría. Supongamos que la pre- es de esperar que la especificidad se reduzca.
valencia es del 5% y se aplica la prueba a 1.000
personas, siendo la sensibilidad y la especificidad las Ejemplo A3.3. En una muestra de 2.000 pacientes visi-
mismas que las calculadas en la tabla A3.2. Los resulta- tados en atención primaria con un diagnóstico de
dos de este estudio hipotético se muestran en la tabla sospecha de apendicitis aguda, los que tenían una
A3.3. La predictividad de la prueba positiva ha dismi- elevada probabilidad de padecerla eran derivados al
nuido de un 96% a un 71,9%. hospital de referencia para confirmación y trata-
La predictividad de una medida no se puede eva- miento. Una comparación entre los resultados obser-
luar sin considerar la prevalencia de la enfermedad; vados en ambos niveles de atención mostró que la
si es alta, un resultado positivo tiende a confirmar su prevalencia de la enfermedad fue del 14% en las con-
presencia, mientras que si es negativo, no ayudará a sultas de atención primaria y del 63% entre los
excluirla. Contrariamente, cuando la prevalencia es pacientes derivados a los servicios de urgencia de los
baja, un resultado negativo permitirá descartar la hospitales. Este aumento de prevalencia se acom-
enfermedad con un elevado margen de confianza, pañó también de una distinta prevalencia de los sín-
pero si es positivo, no permitirá afirmar su existencia. tomas y signos diagnósticos. Así, el dolor en el cua-
La prevalencia es el factor más determinante de drante inferior derecho se observó en el 21% de los
los valores predictivos. La sensibilidad y la especifici- pacientes visitados en atención primaria, mientras
dad, al ser características intrínsecas de una medida, que en los derivados al hospital esta prevalencia fue
no sufrirán grandes variaciones según el lugar donde del 82%. La derivación de pacientes con resultados
se apliquen, siempre y cuando se realicen en condi- falsos positivos supuso que la especificidad del signo
ciones similares. Sin embargo, esta asunción no siem- dolor en el cuadrante inferior derecho disminuyera
pre se cumple. El espectro de pacientes también va- desde el 89% hasta el 16%. Como consecuencia, un
ría según el lugar donde se aplica la prueba. Por signo diagnóstico útil en atención primaria (cociente
ejemplo, una misma prueba cuando se emplea en un de probabilidad de una prueba positiva de 8 y cocien-
programa de detección precoz, se aplica a sujetos asin- te de probabilidad de una prueba negativa de 0,2)
tomáticos, mientras que cuando se usa con fines diag- carece de utilidad en los hospitales de referencia
nósticos en un hospital de alta tecnología, muchos de (cociente de probabilidad de una prueba positiva y
los pacientes que la reciben tienen una enfermedad negativa de 1) (Sackett DL, 2002).
avanzada.
Dado que muchos de los pacientes que son vistos La especificidad no siempre se reduce cuando los
en atención primaria con un resultado positivo en una pacientes son derivados al nivel secundario o tercia-
rio de atención, por lo que no existe un «factor» que
sirva para ajustar los resultados en función del nivel
de atención. La única forma de evitar este problema
Tabla A3.3. Resultados de un estudio que
es repitiendo el mismo estudio en distintas poblacio-
evalúa un nuevo método
diagnóstico de infección urinaria
nes y lugares.
337
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
la enfermedad, pero en las que la prueba también ha Probabilidad posprueba = odds posprueba
dado un resultado positivo (1 – especificidad): / (odds posprueba + 1)
338
SENSIBILIDAD Y ESPECIFICIDAD
339
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Desig- Mulherin SA, Miller WC. Spectrum bias or spectrum effect?
ning studies to ensure that estimates of test accuracy are Subgroup variation in diagnostic test evaluation. Ann
transferable. BMJ 2002; 324: 669-671. Intern Med 2002; 137: 598-602.
Jaeschke R, Guyatt GH, Sackett DL, for the Evidence-Based Punglia RS, D'Amico AV, Catalona WJ, Roehl KA, Kuntz KM.
Medicine Working Group. Users' guides to the medical Effect of verification bias on screening for prostate can-
literature: III. How to use an article about a diagnostic cer by measurement of prostate-specific antigen. N Engl
test. B. What were the results and will they help me in J Med 2003; 349: 335-342.
caring for my patients? JAMA 1994; 271: 703-707. Ransohoff DF, Feinstein AR. Problems of spectrum and bias
Langlotz CP. Fundamental measures of diagnostic examina- in evaluating the efficacy of diagnostic tests. N Engl
tion performance: usefulness for clinical decision ma- J Med 1978; 299: 926-930.
king and research. Radiology 2003; 228: 3-9. Tze-Wey L. Understanding sensitivity and specificity with the
Lijmer JG, Mol BW, Heisterkamp S et al. Empirical evidence right side of the brain BMJ 2003; 327: 716-719.
of design-related bias in studies of diagnostic tests. JAMA
1999; 282: 1061-1066.
Lu Y, Heller DN, Zhao S. Receiver operating characteristic
(ROC) analysis for diagnostic examinations with unin-
terpretable cases. Stat Med 2002; 21: 1849-1865.
340
Anexo 4
Análisis de la concordancia
dos de medida de una misma variable. Las técnicas de Ejemplo A4.1. En un estudio hipotético dos médicos
análisis dependen del tipo de variable. leen 100 radiografías y las clasifican como normales o
anormales. Las evaluaciones se realizan de forma
independiente, es decir, ninguno de los médicos
VARIABLES CUALITATIVAS:
conoce el resultado de su colega. El médico 1 clasifi-
ÍNDICE KAPPA
ca 30 radiografías como anormales, y el médico 2, 35,
Una forma sencilla de expresar la concordancia cuan- coincidiendo ambos en 20 casos. Los resultados se
do la variable es cualitativa es la proporción o porcen- muestran en la tabla A4.2. La proporción total obser-
taje observado de mediciones concordantes. Sin vada de concordancia entre ambos médicos (Po) es:
embargo, dado que una parte de esta concordancia se
debe al azar, es necesario utilizar otros métodos que Po = (a + d) / N = (20 + 55) / 100 = 0,75
tengan en cuenta este hecho. (o bien, el 75%)
El índice Kappa resume la concordancia entre dos
medidas de una variable (p. ej., las obtenidas por Esta proporción observada no tiene en cuenta el
dos observadores), cuando está en una escala cualita- papel del azar y se pueden obtener conclusiones erró-
tiva, eliminando la fracción de la concordancia debi- neas. Supongamos que observar una radiografía
da al azar, es decir, la que se obtendría si las dos medi- anormal fuera muy poco frecuente. El número de
das no estuvieran relacionadas. En la tabla A4.1 se coincidencias negativas d sería probablemente muy
muestra la presentación general de los datos para su elevado, contribuyendo de una manera despropor-
cálculo en el caso de una medida dicotómica. La fór- cionada al porcentaje total de concordancias. Un
mula es: observador, incluso sin mirar las radiografías, simple-
mente diciendo que todas son normales, podría ser
Kappa = (Po – Pe) / (1 – Pe) concordante con el resultado del otro observador en
341
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla A4.1. Presentación de una tabla 2 2 para el cálculo de los índices de concordancia
Positivos a b n1
Negativos c d n2
Total m1 m2 N
Tabla A4.2. Concordancia entre dos observadores que leen 100 radiografías (ejemplo A4.1)
Hallazgos observador 1
Radiografías
Radiografías
Anormales 20 15 35
Normales 10 55 65
Total 30 70 100
342
ANÁLISIS DE LA CONCORDANCIA
El valor máximo de un índice Kappa es 1, que se de una medida. Si la concordancia es elevada, existe
produce cuando existe un acuerdo total entre ambos la posibilidad, aunque no la garantía, de que las
observadores. El valor mínimo no es cero, sino que mediciones reflejen la dimensión que se pretende
puede ser negativo. Si el porcentaje observado es medir (validez). Pero si la concordancia es baja, la
menor que el esperado por azar, el índice Kappa utilidad de las mediciones será muy limitada, ya que
tendrá un valor negativo. Este hecho ha sido critica- no tiene sentido preguntarse si están asociadas con la
do por algunos autores, aunque en realidad tiene variable que se desea medir si uno no se puede fiar ni
poca transcendencia, ya que cuando el porcentaje de las propias mediciones.
observado es menor que el esperado, la concordan-
cia es tan baja que no interesa saber su valor exacto.
VARIABLES CUANTITATIVAS
La concordancia se considera muy débil cuando
los valores del índice Kappa son inferiores a 0,20, En el caso de variables cuantitativas, existe cierta con-
débil si está entre 0,21 y 0,40, moderada entre 0,41 y fusión entre los conceptos de relación, o asociación,
0,60, buena entre 0,61 y 0,80, y muy buena si es supe- y de concordancia, de forma que es frecuente el uso
rior a 0,80. de técnicas estadísticas inadecuadas.
La fórmula permite obtener una estimación pun-
tual del índice Kappa. Un método sencillo de calcu- Ejemplo A4.2. La diferencia entre relación y concor-
lar su intervalo de confianza es el siguiente: dancia se ilustra con los datos presentados en la tabla
A4.3, que corresponden a un estudio hipotético para
√
Po (1 – Pe) determinar la concordancia entre una técnica están-
IC 95%: Kappa ± 1,96 dar de medición de la presión arterial sistólica (PAS)
N (1 – Pe) y tres nuevos métodos A, B y C. Puede observarse que
todos ellos tienen valores del coeficiente de correla-
El índice Kappa se propuso originalmente como ción de Pearson con el método estándar de 1, indi-
un índice de concordancia entre dos observadores cando una relación lineal perfecta. Sin embargo,
para clasificar variables dicotómicas. Posteriormente, también puede apreciarse que los valores no coinci-
se propuso su uso para variables politómicas. Sin den en todos los casos. Mientras que el método A pre-
embargo, cuando se usa en esta situación, tiene el senta una correlación y una concordancia perfectas
inconveniente de que mide la frecuencia del acuerdo con la técnica estándar, el método B proporciona
exacto, más que la del acuerdo aproximado. Es decir, valores consistentemente superiores en 30 mmHg, lo
no tiene en cuenta el grado de desacuerdo, ya que que se refleja en la diferencia entre las medias de las
todos los desacuerdos son tratados de igual manera. mediciones. En cambio, aunque el método C tiene
Una alternativa es calcular el índice Kappa pondera- una correlación perfecta y la media de sus medicio-
do, en el que se asignan diferentes ponderaciones a nes coincide con la del método estándar, existe una
los desacuerdos, según su magnitud. Cuantas más discordancia evidente en los valores que proporcio-
categorías tenga la variable, más disminuye la proba- nan para cada sujeto. Así pues, si bien una concor-
bilidad de acuerdo. De hecho, cuando se acerca a dancia perfecta implica una correlación perfecta, lo
una escala cuantitativa, el concepto de probabilidad contrario no se cumple necesariamente, incluso aun-
de acuerdo se convierte en un absurdo. En realidad, que los valores medios sean similares.
cuando se trata de variables ordinales muchos auto-
res recomiendan utilizar el coeficiente de correlación Del ejemplo se deduce que el coeficiente de
intraclase, en lugar del índice Kappa ponderado. De correlación de Pearson no es una medida adecuada
todas formas, con variables politómicas puede ser del grado de concordancia entre dos mediciones,
más informativo el uso de varios índices Kappa para sino que mide el grado de relación lineal entre ellas,
diferentes combinaciones entre las categorías de la de forma que, por ejemplo, si una es sistemáticamen-
variable, que un único valor global promedio. te el doble de la otra, la correlación será perfecta.
El índice Kappa no es el mejor índice para resu- Tampoco la regresión lineal es una técnica adecuada,
mir la validez de una medida. Siempre que se posea ya que se obtiene una ecuación que permite predecir
un buen criterio de referencia, es preferible usar la el valor de una variable en función de otra, pero no
sensibilidad y la especificidad para valorar la validez indica el grado de acuerdo entre ellas.
343
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla A4.3. Estudio hipotético que compara la medición de la presión arterial sistólica (PAS)
con la técnica estándar y tres nuevos métodos
Como puede deducirse fácilmente de los datos de dientes. Por ello, se hace necesario un índice estadís-
la tabla A4.3, la comparación de medias tampoco es tico que cuantifique la concordancia corrigiendo por
adecuada para realizar este análisis. Si se utilizara este fenómeno.
como criterio la igualdad de las medias de las medi-
ciones, podría concluirse que tanto el método A como C OEFICIENTE DE CORRELACIÓN
el C tienen una buena concordancia con el método INTRACLASE
estándar, lo que es evidentemente erróneo en lo que El coeficiente de correlación intraclase (R) es un ín-
se refiere al método C. Además, al aplicar una prueba dice que sintetiza el grado de concordancia entre dos
estadística para comparar las medias, se hacen sinóni- variables cuantitativas. Su definición matemática
mos la concordancia y la ausencia de significación deriva del modelo del análisis de la varianza. La varia-
estadística. Por este criterio, cuanto mayor sea el error bilidad total de las mediciones (σ2x) se puede des-
de medida, es decir, la variabilidad de los valores, componer, por un lado, en la debida a los verdade-
menor será la probabilidad de encontrar diferencias ros valores (σ2v), es decir, la de las diferencias entre
estadísticamente significativas, y, por lo tanto, mejor sujetos, y, por otro, a la variabilidad residual de los
será la concordancia, lo que resulta un error evidente. errores de medida (σ2E), es decir, la de las diferencias
Una forma sencilla de cuantificar la concordancia entre las medidas para cada sujeto. Cuanto menor
es determinar el tanto por ciento de sujetos en los sea esta variabilidad residual en relación con la total,
que el nuevo método proporciona un valor cercano mayor será la concordancia entre las mediciones:
al obtenido por el de referencia (p. ej., ± 5 mmHg en
la toma de la presión arterial). Sin embargo, si bien σ2v σ2 v
este porcentaje puede proporcionar una informa- R= =
ción útil, ignora el hecho de que una determinada σ2v + σ2E σ2x
fracción de la concordancia puede deberse simple-
mente a la variabilidad aleatoria, incluso aunque Los valores de R varían entre 0 y 1. El valor 0
ambos métodos de medida sean totalmente indepen- corresponde a la situación en que el componente
344
ANÁLISIS DE LA CONCORDANCIA
residual supone toda la variabilidad. A medida que a la diferencia igual a 0. Este gráfico también permite
constituye una porción menor de la misma, el valor observar si la magnitud de las diferencias entre los
de R aumenta, hasta alcanzar el valor máximo de 1 métodos es similar para todos los valores de la varia-
cuando σ 2E = 0. La concordancia suele considerarse ble (representados por los promedios de ambas
muy buena si R es mayor de 0,90, buena si está entre mediciones), o si las diferencias entre los métodos
0,71 y 0,90, moderada entre 0,51 y 0,70, mediocre son mayores a medida que aumenta el valor de la
entre 0,31 y 0,50, y mala o nula si R es inferior a 0,31. variable.
En la tabla A4.3 puede apreciarse como R refleja Si las diferencias no varían según los valores de la
el grado de concordancia mejor que el coeficiente de variable, pueden analizarse las diferencias individua-
correlación de Pearson. les: su media aritmética estima el sesgo relativo (di-
ferencia sistemática entre ambos métodos) y su des-
A NÁLISIS DE LAS DIFERENCIAS viación estándar, el error aleatorio. Los límites del
INDIVIDUALES intervalo de dos desviaciones estándar alrededor de la
Bland y Altman (1995) proponen un método sencillo media de las diferencias pueden considerarse como
a partir del análisis de las diferencias individuales, los límites de concordancia entre ambas mediciones, ya
que proporciona información complementaria al que este intervalo incluye el 95% de las diferencias
coeficiente de correlación intraclase. observadas.
El primer paso es la representación gráfica de las Este análisis de las diferencias también puede apli-
diferencias entre ambos métodos en relación con su carse a la evaluación de la repetibilidad. Para ello,
media (fig. A4.1). La diferencia de los resultados entre basta con representar las diferencias entre ambas
ambos métodos se representa en el eje de ordenadas, y observaciones en el eje de ordenadas, y su promedio
su promedio, en el de abscisas. Lo ideal sería repre- en el de abscisas, y realizar el análisis como se ha des-
sentar las diferencias observadas en relación con el ver- crito.
dadero valor de la variable de interés, lo que puede El método de Bland y Altman se centra en la valo-
hacerse cuando uno de los métodos puede conside- ración de la magnitud de la diferencia, ya que permite
rarse como el estándar de referencia (se estaría en una determinar los límites de concordancia observados.
situación de evaluación de la validez de una prueba o Estos valores deben compararse con los límites de con-
medida). Sin embargo, cuando se evalúa la concor- cordancia establecidos previamente al inicio del estu-
dancia, se asume que ninguno de los métodos puede dio, que dependerán de la utilidad que se quiera dar a
considerarse de referencia y se utiliza la media de la medida. Este método considera la concordancia
ambos métodos como la mejor estimación disponible. más como un concepto clínico que como uno estadís-
Si la concordancia fuera perfecta, los puntos se tico. De esta forma, la determinación de la magnitud
situarían exactamente sobre la línea correspondiente de las diferencias y su visualización gráfica facilitan su
Diferencia B-A
20
10
-10
-20
Figura A4.1. Diferencias en los
valores de presión arterial 120 130 140 150 160 170 180 190 200 210
sistólica (PAS) entre dos PAS media
métodos de medida A y B
en relación con su promedio.
345
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
interpretación clínica y hacen que este método sea Guggenmoos-Holzmann I. The meaning of kappa: proba-
muy atractivo para los profesionales sanitarios. bilistic concepts of reliability and validity revisited. J Clin
Epidemiol 1996; 49: 775-782.
Jiménez Villa J. Comparación de métodos cuantitativos de
B IBLIOGRAFÍA
medida. FMC 1994; 1: 404-410.
Bland JM, Altman DG. Applying the right statistics: analyses
Kundel HL, Polansky M. Measurement of observer agree-
of measurement studies. Ultrasound Obstet Gynecol
ment. Radiology 2003; 228: 303-308.
2003; 22: 85-93.
Lantz CA, Nebenzahl E. Behavior and interpretation of the
Bland JM, Altman DG. Measurement error. BMJ 1996; 312:
kappa statistic: resolution of the two paradoxes. J Clin
1654.
Epidemiol 1996; 49: 431-434.
Bland JM, Altman DG. Measurement error and correlation
Latour J, Abraira V, Cabello JB, López Sánchez J. Las
coefficients. BMJ 1996; 313: 41-42.
mediciones clínicas en cardiología: validez y errores de
Bland JM, Altman DG. Measurement error proportional to
medición. Rev Esp Cardiol 1997; 50: 117-128.
the mean. BMJ 1996; 313: 106.
Luiz RR, Costa AJ, Kale PL, Werneck GL. Assessment of
Bland JM, Altman DG. Measuring agreement in method com-
agreement of a quantitative variable: a new graphical
parison studies. Stat Methods Med Res 1999; 8: 135-160.
approach. J Clin Epidemiol 2003; 56: 963-967.
Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin
Maclure M, Willett WC. Misinterpretation and misuse of the
Epidemiol 1993; 46: 423-429.
kappa statistic. Am J Epidemiol 1987; 126: 161-169.
Graham P, Jackson R. The analysis of ordinal agreement
data: beyond weighted kappa. J Clin Epidemiol 1993; 46:
1055-1062.
346
Anexo 5
Análisis de una revisión sistemática
continuación se desarrollan con detalle algu- (p. ej., cuando algunos estudios sugieren que una de-
347
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
número de estudios es reducido y con muestras de fijos, que sólo considera la variabilidad presente en
pequeño tamaño, ya que en esta situación existe cada estudio (intraestudio), y el modelo de efectos
gran variabilidad y la potencia de la prueba para de- aleatorios, que considera tanto la variabilidad intra-
tectar diferencias es pequeña. Por ello, se sugiere estudio como la interestudios, al suponer que los
que, en lugar de usar el nivel de significación estudios incluidos son una muestra de todos los po-
estadística habitual del 0,05, se use el 0,10, con el fin sibles. Cuando no existe heterogeneidad, ambos
de paliar parcialmente este problema. modelos proporcionan resultados prácticamente
El análisis estadístico debe complementarse con idénticos. Cuando existe heterogeneidad, lo más
una representación gráfica conjunta de los resulta- adecuado es no combinar los resultados, pero, si se
dos de los estudios individuales y sus correspon- decide hacerlo, debe utilizarse el modelo de efectos
dientes intervalos de confianza, lo que permitirá la aleatorios, ya que es más conservador y proporcio-
inspección visual de la magnitud de las diferencias. na IC más amplios para la estimación conjunta, ad-
Además, el análisis de subgrupos también puede virtiendo claramente a los lectores de las limitacio-
facilitar la valoración cualitativa de las diferencias nes de este abordaje y de que deben interpretar los
entre estudios. resultados con mucha precaución.
La combinación estadística de los diferentes es-
tudios implica ponderar los resultados de cada uno
ESTIMACIÓN COMBINADA
de ellos de acuerdo con su precisión. Cuanto más
DEL EFECTO
preciso es el resultado de un estudio, más estrecho
Si se considera razonable combinar los resultados es su IC, por lo que este estudio debe «pesar más»
de los estudios, se realiza un metaanálisis con la fi- en el resultado final que los que proporcionan re-
nalidad de obtener una estimación conjunta del sultados menos precisos. Para realizar esta ponde-
efecto con un intervalo de confianza (IC). Los re- ración, suele utilizarse el inverso de la variancia de
sultados deben expresarse de una forma estandari- la estimación o el tamaño de la muestra de los estu-
zada para permitir su comparación. Si la variable de dios. Con menos frecuencia se utiliza la puntuación
respuesta es dicotómica, suelen utilizarse medidas recibida en el proceso de evaluación de su calidad.
como el riesgo relativo o la odds ratio. Si son cuanti- Las pruebas estadísticas más utilizadas se presentan
tativas, puede utilizarse la diferencia de medias. en la tabla A5.1.
Pueden diferenciarse dos modelos estadísticos Es importante examinar si el resultado global es
básicos para combinar los resultados: el de efectos consistente, es decir, si está muy influido por las de-
348
ANÁLISIS DE UNA REVISIÓN SISTEMÁTICA
cisiones tomadas durante el proceso de revisión, co- senta la ausencia de efecto (valor uno, cuando se
mo por ejemplo, la exclusión de un determinado utilizan medidas relativas como la odds ratio o el ries-
tipo de estudios, los criterios de selección emplea- go relativo, o valor cero, cuando se utilizan medidas
dos, la utilización de un método de efectos aleato- absolutas como la diferencia de incidencias).
rios o fijos para combinar los datos, etc. Con esta fi- Cuando los estudios se presentan ordenados por
nalidad pueden realizarse análisis de sensibilidad, algún criterio, como el año de su realización, se de-
metaanálisis acumulativos, análisis de subgrupos o nominan metaanálisis acumulativos (parte derecha
una metarregresión. de la fig. A5.1), que muestra la ejecución repetida
del metaanálisis cuando un nuevo estudio está dis-
ponible para su inclusión. Ayuda a determinar la
PRESENTACIÓN GRÁFICA
consistencia de los resultados a lo largo del tiempo
DE LOS RESULTADOS
e identificar retrospectivamente el punto en el
Habitualmente, los resultados de una RS suelen tiempo en que la estimación conjunta del efecto
presentarse gráficamente en un formato relativa- alcanzó un determinado grado de significación. La
mente estándar (fig. A5.1). El resultado principal primera línea coincide en ambas figuras, mientras
de cada uno de los estudios incluidos en la revisión que la segunda línea de la figura de la derecha
se muestra como una línea horizontal que repre- corresponde al análisis acumulado de los dos pri-
senta el IC del 95% de la estimación de la medida meros estudios; la tercera, de tres estudios, y así,
del efecto, y en la que una señal indica la estima- sucesivamente. La amplitud del IC se va reducien-
ción puntual observada en dicho estudio. Una últi- do, ya que cada vez se analiza un mayor número de
ma línea horizontal representa el resultado global sujetos y la estimación es más precisa. Además,
del metaanálisis, cuya estimación puntual suele re- puede evaluarse si la incorporación de nuevos estu-
presentarse por un rombo. Una línea vertical repre- dios produce alguna modificación en la estimación
GLOBAL 6.332
Figura A5.1. Presentación gráfica de los resultados de un metaanálisis sobre la eficacia de una intervención
sanitaria. Se representan los valores de odds ratio de cada estudio individual y la global del metaanálisis,
y sus correspondientes intervalos de confianza del 95%.
349
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
del efecto. En la figura puede apreciarse cómo, a gresiva de estudios de menor calidad influye sobre
medida que se añaden nuevos estudios, existe una la estimación combinada del efecto).
ligera tendencia a la disminución de la magnitud
del efecto (se va acercando a la línea de ausencia de
METARREGRESIÓN
efecto).
Se utiliza para evaluar estadísticamente qué factores
influyen sobre la estimación del efecto, como de-
ANÁLISIS DE SENSIBILIDAD
terminadas características de los pacientes, de la
Este procedimiento requiere reanalizar los datos en intervención o del diseño de los estudios. Estas carac-
función de diferentes criterios y comprobar si se terísticas pueden ser comunes a todos los pacientes
modifican los resultados: analizando solamente incluidos en los estudios, como por ejemplo, la vía de
estudios experimentales y añadiendo observaciona- administración de un tratamiento, o un promedio de
les, incluyendo estudios de menor calidad meto- todos los pacientes, como la media de edad. Este últi-
dológica o con un tamaño de la muestra más re- mo tipo de covariables requiere un interpretación
ducido, etc. Si la utilización de diferentes criterios cautelosa, ya que los valores agregados pueden no
conduce a resultados similares, la conclusión de la representar adecuadamente a grupos minoritarios de
RS se ve fortalecida. pacientes. Los resultados de la metarregresión se
Una forma de análisis de sensibilidad es efectuar informan generalmente como coeficientes de regre-
el metaanálisis empleando un método de efectos sión con sus IC, que reflejan la influencia de cada
aleatorios y un método de efectos fijos. La estima- variable evaluada sobre la estimación del efecto.
ción puntual con ambos métodos será muy similar,
pero el IC será más amplio con el método de efec-
ANÁLISIS DE SUBGRUPOS
tos aleatorios. Si el IC varía muy poco, se tiene una
mayor confianza en que los resultados de la RS son Los análisis de subgrupos se realizan cuando interesa
consistentes. evaluar los resultados en algún grupo especial de su-
Otras características de la calidad de los estudios jetos, en función de la edad, sexo u otras variables, y
que pueden servir para efectuar un análisis de sen- solamente se justifican si se han planeado antes de
sibilidad son la forma en que se asignaron los suje- iniciar la RS, a partir de una hipótesis fundamentada.
tos al grupo de intervención o al de control, o cómo Además de los problemas de cualquier análisis
se evaluó la variable de respuesta. Si los resultados de subgrupos, en una RS es importante tener en
de la RS son diferentes al incluir o excluir estudios cuenta si la comparación se realiza entre subgrupos
con menor calidad metodológica, los resultados de- de sujetos que proceden de un mismo estudio o
ben interpretarse con precaución. bien entre subgrupos procedentes de estudios dife-
Algo similar sucede con los estudios no publica- rentes. En esta segunda situación, el resultado tiene
dos, de los que se ha podido obtener información. mayores limitaciones, ya que, al proceder de estu-
Lo más correcto, si cumplen criterios de inclusión, dios diferentes, pueden existir otros muchos facto-
es incluirlos en el análisis. De todos modos, convie- res que influyan sobre los resultados.
ne analizar también la sensibilidad de los resultados Cuando la finalidad no es tanto obtener estima-
globales de la RS cuando se excluyen estos estudios, ciones por subgrupos como ver si los resultados difie-
lo que puede orientar sobre la posible existencia de ren en función de los subgrupos que se consideren,
un sesgo de publicación. Si los resultados difieren se utiliza como otra forma de explorar y explicar la
debe informarse a los lectores del hecho e interpre- heterogeneidad.
tar los resultados con cautela.
El metaanálisis acumulativo, comentado ante-
EVALUACIÓN GRÁFICA DEL SESGO
riormente, corresponde a un análisis de sensibili-
DE PUBLICACIÓN
dad que permite evaluar cómo influye el criterio
por el que se ordenan los estudios, ya sea el año de Una forma de evaluar la posibilidad de un sesgo de
publicación o la puntuación obtenida al evaluar su publicación es el gráfico en embudo (funnel plot), en
calidad metodológica (p. ej., empezando por los de el que las medidas del efecto observadas en los di-
mayor calidad y evaluando cómo la inclusión pro- ferentes estudios se presentan en una gráfica en que
350
ANÁLISIS DE UNA REVISIÓN SISTEMÁTICA
el eje de abscisas corresponde a la magnitud del efec- estudios de pequeño tamaño con resultados en con-
to y el de ordenadas a alguna medida de su variabi- tra del tratamiento, lo que sería sugestivo de la exis-
lidad, generalmente el tamaño muestral (fig. A5.2). tencia de un sesgo de publicación. Éste es un método
Dado que los estudios de menor tamaño tienen una aproximado y difícil de interpretar cuando existen
menor precisión en la estimación del efecto, presen- pocos estudios.
tan una mayor variabilidad en los resultados. En cam- Otra utilidad del gráfico en embudo es que per-
bio, los estudios de mayor tamaño muestran mayor mite identificar algún estudio con comportamiento
precisión, por lo que sus resultados tienen menor va- extraño, como el indicado como outlier en la figu-
riabilidad. Al representar los resultados de los dife- ra A5.2. Se trata de un estudio que conduce a una
rentes estudios identificados, se obtiene un gráfico en estimación muy favorable al tratamiento, pero que
forma de embudo invertido o pirámide, si no existe queda fuera de la variabilidad que sería esperable
sesgo de publicación. Cuando, como ocurre en la fi- simplemente por azar en los estudios de un tamaño
gura, el gráfico no es simétrico (obsérvese que pare- de la muestra similar. Ello obliga a revisar cuidado-
cen faltar estudios en el ángulo inferior derecho), samente las características de este estudio con la fi-
puede sospecharse que no se han localizado los estu- nalidad de identificar algún factor que pueda expli-
dios que deberían ocupar este lugar; en este caso, car este comportamiento inesperado.
Tamaño
de la muestra
10.000
Outlier?
1.000
100
Figura A5.2.
Gráfico en embudo
0,1 0,8 1,0 10
para la evaluación Favorece al tratamiento Favorece al control
del sesgo de
publicación.
351
Anexo 6
Guía para la elaboración
de un protocolo de estudio
352
GUÍA PARA LA ELABORACIÓN DE UN PROTOCOLO DE ESTUDIO
13. Describa las características de las personas que desearía ficar el efecto del factor de estudio sobre la res-
estudiar (población de estudio). Defina con clari- puesta.
dad y precisión los criterios de selección (de 22. Si realiza alguna intervención, descríbala detallada-
inclusión y de exclusión) de los sujetos. Valore mente.
definiciones estándar utilizadas por otros investi- 23. Describa lo que le ocurrirá a cada persona que participe
gadores. Contraste la validez interna con la capa- en el estudio: cómo se comprobará si cumple los cri-
cidad de generalización. terios de selección, cómo se solicitará su consenti-
14. Determine el tamaño de la muestra necesario, especi- miento, qué seguimiento se hará, cómo recibirá la
ficando las asunciones utilizadas para el cálculo. intervención, qué mediciones se realizarán, qué se
Utilice información de estudios similares para hará si se presenta cualquier acontecimiento du-
definir la magnitud esperable del efecto o la aso- rante el estudio, etc.
ciación. 24. Describa quién recogerá los datos y cómo lo hará.
15. Describa cuál será la procedencia de los sujetos, cómo Establezca los circuitos necesarios para la deriva-
se identificarán los candidatos y cómo se seleccio- ción a exploraciones complementarias y el proce-
nará la muestra. Si utiliza alguna técnica de mues- samiento de muestras, así como para el registro
treo, especifique cuál. de sus resultados.
16. Decida si dividirá la muestra en subgrupos. En caso 25. Haga un esquema de los impresos necesarios para la
afirmativo, ¿cómo lo hará? Si desea realizar un recogida de datos. Diseñe los impresos de forma que
ensayo clínico, describa el tipo de asignación y faciliten la recogida de datos y minimicen los
cómo se realizará. Si se utiliza alguna técnica de posibles errores en este proceso.
enmascaramiento, descríbala. 26. Establezca los mecanismos necesarios para el control de
17. Elabore el marco teórico en que se sitúa el estudio y la calidad de los datos recogidos.
confeccione una lista de todas las variables rele- 27. Describa quién realizará el procesamiento informático de
vantes que deberían ser medidas. Identifique las los datos, cómo y cuándo se hará.
relaciones de cada una de ellas con el factor de
estudio y la variable de respuesta, así como su
LIMITACIONES Y POSIBLES
posible papel en la relación entre ellos.
SESGOS DEL ESTUDIO
18. Para cada una de las variables, elabore una definición
operativa e identifique el instrumento de medida o 28. ¿Hay algo en la selección de sujetos o en su distribución
fuente de información de que dispone. En la medi- en subgrupos que pueda hacer que los grupos no sean
da de lo posible, utilice definiciones e instrumentos comparables? En caso afirmativo, describa el pro-
estándar para la medición de las variables. Elabore blema y su posible solución.
definiciones claras y precisas para que todos los 29. ¿Es posible que las personas que se pierdan durante el
investigadores utilicen criterios homogéneos. estudio sean diferentes de las que permanezcan en él? En
Identifique las fuentes de información necesarias. caso afirmativo, describa el problema y su posible
19. Si no dispone de un instrumento adecuado para medir solución. Diseñe estrategias para minimizar el
alguna variable relevante, identifique las características número de pérdidas durante el seguimiento y
necesarias que le permitan buscarlo o desarrollarlo. para recaptarlas si se producen.
20. Para cada instrumento de medida, valore la fiabilidad y 30. ¿Es posible que el instrumental se deteriore o los observa-
la validez, identificando los potenciales proble- dores se aburran? En caso afirmativo, describa el
mas. Establezca las estrategias necesarias para problema y su posible solución. Diseñe estrategias
mejorarlas. Valore la posibilidad y la conveniencia que aseguren que la calidad y la homogeneidad de
de utilizar técnicas tales como la selección de los datos se mantienen a lo largo de todo el estu-
medidas objetivas antes que subjetivas, la forma- dio. Establezca mecanismos de monitorización
ción de los observadores, la utilización de instru- que le permitan identificar fluctuaciones en los
mentos más precisos, la obtención de varias medi- datos que sugieran alguno de estos fenómenos.
ciones de una variable o el empleo de técnicas de 31. ¿Puede anticipar si es posible que durante el estudio ocu-
enmascaramiento. rran cambios de personal u otros sucesos que interfieran
21. Identifique las potenciales variables de confusión que en los resultados? En caso afirmativo, describa el
deberán controlarse y aquellas que puedan modi- problema y su posible solución.
353
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
32. ¿Podría usted, como investigador, influir sobre los resul- ORGANIZACIÓN DEL ESTUDIO
tados? En caso afirmativo, describa el problema y
40. Prepare todos los documentos necesarios para llevar a cabo
su posible solución.
el estudio: formularios para la recogida de datos, car-
33. Identifique otras posibles fuentes de sesgo en su estudio tas de presentación, formularios de consentimien-
y sus posibles soluciones. to informado, solicitudes de colaboración, etc.
34. Identifique otras limitaciones del diseño del estudio que 41. Identifique las tareas administrativas a realizar y las
deban tenerse en cuenta al interpretar los resul- personas que las llevarán a cabo.
tados. 42. Identifique las personas y los servicios con los que deberá
35. Asegure que el diseño del estudio cumple los requisitos contactar. Asegure su colaboración y describa los
éticos. circuitos adecuados para llevarla a cabo.
43. Elabore un cronograma con todas las fases del estu-
ESTRATEGIA DE ANÁLISIS dio. Identifique las responsabilidades de los
miembros del equipo investigador. Fije un calen-
36. Identifique las variables demográficas que utilizará dario de reuniones.
para describir la población estudiada. 44. Realice una prueba piloto.
37. Identifique las principales variables pronósticas que uti-
lizará para valorar la comparabilidad de los grupos.
PRESUPUESTO
38. Identifique los subgrupos de sujetos en los que querrá
realizar el análisis. 45. Realice una estimación del presupuesto necesario. Ase-
39. Identifique las pruebas estadísticas que necesitará aplicar. gure la financiación antes del inicio del estudio.
354
Anexo 7
Cálculo del tamaño de la muestra
en situaciones especiales
355
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tura de mamografías. En un estudio previo se ha una de las cuales será leída en 4 ocasiones: 2 por cada
demostrado que presentan una elevada repetibili- radiólogo.
dad, por lo que sólo interesa evaluar la concordancia
entre observadores. Se espera que el porcentaje de ESTIMACIÓN DE UN COEFICIENTE
desacuerdo entre ellos sea de un 20%, aproximada- DE CORRELACIÓN
mente. Interesa estimar dicho porcentaje con una
precisión del 5% y una confianza del 95%. Aplicando La asociación entre dos variables cuantitativas requie-
la fórmula de la tabla 15.1 (estimación de un pará- re habitualmente la utilización del coeficiente de
metro; pág. 141), se calcula que ambos radiólogos correlación r de Pearson. La tabla A7.1 presenta la
deberán leer 246 mamografías. fórmula para el cálculo del número de sujetos nece-
sarios en esta situación. La tabla J del final del libro
Cuando el objetivo es estimar la concordancia simplifica esta determinación.
intraobservador, los supuestos y el cálculo del tamaño
de la muestra necesario son los mismos que para ana- Tabla A7.1. Fórmula para el cálculo
lizar la repetibilidad de una medida. El cálculo que se del número de sujetos necesarios
presenta corresponde a la situación en que cada en un estudio cuyo objetivo es
observador realizará dos mediciones de cada sujeto y evaluar una asociación entre dos
se desea evaluar el grado de concordancia de ambas variables cuantitativas, utilizando
mediciones. Lo primero que debe determinarse es el el coeficiente de correlación de
porcentaje de error (discordancia) entre ambas Pearson
medidas que se espera encontrar, así como la preci-
[ ]
sión con que interesa realizar la estimación y la con- (Zα + Zβ)
2
fianza con que se quiere expresar el resultado. En la N= +3
tabla H del final del libro se presentan los resultados 0,5 In [(1 + r)/(1 – r)]
de este cálculo para las situaciones más habituales.
N: número de sujetos necesarios.
Ejemplo A7.4. Consideremos que se desea estimar la
Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
concordancia entre dos lecturas de mamografías reali- Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8).
zadas por un mismo radiólogo. Se espera que la discor- In: logaritmo natural o neperiano.
dancia intraobservador se sitúe alrededor del 5% r: valor del coeficiente de correlación que se supone que
(e = 0,05). Se requiere una precisión del 5% (i = 0,05) y existe en la población.
una confianza del 95% (Zα = 1,96). Utilizando la tabla
H, se determina que es necesario que el radiólogo lea, Ejemplo A7.6. El objetivo de un estudio es determi-
en dos ocasiones, 41 mamografías, aproximadamente. nar si existe asociación entre la presión arterial sistó-
lica y la edad. Según la literatura, puede esperarse un
En muchas ocasiones, se diseña el estudio para eva- valor del coeficiente de correlación cercano a 0,7.
luar simultáneamente la concordancia intra e interob- A continuación, se fijan los niveles de error (α = 0,05;
servador. La tabla I del final del libro sirve para deter- β = 0,10). Utilizando la tabla J se obtiene un tamaño
minar el número de sujetos necesarios cuando existen de 17 individuos.
dos observadores que evalúan cada uno de ellos en dos
ocasiones a todos los sujetos de la muestra.
ENSAYOS CRUZADOS
Ejemplo A7.5. En un estudio hipotético se desea eva- Los diseños cruzados precisan un número menor de
luar simultáneamente la concordancia intra e in- sujetos, ya que cada uno de ellos actúa como su propio
terobservador de dos radiólogos en la lectura de control, disminuyendo la variabilidad de las respues-
mamografías. Se asume que el porcentaje de discor- tas. En este tipo de diseños, la variancia tiene dos com-
dancia entre ambos radiólogos se situará alrededor ponentes. Por un lado, la variabilidad intersujetos de
del 0,15, y que la probabilidad de error de cada radió- la respuesta, y por otro, la variabilidad debida al azar y
logo es de 0,05. Interesa que el intervalo de con- a otros factores intrasujetos. El cálculo requiere incor-
fianza del 95% tenga una amplitud total de 0,10 porar esta descomposición de la variancia, para lo cual
(Zi = 0,10). Serán necesarias 252 mamografías, cada puede realizarse como si se tratara de un estudio de
356
CÁLCULO DEL TAMAÑO DE LA MUESTRA EN SITUACIONES ESPECIALES
grupos paralelos, ajustando posteriormente el número en la cohorte no expuesta. A esta razón se denomina
obtenido en función del coeficiente de correlación intra- δ, y es un concepto análogo al de riesgo relativo. El
clase, que indica la proporción de la variabilidad total número de desenlaces δ en cada grupo se puede
que se debe al componente intersujetos. Incluso si este determinar con la siguiente fórmula:
coeficiente es tan sólo de 0,5, es decir, que sólo la
mitad de la variabilidad se debe a factores intersujetos, δ = [2(Zα + Zβ)2] / (ln δ)2
el tamaño de la muestra puede reducirse a una cuarta
parte del necesario en un estudio paralelo. Dado que Donde ln δ indica el logaritmo neperiano de δ.
este coeficiente es de difícil cálculo, una norma segura
es utilizar la mitad del tamaño necesario para un estu- La tabla K del final del libro presenta el resultado
dio paralelo, que asegura una potencia estadística sufi- del cálculo en las situaciones más habituales.
ciente. De todas formas, una fórmula aproximada se
presenta en la tabla A7.2. Ejemplo A7.8. Se quiere realizar un estudio de cohor-
tes en el que existan diferentes tiempos de seguimien-
to para cada sujeto, y en el que interesa detectar un
Tabla A7.2. Fórmula para el cálculo riesgo como mínimo dos veces superior en la cohorte
del tamaño de la muestra en un expuesta en relación con la no expuesta (δ = 2), acep-
ensayo cruzado (variable tando un error α bilateral de 0,05 y β de 0,20 (poten-
cuantitativa) cia: 1 – β = 0,80). La tabla K indica que serán necesa-
rios 33 desenlaces por grupo. Este número indica el
(Zα + Zβ) 2 · sd2 número de desenlaces que deberán observarse, no
N= el de sujetos que deberán iniciar el estudio. Para cal-
d2
cular el número de personas que deberán iniciarlo, es
preciso conocer o asumir el porcentaje de personas
N: número de sujetos necesarios.
Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
que se espera que presenten el desenlace en la cohor-
Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8). te no expuesta. Si se espera que el 10% de los sujetos
Sd2: variancia muestral de las diferencias individuales. de la cohorte de referencia desarrollará el desenlace,
d: valor mínimo de la diferencia que se desea detectar. deberán incluirse 33/0,10 = 330 individuos.
357
Anexo 8
Elección de la prueba estadística
ste anexo pretende proporcionar unas normas de respuesta es cuantitativa, ya que contiene más
358
ELECCIÓN DE LA PRUEBA ESTADÍSTICA
muchas situaciones, especialmente cuando las determinar si existe asociación entre ellas es la ji al
muestras son de pequeño tamaño, no se puede cuadrado, siempre que exista un número suficiente
determinar si se cumplen dichas asunciones. En de sujetos en cada una de las casillas de la tabla de
estos casos, se recurre a otras pruebas estadísticas contingencia.
menos potentes, que no requieren asunciones para
su aplicabilidad, conocidas como pruebas no paramé- Ejemplo A8.1. Un estudio hipotético pretende com-
tricas. Este mismo tipo de pruebas es aplicable cuan- parar el porcentaje de diabéticos controlados en un
do se trata de analizar datos ordinales. grupo que ha recibido educación sanitaria grupal con
el de otro grupo que ha recibido los cuidados habi-
En la tabla A8.2 se resumen las pruebas estadísti- tuales. Se trata de datos independientes, ya que son
cas que se utilizan en las situaciones más frecuentes. grupos de sujetos diferentes. El factor de estudio
De forma esquemática, cuando tanto el factor de (educación sanitaria) es una variable dicotómica (gru-
estudio como la variable de respuesta son variables pal/habitual), al igual que la variable de respuesta
cualitativas, la prueba estadística más apropiada para (controlado/no controlado). Por lo tanto, los datos se
Tabla A8.2. Pruebas bivariantes de significación estadística utilizadas con mayor frecuencia
Variable de respuesta
Cualitativa Cualitativa
nominal nominal Cualitativa
Factor de estudio (dos categorías) (> 2 categorías) ordinal Cuantitativa*
* Cuando las pruebas estadísticas aplicables a las variables cuantitativas no cumplen las asunciones necesarias para su aplicación, deben
utilizarse las pruebas correspondientes como si la variable de respuesta fuera una variable ordinal (pruebas no paramétricas).
359
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
presentarán en una tabla 2 ⫻ 2 y se utilizará una ji al man. En el caso de que pueda asumirse una relación de
cuadrado (o una Z de comparación de dos propor- dependencia lineal de una de las variables respecto a la
ciones), siempre que el número de sujetos lo permita. otra, se habla de regresión lineal simple.
Si no puede utilizarse, se recurrirá a la prueba exacta
de Fisher. Ejemplo A8.4. Consideremos que se quiere evaluar si
existe asociación entre la edad de un grupo de suje-
Cuando se comparan dos grupos (factor de estu- tos y sus cifras de presión arterial sistólica (PAS).
dio dicotómico) respecto a una variable cuantitativa, Dado que ambas variables están medidas en una esca-
la prueba estadística más adecuada es la t de Student- la cuantitativa, se trata de un análisis de correlación.
Fisher. Si no se cumplen las condiciones necesarias Si se deseara determinar en cuánto se incrementa la
para su aplicación, se recurre a una prueba no PAS a medida que aumenta la edad de los sujetos, se
paramétrica equivalente, como la U de Mann- realizaría un análisis de regresión lineal, en el que la
Whitney. PAS sería la variable dependiente, y la edad, la inde-
pendiente. En cambio, no tendría sentido evaluar en
Ejemplo A8.2. Supongamos que en el ejemplo A8.1 cuánto aumenta la edad de los sujetos al incremen-
interesa comparar la glucemia de ambos grupos de tarse su PAS.
sujetos al finalizar el estudio. En este caso, la variable de
respuesta es cuantitativa (glucemia). Se trata, por tan-
TÉCNICAS ESTADÍSTICAS
to, de la comparación de dos medias en grupos inde-
MULTIVARIANTES
pendientes, y la prueba de elección es la t de Student-
Fisher, si se cumplen las condiciones de aplicación. En investigación clínica y epidemiológica, las técnicas
multivariantes se utilizan habitualmente cuando exis-
Si se comparan más de dos grupos (factor de estu- te una variable dependiente (variable de respuesta) y
dio con más de dos categorías) respecto a una varia- múltiples variables independientes (factor de estudio
ble cuantitativa, debe utilizarse el análisis de la y otras variables a controlar). Estas técnicas se em-
variancia (ANOVA). Si no se cumplen los criterios plean con finalidades de predicción (obtener una
para su aplicación, se recurre a la prueba de Kruskal- ecuación que permita, conociendo los valores de un
Wallis. conjunto de variables independientes, predecir el
valor de la variable dependiente), de descripción de la
Ejemplo A8.3. Supongamos que en el ejemplo A8.1 relación entre variables (identificar, de entre un con-
se han incluido pacientes procedentes de tres centros junto de variables independientes, cuáles están aso-
de salud, y que interesa determinar si la glucemia de ciadas con la variable dependiente), o de estimación
los sujetos difiere según el centro de procedencia. En del efecto del factor de estudio (obtener una estima-
este caso, el factor de estudio (centro de salud de pro- ción del efecto del factor de estudio sobre la variable
cedencia) tiene tres categorías, por lo que no puede de respuesta, controlando la influencia de variables
aplicarse la t de Student-Fisher. Si se cumplen las con- de confusión). La técnica elegida dependerá de las
diciones para su utilización, se aplicará un análisis de escalas de medida de las variables implicadas en el
la variancia. Si se observa una diferencia estadística- análisis (tabla A8.3).
mente significativa, se realizará un análisis posterior Una de las técnicas más utilizada es la regresión
para determinar qué grupo o grupos difieren, utili- lineal múltiple, que se aplica cuando tanto la variable
zando alguna de las técnicas de comparación múlti- dependiente como las independientes son cuantitati-
ple específicamente diseñadas para ello (p. ej., la de vas, aunque en la práctica permite que algunas de las
Scheffé o la de Neuman-Keuls). variables independientes sean cualitativas. El valor de
un coeficiente de regresión lineal múltiple es una
Si se trata de determinar la posible asociación entre estimación del efecto de la variable independiente
un factor de estudio y una variable de respuesta cuanti- correspondiente sobre la variable dependiente, ajus-
tativos, la prueba adecuada es la correlación de tado por el resto de las variables independientes de la
Pearson, o, si no se cumplen las condiciones para su ecuación. Es decir, representa el cambio esperado de
aplicación, la correlación no paramétrica de Spear- la variable dependiente cuando se incrementa en
360
ELECCIÓN DE LA PRUEBA ESTADÍSTICA
Técnicas inferenciales*
(pueden diferenciarse variables dependientes e independientes)
Variable Variables
dependiente independientes Técnica multivariante
Técnicas descriptivas
(todas las variables presentan el mismo estatus)
* Sólo se presentan las principales pruebas aplicables cuando existe una sola variable dependiente.
(1) Algunas variables independientes pueden ser cualitativas.
(2) Suele utilizarse cuando la variable dependiente es dicotómica.
(3) Suele utilizarse cuando la variable dependiente tiene más de dos categorías.
(4) Se utiliza cuando la variable dependiente incluye la dimensión tiempo (análisis de supervivencia).
una unidad el valor de la variable independiente, asu- Cuando la variable dependiente es dicotómica
miendo que el resto de las variables del modelo se (enfermo/no enfermo, curado/no curado, etc.), se
mantiene constante. utiliza la regresión logística. Mientras que en la
regresión lineal los coeficientes representan directa-
Ejemplo A8.5. En un estudio se evalúa la asociación mente el cambio en la variable dependiente, en la
entre la edad, el índice de masa corporal (IMC) y la regresión logística estiman medidas relativas; por
clase social con la presión arterial sistólica (PAS). ejemplo, la odds ratio asociada al factor de estudio y
Dado que la variable dependiente (PAS) es cuantita- ajustada por el resto de variables independientes.
tiva, y que dos de las variables independientes tam- Dado que el modelo logístico no es lineal, sino expo-
bién lo son (edad e IMC), se utiliza una regresión nencial, se utilizan transformaciones logarítmicas
lineal múltiple. Al final del análisis, se obtiene un coe- que hacen que los coeficientes no puedan interpre-
ficiente de regresión de la edad de 0,5, lo cual indica tarse directamente.
que la PAS es, en promedio, 0,5 mmHg más elevada
por cada año más de edad de los sujetos, suponiendo Ejemplo A8.6. Un estudio evalúa la relación entre
constantes la clase social y el IMC; es decir, el efecto diferentes factores de riesgo y el desarrollo de car-
de la edad está ajustado por estas dos variables. diopatía coronaria en una muestra de varones adul-
361
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
tos. Dado que la variable de respuesta es dicotómica Existen técnicas multivariantes útiles cuando no
(desarrollo o no de la enfermedad), se realiza un aná- existe una variable que pueda ser considerada depen-
lisis de regresión logística con esta variable como diente, pero se utilizan poco en investigación clínica
dependiente y el conjunto de factores de riesgo co- y epidemiológica.
mo independientes. En la ecuación resultante, la
variable edad tiene un coeficiente de 0,12. Para poder B IBLIOGRAFÍA
interpretarlo, debe calcularse su antilogaritmo natu- Altman DG. Practical statistics for medical research. Lon-
ral e 0,12 = 1,13, valor que corresponde a la odds ratio dres: Chapman & Hall, 1991.
asociada al aumento de un año de edad de los sujetos, Armitage P, Berry G, Matthews JNS. Statistical methods in
medical research. 4.a ed. Oxford: Blackwell Science,
ajustada por el resto de las variables de la ecuación.
2002.
Jiménez Villa J. Conceptos de estadística. En: Martín Zurro A,
También se utiliza con frecuencia el modelo de Cano Pérez JF. Atención primaria: conceptos, organiza-
regresión de Cox, que es útil cuando la variable ción y práctica clínica. 40.a ed. Madrid: Harcourt Brace,
dependiente es el tiempo de supervivencia o el tiem- 1999; 351-377.
po transcurrido hasta la aparición de un desenlace Norman GR, Streiner DL. Bioestadística. Madrid: Harcourt
determinado. Brace de España, 1998.
362
TABLAS
365
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
366
TABLAS
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
367
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,10 0,30 0,050 0,10 48 67 84 122
0,025 0,05 62 82 101 142
0,35 0,050 0,10 33 46 58 83
0,025 0,05 43 57 70 97
0,40 0,050 0,10 25 34 42 61
0,025 0,05 31 42 51 71
0,45 0,050 0,10 19 26 32 47
0,025 0,05 24 32 39 55
0,50 0,050 0,10 15 21 26 37
0,025 0,05 19 25 31 43
0,55 0,050 0,10 12 17 21 29
0,025 0,05 16 21 25 35
0,60 0,050 0,10 10 14 17 24
0,025 0,05 13 17 21 28
0,65 0,050 0,10 8 11 14 20
0,025 0,05 11 14 17 23
0,70 0,050 0,10 7 9 12 16
0,025 0,05 9 12 14 19
0,75 0,050 0,10 6 8 10 13
0,025 0,05 8 10 12 16
0,80 0,050 0,10 5 7 8 11
0,025 0,05 7 8 10 13
0,85 0,050 0,10 4 6 7 9
0,025 0,05 6 7 8 11
0,90 0,050 0,10 4 5 5 7
0,025 0,05 5 6 7 9
0,95 0,050 0,10 3 4 4 6
0,025 0,05 4 5 6 7
1,00 0,050 0,10 2 3 3 4
0,025 0,05 3 4 4 5
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
368
TABLAS
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,15 0,55 0,050 0,10 16 22 28 40
0,025 0,05 21 28 34 47
0,60 0,050 0,10 13 18 22 32
0,025 0,05 17 22 27 37
0,65 0,050 0,10 11 14 18 26
0,025 0,05 14 18 22 30
0,70 0,050 0,10 9 12 15 21
0,025 0,05 11 15 18 24
0,75 0,050 0,10 7 10 12 17
0,025 0,05 10 12 14 20
0,80 0,050 0,10 6 8 10 14
0,025 0,05 8 10 12 16
0,85 0,050 0,10 5 7 8 11
0,025 0,05 7 8 10 13
0,90 0,050 0,10 4 6 7 9
0,025 0,05 6 7 8 11
0,95 0,050 0,10 4 4 5 7
0,025 0,05 5 6 7 9
1,00 0,050 0,10 3 4 4 5
0,025 0,05 4 5 5 7
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,20 0,25 0,050 0,10 860 1.193 1.507 2.195
0,025 0,05 1.093 1.464 1.810 2.558
0,30 0,050 0,10 231 319 403 587
0,025 0,05 293 392 484 684
0,35 0,050 0,10 108 150 189 275
0,025 0,05 138 184 227 321
0,40 0,050 0,10 64 88 111 161
0,025 0,05 81 108 133 188
0,45 0,050 0,10 42 58 73 106
0,025 0,05 54 72 88 124
0,50 0,050 0,10 30 41 52 75
0,025 0,05 38 51 63 88
0,55 0,050 0,10 23 31 39 56
0,025 0,05 39 38 47 65
0,60 0,050 0,10 17 24 30 43
0,025 0,05 22 29 36 50
0,65 0,050 0,10 14 19 23 33
0,025 0,05 18 23 28 39
0,70 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
0,75 0,050 0,10 9 12 15 21
0,025 0,05 12 15 18 25
0,80 0,050 0,10 7 10 12 17
0,025 0,05
(Continúa)
369
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,20 0,85 0,050 0,10 10 12 15 20
0,025 0,05 6 8 10 14
0,90 0,050 0,10 8 10 12 16
0,025 0,05 5 7 8 11
0,95 0,050 0,10 7 8 10 13
0,025 0,05 4 5 6 9
1,00 0,050 0,10 5 7 8 10
0,025 0,05 3 4 5 7
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
370
TABLAS
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,30 0,35 0,050 0,10 1.083 1.502 1.897 2.763
0,025 0,05 1.375 1.843 2.278 3.219
0,40 0,050 0,10 280 388 490 713
0,025 0,05 356 476 588 831
0,45 0,050 0,10 128 177 223 324
0,025 0,05 162 217 268 278
0,50 0,050 0,10 73 101 127 185
0,025 0,05 93 124 153 215
0,55 0,050 0,10 47 65 82 119
0,025 0,05 60 80 99 139
0,60 0,050 0,10 33 45 57 82
0,025 0,05 42 56 68 96
0,65 0,050 0,10 24 33 41 60
0,025 0,05 31 41 50 70
0,70 0,050 0,10 18 25 31 45
0,025 0,05 23 31 38 52
0,75 0,050 0,10 14 19 24 34
0,025 0,05 18 24 29 40
0,80 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
0,85 0,050 0,10 9 12 15 21
0,025 0,05 11 15 18 24
0,90 0,050 0,10 7 9 12 16
0,025 0,05 9 12 14 19
0,95 0,050 0,10 6 7 9 13
0,025 0,05 7 9 11 15
1,00 0,050 0,10 5 6 7 10
0,025 0,05 6 7 9 12
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,35 0,40 0,050 0,10 1.157 1.604 2.027 2.952
0,025 0,05 1.469 1.969 2.434 3.439
0,45 0,050 0,10 295 409 517 752
0,025 0,05 375 502 621 877
0,50 0,050 0,10 133 184 232 338
0,025 0,05 169 226 279 394
0,55 0,050 0,10 75 104 131 191
0,025 0,05 96 128 158 222
0,60 0,050 0,10 48 66 84 121
0,025 0,05 61 81 101 142
0,65 0,050 0,10 33 46 57 83
0,025 0,05 42 56 69 97
0,70 0,050 0,10 24 33 41 60
0,025 0,05 31 41 50 70
(Continúa)
371
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,35 0,75 0,050 0,10 18 25 31 44
0,025 0,05 23 30 37 52
0,80 0,050 0,10 14 19 23 33
0,025 0,05 18 23 28 39
0,85 0,050 0,10 11 14 18 26
0,025 0,05 14 18 22 30
0,90 0,050 0,10 8 11 14 20
0,025 0,05 11 14 17 23
0,95 0,050 0,10 7 9 11 15
0,025 0,05 9 11 13 18
1,00 0,050 0,10 5 7 8 11
0,025 0,05 7 9 10 14
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
372
TABLAS
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,45 0,50 0,050 0,10 1.231 1.707 2.157 3.141
0,025 0,05 1.563 2.095 2.590 3.660
0,55 0,050 0,10 308 426 538 784
0,025 0,05 391 523 647 913
0,60 0,050 0,10 136 188 237 345
0,025 0,05 173 231 285 402
0,65 0,050 0,10 75 104 131 191
0,025 0,05 96 128 158 222
0,70 0,050 0,10 47 65 82 119
0,025 0,05 60 80 99 139
0,75 0,050 0,10 32 44 55 79
0,025 0,05 41 54 66 93
0,80 0,050 0,10 23 31 39 56
0,025 0,05 29 38 47 65
0,85 0,050 0,10 16 22 28 40
0,025 0,05 21 28 34 47
0,90 0,050 0,10 12 17 21 29
0,025 0,05 16 21 25 35
0,95 0,050 0,10 9 12 15 22
0,025 0,05 12 15 19 26
1,00 0,050 0,10 7 9 11 16
0,025 0,05 9 12 14 19
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,50 0,55 0,050 0,10 1.231 1.707 2.157 3.141
0,025 0,05 1.563 2.095 2.590 3.660
0,60 0,050 0,10 305 422 533 776
0,025 0,05 387 518 640 904
0,65 0,050 0,10 133 184 232 338
0,025 0,05 169 226 279 394
0,70 0,050 0,10 73 101 127 185
0,025 0,05 93 124 153 215
0,75 0,050 0,10 44 59 74 106
0,025 0,05 56 73 90 125
0,80 0,050 0,10 30 41 52 75
0,025 0,05 38 51 63 88
0,85 0,050 0,10 21 29 36 52
0,025 0,05 27 36 44 61
0,90 0,050 0,10 15 21 26 37
0,025 0,05 19 25 31 43
0,95 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
1,00 0,050 0,10 8 11 13 19
0,025 0,05 11 14 16 22
(Continúa)
373
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,55 0,60 0,050 0,10 1.206 1.673 2.113 3.078
0,025 0,05 1.532 2.053 2.538 3.586
0,65 0,050 0,10 295 409 517 752
0,025 0,05 375 502 621 877
0,70 0,050 0,10 128 177 223 324
0,025 0,05 162 217 268 378
0,75 0,050 0,10 69 96 120 175
0,025 0,05 88 117 145 204
0,80 0,050 0,10 42 58 73 106
0,025 0,05 54 72 88 124
0,85 0,050 0,10 28 38 48 69
0,025 0,05 35 47 58 81
0,90 0,050 0,10 19 26 32 47
0,025 0,05 24 32 39 55
0,95 0,050 0,10 13 18 23 32
0,025 0,05 17 22 27 38
1,00 0,050 0,10 10 13 16 22
0,025 0,05 12 16 19 26
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,60 0,65 0,050 0,10 1.157 1.604 2.027 2.952
0,025 0,05 1.469 1.969 2.434 3.439
0,70 0,050 0,10 280 388 490 713
0,025 0,05 356 476 588 831
0,75 0,050 0,10 119 165 208 303
0,025 0,05 152 203 250 353
0,80 0,050 0,10 64 88 111 161
0,025 0,05 81 108 133 188
0,85 0,050 0,10 38 53 66 96
0,025 0,05 49 65 80 112
0,90 0,050 0,10 25 34 42 61
0,025 0,05 31 42 51 71
0,95 0,050 0,10 17 22 28 40
0,025 0,05 21 28 34 47
1,00 0,050 0,10 11 15 19 27
0,025 0,05 14 19 23 32
(Continúa)
374
TABLAS
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,65 0,70 0,050 0,10 1.083 1.502 1.897 2.763
0,025 0,05 1.375 1.843 2.278 3.219
0,75 0,050 0,10 258 358 452 658
0,025 0,05 328 439 543 767
0,80 0,050 0,10 108 150 189 275
0,025 0,05 138 184 227 321
0,85 0,050 0,10 57 78 99 143
0,025 0,05 72 96 119 167
0,90 0,050 0,10 33 46 58 83
0,025 0,05 43 57 70 97
0,95 0,050 0,10 21 29 36 51
0,025 0,05 27 35 43 60
1,00 0,050 0,10 13 18 23 32
0,025 0,05 17 23 28 38
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,70 0,75 0,050 0,10 984 1.365 1.724 2.511
0,025 0,05 1.249 1.674 2.070 2.925
0,80 0,050 0,10 231 319 403 587
0,025 0,05 293 392 484 684
0,85 0,050 0,10 95 131 165 240
0,025 0,05 120 161 198 280
0,90 0,050 0,10 48 67 84 122
0,025 0,05 62 82 101 142
0,95 0,050 0,10 27 38 47 68
0,025 0,05 35 46 57 80
1,00 0,050 0,10 16 22 28 40
0,025 0,05 21 28 34 47
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,75 0,80 0,050 0,10 860 1.193 1.507 2.195
0,025 0,05 1.093 1.464 1.810 2.558
0,85 0,050 0,10 197 272 344 500
0,025 0,05 250 334 413 583
0,90 0,050 0,10 78 108 136 198
0,025 0,05 99 133 164 231
0,95 0,050 0,10 38 53 66 96
0,025 0,05 49 65 80 112
1,00 0,050 0,10 21 28 35 50
0,025 0,05 26 35 42 59
(Continúa)
375
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,80 0,85 0,050 0,10 712 988 1.247 1.817
0,025 0,05 904 1.212 1.498 2.117
0,90 0,050 0,10 156 217 273 397
0,025 0,05 199 266 328 463
0,95 0,050 0,10 59 81 103 149
0,025 0,05 75 100 123 174
1,00 0,050 0,10 27 37 46 66
0,025 0,05 34 45 55 78
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,85 0,90 0,050 0,10 539 748 944 1.375
0,025 0,05 685 918 1.134 1.602
0,95 0,050 0,10 110 152 192 279
0,025 0,05 140 187 231 326
1,00 0,050 0,10 37 51 64 93
0,025 0,05 47 63 77 108
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,90 0,91 0,050 0,10 10.617 14.730 18.609 27.110
0,025 0,05 13.480 18.071 22.344 31.582
0,92 0,050 0,10 2.528 3.506 4.430 6.453
0,025 0,05 3.209 4.302 5.319 7.517
0,93 0,050 0,10 1.066 1.479 1.868 2.721
0,025 0,05 1.354 1.814 2.243 3.170
0,94 0,050 0,10 567 786 993 1.446
0,025 0,05 720 965 1.193 1.685
0,95 0,050 0,10 342 474 598 871
0,025 0,05 434 581 718 1.015
1,00 0,050 0,10 58 79 100 145
0,025 0,05 73 98 120 169
(Continúa)
376
TABLAS
Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,95 0,96 0,050 0,10 5.307 7.362 9.301 13.549
0,025 0,05 6.737 9.032 11.167 15.784
0,97 0,050 0,10 1.185 1.643 2.076 3.023
0,025 0,05 1.504 2.016 2.492 3.522
0,98 0,050 0,10 462 641 810 1.179
0,025 0,05 587 787 972 1.374
0,99 0,050 0,10 224 310 391 569
0,025 0,05 284 380 470 663
1,00 0,050 0,10 119 165 208 303
0,025 0,05 152 203 250 353
La fórmula para el cálculo del número de sujetos necesarios para comparar dos porciones se encuentra en la tabla 15.6. El ejemplo 15.4
ilustra su uso.
377
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
α Potencia 0,80
Hipótesis Hipótesis RR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
0,01 0,050 0,10 8.458 2.530 1.307 838 601 462
0,025 0,05 10.377 3.104 1.604 1.028 738 567
0,02 0,050 0,10 4.175 1.245 641 409 293 224
0,025 0,05 5.122 1.527 787 502 359 275
0,03 0,050 0,10 2.747 816 419 267 190 145
0,025 0,05 3.370 1.002 514 327 233 178
0,04 0,050 0,10 2.033 602 308 195 138 105
0,025 0,05 2.494 739 378 240 170
(Continúa)
378
TABLAS
Tabla D. (cont.)
α Potencia 0,90
Hipótesis Hipótesis RR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
379
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
α Potencia 0,90
Hipótesis Hipótesis OR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
0,01 0,050 0,10 8.691 2.616 1.360 877 632 489
0,025 0,05 10.662 3.210 1.669 1.076 776 600
0,02 0,050 0,10 4.409 1.331 694 448 324 251
0,025 0,05 5.409 1.634 852 550 398 308
0,03 0,050 0,10 2.982 904 472 306 222 172
0,025 0,05 3.659 1.109 580 376 272 211
0,04 0,050 0,10 2.270 690 362 235 171 133
0,025 0,05 2.785 847 444 288 209 163
(Continúa)
380
TABLAS
Tabla E. (cont.)
α Potencia 0,90
Hipótesis Hipótesis OR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
381
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
382
TABLAS
Tabla F. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
d / s* unilateral bilateral 0,80 0,90 0,95 0,99
0,675 0,050 0,100 37 50 62 87
0,025 0,050 27 38 48 69
0,700 0,050 0,100 34 46 57 81
0,025 0,050 25 35 44 64
0,725 0,050 0,100 32 43 53 75
0,025 0,050 23 33 41 60
0,750 0,050 0,100 30 40 49 70
0,025 0,050 22 30 38 56
0,775 0,050 0,100 28 37 46 65
0,025 0,050 21 29 36 53
0,800 0,050 0,100 26 35 43 61
0,025 0,050 19 27 34 49
0,825 0,050 0,100 25 33 41 57
0,025 0,050 18 25 32 46
0,850 0,050 0,100 23 31 38 54
0,025 0,050 17 24 30 44
0,875 0,050 0,100 22 29 36 51
0,025 0,050 16 22 28 41
0,900 0,050 0,100 20 27 34 48
0,025 0,050 15 21 27 39
0,925 0,050 0,100 19 26 32 45
0,025 0,050 14 20 25 37
0,950 0,050 0,100 18 25 30 43
0,025 0,050 14 19 24 35
0,975 0,050 0,100 17 23 29 41
0,025 0,050 13 18 23 33
1,000 0,050 0,100 16 22 27 39
0,025 0,050 12 17 22 32
1,025 0,050 0,100 16 21 26 37
0,025 0,050 12 16 21 30
1,050 0,050 0,100 15 20 25 35
0,025 0,050 11 16 20 29
1,075 0,050 0,100 14 19 24 33
0,025 0,050 11 15 19 27
1,100 0,050 0,100 14 18 22 32
0,025 0,050 10 14 18 26
* d / s es una medida estandarizada de la diferencia mínima que se desea detectar. Se calcula dividiendo la magnitud de la diferencia (d) por
la desviación estándar de la variable en el grupo de referencia (s).
La fórmula para el cálculo del número de sujetos necesarios para comparar dos medias se encuentra en la tabla 15.6. El ejemplo 15.7 ilustra
su uso.
383
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
384
TABLAS
0,025 316 79 – – – –
0,050 653 164 73 41 – –
0,075 1.017 255 113 64 41 29
0,100 1.418 355 158 89 57 40
0,125 1.868 467 208 117 75 52
0,150 2.384 596 265 149 95 67
e: porcentaje de error o discordancia entre ambas mediciones que se espera encontrar. El ejemplo A7.3 ilustra su uso.
385
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
Tabla J. Número de sujetos necesarios para estimar una asociación entre dos variables cuantitativas
mediante el coeficiente de correlación de Pearson
α Potencia (1-β)
Hipótesis Hipótesis
r* unilateral bilateral 0,80 0,90 0,95 0,99
0,05 0,050 0,10 2.473 3.424 4.325 6.300
0,025 0,05 3.138 4.200 5.193 7.339
0,10 0,050 0,10 617 854 1.078 1.569
0,025 0,05 783 1.047 1.294 1.828
0,15 0,050 0,10 274 378 477 693
0,025 0,05 347 463 572 807
0,20 0,050 0,10 153 211 266 387
0,025 0,05 194 259 319 450
0,25 0,050 0,10 98 134 169 245
0,025 0,05 123 164 202 285
0,30 0,050 0,10 68 92 116 168
0,025 0,05 85 113 139 195
0,35 0,050 0,10 49 67 84 121
0,025 0,05 62 82 100 141
0,40 0,050 0,10 37 51 63 91
0,025 0,05 47 62 75 105
0,45 0,050 0,10 29 39 49 70
0,025 0,05 36 48 58 81
0,50 0,050 0,10 23 31 39 55
0,025 0,05 29 38 46 64
0,55 0,050 0,10 19 25 31 44
0,025 0,05 24 30 37 51
0,60 0,050 0,10 16 21 26 36
0,025 0,05 19 25 30 41
0,65 0,050 0,10 13 17 21 29
0,025 0,05 16 20 25 34
0,70 0,050 0,10 11 14 17 24
0,025 0,05 13 17 20 27
0,75 0,050 0,10 10 12 14 20
0,025 0,05 11 14 17 22
0,80 0,050 0,10 8 10 12 16
0,025 0,05 10 12 14 18
0,85 0,050 0,10 7 8 10 13
0,025 0,05 8 10 11 15
0,90 0,050 0,10 6 7 8 10
0,025 0,05 7 8 9 11
0,95 0,050 0,10 5 6 6 8
0,025 0,05 5 6 7 8
*Valor estimado del coeficiente de correlación de Pearson que se desea detectar.
La fórmula para calcular el número de sujetos necesarios para estimar el coeficiente de correlación entre dos variables cuantitativas se
encuentra en la tabla A7.1 El ejemplo A7.6 ilustra su uso.
386
TABLAS
Tabla K. Número de sujetos necesarios por grupo para detectar una determinada razón de riesgos en
estudios que utilizan análisis de supervivencia
α = 0,05 (bilateral) α = 0,01 (bilateral)
Potencia (1-β) Potencia (1-β)
0,80 0,90 0,95 0,80 0,90 0,95
387
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA
68 68 80 54 00 16 01 92 58 21 65 12 64 64 70 07 28 66 61 59 48 79 74 73 72 08 64 80 91 38
92 36 48 69 45 89 84 05 34 47 09 12 81 93 63 46 13 95 65 96 88 09 31 54 88 97 96 86 01 69
97 50 71 39 79 51 99 98 44 39 99 35 72 61 22 42 36 31 16 59 12 75 10 60 36 80 66 39 94 97
57 93 08 35 69 08 12 60 39 23 89 96 34 22 37 96 18 69 06 30 61 73 84 89 18 26 02 04 37 95
44 71 38 40 37 69 99 47 26 52 89 85 33 22 80 66 10 71 44 05 48 06 30 00 18 03 30 28 55 59
70 72 51 49 73 88 91 28 79 50 81 83 33 98 29 88 77 90 45 59 71 42 14 96 55 98 59 96 01 36
56 42 78 54 06 59 45 27 08 51 68 82 34 08 83 67 98 36 65 56 85 64 23 85 41 64 72 08 59 44
80 61 68 44 19 84 27 17 30 37 62 42 07 12 63 95 39 06 35 63 48 69 49 02 58 98 02 50 58 11
37 79 95 02 66 65 45 53 41 07 61 02 73 36 85 90 54 33 65 84 14 83 46 74 11 76 66 63 60 08
35 36 82 82 59 48 28 01 83 84 61 38 93 73 68 22 30 95 69 72 09 11 21 91 73 97 28 44 74 06
43 40 13 35 45 93 18 31 83 45 80 58 35 06 88 47 19 63 92 75 54 52 62 29 91 53 58 54 66 05
78 36 26 24 06 18 26 32 96 83 74 93 55 39 26 73 87 96 76 23 50 58 45 27 57 14 96 39 64 85
98 84 48 42 92 45 62 63 40 88 60 42 17 18 48 69 63 21 83 41 35 69 34 10 94 32 22 52 04 74
84 65 43 07 30 26 22 59 28 27 59 62 37 95 42 33 56 90 92 57 38 58 22 14 79 24 32 12 38 42
23 79 80 71 37 33 26 74 03 30 49 54 36 85 14 58 61 52 27 03 74 22 19 13 48 30 28 01 92 49
17 79 96 52 35 05 53 15 26 70 37 03 08 98 64 78 35 22 22 88 04 69 22 64 07 04 73 25 74 82
33 48 32 91 54 98 61 70 48 22 53 26 79 20 38 58 70 61 43 97 68 50 64 55 75 42 70 32 09 60
82 17 18 17 14 85 13 41 38 10 95 28 12 73 23 34 78 77 60 25 16 47 61 43 77 83 27 19 70 41
91 95 43 81 14 04 41 66 09 76 84 31 64 64 08 47 42 80 61 03 20 50 73 40 95 24 77 95 73 20
83 59 89 65 06 03 10 16 82 24 21 46 51 44 77 33 11 49 15 16 39 58 20 12 39 82 77 02 18 88
22 32 61 43 75 54 08 18 07 04 12 53 67 51 54 97 30 53 62 38 92 17 63 36 75 33 14 11 11 78
49 48 55 11 39 68 50 33 31 47 16 28 25 82 98 86 62 93 66 71 15 64 88 75 27 04 51 41 61 96
39 07 30 60 77 39 90 89 86 77 64 21 91 15 82 54 80 67 78 66 46 86 86 88 86 50 09 13 24 91
52 49 41 73 46 56 50 45 94 25 12 77 40 70 14 68 47 37 10 84 48 28 48 30 51 60 73 73 03 87
47 10 62 31 28 59 77 64 59 90 44 37 33 53 17 13 26 98 86 29 58 92 62 50 18 93 09 45 89 06
91 67 48 57 10 52 62 24 19 94 25 47 57 91 13 13 50 63 04 23 62 74 29 92 24 64 94 63 15 07
49 92 05 12 07 55 98 78 10 70 47 46 41 90 08 78 66 28 55 80 44 31 52 43 07 19 83 94 62 94
67 95 07 76 30 44 67 32 23 13 12 72 72 27 77 51 57 32 22 27 28 30 62 58 83 13 08 60 46 28
54 50 06 44 75 46 44 33 63 71 56 59 75 36 75 66 86 65 64 60 35 14 82 56 80 59 78 98 76 14
56 23 27 19 03 30 80 05 19 29 65 00 51 93 51 19 83 52 47 53 18 88 26 95 54 48 00 26 43 85
11 28 94 15 52 89 99 93 39 79 34 87 96 23 95 51 78 57 26 17 94 61 47 03 10 88 84 59 69 14
77 55 33 62 02 62 03 55 86 57 70 39 83 66 56 79 68 96 26 60 13 13 38 69 96 43 83 10 13 24
35 96 29 00 45 17 27 27 51 26 48 21 47 74 63 73 52 93 70 50 91 59 11 38 44 05 30 08 46 32
02 84 48 51 97 19 79 95 07 21 09 04 03 35 78 63 99 25 69 02 22 95 30 19 29 20 25 36 70 69
49 90 21 69 74 93 74 21 86 33 71 30 32 06 47 86 28 30 02 35 20 39 84 95 61 99 78 78 83 82
75 27 28 52 13 17 18 16 90 46 56 33 24 87 36 97 96 47 59 97 87 73 19 38 47 83 43 32 26 26
92 42 85 04 31 42 37 13 81 83 97 50 81 79 59 93 41 69 96 07 69 33 17 03 02 42 69 60 17 42
34 59 43 36 96 35 63 02 31 61 40 33 04 46 24 40 24 74 36 42 56 39 59 89 63 78 22 87 10 88
71 63 94 94 33 26 41 77 63 37 18 78 80 36 85 06 06 16 25 98 64 13 09 37 11 31 66 60 65 64
61 63 00 25 92 98 10 39 33 15 39 46 67 21 17 97 81 26 03 89 98 78 80 63 23 20 96 06 79 80
32 15 99 67 43 56 16 88 87 60 90 14 79 61 55 65 99 59 97 84 18 62 85 28 24 39 65 01 73 91
68 49 20 43 29 31 85 33 69 07 60 22 66 72 17 16 91 21 32 41 85 66 48 38 73 48 78 58 08 88
50 93 19 35 56 78 12 03 09 70 35 26 99 18 25 62 03 89 26 32 43 61 00 66 42 33 86 76 71 66
92 20 32 39 67 98 81 99 37 29 37 11 05 75 16 92 27 73 40 38 68 52 16 83 34 48 32 72 26 95
21 68 40 95 79 95 66 39 01 09 00 84 14 36 37 45 51 94 69 04 97 00 12 91 33 83 97 68 95 65
13 81 20 67 58 03 35 63 05 77 12 08 05 75 26 00 81 06 28 48 01 52 48 69 57 02 41 03 89 33
25 76 01 54 03 72 93 78 04 36 60 60 29 99 93 05 06 42 24 07 96 88 22 46 94 60 73 04 84 98
83 79 68 20 66 70 81 10 94 91 60 09 71 87 89 12 68 46 55 89 91 51 63 27 95 88 29 04 79 84
61 58 87 08 05 85 79 76 48 23 67 85 72 37 41 07 79 26 69 61 98 55 83 46 09 41 49 36 83 43
48 84 60 37 65 32 25 34 03 36 62 95 80 97 63 52 16 16 23 56 01 98 00 89 85 10 10 71 19 45
388
Índice alfabético
A B
Análisis asignación aleatoria (véase también Beneficencia, 19
Análisis por intención de tratar), 226 Búsqueda bibliográfica, 117
– casos válidos (véase también Análisis – – utilidades, 117
por protocolo), 226
– estratificado, 280, 286 C
– multivariante, 259, 280, 287, 360 Causalidad, calidad evidencia, 292
– por intención de tratar, 45, 225, 226 – criterios, 293
– – protocolo, 44, 54 – tipos estudio, 290
– subgrupos, 210, 215 Cochrane Library, 120
Artículo original, 312 Cociente probabilidad (véase también Razón
– – agradecimientos, 320 probabilidad), 337
– – autores, 319 Código Nuremberg, 17
– – bibliografía, 318 Coeficiente correlación intraclase, 344
– – discusión, 317 Comité Ético Investigación Clínica, 22, 241
– – figuras, 316 Comparación proporciones, 147
– – introducción, 312 – – comparación dos medias, 148
– – material métodos, 313 – – – grupos variable respuesta ordinal, 149
– – resultados, 314 – – corrección por no respuestas, pérdidas,
– – resumen, 319 abandonos, 150
– – tablas, 316 – – equivalencia dos intervenciones, 149
– – título, 319 – – estimación odds ratio, 148
Asignación aleatoria, 40, 159, 161, 280 – – – riesgo relativo, 148
– – estratificada, 165 – – estrategias minimizar número sujetos, 150
– – por bloques, 164 Concordancia, 341
– – simple, 163 – entre métodos, 98
– – técnicas adaptativas, 166 – interobservador, 97, 171
– por grupos, 55, 166 – intraobservador, 97, 171
– sistemática, 163 Conflictos intereses, 22
Autonomía, 19 – – investigación clínica, 22
Autor, 25, 309 Consentimiento informado, 19, 39
389
ÍNDICE ALFABÉTICO
390
ÍNDICE ALFABÉTICO
391
ÍNDICE ALFABÉTICO
M Potencia, 254
Manual procedimientos, 228 – cálculo, 266
MEDLINE, 118 – estadística, 146, 262
MeSH, 122 Prevalencia, 209, 324
Metaanálisis (véase también Revisión Principio comparabilidad, 133, 159
sistemática), 347 – incertidumbre, 34
Método científico, 3 – representatividad, 133
– – ciclo, 4 Principios éticos, 18
Métodos secuenciales, 56 – – justicia, 18
Modificación efecto, 286 – – publicación científica, 23
Muestra, 132 – – requisitos investigación, 20
Muestreo, 151 Proporción, 323
– aleatorio estratificado, 153 Protocolo, 113
– – simple, 153 – esquema general, 114
– marco, 152 Prueba piloto, 194, 235
– múltiples etapas, 155 Pruebas contraste hipótesis, 143
– no probabilístico, 156 – – – bilaterales, 144
– por cuotas, 157 – – – unilaterales, 144
– probabilístico, 152 Publicación científica, 23
– sistemático, 155 – – conflicto intereses, 24
– técnicas, 152 – – ética, 23
– – adaptativas, 157 – – revisión manuscritos, 24
– unidades, análisis, 152 – redundante, 25
– variaciones, 250
– ventajas, 151 R
Razón, 324
N – probabilidad, 337
No maleficencia, 19 Reducción absoluta riesgo (véase también
– respuestas, 210 Diferencia incidencias), 301
Número casos necesidad tratamiento, 301 – relativa riesgo, 301
Registro por propio paciente, 180
O Regresión media, 12
Objetivo, 125 Repetibilidad, 170, 197
– específico, 127, 352 Restricción, 280
– – formulación objetivo, 128 Revisión sistemática, 101, 347
Odds ratio, 211, 293, 299, 331 – – análisis grupos, 350
– – intervalo confianza, 331 – – – heterogeneidad, 347
Outlier, 225, 351 – – – sensibilidad, 350
– – criterios selección, 102
P – – definición objetivo, 101
Pérdidas seguimiento, 210, 273 – – efectos aleatorios, 348
Período preinclusión, 40 – – – fijos, 348
Pertinencia, 126 – – estrategia análisis, 104
Placebo, 35 – – estudios observacionales, 108
Plausabilidad biológica, 293 – – fase, 101
Población diana, 132 – – identificación estudios disponibles, 101
– estudio, 132, 264, 302 – – metaanálisis acumulativos, 349
– – criterios selección, 135 – – metarregresión, 350
Poder estadística (véase también Potencia – – pacientes individuales, 107
estadística), 146, 254 – – presentación gráfica resultados, 349
392
ÍNDICE ALFABÉTICO
393