Nothing Special   »   [go: up one dir, main page]

Argimon Pallas

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 381

© 2004 Elsevier España, S.A.

Génova, 17, 3.º


28004 Madrid. España

An Elsevier Imprint

Primera edición 1991


Segunda edición 2000

Fotocopiar es un delito (Art. 270 C.P.)


Para que existan libros es necesario el trabajo de un importante colectivo
(autores, traductores, dibujantes, correctores, impresores, editores…).
El principal beneficiario de ese esfuerzo es el lector que aprovecha su contenido.
Quien fotocopia un libro, en las circunstancias previstas por la ley, delinque
y contribuye a la «no» existencia de nuevas ediciones. Además, a corto plazo,
encarece el precio de las ya existentes.
Este libro está legalmente protegido por los derechos de propiedad intelectual.
Cualquier uso, fuera de los límites establecidos por la legislación vigente, sin el consentimiento
del editor, es ilegal. Esto se aplica en particular a la reproducción, fotocopia, traducción,
grabación o cualquier otro sistema de recuperación de almacenaje de información.

Coordinación y producción editorial: EDIDE, S.L.

ISBN: 84-8174-709-2

Depósito legal: M-29.563-2004

Impreso en España por Gráficas Hermanos Gómez


Presentación

P
resentamos la tercera edición de la obra Mé- paso las diferentes fases, desde los planteamientos
todos de investigación, cuya primera edición se iniciales, la definición del objetivo y la realización
publicó hace 13 años. En esa primera edición de una búsqueda bibliográfica eficiente, hasta la
pretendimos escribir un libro sobre fundamentos planificación de la estrategia de análisis. El libro
del método científico que fuera útil para los profe- combina los contenidos teóricos con capítulos y
sionales que se inician en el campo de la investiga- temas tan prácticos como la solicitud de una ayu-
ción en ciencias de la salud. Con esta filosofía inten- da para la financiación de la investigación, una
tamos que el libro fuera lo más sencillo y didáctico guía para la elaboración de un protocolo de estu-
posible pero a la vez riguroso, como corresponde a dio, los preparativos para la puesta en marcha y
un libro de método. tablas para el cálculo del tamaño de la muestra en
En la segunda edición se incorporaron nuevos la mayoría de situaciones.
temas, pero sin perder el espíritu de la primera, Las páginas dedicadas a la interpretación de
con la pretensión de que fuera útil no sólo para los resultados suponen una parte importante del
profesionales que se inician en la investigación, si- libro, ya que un investigador debe ser capaz de dis-
no también para aquellos con experiencia previa cutir honestamente sus hallazgos, y los profesiona-
en este campo, y para los que quieran aumentar sus les sanitarios deben serlo de leer críticamente la
capacidades para leer e interpretar críticamente un literatura, y van desde cómo determinar la poten-
artículo científico. cia estadística de un estudio a cómo evaluar la apli-
La tercera edición consolida la segunda, e incor- cabilidad práctica de los resultados.
pora temas que en los últimos años han adquirido Con la finalidad de que el libro sea lo más prác-
gran importancia en la investigación clínica y epide- tico posible, los conceptos teóricos se ilustran con
miológica, como son los aspectos éticos y las revisio- más de 300 ejemplos, que se han diferenciado en
nes sistemáticas de la literatura científica, como el texto para no entorpecer la lectura de los capí-
herramienta útil para la toma de decisiones. Tam- tulos.
bién trata con mayor profundidad algunos temas Como en las ediciones anteriores, agradecemos
de especial relevancia, como por ejemplo los estu- a los profesionales que han participado en nues-
dios experimentales que han pasado a ocupar dos tros cursos, tanto presenciales como a distancia, sus
capítulos. Además se ha actualizado la bibliogra- comentarios y sugerencias, así como al Dr. Amando
fía y algunos de los ejemplos prácticos que ilustran Martín Zurro, que constantemente nos anima a
la obra. mantener actualizada esta obra.
El hilo conductor de la obra sigue siendo la ela-
boración de un protocolo de estudio, de forma que
Los autores
aquellos profesionales que se enfrentan al reto de
diseñar una investigación puedan seguir paso a Barcelona, mayo de 2004
Capítulo 1
El proceso de la investigación clínica
y epidemiológica

n la práctica de la medicina, el profesional cientes, obteniendo información sobre la utilidad y

E sanitario debe tomar múltiples decisiones


sobre la atención a sus pacientes, para lo cual
necesita disponer de información de diferente na-
eficacia de los procedimientos diagnósticos,
terapéuticos y preventivos, así como sobre la etio-
logía, la fisiopatología y los factores de riesgo de las
turaleza: cuál puede ser la causa de su problema, enfermedades y problemas de salud.
cuál es su pronóstico, qué estrategia diagnóstica es La investigación supone también un valor añadi-
la más adecuada, qué tratamiento es más eficaz en do tanto para los profesionales (prestigio profesio-
su situación, qué información y recomendaciones nal y social, estímulo intelectual, sentimiento de per-
puede proporcionarle para mejorar su estado de tenecer a una élite, posibilidad de colaborar con
salud, etc. Además de tomar en consideración fac- otros colegas y otros profesionales expertos intere-
tores como las necesidades y preferencias de los sados en los mismos temas, etc.), para los pacientes
pacientes o las prioridades y recursos que tiene a su (beneficios derivados de los resultados de las inves-
alcance, el profesional debe basar sus decisiones en tigaciones, mayor calidad de la atención, adminis-
información (evidencia) válida sobre los efectos de tración de intervenciones más efectivas, mayor
las distintas alternativas de actuación. La principal supervivencia, mayor calidad de vida, etc.), para la
fuente de estas evidencias es la investigación clínica comunidad (mejora de la situación de salud, au-
y epidemiológica. mento de la esperanza de vida, etc.) y para el propio
Cada vez existe una mayor presión desde todos sistema sanitario (mayor calidad y eficacia de sus
los ámbitos para pasar de un proceso de toma de actuaciones, mayor eficiencia en el uso de los recur-
decisiones basado en la tradición, la autoridad o las sos, etc.).
opiniones de los profesionales considerados exper-
tos, a un modelo basado en evidencias científicas
MÉTODO CIENTÍFICO
explícitas y contrastables empíricamente, proce-
dentes de la investigación rigurosa, que conduzcan El objetivo de cualquier ciencia es adquirir conoci-
a la obtención de pruebas más objetivas (medicina mientos desde una perspectiva que intenta no
basada en la evidencia). abordar solamente acontecimientos y situaciones
Por tanto, la investigación biomédica es necesa- aisladas, sino la comprensión de fenómenos desde
ria para el progreso de la medicina al proporcionar una óptica más generalizada. El problema es elegir
las pruebas en que basar la práctica clínica y mejo- un método adecuado que permita conocer la reali-
rar la calidad de la atención que se presta a los pa- dad, entendiendo como tal la referida a un deter-

3
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

minado problema, evitando catalogar conocimien- investigador siguen un mismo protocolo de estudio
tos erróneos como verdaderos. Es precisamente y aplican las mismas definiciones y criterios a todos
mediante la aplicación formal de los procedimien- los participantes, actuando de forma idéntica ante
tos sistemáticos que componen el método científi- cualquier duda. La palabra objetivo indica que las
co cómo el investigador pretende comprender, conclusiones que se obtienen no se basan en impre-
explicar, predecir o controlar fenómenos. siones subjetivas, sino en hechos que se han obser-
Investigar es algo más que recoger y almacenar vado, medido y analizado, y que se intenta evitar
información. La investigación nace de la curiosidad cualquier prejuicio en la interpretación de los
y de las inquietudes personales, de la observación de resultados.
hechos sin explicación lógica aparente o que contra- El control de las condiciones de investigación es
dicen las teorías aceptadas. Pero en todos los casos un elemento clave del método científico. Sin embar-
requiere establecer hipótesis y objetivos concretos y go, los problemas que interesan a los investigadores
utilizar instrumentos de medida precisos y reprodu- son fenómenos complejos y difíciles de medir, que
cibles con una metodología que permita contrastar suelen representar los efectos de múltiples factores.
empíricamente dichas hipótesis y rechazar o aumen- Si se pretende aislar las relaciones entre fenómenos,
tar el grado de corroboración de las teorías acepta- el científico debe intentar controlar los factores que
das en ese momento. no están siendo investigados de forma directa, lo
Una investigación es un proceso sistemático, que resulta más difícil de conseguir en el mundo
organizado y objetivo, destinado a responder a una real que en un laboratorio. Por ello, el método
pregunta. El término sistemático significa que se apli- científico aplicado a la investigación en seres hu-
ca el método científico (fig. 1.1), de manera que, a manos presenta algunas limitaciones, además de
partir de la identificación de un problema y la revi- las morales y éticas, dada la dificultad de controlar
sión de los conocimientos existentes, se formula los múltiples factores que pueden influir, la com-
una hipótesis u objetivo de trabajo, se recogen unos plejidad del ser humano como objeto de investi-
datos según un diseño preestablecido y, una vez gación y los problemas de medición de algunas de
analizados e interpretados, se obtienen unas con- sus funciones.
clusiones cuya difusión permitirá modificar o aña- El resultado de la investigación es conocimien-
dir nuevos conocimientos a los ya existentes, ini- to, pero para que el conocimiento generado por un
ciándose entonces de nuevo el ciclo. Por organizado estudio pase a formar parte de la ciencia, es necesa-
se entiende que todos los miembros de un equipo rio que se presente a la comunidad científica en

Conocimiento
actual

Generalización Identificación de
un problema
Conclusiones Hipótesis
conceptual
Interpretación
Diseño
y discusión
Hipótesis
Resultados conceptual

Inclusión de sujetos
Análisis Recogida de datos

Observaciones

Figura 1.1. Ciclo del método


científico.

4
EL PROCESO DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

una manera que permita juzgar su validez de una resultados de las investigaciones seleccionan los
forma independiente. Así, las ideas producto de la conocimientos que pasan a constituir los libros de
intuición, la inspiración o la imaginación tienen un texto, para quedar finalmente tan sólo aquellos que
alto grado de subjetividad y suelen ser poco fiables. formarán parte del futuro cuerpo de conocimien-
Para cruzar la frontera de la ciencia, deben trasla- tos (fig. 1.2).
darse a un proyecto de investigación, que es evalua- Por tanto, una adecuada gestión del conocimien-
do por un comité independiente que se encarga de to debe pasar por la promoción de la investigación
excluir aquello que no tiene sentido o que no con- útil (producción de información orientada a la reso-
sidera ciencia. Si la investigación pasa este filtro y se lución de las incertidumbres asociadas a problemas
lleva a cabo, debe pasar otro, que es el de su revi- de salud concretos), su adecuada diseminación
sión por expertos para decidir si tiene la calidad y el (transferencia del conocimiento a la práctica profe-
interés suficientes para ser publicada y poderse sional) y la formación de los profesionales sanitarios
difundir entre la comunidad científica. Las publi- (capacitación técnica para interpretar, comunicar,
caciones secundarias y la elaboración de revisiones compartir y utilizar dicho conocimiento). Sin un
suponen un nuevo filtro, al seleccionar los mejores adecuado fomento de estos aspectos, difícilmente la
estudios y permitir contrastarlos con otras investi- investigación tendrá el impacto esperado en la prác-
gaciones. El paso del tiempo y la aplicación de los tica de la medicina.

SUBJETIVO
Idea, sospecha, intuición, imaginación,
NO FIABLE
inspiración, etc.
Seudociencia

FRONTERA Elaboración de un protocolo de investigación


DE LA CIENCIA Evaluación independiente del protocolo
Sesgo, error,
deshonestidad

LITERATURA Artículo original


Tiempo

PRIMARIA Peer-review (proceso editorial)


Error, falta de
interés, fraude

Revistas secundarias
LITERATURA
Revisiones
SECUNDARIA Error,
obsolescencia

LIBROS Fiable en su
DE TEXTO mayoría
Inadecuación

OBJETIVO
FIABLE TEXTO DEL FUTURO

Modificado de Bauer HH (1995). Ethics in science: The knowledge filter


Disponible en: http://www.csu.edu.au/learning/eis/hbauer-filter.html

Figura 1.2. Filtro del conocimiento.

5
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

PROCESO DE INVESTIGACIÓN grupos de estudio. También deben identificarse las


variables importantes del estudio, decidir cuál será
La investigación no es una actividad especialmente
la variable de respuesta principal, qué otras varia-
difícil, aunque requiere, y también ayuda a desarro-
bles será necesario medir, qué instrumentos de
llar, la capacidad de pensar con claridad y de una
medida habrá que utilizar, etc. También deberá pla-
forma organizada. Al contrario de lo que muchos
nificarse con detenimiento la fase de recogida de
suelen creer, no necesita un extenso conocimiento
datos y la estrategia que se seguirá para su análisis.
de técnicas experimentales ni estadísticas, ni el
Dado que la utilidad de una investigación
dominio de un amplio vocabulario especializado.
depende en gran medida de que sus resultados
La tabla 1.1 resume los diez aspectos más impor-
sean aplicados en la práctica, es fundamental la
tantes que un investigador se plantea y que guiarán
correcta difusión del trabajo realizado en el ámbito
en el proceso de elaboración de un proyecto de
adecuado y su inclusión en las bases de datos inter-
investigación.
nacionales para que pueda ser identificado, locali-
La investigación se inicia a partir de la identifi-
zado y evaluado por los profesionales sanitarios.
cación de un problema o la generación de una
Por ello, los aspectos relacionados con la comuni-
buena idea, definiendo la pregunta concreta a la
cación científica son también importantes.
que el estudio pretende responder, expresada habi-
tualmente en forma de hipótesis de trabajo o de
objetivo específico. Es importante que el investiga- FINALIDADES DE LA INVESTIGACIÓN
dor sea capaz de justificar, a partir de una revisión
Esquemáticamente, puede considerarse que exis-
de la situación del conocimiento sobre el tema y del
ten dos grandes categorías de investigación.
establecimiento del marco teórico adecuado, la rea-
La primera corresponde a la investigación que
lización del estudio, valorando su pertinencia y su
busca ampliar los conocimientos existentes sobre la
viabilidad. El diseño de la investigación implica, en
salud, la enfermedad o el proceso de atención sani-
una primera fase, la selección del tipo de estudio
taria (p. ej., estimando la frecuencia con que apare-
más adecuado para responder a la pregunta plan-
ce una enfermedad o describiendo sus característi-
teada y la construcción de su estructura básica. Pos-
cas), cuya utilidad principal es la generación de
teriormente se concretarán los aspectos relaciona-
ideas e hipótesis (investigación descriptiva). Este tipo
dos con la población de estudio, como los criterios
de investigación se caracteriza por la ausencia de
de selección de los participantes, cómo se identifi-
hipótesis de trabajo previas, y puede ser exclusiva-
carán y se seleccionarán, el número de sujetos nece-
mente descriptiva, lo que supone la observación,
sario, o la técnica que se utilizará para formar los
descripción y catalogación de determinados hechos,
o tener una orientación más exploradora, dirigida
Tabla 1.1. Principales aspectos que se plantean al descubrimiento de relaciones entre fenómenos.
en relación con una investigación Si se utiliza el método científico para realizar las
observaciones, los estudios descriptivos pueden ser
1. Definir la pregunta con claridad muy útiles y suelen ser fundamentales como base
del desarrollo de hipótesis.
2. Escoger el diseño idóneo
La segunda categoría corresponde a la investi-
3. Seleccionar la población de estudio adecuada gación dirigida a evaluar las intervenciones realiza-
4. Calcular el número de individuos necesario das para mejorar la salud, prevenir la enfermedad o
impulsar los procesos de atención sanitaria, deter-
5. Medir las variables con precisión y exactitud
minando sus efectos y contrastando las hipótesis de
6. Planear la estrategia de análisis trabajo (investigación analítica). Este tipo de investi-
7. Organizar el estudio cuidadosamente gación parte de una hipótesis previa, y puede tener
una orientación explicativa, que busca comprender
8. Ejecutar el estudio con minuciosidad
el porqué de los fenómenos, o bien predictiva, en el
9. Interpretar los resultados con precaución sentido de que intenta hacer predicciones fiables y
10. Comunicar los resultados con rigor brindar la posibilidad de controlar determinados
problemas, a pesar de que, con los conocimientos y

6
EL PROCESO DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tecnologías disponibles actualmente, escapan a la La mayor parte de los estudios que se realizan
comprensión absoluta. actualmente, especialmente los dirigidos a evaluar
Ambas categorías tienen en común el hecho de la eficacia de los tratamientos, se diseñan con la
que el investigador trata de responder a la pregunta finalidad de obtener el mayor grado posible de con-
de investigación de una forma válida y precisa, trol de las condiciones de la investigación, es decir,
diseñando el estudio de manera que disminuyan las la mayor validez interna posible, por lo que existen
probabilidades de existencia de errores que puedan importantes limitaciones a la hora de extrapolar sus
conducirle a una respuesta equivocada. Es mejor resultados a la práctica clínica habitual.
tardar en incorporar conocimientos, aunque sean Este problema es especialmente relevante si
ciertos, que incorporar datos falsos. tenemos en cuenta que los resultados de estas
investigaciones son la base para la toma de decisio-
nes en la práctica clínica, de manera que, aunque
ORIENTACIÓN DE LA INVESTIGACIÓN
se insiste mucho en la necesidad de basar dichas
Como veremos en los capítulos siguientes, a lo largo decisiones en evidencias científicas, en la práctica
de todo el proceso de una investigación deben to- se dispone de pocos datos de lo que ocurre en rea-
marse múltiples decisiones sobre muchos aspectos, lidad en la población a la que se desea aplicar los
como los criterios de selección de los participantes, resultados y en las condiciones reales de la práctica
la exclusión de determinados grupos de personas, diaria.
el ámbito de realización, la duración del estudio, el Además, los principales retos actuales de la inves-
seguimiento de los sujetos, etc., que definen el grado tigación clínica, como las patologías crónicas, las
de control sobre las condiciones de la investigación, actividades preventivas o los efectos a largo plazo de
y de esta manera condicionan la validez del estudio las intervenciones en poblaciones con problemas
para responder a la pregunta de investigación y su complejos o con comorbilidad, requieren una orien-
utilidad para extrapolar o generalizar sus resultados. tación más pragmática del diseño de los estudios.

7
Capítulo 2
Bases metodológicas de la investigación
clínica y epidemiológica

squemáticamente, la pregunta o hipótesis que determinando el tanto por ciento que contiene la in-

E se formula en un estudio puede hacer referen-


cia a la frecuencia con que aparece una enfer-
medad o a la descripción de sus características (es-
formación de interés e infiriendo que el porcentaje
observado en la muestra es el mismo que se encon-
traría si se hubieran analizado todas las historias. Sin
tudios descriptivos), o bien a la estimación del efecto embargo, existe la posibilidad de equivocarse, simple-
de un factor de estudio (una exposición o una inter- mente porque, por azar, se ha escogido una muestra
vención) sobre una enfermedad o una variable de de historias que no refleja de forma exacta el verdade-
respuesta (estudios analíticos). En todos los casos, el ro tanto por ciento. Esta posibilidad es tanto mayor
investigador trata de responder a la pregunta de cuanto menor es el tamaño de la muestra estudiada. Si
forma válida y precisa. En otras palabras, el estudio se sólo se hubieran seleccionado diez historias clínicas, y
diseña para evitar cualquier error en la respuesta al en cuatro de ellas estuvieran registrados los antece-
objetivo planteado. dentes familiares de cardiopatía isquémica, podría
inferirse que el porcentaje de historias en que constan
dichos antecedentes es del 40%. Si se repitiera el estu-
TIPOS DE ERROR
dio seleccionando otra muestra de diez historias, es
En cualquier estudio se han de minimizar dos erro- muy posible que el tanto por ciento observado fuera
res principalmente: el error aleatorio y el error sis- diferente del 40% (una sola historia más o menos
temático. haría variar dicho porcentaje en un 10%). Es decir,
existe una gran variabilidad inherente al muestreo.
E RROR ALEATORIO Esta variabilidad sería menor si, en lugar de diez histo-
El error aleatorio se debe al azar. Ocurre tanto por el rias, se hubieran seleccionado cien (una historia haría
hecho de que se trabaja con muestras de individuos, variar el resultado en un 1%), e incluso podría desapa-
y no con poblaciones enteras, como por la variabili- recer si se estudiaran todas las historias clínicas. Éste es
dad inherente al proceso de medición de variables, ya un ejemplo de error aleatorio debido al hecho de que
sea por el instrumento de medida que se utiliza, por se trabaja con muestras. La mejor estrategia para redu-
la propia variabilidad biológica o por la debida al cirlo sería aumentar el tamaño de la muestra.
observador. El error aleatorio también puede producirse al
Supongamos que se desea conocer el porcentaje de medir las variables. Por ejemplo, las cifras de presión
historias clínicas en las que están registrados los ante- arterial varían a lo largo del día, según las condicio-
cedentes familiares de cardiopatía isquémica. Para nes en que se miden o según el observador o el esfig-
ello, se selecciona una muestra de historias clínicas, momanómetro utilizado. En un estudio en el que se

8
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tuviera que medir la presión arterial, las estrategias entre los pacientes ingresados en el servicio de neu-
que permitirían disminuir el error aleatorio serían mología, de forma que la mayoría de ellos padecen
estandarizar las condiciones de la medición, entrenar limitación crónica al flujo aéreo (LCFA), y que el 88%
a los observadores y medir la presión arterial en más habían estado expuestos al tabaco. Ante estos resulta-
de una ocasión. dos se podría concluir erróneamente que no existe
El error aleatorio está muy relacionado con el asociación entre el tabaco y el cáncer de pulmón, ya
concepto de precisión. Una estimación o una medida que el tanto por ciento de fumadores es muy similar
es tanto más precisa cuanto menor es el componente en ambos grupos. Sin embargo, la selección del grupo
de error aleatorio. control no ha sido muy afortunada, ya que la LCFA
está relacionada con el tabaco, lo que enmascara su
E RROR SISTEMÁTICO asociación con el cáncer de pulmón. En general, si se
Un error sistemático, o sesgo, es un error en el diseño eligen como controles personas con enfermedades
del estudio, ya sea en la selección de los sujetos (sesgo relacionadas positiva o negativamente con la exposi-
de selección) o en la medición de las variables (ses- ción, se está introduciendo un sesgo de selección.
go de información), que conduce a una estimación
incorrecta o no válida del efecto o parámetro que se Los sesgos de selección también se pueden pro-
estudia. ducir durante el seguimiento de los participantes si la
probabilidad de desarrollar la enfermedad entre los
Sesgo de selección sujetos que se pierden es diferente en cada uno de
El sesgo de selección puede aparecer al elegir una los grupos.
muestra que no represente de forma adecuada a la
población de estudio o al formar los grupos que se Ejemplo 2.3. Consideremos un estudio que compara
van a comparar. dos intervenciones (A y B), administradas cada una
de ellas a un grupo de 100 sujetos, y que se producen
Ejemplo 2.1. Supongamos que se desea estimar la 20 pérdidas durante el seguimiento en cada uno de
prevalencia de una enfermedad en los sujetos adultos los grupos (tabla 2.1). El porcentaje de éxitos con
residentes en un municipio (población de estudio). ambas intervenciones es del 50% entre los que finali-
Para ello, se estudian los 100 primeros sujetos que zan el estudio, por lo que se podría concluir que
acuden a la consulta en un centro de salud (muestra poseen la misma eficacia. Sin embargo, entre las pér-
estudiada). Obviamente, los sujetos que acuden a la didas, sólo el 1% de los sujetos que recibieron la
consulta no son representativos de la población del intervención A fue clasificada como éxito, mientras
municipio, por lo que se obtendría una estimación que con la intervención B, lo fue un 50%. Cuando se
sesgada de la prevalencia de la enfermedad. calculó el tanto por ciento total de éxitos resultó que
la intervención B fue la más eficaz. Así pues, aunque
Ejemplo 2.2. Supongamos que se estudia la relación el porcentaje de pérdidas sea el mismo, se puede pro-
entre la aparición de cáncer de pulmón y la exposi- ducir un sesgo de selección.
ción previa al humo del tabaco. Se observa que el 90%
de los sujetos con cáncer de pulmón ingresados en un Otra situación que puede producir un sesgo de
hospital (casos) eran fumadores. Supongamos, selección es la existencia de no respuestas, lo que
además, que los individuos del grupo control se eligen suele ocurrir en las encuestas transversales.

Tabla 2.1. Sesgo de selección debido a pérdidas de seguimiento (ejemplo 2.3)

Intervención A Intervención B

Eficacia entre los sujetos que finalizan el estudio 40/80 (50%) 40/80 (50%)
Eficacia entre los sujetos que no lo terminan 1/20 (5%) 10/20 (50%)
Total 41/100 (41%) 50/100 (50%)

9
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Ejemplo 2.4. Supongamos un estudio en el que se Ejemplo 2.7. Si se quiere estudiar si hay una asocia-
desea determinar la prevalencia de consumo de taba- ción entre la ingestión de alcohol y la hipertensión, y
co entre los profesionales sanitarios de una determi- en los hipertensos se obtiene la información a partir
nada zona geográfica. Para ello, se selecciona una de una entrevista personal, mientras que en los indi-
muestra aleatoria de 500 profesionales, a los que se viduos del grupo control se obtiene de las historias
les envía un cuestionario. Contestan 300 profesio- clínicas, es de esperar que en el primer grupo la
nales, de los que 135 (45%) reconocen que fuman. Si información sea más exacta y sistemáticamente dife-
la prevalencia de consumo de tabaco entre las no res- rente de la obtenida en el grupo control, lo que ses-
puestas es diferente de la que existe entre los que sí gará los resultados. El problema de este estudio es
han respondido, la cifra del 45% es una estimación que se usan instrumentos diferentes en cada grupo.
sesgada de la verdadera prevalencia. En caso contra-
rio, podría asumirse que las no respuestas no están Por ello, las variables deben medirse con el instru-
relacionadas con el fenómeno de estudio (podrían mento adecuado, validado y bien calibrado, y aplicar-
considerarse aleatorias), de forma que la cifra obser- lo de la misma forma en todos los participantes del
vada sería una estimación no sesgada, aunque se estudio. Los errores sistemáticos, ya sean de selección
habría producido una pérdida de precisión en la esti- o de información, a diferencia de lo que ocurre con el
mación debido al menor número de respuestas. error aleatorio, no se atenúan al aumentar el tamaño
de la muestra. De hecho, aunque se incluyan más indi-
La única manera de asegurar que las pérdidas viduos, lo único que se logra con ello es perpetuar el
durante el seguimiento o las no respuestas no intro- sesgo. Además, un error de estas características, una
ducen un error sistemático en los resultados es evitar vez introducido, es casi imposible de enmendar en la
que se produzcan, o bien obtener información suple- fase de análisis.
mentaria que permita evaluar si los sujetos que se El error sistemático va muy ligado al concepto de
pierden o que no contestan difieren de los que finali- validez. Así, la estimación de un parámetro o de un
zan el estudio. efecto se considera válida si representa el verdadero
valor del fenómeno que se desea medir.
Sesgo de información
El sesgo de información se produce cuando las medi-
GRUPO CONTROL
ciones de las variables de estudio son de mala calidad o
son sistemáticamente desiguales entre los sujetos de En los estudios analíticos se pretende estimar la aso-
cada grupo. Las principales fuentes de estos errores son ciación o el efecto de un factor de estudio sobre una
la aplicación de pruebas poco sensibles y/o específicas variable de respuesta; por ejemplo, qué reducción
para la medición de las variables, la aplicación de crite- del colesterol sérico (variable de respuesta) se consi-
rios diagnósticos incorrectos, o distintos en cada grupo, gue con un determinado tratamiento hipolipemiante
e imprecisiones u omisiones en la recogida de los datos. (factor de estudio). En estos diseños, además del
grupo que está expuesto al factor de estudio, es nece-
Ejemplo 2.5. Si en un estudio se mide el peso de los su- sario utilizar un grupo control que sirva de referencia
jetos con una báscula mal calibrada, evidentemente, sobre lo que ocurre en los sujetos no expuestos a
se obtendrán medidas incorrectas, ya que se utiliza un dicho factor, de forma que puedan compararse los
mal instrumento de medida. resultados obtenidos en ambos grupos. El siguiente
ejemplo demuestra la necesidad del grupo control en
Ejemplo 2.6. Consideremos un estudio en el que el estos estudios.
objetivo es comparar el peso en función del sexo con
una báscula bien calibrada. Sin embargo, la medición Ejemplo 2.8. En la década de 1950 un tratamiento pa-
en los hombres se hace sin zapatos y en ropa interior, ra el angor pectoris que gozaba de gran popularidad
mientras que el responsable de pesar a las mujeres entre los cirujanos era la ligadura de la arteria mama-
sigue un criterio diferente y efectúa la medición con ria interna. Se pensaba que con ello se aumentaba el
zapatos y en ropa de calle. El problema de este estu- flujo sanguíneo hacia el miocardio. Cobb et al (1959)
dio es que se aplica un mismo instrumento de medi- publicaron un estudio controlado, doble ciego, en el
da de forma diferente, según el grupo de estudio. que a los individuos del grupo experimental se les

10
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

practicaba la ligadura, mientras que a los del grupo dio, con independencia de la intensidad de la ilumi-
control se les practicaba una incisión superficial sin nación, sino también en los grupos control. Parecía
ligarles la arteria, con el fin de que ni los pacientes claro, pues, que el simple hecho de que los trabajado-
ni los investigadores que evaluaban los resultados res sabían que eran vigilados, supuso un aumento de
pudieran conocer si pertenecían a uno u otro grupo. la producción.
En este estudio se observó la recuperación del 32% En los estudios sin grupo de comparación es muy
de los pacientes a quienes se había ligado la arteria y difícil discernir entre el efecto de la intervención y el
del 43% de los controles. Si no hubiera existido un debido al hecho de saberse estudiado. Con un grupo
grupo control, se hubiera podido llegar a la errónea de comparación este efecto no se elimina, pero es de
conclusión de que la ligadura era eficaz. esperar que ocurra por igual en ambos grupos y,
de este modo, es posible conocer cuál es el verdadero
La función de un grupo control es la de estimar efecto de la intervención.
cuál sería el valor de la variable de respuesta en el
caso de que no existiera asociación con el factor de Ejemplo 2.9. Un ensayo clínico evaluaba dos estrate-
estudio, por lo que debe formarse de manera que sea gias para reducir el número de peticiones de laborato-
comparable con el grupo de estudio en todo, excep- rio y radiología solicitadas por los médicos residentes
to en la exposición o el tratamiento que recibe. Por de primer año (Martin et al, 1980). Un tercer grupo, al
ejemplo, en un ensayo clínico serviría para determi- que no se le practicaba ninguna intervención, sirvió de
nar la respuesta esperada en ausencia de la interven- control. Los residentes tenían conocimiento de la exis-
ción, o en un estudio de casos y controles, para esti- tencia del estudio y de cuál era su objetivo. Cuando se
mar el tanto por ciento esperado de sujetos expuestos comparó en cada grupo el número de peticiones al ini-
si no existiera asociación con la enfermedad. cio y al final del estudio, se obtuvieron diferencias
estadísticamente significativas en todos ellos, incluido
E FECTOS A CONTROLAR el de control, lo que sugería la existencia de un efecto
Si no se utiliza un grupo control, es difícil saber si los Hawthorne. Sin embargo, al existir más de un grupo es
resultados obtenidos son debidos al factor de estudio posible compararlos entre sí y aislar el efecto de la
o a otros efectos que no se han controlado. A conti- intervención. Cuando esta comparación se llevó a
nuación se describen los principales efectos que se cabo se observó que los dos grupos de estudio tuvieron
han de controlar cuando se diseña un estudio. un descenso significativo en el número de peticiones
en relación con el grupo control, lo que sugiere que
Efecto Hawthorne las estrategias puestas en marcha fueron efectivas.
El efecto Hawthorne es una respuesta inducida por el
conocimiento de los participantes de que están sien- Efecto placebo
do estudiados. La participación en un estudio puede El efecto placebo se puede definir como la respuesta
cambiar el comportamiento de los individuos tanto que se produce en una persona enferma como con-
del grupo de estudio como del de control. El hecho secuencia de la administración de un tratamiento,
de explicarles en qué consiste la experiencia, unido a pero que no puede considerarse como un efecto
que durante un tiempo deban visitar al médico con específico de tal tratamiento. Por esta razón, cuando
más frecuencia, puede hacer que los participantes una enfermedad no tiene un tratamiento activo co-
alteren sus hábitos y obtengan una respuesta que no nocido o ampliamente aceptado y se quiere evaluar la
puede ser atribuida al factor de estudio. eficacia de un nuevo fármaco, es importante que al
Se describió por primera vez durante la década de grupo control se le administre un tratamiento lo más
1920 cuando la Western Electric Company llevó a parecido posible al nuevo fármaco en todas las carac-
cabo una serie de experiencias en su fábrica Hawt- terísticas, excepto en la actividad farmacológica, con
horne de Chicago, con el fin de determinar el efecto el fin de controlar el efecto placebo. Al igual que
de la iluminación en la producción. Los grupos con- sucedía con el efecto Hawthorne, el hecho de tener
trol trabajaron bajo una iluminación constante, mien- un grupo control permite aislar el verdadero efecto
tras que en los grupos experimentales era variable, debido a la intervención. Sin grupo de comparación
aumentada o disminuida. El resultado fue que la pro- es imposible diferenciar qué parte se debe al efecto
ducción se incrementó no sólo en los grupos de estu- del fármaco y cuál a otros.

11
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Regresión a la media media de tensión diastólica de 122,1 mmHg. En la


Se entiende por regresión a la media la tendencia de siguiente visita, la media de tensión diastólica de estos
los individuos que tienen un valor extremo de una mismos sujetos había disminuido a 114,7 mmHg, aun-
variable a presentar valores más cercanos a la media de que la intervención aún no había empezado.
la distribución cuando esta variable se mide por segun-
da vez. Un ejemplo simple es la observación de que La regresión a la media es una fuente de muchos
una persona con una enfermedad o una molestia sin errores en la interpretación de los resultados de un
importancia tiende a mejorar, mientras que aquellos estudio. Cuando los individuos se seleccionan según
con un perfecto estado de salud tienden a empeorar. una característica que varía con el tiempo, el efecto
Los tratamientos, o intervenciones en general, se que se halle en las siguientes mediciones puede
ensayan cuando una variable que expresa una enfer- deberse a la variabilidad de la medida y no al efecto
medad o un factor de riesgo presentan valores fuera de la intervención. Cuando se dispone de un gru-
de lo común, por lo que es posible que en subsecuen- po de comparación, este fenómeno no desaparece,
tes mediciones los valores sean menos extremos, pero se controla, ya que es de suponer que sucederá
incluso en ausencia de una intervención eficaz. Cuan- en ambos grupos por igual.
do existe una gran variabilidad diaria, como en el caso
de la presión arterial o el colesterol, es posible que un Evolución natural
sujeto hipertenso catalogado de moderado un día Cuando el curso habitual de una enfermedad tiende
pueda ser clasificado de leve al cabo de unas semanas, hacia su resolución, los esfuerzos terapéuticos pue-
y que este cambio sea atribuido erróneamente a un den coincidir con la recuperación observada, pero
efecto del tratamiento, cuando en realidad es inde- no ser su causa. De ahí la importancia de comparar
pendiente. siempre los resultados obtenidos en un estudio con
los del grupo control.
Ejemplo 2.10. En la primera visita del Hypertension La figura 2.1 resume la función del grupo control
Detection and Follow-up Program (1979) para deter- en distintas situaciones. La figura 2.1A corresponde a
minar si los posibles candidatos cumplían los criterios la situación ideal en la que el grupo control recibe un
de selección, un grupo de participantes tenía una placebo, por lo que es posible aislar perfectamente el

A B C D
Efecto debido a la intervención Efecto
o a la exposición placebo
Efecto Evolución natural
Hawthorne de la enfermedad

A. Grupo control al que se administra un placebo.


B. Control sin intervención placebo.
C. Estudio observacional que controla el efecto Hawthorne y la evolución
natural de la enfermedad.
D. Si el grupo control no sabe que está siendo estudiado, sólo se controla
la evolución natural de la enfermedad. Figura 2.1. Función
del grupo control.

12
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

efecto de la intervención. La figura 2.1B represen- El fenómeno de confusión aparece cuando la aso-
taría la situación en la que, por las propias caracterís- ciación observada entre un factor de estudio y la
ticas de la intervención (p. ej., la educación sanita- variable de respuesta puede ser total o parcialmente
ria), es imposible obtener un grupo control con explicada por una tercera variable (factor de confu-
placebo. Los integrantes del grupo control saben que sión), o por el contrario, cuando una asociación real
están participando en un estudio y son seguidos con queda enmascarada por este factor. Para que una
la misma pauta de visitas y exploraciones, pero no se variable se considere de confusión debe ser un factor
les administra la intervención. La figura 2.1C sería el pronóstico de la respuesta y estar asociada a la varia-
ejemplo de un estudio observacional analítico ble de estudio. Además, no debe ser un paso inter-
donde, al no existir el efecto placebo, la preocupa- medio en la asociación entre el factor de estudio y la
ción principal es controlar el resto de efectos. Por respuesta.
último, la figura 2.1D ilustra la situación de un estu-
dio en el que el grupo control no sabe que está sien- Ejemplo 2.11. Supongamos un estudio hipotético de
do estudiado y, por tanto, sólo se controla la evolu- la asociación entre el consumo de café y el cáncer
ción natural de la enfermedad. de laringe (tabla 2.2). A partir de los datos totales se
estima que el porcentaje de expuestos entre los enfer-
FACTORES DE CONFUSIÓN mos es del 58%, superior al 42% observado entre los
controles, lo que sugiere una asociación entre el con-
Los estudios analíticos implican una comparación sumo de café y el cáncer de laringe. Sin embargo, al
entre grupos. La primera regla para que esta compa- analizar los datos en subgrupos o estratos en función
ración sea válida es que los grupos sean similares en de si los sujetos eran fumadores o no, se observa que
relación con las características que influyen sobre los el tanto por ciento de sujetos expuestos al consumo
resultados. A menudo, estas variables se distribuyen de café es el mismo en los casos y en los controles,
de modo desigual y es necesario corregir estas dife- y desaparece la asociación. En este ejemplo, la varia-
rencias. Tomemos un ejemplo sencillo: los resultados ble fumador cumple los criterios para ser un factor de
de una investigación muestran que la incidencia de la confusión. Es conocido que el tabaco es un factor
limitación crónica al flujo aéreo (LCFA) es mucho de riesgo del cáncer de laringe. Además, está relacio-
mayor en hombres que en mujeres: ¿significa esta nado con la variable en estudio (consumo de café), ya
diferencia que el sexo es un factor de riesgo, o bien, que la proporción de controles fumadores que toman
se puede explicar por el diferente hábito tabáquico café habitualmente (75/100) es mucho mayor que la
entre hombres y mujeres? El tabaco puede ser un fac- proporción de los no fumadores (50/200).
tor de confusión de la relación entre el sexo y la inci-
dencia de la LCFA, por lo que debe tenerse en cuen- Un factor de confusión puede sobrestimar o infra-
ta en el diseño del estudio o en la fase de análisis. estimar un efecto.

Tabla 2.2. Control de un factor de confusión. Estudio hipotético de la asociación


entre consumo de café y cáncer de laringe (ejemplo 2.11)

Café (+) Café (–) Total

Datos globales
Enfermos con cáncer de laringe 175 (58%) 125 (42%) 300 (100%)
Controles 125 (42%) 175 (58%) 300 (100%)
Fumadores
Enfermos con cáncer de laringe 150 (75%) 50 (25%) 200 (100%)
Controles 75 (75%) 25 (25%) 100 (100%)
No fumadores
Enfermos con cáncer de laringe 25 (25%) 75 (75%) 100 (100%)
Controles 50 (25%) 150 (75%) 200 (100%)

13
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Ejemplo 2.12. Consideremos un estudio en el que se vez mezclados, sólo el 40% (12 de 30) de los sombre-
evalúa la asociación entre el ejercicio físico y el infar- ros negros le va bien, mientras que, de los grises, le va
to agudo de miocardio (IAM), partiendo de la hipó- bien el 60% (18 de 30)». Aunque este curioso cambio
tesis de que a más ejercicio físico, menor es el riesgo es conocido como la paradoja de Simpson, no es real-
de sufrir un IAM. Una variable que podría ejercer mente ninguna paradoja. Este fenómeno es análogo al
como factor de confusión sería la edad. Por un lado, de confusión, que puede distorsionar una asociación,
es más probable que los más jóvenes sean los que rea- incluso hasta el punto de cambiar su dirección.
licen más ejercicio (relación entre el potencial factor
de confusión y la variable de estudio) y, por otro, que CARACTERÍSTICAS DEL FENÓMENO
los más jóvenes tengan además un riesgo menor de DE CONFUSIÓN
desarrollar un IAM (relación entre el potencial factor Debe estar asociado al factor de estudio
de confusión y la enfermedad). Si se cumplen estas y a la variable de respuesta
condiciones, la edad sería un factor de confusión que Si no existe dicha asociación, no se producirá un
tendería a sobrestimar el efecto inverso (protector) fenómeno de confusión. Retomando el ejemplo 2.12
del ejercicio físico sobre el IAM. sobre la relación entre el ejercicio físico y el IAM, los
sujetos que realizan ejercicio y los que no quizá dife-
Ejemplo 2.13. Siguiendo con el ejemplo anterior, la rirán en el consumo de agua, pero hasta el momento
diferencia entre la proporción de hombres y mujeres no se ha demostrado que la ingestión de agua esté
también podría ser un factor de confusión, ya que los relacionada con el riesgo de padecer un IAM. Así
hombres suelen realizar más ejercicio físico que las pues, el consumo de agua no puede considerarse un
mujeres y, además, presentan un riesgo mayor de factor de confusión de la asociación entre el ejercicio
padecer un IAM. Así pues, la asociación protectora físico y la enfermedad.
del ejercicio físico sobre el IAM quedaría infraesti-
mada si no se tuviera en cuenta la diferencia en la La relación con la variable de respuesta
proporción de hombres y mujeres que pudiera haber no es necesario que sea causal
en la muestra. Un factor de confusión debe ser predictivo de la res-
puesta (es decir, estar asociado con ella), pero esta
En la situación más extrema, un factor de confu- asociación no tiene que ser necesariamente causal.
sión puede invertir la dirección de una asociación: es De hecho, la mayoría de factores de confusión no son
la llamada paradoja de Simpson. causa de la respuesta, sino simplemente marcadores
que están correlacionados con el verdadero agente
Ejemplo 2.14. Rothman (1986) presenta el siguien- causal. En el ejemplo 2.13 sobre el riesgo de IAM en
te ejemplo: «supongamos que un hombre entra en función del sexo, éste no es la verdadera causa, sino
una tienda para comprarse un sombrero y encuentra que simplemente expresa diferencias biológicas que
una estantería con 30, 10 de ellos negros y 20 grises. podrían ser la causa de la enfermedad. La edad y el
Descubre que 9 de los 10 sombreros negros le van sexo son ejemplos claros de variables que están aso-
bien, pero que de los 20 grises sólo le van bien 17. Por ciadas con multitud de enfermedades, pero que no
tanto, toma nota de que la proporción de sombreros son su causa directa y, a su vez, están relacionadas con
negros que le van bien es del 90%, mientras que la de muchos factores.
los grises es sólo del 85%. En otra estantería de la
misma tienda encuentra otros 30 sombreros, 20 ne- Debe ser un factor predictivo
gros y 10 grises. En ella, 3 (15%) de los sombreros de la respuesta, independientemente
negros le van bien y de los grises sólo 1 (10%) le va del factor de estudio
bien. Antes de que escoja un sombrero, la tienda cierra Debe existir una asociación entre el factor de confu-
y él decide volver al día siguiente. Durante la noche, sión y la respuesta también en los sujetos no expues-
un empleado ha puesto todos los sombreros en una tos al factor de estudio. En el ejemplo 2.12, si el ejer-
única estantería: ahora hay en ella 60 sombreros, 30 de cicio físico está inversamente relacionado con la
cada color. El cliente recuerda que el día anterior la probabilidad de desarrollar un IAM, el consumo de
proporción de sombreros negros que le iba bien era agua también lo estará, ya que los que realizan más
superior en ambas estanterías. Hoy se da cuenta de ejercicio beben más agua. Sin embargo, como ya se
que, aunque tiene delante los mismos sombreros, una ha comentado, el consumo de agua no se ha asociado

14
BASES METODOLÓGICAS DE LA INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

con la enfermedad en los sujetos que no realizan ejer- plausibilidad biológica que traten de explicar el meca-
cicio físico (no expuestos) y, por tanto, no puede con- nismo por el que se produce un efecto determinado.
fundir la asociación entre el ejercicio físico y la enfer- Así pues, la generalización depende de la consistencia
medad. Esta situación es muy distinta a la de la edad, de resultados entre diferentes estudios y de mecanis-
el sexo o el consumo de tabaco, que siguen siendo un mos plausibles que expliquen de forma razonable un
factor de riesgo independiente entre los sujetos que efecto, lo que a menudo implica la emisión de juicios
no realizan ejercicio físico. de valor por parte de los propios investigadores.

No debe ser un paso intermedio B IBLIOGRAFÍA DE LOS EJEMPLOS


en la cadena causal Cobb LA, Thomas GT, Dillard DH et al. An evaluation of
El factor de confusión no puede ser un mero paso internal mammary artery ligation by a double blind tech-
intermedio en la cadena causal. Esta distinción no es nique. N Engl J Med 1959; 260: 1115-1118.
siempre clara y requiere conocimientos sobre los Hypertension Detection and Follow-up Program Cooperative
Group. The Hypertension Detection and Follow-up Pro-
mecanismos causales de la respuesta.
gram: a progress report. Cir Res 1979; 40 (Supl. 1): 106-109.
De las consideraciones precedentes se desprende Martin AR, Wolf MA, Thibodeau LA, Dzau V, Braunwald E.
que la identificación de las variables que pueden ser A trial of two strategies to modify the test ordering behav-
potenciales factores de confusión es, a menudo, difí- ior of medical residents. N Engl J Med 1980; 303: 1330.
cil. El conocimiento teórico sobre los mecanismos Rothman KJ. Modern epidemiology. Boston: Little, Brown
causales de la respuesta y la revisión de estudios que and Company, 1986.
hayan abordado un objetivo similar serán de gran
ayuda para conocer qué variables pueden ser poten- B IBLIOGRAFÍA
ciales factores de confusión. Esta identificación es Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
importante, ya que permitirá controlar el efecto de medicamentos: fundamentos básicos, metodología y
confusión en la fase de análisis. En el ejemplo 2.11, la práctica. Barcelona: Doyma, 1994; 23-36.
determinación del consumo de tabaco (potencial fac- García Alonso F, Guallar E, Bakke OM, Carné X. El placebo
en ensayos clínicos con medicamentos. Med Clin (Barc)
tor de confusión) permitió realizar un análisis en
1997; 109: 797-801.
estratos (fumadores y no fumadores), de tal forma Greenland S, Morgenstern H. Confounding in health
que se controlaba su efecto. Ésta es una diferencia research. Annu Rev Public Health 2001; 22: 189-212.
con los sesgos, que, una vez introducidos, no pueden Grimes DA, Schulz KF. An overview of clinical research: the
controlarse en el análisis. lay of the land. Lancet 2002; 359: 57-61.
Grimes DA, Schulz KF. Bias and causal associations in obser-
vational research. Lancet 2002 19; 359: 248-52.
VALIDEZ INTERNA Y VALIDEZ EXTERNA Guallar E, Jiménez FJ, García Alonso F, Bakke OM. La regre-
La validez interna se refiere al grado en que los resul- sión a la media en la investigación y práctica clínica. Med
tados de un estudio son válidos (libres de error) para Clin (Barc) 1997; 109: 23-26.
Hennekens CK, Buring JE. Epidemiology in medicine.
la población que ha sido estudiada. Los errores sis-
Boston: Little, Brown and Company, 1987.
temáticos y los factores de confusión afectan a la vali- Hrobjartsson A, Gotzsche PC. Is the placebo powerless? An
dez interna de un estudio. analysis of clinical trials comparing placebo with no treat-
Por el contrario, la validez externa se refiere al grado ment. N Engl J Med 2001; 344: 1594-602.
en que los resultados de un estudio pueden ser gene- Hrobjartsson A. What are the main methodological prob-
ralizados a otras poblaciones distintas a la estudiada. lems in the estimation of placebo effects? J Clin Epi-
La primera condición para que unos resultados demiol 2002; 55: 430-435.
puedan ser generalizados es que tengan validez inter- Moerman DE, Jonas WB. Deconstructing the placebo effect
na. Los investigadores deben diseñar un estudio pen- and finding the meaning response. Ann Intern Med.
sando en conseguir la máxima validez interna y no 2002; 136: 471-476.
Morton V, Torgerson DJ. Effect of regression to the mean on
tanto buscando la máxima validez externa. La genera-
decision making in health care. BMJ 2003; 326(7398):
lización de los resultados no se hace a partir de un 1083-1084.
único estudio, sino que hay que valorar si hipótesis Rothman KJ. Modern epidemiology. Boston: Little, Brown
similares, estudiadas en poblaciones algo distintas y en and Company, 1986.
otros ámbitos y áreas geográficas, dan los mismos Yudkin PL, Stratton IM. How to deal with regression to the
resultados. Además, debe apoyarse en criterios de mean in intervention studies. Lancet 1996; 347: 241-243.

15
Capítulo 3
Ética e investigación

a investigación biomédica es necesaria para el Por otro lado, el resultado de la investigación es

L progreso de la medicina porque proporciona


las pruebas sobre las que basar la práctica clí-
nica, contribuyendo así a mejorar la calidad de la
conocimiento, el cual debe difundirse adecuada-
mente entre la comunidad científica, lo que habi-
tualmente significa su publicación en una revista
atención que se presta a los pacientes, obteniendo y su inclusión en las bases de datos bibliográficas.
información sobre la utilidad y eficacia de los pro- En todas las fases de la comunicación científica son
cedimientos diagnósticos, terapéuticos y preventi- múltiples los conflictos de intereses que pueden
vos, así como sobre la etiología, fisiopatología y fac- presentarse. Dado que la literatura científica es
tores de riesgo de las enfermedades y problemas de la principal fuente de evidencias que se utiliza en la
salud. Dados los importantes beneficios que todo toma de decisiones y en la elaboración de las guías
ello supone para la sociedad, resulta obvio que la de práctica clínica y las recomendaciones para la
investigación debe considerarse una obligación atención de los pacientes, el impacto que estos
moral de la profesión médica. Por lo tanto, aunque conflictos pueden tener sobre la práctica es muy
suelen discutirse frecuentemente los aspectos éti- importante.
cos relacionados con la realización de investigacio-
nes sanitarias, también habría que preguntarse si es
ÉTICA E INVESTIGACIÓN CLÍNICA
ético no investigar e intentar resolver las lagunas de
conocimiento, dudas e incertidumbres que se plan- La ética de la investigación tiene dos componentes
tean en el quehacer diario del profesional. esenciales: la selección y logro de fines moralmente
La investigación implica en muchos casos la par- aceptables, y la utilización de medios moralmen-
ticipación de seres humanos, con los riesgos, moles- te aceptables para alcanzar esos fines.
tias e incomodidades que suele suponer para ellos, La primera premisa a tener en cuenta es que lo
por lo que es frecuente que se planteen cuestiones que no es científicamente correcto es éticamente
éticas y legales, a veces difíciles de resolver. El cam- inaceptable. Pero el rigor científico, siendo condi-
po de la ética de la investigación está dedicado al ción necesaria, no es suficiente, ya que no todo lo
análisis sistemático de estas cuestiones para asegu- científicamente correcto es éticamente aceptable.
rar que los participantes en un estudio estén pro- La historia muestra numerosos ejemplos de estu-
tegidos y, en último término, que la investigación dios éticamente inaceptables. Aunque suelen citar-
clínica se conduce de manera que sirva a las necesi- se los experimentos realizados por médicos nazis
dades de esos participantes así como a las de la so- durante la Segunda Guerra Mundial, existen otros
ciedad en su conjunto (Weijer et al, 1997). muchos ejemplos.

16
ÉTICA E INVESTIGACIÓN

Ejemplo 3.1. El estudio de Tuskegee (EE.UU.), ini- Como respuesta a éstos y otros casos se han ela-
ciado en 1932, consistía en el seguimiento de una borado diferentes códigos éticos y normativas lega-
cohorte de más de 400 sujetos de raza negra con les para guiar la realización de investigaciones con
sífilis no tratada, comparándola con un grupo de seres humanos. Los dos pilares fundamentales son
204 sujetos sin sífilis, para estudiar la historia natu- el Código de Nuremberg, elaborado en 1947 al
ral de la enfermedad. Aunque no existía un trata- final de la Segunda Guerra Mundial (http://ohsr.
miento eficaz al inicio del estudio, el seguimiento od.nih.gov/nuremberg.php3; versión traducida
continuó sin que los pacientes recibieran trata- al castellano en http://www.ub.es/fildt/nurember.
miento incluso después de que se hubiera demos- pdf) y la Declaración de Helsinki, elaborada por la
trado la eficacia de la penicilina –hecho del que no Asociación Médica Mundial en 1964 y considerada
se informó a los participantes–, y a pesar de que los como la principal referencia mundial de investiga-
datos mostraban claramente un peor pronóstico y ción biomédica (http://www.wma.net/e/policy/
un aumento de la mortalidad entre los sujetos in- b3.htm; versión traducida al castellano en: http://
fectados. El estudio se finalizó en 1972 debido a la www.fisterra.com/material/investiga/declara-
presión social que se creó cuando el público gene- cion_helsinki.htm).
ral tuvo conocimiento del mismo. Ante las críticas La Declaración de Helsinki consta de una intro-
los investigadores argumentaron que, dado que los ducción y tres apartados: el primero sobre princi-
participantes eran afroamericanos pobres, aunque pios básicos, el segundo sobre investigación médica
no hubieran participado en el estudio tampoco ha- combinada con la atención médica, y el tercero so-
brían tenido acceso al tratamiento. bre investigación biomédica no terapéutica. Esta de-
claración se ha revisado en cinco ocasiones: Tokio
(1975), Venecia (1983), Hong Kong (1989), Somer-
Ejemplo 3.2. Willowbrook era una institución del es-
set West (1996) y Edimburgo (2000). Entre las in-
tado de Nueva York para personas con deficiencias
corporaciones más relevantes de la última revisión
mentales en la que se realizaron diferentes estudios
pueden destacarse las siguientes: 1) el aumento de
para analizar la historia natural de la hepatitis y los
las exigencias para investigaciones hechas sin con-
efectos de la gammaglobulina sobre ella. Los suje-
sentimiento informado, que deben ser la excepción;
tos de estudio eran niños a los que se infectaba deli-
2) el deber de declarar los conflictos de interés; 3) el
beradamente con el virus. Los investigadores
refuerzo del derecho de los participantes en una in-
defendían esta actuación argumentando que la vestigación a disponer del mejor tratamiento dispo-
mayoría de los niños internados en el centro acaba- nible probado, incluso si es un integrante del grupo
ban adquiriendo la infección de forma espontánea. control, de manera que el uso de placebo debe limi-
tarse a los casos en que no haya ningún tratamiento
Ejemplo 3.3. Ejemplos más recientes son los estu- disponible para la situación que se va a investigar; y
dios, publicados a finales de la década de 1990, rea- 4) el deber de publicar tanto los resultados negati-
lizados en países en vías de desarrollo sobre la pre- vos como los positivos, o de lo contrario asegurar su
vención de la transmisión vertical del virus de la disponibilidad pública, así como citar la fuente de fi-
inmunodeficiencia humana (VIH). Prácticamente nanciación, afiliaciones institucionales y cualquier
todos los estudios utilizan un grupo control place- posible conflicto de intereses.
bo, a pesar de las pruebas sobre la eficacia de deter- Dado que estos códigos eran difíciles de inter-
minados tratamientos y de la existencia de reco- pretar y aplicar en ocasiones, y se iban producien-
mendaciones sobre su uso en países occidentales do nuevos casos de investigaciones no éticas, como
(Angell, 1997; Lurie y Wolfe, 1997). De forma el de Willowbrook (ejemplo 3.2) y especialmente el
similar, en un ensayo clínico aleatorio realizado de Tuskegee (ejemplo 3.1), el congreso de EE.UU.
en Uganda sobre la profilaxis de la tuberculosis en creó en 1974 la Comisión Nacional para la Protec-
adultos VIH positivos con prueba positiva de la tu- ción de Sujetos Humanos en la Investigación Bio-
berculina (Whalen et al, 1997), el grupo control re- médica y Conductual, para que elaborara un docu-
cibió placebo a pesar de la existencia de recomen- mento que enunciara los principios éticos básicos
daciones elaboradas por los Centers for Disease para formular, criticar e interpretar reglas o normas
Control (CDC) desde 1990. específicas de aplicación práctica en la investiga-

17
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ción clínica en seres humanos. En 1978 esta comi- en una expectativa razonable de éxito, asumiendo
sión presentó el documento sobre principios éticos cierto grado de incertidumbre, el hecho de que
y pautas para la protección de sujetos humanos de esta expectativa no esté validada no implica que se
la investigación conocido como Informe Belmont trate de una investigación, ya que para ser conside-
(http://ohsr.od.nih.gov/mpa/belmont.php3; ver- rada como tal debería realizarse de acuerdo con los
sión traducida al castellano en http://www.ub.es/ estándares científicos aceptados.
fildt/archivos/belmont.pdf), origen de la moderna Existe una creciente interrelación entre la prácti-
teoría ética de la investigación clínica, en el que se ca asistencial y la investigación clínica. Los roles de
definen los tres «principios éticos básicos»: el res- un profesional como clínico y como investigador son
peto por las personas, la beneficencia y la justicia. muy diferentes: como clínico su interés primario es
Una de las principales aportaciones del Informe la salud del paciente concreto que está atendiendo,
Belmont, como comenta De Abajo (2001), fue el re- mientras que como investigador es la validez de la
conocimiento de que la investigación clínica es una investigación para proporcionar un conocimiento
actividad primariamente cognoscitiva, y no bene- generalizable. Estos intereses, que coexisten en el
ficente como la práctica clínica, y por lo tanto se re- investigador clínico, pueden entrar en conflicto en
quería una justificación diferente de la que se había determinadas ocasiones.
dado hasta ese momento. La legitimación ética y Cuando, como ocurre en la mayoría de ensayos
social de la investigación biomédica en seres huma- clínicos, la investigación tiene un potencial efecto
nos debería venir dada por el hecho de que la prác- terapéutico sobre los participantes, éstos tienden
tica clínica, para poder considerarse correcta, debe a creer que el estudio ha sido diseñado para su be-
estar basada en pruebas objetivas y no, o al menos no neficio, a pesar de que el formulario de consenti-
tanto o primariamente, en opiniones y experiencias miento informado explicite que la finalidad es el
personales. La existencia de pruebas científicas dis- interés científico. Este «equívoco» es aún mayor
tingue las prácticas validadas de las no validadas o cuando el profesional que les ofrece participar en
simplemente empíricas, y el procedimiento de vali- la investigación es el mismo que les trata habi-
dación es precisamente la investigación clínica, por tualmente y la invitación se realiza en el entorno
lo que ésta se justificaba en la medida en que era una asistencial habitual.
condición de posibilidad de una práctica clínica
correcta y, por tanto, ética. Posteriormente, la inves-
PRINCIPIOS ÉTICOS BÁSICOS
tigación debe tener su propia validación ética, cum-
pliendo con los principios y normas adecuados, pero El Informe Belmont identifica tres principios éticos
antes de la justificación clínica, debe tener lógica. básicos: respeto por las personas o autonomía, be-
neficencia y justicia. Algunos autores prefieren se-
parar el de beneficencia propiamente dicho del de
INVESTIGACIÓN Y PRÁCTICA CLÍNICA
no maleficencia, de manera que puede considerar-
Dada la especial importancia de las consideraciones se que existen dos niveles jerárquicos en estos prin-
éticas en la investigación con seres humanos, es im- cipios: en el primer nivel se encuentran los de justi-
portante definir de entrada qué es investigación y cia y no maleficencia, mientras que en el segundo
diferenciarla claramente de lo que es práctica clíni- nivel están los de beneficencia y autonomía.
ca (Levine, 1986). De hecho, podemos considerar
que cada vez que, por ejemplo, un médico adminis- J USTICIA
tra un fármaco a un paciente está, de algún modo, Este principio supone reconocer que todos los seres
realizando un experimento. Sin embargo, el térmi- humanos son iguales y deben tratarse con la misma
no investigación se utiliza para referirse al proceso consideración y respeto, sin establecer otras dife-
sistemático y objetivo que utiliza el método científi- rencias entre ellos que las que redunden en benefi-
co para desarrollar o contribuir al conocimiento ge- cio de todos, y en especial de los menos favorecidos.
neralizable, mientras que el de práctica clínica se Para ello es necesario distribuir los beneficios y las
reserva para las actividades dirigidas exclusivamen- cargas de la investigación de forma equitativa.
te a mejorar el estado de salud de un paciente o su- Para cumplir este principio, la selección y el re-
jeto. Si bien es cierto que la práctica clínica se basa clutamiento de los participantes deben realizarse

18
ÉTICA E INVESTIGACIÓN

de forma no discriminativa, asegurando que los su- tanto que existe una justificación adecuada para rea-
jetos no son seleccionados simplemente por su fácil lizar el estudio, que el diseño es metodológicamen-
disponibilidad, manipulabilidad o situación de de- te correcto, ya que si no lo es cualquier riesgo para
pendencia que pueda hacer que se sientan obliga- los sujetos es innecesario, y que el número de suje-
dos a participar, sino que lo son por razones direc- tos es el adecuado, sin ser ni excesivo ni insuficiente.
tamente relacionadas con el problema de estudio.
Se trata de evitar poner en situación de riesgo a de- AUTONOMÍA
terminados grupos de personas, como niños, po- El principio de respeto por las personas o de auto-
bres o sujetos recluidos en prisiones o instituciones nomía se relaciona con la capacidad de una persona
cerradas, para el beneficio exclusivo de grupos más para decidir por ella misma. Dado que esta capaci-
privilegiados. La población incluida debe formar dad puede estar disminuida por diferentes motivos,
parte de aquella que resulte beneficiada por la apli- como en los casos de ignorancia, inmadurez o inca-
cación de los resultados de la investigación. pacidad psíquica, cualquiera que sea su causa, o por
Además, deben contemplarse las medidas dirigi- restricciones a la libertad (como el caso de las pri-
das a indemnizar a los sujetos de los posibles riesgos siones), estos grupos vulnerables deben ser especial-
y perjuicios. De hecho, la normativa vigente obliga a mente protegidos.
concertar un seguro que cubra los daños y perjui- Este principio también implica garantizar la
cios que pudieran resultar para los sujetos como confidencialidad de la información que se recoge,
consecuencia de su participación en un ensayo clí- asegurando la protección de los datos.
nico con un producto en fase de investigación clíni- El procedimiento formal para aplicar este princi-
ca, para una nueva indicación de un medicamento pio es el consentimiento informado, que es el otorgado
ya autorizado o cuando no exista interés terapéutico por una persona que reúne los siguientes requisitos:
para el individuo.
– Es competente o capaz legalmente para otorgar el
N O MALEFICENCIA consentimiento (la competencia legal plantea la
El principio de no maleficencia obliga a no infligir da- necesidad de obtener el consentimiento a través
ño a los participantes en el estudio, ya que su pro- de un representante legal en los casos de sujetos
tección es más importante que la búsqueda de nue- menores de edad e incapaces).
vo conocimiento o el interés personal o profesional – Ha recibido la información necesaria.
en el estudio. Por lo tanto, deben asegurarse la pro- – Ha comprendido adecuadamente dicha informa-
tección, seguridad y bienestar de los participantes, ción.
lo que implica, entre otras cosas, que los investiga- – Y, después de considerar la información, ha toma-
dores deben tener la calidad y experiencia suficien- do voluntariamente una decisión, libre de coac-
tes y que los centros donde se realiza el estudio ción, intimidación, persuasión, manipulación, in-
deben ser adecuados. fluencia o incentivo excesivo.
Significa también que los riesgos para los parti-
cipantes deben ser aceptables y que, si no lo son, no Así pues, el consentimiento informado es el pro-
deben incluirse aunque los sujetos estén de acuer- cedimiento que garantiza que el sujeto ha expre-
do en participar. sado voluntariamente su intención de participar en
el estudio, después de haber comprendido la infor-
B ENEFICENCIA mación que se le ha dado sobre el mismo. Por lo
Este principio supone procurar favorecer a los suje- tanto, desde el punto de vista ético, lo más impor-
tos de la investigación, no exponiéndolos a daños y tante no es la obtención del consentimiento sino el
asegurando su bienestar. Los riesgos e incomodida- proceso por el que se obtiene. Debe quedar claro
des para las personas participantes deben compa- que no se le pide que participe, sino que se le invita
rarse con los posibles beneficios y la importancia a hacerlo, y se le debe permitir reflexionar, respon-
del conocimiento que se espera obtener, de mane- der a sus dudas y preguntas, y ofrecer la posibilidad
ra que la relación sea favorable. de consultar con otros profesionales. Dado que la
Implica también que la pregunta que se desea voluntariedad puede verse afectada fácilmente por
responder debe ser científicamente válida, y por lo la posición de autoridad e influencia del profesio-

19
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

nal y que puede existir cierta persuasión difícil de Tabla 3.1. Elementos de información que
evitar en la relación médico-paciente, algunos auto- deberían comunicarse al potencial
res sugieren que sería preferible que el consenti- candidato para participar en
miento lo obtuviera una persona diferente al médi- un estudio
co que atiende habitualmente al sujeto, para evitar
el conflicto de roles entre clínico e investigador 1. Invitación a participar en el estudio
(Morin et al, 2002). 2. Objetivos del estudio
En los ensayos clínicos, la hoja de información 3. Fundamentos de la selección: por qué son
para solicitar el consentimiento de un posible par- considerados candidatos para el estudio.
ticipante debe contener información sobre el obje- Cuidado especial con la realización de pruebas
tivo del estudio, su metodología, los tratamientos destinadas exclusivamente a determinar su
que pueden serle administrados (incluyendo place- elegibilidad
bo si procede), los beneficios esperados para él o la 4. Explicación de los procedimientos del estudio:
sociedad, las molestias, incomodidades y riesgos de- duración de la participación, procedimientos
rivados del estudio (visitas, pruebas, etc.), los posi- que se seguirán, lugar y duración de los
bles acontecimientos adversos, otras alternativas mismos, etc. Cuidado especial en identificar
terapéuticas disponibes, el carácter voluntario de su los que se derivarían exclusivamente
de su participación en el estudio
participación, la garantía de que puede retirarse en
5. Descripción de las incomodidades y riesgos
cualquier momento sin perjuicios ni alteraciones
razonablemente esperables
de la relación médico-enfermo, los aspectos relacio-
6. Medicación de rescate y compensaciones
nados con la confidencialidad de los datos, las com- previstas en caso de lesión
pensaciones económicas y tratamientos en caso de 7. Descripción de los beneficios para los sujetos y
daño o lesión, y el nombre del investigador respon- para otros que pueden esperarse razonablemente
sable del ensayo y de resolver sus dudas, y cómo 8. Discusión de otras alternativas terapéuticas
contactar con él en caso de urgencia (tabla 3.1). disponibles que podrían ser beneficiosas
para el sujeto
Ejemplo 3.4. En un análisis de 101 protocolos de en- 9. Garantía de confidencialidad de la información
sayos clínicos aprobados en dos hospitales generales 10. Consideraciones económicas: compensaciones
universitarios españoles, Ordovás et al (1999) eva- económicas para los voluntarios sanos, costes
luaron la información aportada en las hojas de in- adicionales para el sujeto, ventajas de su
formación al paciente, la legibilidad formal de di- participación, etc.
chas hojas y el nivel de complejidad del vocabulario. 11. Contacto para responder preguntas y resolver
Los apartados con mayor incumplimiento (> 30% de dudas que puedan aparecer relacionadas con
casos) fueron el balance de beneficios y riesgos, la la investigación
identificación y el modo de contacto con el investi- 12. Posibilidad de consultar con otros profesionales
gador principal, la descripción de los tratamientos 13. La renuncia a participar o continuar en el
alternativos, y la especificación de las compensacio- estudio no comporta castigos ni pérdidas
nes en caso de lesiones. Además, comprobaron que de beneficios
14. Otros elementos, como la información a los
la complejidad del texto era elevada y su legibilidad
participantes de nuevos hallazgos que puedan
deficiente, siendo necesario para su comprensión un
afectar a su participación
nivel de estudios medios-superiores o superiores en
más del 90% de los casos.

derivados de los principios éticos fundamentales


REQUISITOS ÉTICOS
(tabla 3.2).
EN INVESTIGACIÓN
La declaración de las normas éticas en los códi-
Las normas éticas son declaraciones sobre la forma gos y regulaciones tiende a ser más o menos vaga,
en que determinadas acciones deberían (o no) rea- por lo que a veces pueden interpretarse de formas
lizarse en el marco de la investigación, y su finali- diferentes y puede resultar difícil saber cómo apli-
dad es indicar cómo deben cumplirse los requisitos carlas en situaciones concretas. En estos casos pue-

20
ÉTICA E INVESTIGACIÓN

Tabla 3.2. Requisitos éticos de una investigación valor de su colaboración, por lo que el diseño defi-
(elaborados a partir de Levine [1986] ciente de un estudio incumple también este com-
y Emanuel et al [2000]) promiso ético implícito.
Un aspecto que provoca controversia en la co-
1. Valor de la pregunta de investigación munidad científica es el uso de placebo en los ensa-
2. Validez científica (buen diseño de yos clínicos cuando existen alternativas terapéuticas
la investigación) efectivas disponibles. Mientras que para muchos
3. Competencia de los investigadores autores no es ético utilizar un grupo que recibe pla-
4. Selección de los sujetos con justicia cebo en estas situaciones, tal como se recoge en la
5. Balance favorable entre beneficios y riesgos última revisión de la Declaración de Helsinki, para
6. Evaluación independiente del protocolo otros podría ser aceptable siempre que no se perju-
7. Consentimiento informado dicara al paciente por el hecho de diferir el inicio de
8. Respeto por los sujetos incluidos un tratamiento efectivo (Temple y Ellenberg, 2000).
9. Compensación por las lesiones relacionadas El estudio debe ser llevado a cabo por investiga-
con la investigación dores competentes, científicamente cualificados, es
10. Ejecución honesta del estudio
decir, con la suficiente formación en metodología
11. Comunicación puntual y precisa
científica y capacidad para alcanzar los objetivos de
de los resultados
la investigación. También deben ser clínicamente
competentes, es decir, capaces de proporcionar la
atención adecuada a los sujetos, por ejemplo detec-
de ser útil identificar el o los principios que hay de- tando precozmente los efectos adversos que pue-
trás de la norma. dan aparecer o comprobando la ausencia de moti-
El primer requisito importante es el valor de la vos de exclusión.
pregunta de investigación, es decir, que el conoci- La selección justa de los sujetos afecta tanto a la defi-
miento que se deriva del estudio debe tener el valor nición de los criterios de selección como a la estrate-
suficiente para justificar el riesgo a que se expone a gia de reclutamiento de los participantes, de forma
los participantes. Implica que el estudio evalúa una que solamente los objetivos científicos del estudio, y
intervención terapéutica o diagnóstica que podría no otras consideraciones como la vulnerabilidad,
conducir a mejoras en el estado de salud o bienes- el privilegio u otros factores no relacionados con el
tar, es un estudio etiológico, fisiopatológico o epi- propósito de la investigación, deben guiar la deter-
demiológico que ayudará a desarrollar dicha in- minación de los sujetos o grupos que van a ser selec-
tervención, o contrasta una hipótesis que podría cionados.
generar conocimiento relevante, aunque no tuvie- Una investigación implica fármacos, intervencio-
ra una aplicación práctica inmediata. Implica tam- nes o procedimientos sobre los que existe incerti-
bién que el estudio debe estar basado en suficientes dumbre acerca de sus riesgos y beneficios. Un estudio
investigaciones previas de calidad, incluyendo las solamente está justificado cuando se han minimiza-
realizadas en laboratorios y sobre animales, y en un do los riesgos potenciales para los sujetos y se han fa-
adecuado conocimiento de la literatura científica vorecido sus potenciales beneficios, y cuando la rela-
sobre la enfermedad o problema de salud, de for- ción entre los beneficios para los sujetos y la sociedad
ma que los resultados esperables justifiquen la rea- y los riesgos es equilibrada o favorable a los primeros.
lización del estudio. Es importante la evaluación independiente del pro-
El estudio debe tener la suficiente validez científi- tocolo del estudio por personas ajenas a la investi-
ca o rigor metodológico, de forma que pueda ga- gación que minimicen el posible impacto de los po-
rantizarse razonablemente que conducirá a la res- tenciales conflictos de intereses. Aunque hoy día la
puesta correcta a la pregunta de investigación. Sin revisión y aprobación de un protocolo por los Co-
validez metodológica la investigación no puede ge- mités Éticos de Investigación Clínica (CEIC) es un
nerar el conocimiento deseado, ni producir benefi- requisito legal únicamente en algunos estudios con
cio alguno ni justificar la exposición de sujetos a medicamentos, cada vez hay una mayor tendencia a
riesgos o molestias. Además, los participantes en un que estos comités evalúen cualquier tipo de investi-
estudio asumen que se derivará alguna cosa de gación realizada en seres humanos.

21
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

El consentimiento informado es el requisito que ha tamiento que se ofrecerá a los sujetos en caso de le-
recibido mayor atención. Su finalidad es asegurar sión o muerte, y el seguro o indemnización para
que los sujetos deciden voluntariamente participar cubrir las responsabilidades, el alcance de las com-
o no en un estudio, y que aceptan solamente cuan- pensaciones que se ofrecerán a los investigadores y
do la investigación es consistente con sus valores, a los sujetos de investigación, y realizar el segui-
intereses y preferencias. miento del ensayo clínico.
El respeto por los sujetos no finaliza con la firma del El interés por los estudios epidemiológicos es
consentimiento, sino que debe mantenerse a lo lar- cada vez mayor. Estos estudios también pueden
go de todo el estudio e incluso después, tanto si han plantear conflictos éticos, pero no existe una regu-
aceptado como rechazado participar en el mismo. lación sobre los mismos. El artículo de Dal-Ré et al
Implica, por ejemplo, mantener la confidencialidad (1998) presenta una reflexión y una propuesta so-
de los datos recogidos sobre los sujetos candidatos, bre este tema.
permitir que abandonen el estudio sin penalización,
informar a los participantes si aparece nueva infor-
CONFLICTOS DE INTERESES
mación sobre la intervención o su problema de salud
EN INVESTIGACIÓN CLÍNICA
que pueda ser relevante, o monitorizar cuidadosa-
mente su estado de salud durante el seguimiento. El conflicto de interés se origina cuando el juicio del
La obligatoriedad de compensar a los sujetos por profesional en relación con su interés primario (la
cualquier lesión que pueda producirse relacionada validez del estudio en el caso del investigador) se ve
con su participación en el estudio es un requisito influido indebidamente por un interés secundario,
que cada vez se considera más importante. como el provecho económico o el afán de notorie-
El estudio debe realizarse con honestidad, de dad (Thompson, 1993). La presencia de un poten-
acuerdo con el protocolo y los mecanismos de mo- cial conflicto de interés no supone por sí misma que
nitorización y control de calidad suficientes para se producirá un desenlace éticamente incorrecto,
garantizar la calidad de los datos recogidos y el pero es evidente que incrementa su posibilidad.
cumplimiento de los principios éticos. Además, la constatación de su existencia puede
El último requisito es la comunicación puntual y minar la confianza de las personas y la sociedad tan-
precisa de los resultados. to en la asistencia como en la investigación.
La investigación actual se desarrolla en un am-
biente de grandes expectativas y presiones, tanto por
LOS COMITÉS ÉTICOS
parte de las instituciones (necesidad de producción
DE INVESTIGACIÓN CLÍNICA
científica para el prestigio y la obtención de fondos
Uno de los componentes esenciales de la realiza- económicos), los promotores o patrocinadores de la
ción responsable de la investigación es su supervi- investigación (presión para la obtención de resulta-
sión. La mayoría de los reglamentos actuales re- dos favorables a sus intereses) como por los propios
quieren la revisión y aprobación por parte de investigadores (prestigio, respeto de los colegas o
comités de ética independientes para garantizar la beneficios económicos). El hecho de que en nuestro
protección de los seres humanos. país la mayoría de la financiación de la investigación
En España, la normativa sobre la realización de médica corra a cargo de la industria farmacéutica,
ensayos clínicos con medicamentos establece que cuyo interés primario es la obtención de beneficios,
estos estudios, antes de poder realizarse, deben propicia la aparición de múltiples conflictos de inte-
contar con el informe previo del CEIC correspon- reses (Ara, 2002):
diente. Su función principal es la de ponderar los
aspectos metodológicos, éticos y legales del proto- – En el valor de la investigación, ya que se centran
colo propuesto, así como el balance de riesgos y be- en estudios que pueden reportar beneficios, com-
neficios. Para ello debe evaluar la idoneidad del parando fármacos similares y caros, buscando su
protocolo y del equipo investigador, la información aprobación y posicionamiento en el mercado.
escrita que se proporcionará a los posibles sujetos – En el diseño de los estudios, pensado para aumen-
de investigación y el tipo de consentimiento que va tar la probabilidad de obtener resultados favora-
a obtenerse, la previsión de la compensación y tra- bles al nuevo fármaco.

22
ÉTICA E INVESTIGACIÓN

– En la inclusión de pacientes, ya que el pago de participar solamente en estudios relacionados con


cantidades elevadas a los investigadores puede su área de experiencia y que hayan sido aprobados
facilitar el reclutamiento indebido. por un CEIC, asegurándose de que la presentación
– En el análisis de los datos, a menudo inaccesibles y publicación de los resultados no se retrasará u
para los investigadores, incluso con la difusión obstaculizará de forma injustificada. Además, la
selectiva de los resultados más favorables. compensación económica que recibe debe estar en
– En la publicación de los resultados. consonancia con el esfuerzo que se le solicita. Lo
– En otras actividades relacionadas con la investiga- que es éticamente cuestionable es no declarar o no
ción, como los convenios económicos para actuar hacer explícitos los potenciales conflictos de inte-
como conferenciantes o promotores de la utiliza- reses relacionados con la investigación.
ción de fármacos.
ÉTICA Y PUBLICACIÓN CIENTÍFICA
Ejemplo 3.5. Kjaergard y Als-Nielsen (2002) estu-
diaron 159 ensayos clínicos publicados en la revista El resultado de la investigación es conocimiento,
British Medical Journal entre enero de 1997 y junio pero para que pase a formar parte de la ciencia este
de 2001, y observaron que las conclusiones de los conocimiento individual debe presentarse de for-
autores de dichos ensayos eran más favorables a las ma que su validez pueda juzgarse de forma inde-
intervenciones experimentales en los casos en que pendiente. No puede considerarse que una investi-
se había declarado financiación del estudio por una gación ha finalizado hasta que no se ha difundido a
organización con ánimo de lucro (compañías que la comunidad científica, lo que habitualmente sig-
podían tener ganancias o pérdidas financieras en nifica su publicación en una revista y su inclusión
función del resultado), mientras que otros tipos de en las bases de datos bibliográficas.
conflicto de intereses (personales, académicos, Así pues, los aspectos éticos de la investigación
políticos, etc.) no estaban asociados con las conclu- no se limitan a los relacionados con el diseño, eje-
siones de los autores. Además, esta asociación no cución, análisis e interpretación de los resultados,
podía explicarse por la calidad metodológica, po- sino que también incluyen la comunicación que se
tencia estadística, especialidad médica ni otras hace de los mismos y la forma en que se difunden a
variables analizadas. los profesionales que deben aplicarlos. Por lo tanto,
la publicación científica, la realización de revisiones
Ejemplo 3.6. En un estudio similar, Clifford et al sistemáticas y la elaboración de guías de práctica clí-
(2002) evaluaron 100 ensayos clínicos publicados nica, y la influencia que pueden tener sobre la prác-
en 1999 y 2000 en cinco revistas de medicina inter- tica clínica, también son aspectos importantes a te-
na con un elevado factor de impacto, 66 de los cua- ner en cuenta.
les habían sido financiados total o parcialmente por En el proceso de comunicación científica son
la industria farmacéutica. Aunque el porcentaje de cuatro los principales factores implicados:
estudios con conclusiones favorables al nuevo trata-
miento evaluado era claramente superior al de 1. Los investigadores o autores de los manuscritos, que
estudios que favorecían al tratamiento conven- no solamente deben haber llevado a cabo el estu-
cional de referencia (67 frente al 6%), no observa- dio con el rigor adecuado y respetando los prin-
ron una asociación estadísticamente significativa cipios éticos, sino también haber redactado el
entre la dirección de las conclusiones y la fuente de manuscrito con claridad y honestidad. Dada la
financiación de los estudios. presión que existe para publicar, por motivos
académicos, profesionales o económicos, pueden
Por lo tanto, el hecho de que una investigación existir conflictos y conductas inapropiadas relacio-
clínica se realice en colaboración con la industria nados con aspectos como el concepto de autoría,
farmacéutica no es por sí mismo éticamente cues- la decisión de publicar o no un estudio, la publi-
tionable, sino que el profesional debe ser capaz de cación múltiple o fragmentada, la fabricación o
conjugar sus obligaciones como médico y como in- falsificación de datos o el plagio, por ejemplo.
vestigador. Para ello debe tener formación específi- 2. Los editores de las revistas, que deben establecer
ca en los aspectos éticos de la clínica y la investiga- los mecanismos que garanticen la calidad de las
ción, así como en metodología científica, y aceptar publicaciones, y dado que son los responsables

23
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

de tomar la decisión de publicar o no un traba- tes implicados. Sin embargo, aun siendo reconoci-
jo, deben evitar cometer abusos desde su posi- do como el mejor sistema disponible, es claramen-
ción de privilegio. te insuficiente. Entre sus críticas destacan que se
3. Los asesores externos (consultores o revisores), que trata de un proceso costoso, insuficientemente con-
participan en el proceso de revisión de los manus- trastado, en general poco fiable (escasa concordan-
critos (peer-review) y aconsejan al comité editorial cia entre asesores), incapaz de reconocer la investi-
sobre la pertinencia de la publicación de los traba- gación no original, la falsificación y fabricación de
jos y redactan unos comentarios para los autores datos, el plagio, etc., poco estandarizado, abierto a
con la finalidad de mejorar la calidad y la presen- todo tipo de sesgos y que produce un retraso en la
tación de los artículos. Su función es evaluar los publicación que para muchos es innecesario. Ade-
manuscritos escrupulosamente y con imparciali- más, tiende a perpetuar el statu quo y es resistente a
dad, respetando la confidencialidad y mantenien- la innovación.
do en todo momento el «juego limpio». Si bien se ha demostrado que este sistema mejo-
4. Los lectores, que deben ser capaces de leer crítica- ra la legibilidad de los artículos, aunque continúa
mente los artículos que se publican, interpretar- siendo deficiente, su calidad en cuanto a la infor-
los correctamente y valorar la aplicabilidad de los mación que contienen no afecta a su relevancia.
resultados a su propia práctica. Por otro lado, existe una mayor probabilidad de
aceptación de los estudios con resultados estadística-
En todas las fases de la comunicación científica mente significativos, con fuentes de financiación ex-
son múltiples los conflictos de intereses que pue- ternas y multicéntricos, mientras que la probabilidad
den presentarse. Dado que la literatura científica de rechazo es mayor en los que obtienen conclusio-
es la principal fuente de evidencias que se utiliza nes no acordes con la opinión de los consultores,
en la toma de decisiones y en la elaboración de las con resultados estadísticamente no significativos y
guías de práctica clínica y las recomendaciones los estudios sobre intervenciones no convencionales.
para la atención de los pacientes, el impacto que Como consecuencia de todo ello se produce un ses-
estos conflictos pueden tener sobre la práctica es go de publicación que puede influir sobre las con-
muy importante. clusiones de las revisiones sistemáticas y las guías de
El Committee On Publication Ethics (COPE) ha práctica clínica basadas en la literatura disponible.
elaborado unas guías sobre las buenas prácticas en
publicación (www.publicationethics.org.uk/) que C ONFLICTO DE INTERESES
abordan diez aspectos: 1) diseño del estudio y apro- Y PUBLICACIÓN CIENTÍFICA
bación ética; 2) análisis de los datos; 3) autoría; 4) El COPE define conflicto de interés como aquel
conflicto de intereses; 5) revisión de manuscritos; que, si se revela posteriormente, podría hacer que
6) publicación redundante; 7) plagio; 8) deberes el lector se sintiera razonablemente decepcionado
de los editores; 9) relaciones con los medios de co- o engañado, incluyendo también los conflictos no
municación, y 10) publicidad. aparentes que pueden influir sobre el juicio del
autor, los revisores o los editores.
E L PROCESO DE REVISIÓN Los conflictos pueden manifestarse de múltiples
DE MANUSCRITOS ( PEER - REVIEW ) formas: falsificación o fabricación de datos, publi-
Todo el proceso de la comunicación científica pivo- cación selectiva de información, decisión de pu-
ta sobre un mecanismo de selección de manuscritos blicar o no un trabajo, interpretación sesgada de los
basado en su evaluación por expertos (peer-review), resultados, etc.
cuyos objetivos principales son evitar la publicación
de trabajos de mala calidad científica, de material Ejemplo 3.7. Stelfox et al (1998) identificaron los ar-
no original y de trabajos que no contengan infor- tículos publicados entre marzo de 1995 y septiembre
mación relevante para los lectores de la revista, así de 1996 relacionados con la seguridad de los fárma-
como mejorar la redacción y la presentación de los cos calcioantagonistas, clasificándolos como favo-
trabajos. rables, neutrales o críticos en relación con su uso, y
En la práctica este proceso se ha convertido en solicitaron información de los autores de dichos tra-
un sistema de garantía de calidad de las publicacio- bajos sobre sus relaciones con la industria farmacéu-
nes, con aparentes beneficios para todos los agen- tica. El principal resultado fue que los autores favo-

24
ÉTICA E INVESTIGACIÓN

rables al uso de estos fármacos tenían relaciones bería haber participado suficientemente como para
financieras con la industria farmacéutica en un tanto tomar la responsabilidad pública sobre partes del
por ciento superior que los que eran neutrales o crí- contenido del artículo. La autoría debe basarse sólo
ticos (100 frente al 67 y 43%, respectivamente). en contribuciones sustanciales a:

Ejemplo 3.8. En una revisión sistemática reciente, 1. La concepción y diseño o el análisis e interpreta-
Lexchin et al (2003) demostraron la existencia de ción de los resultados.
un sesgo de manera que los estudios financiados 2. La redacción y revisión crítica del contenido inte-
por la industria farmacéutica tienen una mayor lectual del artículo.
probabilidad de obtener resultados favorables para 3. La aprobación de la versión final.
el fármaco que producen. Este sesgo no está rela-
cionado con diferencias en la calidad metodológica Concreta además que la adquisición de fondos,
de los estudios, sino que las explicaciones más pro- la recogida de datos o la supervisión general del
bables son la elección de un comparador inadecua- equipo investigador por sí solos no justifican la
do y el sesgo de publicación. autoría.
Debido a que cada vez los trabajos son más com-
Este problema ha llegado a ser tan importante que plejos y requieren la participación de equipos nu-
los editores de las principales revistas médicas pu- merosos y multidisciplinarios de investigadores, re-
blicaron conjuntamente un artículo editorial (Da- sulta difícil que existan personas que cumplan
vidoff et al, 2001) (www.icmje.org/sponsor.htm), en estrictamente con todos los requisitos citados. Por
el que abogaban por la declaración por parte de ello existe una tendencia a solicitar que los firman-
todos los implicados en el proceso de revisión de tes de un trabajo especifiquen cuál ha sido su con-
manuscritos y de publicación de cualquier relación tribución al estudio (diseño, recogida de datos,
que pudiera ser vista como un potencial conflicto análisis de los resultados, obtención de fondos, revi-
de interés. Insisten en que ningún investigador de- sión intelectual del manuscrito, etc.).
bería participar en acuerdos que interfieran con su
accesibilidad a los datos o a su capacidad para ana-
lizarlos independientemente, preparar manuscri-
P UBLICACIÓN REDUNDANTE , MÚLTIPLE
Y FRAGMENTADA
tos y publicarlos.
Otros problemas frecuentes son la publicación de
C ONCEPTO DE AUTOR un artículo que se solapa sustancialmente con otro
Los investigadores están sometidos a múltiples pre- ya publicado, o la publicación fragmentada, en la
siones para publicar, ya sea por metas personales o que un estudio se divide en diferentes partes (sala-
exigencias institucionales, por ejemplo, lo que con- mi papers) que se publican separadamente.
duce en ocasiones a conductas inapropiadas, como
hacer constar como autores a personas que no lo Ejemplo 3.10. Un estudio reciente (Melander et al,
son (autoría regalada) o a personas inexistentes 2003) ilustra el impacto potencial de la publicación
(autoría «fantasma»), o no hacer constar a todos los múltiple y selectiva de los estudios financiados por
verdaderos autores del trabajo. la industria farmacéutica. Al analizar los estudios
sometidos a la Agencia Reguladora de los Medica-
Ejemplo 3.9. Una encuesta a los autores de 577 revi- mentos de Suecia como base para la aprobación de
siones publicadas en la biblioteca Cochrane en el cinco nuevos fármacos para la depresión mayor, se
año 1999 reveló que existía una elevada prevalencia observó cómo la mitad de ellos habían contribuido
de autores que no cumplen estrictamente los requi- al menos a dos publicaciones cada uno, y que se ha-
sitos: en un 39% de las revisiones había algún autor bían publicado con mayor frecuencia los que
honorario, y en un 9% existía algún autor «fantas- obtenían resultados estadísticamente significativos
ma», frecuentemente un miembro del equipo edi- favorables al nuevo fármaco. También observaron
torial Cochrane (Mowatt et al, 2002). que muchas publicaciones ignoraron los resultados
del análisis por intención de tratar, presentando los
Según el Comité Internacional de Editores de del análisis por protocolo más favorables a los nue-
Revistas Médicas (www.icmje.org/), cada autor de- vos medicamentos.

25
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

El Comité Internacional de Editores de Revistas with the human immunodeficiency virus. Uganda-Case
Médicas (www.icmje.org/) sólo considera acepta- Western Reserve University Research Collaboration.
ble la publicación secundaria, especialmente en N Engl J Med 1997; 337: 801-808.
otro idioma, cuando se cumplen las siguientes
condiciones: B IBLIOGRAFÍA
Ara Callizo JR. Manejo de los conflictos de intereses en la in-
vestigación médica. Visión desde la clínica. ICB digital
1. Los autores tienen la aceptación de los editores
2002 (30 Sept); núm. 8. Consultado en: http://www.icb-
de ambas revistas.
digital.org/icbdigital/pdf/articulo/articulo8.pdf.
2. Se respeta la prioridad de la publicación primaria. Bodenheimer T. Uneasy alliance. Clinical investigators and
3. El artículo se dirige a un grupo diferente de lec- the pharmaceutical industry. N Engl J Med 2000; 342:
tores, por lo que una versión abreviada suele ser 1539-1544.
suficiente. Dal-Ré R, Tormo MJ, Pérez G, Bolúmar F. Revisión ética de
4. La versión secundaria refleja fielmente los datos estudios epidemiológicos: una necesidad y una propues-
e interpretación de la publicación primaria. ta. Med Clin (Barc) 1998; 111: 587-591.
5. Una nota al pie de página informa de la publica- Davidoff F, DeAngelis CD, Drazen JM et al. Sponsorship, au-
ción previa y la referencia. thorship, and accountability. JAMA 2001; 286: 1232-
1234.
B IBLIOGRAFÍA DE LOS EJEMPLOS De Abajo FJ. La Declaración de Helsinki VI: una revisión ne-
Angell M. The Ethics of Clinical Research in the Third cesaria, pero ¿suficiente? Rev Esp Salud Pública 2001; 75:
World. N Engl J Med 1997; 337: 847-849. 407-420.
Clifford TJ, Barrowman NJ, Moher D. Funding source, trial Ellenberg SS, Temple R. Placebo-Controlled Trials and Acti-
outcome and reporting quality: are they related? Results ve-Control Trials in the Evaluation of New Treatments.
of a pilot study. BMC Health Services Research 2002; 2: Part 2: Practical Issues and Specific Cases. Ann Intern
18-23. Med 2000; 133: 464-470.
Kjaergard LL, Als-Nielsen B. Association between competing Emanuel EJ, Wendler D, Grady C. What makes clinical re-
interests and authors’ conclusions: epidemiological stu- search ethical? JAMA 2000; 283: 2701-2711.
dy of randomised clinical trials published in the BMJ. Forster HP, Emanuel E, Grady C. The 2000 revision of the
BMJ 2002; 325: 249-252. Declaration of Helsinki: a step forward or more confu-
Lexchin J, Bero LA, Djulbegovic B, Clark O. Pharmaceutical sion? Lancet 2001; 358: 1449-1453.
industry sponsorship and research outcome and quality: Levine RJ. Ethics and regulation of clinical research. 2.a ed.
systematic review. BMJ 2003; 326: 1167-1176. Baltimore: Urban & Schwarzenberg, 1986.
Lurie P, Wolfe SM. Unethical Trials of Interventions to Reduce Lewis JA, Jonsson B, Kreutz G, Sampaio C, van Zwieten-Boot
Perinatal Transmission of the Human Immunodeficien- B. Placebo-controlled trials and the Declaration of Hel-
cy Virus in Developing Countries. N Engl J Med 1997; sinki. Lancet 2002; 359: 1337-1340.
337: 853-856. Manzini JL. Declaración de Helsinki: principios éticos para
Melander H, Ahlqvist-Rastad J, Meijer G, Beermann B. Evi- la investigación médica sobre sujetos humanos. Análisis
dencie b(i)ased medicine – selective reporting from stu- de la 5.a reforma, aprobada por la Asamblea General de
dies sponsored by pharmaceutical industry: review of stu- la Asociación Médica Mundial en octubre del año 2000,
dies in new drug applications. BMJ 2003; 326: 1171-1175. en Edimburgo. Acta Bioethica 2000; VI: 321-334.
Mowatt G, Shirran L, Grimshaw JM et al. Prevalence of hono- Morin K, Rakatansky H, Riddick FA et al. Managing conflicts
rary and ghost authorship in Cochrane reviews. JAMA of interest in the conduct of clinical trials. JAMA 2002;
2002; 287: 2769-2771. 287: 78-84.
Ordovás Baines JP, López Briz E, Urbieta Sanz E, Torregrosa Temple R, Ellenberg SS. Placebo-controlled trials and active-
Sánchez R, Jiménez Torres NV. Análisis de las hojas de control trials in the evaluation of new treatments. Part 1:
información al paciente para la obtención de su consen- ethical and scientific issues. Ann Intern Med 2000; 133:
timiento informado en ensayos clínicos. Med Clin (Barc) 455-463.
1999; 112: 90-94. Thompson DF. Understanding financial conflicts of interest.
Stelfox HT, Chua G, O’Rourke K, Detsky AS. Conflict of inte- N Engl J Med 1993; 329: 573-576.
rest in the debate over calcium-channel antagonists. Weijer C, Dickens B, Meslin EM. Bioethics for clinicians: 10.
N Engl J Med 1998; 338: 101-106. Research ethics. CMAJ 1997; 156: 1153-1157.
Whalen CC, Johnson JL, Okwera A et al. A trial of three regi- Weijer C, Glass KC. The ethics of placebo-controlled trials.
mens to prevent tuberculosis in Ugandan adults infected N Engl J Med 2002; 346: 382-338.

26
Capítulo 4
Clasificación de los tipos de estudio

or diseño de un estudio se entienden los pro- puede causar una enfermedad o un tratamiento

P cedimientos, métodos y técnicas mediante los


cuales los investigadores seleccionan a los pa-
cientes, recogen datos, los analizan e interpretan
que puede prevenir o mejorar una situación clíni-
ca) y un efecto, respuesta o resultado.
Un estudio se considera descriptivo cuando no
los resultados. busca evaluar una presunta relación causa-efecto,
En este capítulo se presentan los criterios de cla- sino que sus datos son utilizados con finalidades
sificación de los diseños o tipos de estudio, y en los puramente descriptivas. Suele ser útil para generar
siguientes capítulos las características, las ventajas y hipótesis etiológicas que deberán contrastarse pos-
las limitaciones de los más empleados en la investi- teriormente con estudios analíticos.
gación clínica y epidemiológica. Conocer estos as-
pectos es importante para elegir el diseño más ade- S ECUENCIA TEMPORAL : TRANSVERSAL
cuado para alcanzar los objetivos fijados. O LONGITUDINAL
Se consideran transversales los estudios en los que
los datos de cada sujeto representan esencialmen-
CRITERIOS DE CLASIFICACIÓN
te un momento del tiempo. Estos datos pueden co-
Las características más importantes de la arquitec- rresponder a la presencia, ausencia o diferentes
tura de un estudio se pueden clasificar según cua- grados de una característica o enfermedad (como
tro ejes principales: ocurre, por ejemplo, en los estudios de prevalencia
de un problema de salud en una comunidad deter-
– Finalidad del estudio: analítica o descriptiva. minada), o bien examinar la relación entre dife-
– Secuencia temporal: transversal o longitudinal. rentes variables en una población definida en un
– Control de la asignación de los factores de estudio: momento de tiempo determinado. Dado que las
experimental u observacional. variables se han medido de forma simultánea, no
– Inicio del estudio en relación a la cronología de los he- puede establecerse la existencia de una secuencia
chos: prospectivo o retrospectivo. temporal entre ellas y, por tanto, estos diseños no
permiten abordar el estudio de una presunta rela-
F INALIDAD : DESCRIPTIVA O ANALÍTICA ción causa-efecto. Así pues, los estudios transversa-
Un estudio se considera analítico cuando su finali- les son por definición descriptivos.
dad es evaluar una presunta relación causal entre Se consideran longitudinales los estudios en los
un factor (p. ej., un agente que se sospecha que que existe un lapso de tiempo entre las distintas va-

29
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

riables que se evalúan, de forma que puede estable- bién a la dirección temporal de las observaciones,
cerse una secuencia temporal entre ellas. Pueden de forma que algunos autores consideran el térmi-
ser tanto descriptivos como analíticos. En estos últi- no prospectivo como sinónimo de cohorte o inclu-
mos debe tenerse en cuenta además la dirección tem- so de longitudinal.
poral, que puede ir de la causa hacia el desenlace En este texto se consideran prospectivos aquellos
(estudios experimentales y estudios de cohortes) o estudios cuyo inicio es anterior a los hechos estu-
bien desde el desenlace hacia la causa (estudios de diados, de forma que los datos se recogen a medi-
casos y controles). da que van sucediendo. Se consideran retrospectivos
Algunos autores consideran longitudinales sólo los estudios cuyo diseño es posterior a los hechos
los estudios en los que los sujetos se siguen en el estudiados, de forma que los datos se obtienen de
tiempo desde una línea basal hasta un desenlace, archivos o registros, o de lo que los sujetos o los
haciendo sinónimo este concepto del de cohorte. médicos refieren. Cuando existe una combinación
Sin embargo, según la definición dada en el párrafo de ambas situaciones los estudios se clasifican co-
anterior, se considera que un estudio es longitudinal mo ambispectivos.
si las observaciones se refieren a dos momentos en En la tabla 4.1 se presenta la clasificación de los
el tiempo, aun cuando la recogida de información diseños más habituales, y en la figura 4.1 un algorit-
se haya realizado de forma simultánea. Si las distin- mo para clasificar los estudios analíticos.
tas observaciones se han recogido en un mismo mo-
mento en el tiempo, para que el estudio pueda con-
siderarse longitudinal se debe asumir una secuencia Tabla 4.1. Clasificación de los tipos de diseño
temporal entre ellas.
Estudios descriptivos transversales
A SIGNACIÓN DE LOS FACTORES – Estudios de prevalencia
DE ESTUDIO : EXPERIMENTAL – Series de casos transversales
– Evaluación de pruebas diagnósticas
U OBSERVACIONAL
– Estudios de concordancia
Se consideran experimentales los estudios en los que
– Estudios de asociación cruzada
el equipo investigador asigna el factor de estudio y – Otros estudios transversales descriptivos
lo controla de forma deliberada para la realización
de la investigación, según un plan preestablecido. Estudios descriptivos longitudinales
Estos estudios se centran en una relación causa-efec- – Estudios de incidencia
– Descripción de los efectos de una intervención
to (analíticos), y en general evalúan el efecto de una
no deliberada
o más intervenciones preventivas o terapéuticas.
– Descripción de la historia natural
Se definen como observacionales los estudios en
los que el factor de estudio no es controlado por los Estudios analíticos observacionales
investigadores, sino que éstos se limitan a observar, – Dirección causa-efecto: estudios de cohortes:
medir y analizar determinadas variables en los suje- • Prospectivos
• Retrospectivos
tos. La exposición puede venir impuesta (p. ej., el
• Ambispectivos
sexo o la raza), haber sido «escogida» por los pro-
– Dirección efecto-causa: estudios de casos
pios sujetos (p. ej., el consumo de tabaco), o deci- y controles
dida por el profesional sanitario dentro del proceso – Estudios híbridos
habitual de atención sanitaria (p. ej., los actos
Estudios analíticos experimentales
terapéuticos ordinarios), pero no de forma delibe-
– Ensayos controlados:
rada en el marco de una investigación.
• Ensayos clínicos en paralelo
• Ensayos clínicos cruzados
I NICIO DEL ESTUDIO EN RELACIÓN • Ensayos comunitarios
CON LA CRONOLOGÍA DE LOS HECHOS : – Ensayos no controlados:
PROSPECTIVO O RETROSPECTIVO • Ensayos sin grupo control
Los términos prospectivo y retrospectivo pueden • Ensayos con control externo
conducir a confusión, ya que suelen aplicarse tam-

30
CLASIFICACIÓN DE LOS TIPOS DE ESTUDIO

Sí ¿Existe control No
del factor de estudio?

Estudio experimental Estudio observacional

¿Existe un La formación
Sí No
grupo control de los grupos se realiza
concurrente? en función de:

Ensayo controlado La exposición La presencia


al factor de la
de estudio enfermedad
Sí ¿La asignación No o efecto
a los grupos
es aleatoria?

Ensayo Ensayo clínico Ensayo no Estudio de Estudio


clínico controlado controlado cohortes de casos
aleatorio no aleatorio y controles

Figura 4.1. Algoritmo de clasificación de los estudios analíticos.

Ejemplo 4.1. Un estudio investiga la presunta rela- Supongamos que en este mismo estudio se de-
ción causal entre el consumo de tabaco y la presen- terminan las cifras de colesterolemia en las prime-
cia de cardiopatía isquémica. Para ello se identifican ras horas del infarto agudo de miocardio. Dado
enfermos de cardiopatía isquémica y un grupo de que es conocido que los cambios metabólicos que
pacientes sin la enfermedad, y en el mismo mo- acompañan al infarto pueden alterar las cifras de
mento se les interroga sobre su historia pasada de colesterolemia, no podría asumirse que estos valo-
consumo de tabaco. Este estudio es analítico (evalúa res reflejan la situación previa de los sujetos, por lo
una presunta relación causal), observacional (no se que en este caso el estudio se consideraría transver-
controla el factor de estudio) y retrospectivo (los sal ya que la presencia de la enfermedad y la coles-
hechos ya han ocurrido cuando se realiza la in- terolemia corresponden a un mismo momento del
vestigación). Aunque la información sobre el efecto tiempo. Para poder considerarlo longitudinal, de-
y la presunta causa se recogen en un mismo mo- bería disponerse de información sobre su historia
mento de tiempo, se asume que los datos sobre el previa de colesterolemia.
consumo de tabaco se refieren a un momento del
tiempo anterior a la aparición de la enfermedad, por Ejemplo 4.2. Un estudio desea evaluar la utilidad de
lo que este estudio puede clasificarse como longitu- un marcador biológico en el diagnóstico de un de-
dinal (dado que la dirección es de efecto a causa terminado tipo de cáncer. Para ello se selecciona una
correspondería a un estudio de casos y controles). muestra de pacientes con dicho tipo de cáncer y otra

31
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

de sujetos sin él, y se miden en todos ellos los valores sigue durante 12 meses para determinar cuántos
del marcador biológico, evaluando si es útil para de ellos reducen sus cifras de PA. El estudio trata
diferenciar ambos grupos. Se trata de un diseño des- de evaluar una presunta relación causal entre el tra-
criptivo (no evalúa una presunta relación causal), tamiento y la reducción de la PA (analítico), es expe-
transversal (ya que la identificación de la existencia rimental (ya que el investigador controla de forma
del cáncer y la medición del marcador biológico se deliberada el tratamiento para la realización del
refieren al mismo momento de tiempo), y observa- estudio), longitudinal y prospectivo. En este estudio
cional (no se controla el factor de estudio). no existe un grupo control que reciba un placebo u
El mismo objetivo de investigación se hubiera otro tratamiento, por lo que corresponde a un ensa-
podido abordar con un diseño longitudinal: medir yo sin grupo control (estudio antes-después).
en una muestra de sujetos el marcador biológico, Supongamos que otro investigador ha seleccio-
seguir en el tiempo para observar cuántos de ellos nado las historias clínicas de 30 pacientes hiperten-
desarrollan el cáncer, y evaluar si los valores del sos que han recibido el mismo tratamiento, reco-
marcador pueden ser predictivos de su aparición. giendo una serie de variables, entre ellas la PA al
inicio del tratamiento y al año de éste. Dado que la
Ejemplo 4.3. Supongamos que se selecciona una intervención no se ha administrado de manera deli-
muestra aleatoria de una población, y en todos los berada para el estudio, no corresponde a un diseño
sujetos se miden las cifras de presión arterial (PA) experimental. De hecho, es la descripción de una
con la finalidad de conocer cuántos de los sujetos tie- cohorte de sujetos hipertensos que reciben un tra-
nen hipertensión arterial (HTA). Se trata de un estu- tamiento dentro de la práctica asistencial, que sólo
dio descriptivo, observacional y transversal, que esti- permite conocer la evolución de las cifras de PA y
ma la prevalencia de HTA (estudio de prevalencia). que, por tanto, no puede considerarse analítico,
Supongamos que en la misma muestra de suje- ya que no permite evaluar la relación causal entre
tos se miden también las cifras de colesterol sérico y el tratamiento y las cifras de PA. Además, dado que
se correlacionan con las de presión arterial. El los datos proceden de registros clínicos, se clasifi-
diseño tiene las mismas características, por lo que, caría como retrospectivo.
al ser transversal, no puede establecer una relación
causal entre ambas variables, sino que se limita a B IBLIOGRAFÍA
Feinstein AR. Clinical epidemiology: the architecture of cli-
evaluar si existe asociación entre ellas en una mues-
nical research. Filadelfia: WB Saunders, 1985.
tra de sujetos en un momento determinado (estu- Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic
dio de asociación cruzada). methods: principles and quantitative methods. Belmont:
Lifetime Learning Publications, 1982.
Ejemplo 4.4. Un investigador selecciona una mues- Kramer MS, Boivin JF. Toward an «unconfounded» classifi-
tra de 30 sujetos hipertensos a los que administra cation of epidemiologic research design. J Chron Dis
un tratamiento con una pauta preestablecida, y los 1987; 40: 683-688.

32
Capítulo 5
Estudios experimentales I:
el ensayo clínico aleatorio

os estudios experimentales son aquellos en los que proporcionan una mayor confianza en la conclu-

L que el equipo investigador controla el factor


de estudio, es decir, decide qué sujetos reci-
birán la intervención que se desea evaluar, así como
sión obtenida (mayor calidad de la evidencia).
El diseño experimental más importante es el ensa-
yo clínico aleatorio. Aunque existen diversas formas
la forma en que lo harán (dosis, pauta, duración, de diseñarlo, habitualmente esta denominación se
etc.), de acuerdo con un protocolo de investigación utiliza para referirse al diseño paralelo, que es el más
preestablecido. Por tanto, por definición, los estu- conocido y utilizado, y cuyas características generales
dios experimentales son prospectivos. se describen en este capítulo. Las otras formas de
El objetivo básico de los estudios experimentales ensayo clínico y del resto de diseños experimentales
es evaluar los efectos de una intervención, intentan- se abordan en el capítulo siguiente.
do establecer una relación causa-efecto con los resul-
tados observados (son, pues, estudios analíticos). Esta
ENSAYO CLÍNICO ALEATORIO
intervención suele ser un tratamiento farmacológico,
aunque puede ser cualquier otro tipo de terapéutica, El ensayo clínico aleatorio (ECA) en su forma más
un consejo sanitario, una actividad preventiva, una sencilla es un estudio de diseño paralelo con dos gru-
estrategia diagnóstica o un modelo organizativo, por pos, que consiste en la selección de una muestra de
ejemplo. Lógicamente, dado que la intervención se pacientes y su asignación de forma aleatoria a uno
administra a los sujetos con la finalidad de ser estu- de los dos grupos. Uno de ellos recibe la intervención
diada, son especialmente importantes los requisitos de estudio y el otro la de control que se utiliza como
éticos de la investigación en seres humanos y sólo referencia o comparación. Ambos grupos se siguen de
deben evaluarse intervenciones potencialmente forma concurrente durante un período determinado,
beneficiosas para los sujetos, de las que exista sufi- cuantificando y comparando las respuestas observa-
ciente información previa para justificar la realiza- das en ambos. La estructura básica se esquematiza en
ción del experimento, y diseñando los estudios de la figura 5.1.
acuerdo con los estándares científicos aceptados El ECA se considera el mejor diseño disponible
tanto éticos como metodológicos. para evaluar la eficacia de una intervención sanitaria,
La gran ventaja de los estudios experimentales ya que es el que proporciona la evidencia de mayor
sobre los observacionales es que, al controlar el factor calidad acerca de la existencia de una relación causa-
de estudio y las condiciones en que se realiza la inves- efecto entre dicha intervención y la respuesta obser-
tigación, disminuye la posibilidad de que otros facto- vada. Por este motivo, cada vez con más frecuencia,
res puedan influir sobre los resultados, de manera las recomendaciones terapéuticas y las guías de prác-

33
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Población diana

Criterios de selección No cumplen los criterios

Población experimental

Consentimiento informado No aceptan participar

Participantes (muestra)

Asignación aleatoria

Grupo A Grupo B
Intervención de estudio • Intervención de comparación
• Placebo
• No intervención
Pérdidas y abandonos
Seguimiento Pérdidas y abandonos
Retiradas
Retiradas

Respuesta Respuesta

Comparación

Interpretación

Conclusión

Figura 5.1. Estructura básica de un ensayo clínico aleatorio paralelo.

tica clínica se basan en las pruebas proporcionadas terapéuticas autorizadas, o incluso intervenciones
por este tipo de estudios. Ello ha conducido a que el sanitarias de cualquier tipo, como tratamientos no
número de ECA esté aumentando rápidamente y a farmacológicos, consejos sanitarios, recomendacio-
que cada vez se exija un mayor rigor metodológico en nes dietéticas, detección precoz de enfermedades,
su diseño, ejecución y análisis. Además, ha llevado al estrategias de formación médica continuada, o inclu-
desarrollo de instrumentos para la valoración de su so modelos organizativos de las consultas o los cen-
calidad metodológica, guías para su lectura rápida y tros sanitarios.
recomendaciones sobre su publicación, como la pro- A continuación, se describen las características
puesta CONSORT (Begg et al, 1998). Las principales generales del diseño de este tipo de estudios, dejando
ventajas e inconvenientes de un ECA se resumen en la discusión más detallada de los diferentes elementos
la tabla 5.1. del protocolo para los capítulos correspondientes.
Las autoridades sanitarias obligan a la realización
de un ECA para demostrar la eficacia y seguridad de
INTERVENCIONES QUE SE COMPARAN
un nuevo fármaco antes de su comercialización, o
bien de una nueva forma terapéutica, una nueva indi- Uno de los aspectos clave del diseño de un ECA es la
cación o su eficacia en condiciones diferentes de las selección de la intervención que se va a utilizar como
autorizadas. Pero el ECA es también el diseño prefe- referencia en la comparación. Debe respetarse el
rible para comparar en la práctica diferentes pautas denominado principio de incertidumbre (equipoise) se-

34
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

Tabla 5.1. Ventajas y desventajas de los ensayos tamiento del mieloma múltiple en función de la fuen-
clínicos aleatorios te de financiación del estudio. Aunque no observaron
diferencias estadísticamente significativas entre la ca-
Ventajas lidad de los ensayos financiados por la industria y
• Proporcionan la mejor evidencia de una relación los financiados por agencias gubernamentales o sin
causa-efecto entre la intervención que se evalúa ánimo de lucro, sí que existían diferencias en relación
y la respuesta observada con el principio de incertidumbre. Mientras que el
porcentaje de ensayos financiados por entidades sin
• Proporcionan un mayor control del factor
ánimo de lucro que favorecían a las nuevas terapias
de estudio
era similar al que favorecía a las de referencia (47%
• La asignación aleatoria tiende a producir frente a 53%, p = 0,61), existía una clara diferencia en
una distribución equilibrada de los factores los financiados por la industria a favor de las nuevas
pronóstico que pueden influir en el resultado terapias (74% frente a 26%, p = 0,004). Este hallazgo
(potenciales factores de confusión), formando podía estar relacionado con el hecho de que más
grupos comparables; de este modo, permite aislar ensayos financiados por la industria utilizaban pla-
el efecto de la intervención del resto de factores
cebo o no intervención como grupo de comparación.
Desventajas Los autores concluyen que el sesgo observado en
la publicación de la investigación financiada por la
• Las restricciones éticas impiden que muchas industria podría ser la consecuencia de violaciones
preguntas puedan ser abordadas mediante del principio de incertidumbre.
un ensayo clínico aleatorio
• Habitualmente se llevan a cabo con participantes En términos generales, para seleccionar la inter-
muy seleccionados, lo que dificulta la vención de referencia, existen tres opciones: placebo,
generalización y extrapolación de los resultados tratamiento activo o ninguna intervención.
• A menudo, las intervenciones se administran Por placebo entendemos un preparado que carece
con pautas rígidas, diferentes de las que se realizan de actividad farmacológica, pero cuya apariencia y
en la práctica habitual, lo que dificulta la características organolépticas son idénticas a las del
generalización y extrapolación de los resultados preparado de estudio. La finalidad de su uso en inves-
• En general, sólo permiten evaluar el efecto tigación es controlar el efecto placebo, que se refiere
de una única intervención al efecto psicológico o fisiológico de cualquier medi-
cación, independientemente de su actividad farma-
• Suelen tener un coste elevado, aunque ello
cológica, y que depende de la propia personalidad
depende de la duración del estudio
del paciente, las convicciones y el entusiasmo del
y la complejidad del protocolo
equipo investigador, las condiciones de administra-
ción y características de la intervención, etc.
Desde el punto de vista de la hipótesis que se pone
gún el cual un ECA solamente debe realizarse si existe a prueba, la comparación con un placebo tiene por
una verdadera incertidumbre acerca de cuál de las objetivo cuantificar el efecto terapéutico del fármaco
intervenciones que se comparan beneficia más a los que se evalúa, ya que la principal ventaja del placebo
pacientes. La comparación frente a intervenciones que como alternativa de comparación es la de controlar
se sabe que son inferiores, además de ser éticamente los efectos derivados de cualquier característica del
inaceptable, conduce a la obtención de resultados favo- tratamiento que no sea el efecto que se está estudian-
rables a la intervención de estudio, cuya publicación do, incluso los efectos secundarios. Así, si se compara
introduce un sesgo en las evidencias disponibles sobre un antihipertensivo con un placebo, se está evaluan-
la eficacia de los tratamientos, con las repercusiones do si el tratamiento consigue disminuir las cifras de
que este hecho puede tener sobre las decisiones y las presión arterial más allá de lo que lo haría una sus-
recomendaciones terapéuticas. tancia no activa farmacológicamente.

Ejemplo 5.1. Djulbegovic et al (2000) evaluaron la ca- Ejemplo 5.2. En el Lipid Research Clinics (1984),
lidad de 136 ensayos clínicos publicados sobre el tra- donde se comparaba la eficacia de la colestiramina

35
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

para reducir la morbimortalidad cardiovascular, se mientos actuales, podrían estar igualmente indicadas
observó que algunos efectos secundarios eran bas- en la situación clínica de estudio (principio de incer-
tante frecuentes en el grupo de la colestiramina: la tidumbre).
constipación se registró en el 39% de individuos, y los Cuando se comparan dos tratamientos activos,
eructos y flatulencias en un 27%. Sin embargo, no suele ser conveniente enmascararlos para prevenir
todo el efecto se debía al fármaco; en el grupo que posibles sesgos. En muchas ocasiones, para lograrlo
recibía placebo estos efectos se observaron en un 10 y es necesario administrar a los sujetos de cada grupo
un 16% de los individuos, respectivamente. Así pues, un placebo de la intervención que recibe el otro
el uso de placebo permitirá no sólo aislar el efecto grupo (double dummy). En este caso, el placebo no se
terapéutico del fármaco en estudio, sino conocer utiliza como alternativa de referencia, sino tan sólo
también la proporción de efectos indeseables que como una técnica para lograr el enmascaramiento.
pueden atribuirse a la intervención.
Ejemplo 5.3. Consideremos un estudio cuyo objetivo
Además, el uso de un placebo permite enmasca- era comparar una monodosis de un antibiótico con
rar las intervenciones, de forma que los participantes una pauta de 10 días para el tratamiento de la infec-
(e incluso los investigadores) desconozcan si reciben ción urinaria. Es conocido que la duración de un tra-
tratamiento activo o no. tamiento es un factor que influye sobre su respuesta.
Cuando existe una opción terapéutica aceptada Para neutralizar este efecto el equipo investigador
como eficaz en la situación clínica de interés, ésta decidió asignar aleatoriamente los individuos a dos
debería ser la alternativa de comparación en el ECA. grupos, uno de los cuales recibió la monodosis segui-
La comparación con placebo en esta situación pre- da de comprimidos placebo, mientras que el otro
senta limitaciones éticas, aunque se ha abusado de recibió en primer lugar una monodosis placebo y,
ella, dado que es más fácil encontrar diferencias a continuación, el tratamiento hasta completar los
estadísticamente significativas frente a un placebo 10 días. De este modo, se consiguió mantener el
que frente a otro tratamiento activo. Sin embargo, doble ciego y efectuar una comparación lo más
aunque existe acuerdo universal en que su uso no es imparcial posible.
apropiado en situaciones que supongan una amena-
za vital y se disponga de alguna intervención eficaz, Por otro lado, con frecuencia la finalidad del ECA
existe cierta controversia acerca de si puede utilizarse no es evaluar si un nuevo tratamiento es más eficaz
en situaciones en que un retraso en la administración que el de referencia (estudios de superioridad), sino
de una intervención eficaz difícilmente suponga un demostrar que no es peor (estudios de no-inferiori-
daño permanente en los sujetos. dad) o que ambos son iguales (estudios de equivalen-
El uso de otro tratamiento o intervención activos cia), ya que la nueva intervención presenta alguna
como comparación tiene por objetivo estimar la rela- ventaja adicional sobre la estándar, como una mayor
ción beneficio/riesgo del nuevo tratamiento en una facilidad de administración o una mayor seguridad.
situación clínica concreta. En estos casos, la mejor El ejemplo anterior ilustra un estudio de este tipo,
comparación es el «mejor tratamiento disponible» puesto que, en caso de ser equivalentes, la monodosis
para dicha situación. Ésta no siempre es una elección presentaría ventajas de seguridad y cumplimiento
fácil, ya que en la mayoría de las veces existe un que la harían preferible a una pauta larga. Las carac-
amplio arsenal terapéutico que hace difícil elegir terísticas específicas de estos estudios se comentan en
cuál es la mejor alternativa. Sin embargo, a menudo el capítulo siguiente.
existen guías o recomendaciones sobre el fármaco Algunas veces, por la propia pregunta de investi-
más adecuado para ser utilizado como referencia. gación, la intervención de referencia más adecuada
Además, cuando se emplea un tratamiento activo no es un placebo ni otra intervención específica, sino
como referencia, debe prestarse especial atención a los cuidados habituales que reciben los pacientes en la
la dosis, la pauta y la duración de su administración, consulta (usual care). Aunque en teoría es posible
para mantener el principio de incertidumbre y no comparar el grupo que recibe la intervención de estu-
favorecer al nuevo tratamiento, al compararlo con dio con otro que no recibe ninguna intervención
otro en inferioridad de condiciones. Se trata de com- específica, generalmente puede considerarse que, en
parar alternativas terapéuticas que, según los conoci- realidad, el grupo control está recibiendo los cuida-

36
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

dos que se prestan normalmente para su problema de Aunque a menudo se selecciona la variable por la
salud (de otra manera podrían plantearse problemas facilidad de su medición o porque se espera que
éticos), por lo que, realmente, se está comparando la pueda mostrar cambios o diferencias en un corto
intervención de estudio con la atención habitual. período, es importante utilizar la más adecuada, es
decir, la que mida los verdaderos resultados de im-
Ejemplo 5.4. En el Multiple Risk Factor Intervention portancia e interés para los pacientes.
Trial (MRFIT) (1982), individuos de mediana edad En general, puede considerarse que existen tres
con un riesgo elevado de padecer cardiopatía isqué- categorías de variables: subrogadas, clínicas y rele-
mica fueron asignados de forma aleatoria con el fin vantes para los pacientes (tabla 5.2).
de evaluar si la intervención simultánea sobre el taba-
co, la dieta y la presión arterial prevenía la enferme- VARIABLES SUBROGADAS
dad. En el grupo experimental, el control de la hiper- Las variables subrogadas son medidas de laboratorio
colesterolemia y de la hipertensión arterial, así como o signos físicos, como la colesterolemia o las cifras de
el consejo dietético y antitabaco, corrían a cargo de presión arterial, que se utilizan como sustitutos de
un grupo de profesionales altamente especializados, un resultado clínicamente relevante. En principio,
mientras que en el otro grupo no se llevó a cabo nin- se espera que los cambios producidos en la variable
guna intervención específica, de forma que los suje- subrogada reflejen cambios en dicho resultado. Por
tos recibían los cuidados habituales dados por sus res- tanto, para que una variable subrogada sea útil debe
pectivos médicos de cabecera. ser altamente predictiva del resultado de interés clí-
nico (tabla 5.3), y no es suficiente con que exista una
asociación estadística. Existe una importante discu-
DEFINICIÓN DE LA VARIABLE
sión sobre la adecuación del uso de este tipo de
DE RESPUESTA
variables, ya que muchos de los resultados clínicos
La elección de la variable que se utilizará para evaluar de interés tienen una etiología multifactorial y pue-
la eficacia del tratamiento, cuantificar sus efectos y den existir diversos factores de confusión que inter-
compararlos con los del grupo de referencia es clave fieran sobre su relación con dichas variables, de
para establecer la relevancia clínica de los resultados manera que existen múltiples situaciones en las que
que se obtendrán. los efectos sobre una variable subrogada pueden no

Tabla 5.2. Ejemplos de variables subrogadas, clínicas y relevantes para los pacientes

Resultado

Enfermedad Subrogado Clínico Relevante para el paciente

Cardiovascular Presión arterial • AVC, IAM • Resultados clínicos


• Supervivencia • Calidad de vida
VIH/sida Recuento de CD4 • Eventos relacionados • Supervivencia
con sida • Calidad de vida
• Supervivencia • Efectos adversos
Fractura Densidad mineral ósea Fractura ósea • Fractura sintomática
• Calidad de vida
• Estado funcional
Coronaria Colesterolemia • IAM • IAM
• Supervivencia • Supervivencia
• Síntomas (angina)
• Calidad de vida
• Dolor

37
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 5.3. Características de una variable VARIABLES RELEVANTES


subrogada ideal PARA LOS PACIENTES
Las variables relevantes para los pacientes miden
• Fiable, reproducible, clínicamente disponible, resultados que son importantes para los sujetos,
fácilmente cuantificable y mostrar un efecto como la calidad de vida o la recuperación de una
«dosis-respuesta» capacidad funcional determinada. A veces también
• Verdadera predictora de la enfermedad (o del pueden considerarse en esta categoría variables clíni-
riesgo de enfermar). Su relación con la cas o incluso subrogadas, pero que sean buenas pre-
enfermedad debe ser biológicamente plausible dictoras en un sentido causal de estos resultados.
Muchos de los ECA que se realizan se centran en
• Sensible: un resultado «positivo» debe recoger
una variable principal y un número limitado de resul-
a todos o a la mayoría de los sujetos con
tados secundarios para mostrar los beneficios poten-
incremento de riesgo de un resultado adverso
ciales de un tratamiento, pero a menudo no miden
• Específica: un resultado «negativo» debe excluir sus efectos sobre otras variables importantes o inclu-
a todos o a la mayoría de los sujetos sin so algunos efectos secundarios y adversos. La medi-
incremento de riesgo de un resultado adverso ción de variables que incluyan la perspectiva del
• Punto de corte preciso entre los valores normales paciente será importante para establecer un adecua-
y los anormales do balance entre beneficios y riesgos.
• Valor predictivo positivo aceptable: un resultado
«positivo» debe significar siempre, o casi siempre, Los aspectos relacionados con la elección y medi-
un aumento del riesgo de un resultado adverso da de la variable de respuesta se abordan con más
detalle en el capítulo dedicado a la definición del
• Valor predictivo negativo aceptable: un resultado
objetivo del estudio.
«negativo» debe significar siempre, o casi
siempre, que no existe un aumento del riesgo
de un resultado adverso SELECCIÓN DE LA POBLACIÓN
• Susceptible de control de calidad La definición del objetivo del ensayo hace referencia
• Cambios en la variable intermedia deben reflejar a la población diana a la que se desea poder extrapo-
rápidamente y con precisión la respuesta al lar los resultados. Sin embargo, el estudio se lleva a
tratamiento, así como normalizar sus valores cabo sobre una población definida por unos criterios
en las fases de remisión o cura de selección especificados a priori (población expe-
rimental), de la que se obtendrán los sujetos que
Adaptada de Greenhalgh, 1997. finalmente participarán en el ensayo.
Los criterios de inclusión identifican una pobla-
ción en la que, a la luz de los conocimientos actuales,
reflejar los efectos sobre el resultado clínico de las intervenciones que se comparan podrían estar
interés (fig. 5.2). igualmente indicadas y, por tanto, potencialmente
puede beneficiarse de ellas. Esto implica que deben
VARIABLES CLÍNICAS excluirse los sujetos en los que una de las alternativas
Las variables clínicas se definen sobre la base de la sea preferible a la otra, y aquellos en los que cual-
enfermedad en estudio, como la supervivencia en el quiera de las intervenciones esté contraindicada o
cáncer o las fracturas vertebrales en la osteoporosis, podría presentar interacciones. Además de estos cri-
por ejemplo. A veces se habla de variables intermedias terios generales, pueden establecerse otros criterios
para referirse a resultados clínicos, habitualmente sín- de selección para definir una población experimen-
tomas o medidas funcionales, como la frecuencia de la tal más adecuada a los objetivos del estudio. La utili-
angina o la tolerancia al ejercicio, que no son los resul- zación de criterios de inclusión y exclusión estrictos
tados finales de interés, como la supervivencia o la apa- conduce a la obtención de una muestra homogénea,
rición de sucesos graves e irreversibles, como el infarto lo que aumenta la validez interna del estudio, pero
agudo de miocardio o el accidente vascular cerebral, que, al alejar la población de estudio de la diana, limi-
pero que se utilizan como medidas de los mismos. ta su capacidad de generalización o extrapolación.

38
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

Intervención

A Enfermedad Variable subrogada Resultado clínico relevante

Intervención

B Enfermedad Variable subrogada Resultado clínico relevante

Intervención

C Enfermedad Resultado clínico relevante


Variable subrogada

Intervención

D Enfermedad Variable subrogada Resultado clínico relevante

E Enfermedad Variable subrogada Resultado clínico relevante

A. Situación ideal en que la variable subrogada es válida.


B. Existen diferentes mecanismos causales de la enfermedad. La intervención actúa sobre el mediado
por la variable subrogada.
C. Existen diferentes mecanismos causales de la enfermedad. La intervención no actúa sobre el mediado
por la variable subrogada.
D. La intervención tiene mecanismos de acción independientes del proceso de la enfermedad.
E. La variable subrogada no está en el mecanismo causal de la enfermedad.

Figura 5.2. Posibles situaciones en la evaluación de una intervención sobre una variable subrogada y su relación
con el resultado clínico de interés (modificada de Fleming y DeMets, 1996).

Por otro lado, si se definen criterios muy amplios, bles consecuencias que pueden derivarse de su parti-
la población de estudio será más representativa de la cipación. Esta información debería cubrir como
diana y las posibilidades de generalizar los resultados mínimo los siguientes puntos: a) el objetivo del estu-
serán mayores, pero, al ser más heterogénea, será dio; b) las características básicas del diseño (asigna-
más difícil detectar una respuesta al tratamiento y se ción aleatoria, técnicas de enmascaramiento, uso de
requerirá un mayor número de individuos. tratamiento placebo, etc.; c) los posibles efectos se-
cundarios; d) los posibles beneficios; e) que el pacien-
C ONSENTIMIENTO INFORMADO te tiene el derecho de abandonar el estudio en cual-
Una vez que se ha comprobado que un sujeto cumple quier momento, y f) que tiene el derecho de formular
todos los criterios de inclusión y ninguno de los de cuantas preguntas desee relacionadas con la investi-
exclusión, antes de incluirlo en el estudio debe dar su gación. Todos estos puntos deben explicarse en tér-
consentimiento informado para participar en él. minos comprensibles para el paciente, evitando el len-
Previamente a otorgar su consentimiento, un can- guaje académico o científico.
didato debe recibir información, tanto oral como Es muy probable que los sujetos que dan su con-
escrita, sobre lo que supone la experiencia y las posi- sentimiento informado difieran en múltiples aspec-

39
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tos de los que no lo hacen, incluyendo la motivación esta estrategia tiene el inconveniente de que limita la
y actitudes hacia la salud y los factores de riesgo de la capacidad de extrapolación de los resultados.
enfermedad. Aunque este hecho dificulta la genera- A veces, se utiliza un fármaco activo en el período
lización de los resultados, es un imperativo ético que de preinclusión con la finalidad de usar una respues-
la participación en un ECA debe ser voluntaria y basa- ta intermedia al tratamiento como criterio de aleato-
da en el consentimiento informado. rización; por ejemplo, para seleccionar los sujetos
controlados por dicho tratamiento o bien para incluir
P ERÍODO DE PREINCLUSIÓN en el estudio a los que no han respondido al mismo.
Algunos ECA utilizan un período de preinclusión
(run-in phase) previo a la inclusión de los sujetos y a su Ejemplo 5.6. En un estudio sobre el efecto de un agen-
asignación a los grupos de estudio, durante el cual los te antihipertensivo en la mortalidad cardiovascular, el
pacientes se siguen con alguna finalidad, como la investigador podría aleatorizar sólo a los individuos
selección de los que cumplen con el tratamiento y las cuya hipertensión arterial fuera controlada de forma
pautas prescritas, la exclusión de los que presentan satisfactoria sin efectos secundarios importantes. Este
efectos secundarios, la selección de los que respon- diseño aumenta al máximo la potencia del estudio al
den o no a una determinada intervención (como re- incrementar la proporción de sujetos del grupo de
quisito previo para su inclusión), o la obtención de intervención que es sensible a la intervención, y si-
una observación basal más válida y consistente antes mula la tendencia del clínico a continuar usando un
de la asignación aleatoria. fármaco sólo cuando encuentra pruebas de que está
Después de identificar a los sujetos de la pobla- funcionando después de intentarlo unas semanas en
ción de estudio y de obtener su consentimiento, un paciente determinado.
todos los individuos reciben un placebo (o una de las
intervenciones, si se desea excluir a los sujetos que Para poder interpretar correctamente los hallaz-
presenten efectos secundarios) durante un período gos de los estudios con período de preinclusión, es
especificado (por lo común, unas semanas), tras el importante señalar las diferencias entre las carac-
cual los sujetos seleccionados se asignan al azar a los terísticas iniciales de los sujetos que han sido exclui-
grupos para iniciar el estudio. dos durante dicho período y los que son asignados a
los grupos de estudio.
Ejemplo 5.5. En el American Physicians’ Health Study
(Hennekens y Eberlein, 1985) diseñado para evaluar si
ASIGNACIÓN ALEATORIA
325 mg de ácido acetilsalicílico (AAS) administrado a
días alternos reduce la mortalidad cardiovascular en En un ECA, los sujetos incluidos en el estudio se asig-
pacientes asintomáticos, los 33.223 sujetos que nan a los grupos siguiendo un método aleatorio. Los
cumplían los criterios de selección establecidos fueron beneficios de la asignación aleatoria, que se comen-
sometidos a un período de preinclusión de 18 semanas tan detalladamente en el capítulo correspondiente,
en que todos ellos recibieron AAS, de manera que pueden resumirse en dos principales.
solamente fueron incluidos en el estudio los 22.071 En primer lugar, tiende a asegurar la comparabili-
sujetos que cumplieron con la intervención durante dad de los grupos, de manera que la comparación
dicho período y no presentaron efectos secundarios. entre las intervenciones o tratamientos sea lo más
Estos participantes fueron asignados aleatoriamente a imparcial posible. La asignación aleatoria tiende a
dos grupos (AAS y placebo). Como consecuencia de producir una distribución equilibrada de las variables
este proceso de selección tan estricto, a los 57 meses entre los grupos, tanto de las conocidas como de las
de seguimiento, prácticamente el 90% de los partici- que no lo son. Esta tendencia es tanto mayor cuanto
pantes todavía cumplían con la intervención asignada. más elevado es el tamaño de la muestra. Cuando se
estudian pocos pacientes pueden producirse diferen-
La exclusión de los individuos incumplidores o de cias entre los grupos, a pesar de que los sujetos se
los que presentan efectos secundarios aumenta la hayan asignado de forma aleatoria. El ejemplo más
potencia del estudio y permite una mejor estimación extremo sería cuando sólo se estudian dos sujetos; en
de los efectos globales de la intervención. Sin embar- este caso, asignarlos de forma aleatoria no aporta
go, aunque aumenta la validez interna del estudio, ningún beneficio, ya que las posibles diferencias

40
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

entre ambos siguen existiendo. Así pues, es impor- pantes, desconozcan qué intervención recibe cada
tante tener presente que la asignación aleatoria no individuo.
garantiza que los grupos sean similares, sino que Si los investigadores conocen quién recibe cada
aumenta la probabilidad de que lo sean. Existen algu- intervención, o los participantes saben qué tratamien-
nas técnicas, como la asignación estratificada o por to reciben, existe la posibilidad de que se examine
bloques, que pueden ayudar a garantizar la distribu- con mayor minuciosidad cualquier respuesta (aunque
ción equilibrada de las variables principales. sea de modo no intencionado), o se pregunte con
En segundo lugar, la asignación aleatoria permite más detalle por los posibles efectos secundarios de
la utilización de técnicas de enmascaramiento, que alguno de los tratamientos. Estas preferencias se evi-
son muy útiles para obtener una estimación no sesga- tan con la técnica del doble ciego, donde tanto los
da de la variable de respuesta. pacientes como los investigadores desconocen el tra-
Dado que la asignación aleatoria es la clave de un tamiento administrado. Cuando ambos grupos reci-
ECA, debe realizarse correctamente, de modo que ni ben un tratamiento activo, suele implicar un doble
las preferencias del médico ni las del paciente influ- enmascaramiento de las intervenciones, recibiendo
yan en la decisión del grupo al que éste es asignado. cada grupo uno de los tratamientos y un placebo del
Por ello, es esencial que se produzca después de que tratamiento del otro grupo.
el paciente haya sido incluido en el estudio y que la Por último, existe también la técnica del triple ciego,
secuencia de asignación esté oculta para el investiga- en la que, además, hay otras personas que también des-
dor, de manera que el conocimiento de los grupos no conocen el tratamiento que recibe cada sujeto, ya sea
influya en su decisión de incluirlo en uno u otro. el profesional estadístico que analizará los resultados,
Generalmente, la asignación se realiza tras completar o la persona responsable de decidir si se suspende un
una serie de pruebas (cuestionarios, examen físico, tratamiento por la aparición de reacciones adversas o
exploraciones complementarias, etc.) para decidir si si debe interrumpirse prematuramente el ensayo.
los pacientes cumplen o no los criterios de selección. Cuando estos métodos no pueden llevarse a cabo,
En caso afirmativo, el paciente deberá dar su consen- puede utilizarse la técnica de la evaluación enmasca-
timiento antes de ser incluido. Una vez cumplidos rada de la respuesta, o del evaluador ciego. Consiste en
estos dos requisitos se procederá a asignar aleatoria- que la persona que ha de medir la variable de res-
mente a los pacientes, pero no antes. De este modo, puesta desconozca el grupo al que pertenece cada
la decisión de incluir o no a un sujeto no estará influi- uno de los sujetos, con la finalidad de que la medi-
da por el conocimiento del tratamiento que recibirá. ción se realice e interprete de la misma forma para
cada grupo. Esta técnica es muy importante cuando
la variable de respuesta es blanda e incluye algún ele-
TÉCNICAS DE ENMASCARAMIENTO
mento de subjetividad (p. ej., una medida de la inten-
Las expectativas tanto de los pacientes como de los sidad del dolor, un cuestionario sobre síntomas, la
investigadores pueden influir en la evaluación de la percepción de mejoría en relación a una situación
respuesta observada. Este problema se evita utilizan- previa o la interpretación de una radiografía). En
do las llamadas técnicas de ciego o de enmascaramiento. cambio, cuando la variable de respuesta es objetiva
Se definen como aquellos procedimientos realizados (dura), como una medida de laboratorio, esta técni-
con el fin de que algunos de los sujetos relaciona- ca no es imprescindible.
dos con el estudio (equipo investigador, participan-
tes, etc.) no conozcan algunos hechos u observacio- V ENTAJAS DEL ENMASCARAMIENTO
nes (básicamente el tratamiento que recibe cada suje- Un investigador puede no ser completamente impar-
to) que pudieran ejercer un cambio en sus acciones o cial en la evaluación de dos intervenciones o más.
decisiones y sesgar los resultados. Un estudio que no Siempre existe un cierto grado de escepticismo o pre-
utiliza técnicas de enmascaramiento se denomina juicio hacia una de ellas. Incluso si es completamente
ensayo abierto. imparcial, los primeros resultados pueden influir
sobre sus expectativas y crear un cierto entusiasmo o
T IPOS DE ENMASCARAMIENTO desilusión, que será difícil de ignorar. Aunque sea de
La técnica del simple ciego consiste en que los investi- modo inconsciente, cuando en el estudio no se aplica
gadores, o más frecuentemente los propios partici- ninguna técnica de enmascaramiento, los errores en

41
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

la medida de la respuesta siempre favorecen a la aparecieron tarde y los análisis de microalbuminu-


intervención preferida, lo que introduce un sesgo en ria se conocieron a los 6 y 12 meses de la asignación
la interpretación de los resultados. aleatoria, por lo que difícilmente pudieron condicio-
Estas preferencias también se dan en los pacien- nar los resultados.
tes. El investigador contagiará su entusiasmo o su
pesimismo sobre la nueva intervención a los partici- El método de doble ciego puede perfeccionarse
pantes en el estudio, lo que influirá sobre la respues- mediante la ocultación de datos no relevantes para el
ta. Si el paciente está convencido de la eficacia de un cuidado del paciente. En el ejemplo anterior, los valo-
nuevo tratamiento, juzgará de forma más benévola res de microalbuminuria podían haberse comunica-
sus efectos secundarios y tenderá a sentirse mejor, do al equipo investigador cuando el estudio hubiese
aunque sea como resultado de la autosugestión. Por finalizado. El doble ciego también puede perfeccio-
ello, siempre que sea posible, y especialmente cuan- narse con la participación de dos observadores en la
do en la medición de la respuesta pueda influir el evaluación y desarrollo del estudio, de forma que
investigador o el paciente, es importante el uso de uno de ellos no pueda tener acceso a información
técnicas de enmascaramiento. reveladora del fármaco administrado antes de cono-
cer el código de asignación aleatoria.
L IMITACIONES La aplicación de técnicas de ciego puede ser invia-
DEL ENMASCARAMIENTO ble cuando se evalúan intervenciones no farmacoló-
En los estudios farmacológicos, el enmascaramiento gicas.
se consigue presentando ambos fármacos con un for-
mato idéntico. Sin embargo, el ciego se puede rom- Ejemplo 5.8. Supongamos un estudio cuyo objetivo es
per fácilmente si tienen una toxicidad o unos efectos evaluar si el consejo médico efectuado de forma
secundarios distintos y bien conocidos, o bien por estructurada es útil en el tratamiento de la depresión
determinada información que se va recogiendo a lo posparto, en el que la intervención consiste en varias
largo del estudio. En la práctica, el enmascaramiento visitas al domicilio de las pacientes a cargo de profe-
completo puede ser muy difícil si se utilizan, por sionales sanitarios previamente entrenados. Las pa-
ejemplo, medicamentos como la aspirina, ya que los cientes asignadas al grupo de estudio no podrían estar
investigadores, y muy probablemente los propios «ciegas» a la intervención.
pacientes, podrán identificar con frecuencia las reac-
ciones adversas que les causa. El conocimiento, por parte de los individuos, del
grupo al que han sido asignados puede conducir a una
Ejemplo 5.7. En un ECA en el que se comparaban dos comparación que no sea imparcial, lo cual es evidente
fármacos antihipertensivos, los investigadores analiza- cuando se compara una pauta frente a los cuidados
ron la concordancia entre la asignación real, según el habituales, como en el ejemplo anterior. Aquellos que
método aleatorio, y la que ellos sospechaban en fun- se encuentran en el primer grupo saben que están
ción de los resultados de laboratorio y las reacciones recibiendo «algo especial», que puede dar lugar a un
adversas que comunicaba cada paciente. El índice evidente y no controlado efecto placebo. Sin embargo,
Kappa fue de 0,635 (IC 95%: 0,372-0,898), lo que indi- esto es algo inherente a la propia intervención.
ca una concordancia aceptable (García Puig et al, Un efecto de signo contrario puede aparecer en el
1995). Este ejemplo muestra cómo el método doble caso de que los individuos sepan que han sido asigna-
ciego puede ser desvelado por informaciones propias dos al grupo de no intervención, e intenten compen-
del ECA. En este caso concreto, la concordancia se sarlo cambiando su comportamiento y sus actitudes.
basó en la diferente acción de ambos fármacos sobre Este fenómeno recibe el nombre de contaminación y
la excreción renal de albúmina y las diferentes reac- suele ocurrir en los estudios sobre hábitos de vida.
ciones adversas que comunicaba cada paciente.
De estos resultados surgen dos interrogantes: ¿ha Ejemplo 5.9. En el Multiple Risk Factor Intervention
podido influir en los resultados globales el elevado Trial (MRFIT) (1982), individuos de mediana edad
tanto por ciento de aciertos del grupo al que perte- con un riesgo elevado de padecer cardiopatía isqué-
necía cada sujeto? ¿Cómo se puede mejorar el méto- mica fueron asignados de forma aleatoria con el fin
do doble ciego? En el ejemplo, como comentan los de evaluar si la intervención simultánea sobre el taba-
autores del estudio, la mayoría de efectos adversos co, la dieta y la presión arterial prevenía la enferme-

42
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

dad. En el grupo experimental, el control de la hiper- SEGUIMIENTO DE LOS SUJETOS


colesterolemia y de la hipertensión arterial, así como
La comparabilidad conseguida con la asignación de
los consejos dietético y antitabaco, estaba a cargo de
un grupo de profesionales altamente especializados, los sujetos debe mantenerse a lo largo de todo el estu-
mientras que en el otro grupo era llevado a cabo por dio. Por ello, la pauta de visitas y exploraciones ha de
sus respectivos médicos de cabecera. Los investigado- ser idéntica para todos los participantes.
res esperaban que el grupo experimental conseguiría
reducir sus cifras de colesterol en un 10% si éste era Ejemplo 5.10. Consideremos un estudio cuyo objeti-
mayor de 220 mg/dl, y un 10% en la presión diastóli- vo era analizar si los métodos de citación sistemáticos
ca inicial en el caso de que fuera mayor o igual a para la práctica de un examen preventivo, en concre-
95 mmHg, mientras que en el grupo control, tanto el to una citología de cérvix, eran más efectivos que uno
colesterol como la presión arterial permanecerían no sistemático, y cuál de los dos métodos sistemáticos
estables. También se esperaba que el número de ciga- era el más efectivo (Pierce et al, 1989). La metodo-
rrillos fumados disminuiría en ambos grupos, aun- logía empleada fue la de ensayo clínico aleatorio, y su
que de manera más pronunciada en el experimental. duración fue de un año. Las pacientes procedían de
Sin embargo, las predicciones no se cumplieron, y en un centro de salud, y la intervención consistió, para
el grupo control los valores de los distintos factores el primer grupo, en el envío de una carta en la que se
de riesgo también disminuyeron, siempre en la mis- las invitaba a acudir al centro para el examen; las par-
ma dirección y casi con la misma intensidad que en el ticipantes del segundo grupo poseían historias clíni-
grupo de intervención. La dilución del efecto hizo cas marcadas con una etiqueta, con el fin de que el
que no se encontraran diferencias significativas entre médico les recordara la conveniencia de practicar
ambos grupos. El tipo de intervención que se evalua- el examen; en el tercero no se realizó ninguna inter-
ba en el MRFIT hacía imposible la utilización de téc- vención especial. La variable de respuesta analizada
nicas de enmascaramiento, por lo que una de las fue la práctica del examen preventivo durante el año
hipótesis podría ser que los sujetos, o los médicos, al que duró el estudio.
conocer la intervención cambiaran su comporta- Los principales resultados fueron los siguientes: la
miento en lo referente al ejercicio, el tabaco o la dieta. citología se había practicado al 32% de las mujeres del
En la tabla 5.4 se enumeran las situaciones en las primer grupo, al 27% de las del segundo grupo, y al
que no es posible o no es conveniente la utilización 15% de las del tercer grupo. La mayoría de personas
del doble ciego. del primer grupo que acudieron al centro para la rea-
lización del examen preventivo, lo hicieron durante
las primeras 8 semanas del estudio. En el segundo
Tabla 5.4. Situaciones en las que no es posible grupo la citología se fue practicando durante todo el
o no es conveniente la utilización año, a medida que las participantes acudían al centro.
del doble ciego Sin embargo, sólo el 73% de las mujeres asignadas a
este grupo consultaron con sus respectivos médicos
• Cuando implica riesgos innecesarios para durante el año de duración, por lo que más de una
el paciente (p. ej., en el caso de administrar cuarta parte no tuvieron la oportunidad de ser visita-
un placebo por vía parenteral repetidamente das. Por el contrario, todas las mujeres del grupo que
y durante un tiempo prolongado)
recibió la carta fueron visitadas y tuvieron la oportu-
• Cuando no es posible disponer de una nidad de que se les practicara la citología de cérvix. El
formulación galénica adecuada tiempo de seguimiento, como comentan los propios
• Cuando los efectos farmacológicos permiten autores, no fue el más adecuado para el segundo y el
identificar fácilmente al menos uno de los tercer grupos. Si se hubiera prolongado por espacio
fármacos estudiados de 2 o 3 años, el porcentaje de respuestas quizá habría
• Cuando, por cualquier circunstancia, aumentado en ellos.
se considera que el diseño de doble ciego
puede perjudicar la relación entre el médico El seguimiento debe adecuarse a cada problema
y el paciente concreto y ser lo suficientemente prolongado como
para permitir que se presente la respuesta esperada.

43
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

En algunos casos, será de pocas semanas, como suce- nes, deben ser claramente descritas para poder eva-
de con las infecciones urinarias. En otros, se alargará luar su impacto potencial sobre los resultados.
durante años, en especial cuando se evalúan medi- La propuesta CONSORT, que presenta recomen-
das de prevención primaria. Cuanto menor sea el daciones para mejorar las publicaciones de los ECA,
tiem-po de seguimiento, más fácil será mantener incluye un gráfico que representa el flujo de pacien-
el contacto con los participantes, así como el interés tes a lo largo del estudio, permitiendo una rápida
y la motivación de los investigadores por el estudio, y, apreciación de cómo se ha desarrollado (fig. 5.3).
por consiguiente, la probabilidad de pérdidas será También debe preverse la posibilidad de que
menor. determinados sujetos deban ser retirados del estudio
Las fuentes de pérdidas durante el tiempo de ob- por efectos secundarios o por una ausencia de res-
servación son diversas. Algunas personas cambiarán puesta al tratamiento que reciben. En estos casos,
de opinión una vez hayan dado su consentimiento y debe estar prevista la intervención que recibirán al
hayan sido asignadas a uno de los grupos, mientras ser excluidos del estudio (medicación de rescate).
que otras dejarán el estudio a causa de los efectos
secundarios de la medicación, por cambios de lugar ESTRATEGIA DE ANÁLISIS
de residencia o de médico, o por la pérdida de la
motivación. El número de pérdidas dependerá de La estrategia de análisis de un ECA es muy similar a la
la duración del estudio y la complejidad del protoco- de cualquier estudio analítico que compara dos o
lo, por lo que es importante que el seguimiento se más grupos, y será comentada ampliamente en el
haya previsto de forma que evite estos problemas en capítulo correspondiente. Sin embargo, hay que te-
lo posible. Sin embargo, la posibilidad de que se pro- ner en cuenta algunos aspectos específicos que se
duzca un sesgo no depende de las pérdidas, sino de esbozan a continuación.
los motivos y del hecho de que su respuesta a la inter- En un ECA pueden presentarse ciertas situaciones
vención sea distinta de la observada en los individuos que obliguen a considerar si determinados sujetos u
que finalizan el estudio. observaciones deben ser excluidos del análisis. Según
la actitud que se adopte ante estas situaciones, las
Ejemplo 5.11. Supongamos un ECA en el que se in- conclusiones del estudio pueden ser diferentes.
cluyen 200 sujetos, asignados a dos grupos de 100 Por un lado, la exclusión de sujetos u observacio-
individuos cada uno. Finalizan 80 en cada grupo, de nes del análisis disminuye la potencia estadística, ya
los que 40 han presentado un resultado positivo, por lo que el número de individuos que se tiene en cuenta
que la eficacia ha sido del 50% en ambos grupos entre es inferior al previsto en el inicio, por lo que existirá
los sujetos que han finalizado el estudio. Sin embargo, una menor capacidad para detectar la diferencia o
este resultado puede estar sesgado por las pérdidas asociación de interés. Pero lo más importante es que,
que se han producido. Supongamos que los 20 sujetos si el porcentaje de pérdidas o abandonos, o los moti-
que se pierden en el grupo A, lo han hecho por moti- vos por los que determinados sujetos no son conside-
vos no relacionados con el estudio, de forma que 10 rados en el análisis, son diferentes entre los grupos,
de ellos han presentado un resultado positivo. Por estas situaciones especiales pueden alterar la compa-
tanto, la eficacia en los 100 pacientes del grupo A es de rabilidad. En general, las pérdidas y las violaciones
(40 + 10)/100 = 50%. Por el contrario, las pérdidas en del protocolo, o por lo menos algunas de ellas, no se
el grupo B no se han producido al azar, sino que se han producen al azar, sino que pueden depender de los
debido a los efectos secundarios de la intervención, de tratamientos administrados. Por tanto, la decisión de
forma que en ninguno de ellos se ha observado un excluir determinados sujetos del análisis puede intro-
resultado positivo. Por consiguiente, la eficacia en los ducir un sesgo y comprometer la validez interna del
100 individuos del grupo B es de (40 + 0)/100 = 40%. estudio.
Este ejemplo ilustra cómo, aunque se haya producido Una opción de análisis es considerar exclusiva-
un mismo número de pérdidas en ambos grupos, si sus mente los sujetos de cada uno de los grupos que han
motivos son diferentes, pueden introducir un sesgo en cumplido el protocolo del ensayo, han recibido el tra-
los resultados. tamiento asignado y han finalizado el seguimiento
Dado que las pérdidas pueden ser una indicación del estudio. Esta estrategia se denomina análisis de
de cómo reaccionan los individuos a las intervencio- casos válidos o por protocolo.

44
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

NÚMERO DE PACIENTES
QUE CUMPLEN LOS CRITERIOS
DE INCLUSIÓN

NÚMERO DE PÉRDIDAS
ANTERIORES
MOTIVOS A LA ASIGNACIÓN ALEATORIA
Administrativos
No se dio
consentimiento NÚMERO DE PACIENTES
ASIGNADOS
ALEATORIAMENTE

GRUPO EXPERIMENTAL GRUPO EXPERIMENTAL


Desviaciones del protocolo Desviaciones del protocolo
Seguimiento Seguimiento

PÉRDIDAS POSTERIORES PÉRDIDAS POSTERIORES


Retiradas Retiradas
Abandonos Abandonos

PACIENTES QUE PACIENTES QUE


COMPLEMENTARON COMPLEMENTARON
Figura 5.3. Flujo de pacientes EL ENSAYO EL ENSAYO
en un ensayo clínico aleatorio,
de acuerdo con la propuesta
CONSORT.

Si se quiere mantener intacta la comparabilidad FINALIZACIÓN ANTICIPADA


conseguida con la asignación aleatoria, la mejor alter-
A veces, es útil incluir una regla para finalizar el estudio
nativa es evaluar a todos los pacientes según el prin-
antes de lo previsto, cuando el resultado ya es claro en
cipio conocido como análisis por intención de tratar o la dirección esperada o en otra. En estas situaciones, no
según la asignación aleatoria, es decir, manteniendo es ético mantener un grupo de sujetos recibiendo el
cada sujeto en el grupo al que ha sido asignado, inde- tratamiento que se ha mostrado menos eficaz o más
pendientemente de si ha cumplido o no con la inter- dañino. Este tipo de reglas se suelen incorporar en la
vención asignada o de si ha recibido otro tratamiento mayoría de estudios con un elevado número de pacien-
diferente al asignado. Esta estrategia de análisis se tes y que comportan un seguimiento de varios años.
considera la única válida en un ensayo clínico, ya que, Para conseguirlo, los resultados del estudio han
además de mantener la comparabilidad de los gru- de ser monitorizados y se realizan análisis interme-
pos, es la más conservadora, en el sentido de que es la dios en momentos prefijados para considerar si es
opción con la que resulta más difícil obtener resulta- probable que la continuación del estudio produzca
dos positivos favorables a la nueva intervención. respuestas más concluyentes o amplias. El hecho de
Las exclusiones que se producen antes de la asig- que es posible que se realicen múltiples comparacio-
nación aleatoria no producen ningún sesgo en la nes debe tenerse en cuenta en el diseño, tanto al
comparación de los datos, es decir, no afectan a determinar el número de sujetos necesarios como
la validez interna. Sin embargo, es importante cono- al fijar el grado de significación estadística.
cer su número y sus características para poder valorar Se recomienda que la decisión de finalizar antici-
su impacto sobre la generalización de los resultados. padamente un ensayo recaiga sobre un grupo de

45
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

expertos que no esté implicado en el diseño ni en el Algunas de sus características se han comentado en el
seguimiento del estudio. Tomar esta decisión como ejemplo 5.5. El estudio se suspendió de forma antici-
consecuencia de la demostración de efectos benefi- pada tras un seguimiento promedio de 60,2 meses de
ciosos debe exigir una evidencia muy convincente. los 22.071 participantes, al observarse una importante
Interrumpir un ensayo cuando esta evidencia convin- reducción relativa del riesgo de IAM del 44% en el
cente estaba disponible precozmente podría consi- grupo AAS en relación con el placebo (riesgo relati-
derarse poco ético, sobre todo cuando un fármaco vo = 0,56; IC95%: 0,45-0,70; p < 0,00001). Se consideró
está probándose contra un placebo. La decisión de que la evidencia de que el AAS reducía el riesgo de
finalizar un ensayo clínico a causa de unos resultados IAM era suficientemente concluyente para justificar la
negativos es todavía más compleja y se acepta que finalización anticipada del ensayo, a pesar de que las
pueda exigirse disponer de evidencias menos conclu- pruebas sobre la incidencia de AVC y la mortalidad
yentes. En la tabla 5.5 se resumen los motivos de inte- cardiovascular total eran todavía insuficientes, dado
rrupción prematura de un ensayo clínico. el escaso número de eventos observados (Steering
Committee of the Physicians’ Health Study Research
Group, 1989).
Tabla 5.5. Motivos de interrupción prematura
de un ensayo clínico
ENSAYOS PRAGMÁTICOS
Por datos generados por el ensayo clínico Y ENSAYOS EXPLICATIVOS
• Evidencia inequívoca de beneficio o perjuicio Al diseñar un ECA deben tomarse múltiples decisio-
del tratamiento nes, como cuál es el comparador, qué criterios de
• Número muy alto e inaceptable de efectos selección deben utilizarse, cuál es la pauta de segui-
secundarios o colaterales miento más adecuada, etc. En general, en el diseño
pueden adoptarse dos posturas contrapuestas: expli-
• Ausencia de tendencias y de probabilidad
cativa y pragmática (tabla 5.6).
razonable de que se demuestren beneficios
La actitud explicativa consiste en establecer criterios
Por cuestiones relativas al propio desarrollo de selección muy estrictos, que definan una población
del ensayo muy homogénea, con escasa variabilidad, buena cum-
plidora, en la que sea más fácil obtener datos de cali-
• Insuficiente reclutamiento de pacientes
dad y en la que exista una mayor probabilidad de
en el plazo previsto
encontrar un efecto o asociación si existe. Esta actitud
• Mal cumplimiento del tratamiento tiene algunos inconvenientes, ya que, si los criterios
en un porcentaje elevado de casos son muy estrictos, puede no encontrarse un número
• Insuficientes recursos financieros suficiente de sujetos, o no detectarse un efecto en un
determinado subgrupo, al no haberse considerado
Por datos provenientes de fuentes externas antes. Además, se trata de una población altamente
al ensayo seleccionada, lo que dificulta la generalización o
• Datos de otros ensayos que proporcionen una extrapolación de los resultados. Precisamente ésta es
evidencia inequívoca de beneficio o perjuicio una de las principales limitaciones de los ECA, tal
del tratamiento como se realizan habitualmente, como base para la
• Nuevos desarrollos que dejen obsoleto el
elaboración de recomendaciones terapéuticas.
seguimiento terapéutico objeto del ensayo La actitud pragmática consiste en establecer unos
criterios de selección amplios, que definan una pobla-
ción heterogénea, más representativa de la población
general. Su inconveniente es que se pierde cierto gra-
Ejemplo 5.12. El American Physicians’ Health Study do de control sobre la situación y puede diluir o en-
es un ensayo clínico doble ciego controlado con pla- mascarar una asociación o un efecto existentes, por lo
cebo, diseñado para evaluar si 325 mg de ácido acetil- que se complica la interpretación de los resultados.
salicílico (AAS) administrado a días alternos reduce la No hay un acuerdo sobre cuál de ambas actitudes
mortalidad cardiovascular en pacientes asintomáticos. es la más aconsejable. La elección de una u otra

46
ESTUDIOS EXPERIMENTALES I: EL ENSAYO CLÍNICO ALEATORIO

Tabla 5.6. Actitud explicativa y actitud pragmática en el diseño de un ensayo clínico aleatorio

Actitud explicativa Actitud pragmática

Finalidad Aumentar el conocimiento Ayudar en las decisiones


científico
Objetivo Eficacia Efectividad
Condiciones de realización «De laboratorio» «De consulta»
Intervención de referencia Habitualmente placebo A menudo «cuidados habituales»
u otra intervención activa
Dosis del tratamiento Fija A menudo variable
Tratamientos concomitantes Se evitan A menudo se permiten
Variable de respuesta Acción farmacológica Efecto terapéutico
Técnicas de enmascaramiento Habitualmente el doble ciego A menudo no, dependiendo de la naturaleza
es obligatorio de la intervención. Suele ser recomendable
la evaluación ciega de la respuesta
Muestra de sujetos Homogénea Heterogénea
Cumplidora Representativa
Criterios de selección Restrictivos Amplios
Período de preinclusión En ocasiones No

dependerá de la propia actitud del investigador y del Steering Committee of the Physicians’ Health Study Research
objetivo concreto que se desee alcanzar. Group. Final report on the aspirin component of the
ongoing Physicians’ Health Study. N Eng J Med 1989; 321:
B IBLIOGRAFÍA DE LOS EJEMPLOS 129-135.
Djulbegovic B, Lacevic M, Cantor A et al. The uncertainty
principle and industry-sponsored research. Lancet 2000; B IBLIOGRAFÍA
356: 635-638. Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
García Puig J, Mateos Antón F, Gil Aguado A, Barcina Sán- medicamentos: fundamentos básicos, metodología y
chez C. ¿Puede conocerse el «doble ciego» antes de des- práctica. Barcelona: Doyma, 1994.
velar los códigos de identificación? Med Clin (Barc) 1995; Begg C, Cho M, Eastwood S et al. Mejora en la calidad de la
105: 437-438. presentación de los ensayos controlados y de asignación
Hennekens CH, Eberlein K. A randomized trial of aspirin aleatoria: la declaración CONSORT. Aten Primaria 1998;
and beta-carotene among US physicians. Prev Med 1985; 21: 399-404.
14: 165-168. Charlton BG. Understanding randomized controlled trials:
Lipid Research Clinics Program. The lipid research clinics explanatory or pragmatic? Fam Pract 1994; 11: 243-244.
coronary primary prevention trial results. 1. Reduction in Ellenberg SS, Temple R. Placebo-controlled trials and active-
incidence of coronary heart disease. JAMA 1984; 251: 351- control trials in the evaluation of new treatments. Part 2:
364. practical issues and specific cases. Ann Intern Med 2000;
Multiple Risk Factor Intervention Trial Research Group. 133: 464-470.
Multiple risk factor intervention trial. JAMA 1982; 248: Fergusson D, Aaron SD, Guyatt G, Hebert. Post-randomisa-
1465-1477. tion exclusions: the intention to treat principle and
Pierce M, Lundy S, Palanisamy A, Winning S, King J. excluding patients from analysis. BMJ 2002 21; 325:
Prospective randomised controlled trial of methods of 652-654.
call and recall for cervical cytology screening. Br Med J Fleming TR, DeMets DL. Surrogate end points in clinical trials:
1989; 299: 160-162. are we being mislead? Ann Intern Med 1996; 125: 605-613.

47
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Fletcher RH. Evaluation of interventions. J Clin Epidemiol Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S.
2002; 55: 1183-1190. Assessing the quality of randomized controlled trials: an
Galende I, Sacristán JA, Soto J. Cómo mejorar la calidad de annoted bibliography of scales and checklists. Control
los ensayos clínicos. Med Clin (Barc) 1994; 102: 465-470. Clin Trials 1995; 16: 62-73.
García Alonso F, Guallar E, Bakke OM, Carné X. El placebo Moher D, Jadad AR, Tugwell P. Assessing the quality of ran-
en ensayos clínicos con medicamentos. Med Clin (Barc) domized controlled trials. Current issues and future
1997; 109: 797-801. directions. Int J Technol Assess Health Care 1996; 12:
García López FJ, Gutiérrez Bezón S, Galende Domínguez I, 195-208.
Avendaño Solá C. Evaluación de calidad de los ensayos Montori VM, Guyatt GH. Intention-to-treat principle. CMAJ
clínicos: justificación, utilidad e inconvenientes. Med 2001; 165: 1339-1341.
Clin (Barc) 1999; 112 (Supl. 1): 35-42. Pablos Méndez A, Barr G, Shea S. Run-in periods in ran-
Gibaldi M, Sullivan S. Intention-to-treat analysis in random- domized trials: implications for the analysis of results in
ized trials: who gets counted? J Clin Pharmacol 1997; 37: clinical practice. JAMA 1998; 279: 222-225.
667-672. Peduzzi P, Henderson W, Hartigan P, Lavori P. Analysis of
Godwin M, Ruhland L, Casson I et al. Pragmatic controlled randomized controlled trials. Epidemiol Rev 2002; 24:
clinical trials in primary care: the struggle between exter- 26-38.
nal and internal validity. BMC Med Res Methodol 2003 Pocock SJ. When to stop a clinical trial. BMJ 1992; 305: 235-
22; 3 (1): 28. 240.
Green SB. Design of randomized trials. Epidemiol Rev 2002; Roland M, Torgerson BJ. What are pragmatic trials? BMJ
24: 4-11. 1998; 316: 285.
Greenhalgh T. How to read a paper: papers that report drug Rothman KJ, Mitchels KB. The continuing and ethical use of
trials. BMJ 1997; 315: 480-483. placebo controls. NEJM 1994; 331: 394-398.
Guyatt G, Rennie D, eds. Users’ Guides to the Medical Lite- Sackett DL, Straus SE, Richardson WS, Rosenberg W,
rature: a manual for evidence-based clinical practice. Haynes RB. Evidence-Based Medicine: how to practice
Chicago: American Medical Association, 2002. and teach EBM. 2.a ed. Londres: Churchill Livingstone,
Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine 2000.
Working Group. Users' guides to the medical literature Sacristán JA, Soto JA, Galende I. Evaluación crítica de en-
II. How to use an article about therapy or prevention. A. sayos clínicos. Med Clin (Barc) 1993; 100: 780-787.
Are the results of the study valid? JAMA 1993; 270: 2598- Schulz KF, Altman DG, Moher D. Allocation concealment in
2601. clinical trials. JAMA 2002; 288: 2406-2407.
Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Schultz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
Working Group. Users' guides to the medical literature dence of bias: dimensions of methodological quality
II. How to use an article about therapy or prevention. B. associated with estimates of treatment effects in con-
What were the results and will they help me in caring for trolled trials. JAMA 1995; 273: 408-412.
my patients? JAMA 1994; 271: 59-63. Tannock IF. The recruitment of patients into clinical trials.
Kienle G, Kiene H. The powerful placebo effect: fact or fic- Br J Cancer 1995; 71: 1134-1135.
tion? J Clin Epidemiol 1997; 50: 1311-1318. Task Force of the Working Group on Arrythmias of the Eu-
Lachin JM. Statistical considerations in the intent-to-treat ropean Society of Cardiology. The early termination of
principle. Control Clin Trials 2000; 21: 167-189. clinical trials: causes, consequences, and control. With
Lewis JA, Jonsson B, Kreutz G, Sampaio C, Van Zwieten-Boot special reference to trials in the field of arrhythmias and
B. Placebo-controlled trials and the Declaration of sudden death. Eur Heart J 1994; 15: 721-738.
Helsinki. Lancet 2002; 359: 1337-1340. Temple R, Ellenberg SS. Placebo-controlled trials and active-
McMahon AD. Study control, violators, inclusion criteria control trials in the evaluation of new treatments. Part 1:
and defining explanatory and pragmatic trials. Stat Med ethical and scientific issues. Ann Intern Med 2000; 133:
2002; 21: 1365-1376. 455-463.

48
Capítulo 6
Estudios experimentales II:
otros diseños

n el capítulo anterior se han presentado las sólo cinco pasan a la fase clínica y solamente uno llega

E principales características del diseño experi-


mental más utilizado en investigación clínica
(el ensayo clínico aleatorio paralelo), en su finali-
a obtener la autorización para su comercialización.
La primera etapa del proceso es la investigación
preclínica, durante la cual se realizan estudios de
dad más frecuente (la comparación de la eficacia laboratorio y en animales para demostrar la actividad
de dos intervenciones terapéuticas). Sin embargo, biológica del compuesto en una determinada enfer-
su utilización con otros objetivos, como la evalua- medad y evaluar su seguridad. Estos estudios duran
ción de la eficacia de una medida preventiva o una aproximadamente tres años y medio. Sólo si el fár-
prueba diagnóstica, o la demostración de la equiva- maco se muestra seguro para administrarlo a los seres
lencia entre dos intervenciones, requiere realizar humanos, se pasa a la etapa de desarrollo clínico, que
algunas consideraciones específicas. Además, exis- consiste generalmente en cuatro fases, comenzando
ten otros diseños de ensayo clínico aleatorio (ECA) por estudios a pequeña escala para determinar su
diferentes del paralelo, como el diseño cruzado, el seguridad (tabla 6.1). Posteriormente se amplía a
factorial o el secuencial, que tienen ventajas impor- ensayos más grandes para probar su eficacia. Antes de
tantes en determinadas situaciones. También exis- iniciar la fase clínica es preciso solicitar la autoriza-
ten otros estudios experimentales cuyas principales ción para estudiar el producto en humanos a las auto-
características deben conocerse. Estos aspectos son ridades sanitarias. En España se denomina Producto en
los que se abordan en este capítulo. Fase de Investigación (PFI) y se solicita a la Agencia
Española del Medicamento.
Los ensayos de la fase I suelen durar aproximada-
DESARROLLO CLÍNICO
mente un año. Incluyen entre 20 y 80 voluntarios
DE MEDICAMENTOS
sanos normales y estudian el perfil de seguridad del
El desarrollo de un fármaco es una actividad comple- fármaco, los rangos de seguridad de la dosificación,
ja que requiere gran cantidad de recursos y tiempo los datos farmacológicos, la absorción, la distribu-
(unos 12 años). Antes de comercializar un nuevo fár- ción, la metabolización, la excreción y la duración de
maco, se debe realizar un extenso proceso de experi- su acción. Sólo si se demuestra que su administración
mentación que ha de presentarse para su aprobación a seres humanos es razonablemente segura (algunos
a las agencias reguladoras de los países en los que efectos adversos pueden ser aceptables, dependiendo
se desea comercializar. Aproximadamente, de cada de la gravedad de la enfermedad), puede seguirse
5.000 compuestos que entran en fase preclínica, tan adelante. En esta fase también se realiza la prueba de

49
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 6.1. Clasificación de los estudios en función del momento del desarrollo de un fármaco

Fases Características

Preclínica • Duración: 3,5 años


• Objetivo principal: determinar la seguridad y la actividad biológica
• Diseño: estudios de laboratorio y animales
Fase I • Primer estadio de la prueba de un nuevo fármaco en la especie humana
• Duración: 1 año
• Objetivo principal: evaluar la seguridad y la dosificación del fármaco en humanos.
A veces también se obtienen datos farmacocinéticos y farmacodinámicos
• Sujetos: voluntarios sanos (de 20 a 80 individuos)
• Diseño: habitualmente son estudios no controlados
Fase II • Duración: 2 años
• Objetivo principal: conocer la farmacocinética y la farmacodinamia (búsqueda de dosis,
mecanismo de acción farmacológica, relaciones dosis/respuesta) y los efectos adversos
• Sujetos: pacientes potenciales (de 100 a 300 individuos), aunque inicialmente también
puede llevarse a cabo en voluntarios sanos
• Diseño: estudios no controlados y ensayos clínicos aleatorios controlados con placebo,
bajo criterios de selección muy estrictos
Fase III • Última fase de la evaluación de un medicamento antes de su comercialización
• Objetivo principal: evaluar la eficacia y relación beneficio/riesgo en comparación con otras
alternativas terapéuticas disponibles, o con un placebo si no hay tratamiento disponible.
Permite establecer la eficacia del nuevo fármaco e identificar y cuantificar los efectos
indeseables más frecuentes
• Sujetos: pacientes (de 1.000 a 3.000 individuos)
• Diseño: ensayos clínicos aleatorios
Fase IV • Estudios realizados después de la comercialización del fármaco
• Objetivo principal: evaluar mejor el perfil de seguridad, las posibles nuevas indicaciones
o nuevas vías de administración, la eficacia en las condiciones habituales de uso (efectividad) o
en grupos especiales
• Sujetos: pacientes
• Diseño: ensayos clínicos aleatorios y estudios observacionales

concepto, con la que se determina si existen indicios cia (o ineficacia) de un fármaco antes de realizar los
razonables de que el fármaco puede ser eficaz en la costosos ensayos de la fase III.
indicación seleccionada. Los ensayos clínicos de fase III se diseñan para pro-
En la fase II se diseñan estudios de aproximada- bar la eficacia y la seguridad de un fármaco a largo
mente 100 a 300 pacientes voluntarios para confir- plazo. Son generalmente estudios a doble ciego, con-
mar la seguridad, determinar la eficacia en seres trolados con placebo, e incluyen habitualmente de
humanos a corto plazo y ayudar a determinar algunos 1.000 a 3.000 pacientes en un período de cerca de tres
parámetros como la dosificación para los ensayos pos- años. Aunque el número de pacientes incluidos puede
teriores. Típicamente se realizan ensayos controlados ser elevado, los riesgos son relativamente mínimos, debi-
con placebo y doble ciego. Estos ensayos suelen durar do a que las pruebas anteriores establecen su seguridad.
alrededor de dos años. El uso adecuado de la infor- El gran alcance de estos ensayos da a los investigadores
mación obtenida en los ensayos de las fases preclíni- la oportunidad de demostrar la eficacia y la seguridad
ca y I permite optimizar los diseños de los ensayos de del medicamento, así como identificar algunos efectos
la fase II, pudiéndose demostrar claramente la efica- secundarios raros del tratamiento, si los hubiera.

50
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

Toda la información obtenida se recopila en un que el número de personas que desarrollarán la en-
dossier de registro, que se presenta a las autoridades fermedad es muy bajo, y quizá tras un largo espacio
sanitarias para solicitar la aprobación de la comercia- de tiempo, mientras que las complicaciones de una
lización del fármaco. enfermedad se pueden detectar en una alta propor-
Tras la comercialización, se debe continuar remi- ción de individuos enfermos en un tiempo relati-
tiendo informes periódicos a las autoridades regula- vamente corto. En consecuencia, los ensayos que
doras, incluyendo todos los casos de reacciones evalúan una medida preventiva suelen requerir un
adversas y los registros de control de calidad apropia- mayor número de individuos y un seguimiento más
dos. También pueden realizarse estudios posteriores largo, lo que comporta importantes problemas orga-
a la comercialización del medicamento (fase IV), que nizativos.
suelen ser de gran tamaño, a menudo con diseños En muchas ocasiones, los estudios que evalúan
observacionales, dirigidos a conocer mejor su perfil medidas de prevención secundaria, como la detec-
de seguridad, sus efectos a largo plazo y otros aspec- ción precoz de una enfermedad, se limitan a valorar
tos relacionados con su utilización. las características de la prueba de identificación de
los sujetos con el factor de riesgo o la enfermedad
(fig. 6.1A), considerando que la detección precoz
EVALUACIÓN DE LA EFICACIA
mejora el pronóstico de estos sujetos. En estos estu-
DE MEDIDAS PREVENTIVAS
dios se asume que existe una intervención eficaz,
Los ensayos clínicos que evalúan la eficacia de una y que esta eficacia es tanto mayor cuanto antes se apli-
medida preventiva presentan algunas diferencias res- que, lo que no siempre es cierto. Además, en muchas
pecto de los ensayos que estudian la eficacia de un ocasiones se ha demostrado que la intervención es
tratamiento. La primera es que habitualmente se es- eficaz para controlar el factor de riesgo, pero no que
tudian individuos presuntamente sanos. Ello implica ello redunde en un mejor pronóstico de los sujetos.

DETECCIÓN INTERVENCIÓN

Sujetos Identificación Abandono o control


asintomáticos del factor de riesgo del factor de riesgo Pronóstico

A
B

A. Evaluación de la utilidad de la prueba de detección precoz para


la identificación de los sujetos con el factor de riesgo.
B. Evaluación de la eficacia de la intervención sobre el abandono o el control
del factor de riesgo.
C. Evaluación de la relación entre el abandono o el control del factor
de riesgo y el pronóstico de los sujetos.
D. Evaluación de la eficacia de la intervención sobre el pronóstico de los sujetos.
E. Evaluación de la eficacia de la detección precoz y la posterior intervención
Figura 6.1. Evaluación sobre el pronóstico de los sujetos.
de la eficacia de una
actividad preventiva.

51
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Por tanto, la evaluación de la eficacia de una medida En segundo lugar, el sesgo por adelanto en el diagnós-
de detección precoz debería incluir estudios que tico (lead time bias). El período de latencia de una en-
comprobaran si su aplicación seguida de la interven- fermedad se define como el tiempo transcurrido
ción mejora el pronóstico, lo que debería realizarse entre su inicio biológico y la aparición de los signos o
mediante un ECA (fig. 6.1E). los síntomas que permitirían su diagnóstico. Durante
Si la eficacia de esta prueba de detección precoz este período, el problema de salud puede ser detec-
no se evalúa mediante un ECA, se puede concluir tado a través de la realización de una actividad pre-
que la nueva prueba mejora el pronóstico incluso ventiva antes del momento en que lo habría sido
cuando el tratamiento que se deriva de haber detec- dejado a su evolución natural. Cuando se evalúa la
tado un caso es ineficaz. La simple observación pue- eficacia de una prueba de detección precoz, debe
de llevar a engaño en multitud de ocasiones porque, tenerse en cuenta este tiempo de adelanto del
además de las limitaciones inherentes a los estudios diagnóstico (lead time) para evitar sobrestimar los
observacionales, cuando se evalúan actividades pre- beneficios obtenidos (fig. 6.2).
ventivas hay que tener en cuenta la posibilidad de tres
sesgos específicos. Ejemplo 6.1. Supongamos un estudio hipotético en el
En primer lugar, el llamado sesgo de participación. que la supervivencia media del grupo de sujetos
Dado que, en general, las personas que aceptan y sometidos a cribado es de 7 años, mientras que la del
reciben una medida preventiva suelen gozar de grupo control es de 5 años. En apariencia ha existido
mejor salud que aquellas que la rechazan o no tienen un aumento de 2 años de la supervivencia media. Sin
acceso a ella, si se realizara un estudio observacional embargo, debido a la existencia de un intervalo de
que comparara los sujetos que han recibido la medi- detección, lo que puede haber ocurrido es que se
da preventiva con los que la han rechazado, podría haya adelantado en 2 años el diagnóstico de la enfer-
obtenerse una conclusión errónea favorable a la medad, sin que en realidad se haya mejorado el
medida preventiva. De hecho, este beneficio aparen- pronóstico de los sujetos. De hecho, lo que se ha con-
te puede deberse a otros muchos factores que no han seguido es aumentar el tiempo de enfermedad.
podido controlarse en un estudio observacional,
entre los que uno de los más importantes es la auto- El tercer problema potencial es el sesgo de duración
selección de los sujetos que forman el grupo de estu- de la enfermedad (length time bias). Puede producirse
dio. El mejor modo de tener una cierta garantía de porque el cribado tiene mayor probabilidad de detec-
que no se produce este sesgo de participación es la tar los casos de progresión más lenta, que quizá sean
asignación al azar de los individuos a los grupos de menos graves y tengan mejor pronóstico, ya que su
estudio. período presintomático es más largo.

Detección Diagnóstico
precoz clínico

Supervivencia tras
el diagnóstico
Falso aumento de
la supervivencia
tras el diagnóstico
Adelanto
Verdadero del diagnóstico
aumento de la
supervivencia tras
el diagnóstico Aumento
de la
supervivencia Figura 6.2. Sesgo por
adelanto del diagnóstico
(lead time bias).

52
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

La realización de un ECA, dado que lleva a cabo intervención en relación con otra, sino de compro-
una asignación aleatoria de los sujetos para conseguir bar si ambas son iguales, ya que la nueva intervención
grupos de características similares, previene la apari- presenta ventajas por su seguridad, comodidad de
ción de estos sesgos. administración o coste, por ejemplo, o simplemente
puede representar una nueva alternativa terapéutica.
En este tipo de estudios, el diseño debe ser espe-
EVALUACIÓN DE LA EFICACIA
cialmente riguroso. Debe asegurarse la imparcialidad
DE UNA PRUEBA DIAGNÓSTICA
de la comparación, es decir, que las condiciones del
La evaluación de la eficacia de una prueba diagnósti- ensayo no favorecen a ninguna de las intervenciones
ca puede abordarse bajo diferentes enfoques. Por un por encima de la otra (dosis y pautas óptimas para
lado, puede diseñarse un estudio con la finalidad de ambas, evitar subgrupos de pacientes que podrían
determinar la capacidad de la prueba para distinguir manifestar de forma distinta los efectos de los trata-
entre los sujetos que padecen un problema de salud y mientos, variables y tiempo de valoración adecua-
los que no lo padecen. Este diseño corresponde a un dos), lo que habitualmente implica utilizar criterios
estudio descriptivo de las características de la prueba, similares a los de los estudios en los que la interven-
comparándola con un estándar de referencia, y se ción de comparación demostró su eficacia.
aborda en el capítulo correspondiente. La equivalencia absoluta no puede demostrarse
El segundo enfoque es el de evaluar los beneficios completamente. Cuando un estudio comparativo no
y riesgos asociados al uso de la prueba. Para ello, detecta ninguna diferencia entre dos tratamientos,
debe considerarse la prueba diagnóstica como una puede ser debido tanto a que ambos tengan una efi-
intervención sanitaria, y diseñar un ECA en que los cacia similar como a la incapacidad del estudio para
sujetos sean asignados aleatoriamente a dos grupos, a detectar una diferencia entre ellos. Por ello, es fun-
uno de los cuales se aplica una estrategia diagnóstica damental que los estudios de equivalencia se diseñen
que incluye la prueba en estudio, mientras que al de manera que tengan la sensibilidad suficiente para
otro grupo se le aplica una estrategia alternativa detectar alguna diferencia entre los tratamientos que
(grupo de comparación). Todos los sujetos se siguen se comparan.
para determinar la frecuencia de aparición de los Uno de los aspectos clave de este tipo de estudios
resultados de interés clínico en ambos grupos y com- es, precisamente, establecer el margen de equivalen-
pararla, tal como se ha comentado en el caso de la cia, que corresponde a la máxima diferencia entre
evaluación de la eficacia de una actividad preventiva. ambos tratamientos que se considera clínicamente
aceptable por su escasa relevancia clínica. Este valor
se conoce como delta, y la finalidad del estudio es des-
ESTUDIOS DE EQUIVALENCIA
cartar estadísticamente su existencia. Se trata de
Un estudio de equivalencia no busca detectar posibles demostrar que la nueva intervención es lo suficiente-
diferencias de eficacia, sino mostrar que dos trata- mente similar a la de referencia como para conside-
mientos son igualmente efectivos dentro de unos már- rarlas equivalentes desde el punto de vista clínico.
genes determinados prefijados. Al hablar de equiva-
lencia, deben considerarse dos contextos diferentes. Ejemplo 6.2. Birtwhistle et al (2004), ante la escasa evi-
En primer lugar, los llamados estudios de bioequiva- dencia sobre la periodicidad adecuada de las visitas de
lencia, que corresponden a ensayos de fase I, realiza- seguimiento de los pacientes hipertensos, compara-
dos por la industria farmacéutica para comparar dos ron el control de la presión arterial, la satisfacción y la
formulaciones o métodos de administración de un adherencia al tratamiento de estos pacientes, según si
fármaco, con la intención de demostrar que son las visitas se realizaban cada 3 meses o cada 6. Para
intercambiables. Las variables de respuesta que se uti- ello, diseñaron un ensayo clínico en el que participa-
lizan son medidas farmacocinéticas. Suelen realizarse ron 50 médicos de familia de Canadá. Los 609 pacien-
con un número reducido de sujetos y utilizando tes incluidos fueron asignados a dos grupos, cada uno
diseños cruzados. de los cuales fue seguido con una de las estrategias
El segundo contexto es el de la comparación de la que se comparaban. La asignación fue aleatoria, estra-
eficacia de dos intervenciones. El ECA no se diseña tificada por médico y por bloques de 8 pacientes para
con el objetivo de establecer la superioridad de una asegurar que cada médico tenía un número de pa-

53
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

cientes similar en cada grupo. El diseño fue planteado que la inclusión en el análisis de los sujetos que no
como un estudio de equivalencia, con la hipótesis de han cumplido el protocolo tiende a hacer más simila-
que la verdadera diferencia en el porcentaje de pa- res los resultados de ambos grupos. Sin embargo, en
cientes controlados entre los grupos sería inferior al un estudio de equivalencia, de lo que se trata es pre-
10%. A los 3 años de seguimiento, el porcentaje de cisamente de evitar cualquier influencia que pueda
pacientes controlados, el grado de satisfacción y su hacer que los grupos parezcan más similares de lo
adherencia al tratamiento fueron similares en ambos que son en realidad. La estrategia de análisis por pro-
grupos, sin diferencias relevantes ni estadísticamente tocolo tiende precisamente a resaltar cualquier dife-
significativas. Los autores concluyeron que la estrate- rencia entre los grupos más que a disminuirla. Sin
gia de seguimiento de visitas cada 6 meses es suficien- embargo, en algunas ocasiones, dependiendo de los
te, ya que es equivalente a la de cada 3 meses. motivos por los que se han producido las violaciones
del protocolo, esta última estrategia puede distorsio-
El análisis se basa en el cálculo del intervalo de nar los resultados hacia la conclusión de no diferen-
confianza de la diferencia en la respuesta observada cia. Por ello, en los estudios de equivalencia es prefe-
con ambas intervenciones (fig. 6.3). Si todo el inter- rible realizar ambas estrategias de análisis y esperar
valo cae dentro del rango de equivalencia definido que ambas muestren equivalencia, así como recoger
por el valor delta prefijado, puede concluirse que las información detallada de todos los sujetos incluidos,
intervenciones son equivalentes con una escasa pro- lo que permitirá una mayor flexibilidad en el análisis
babilidad de error. Si cae fuera de dicho rango, se y proporcionará una base más fuerte para la conclu-
concluye que no son equivalentes. En el resto de situa- sión del estudio.
ciones, los resultados del estudio no son concluyentes. En otras ocasiones, el objetivo del estudio no es
La estrategia de análisis de los estudios de equiva- comprobar si la nueva intervención es equivalente a
lencia tiene algunos aspectos diferentes de la de los la de referencia, sino que basta con demostrar que no
estudios de superioridad, en los que dicha estrategia es inferior (estudios de no-inferioridad). El enfoque de
por intención de tratar es la más conservadora, ya estos estudios es similar a los de equivalencia, pero el

B mejor que A Equivalencia A mejor que B

No equivalentes

No concluyente

Equivalentes

Equivalentes

Equivalentes

No concluyente

No equivalentes

No concluyente
Figura 6.3. Interpretación de
los resultados de un ensayo de
– delta 0 + delta equivalencia, en función del
intervalo de confianza, de la
Diferencia entre los tratamientos A y B diferencia observada entre los
tratamientos.

54
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

valor delta que se ha establecido se refiere tan sólo la introducción de sesgos. La asignación de los gru-
a uno de los sentidos de la comparación (límite de pos debe realizarse de forma aleatoria y con el mismo
no-inferioridad). rigor que si fuera individual. También puede intro-
ducirse un sesgo de selección si los profesionales de
cada uno de los grupos identifican y reclutan a los
ECA CON ASIGNACIÓN POR GRUPOS
pacientes de forma diferente. Puffer et al (2003)
Habitualmente, en un ECA cada sujeto se asigna de encontraron problemas en este último aspecto que
forma individual a uno de los grupos que se compa- podría haber introducido un sesgo en 14 de los
ran, recibe directamente la intervención asignada y 36 ensayos con asignación por grupos publicados en
es él sobre quien se mide la respuesta observada. Sin BMJ, Lancet y New England Journal of Medicine
embargo, en ocasiones, esta asignación individual no entre enero de 1997 y octubre de 2002.
es posible o no es adecuada, por lo que se recurre a El principal problema de estos estudios es que no
una asignación por grupos (clusters), como ocurre, puede asumirse que el resultado de cada paciente es
por ejemplo, cuando se asignan zonas geográficas independiente del de cualquier otro (p. ej., el manejo
para desarrollar un programa de cribado de cáncer de dos sujetos por un mismo profesional es probable
de mama, o escuelas para recibir un determinado que sea más similar que si fueran atendidos por dos
programa educativo de promoción de la salud, o profesionales diferentes), por lo que su potencia
cuando se evalúan los efectos de una guía de práctica estadística es menor que la de un ECA habitual con un
clínica o una intervención de educación médica, de número de pacientes parecido. Este hecho debe tener-
manera que los profesionales sanitarios y no los se en cuenta al determinar el tamaño necesario de la
pacientes son la unidad de asignación. muestra, que puede llegar a ser muy superior
Este diseño también es útil cuando se pretende al de un ECA habitual si existe una gran variabilidad
evitar la posible contaminación que puede producirse entre las unidades de asignación y poca variabilidad en
entre las intervenciones al realizarse en un mismo el interior de cada una de ellas.
emplazamiento. Por ejemplo, si se desea comparar el Por otro lado, este mismo hecho tiene repercusio-
efecto del consejo individualizado para la modifica- nes importantes en el análisis de los resultados, que
ción de los hábitos de vida de los pacientes, forman- deberá realizarse de forma agregada, ya que la unidad
do y entrenando a los profesionales sanitarios para de análisis debe corresponder a la unidad de asigna-
proporcionarlo. Si se asignara a los pacientes de for- ción (zona geográfica, escuela, centro de salud, profe-
ma individual, un mismo profesional tendría pacien- sional, etc.), ya que, si se ignora el hecho de que la asig-
tes de ambos grupos, pero, dado que ha sido formado nación se ha realizado por grupos, y se analizan los
y entrenado para proporcionar consejo, difícilmente pacientes como un ECA habitual, se produce una dis-
podría proporcionar la atención habitual (como si minución de los valores de significación estadística y un
no hubiera recibido la formación específica) a los estrechamiento de los intervalos de confianza, aumen-
sujetos del grupo control. Este fenómeno podría evi- tando la probabilidad de detectar diferencias signifi-
tarse realizando una asignación por profesionales cativas y obtener conclusiones erróneas. Una forma
(o por centros de salud). sencilla de analizar estos estudios es construir un
estadístico sintético para cada una de las unidades de
Ejemplo 6.3. Eccles et al (2001) eligieron aleatoria- asignación, y analizarlos, preferiblemente realizando
mente a 244 equipos de atención primaria con el fin alguna ponderación según su tamaño. Sin embargo, las
de evaluar dos estrategias de formación para reducir técnicas de análisis habituales suelen ser ineficientes y
el número de solicitudes de exploraciones radiológi- es preferible recurrir a técnicas más específicas.
cas en los pacientes que consultaban por problemas
de rodilla o en la espalda. La variable de respuesta Ejemplo 6.4. En el Reino Unido se realizó un estudio
que utilizaron fue el número de peticiones de radio- en 34 consultas de atención primaria que derivaban
logía por 1.000 pacientes y año. los pacientes para exploraciones radiológicas a un
mismo centro. Los pacientes fueron asignados alea-
Estos estudios suelen ser más difíciles de diseñar y toriamente a dos grupos (Oakeshott et al, 1994). Las
ejecutar que los ECA habituales, y deben tenerse en consultas de uno de los grupos recibieron un docu-
cuenta algunos aspectos que los hacen susceptibles a mento con las guías del Royal College of Radiologists

55
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

adaptadas a la atención primaria con los criterios Tabla 6.2. Elementos clave para la realización
recomendados para la derivación. No se realizó nin- de un diseño secuencial
guna intervención sobre las consultas del grupo con-
trol. Dado que todos los pacientes de una misma 1. Parámetro que exprese la ventaja del
consulta recibieron la misma intervención, la unidad tratamiento experimental sobre el control.
experimental fue la consulta. La medida de la res- Se trata de una característica desconocida
puesta fue el porcentaje de exploraciones radiológi- de la población sobre la que pueden realizarse
cas solicitadas que podían considerarse adecuadas de hipótesis y de la que pueden obtenerse
acuerdo con las guías. estimaciones
2. Criterio estadístico que exprese la ventaja del
ENSAYO CLÍNICO SECUENCIAL tratamiento experimental sobre el control, a
partir de la muestra de datos disponibles en un
En el diseño habitual de un ECA, se determina el nú- análisis intermedio, y un segundo criterio
mero de sujetos necesario para tener la suficiente estadístico que exprese la cantidad de
potencia estadística para detectar una diferencia información sobre la diferencia entre los
determinada con un nivel de significación fijado, asu- tratamientos contenida en dicha muestra
miendo que el análisis se realizará una vez que se 3. Regla de finalización (stopping rule) que
hayan recogido los datos de todos los sujetos. determine si el análisis intermedio debe ser el
En ocasiones, por motivos éticos y económicos, último, y, en caso afirmativo, si puede concluirse
puede ser importante realizar alguna monitorización que el tratamiento experimental es mejor
de los datos del estudio, con la intención de finalizar- o peor que el control, o bien si no se ha establecido
lo tan pronto como exista la suficiente evidencia de la existencia de una diferencia entre los
que uno de los tratamientos es superior al otro, o tratamientos
bien de que ambas alternativas que se comparan son 4. Método de análisis válido para el diseño
iguales. Sin embargo, la repetición de análisis estadís- específico utilizado, que proporcione un valor
ticos a medida que se van acumulando datos tiene de p y una estimación puntual y por intervalo
ciertos problemas. Por un lado, la probabilidad de
cometer un error tipo I, es decir, de concluir erró- Modificada de Whitehead, 1999.
neamente que el tratamiento de estudio es diferente
del de comparación, aumenta con el número de aná-
lisis intermedios que se realicen (p. ej., si se realizan cia entre los tratamientos a lo largo del estudio. Si el
cuatro análisis intermedios, la probabilidad de come- valor de este estadístico excede un valor crítico prefi-
ter un error tipo I se sitúa alrededor del 14%). Por jado, el ensayo se finaliza y se rechaza la hipótesis nula
otro lado, el análisis final del estudio también debe de ausencia de diferencia. Si el valor del estadístico no
realizarse teniendo en cuenta la realización previa de sobrepasa dicho valor crítico, no existe todavía la sufi-
los análisis intermedios. ciente evidencia para alcanzar una conclusión y el
En estas situaciones, se utilizan diseños específicos estudio continúa. Sin embargo, la decisión de finali-
que se engloban bajo la denominación de métodos zar el estudio debe tomar en consideración otros
secuenciales. Se trata de ensayos en los que el tamaño aspectos adicionales, como los efectos secundarios, la
de la muestra no está predeterminado, sino que facilidad de administración, el coste, las evidencias
depende de las observaciones que se realizan. Su procedentes de otras fuentes, etc., de manera que el
característica principal es la definición de una regla criterio estadístico no sea el único determinante de
de finalización explícita (stopping rule) en la que se dicha decisión.
establece la forma en que la decisión de finalizar el Los análisis intermedios pueden realizarse después
estudio depende de los resultados obtenidos hasta de conocer el resultado de cada uno de los pacientes
ese momento. La tabla 6.2 muestra los cuatro ele- incluidos o bien de grupos de sujetos. Lógicamente, si
mentos clave de este tipo de estudios, de los que los solamente se realizan uno o dos análisis intermedios,
dos primeros son comunes con los ECA tradicionales. se reduce la posibilidad de detectar precozmente una
El diseño de estos estudios requiere la monitoriza- diferencia y se retrasa la posible finalización del estu-
ción de un criterio estadístico que sintetice la diferen- dio. Sin embargo, dado que la realización de estos

56
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

análisis complica el estudio, en la práctica se reco- durante un período de 4 horas, asignando una prefe-
mienda realizar entre cuatro y ocho análisis interme- rencia para cada pareja al tratamiento más efectivo. En-
dios. Una vez finalizado el estudio, debe efectuarse un contraron un número de preferencias similar (8 y 7),
análisis final que tenga en cuenta el carácter secuen- concluyendo que el 25% de la dosis equivalente de
cial del ensayo, ya que la utilización de los métodos 4 horas puede ser suficiente para reducir la intensi-
tradicionales conduce a valores de p demasiado dad de la disnea y la taquipnea en pacientes oncoló-
pequeños, estimaciones puntuales excesivamente gicos terminales con disnea persistente.
grandes e intervalos de confianza muy estrechos. Para poder utilizar un diseño secuencial, la res-
Así, por ejemplo, en los diseños secuenciales de prefe- puesta debe poder observarse en un tiempo relativa-
rencias por parejas, los pacientes se incluyen de dos en mente corto que permita tomar la decisión de finali-
dos, recibiendo cada uno de ellos uno de los trata- zar o no el estudio de forma rápida. Los hipnóticos y
mientos de forma aleatoria, y se determina cuál de los analgésicos son ejemplos de fármacos que han sido
dos responde mejor. A medida que progresa el estu- evaluados, en ocasiones, mediante este diseño.
dio, se van acumulando preferencias a favor de uno u
otro tratamiento, que se van representando en un grá-
ENSAYO CLÍNICO FACTORIAL
fico (fig. 6.4). El ensayo finaliza tan pronto como los
resultados alcanzan uno de los límites prefijados por El diseño factorial permite al investigador evaluar dos
la regla de finalización: si se alcanza el límite superior, intervenciones o más en un único estudio. En su forma
se concluye que A es mejor; si se alcanza el límite infe- más sencilla para evaluar dos tratamientos (A y B),
rior, se concluye que B es mejor; y si se alcanza el lími- cada sujeto se asigna aleatoriamente a uno de cuatro
te central, se concluye que no se tiene evidencia de grupos (tabla 6.3): un grupo recibe ambos tratamien-
que existan diferencias entre los tratamientos. tos, dos grupos reciben solamente uno de los trata-
mientos cada uno, y el cuarto grupo no recibe
Ejemplo 6.5. Allard et al (1999) utilizaron un diseño ningún tratamiento. Si existe enmascaramiento, cada
secuencial para evaluar la eficacia de las dosis suple- uno de los tres últimos grupos debe recibir un place-
mentarias de opioides para la disnea de los pacientes bo del tratamiento o de los tratamientos que no se
oncológicos terminales. Incluyeron 15 parejas de administran.
pacientes. En cada pareja, el orden de las interven- Este diseño es muy útil para evaluar a la vez varios
ciones (administración del 25 o del 50% de su dosis tratamientos con mecanismos de acción y efectos
de opioides) fue asignado aleatoriamente. Se midió independientes (A tiene la misma eficacia tanto en el
la intensidad de la disnea y la frecuencia respiratoria grupo que recibe también B como en el que no lo

Evidencia de que
20 A es mejor
A

10 No evidencia
de diferencia
Exceso de
preferencias 0
20 40 60 80 Número
de preferencias
10

B
20
Evidencia de que
B es mejor

Figura 6.4. Ensayo secuen-


cial de preferencias por parejas.

57
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 6.3. Diseño factorial que evalúa dos tratamientos


Tratamiento A

Sí No Total

Tratamiento B Sí AB B0 B

No A0 00 No B

Total A No A

Análisis de los marginales (ausencia de interacción): Existencia de interacción:


• Eficacia de A: A (celdas AB y A0) frente a No A (celdas B0 y 00). • Eficacia de A: celda A0 frente a celda 00.
• Eficacia de B: B (celdas AB y B0) frente a No B (celdas A0 y 00). • Eficacia de B: celda B0 frente a celda 00.

recibe, y viceversa) con el mismo número de indivi- no altere los criterios de inclusión y exclusión de la
duos que hubiera sido necesario para evaluar un solo principal, ya que, de otro modo, se perderá eficiencia
tratamiento. En este caso, el análisis consiste en com- y se complicará mucho la ejecución del estudio.
parar todos los sujetos que han recibido cada uno de No es conveniente evaluar más de una hipótesis
los tratamientos con los que no lo han recibido (mar- de forma simultánea cuando se sospecha que una de
ginales de la tabla 2 ⫻ 2). las intervenciones tiene muchos efectos secundarios
o es muy mal tolerada, ya que ello condicionará un
Ejemplo 6.6. En el estudio americano sobre el efecto mal cumplimiento de todas las intervenciones. Por
de la aspirina en la prevención primaria del infar- otro lado, es imprescindible que ambas intervencio-
to de miocardio, los investigadores aprovecharon nes no interaccionen entre sí.
la misma muestra de individuos para estudiar el efec- Cuando existe interacción entre los tratamientos,
to del beta-caroteno sobre el cáncer (Hennekens y tanto si es sinérgica (A es más eficaz si se administra
Eberlin, 1985). Los sujetos fueron distribuidos alea- conjuntamente con B, o viceversa) como antagónica
toriamente en cuatro grupos: los asignados al prime- (A es menos eficaz cuando se administra conjunta-
ro de ellos recibieron aspirina más beta-caroteno; los mente con B, o viceversa), la estrategia de análisis es
del segundo, aspirina más un placebo de beta-caro- diferente, y obliga a comparar los resultados de cada
teno; los del tercero, beta-caroteno más un placebo una de las celdas. Por ejemplo, la eficacia de A se
de aspirina, y los del cuarto grupo, un placebo de determina comparando el grupo que ha recibido
beta-caroteno más un placebo de aspirina. Los resul- solamente A con el que no ha recibido ningún trata-
tados de todos aquellos que recibieron aspirina se miento. De forma similar se calcularía la eficacia de
compararon con los de aquellos que recibieron pla- B. La evaluación de la interacción supone comparar
cebo de aspirina, con independencia de que recibie- los efectos de cada uno de los tratamientos cuando se
ran beta-caroteno o placebo. Por otro lado, se com- administra solo o conjuntamente con el otro. De ello
pararon los individuos que tomaron beta-caroteno se deduce que, cuando se utiliza este diseño para eva-
con los que tomaron su correspondiente placebo con luar interacciones, el tamaño muestral debe incre-
independencia de que recibieran aspirina o placebo. mentarse de forma importante.

En la situación planteada en el ejemplo anterior,


ENSAYO CLÍNICO CRUZADO
el diseño factorial es muy eficiente ya que es capaz de
dar respuesta a dos o más hipótesis en un solo estu- En un ECA paralelo, cada paciente se asigna a un
dio. Permite explorar una hipótesis poco madura grupo y recibe sólo una de las intervenciones que se
(como es el caso del efecto del beta-caroteno en la comparan. Sin embargo, parece lógico pensar que, si
prevención del cáncer), junto con otra que posee se compararan dos tratamientos, sería preferible
una mayor evidencia empírica. Sin embargo, es administrar ambos a los mismos sujetos, de manera
importante que la evaluación de la segunda hipótesis que cada paciente actuara como su propio control.

58
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

Dado que la variabilidad intrasujetos es menor que la de un cartucho presurizado comparada con la de la
entresujetos, la comparación sería más potente y inhalación con ayuda de una cámara de aerosol, en
la estimación de la diferencia más precisa. Este tipo pacientes con limitación al flujo aéreo (Mayos et al,
de estudios se denominan ensayos cruzados (cross-over). 1987). El estudio se realizó en dos días sucesivos,
En el caso más sencillo de comparación de dos tra- siempre por la mañana y a la misma hora, mediante
tamientos, cada individuo es asignado aleatoriamen- un diseño de doble ciego cruzado. El tratamiento
te a un grupo, que recibe, en un primer período, una broncodilatador se suspendió 12 horas antes de cada
de las dos intervenciones y, en un segundo período, prueba. Cada uno de los días, se administró al pacien-
la otra (fig. 6.5). Ambos períodos suelen estar separa- te dos inhalaciones consecutivas de 0,1 mg de salbu-
dos por una fase de lavado o blanqueo para permitir tamol y dos inhalaciones de placebo, a través de dos
que el paciente vuelva a su estadio inicial. Este perío- cartuchos en apariencia idénticos, uno de forma
do intermedio debe ser lo suficientemente largo para directa y otro con la cámara de aerosol intercalada:
asegurar que el efecto del tratamiento administrado
en el primer período ha desaparecido. Día A: cartucho salbutamol y (cartucho placebo
Las características diferenciales entre un estudio + cámara de aerosol).
en paralelo y uno cruzado se recogen en la tabla 6.4. Día B: cartucho placebo y (cartucho salbutamol
+ cámara de aerosol).
Ejemplo 6.7. Un estudio tenía por objetivo evaluar la El orden de distribución del cartucho-cámara de
respuesta espirométrica al salbutamol inhalado des- aerosol y del salbutamol-placebo fue aleatorio.

Muestra

Asignación aleatoria

Grupo A Grupo B
Secuencia AB Secuencia BA

Grupo A Grupo B
Tratamiento A Tratamiento B
Período 1

Respuesta A1 Respuesta B1

Período
de lavado

Grupo B Grupo A
Período 2 Tratamiento A Tratamiento B

Respuesta A2 Respuesta B2

Efecto tratamiento (columnas): (A1 + A2) frente a (B1 + B2).


Efecto período (filas): (A1 + B1) frente a (A2 + B2).
Efecto secuencia (interacción): (A1 + B2) frente a (B1 + A2).

Figura 6.5. Esquema de un ensayo clínico cruzado.

59
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 6.4. Principales características diferenciales entre un estudio paralelo y uno cruzado

Estudio paralelo Estudio cruzado

• Los grupos de estudio y de comparación están • Cada sujeto actúa como su propio control
formados por sujetos diferentes
• Los pacientes se asignan para recibir • Los sujetos se asignan a la secuencia en que recibirán
uno de los tratamientos ambos tratamientos
• Período de blanqueo no necesario • Período de blanqueo imprescindible

Sin embargo, en la mayoría de las ocasiones este mizar este efecto es que cada paciente cambie de tra-
diseño no es factible, ya que habitualmente los trata- tamiento varias veces, recibiéndolos durante varios
mientos producen cambios irreversibles en el estado intervalos de tiempo, de forma que si existe un efecto
de salud de los pacientes, o a veces deben adminis- período, éste quede contrarrestado. Sin embargo, ello
trarse durante largos períodos. El diseño cruzado es dificulta mucho la ejecución del estudio y también el
adecuado cuando se evalúan intervenciones que pro- que los pacientes acepten participar.
ducen rápidas mejorías en los síntomas de enferme- La evaluación de la existencia de un efecto pe-
dades crónicas, relativamente estables, y cuyos resul- ríodo requiere comprobar si existen diferencias
tados también desaparecen de forma rápida. No es entre los resultados obtenidos en el primer período
adecuado en el caso de que la secuencia en que se (A1 + B1) y en el segundo (A2 + B2).
administran las intervenciones pueda alterar el resul-
tado, o cuando no es posible realizar un período de E FECTO SECUENCIA
blanqueo que asegure la total desaparición del efecto Los pacientes no se asignan a un único tratamiento,
de la intervención recibida en primer lugar. sino a una secuencia de intervenciones. Si todos los
La estructura básica de un diseño cruzado se pre- sujetos recibieran las distintas intervenciones siguien-
senta en la figura 6.5. Los pacientes asignados al do una misma secuencia, primero A y después B, se
grupo A reciben el tratamiento A en el período 1, y el asumiría que los efectos del segundo tratamiento B
B en el período 2. Los pacientes del grupo B los reci- después de A no se diferenciarían de los obtenidos
ben en el orden inverso. El efecto del tratamiento se si B se hubiera administrado en primer lugar.
obtiene comparando los resultados obtenidos por la El único modo de evaluar si la secuencia en que se
intervención A en ambos períodos (A1 + A2) con los reciben las intervenciones afecta los resultados es que
obtenidos por la intervención B (B1 + B2). Sin em- unos pacientes reciban la secuencia AB y otros la BA.
bargo, esta comparación no tiene en cuenta que los El mejor método es asignar los pacientes de forma
tratamientos se han administrado en períodos y aleatoria a cada una de estas secuencias.
secuencias diferentes. Además del efecto propio de la Un efecto secuencia puede darse siempre que un
intervención, el análisis de los resultados de un ensa- individuo se observa más de una vez en períodos dis-
yo cruzado debe tomar en consideración la posible tintos. De modo intuitivo, se puede entender co-
existencia de los efectos período y secuencia. mo una interacción entre el propio tratamiento y el
efecto período que se presenta en las siguientes
E FECTO PERÍODO situaciones:
Dado que cada paciente se observa en dos períodos
distintos, es importante determinar si ha existido – Cuando la respuesta en el segundo período está
algún cambio entre el primero y el segundo. La enfer- afectada por el tratamiento recibido durante el pri-
medad o síntoma puede progresar, regresar o fluctuar mero. Es el llamado efecto residual. La forma de pre-
en su gravedad, por lo que es posible encontrar cam- venirlo es la aplicación de una fase de blanqueo
bios entre los diferentes períodos, con independencia entre ambos períodos, en la que el paciente no reci-
del tratamiento administrado. Una manera de mini- be ningún tratamiento o, a lo sumo, un placebo. Sin

60
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

embargo, si el período de blanqueo no es lo bastan- la economización en el número de sujetos estudia-


te largo como para permitir que el efecto del pri- dos. Por este motivo, no debe utilizarse este diseño si
mer tratamiento se haya extinguido, puede existir no se está razonablemente seguro, a partir de estu-
cierto efecto residual. dios previos y de consideraciones farmacocinéticas,
– El efecto residual puede estar presente, aunque el de que no existe ninguna interacción entre el trata-
período de blanqueo sea lo bastante largo, en miento y el período, o de que, si existe, es práctica-
el caso de que persistan sus efectos psicológicos du- mente despreciable.
rante el segundo período.
– El efecto residual también aparece cuando los indi- V ENTAJAS
viduos no pueden volver a su estado basal después La principal ventaja del diseño cruzado es su eficien-
del primer tratamiento. En algunos casos, retirar un cia, ya que cada individuo actúa como su propio con-
medicamento que parece efectivo y esperar a que el trol, observándose el mismo número de respuestas
paciente vuelva a los valores iniciales puede dar que en un estudio en paralelo con la mitad de indivi-
lugar a problemas éticos. En otros, si la interven- duos. Dado que encontrar el número de sujetos sufi-
ción aplicada en el primer período cura la enfer- cientes para completar un estudio es un problema
medad, no existe la posibilidad de que el paciente frecuente, ésta es una ventaja nada despreciable.
retorne a su línea de partida. Al evaluar los dos tratamientos en un mismo
– Si existe un fuerte efecto período, el efecto del tra- paciente, la variabilidad intraindividual es menor, lo
tamiento puede verse afectado simplemente por- que permite utilizar pruebas estadísticas para datos
que la enfermedad o el síntoma hayan mejorado o apareados que tienen una mayor potencia y, por
empeorado de un período a otro (la eficacia del tra- tanto, se precisa un número todavía menor de sujetos.
tamiento puede variar según la gravedad de la
enfermedad o el valor de la variable de medida). D ESVENTAJAS
Una de las principales limitaciones deriva, aunque
En cualquier situación, si es probable que después parezca una paradoja, de su eficiencia. Al requerir
de la administración de los tratamientos en el primer menos sujetos, cualquier pérdida durante el segui-
período los pacientes no puedan volver a su estado miento tendrá mayores repercusiones que en un
basal, debe evitarse utilizar un diseño cruzado. diseño en paralelo, debido a que cada paciente apor-
Si existe un efecto secuencia, no es adecuado com- ta mayor cantidad de información. Esto es muy
parar los tratamientos utilizando todos los datos del importante porque, al tener que recibir cada uno de
estudio. Los resultados del primer período son los los pacientes los dos tratamientos o más, las pérdidas
únicos que proporcionan una comparación válida, ya suelen ser más frecuentes. Además, al tener que com-
que los sujetos han sido asignados aleatoriamente a pletar cada paciente dos períodos de seguimiento, la
ambos tratamientos. En cambio, los resultados del duración del estudio es más larga, lo que también
segundo período tienen un valor dudoso, ya que los facilita las pérdidas.
sujetos, aunque habían sido asignados aleatoriamente El diseño cruzado no deberá utilizarse en enferme-
al inicio, han tenido experiencias diferentes antes de dades agudas o que cursen a brotes, ni cuando el
iniciar este período. orden en que se administren las intervenciones pueda
Por ello, se recomienda desglosar el análisis de un alterar el resultado, o cuando no sea posible realizar
ensayo cruzado en dos fases. En la primera se evalúa un período de blanqueo que asegure la total desapari-
un posible efecto secuencia. Si éste no es significativo ción del efecto de la primera intervención.
(utilizando un criterio poco restrictivo, como, por La duración del período de blanqueo ha de ser
ejemplo, p = 0,10), en una segunda fase se analiza el corta. Un fármaco que necesita meses para ser elimi-
efecto del tratamiento con todos los datos del estu- nado del organismo no es un buen candidato para
dio. Si por el contrario, el efecto secuencia es signifi- ser evaluado en un estudio cruzado. Igualmente, este
cativo, se comparan únicamente los resultados del diseño está contraindicado si el tiempo de blanqueo
primer período, aunque ello suponga no utilizar varía mucho de un individuo a otro.
buena parte de la información recogida y desperdi- Las ventajas y limitaciones de los ensayos cruzados
ciar las teóricas ventajas del diseño cruzado, incluida se resumen en la tabla 6.5.

61
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 6.5. Ventajas y desventajas de estudio. De hecho, cuando solamente existen dos
de un estudio cruzado comunidades, no es importante si la intervención se
asigna aleatoriamente o no, ya que las diferencias en la
Ventajas línea basal serán de la misma magnitud (en todo caso,
• Es más eficiente que un estudio en paralelo, ya únicamente la dirección de las diferencias se vería
que requiere un número menor de participantes afectada). Idealmente, debería incluirse un número
de unidades (comunidades) suficiente para que la
• Cada participante es su propio control, por lo que
asignación aleatoria resultara eficaz y tendiera a la dis-
se pueden utilizar técnicas estadísticas para datos
tribución equilibrada de las características basales de
apareados, que son más potentes
ambos grupos.
Desventajas La principal ventaja de los ensayos comunitarios
es la elevada capacidad de generalización de sus
• Tienen mayor duración que los estudios
resultados (validez externa). El fundamento de estos
en paralelo
estudios es desarrollar métodos de reducción de ries-
• No puede utilizarse en enfermedades agudas gos que sean aplicables en las condiciones reales en
o cuya evolución cursa a brotes las que vive la población y evaluar su eficacia en un
• No se puede aplicar cuando no es posible contexto que los hace más generalizables que si se lle-
asegurar la desaparición del efecto de la primera varan a cabo en un contexto clínico. Otras ventajas se
intervención en todos los participantes relacionan con el tipo de intervención que evalúan,
dada la buena relación coste-eficiencia que presen-
tan, al permitir el uso de los medios de comunicación
de masas, la posibilidad de aumentar la eficacia
ENSAYOS COMUNITARIOS
mediante la difusión de la información y el aumento
El ensayo comunitario es el diseño apropiado para la de la comunicación interpersonal, así como la pro-
evaluación de intervenciones de base comunitaria. ducción de cambios en las estructuras sociales e insti-
Por lo tanto, conceptualmente se diferencia de un tucionales que puedan ayudar al mantenimiento de
ensayo clínico en que la intervención no se lleva a los cambios de conducta.
cabo separadamente para cada individuo, sino sobre Sus limitaciones más importantes se relacionan
la comunidad en su conjunto (p. ej., la fluoración de con la dificultad de realizar una inferencia causal,
las aguas de abastecimiento de una comunidad o las dado que habitualmente existe un reducido número
recomendaciones sobre estilos de vida realizadas a de unidades de intervención, las diferencias en la
través de los medios de comunicación). línea basal de las comunidades que se comparan (en
especial, si la asignación no es aleatoria) y la existen-
Ejemplo 6.8. En el Minnesota Heart Health Program se cia de tendencias temporales en la evolución de la
seleccionaron tres parejas de comunidades. Cada pare- exposición y del resultado, que pueden interferir con
ja incluía una comunidad de estudio y una de control la estimación del efecto de la intervención.
que habían sido emparejadas por tamaño, tipo de En cualquier ensayo de intervención comunitaria
comunidad y distancia del área metropolitana. Dentro con una duración prevista de varios años hay que
de cada pareja, la asignación al grupo de estudio o al estimar la tendencia en el tiempo que es probable
control no fue aleatoria. La intervención iba dirigida a que se observe en la variable de respuesta en el
la prevención y el control de la hipertensión arterial, a grupo control. Si la tendencia secular de la variable
la promoción de hábitos alimentarios saludables, a la de respuesta en el grupo control va en la misma
lucha contra el tabaquismo y a la promoción de la prác- dirección que la del grupo de intervención, y es
tica regular de ejercicio físico, y se utilizaron múltiples superior a la esperada, será difícil observar un efecto
estrategias: implicación de los líderes de la comunidad de magnitud suficiente para que el resultado sea
y de los profesionales sanitarios, medios de comunica- estadísticamente significativo. Por esta razón, hay
ción de masas, educación en las escuelas, etc. que tener presente esta información en el diseño,
para no llevar a cabo un estudio que puede ser muy
En el ejemplo anterior no se realizó una asignación costoso, y con pocas probabilidades de encontrar el
aleatoria, dado el reducido número de comunidades resultado esperado.

62
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

Otra desventaja de estos estudios es que su diseño E NSAYOS NO CONTROLADOS


(en especial la estimación del tamaño de la muestra) Un estudio de intervención sin grupo control es
y el análisis son muy complicados. aquel en el que se administra a todos los sujetos que
componen la muestra el fármaco en estudio (o la
OTROS DISEÑOS EXPERIMENTALES intervención de interés), sin que exista un grupo de
comparación concurrente que reciba un placebo u
Además del ECA, existen otros diseños experimenta- otro tratamiento de referencia. Dado que comparan
les que se utilizan en investigación clínica (fig. 6.6). la respuesta al tratamiento con la situación basal al
inicio del estudio, también se denominan estudios
antes-después.
Al leer un artículo, puede ser difícil diferenciar
Diseños experimentales estos estudios de las series de casos descriptivas, en las
que se presentan los resultados observados en un
Grupo control grupo de pacientes que han recibido una interven-
ción que ha sido administrada en el contexto de la
práctica clínica habitual, a veces siguiendo un proto-
Sí No
Asignación aleatoria colo de tratamiento, pero no en el marco de un pro-
yecto de investigación. Es frecuente que la redacción
del artículo no deje suficientemente claro si los inves-
Sí No tigadores controlaron la intervención de acuerdo
Ensayo con un protocolo de investigación o si se han limita-
Ensayo Ensayo no controlado
clínico clínico no do a describir la experiencia observada en un grupo
aleatorio aleatorio de sujetos.
El mayor inconveniente de los estudios no contro-
La asignación de los participantes a los grupos lados radica en la ausencia de un grupo control, por
del estudio puede realizarse individualmente
o por grupos (clusters ). lo que no permiten asegurar que la respuesta obser-
Cuando la intervención que se evalúa se realiza vada (cambio en relación con la situación basal) se
sobre una comunidad, se prefiere la denominación
de ensayo comunitario. deba exclusivamente a la intervención de estudio, ya
que pueden haber influido otras intervenciones que
se hayan producido y otros factores no controlados,
como los efectos placebo, Hawthorne o la propia evo-
Figura 6.6. Estudios experimentales.
lución natural de la enfermedad (fig. 6.7). Por este
motivo, no son diseños adecuados para evaluar la efi-
E NSAYOS CONTROLADOS cacia de una intervención, sino que su utilidad es fun-
NO ALEATORIOS damentalmente descriptiva.
Los ensayos controlados no aleatorios corresponden En la práctica, existen algunas situaciones en las
a estudios experimentales con un grupo control con- que los ensayos no controlados son los más adecuados
currente, muy similares a los ECA, con la diferencia por razones éticas y circunstanciales. Por ejemplo, en
de que los sujetos se asignan a los grupos de estudio un estudio en fase I, en el que en vez de voluntarios
por un mecanismo no aleatorio; por ejemplo, de sanos se estudian pacientes, puede ser éticamente
forma alternativa, por fecha de nacimiento, por nú- incorrecto incluir controles tratados con un placebo.
mero de historia clínica par o impar, etc. Éste es el caso cuando se desarrollan fármacos muy
Dado que la asignación no es aleatoria, existe un tóxicos, destinados al tratamiento de enfermedades
mayor riesgo de que la distribución de los factores especialmente graves. La seguridad de los enfermos,
pronóstico no sea equilibrada entre ambos grupos, junto al beneficio potencial, pesan más que las consi-
de manera que los grupos formados no sean total- deraciones metodológicas. Las fases tempranas del
mente comparables. Por este motivo, se considera desarrollo de un fármaco tienen por objetivo princi-
que estos estudios tienen menor calidad metodoló- pal definir las dosis máximas toleradas con pruebas de
gica que los ECA. laboratorio objetivas. Por tanto, en estos casos, la in-

63
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Muestra

Situación basal
(preintervención)

INTERVENCIÓN

OTROS EFECTOS: Análisis:


Hawthorne Seguimiento comparación
Placebo antes-después
Evolución natural
Regresión a la media
Otras intervenciones

Respuesta
(postintervención)
Figura 6.7. Esquema de un
estudio de intervención no
controlado (antes-después).

clusión de un grupo control concurrente no se consi- diologists’ guidelines on general practitioners’ referral
dera imprescindible. Sin embargo, a medida que pro- for radiographic examination. Br J Gen Pract 1994; 44:
gresa el desarrollo de un nuevo fármaco, el empleo de 197-200.
un grupo control concurrente y aleatorizado se hace Puffer S, Torgerson DJ, Watson J. Evidence for risk of bias in
cluster randomised trials: review of recent trials pub-
imprescindible.
lished in three general medical journals. BMJ 2003; 327:
785-789.
B IBLIOGRAFÍA DE LOS EJEMPLOS
Allard P, Lamontagne C, Bernard P, Tremblay C. How effec-
tive are supplementary doses of opioids for dyspnea in
B IBLIOGRAFÍA
Argimon JM. La ausencia de significación estadística en un
terminally ill cancer patients? A randomized continuous
ensayo clínico no significa equivalencia terapéutica. Med
sequential clinical trial. J Pain Symptom Manage 1999;
Clin (Barc) 2002; 118: 701–703.
17: 256-265.
Armitage P, Berry G, Matthews JNS. Statistical Methods in
Birtwhistle RV, Godwin MS, Delva MD et al. Randomised
equivalence trial comparing three month and six month Medical Research. 4.a ed. Oxford: Blackwell Science,
follow up of patients with hypertension by family practi- 2002.
tioners. BMJ 2004; 15. Atienza AA, King AC. Community-based health intervention
Eccles M, Steen N, Grimshaw J et al. Effect of audit and feed- trials: an overview of methodological issues. Epidemiol
back, and reminder messages on primary care referrals: Rev 2002; 24: 72-79.
a randomised trial. Lancet 2001; 357: 1406-1409. Bland JM, Kerry SM. Trials randomised in clusters. BMJ
Hennekens CH, Eberlein K. A randomized trial of aspirin 1997; 315: 600.
and beta-carotene among US physicians. Prev Med 1985; Buring JE. Special issues related to randomized trials of pri-
14: 165-168. mary prevention. Epidemiol Rev 2002; 24 (1): 67-71.
Mayos M, Casan P, Heredia JL, Sanchis J. Cámara de aerosol Campbell MK, Grimshaw JM. Cluster randomised trials: time
para pacientes con inhalación incorrecta. Arch Bron- for improvement. BMJ 1998; 317: 1171-1172.
coneumol 1987; 23: 118-122. Campbell MK, Mollison J, Steen N, Grimshaw JM, Eccles M.
Oakeshott P, Kerry SM, Williams JE. Randomised con- Analysis of cluster randomized trials in primary care:
trolled trial of the effect of the Royal College of Ra - a practical approach. Fam Pract 2000; 17: 192-196.

64
ESTUDIOS EXPERIMENTALES II: OTROS DISEÑOS

Chow SC, Shao J. A note on statistical methods for assessing Kerry SM, Bland JM. Statistics notes: analysis of a trial ran-
therapeutic equivalence. Control Clin Trials 2002; 23: domised in clusters. BMJ 1998; 316: 54.
515-520. Kerry SM, Bland JM. Statistics notes: sample size in cluster
Djulbegovic B, Clarke M. Scientific and ethical issues in randomisation. BMJ 1998; 316: 549.
equivalence trials. JAMA 2001; 285: 1206-1208. McAlister FA, Straus SE, Sackett DL, Altman DG. Analysis
Donner A, Klar N. Pitfalls of and controversies in cluster ran- and reporting of factorial trials: a systematic review.
domization trials. Am J Public Health 2004; 94: 416-422. JAMA 2003; 289: 2545-2553.
Donner A, Klar N. Statistical considerations in the design Todd S, Whitehead A, Stallard N, Whitehead J. Interim
and analysis of community intervention trials. J Clin analyses and sequential designs in phase III studies. Br
Epidemiol 1996; 49: 435-439. J Clin Pharmacol 2001; 51: 394-399.
Fleming TR. Design and interpretation of equivalence trials. Torgerson DJ. Contamination in trials: is cluster randomisa-
Am Heart J 2000; 139: S171-S176. tion the answer? BMJ 2001; 322: 355-357.
Jones B, Jarvis P, Lewis JA, Ebbutt AF. Trials to assess equiva- Whitehead J. A unified theory for sequential clinical trials.
lence: the importance of rigorous methods. BMJ 1996; Stat Med 1999; 18: 2271-2286.
313: 36-39.

65
Capítulo 7
Estudios de cohortes

l término cohorte se utiliza para designar a un Ejemplo 7.1. En el Framingham Heart Study se de-

E grupo de sujetos que tienen una característica


o un conjunto de características en común
(generalmente la exposición al factor de estudio), y
terminaron los valores de colesterol, presión arte-
rial, hábito tabáquico y otras características en los su-
jetos de estudio (residentes en la población de
que son seguidos en el transcurso del tiempo. Pue- Framingham) en un momento en que en aparien-
de tratarse de una generación (definida por una cia no presentaban enfermedad coronaria. Los
misma fecha de nacimiento), un grupo profesional miembros de esta cohorte se han seguido durante
(p. ej., médicos de un país), personas que presen- más de 30 años desde las mediciones iniciales. Se
tan una determinada exposición (p. ej., mujeres han determinado las tasas de incidencia de enfer-
tratadas por cáncer de mama) o característica gené- medad coronaria en función de las características
tica (p. ej., trisomía 21), o una comunidad definida iniciales, y se han proporcionado evidencias de que
geográficamente (p. ej., los habitantes de la pobla- los valores elevados de presión arterial y colesterol
ción de Framingham). predicen la enfermedad coronaria, y así fueron con-
Un estudio de cohortes es un diseño observacional siderados como factores etiológicos de la misma.
analítico longitudinal en el que se comparan dos
cohortes, o dos grupos dentro de una misma cohor-
TIPOS DE ESTUDIOS DE COHORTES
te, que difieren por su exposición al factor de estu-
dio, con el objetivo de evaluar una posible relación Según la relación cronológica entre el inicio del es-
causa-efecto. Cuando solamente existe una cohorte tudio y el desarrollo de la enfermedad de interés,
que es seguida en el tiempo con la única finalidad los estudios de cohortes se pueden clasificar en
de estimar la incidencia con que aparece un deter- prospectivos o retrospectivos.
minado problema de salud (desenlace o efecto) o En un estudio prospectivo de cohortes el investiga-
describir su evolución, se trata de un diseño des- dor parte de la formación de los grupos de sujetos
criptivo longitudinal (ver capítulo 9). expuestos y no expuestos a un posible factor de
En un estudio de cohortes los individuos, ini- riesgo, y los sigue durante un tiempo para determi-
cialmente sin la enfermedad o efecto de interés, nar las tasas de incidencia del desenlace de interés
forman los grupos en función de su exposición o o de mortalidad en ambos grupos. El carácter pros-
no al o los factores de estudio, y son seguidos du- pectivo significa que el investigador recoge la infor-
rante un período de tiempo comparando la fre- mación sobre la exposición cuando se inicia el
cuencia con que aparece el efecto o respuesta en estudio, e identifica los nuevos casos de la enfer-
los expuestos y no expuestos (fig. 7.1). medad o las defunciones que se producen a partir

66
ESTUDIOS DE COHORTES

Pérdidas de Muertos por Enfermos


seguimiento otras causas
Expuestos
No enfermos

Seguimiento

Enfermos

No expuestos
Figura 7.1. Pérdidas de Muertos por No enfermos
seguimiento otras causas
Estructura básica de
un estudio
de cohortes.

de ese momento, es decir, el inicio del estudio es tanto la exposición como la enfermedad ya han
anterior al desarrollo de los hechos. ocurrido cuando se inicia el estudio, sólo pueden
En un estudio retrospectivo de cohortes tanto la expo- realizarse si existe un mecanismo adecuado para
sición como la enfermedad ya han ocurrido cuando identificar las cohortes y registros completos de
se lleva a cabo el estudio. La identificación de las co- estas personas. Si los datos son incompletos o no
hortes expuesta y no expuesta se basa en su situa- son comparables para todos los sujetos, el estudio
ción en una fecha previa bien definida (p. ej., la carece de validez. Además, en muchas ocasiones la
fecha de inicio de una exposición laboral), suficien- información sobre factores de confusión no está
temente lejos en el tiempo para que la enfermedad disponible.
en estudio haya tenido tiempo de desarrollarse, y se Los estudios de cohortes también pueden clasi-
determina en cuántos sujetos se ha presentado el ficarse según si utilizan un grupo de comparación
efecto de interés. interno o externo. Cuando se estudia una sola co-
En algunas circunstancias, los estudios pueden horte general (p. ej., los residentes en un área
ser ambispectivos, en los que se recogen datos retros- geográfica determinada, como es el caso del estu-
pectiva y prospectivamente en una misma cohorte. dio de Framingham), pueden distinguirse dos
cohortes internas como consecuencia de la clasifica-
Ejemplo 7.2. Supongamos que en 1990 se decidió ción de los sujetos de la cohorte general en expues-
realizar un estudio de las consecuencias de la expo- tos y no expuestos.
sición a un agente tóxico. Se seleccionó una cohor-
te de 1.500 individuos que habían estado expuestos Ejemplo 7.3. Supongamos que se desea estudiar la
al agente entre 1980 y 1985, y una cohorte de su- relación entre la exposición al tabaco y la enferme-
jetos que no lo habían estado. Se recogieron datos dad coronaria entre los médicos que ejercen en una
retrospectivos con el fin de determinar si habían Comunidad Autónoma. La cohorte expuesta la for-
existido diferencias entre ambas cohortes en la apa- marían los médicos que fuman y la cohorte no ex-
rición de problemas de salud como defectos con- puesta los médicos no fumadores o que fuman una
génitos, infertilidad y trastornos mentales, entre cantidad inferior que los clasificados como expues-
otros. Además, como existía la posibilidad de que tos. Existe una cohorte general definida por la perte-
este agente incrementara el riesgo de cáncer, las co- nencia a un grupo profesional y un criterio geográfi-
hortes se siguieron prospectivamente desde 1990 co, cuyos sujetos se dividen en dos o más cohortes
hasta el año 2000. internas en función del grado de exposición.
Aunque los estudios retrospectivos se pueden En otras situaciones no existe una cohorte gene-
llevar a cabo más rápida y económicamente, ya que ral bien definida, sino que la cohorte expuesta se

67
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ha definido por su alta frecuencia de exposición, posición: intensidad, diferentes períodos de tiem-
como, por ejemplo, trabajadores de determinadas po, diversas combinaciones de los factores de ries-
industrias. En estos casos se utiliza una cohorte de go, etc. También permite evaluar si los cambios
comparación externa, formada por un grupo de su- en los valores de exposición se relacionan con la
jetos no expuestos al factor de estudio que son se- incidencia de la enfermedad.
guidos simultáneamente a la cohorte expuesta. – El riesgo relativo como medida de la magnitud de
la asociación entre el factor de riesgo y la variable
Ejemplo 7.4. Supongamos que se desea estudiar si de respuesta. Estima el riesgo de los sujetos ex -
un determinado agente químico aumenta la inci- puestos de presentar la respuesta en relación a los
dencia de cáncer. La cohorte expuesta la forman no expuestos (anexo 2). También permite estimar
trabajadores de una industria expuestos al produc- el riesgo relativo según diferentes características
to químico, mientras que la cohorte de compara- de la exposición, y se puede evaluar, por ejemplo,
ción la podrían formar trabajadores de otra indus- la existencia de un gradiente dosis-respuesta en-
tria no expuestos a dicho producto. En este caso no tre la exposición y la aparición del efecto.
existe una única cohorte general, sino que las co- – La fracción o proporción atribuible o proporción
hortes son grupos de sujetos seleccionados de for- de casos de una enfermedad que resulta de la ex-
ma independiente. posición a un factor determinado o a una combi-
En ocasiones, la cohorte externa de comparación nación de ellos (ver capítulo 32).
puede provenir de la población general, y estaría for- – La diferencia de incidencias como medida del im-
mada por una muestra de la misma que sería seguida pacto potencial que tendría la eliminación de la
simultáneamente a la cohorte de estudio. exposición (ver capítulo 32).
Algunos estudios sólo siguen una cohorte de
sujetos expuestos y utilizan, como referencia, in-
IDENTIFICACIÓN DE LAS COHORTES
formación registrada procedente de la población
general. Para que la duración del estudio, el coste y el
tamaño de la muestra sean mínimos hay que selec-
Ejemplo 7.5. Si se estudia un grupo de individuos cionar a individuos que tengan una alta probabili-
que trabajan en una industria con un riesgo aumen- dad de presentar la enfermedad o desenlace de
tado de desarrollar cáncer de vejiga urinaria, la mor- interés, y excluir a aquellos que ya la presentan o
talidad por este tipo de cáncer en estos sujetos puede que no puedan desarrollarla. Con frecuencia la
compararse con las cifras de mortalidad de la pobla- identificación de sujetos con antecedentes de la
ción general. En este caso no se sigue una cohorte de enfermedad o que la padecen de forma asintomáti-
sujetos provenientes de la población general, sino ca o subclínica puede resultar difícil. Las pruebas y
tan sólo las estadísticas referidas a ella. Por esta ra- exploraciones complementarias que se utilicen para
zón en estos estudios las únicas variables de confu- tratar de identificarlos deben ser sencillas, seguras y
sión que pueden controlarse son la edad, el sexo u baratas, si han de aplicarse a toda la cohorte.
otras que aparezcan en los registros de mortalidad. Dado que son estudios analíticos (estudian una
presunta relación causa-efecto), la consideración
más importante es la comparabilidad de las cohor-
ESTIMACIONES QUE PUEDEN
tes expuesta y no expuesta, así como asegurar que
REALIZARSE EN LOS ESTUDIOS
se dispone del número suficiente de sujetos con las
DE COHORTES
características predictoras más importantes y de
Los estudios de cohortes son longitudinales. Al exis- desenlaces observados durante el estudio, a fin de
tir seguimiento de sujetos permiten realizar las si- permitir un análisis válido. Cuando se utiliza una
guientes estimaciones: cohorte interna, dado que la cohorte no expuesta
procede de la misma población que la expuesta, la
– La incidencia de la enfermedad en los sujetos ex- comparabilidad es fácil de asegurar. En cambio,
puestos y en los no expuestos (anexo 1). Además, cuando la cohorte de comparación es externa es
en los individuos expuestos permite estimar la in- más difícil asumir que ambas cohortes proceden de
cidencia según diferentes características de la ex- la misma población.

68
ESTUDIOS DE COHORTES

I DENTIFICACIÓN DE LA COHORTE len haber estado expuestos a una elevada intensi-


EXPUESTA dad del factor de estudio, si existe una relación cau-
La cohorte expuesta puede proceder de la pobla- sa-efecto se necesitarán menos individuos para
ción general o de grupos especiales en los que la ex- demostrarla que si se hubiera estudiado una mues-
posición es frecuente o en los que es fácil efectuar tra de la población general.
un seguimiento completo.
Grupos especiales que facilitan
Población general el seguimiento
En ocasiones se desea que la cohorte sea represen- En otras situaciones los grupos se seleccionan por-
tativa de la población general de un área geográfi- que permiten recoger la información que se desea
ca bien definida, como ocurre en el Framingham de forma más sencilla y menos costosa, y facilitan el
Heart Study. A partir de esta cohorte general los seguimiento (p. ej., médicos, profesionales de en-
individuos se clasifican en expuestos y no expues- fermería, alumnos universitarios, etc.). Estas venta-
tos. Este tipo de diseño es útil para investigar la rela- jas también las presentan las mujeres embarazadas,
ción entre uno o varios factores de riesgo y una o ya que acuden con frecuencia a los centros sanita-
varias enfermedades frecuentes en la población. Es rios para el control de su embarazo. Dado que
conveniente seleccionar un área geográfica en la además el período de seguimiento necesario es
que la población sea estable, con pocos fenómenos corto, los estudios de cohortes han sido muy utiliza-
migratorios, y en la que se puedan identificar clara- dos para evaluar el riesgo teratogénico de fármacos
mente hospitales y centros de salud de referencia u otras exposiciones.
donde con toda probabilidad acudirá la mayoría de Aunque las ventajas de utilizar cohortes selec-
la población cuando enferme, de forma que se faci- cionadas hacen que esta estrategia sea la preferida
lite el seguimiento de la cohorte. en muchas ocasiones, siempre que se utilizan co-
Este tipo de estudios es deseable por su capaci- hortes no representativas de la población general se
dad de generalización, pero suelen ser muy caros y debe ser cauto a la hora de aplicar los resultados a
presentan una elevada proporción de pérdidas de la población como conjunto.
seguimiento. Además, a no ser que el estudio se
limite a sujetos con un alto riesgo de padecer la en- I DENTIFICACIÓN DE LA COHORTE
fermedad o desenlace de interés, el tamaño de la NO EXPUESTA
muestra necesario para que aparezca el número La función de la cohorte de referencia es estimar la
suficiente de casos puede ser muy elevado. frecuencia que tendría la enfermedad en la pobla-
ción de donde provienen los individuos que com-
Grupos especiales en los que la ponen la cohorte expuesta si no existiera exposi-
exposición es frecuente ción. Si la frecuencia es similar en ambos grupos,
Cuando la exposición es rara las dificultades y el sugiere que el factor de riesgo no aumenta la pro-
coste que representa estudiar una muestra de la po- babilidad de desarrollar la enfermedad. Para poder
blación general son importantes. Por ello es prefe- efectuar esta afirmación, la cohorte no expuesta de-
rible seleccionar un grupo específico de individuos be ser comparable a la expuesta respecto a las varia-
expuestos al factor de estudio y compararlo con bles que se consideran pronósticas de la enferme-
una muestra de no expuestos. Con frecuencia, se dad, a excepción del factor que se está estudiando.
seleccionan sujetos que trabajan en una determina- La elección del grupo de comparación deriva
da industria u ocupación, ya que en ellos la exposi- directamente de la elección del grupo de expues-
ción de interés es más frecuente, existe una menor tos. Si se selecciona una cohorte general, en la que
probabilidad de pérdidas de seguimiento, suele dis- los sujetos son clasificados según su exposición, la
ponerse de información relevante en sus registros referencia natural es el grupo formado por los suje-
médicos y laborales, y en muchas circunstancias son tos que no presentan la exposición. A este grupo
sometidos a exámenes médicos periódicos. Estos control o de referencia se le denomina cohorte inter-
grupos son fáciles de seguir y permiten obtener un na ya que proviene de la misma cohorte general
número suficiente de personas expuestas en un pe- que se estudia. La utilización de una cohorte inter-
ríodo de tiempo razonable. Además, dado que sue- na no sólo aumenta la probabilidad de que tanto

69
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

expuestos como no expuestos procedan de un mis- viduos que trabajan en una industria, debe tenerse
mo subgrupo de población, sino que habitualmen- en cuenta que las personas que tienen y mantienen
te implica que también estarán sujetos a los mismos un empleo gozan, en general, de mejor salud que
procedimientos de seguimiento y tendrán, por tan- los que no trabajan (efecto del trabajador sano).
to, la misma probabilidad de que se les detecte la Los sujetos que trabajan suelen tener mayores in-
enfermedad. gresos económicos y mejor acceso a la atención mé-
La selección de una cohorte externa suele ser la dica, y pueden tener estilos de vida que redunden
mejor elección para estudiar exposiciones raras o en una mejor salud. Dado que la población general
exposiciones a posibles factores de riesgo laborales incluye a individuos que no trabajan debido a en-
o ambientales, aunque será más difícil asegurar que fermedad o incapacidad, las tasas de mortalidad
las dos cohortes proceden de la misma población. son casi siempre mayores en la población general.
Por esta razón el problema que pueden plantear los La consecuencia de este fenómeno de selección es
posibles factores de confusión se acentúa en estos que cualquier exceso de riesgo asociado a una ocu-
estudios. Las cohortes pueden ser diferentes en pación específica se infraestimará al compararla
otros aspectos importantes, además de la exposi- con la población general.
ción a la variable de interés, capaces de influir so- La consideración de que las personas seleccio-
bre la enfermedad. Algunas de estas diferencias po- nadas por su exposición pueden estar más o menos
tencialmente generadoras de confusión pueden sanas que la población general se refiere no sólo a
medirse y llegar a controlarse, pero otras son des- la exposición de interés sino también a otros facto-
conocidas o imposibles de determinar. res etiológicos. Por ejemplo, si la exposición de in-
Si la cohorte expuesta la componen grupos selec- terés es el uso de anticonceptivos orales, el proble-
cionados por su alta frecuencia de exposición, como ma es decidir si el grupo de comparación deben ser
trabajadores de determinadas industrias, se puede mujeres que no los utilizan o limitarse a mujeres
elegir como referencia a un grupo de individuos que utilizan otros métodos de anticoncepción,
que trabajan en otras industrias y que no estén ex- ya que las que no utilizan ningún método pueden
puestos al factor de estudio, o bien trabajadores de ser diferentes de las que sí los toman en relación
la misma empresa cuyo puesto de trabajo no im- con sus prácticas sexuales, deseos de quedar emba-
plique la exposición al factor de estudio. Los indivi- razadas o situación fértil.
duos de esta cohorte externa deben ser semejantes En ocasiones puede considerarse de interés la
a los de la cohorte expuesta en cuanto a característi- utilización de más de un grupo de comparación. Si
cas demográficas y socioeconómicas y otros factores se observan resultados diferentes al comparar con
relevantes que puedan influir sobre la enfermedad. cada uno de ellos, debe preguntarse el porqué. Por
Una alternativa es comparar la frecuencia de de- otro lado, estas inconsistencias producen una ma-
senlaces observada en la cohorte expuesta con los yor incertidumbre en los resultados.
datos procedentes de la población general obteni-
dos a partir de registros. Para efectuar dicha com- C OHORTE FIJA O COHORTE DINÁMICA
paración se ha de disponer de información sobre el Se habla de cohorte fija cuando sólo se incluyen los
desenlace o la enfermedad en estudio referida a individuos que cumplen los criterios de inclusión
toda la población (p. ej., estadísticas de mortalidad, en la fecha de inicio del estudio. Por tanto, la fecha
registros de cáncer poblacionales). Se asume que la de inclusión es la misma para todos los sujetos y
proporción de expuestos al factor entre la pobla- coincide con la del inicio del estudio. Se habla de
ción general es pequeña (o se tiene información so- cohorte dinámica cuando los individuos se van inclu-
bre su frecuencia) ya que, de otro modo, se infraes- yendo a medida que progresa el estudio, es decir, a
timaría la verdadera asociación. medida que se van identificando. Por tanto, en una
La población general puede diferir de la cohor- cohorte dinámica la fecha de inclusión es diferente
te expuesta por diferentes factores (p. ej., en los es- para cada sujeto.
tilos de vida), cuya información no suele estar dis- Es más probable que exista un sesgo de selec-
ponible en los registros de mortalidad, por lo que ción en una cohorte fija, ya que los individuos con
no puede controlarse su posible efecto de confu- un mayor grado de exposición pueden haber desa-
sión. Si la cohorte expuesta está formada por indi- rrollado la enfermedad y, por tanto, quedarían ex-

70
ESTUDIOS DE COHORTES

cluidos de la cohorte inicial. En cambio, en una co- ble si la enfermedad de interés es frecuentemente
horte dinámica pueden incluirse los sujetos en un letal. A pesar de sus limitaciones, en general, se
mismo momento de su historia de exposición. acepta como causa de muerte la que aparece en el
certificado de defunción, pero en otros casos se
recoge información adicional procedente de regis-
MEDICIÓN DE LA EXPOSICIÓN
tros médicos, autopsias, etc., con la finalidad de
Uno de los puntos fuertes de los estudios de cohor- aumentar su calidad.
tes prospectivos es que permiten obtener una in- Cuando las personas que presentan la respuesta
formación detallada, precisa y objetiva de la ex- suelen requerir hospitalización, pueden monitori-
posición en estudio. Así, por ejemplo, si se desea zarse los registros de los hospitales de referencia
estudiar el efecto de determinados hábitos alimen- para establecer su aparición. A menudo se utilizan
tarios sobre la incidencia de enfermedades cardio- los informes de alta por la rapidez y bajo coste de su
vasculares o diferentes tipos de cáncer, el grado de uso. Sin embargo, dado que no puede asumirse
detalle necesario sobre la alimentación hace que su exactitud ni su exhaustividad, suele ser necesario
la recogida retrospectiva de esta información sea recurrir a la historia clínica para complementar la in-
poco fiable. formación. Los procedimientos para combinar
La medición detallada de la exposición permite información procedente de diferentes fuentes de-
estudiar el efecto en un subgrupo de sujetos someti- ban establecerse claramente a priori.
dos a determinado grado o subtipo de exposición, o Cuando la información procede de registros ya
incluso clasificar la exposición en diferentes grados existentes, pueden presentarse problemas relacio-
para evaluar una posible relación dosis-respuesta. nados con la ausencia de estandarización de la in-
La duración de la exposición puede utilizarse, formación, la variabilidad de los criterios diagnósti-
en ocasiones, como un sustituto de la dosis acumu- cos utilizados o la exhaustividad de la información
lada de exposición, siempre que la intensidad de la contenida en los registros. Además, los sujetos pue-
exposición sea poco variable en el tiempo. den solicitar atención a centros o médicos diferen-
Por otro lado, el grado de exposición puede sufrir tes de los monitorizados, por lo que puede sobre o
cambios durante el seguimiento, por lo que es im- infraestimarse la incidencia de la enfermedad.
portante anotar tanto los cambios como sus motivos. También pueden utilizarse registros poblacionales,
si existen. Por estas razones es conveniente exami-
nar de forma periódica a los miembros de la cohor-
MEDICIÓN DEL DESENLACE
te, aunque ello suponga un coste importante.
Los procedimientos para determinar qué sujetos de Cuando el diagnóstico requiere la realización de
las cohortes desarrollan el desenlace de interés va- examen físico y exploraciones complementarias, es
rían en función de la respuesta que se estudia y los preferible utilizar criterios estándares reconocidos,
recursos disponibles. Esta medición debe ser lo más lo que permitirá comparar los resultados con los de
objetiva posible. Cuando se trata de síntomas o sín- otros estudios. En algunos casos puede resultar útil
dromes para los que no existe ningún examen obje- subdividir el diagnóstico según su grado de certeza
tivo, debe recurrirse a definiciones sobre las que o su etiología. La combinación de todos los subti-
exista un amplio consenso. pos como un solo grupo dificulta la identificación
Es importante que esta determinación se realice de los factores de riesgo.
de la misma forma en los expuestos y los no expues- También debe tenerse en cuenta que la enfer-
tos, mediante criterios establecidos explícitamente medad puede ser indetectable clínicamente, tan-
antes del inicio del estudio. Además, en la medida de to si es infecciosa (hepatitis, poliomielitis, etc.)
lo posible, esta medición debería ser realizada por como si no lo es (arteriosclerosis coronaria, cáncer,
personas que no conozcan si los sujetos están ex- etc.). Los factores de riesgo pueden tener una
puestos o no, para prevenir sesgos de información. influencia diferente en los casos clínicos y en los
En muchos estudios el resultado de interés es si subclínicos, posibilidad que deberá tenerse en
la persona fallece y, en caso afirmativo, cuáles han cuenta en el análisis. No debe olvidarse que la exis-
sido las causas específicas. La utilización de la mor- tencia de resultados falsos positivos y falsos negati-
talidad como variable de respuesta sólo es razona- vos puede sesgar los resultados.

71
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

SEGUIMIENTO cansancio y falta de interés, que pueden traducirse


en pérdidas de seguimiento. Por otro lado, si entre
El mayor desafío de un estudio de cohortes es el se-
visita y visita transcurre mucho tiempo el resultado
guimiento de un elevado número de sujetos durante
puede ser idéntico.
un período prolongado de tiempo, por lo que la
mayoría de los esfuerzos se dedican a asegurarlo. Los
E STRATEGIAS PARA REDUCIR
investigadores deben recoger información sobre los
LAS PÉRDIDAS
cambios que se presentan en los factores de riesgo y
Para reducir el número de pérdidas de seguimien-
las variables pronósticas, así como registrar si alguno
to suele ser útil, al establecer los criterios de selec-
de los participantes ha desarrollado el desenlace de
ción, excluir a los individuos que es probable que se
interés. Algunos individuos modificarán su exposi-
pierdan por presentar determinados problemas de
ción durante el seguimiento. Por ejemplo, si el factor
salud, porque piensan cambiar de domicilio o por
en estudio es el hábito tabáquico algunos sujetos cualquier otra razón. Además, al comenzar el estu-
empezarán a fumar durante el estudio y otros que dio debe recogerse información que permita locali-
fumaban al inicio dejarán de hacerlo. zar a los individuos en caso de que éstos cambien de
El seguimiento debe ser el mismo en todos los domicilio o fallezcan.
grupos, con idéntica pauta de visitas y exploracio- Los contactos periódicos con los individuos ayu-
nes. Así se intentan evitar los efectos derivados de dan a mantener el seguimiento, pudiendo también
un mayor control en uno de los grupos, lo que po- ser útiles para determinar con mayor exactitud el
dría influir tanto en el sujeto que se sabe estudiado momento en que aparecen los desenlaces de
como en el investigador y su capacidad, u oportu- interés. Estos contactos pueden realizarse tanto
nidad, de detectar sucesos que, de otra manera, telefónicamente (mediante intentos repetidos, con
pasarían inadvertidos. Este control se facilita con llamadas por la noche y durante los fines de sema-
las técnicas de enmascaramiento, en el caso de que na, si es necesario) como por correo (p. ej., envíos
sea posible aplicarlas. repetidos en los que se adjuntarán tarjetas o sobres
Deben preverse los sucesos o situaciones que con el franqueo pagado y la dirección impresa).
obligarán a la exclusión de un sujeto y las causas de Para los sujetos que no puedan ser contactados
posibles pérdidas durante el seguimiento, sobre por teléfono o por correo, deben utilizarse otros
todo en estudios de larga duración. Hay que prepa- procedimientos, como contactar con amigos, fami-
rar estrategias para minimizarlas y, si se producen, liares o su médico de cabecera, y determinar su si-
recaptarlas o, como mínimo, anotar los motivos por tuación mediante registros como el de mortalidad
las que se han producido. o altas hospitalarias, realizar visitas personales, etc.
El tiempo de seguimiento debe ser lo suficiente- La búsqueda de los individuos para realizar valo-
mente largo para permitir que aparezca el número raciones de seguimiento requiere, en ocasiones,
suficiente de casos para conseguir la potencia perseverancia y repetidos esfuerzos por múltiples
estadística deseada, pero lo suficientemente corto mecanismos.
como para no crear graves problemas logísticos y de
organización. Si el objetivo es, por ejemplo, conocer
si el tabaco es causa de cardiopatía isquémica, VENTAJAS Y LIMITACIONES
3 meses de seguimiento sería, sin lugar a dudas, un DE LOS ESTUDIOS DE COHORTES
tiempo demasiado corto para observar algún efecto, En los estudios de cohortes se pueden calcular las
pero, por otro lado, un seguimiento de varias dé- tasas de incidencia y el riesgo relativo, lo que supo-
cadas puede ser demasiado largo como para que los ne una ventaja en relación con los estudios de casos
investigadores puedan mantener el control de la y controles, que tan sólo permiten estimar el riesgo
cohorte de manera eficaz. relativo de forma aproximada pero no calcular las
El intervalo entre las distintas visitas de segui- tasas de incidencia.
miento depende de la enfermedad y debe ser lo La estructura de estos estudios asegura una ade-
suficientemente corto como para detectar su apari- cuada secuencia temporal, ya que se sigue a los suje-
ción. Las visitas muy poco espaciadas en el tiempo tos desde la exposición hasta la aparición del efecto
pueden ser una molestia para los sujetos y provocar o desenlace. Esta característica también los diferen-

72
ESTUDIOS DE COHORTES

cia de los estudios de casos y controles, en los que a la glucosa), la incidencia estimada es del 35,8%,
no siempre puede establecerse con seguridad una lo que implica que sólo será necesario seguir a
adecuada secuencia temporal. 28 sujetos con estas características durante el
La medición de la exposición y de las variables mismo período de tiempo para encontrar el mismo
pronósticas tiende a ser más exacta y completa que número de casos (Wilson et al, 1987).
en los estudios de casos y controles, ya que no de- Los estudios de cohortes prospectivos tampoco
pende, en la mayoría de las ocasiones, de la memo- son eficientes para el estudio de enfermedades con
ria del paciente ni está influida por la presencia de un largo período de latencia, ya que obligan a un
la enfermedad, en especial cuando la información seguimiento muy largo, lo cual, además del coste y
se recoge de forma prospectiva. En los estudios esfuerzo que supone, puede aumentar las pérdidas.
retrospectivos la calidad de la información depen- Los estudios de cohortes requieren un número
de de los registros y de si éstos se adecuan a los obje- elevado de participantes y tienen un coste elevado.
tivos del estudio. Por estas razones, en general, sólo se llevan a cabo
Los estudios de cohortes permiten evaluar los después de que una hipótesis etiológica haya sido
efectos del factor de riesgo sobre varias enfermeda- evaluada mediante un diseño de casos y controles.
des, por ejemplo de la hipertensión arterial en rela-
ción con diferentes desenlaces cardiovasculares. Ejemplo 7.7. Un caso es el estudio sobre la utiliza-
Los estudios de cohortes no son eficientes para ción de benzodiazepinas durante el primer trimes-
el estudio de enfermedades poco frecuentes, ya que tre de embarazo y la aparición del labio leporino y
obligan a seguir a un número elevado de sujetos hendidura palatina en el recién nacido. Existe con-
durante un largo período de tiempo para observar troversia acerca del efecto que ejerce la ingestión
un número suficiente de casos de la enfermedad. de estos fármacos sobre el aumento de hendiduras
De todos modos, aunque la frecuencia de una en- orales. Parte de los resultados contradictorios na-
fermedad sea muy baja en la población general, cen a raíz de que el diseño más utilizado para eva-
puede ser lo suficientemente elevada en grupos es- luar esta hipótesis ha sido el de casos y controles, en
peciales que hayan estado expuestos de forma in- el que la información sobre la exposición se consi-
tensa a un factor de riesgo y, en consecuencia, pue- gue de forma retrospectiva, después del nacimien-
de llevarse a cabo un estudio de cohortes en este to. En este caso, es muy posible que las madres que
grupo de población expuesto. Por ejemplo, aunque hayan tenido un niño con fisura palatina tiendan a
el mesotelioma es una enfermedad muy poco fre- recordar con más exactitud su historia farmacológi-
cuente entre la población general, es relativamente ca que las que no han padecido este problema. En
común entre los trabajadores de los astilleros, por los estudios de cohortes, al obtener la información
lo que sería factible realizar un estudio de cohortes sobre los medicamentos antes de que la madre dé a
con estos sujetos. luz se evita este posible sesgo.
Siguiendo este razonamiento, Shiono y Mills
Ejemplo 7.6. Supongamos un estudio cuyo desenla- (1984) llevaron a cabo un estudio de cohortes. El
ce de interés es la enfermedad coronaria. Se estima problema con el que toparon los autores fue que
que su incidencia en mujeres de 45 años que pre- después de seguir a 854 mujeres expuestas al
sentan bajo riesgo (presión arterial sistólica inferior fármaco, sólo una de ellas tuvo un recién nacido
a 110 mmHg, colesterolemia inferior a 185 mg/dl, con la malformación. En el grupo no expuesto de
sin hipertrofia ventricular izquierda, no fumadora 32.364 mujeres, sólo 32 recién nacidos presentaron
y sin intolerancia a la glucosa) es del 0,8% a los fisura palatina. Aunque es cierto que no se produjo
6 años. Esto significa que para encontrar 10 casos se ningún sesgo de memoria, no pudieron encontrar
deberían seguir a unas 1.250 mujeres con estas ca- un resultado estadísticamente significativo debido a
racterísticas durante 6 años. que el tamaño de la muestra era insuficiente. In-
Si, por el contrario, se selecciona un grupo de cluso si el riesgo relativo fuera de 3,0, la potencia de
hombres de la misma edad con alto riesgo (presión este estudio para encontrar esta diferencia sería
arterial sistólica por encima de 180 mmHg, coleste- de un 50%.
rolemia superior a 310 mg/dl, fumador, con hiper- Las principales ventajas y desventajas de los es-
trofia ventricular izquierda y, además, intolerancia tudios de cohortes se resumen en la tabla 7.1.

73
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 7.1. Ventajas y desventajas Un uso frecuente de este tipo de estudios es la


de los estudios de cohortes evaluación de riesgos laborales, aunque se han uti-
lizado con múltiples finalidades.
Ventajas
• Permiten el cálculo directo de las tasas de Ejemplo 7.8. Para evaluar la hipótesis de que la pér-
incidencia en las cohortes expuesta y no expuesta, dida del empleo conlleva una mayor morbilidad,
y del riesgo relativo de los expuestos en relación Beale y Nethercott (1986) realizaron un estudio re-
con los no expuestos trospectivo de cohortes. Obtuvieron un listado con
• Aseguran una adecuada secuencia temporal el nombre y la dirección de todos los empleados de
(la exposición al factor de estudio precede una fábrica despedidos a causa de su cierre. La
a la aparición del desenlace) compañía proporcionó, además, la siguiente infor-
• En los diseños prospectivos se minimizan mación: fecha de entrada en la fábrica, horas de tra-
los errores en la medición de la exposición bajo, tipo de ocupación, y el departamento en el
• Permiten evaluar los efectos del factor de riesgo que estaba destinado cada uno de los empleados.
sobre varias enfermedades Para ser incluidos en el estudio debían cumplir los
Desventajas siguientes requisitos: estar registrado con algún mé-
• No son eficientes para el estudio de enfermedades dico de la comunidad donde se realizaba el estudio,
poco frecuentes haber trabajado como mínimo durante 4 años an-
• No son eficientes para el estudio de enfermedades tes del despido en la misma fábrica, y tener una jor-
con un largo período de latencia nada laboral superior a las 37 horas. Se excluyó a
• Los estudios prospectivos suelen ser de larga los individuos con una edad superior a 61 años
duración debido a que su jubilación estaba próxima.
• Requieren un número elevado de participantes Los investigadores obtuvieron de las historias clí-
• Los estudios prospectivos tienen un coste nicas el número de consultas de cada trabajador
elevado durante los 4 años previos al anuncio del cierre de
la fábrica y las visitas realizadas después del despido.
En ningún momento se entrevistó o se recaptó in-
formación personal. Como grupo control se eligie-
ron trabajadores de otras fábricas con característi-
ESTUDIOS RETROSPECTIVOS
cas similares, que cumplían los mismos criterios de
DE COHORTES
inclusión, residían en la misma comunidad y no ha-
En los estudios retrospectivos de cohortes, también bían sido despedidos.
llamados estudios de cohortes históricas, el investi- En relación con los estudios prospectivos, pre-
gador identifica una cohorte de sujetos según sus sentan algunas ventajas relacionadas con el menor
características en el pasado, y reconstruye su expe- tiempo necesario para su realización, y su consi-
riencia de enfermedad hasta un momento definido guiente menor coste.
de tiempo en el pasado más reciente o en el mo- En relación con los estudios de casos y controles,
mento actual. comparten la ventaja de no necesitar un largo perío-
La estructura de un estudio retrospectivo de co- do de tiempo para identificar un número suficiente
hortes es similar a la de un estudio prospectivo: se de casos, pero se diferencian en que los sujetos son
efectúa un seguimiento de un grupo de individuos seleccionados por su exposición. Por tanto, si se
a lo largo del tiempo, en los que se miden las po- estudian exposiciones muy poco frecuentes, este
sibles variables predictoras al inicio y después se diseño puede ser una forma práctica de asegurar
determinan los desenlaces que se producen. Por que el número de sujetos expuestos es suficiente,
tanto, ambos diseños permiten asegurar que la ex- aunque requiere que esté disponible la información
posición (factor de riesgo) precede a la enferme- sobre la exposición previa. La ausencia de este tipo
dad o efecto. La diferencia es que la identificación de información limita el número de situaciones en
de la cohorte, las mediciones basales, el seguimien- que este diseño es factible. La principal limitación
to y los desenlaces ya se han producido cuando se de estos estudios es que los investigadores care-
inicia el estudio. cen de control sobre la calidad de la información.

74
ESTUDIOS DE COHORTES

Cuando la exposición ha tenido lugar muchos Ellenberg JH. Cohort studies: selection bias in observational
años antes del inicio del estudio, su medición pue- and experimental studies. Stat Med 1994; 13: 557-556.
de ser muy difícil y sólo puede realizarse una clasifi- Hunt JR, White E. Retaining and tracking cohort study mem-
bers. Epidemiol Rev 1998; 20(1): 57-70.
cación en grandes grupos (sin poder diferenciar los
Kelsey JL, Thompson WD, Evans A. Methods in observatio-
grados de exposición), por lo que es probable que nal epidemiology. 2.a ed. Nueva York: Oxford University
aparezcan errores de medición que sesguen la apa- Press, 1986.
rente magnitud de la asociación. Además, al no po- Kleinbaum D, Kupper L, Morgenstern H. Epidemiologic Re-
der utilizar una clasificación por diferentes grados search. Belmont: Lifetime Learning Publications, 1982.
de exposición, no puede evaluarse la existencia de Laupacis A, Wells G, Richardson WS, Tugwell P. Evidence-
una relación dosis-respuesta, que es un importante Based Medicine Working Group. Users’ guides to the
criterio para inferir causalidad. medical literature. V. How to use an article about prog-
La naturaleza retrospectiva de la recogida de nosis. JAMA 1994; 272: 234-237.
Levine M, Walter S, Lee H, Haines T, Holbrook A, Moyer V.
datos también dificulta la medida de la aparición
Evidence-Based Medicine Working Group. Users’ guides
de la enfermedad. Dado que el investigador de- to the medical literature. IV. How to use an article about
be utilizar información recogida con otras fina- harm. JAMA 1994; 271: 1615-1619.
lidades, su calidad puede no ser suficiente, lo Pearce N. Methodological problems of time-related variables
que limita la realización de este tipo de estudios. in occupational cohort studies. Rev Epidemiol Sante Pu-
Además, pueden existir problemas adicionales en blique 1992; 40 (supl 1): S43-54.
la recogida de información sobre importantes Phillips AN, Smith GD. The design of prospective epidemio-
variables de confusión. Por tanto, los resultados de logical studies: more subjects or better measurements?
muchos estudios retrospectivos difícilmente pue- J Clin Epidemiol 1993; 46: 1203-1211.
Prentice RL. Design issues in cohort studies. Stat Methods
den considerarse definitivos al abordar relaciones
Med Res 1995; 4: 273-292.
causales.
Samet JM, Muñoz A. Evolution of the cohort study. Epi-
demiol Rev 1998; 20(1): 1-14.
B IBLIOGRAFÍA DE LOS EJEMPLOS Samet JM, Muñoz A. Perspective: cohort studies. Epidemiol
Beale N, Nethercott S. Job loss and morbidity in a group of Rev 1998; 20(1): 135-136.
employees nearing retirement age. J R Col Gen Pract Szklo M. Population-based cohort studies. Epidemiol Rev
1986; 36: 265-266. 1998; 20(1): 81-90.
Shiono PH, Mills JL. Oral clefts and diazepam use during Tager IB. Outcomes of cohort studies. Epidemiol Rev 1998;
pregnancy. N Engl J Med 1984; 311: 919-920. 20(1): 15-28.
Wilson P, Castelli W, Kannel W. Coronary risk prediction in White E, Hunt JR, Casso D. Exposure measurement in co-
adults (The Framingham Heart Study). Am J Cardiol hort studies: the challenges of prospective data collec-
1987; 59: 91G-94G. tion. Epidemiol Rev 1998; 20(1): 43-56.
Whitney CW, Lind BK, Wahl PW. Quality assurance and qua-
B IBLIOGRAFÍA lity control in longitudinal studies. Epidemiol Rev 1998;
Breslow NE, Day NE. Statistical methods in cancer research. 20(1): 71-80.
Vol. II. The design and analysis of cohort studies. Lyon: Willett WC, Colditz GA. Approaches for conducting large
IARC Publications, 1987. cohort studies. Epidemiol Rev 1998; 20(1): 91-99.

75
Capítulo 8
Estudios de casos y controles

n los estudios de casos y controles se elige un anticonceptivos orales (AO), el grupo de casos lo

E grupo de individuos que tienen un efecto o una


enfermedad determinada (casos), y otro en el
que está ausente (controles). Ambos grupos se com-
formarían mujeres diagnosticadas de fibroadeno-
ma, y el de control mujeres que no tuvieran dicha
enfermedad, comparándose la historia previa de
paran respecto a la frecuencia de exposición previa a utilización de AO en ambos grupos.
un factor de riesgo (factor de estudio) que se sospe- La necesidad de un grupo control es evidente.
cha que está relacionado con dicho efecto o enfer- El hallazgo, por ejemplo, de que el 47% de las mu-
medad. La estructura básica se recoge en la figura 8.1. jeres diagnosticadas de fibroadenoma ha utilizado
AO suscita de inmediato la siguiente pregunta: ¿es-
Ejemplo 8.1. Si se quiere evaluar el riesgo de pade- ta proporción de exposición es superior, igual o in-
cer un fibroadenoma de mama asociado al uso de ferior a la esperada? La función del grupo control

Expuestos

Enfermos
(casos)
No expuestos

Expuestos

No enfermos
(controles)
No expuestos
Figura 8.1.
Estructura básica
de un estudio de
casos y controles.

76
ESTUDIOS DE CASOS Y CONTROLES

es estimar la proporción de exposición esperada en todo el espectro de gravedad, existe el riesgo de cla-
un grupo que no padece la enfermedad. sificar mal a individuos sin la enfermedad como
Las estimaciones que se obtienen son la propor- casos leves y viceversa, dado que en muchas enfer-
ción de casos y controles expuestos a un posible fac- medades es muy difícil conseguir un diagnóstico de
tor de riesgo. También son de interés la intensidad certeza. Si se incluyen sólo formas graves, el riesgo
y la duración de la exposición en cada uno de los de clasificar mal disminuye, aunque obtener el nú-
grupos. La medida de asociación o del riesgo de mero de individuos necesario puede ser difícil y,
padecer un determinado problema de salud asocia- además, se limita la generalización de los resultados.
do a la presencia de una exposición es la odds ratio En algunos casos existe desacuerdo entre dis-
(OR) (anexo 2). tintos investigadores en la definición de una enfer-
medad, lo que puede introducir variabilidad en la
SELECCIÓN DE LOS CASOS estimación del efecto y reducir la posibilidad de re-
producir los resultados. Siempre que exista una de-
Para identificar los casos deben establecerse, de finición estándar y ésta sea adecuada para el propó-
forma clara y explícita, la definición de la enferme- sito del estudio, debe usarse con el fin de disminuir
dad y los criterios que deben cumplir aquellos que la variabilidad y de que los hallazgos sean compara-
la presenten para ser incluidos en el estudio. Por bles con los de otros investigadores.
otro lado, los criterios de selección deben dirigirse
a que sólo se incluyan sujetos que potencialmente Ejemplo 8.3. El síndrome del túnel carpiano puede
han podido estar expuestos al presunto factor de presentarse con sintomatología diversa, no siempre
riesgo. Estos criterios deben aplicarse por igual a fácil de diferenciar por criterios únicamente clíni-
casos y a controles. cos, de las acroparestesias nocturnas. Los signos de
Tinel y Phalen positivos pueden ser de gran ayuda al
Ejemplo 8.2. En el estudio hipotético del ejemplo 8.1, reproducir la sintomatología, pero sólo tienen valor
se excluiría a las mujeres que por causa de enfer- de sospecha diagnóstica. Según la gravedad del cua-
medad crónica presentaran alguna contraindica- dro existe una mayor o menor afectación sensitiva o
ción para la toma de AO. Las mujeres diabéticas,
motora, no siempre objetivable a la exploración físi-
hipertensas o dislipémicas no entrarían a formar
ca. Por esto, para conseguir un diagnóstico preciso y
parte del estudio, ya que en estas enfermedades el
fiable de la afectación del nervio mediano es prefe-
uso de AO está contraindicado, o al menos su indi-
rible utilizar pruebas electrofisiológicas, y no con-
cación es muy individualizada. Los criterios de ex-
clusión dependen de la definición de exposición formarse con los criterios clínicos.
que se adopte. Si el interés se centra en el uso de La elección de unos criterios más o menos estric-
AO en los últimos 5 años o más, una mujer recién tos para definir la enfermedad tiene implicaciones
diagnosticada de diabetes entraría a formar parte en los resultados del estudio. Si se aplican criterios
del grupo de casos por tener la probabilidad de ha- diagnósticos poco sensibles y específicos, se
ber estado expuesta al factor de riesgo. hallarán muchos falsos positivos y negativos, lo que
Lo ideal sería que los casos seleccionados fueran tiende a diluir el efecto que se está estudiando. En
una muestra aleatoria de todos los individuos de la el caso de que no sea posible aplicar en todos los
población de estudio que presentan la enfermedad. casos las mejores técnicas para el diagnóstico, es
En los estudios de cohortes la enfermedad se busca conveniente clasificarlos en categorías como «pro-
de forma sistemática en todos los participantes, pe- bable» o «definitivo». Es de esperar que en el grupo
ro en los estudios de casos y controles los casos se con diagnóstico «definitivo» se encuentren menos
obtienen de una serie de pacientes en quienes la falsos positivos que en el de «probable», lo que per-
enfermedad ya ha sido diagnosticada y están dispo- mitirá analizar con más detenimiento los posibles
nibles para el estudio, por lo que pueden no ser re- errores de una mala clasificación.
presentativos de la población de estudio.
I DENTIFICACIÓN DE LOS CASOS
D EFINICIÓN DE CASO Una vez se ha elaborado una definición conceptual
Los investigadores pueden estudiar formas leves y/o del caso, el siguiente paso es desarrollar una defini-
graves de la enfermedad. Si se incluyen casos con ción operativa para identificarlos. El objetivo es

77
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

conseguir una identificación en la que todos los SELECCIÓN DE LOS CONTROLES


casos tengan la misma probabilidad de ser inclui-
La elección del grupo control es la clave de este
dos en el estudio y válida, es decir, que no se inclu-
tipo de estudios ya que debe ser comparable al de
ya ningún individuo que no pertenezca al caso.
casos (los controles deben tener la misma probabi-
lidad de haber estado expuestos que los casos). En
Ejemplo 8.4. Un ejemplo podría ser la definición
conceptual de caso infectado por el VIH (una per- realidad, lo importante es que los controles sean
sona que tendría un resultado positivo si se le prac- representativos de la población de donde provie-
tica la prueba) frente a la definición operativa (una nen los casos.
persona a quien se ha practicado la prueba y ha Conceptualmente esta población la forman los
dado un resultado positivo). Los factores que influ- miembros de una cohorte subyacente determinada
yen en la decisión de realizar la prueba y la accesi- por unos criterios de inclusión y exclusión defini-
bilidad a la misma, al igual que su sensibilidad y es- dos por el investigador, que será la fuente de los
pecificidad, determinarán quién se considerará casos. Idealmente, los controles deberían proceder
caso en la definición operativa. de esta misma población. Un tipo de estudio para-
Otro aspecto importante es el momento en la digmático en este sentido es el de casos y controles
historia de la enfermedad en que se diagnostican anidado en una cohorte (que se comenta más adelan-
los casos. Siempre que sea posible, es preferible te), en el que se puede identificar claramente la
incluir sólo casos recién diagnosticados (casos inci- cohorte subyacente, de la que proceden tanto los
dentes). Los casos prevalentes pueden ser los super- casos como los controles.
vivientes, y la supervivencia puede estar relacionada En algunos casos, la población de referencia está
con la exposición. En este caso, se hallaría un ries- bien definida temporal y geográficamente. Un
go menor que al analizar casos incidentes. En el ejemplo serían los estudios de casos y controles
otro extremo, si la variable en estudio es un factor poblacionales, en los que se seleccionan todos los
de buen pronóstico, la inclusión de casos prevalen- casos que se desarrollan en una zona determinada
tes llevaría a la sobrestimación de la asociación. durante un tiempo preestablecido. Esto es factible
cuando se trata de enfermedades que requieren
Ejemplo 8.5. Supongamos que se quiere evaluar el atención médica y se dispone de registros exhausti-
riesgo de padecer un accidente cerebrovascular vos. Dado que los casos obtenidos a partir de los
(ACV) asociado al consumo de tabaco. Es probable registros de enfermedad suelen ser representativos
que la proporción de expuestos entre los casos más de la población general de pacientes con la enfer-
graves y que mueren a las pocas horas sea mayor medad que habitan en el área, el grupo control
que entre los que sobreviven. De hecho, en un estu- debe ser una muestra representativa de la pobla-
dio se encontró que el riesgo de ACV (fatal y no ción que reside en el área cubierta por el registro.
fatal) en mujeres de mediana edad fumadoras de En estas circunstancias, la selección del grupo con-
25 cigarrillos o más era del 3,7%. La relación ta- trol se simplifica, ya que puede extraerse una mues-
baco-ACV era más notable en los casos fatales, tra aleatoria de la población mediante técnicas
concretamente de 6 en las fumadoras de más de probabilísticas.
25 cigarrillos (Colditz et al, 1988). Así pues, si se es- Cuando la detección de todos los casos de una
tudiaran sólo casos prevalentes (no fatales) se población no es posible, no puede definirse tempo-
hallaría un riesgo menor que al analizar casos inci- ral y geográficamente la cohorte subyacente de
dentes (casos nuevos tanto fatales como no fatales). donde proceden. Esto sucede con frecuencia cuan-
Si no es viable seleccionar únicamente casos in- do se trata de enfermedades con síntomas leves que
cidentes, pueden incluirse casos prevalentes que no llevan al individuo a solicitar atención médica,
hayan sido diagnosticados poco tiempo antes de como, por ejemplo, en un estudio sobre las causas
haber iniciado el estudio. Para evaluar si se ha intro- de la infertilidad en los hombres, ya que ésta sólo se
ducido un sesgo, se pueden estratificar los casos habría detectado en aquellos que hubieran tratado
según la fecha del diagnóstico y analizar las fre- de tener descendencia y buscado atención médica.
cuencias de exposición en cada estrato y observar si En esta situación los controles deberían ser repre-
existen diferencias entre ellas. sentativos de aquellos individuos que, en el supues-

78
ESTUDIOS DE CASOS Y CONTROLES

to de desarrollar la enfermedad, hubieran sido de- mente en un subgrupo determinado de la pobla-


tectados como casos. Si no se restringe la población ción, la exclusión de otros subgrupos será la mejor
de acuerdo con estos supuestos, se podría cometer estrategia para demostrar su existencia. Si la mag-
un sesgo de selección relacionado con alguna varia- nitud del efecto en este subgrupo es importante, la
ble ligada al hecho de buscar atención médica. potencia estadística del estudio puede ser mayor si
el estudio se restringe a él que si se escoge una po-
Ejemplo 8.6. En un estudio de base hospitalaria los blación más amplia, a pesar de que el tamaño de la
casos podrían ser todos los pacientes diagnostica- muestra sea más reducido.
dos en uno o varios hospitales. Los controles serían
todos aquellos individuos que en el supuesto de P ROCEDENCIA DE LOS CONTROLES
desarrollar la enfermedad serían diagnosticados y, Los controles pueden seleccionarse entre los suje-
por tanto, tendrían la posibilidad de considerarse tos que acuden a los centros sanitarios, directamen-
como casos en aquellos hospitales. La dificultad es, te de la comunidad o, en algunos casos, se puede
desde luego, identificar con exactitud quién hubie- recurrir a grupos especiales como vecinos, amigos o
ra sido diagnosticado en estos hospitales si hubiera familiares de los casos. La decisión de elegir una u
desarrollado la enfermedad. otra fuente depende de la población de donde pro-
Para asegurar la comparabilidad de los grupos, cedan los casos y de las ventajas, y desventajas, de
debe conseguirse que los controles sean represen- cada una de las fuentes.
tativos de la población de referencia de donde pro- La selección de controles a partir de centros de
ceden los casos, obtenerse información válida tanto salud u hospitales tiene diversas ventajas: su identi-
de los casos como de los controles, y controlarse los ficación es mucho más sencilla, el hecho de que los
posibles factores de confusión. controles tengan alguna enfermedad por la que
están siendo visitados hace que puedan recordar
C RITERIOS DE SELECCIÓN con más detalle sus antecedentes personales y la
DE LOS CONTROLES historia de su posible exposición, y tienden a co-
Los controles deben ser comparables a los casos en operar más que los individuos sanos, reduciendo de
el sentido de haber tenido la misma probabilidad esta forma las no respuestas. Su principal desventa-
de exposición. En la práctica, hay que excluir del ja es que, al padecer algún tipo de enfermedad, es
grupo control a los pacientes que tengan enferme- probable que difieran de los individuos sanos en
dades relacionadas positiva o negativamente con la una serie de factores que tienen relación con el
exposición en estudio. Si se quisiera estudiar el po- proceso de enfermar en general, como el consumo
sible papel protector de la aspirina en la enferme- de tabaco o alcohol o la dieta, y que pueden estar
dad coronaria, se debería excluir como controles, relacionados directa o indirectamente con la expo-
por ejemplo, a los pacientes con enfermedades sición. Por esto, cuando se utilizan este tipo de con-
reumáticas (pueden tomar aspirina como parte de troles es conveniente incluir a pacientes con distintos
su tratamiento) o aquellos con enfermedades gás- diagnósticos con la finalidad de diluir este riesgo.
tricas (que probablemente evitarán su uso). La utilización como controles de individuos de
Igualmente, con el fin de evitar que los controles la población general evita este último problema.
puedan concentrarse en alguna enfermedad re- Sin embargo, su elección entraña dificultades de
lacionada con la exposición, conviene escoger con- orden práctico y metodológico. En primer lugar,
troles con distintas enfermedades con el fin de mini- entrevistar a individuos sanos es mucho más costo-
mizar un posible sesgo debido al muestreo. so en tiempo y dinero. En segundo lugar, al ser mu-
También suele excluirse a los sujetos a los que es chos de ellos individuos que trabajan y que tienen
muy difícil localizar, de los que se sospecha que no su tiempo libre ocupado, no serán tan cooperativos
participarán en el estudio, así como los que pro- como los pacientes hospitalizados o que acuden a
ducen una falta de variabilidad en la exposición los centros de salud. Las no respuestas constituirán
(p. ej., en un estudio sobre los efectos de los anti- un problema en la medida en que los individuos
conceptivos se puede excluir a mujeres que, por su que aceptan participar y los que no, difieren por
edad, muy probablemente no los habrán usado). Si alguna característica relevante para el estudio. Por
existen evidencias de que un efecto se da principal- ejemplo, entre los que aceptan puede haber una

79
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

proporción más elevada de individuos sin empleo, el número de casos es limitado se puede aumentar
o de baja laboral, con más tiempo libre para dedi- la potencia estadística del estudio para detectar un
carlo a contestar unas preguntas que entre los que efecto determinado y seleccionar más de un con-
no aceptan. Si el hecho de no trabajar está relacio- trol por cada caso. Esta última alternativa es muy
nado directa o indirectamente con algún factor de útil cuando el coste de seleccionar a un control es
estudio, un alto porcentaje de no respuestas puede relativamente bajo.
sesgar los resultados. En tercer lugar, los controles Como norma general, cuando la razón de contro-
poblacionales, al estar en general menos motivados les por caso exceda el valor de 4:1 la ganancia en tér-
por el estudio, tenderán a recordar con menos pre- minos de potencia estadística es muy pequeña com-
cisión su historia pasada. Ello puede dar lugar a que parada con el coste de seleccionar a los controles.
la calidad de la información que se recoge sea dife-
rente para los casos y los controles. En la tabla 8.1 se N ÚMERO DE GRUPOS CONTROL
resumen las ventajas y desventajas de la utilización Para valorar la posibilidad de que se haya cometido
de controles procedentes de la población general un sesgo en la selección de los controles, algunos
o de sujetos demandantes. autores recomiendan, si es posible, utilizar dos gru-
Una tercera fuente de controles la proporcio- pos control. Si se obtiene la misma estimación al
nan personas relacionadas con los casos, como pa- comparar con cada uno de ellos, se podría asumir
rientes, amigos o vecinos. Este grupo presenta la que no ha existido un sesgo de selección. A pesar
ventaja de reducir los costes de realización de la en- de todo, siempre existe la posibilidad remota de
trevista, en particular en tiempo de desplazamien- que las dos estimaciones tengan el mismo grado
to, y ofrece más garantías de comparabilidad, al de sesgo.
tener más probabilidad de que provengan de la
misma base poblacional que los casos. Además, ten- Ejemplo 8.7. El objetivo de un estudio era valorar el
derán a ser mucho más colaboradores que la pobla- riesgo de padecer cáncer de vejiga asociado a la
ción general por el interés que despierta la cercanía ocupación laboral, al consumo activo y pasivo de
del caso. El inconveniente es el potencial riesgo de tabaco, la dieta, el consumo de café, analgésicos,
sobreemparejamiento que conlleva, dado que algu- edulcorantes y antecedentes de infección y litiasis
nos hábitos de vida son compartidos por familiares, urinaria (González et al, 1989). Para ello se estudia-
amigos, e incluso tienden a concentrarse en los mis- ron 497 casos y 583 controles hospitalarios, así co-
mos barrios. mo 530 controles de población. El porcentaje de
encuestas no realizadas en los controles de pobla-
N ÚMERO DE CONTROLES POR CASO ción fue del 34,3%, ligeramente superior que en los
Cuando existe un número de casos suficiente se controles hospitalarios (29,5%). Las causas por las
suele seleccionar un control por cada uno. Cuando que no se realizó la encuesta fueron, principalmente,

Tabla 8.1. Ventajas y desventajas de controles de la población general o la población demandante

Población demandante Población general

• Más fáciles de identificar • Más tiempo y dinero para su identificación


• Tienden a recordar mejor su historia de exposición • Más probabilidad de que se produzca un sesgo
de memoria
• Más cooperativos, por lo que el número • Tienden a ser menos cooperativos
de no respuestas es menor
• Al estar enfermos es más fácil que tengan algún • Probabilidad muy remota
factor de riesgo relacionado con la enfermedad
de estudio
• Más fácil de mantener al entrevistador ciego • Difícil de mantener el ciego
al grupo al que pertenece cada individuo

80
ESTUDIOS DE CASOS Y CONTROLES

la dificultad para localizar los controles (mayor en El grupo de casos debe incluir todos los casos, o
el grupo poblacional) y la negativa a ser entrevista- una muestra representativa, que aparecen en una
do (también mayor en el grupo poblacional). Para población definida. Si se dispone de un registro de
los controles hospitalarios utilizaron una lista enfermedad de base poblacional, como los que sue-
amplia de diagnósticos de exclusión por ser enfer- len existir para cáncer o enfermedades congénitas,
medades asociadas con los factores de estudio. Con ésta será la fuente de elección, ya que se tendrá una
el objeto de evitar que los controles pudieran con- lista exhaustiva de todos (o casi todos) los casos. Si
centrarse en alguna enfermedad asociada a las ex- no se dispone de este tipo de registros, debe recu-
posiciones, seleccionaron controles de la mayoría rrirse a otras fuentes, en general servicios hospitala-
de servicios y con una amplia variedad de diagnós- rios u otros centros sanitarios. En esta situación la
ticos, como hernia inguinal, apendicitis, fractura de inclusión de los casos está relacionada con la pro-
tibia, glaucoma, dolor dorsal y osteoartrosis, entre babilidad de que hayan sido diagnosticados y ad-
otros. Además, ninguno de estos diagnósticos supe- mitidos en dichos servicios o centros. Si esta pro-
raba el 7% del total de los controles hospitalarios. babilidad depende de factores como el grado de
Los autores defendían la inclusión de un control especialización o el prestigio del servicio, o bien
poblacional, además del hospitalario, como pre- de características del paciente (lugar de residencia,
caución frente a la eventualidad de que ciertos há- clase socioeconómica, etc.), y estos factores están
bitos relacionados con los factores de estudio fue- relacionados con el hecho de haber sido expuestos,
ran diferentes en ambos grupos. Contar con dos la muestra de casos no será representativa y se ob-
grupos control tenía, además, el objetivo de aumen- tendrá una estimación sesgada del efecto.
tar la precisión y el poder estadístico del estudio. Al Otro sesgo de selección que puede presentarse
comparar ambos grupos por las variables conside- en los estudios de casos y controles es el sesgo de Berk-
radas de interés no se observaron diferencias signi- son. Suele ocurrir cuando la combinación de la
ficativas, lo que sugiere que ambos grupos proce- exposición y la enfermedad en estudio aumenta
den de una misma población. la probabilidad de ingreso en un hospital, lo cual
La recomendación de usar dos grupos control es conduce a una frecuencia de exposición sistemáti-
difícil de llevar a la práctica por su coste en tiempo y camente más elevada en los casos que en los con-
dinero. Además, algunos autores argumentan que troles hospitalarios. El resultado es una estimación
los investigadores no suelen depositar igual confian- sesgada de la OR.
za en la validez de las comparaciones basadas en dos El uso de casos prevalentes en lugar de inciden-
o más grupos diferentes, y que con grupos de com- tes puede dar lugar a un error sistemático que se
paración distintos hay que esperar a que se observen conoce con el nombre de sesgo de Neyman o de super-
resultados distintos. ¿Qué sucede si en un estudio vivencia selectiva. La prevalencia depende tanto de la
largo y costoso se observan resultados discrepantes duración de la enfermedad, que se verá afectada
con distintos grupos de comparación? Si los investi- por el tratamiento y la atención sanitaria recibida,
gadores depositan mayor confianza en uno de ellos, como de la letalidad de la enfermedad. Por estas
los resultados del otro restarían credibilidad a sus razones, los casos prevalentes pueden no ser repre-
hallazgos. En consecuencia, algunos epidemiólogos sentativos de todos los casos.
recomiendan escoger sólo un grupo de compara- El llamado sesgo de detección aparece como conse-
ción, en general en el que se tenga mayor confianza. cuencia de la existencia de una diferente probabili-
dad de diagnosticar a los casos y a los controles.
Este sesgo mereció la atención de muchos investi-
SESGOS EN LA SELECCIÓN DE CASOS
gadores a raíz de la controversia surgida con el uso
Y CONTROLES
de estrógenos y el riesgo de padecer cáncer de en-
Un sesgo de selección aparece cuando los casos o dometrio. Se argumentó que la exposición (uso de
los controles son incluidos o excluidos de un estu- estrógenos) estaba asociada a una mayor probabili-
dio debido a alguna característica relacionada con dad de que los médicos detectaran la enfermedad,
la exposición. Aunque los sesgos se explican con ya que las mujeres que utilizaban estrógenos eran
detalle en el capítulo correspondiente, a continua- visitadas con mayor frecuencia y de forma más cui-
ción se mencionan los más importantes. dadosa que las que no los consumían. Sin embargo,

81
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

la asociación entre el uso de estrógenos y el cáncer cuando el emparejamiento no se acompaña de una


de endometrio permaneció después de considerar técnica de análisis para datos apareados.
el posible efecto de un sesgo de detección. Aunque es una técnica que se ha usado amplia-
mente, sus múltiples inconvenientes, junto con el
desarrollo de las técnicas de análisis multivariante y
EMPAREJAMIENTO (MATCHING)
su disponibilidad en los paquetes estadísticos
El emparejamiento (matching) se refiere al proceso informáticos, han disminuido su atractivo. Las ven-
de seleccionar uno o más controles que se aseme- tajas y desventajas del emparejamiento se resumen
jen a un caso en los valores de determinadas varia- en la tabla 8.2.
bles, con la finalidad de controlar potenciales fac- Existen algunas situaciones en las que el empa-
tores de confusión (p. ej., seleccionar para cada rejamiento puede ser útil e incluso deseable. Para
caso un control del mismo sexo y de edad similar). determinadas variables, si durante el diseño del
El emparejamiento indirecto se utiliza cuando los estudio no se emplea el emparejamiento, el control
potenciales factores de confusión son identificables de su posible efecto de confusión se hace muy di-
pero difícilmente medibles. Si se quieren controlar fícil. Por ejemplo, cuando se selecciona un caso
determinadas variables socioeconómicas o ambien- según el barrio de residencia, que está correlacio-
tales se puede decidir equiparar a los casos y contro- nado con multitud de variables (p. ej., estado socio-
les por el barrio de residencia, asumiendo que es económico, hábitos dietéticos, utilización de los
una buena aproximación de aquellas variables. servicios sanitarios, etc.), es útil emparejarlo a un
Para que el emparejamiento sea útil, debe reali- control que viva en el mismo lugar. Si los controles
zarse por una variable que sea un potencial factor fueran seleccionados al azar de la población gene-
de confusión, es decir, relacionada tanto con el fac- ral y posteriormente se estudiara la asociación entre
tor de estudio (exposición) como con la variable de el barrio de residencia y la enfermedad, es muy pro-
respuesta (enfermedad). En caso de que no sea así, bable que muy pocos controles procedieran del
se pierde eficiencia y se disminuye la validez de la mismo barrio que los casos, por lo que el efecto de
comparación entre los casos y los controles, fenó- esta posible variable de confusión no quedaría con-
meno que se conoce como sobreemparejamiento trolado, por la imposibilidad de realizar un análisis
(overmatching). Este fenómeno también se produce estratificado o multivariante.

Tabla 8.2. Ventajas y desventajas del emparejamiento

Ventajas
• Es un proceso fácil de comprender
• Equilibra el número de casos y controles en cada categoría de la variable por la que se empareja
• Facilita la detección de una interacción entre la exposición y el factor por el que se aparea siempre que éste
tenga un gran efecto sobre el riesgo de padecer la enfermedad y sea poco frecuente en la población
• Si el emparejamiento es perfecto, como sucede con las variables dicotómicas o las cuantitativas cuando
se aparea exactamente por el mismo valor de la variable, el efecto de confusión se controlará completamente
Desventajas
• No se podrá estudiar el efecto de la variable por la que se empareja sobre la enfermedad
• Sólo se previene el posible efecto de confusión de las variables por las que se ha emparejado
e, indirectamente, por aquellos factores que están muy relacionados con ellas
• Permite evaluar la existencia de interacción, pero no su estudio detallado
• Es un proceso laborioso que requiere mucho tiempo y puede alargar la duración del estudio
• Reduce la flexibilidad del análisis, al ser necesario utilizar técnicas para datos apareados
• Si se empareja por una variable que no es un factor de confusión se obtendrá una estimación poco precisa
• Aumenta la complejidad del estudio, a menudo con escaso beneficio, en términos de precisión y exactitud
del estimador

82
ESTUDIOS DE CASOS Y CONTROLES

También es útil cuando el número de casos es INFORMACIÓN SOBRE LA EXPOSICIÓN


muy pequeño, ya que en esta situación es muy posi-
La secuencia temporal causa-efecto de los estudios
ble que las características basales entre casos y con-
de casos y controles obliga a la obtención de infor-
troles difieran sustancialmente debido a variabi-
mación sobre la historia de exposiciones pasadas,
lidad en el muestreo. Además, al ser la muestra
es decir, de forma retrospectiva. Por esta razón, las
pequeña no permitirá un análisis de subgrupos, en
encuestas, ya sean personales, telefónicas o me -
el que además se tenga en cuenta el efecto de los
diante cuestionarios autoadministrados, son el
posibles factores de confusión. El emparejamiento
método más utilizado para recoger dicha informa-
de varios controles por caso permitirá solucionar, al
ción. También pueden emplearse medidas biológi-
menos parcialmente, este problema.
cas asumiendo su estabilidad a lo largo del tiempo.
También es útil cuando se desea controlar el efec-
En ocasiones, se recoge la información a partir
to de un factor de confusión que se distribuye de
de personas próximas (familiares, amigos, etc.) a
forma muy desigual entre los casos y los controles.
los sujetos incluidos en el estudio cuando éstos no
son capaces de proporcionarla. El uso de informa-
Ejemplo 8.8. Supongamos un estudio que desea es-
dores indirectos es muy útil cuando la enferme-
timar el riesgo de infarto agudo de miocardio (IAM)
dad tiene una elevada letalidad y en los que la
asociado al consumo de tabaco en hombres de 20-44
serie de casos es muy pequeña, ya que la falta de
años de edad. Dado que la edad está relaciona-
información de los individuos que han muerto
da con la exposición (consumo de tabaco) y también
puede causar un sesgo importante. Deben em -
con la enfermedad (IAM), puede considerarse co-
plearse tanto en los casos como en los controles y,
mo un potencial factor de confusión. Si se opta por
siempre que sea po sible, validar la información
un diseño no emparejado y se selecciona una mues-
sobre la exposición, comparando la dada por una
tra aleatoria de controles, una forma de controlar el
muestra de sujetos participantes en el estudio con
efecto de la edad es realizar un análisis estratificado.
la ofrecida por su correspondiente informador
Otra forma de diseñar el estudio sería seleccionar
indirecto.
una muestra de casos y emparejar los controles en
La elección de la fuente de información depen-
distintas categorías de edad (p. ej., ±2 años). En el
de de la exposición que se quiere medir. Si, por
estudio sin emparejamiento los casos predominarán
ejemplo, el interés está en determinar el número
en las edades mayores, mientras que los controles se
de cigarrillos y el tiempo que hace que fuma, lo me-
distribuirán uniformemente entre todos los grupos
de edad. De hecho, en los grupos de edad más jóve- jor será preguntárselo directamente al individuo, ya
nes habrá muy pocos casos, si es que hay alguno. Si que esta información no suele constar en las histo-
en un grupo no existe ningún caso, la información rias clínicas. Además, si el consumo de cigarrillos
sobre los controles en este grupo no tendrá ninguna está relacionado con la enfermedad en estudio,
utilidad. Además, las estimaciones del riesgo en los probablemente se registre mucho mejor esta varia-
estratos será más imprecisa (tendrá una variancia ble en los casos que en los controles.
mayor) en las situaciones donde exista un desequili-
brio en el número de casos y controles. Ejemplo 8.9. Supongamos un estudio en que los
Sin embargo, la reducción de la variancia que se casos son pacientes afectados de bronquitis crónica,
consigue con el emparejamiento es modesta. Se mientras que los controles son sujetos que padecen
suele alcanzar una reducción de entre un 5 y un 15% artrosis. Es muy posible que en las historias de los
de la variancia del estimador. Las mayores reduccio- casos conste con detalle su hábito tabáquico, pero
nes se consiguen cuando existe una asociación muy en la de los controles sólo esté registrado si fuma o
importante entre la enfermedad en estudio y el fac- no. En este caso, el grado con que se identifica la
tor de confusión (riesgo relativo [RR] > 20). exposición en uno y el otro grupo es muy diferente,
La conclusión es que el emparejamiento debe uti- lo que conducirá a unos resultados sesgados.
lizarse casi exclusivamente en estudios de casos y con- En otras ocasiones, es mejor obtener la informa-
troles y en contadas ocasiones. Existen técnicas de ción de las historias clínicas, en especial cuando se
análisis que permiten controlar el efecto de los facto- trata de los resultados de pruebas realizadas a los
res de confusión de forma mucho más eficiente. pacientes.

83
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Ejemplo 8.10. En un estudio se describió la concor- diante entrevista personal sobre ocho posibles ex-
dancia entre la información dada por los pacientes posiciones durante el embarazo, y se comparó con
y sus médicos con respecto a la práctica de la tin- la registrada en la historia clínica del obstetra. Se
ción de Papanicolaou y su resultado (Walter et al, consiguió la misma información, y de las mismas
1988). Los datos procedían de un estudio de casos fuentes, de un grupo de madres de hijos sin malfor-
y controles recogidos mediante entrevista personal. maciones, que sirvió de control (Werler et al, 1989).
Posteriormente, se contactó con sus respectivos mé- La información sobre cinco de las ocho exposicio-
dicos de cabecera o del centro de planificación fa- nes fue igual de exacta en los casos que en los con-
miliar con el fin de verificar la información. Al com- troles, pero la historia de infección durante el emba-
parar los hallazgos histológicos encontraron que razo, de infertilidad tratada o no, y de la utilización
existía bastante concordancia si se consideraban de métodos anticonceptivos durante 2 semanas o
sólo como «normal-anormal», pero cuando se soli- más después del último período menstrual, fue mu-
citaba el diagnóstico exacto de los resultados anor- cho más exacta en los casos que en los controles.
males la concordancia disminuyó sensiblemente. Estos resultados indican que el sesgo de memo-
Las displasias eran clasificadas a menudo por las ria puede estar presente en algunas exposiciones y
pacientes como cáncer, y viceversa. Las diferencias no en otras. Este hecho no es sorprendente, y pro-
pueden deberse a que el médico ha proporcionado bablemente se deba a una mezcla de memoria,
una información deficiente o incompleta, o simple- emoción e impresiones de las personas sobre los
mente a que las pacientes no reconocen las dife- riesgos asociados a un determinado factor. Sin
rencias entre una displasia y una neoplasia invasiva. embargo, es muy difícil poder determinar a priori
Cuando los autores calcularon los resultados por qué exposiciones son susceptibles a un sesgo de
separado para los casos y los controles, se observó memoria.
que en los primeros los datos eran más concordan- La probabilidad de que se produzca este sesgo
tes que en los segundos. Los casos estaban quizá aumenta cuando se recoge información sobre va-
más motivados para responder a este tipo de pre- rios factores de forma simultánea. Puede intentarse
guntas debido a que padecían una enfermedad prevenir seleccionando como controles pacientes
grave. Además, es muy posible que les hicieran pre- con enfermedades similares a la de estudio. Por
guntas similares mientras duraba el proceso ejemplo, en el caso de estudiar un determinado
diagnóstico, y de este modo tuvieran más tiempo de tipo de cáncer, el grupo control estaría formado
considerar sus respuestas. por pacientes con otros cánceres, o, si la enferme-
dad de interés es una malformación determinada,
S ESGO DE MEMORIA estaría constituido por madres de niños con otras
Los estudios de casos y controles se han criticado malformaciones. Si se adopta esta estrategia hay
muy a menudo a causa de que la información sobre que tener la seguridad de que la exposición en estu-
la exposición se recoge retrospectivamente y, de dio no está relacionada con las enfermedades que
este modo, se facilita la posibilidad de incurrir en componen el grupo control, porque de otro modo
un sesgo de memoria. Este sesgo suele ocurrir se incurriría en un sesgo de selección.
en enfermedades graves y/o cuando suponen un
fuerte trauma psicológico, como las malformacio- S ESGO DEL ENTREVISTADOR
nes congénitas. En estas circunstancias es muy posi- Puede aparecer siempre que el encuestador (u ob-
ble que los casos recuerden sus antecedentes perso- servador, en general) tenga conocimiento del gru-
nales con mucho más detalle que los controles, al po al que pertenece el sujeto al que está entrevis-
estar más sensibilizados por la enfermedad y por- tando y del objetivo del estudio. A la mayoría de los
que sus médicos les habrán preguntado con insis- investigadores les gusta obtener resultados positivos
tencia por ellos. La presencia y la magnitud de este y, de forma involuntaria, pueden preguntar con más
sesgo varían según la exposición. detalle e insistencia a los casos que a los controles.
Por ello, cuando la información se recoge a través
Ejemplo 8.11. En un estudio cuyo objetivo era eva- de un cuestionario y siempre que los recursos lo per-
luar su presencia en madres de niños con malfor- mitan, es preferible que el encuestador sea alguien
maciones congénitas, se obtuvo información me- ajeno al equipo que ha diseñado el protocolo.

84
ESTUDIOS DE CASOS Y CONTROLES

La forma de evitar este problema es que el en- conduce al diagnóstico precoz con independencia
cuestador no sepa si entrevista a un caso o a un de que el tratamiento aplicado tempranamente sea
control. Sin embargo, esto puede ser difícil de con- o no eficaz. En consecuencia, la población some-
seguir cuando los controles son personas sanas. tida con regularidad a algún tipo de técnica de de-
Además, es muy posible que los casos antes o duran- tección precoz tendrá una alta frecuencia de casos
te la entrevista digan alguna frase o comentario que descubiertos durante el intervalo de detección (pe-
haga sospechar al encuestador. De todos modos, ríodo de tiempo transcurrido entre la detección de
siempre que sea posible se intentará que los entre- la enfermedad por cribado y el momento en que
vistadores permanezcan «ciegos» al grupo al que habría sido diagnosticada por los cuidados médicos
pertenece cada persona, e igualmente que no co- habituales en ausencia del cribado). Si una persona
nozcan la hipótesis que se está evaluando. se considera caso en función de una característica
de la enfermedad que se manifiesta durante ese in-
ESTUDIOS DE CASOS Y CONTROLES tervalo, habrá un exceso de casos detectados por
QUE EVALÚAN MEDIDAS PREVENTIVAS cribado y, por consiguiente, se enmascarará su posi-
ble efecto beneficioso.
Existen medidas preventivas muy utilizadas y acep-
Es necesario que los casos se elijan en función
tadas tanto por la población como por los profesio-
de las manifestaciones que desarrollen después del
nales sanitarios que nunca se han evaluado median-
te un ensayo clínico. Por ejemplo, aunque se han intervalo de detección. Una variable de respuesta
publicado multitud de estudios que sugieren la que cumple esta condición es la mortalidad. El gru-
efectividad del cribado para reducir la mortalidad po de casos lo formarían aquellos individuos que
por cáncer de cuello uterino, la mayoría de los murieron de la enfermedad y que se diagnosticaron
resultados se sostienen en la comparación de las como resultado del despistaje, así como los que
tasas entre poblaciones con diferente intensidad en murieron y la enfermedad se descubrió cuando ya
sus programas de cribado o de una misma pobla- había dado síntomas. En el grupo control se
ción durante distintos períodos de tiempo. Dada la incluirían todos los miembros vivos (personas que
probabilidad de sesgo en los resultados de estos no han padecido nunca la enfermedad más aque-
estudios, se podría dudar de que la relación entre la llos que sí la padecen) de la población de donde
aplicación de un programa de despistaje y la reduc- proceden los casos. A simple vista puede parecer
ción de la mortalidad por cáncer de cuello fuera extraño incluir a individuos con la enfermedad en
causal. Aunque la evidencia debería proporcionar- el grupo control, pero si el diagnóstico temprano es
la un ensayo clínico, la realización de este estudio eficaz lo más probable es que las personas que
es difícil ya que el cribado está considerado, tanto sepan que padecen la enfermedad hayan sido
por el público general como por los profesionales sometidas a cribado. Si estos individuos se excluye-
sanitarios, como una prueba útil. ran de forma sistemática se tendería a reducir la
Cuando la práctica de un método de cribado es estimación del efecto protector del cribado.
muy frecuente, se puede utilizar el diseño de casos En ocasiones no es sencillo recoger la historia de
y controles para evaluar su eficacia. Si la medida es exposición de los registros de los casos que han
eficaz para prevenir una enfermedad y se ha aplica- muerto. En esta situación se pueden elegir como
do en una población concreta, los individuos que la casos a los individuos que se encuentran en estadios
componen y que mueran a causa de esta enferme- avanzados de la enfermedad. El grupo control
dad deberían haberse sometido a cribado con me- estará formado por todas aquellas personas de la
nos frecuencia que el resto de la población. Así población de donde procedan los casos pero que
pues, la comparación entre la historia de cribado no tengan la característica que los define, es decir,
de los casos que mueren por la enfermedad y la de que no padezcan la enfermedad en estadios avan-
los controles da una estimación del efecto protec- zados. Ello significa que entre los individuos poten-
tor del cribado. cialmente elegibles habrá personas sin la enferme-
Los estudios de casos y controles que evalúan la dad, con independencia de si se les han aplicado o
eficacia de un método de cribado tienen caracterís- no medidas preventivas, y otras en las que la enfer-
ticas propias. En primer lugar, el cribado está impli- medad estará menos avanzada, se haya o no descu-
cado directamente en el propio proceso, ya que bierto después de un cribado.

85
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Sin embargo, un error frecuente es elegir como por la proporción que existe en la comunidad. Una
grupo control sólo a pacientes con manifestaciones excepción son los estudios poblacionales en los que
poco avanzadas de la enfermedad y comparar su his- se asume que la tasa del grupo control es represen-
toria de exposición con la del grupo de casos. Esta tativa de toda la población y además se conoce su
comparación no es apropiada, ya que con toda pro- incidencia. A partir de esta información puede
babilidad su historia de cribado no será representati- calcularse la incidencia en el grupo expuesto y no
va de la población de donde provienen los casos. En expuesto (tabla 8.3). Los estudios de casos y con-
la mayoría de las ocasiones la enfermedad se habrá troles permiten estimar directamente el riesgo de
detectado gracias al cribado, por lo que su exposi- padecer una enfermedad asociado a un determina-
ción será superior, en promedio, a la de la población. do factor de riesgo.
La tabla 8.4 resume las ventajas y limitaciones de
estos estudios. En general, en la exploración inicial
VENTAJAS Y LIMITACIONES de una hipótesis son mucho más útiles los estudios
DE LOS ESTUDIOS DE CASOS de casos y controles por su eficiencia en tiempo,
Y CONTROLES coste y posibilidad de estudiar varios factores de
La mayor ventaja de los estudios de casos y contro- forma simultánea. En el caso de que se requiera una
les es el grado de información que ofrecen, ya que mayor evidencia, los estudios de cohortes, siempre
se pueden estudiar un gran número de casos de que sean factibles, ofrecen datos sobre la evaluación
una enfermedad, mientras que en un estudio de co- de una asociación de una manera más directa y con
hortes sólo unos pocos la desarrollarán. Esta venta- una metodología distinta a la aplicada a los estudios
ja se ve acrecentada cuando se estudian enfermeda- de casos y controles.
des poco frecuentes. Además, permiten evaluar
varios factores de riesgo de forma simultánea y la
DISEÑOS HÍBRIDOS
existencia de interacciones entre ellos.
Una segunda ventaja es su eficiencia, ya que se Los diseños híbridos tienen características tanto de
realizan en mucho menos tiempo y con un coste los estudios de cohortes como de los de casos y con-
menor que los estudios de cohortes, al no tener que troles, pero obvian algunas de sus desventajas. Se
seguir a los pacientes durante el período de laten- caracterizan por analizar todos los casos aparecidos
cia de la enfermedad. en una cohorte estable seguida en el tiempo y utili-
Por último, permiten estudiar exposiciones que zar como controles sólo una muestra de los sujetos
son raras en la población general, siempre y cuan- de esa misma cohorte. Según el plan de muestreo
do estén asociadas a la enfermedad en estudio. Por que se utilice para constituir los grupos a partir de
ejemplo, la exposición a las anilinas es rara en la po- los componentes de la cohorte, pueden diferen-
blación general, pero está relacionada con el cán- ciarse dos tipos generales de diseños: estudios de
cer de vejiga, por lo que es una exposición que po- casos y controles anidados dentro de una cohorte y
drá investigarse de manera eficiente mediante un estudios de cohorte y casos.
estudio de casos y controles. Dado que la incidencia de la mayor parte de los
Su limitación más importante es que son muy enfermedades que se estudian es relativamente
susceptibles a la introducción de sesgos tanto en la baja, interesa seleccionar todos los casos que apare-
selección de los grupos como en la información cen en la cohorte, aunque podría utilizarse cual-
que se obtiene sobre los factores de riesgo. Los estu- quier otra fracción de muestreo. Por el contrario,
dios de cohortes, al elegir la población a partir de la los controles serán una muestra de sujetos proce-
exposición, están menos sujetos a la introducción dentes de la cohorte inicial, con lo que se pierde
de errores sistemáticos. precisión estadística; sin embargo, este hecho se
Los estudios de casos y controles no proporcio- compensa por la considerable reducción en el
nan una estimación directa de la incidencia ni de la número de sujetos estudiados y del coste en la reco-
prevalencia de una enfermedad, ya que la propor- gida de datos y el tiempo de seguimiento, y por un
ción de los participantes en el estudio que tienen la mayor control de calidad de la recogida y procesa-
exposición está determinada por el investigador, no miento de los datos.

86
ESTUDIOS DE CASOS Y CONTROLES

Tabla 8.3. Cálculo de las tasas de incidencia a partir de un estudio de casos y controles

Para el cálculo de las tasas de incidencia es imprescindible conocer la incidencia de la enfermedad en toda la
población (p. ej., a partir de registros de enfermedad) y asumir que la prevalencia de exposición en el grupo
control es representativa de toda la población
La incidencia en toda la población (It) es igual a la media ponderada de las incidencias según varios grados de
exposición, y el factor de ponderación es la proporción de individuos en cada grado. De este modo, la It es la
suma de la incidencia en el grupo expuesto (le) multiplicado por la proporción de expuestos en toda la
población (Pe) y de la incidencia en el grupo no expuesto (Io) multiplicado por la proporción de no expuestos
en la población (Po)
It = (Ie ⫻ Pe) ⫹ (Io ⫻ Po)
Dado que el riesgo relativo (RR) es la razón de incidencias entre el grupo expuesto y el no expuesto,
la incidencia en el grupo expuesto será igual a:
Ie = RR ⫻ Io
Por tanto:
It = (RR ⫻ Io ⫻ Pe) ⫹ (Io ⫻ Po)
En un estudio de casos y controles, la RR se puede sustituir por la odds ratio (OR):
It = (OR ⫻ Io ⫻ Pe) ⫹ (Io ⫻ Po)
Despejando, se obtendrá la incidencia en el grupo no expuesto (Io)
It
Io =
(OR ⫻ Pe) ⫹ Po
Una vez calculada la incidencia en el grupo no expuesto, basta multiplicarla por la OR y se obtendrá
la incidencia en el grupo expuesto

Tabla 8.4. Ventajas y desventajas E STUDIOS DE CASOS Y CONTROLES


de los estudios de casos y controles ANIDADOS EN UNA COHORTE
A partir de un estudio de cohortes ya realizado o
Ventajas que se está llevando a cabo se identifican todos los
• Útiles para estudiar enfermedades poco frecuentes sujetos que han desarrollado la enfermedad, que
• Son un buen diseño para estudiar enfermedades constituirán el grupo de casos. En el momento en
con largos períodos de latencia que aparece un caso se selecciona aleatoriamente
• Permiten estudiar exposiciones poco frecuentes uno o varios controles entre los sujetos de riesgo en
siempre que estén asociadas a la enfermedad ese momento (plan de muestreo por densidad de
• Pueden evaluar múltiples factores de riesgo para incidencia). Los controles pueden emparejarse con
una sola enfermedad los casos, y es conveniente hacerlo por alguna varia-
• Su duración es relativamente corta
ble dependiente del tiempo, como los años de per-
Desventajas manencia en la cohorte. Además, un mismo sujeto
• Es fácil que se introduzcan errores sistemáticos podría seleccionarse como control en más de una
tanto en la selección de los grupos como al ocasión para casos diferentes, o podría seleccionar-
recoger la información se como control en un momento determinado y
• En ocasiones es difícil establecer la secuencia
considerarse como caso posteriormente si desarro-
temporal entre la exposición y la enfermedad
• No son un buen diseño para estudiar más de una
lla la enfermedad.
enfermedad de forma simultánea Este diseño está indicado cuando es necesario
• No permiten calcular la incidencia o prevalencia realizar mediciones muy costosas. Comparten con
de la enfermedad los estudios de cohortes el hecho de utilizar como
estudio a un grupo definido de personas (cohorte)

87
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

que son seguidas durante un período de tiempo, y no podrá analizarse como si se tratara de un estudio
el hecho de que la información sobre los factores de cohorte tradicional.
de riesgo de interés y las variables principales se La misma subcohorte puede servir de grupo de
han recogido al inicio del seguimiento, de forma comparación para el estudio de diversas enfermeda-
prospectiva y antes de que se desarrolle la enferme- des. Si se deseara estudiar la relación entre determi-
dad, lo que elimina algunos sesgos de información nados factores de riesgo y la aparición de dos enfer-
que hubieran podido aparecer si se hubiera utiliza- medades bastaría con comparar los casos de cada
do un diseño clásico de casos y controles. Además, enfermedad con la misma subcohorte seleccionada.
comparten con los de casos y controles el plan de Este diseño permite determinar las tasas de inci-
muestreo: se recogen todos los casos de la enferme- dencia de la enfermedad y no sólo el riesgo relativo.
dad y una muestra de controles representativa de la
población de la que proceden los casos con riesgo Ejemplo 8.13. Un ejemplo de diseño de cohorte y
de enfermedad, pero que en el momento en que se casos es un estudio que estimaba la relación entre
seleccionaron como controles aún no la habían el consumo de alcohol y el desarrollo de cáncer de
desarrollado. mama (Van der Brandt et al, 1995). La cohorte ini-
cial estaba constituida por 62.573 mujeres entre
Ejemplo 8.12. Un ejemplo de un estudio de casos y 55 y 69 años de edad en las que se evaluaban aspec-
controles anidado es un estudio que investigaba la tos relacionados con la dieta y el cáncer. Los inves-
relación entre las concentraciones séricas de coles- tigadores seleccionaron de forma aleatoria una sub-
terol y el cáncer de colon (Sidney et al, 1986). La cohorte de 1.812 mujeres, que fueron seguidas
cohorte en que se anidaba el estudio consistía en bianualmente para recoger información detallada
48.314 individuos a los que se había practicado un sobre covariables de interés. Los casos fueron las
examen de salud, y que fueron seguidos durante 422 mujeres que desarrollaron cáncer de mama
un período promedio de 7,2 años (más de 348.000 durante el seguimiento de la cohorte inicial. Estos
personas-año) para observar el desarrollo de cán- casos podían proceder de la subcohorte o de la co-
cer de colon. Los 245 individuos de la cohorte que horte inicial. Nótese que se ha podido recoger in-
desarrollaron la enfermedad se consideraron casos, formación más exacta y detallada de 1.812 mujeres
y, para cada uno de ellos se seleccionaron cinco que de las 62.573 de la cohorte inicial. Además,
controles. Los casos y los controles se emparejaron estas 1.812 mujeres pueden servir de denominador
por la edad, el sexo y el tiempo transcurrido desde no sólo para evaluar hipótesis relacionadas con el
el primer examen. En lugar de tener que analizar el cáncer de mama sino con otros tipos de cáncer.
colesterol y otras variables en todos los miembros La elección de una u otra alternativa de diseño
de la cohorte, los investigadores concentraron to- depende sobre todo del tipo de datos que el inves-
dos sus esfuerzos en los 245 casos y sus controles, tigador necesita procesar. Si el procesamiento o
una muestra mucho más pequeña y asequible. ciertas características de los datos cambian con el
tiempo, son más ventajosos los diseños anidados.
E STUDIOS DE COHORTE Y CASOS Por el contrario, si se puede asumir la estabilidad
En estos estudios se selecciona aleatoriamente una de la información en el tiempo, la posibilidad de es-
muestra (subcohorte) de la cohorte inicial, que ser- tudiar múltiples enfermedades con el mismo grupo
virá como grupo de comparación para todos los de comparación hace que los diseños de cohorte y
casos que aparezcan durante el seguimiento, con casos sean de elección.
independencia de si ya pertenecían o no a la sub-
cohorte. En resumen, se eligen todos los casos de
la cohorte inicial aparecidos durante el seguimien-
B IBLIOGRAFÍA DE LOS EJEMPLOS
Colditz G, Bonita R, Stampfer M et al. Cigarette smoking
to, y su información se compara con la procedente and risk of stroke in middle aged women. N Engl J Med
de una muestra de la cohorte inicial. Lo que se per- 1988; 318: 937-941.
sigue es obtener una nueva cohorte, con menos González CA, López Abente G, Errezola M et al. Diseño y
sujetos que la inicial, en la que los casos están sobre- realización de un estudio multicéntrico caso control
rrepresentados. Esta sobrerrepresentación de los sobre cáncer de vejiga en España. Med Clin (Barc) 1989;
casos debe tenerse en cuenta en el análisis, ya que 92: 646-651.

88
ESTUDIOS DE CASOS Y CONTROLES

Sidney S, Friedman GD, Hiatt RA. Serum cholesterol and Maclure M, Schneeweiss S. Causation of bias: the episcope.
large bowel cancer. Am J Epidemiol 1986; 124: 33-38. Epidemiology 2001; 12: 114-122.
Van der Brandt PA, Goldbohm RA, Van’t Veer P. Alcohol and Miller AB. Hospital or population controls? It depends on
breast cancer: results from the Netherlands Cohort Stu- the question. Prev Med 1994; 23: 263-266.
dy. Am J Epidemiol 1995; 141: 907-915. Morabia A. Case-control studies in clinical research: mecha-
Walter SD, Clarke EA, Hatcher J, Stitt LW. A comparison of nism and prevention of selection bias. Prev Med 1997;
physician and patient of reports of pap smears histories. 26: 674-677.
J Clin Epidemiol 1988; 4: 401-410. Schlesselman JJ. Case-control studies: design, conduct, ana-
Werler M, Pober B, Nelson K, Holmes L. Reporting accuracy lysis. Nueva York: Oxford University Press, 1982.
among mothers of malformed and nonmalformed in- Schulz KF, Grimes D. Case-control studies: research in rever-
fants. Am J Epidemiol 1989; 129: 415-421. se. Lancet 2002; 359: 431-434.
Sturmer T, Brenner H. Degree of matching and gain in po-
B IBLIOGRAFÍA wer and efficiency in case-control studies. Epidemiology
Bland JM, Altman DG. The odds ratio. BMJ 2000; 320: 1468. 2001; 12: 101-108.
Delgado-Rodríguez M. Discordancias entre los estudios de ám- Thompson WD. Statistical analysis of case-control studies.
bitos hospitalario y comunitario cuando evalúan la misma Epidemiol Rev 1994; 16: 33-50.
pregunta de investigación. Gac Sanit 2002; 16: 344-353. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
Delgado-Rodríguez M, Sillero M. Revisión: diseños híbridos Selection of controls in case-control studies. I. Principles.
de estudios de cohortes y de estudios de casos y contro- Am J Epidemiol 1992; 135: 1019-1028.
les. Gac Sanit 1995; 9: 42-52. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
Grimes DA, Schulz KF. Bias and causal associations in obser- Selection of controls in case-control studies. II. Types of
vational research. Lancet 2002; 359: 248-252. controls. Am J Epidemiol 1992; 135: 1029-1041.
Hosek RS, Flanders WD, Sasco AJ. Bias in case-control stu- Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
dies of screening effectiveness. Am J Epidemiol 1996; Selection of controls in case-control studies. III. Design
143: 193-201. options. Am J Epidemiol 1992; 135: 1042-1050.

89
Capítulo 9
Estudios descriptivos

as principales finalidades de los estudios des- En ocasiones, los diseños transversales se utilizan

L criptivos son describir la frecuencia y las carac-


terísticas de un problema de salud en una po-
blación, describir la asociación entre dos o más
para estudiar la relación entre dos o más variables en
una población en un momento del tiempo (estudios
de asociación cruzada). Dado que las variables se miden
variables sin asumir una relación causal entre ellas y de forma simultánea o en un corto período, existe
generar hipótesis razonables que deberán contras- una ambigüedad temporal que dificulta en muchas
tarse posteriormente mediante estudios analíticos. ocasiones la interpretación de una posible relación
Los estudios descriptivos son observacionales, causa-efecto. Además, el valor de una variable en un
transversales o longitudinales, y pueden clasificarse individuo en el momento en que se realiza el estudio
según su objetivo. A continuación se presentan las puede ser muy diferente del que tenía un tiempo
características principales de los más habituales. atrás. Esta limitación es menos importante cuando se
estudian características invariables, como el grupo
sanguíneo o el sexo, o factores en los que existe una
ESTUDIOS DE PREVALENCIA
buena correlación entre los valores actuales y los pre-
Y DE ASOCIACIÓN CRUZADA
vios, como las preferencias dietéticas.
Los estudios de prevalencia y de asociación cruzada
son diseños transversales que tienen como finalidad Ejemplo 9.1. Un estudio estima la prevalencia de ar-
principal la estimación de la prevalencia (anexo 1) de trosis de la rodilla en una comunidad y, a su vez, la
una enfermedad o una característica en una pobla- relaciona con la presencia de obesidad (Davis et al,
ción. Se basan en la definición precisa de una po- 1988). Para ello, se extrae una muestra representati-
blación de estudio y la obtención de una muestra va y se estudia si una persona tiene artrosis de rodi-
representativa de ella, en la que se determina la fre- lla, según unos criterios establecidos previamente, y
cuencia de individuos que presentan la característica a su vez, si es obesa o no. A continuación se com-
o enfermedad de estudio. La validez de los resultados para la proporción de personas con artrosis que son
dependerá de la representatividad de la muestra, de la obesas con la de las personas sin artrosis que son obe-
calidad de los datos obtenidos y de que el número de sas. Si se encuentra una asociación positiva, como
no respuestas sea pequeño y sus motivos no estén rela- sucedió en el estudio que nos ocupa, existen varias
cionados con la enfermedad. hipótesis para explicarla. La teoría más aceptada es

90
ESTUDIOS DESCRIPTIVOS

que la obesidad comporta una sobrecarga mecánica de supervivencia que conduzca a estimaciones sesga-
sobre la articulación, y acelera de este modo el dete- das de la relación entre algunas variables y la enfer-
rioro del cartílago. Por otro lado, hay autores que medad (fig. 9.2).
piensan que la obesidad es una consecuencia, más
que la causa de la artrosis, ya que ésta, al producir Ejemplo 9.2. En un estudio se compararon las carac-
una limitación de la movilidad y el ejercicio, proba- terísticas clínicas de 1.135 pacientes recién diagnosti-
blemente conduce a la obesidad. Como comentan cados de diabetes mellitus desde 1945 hasta 1969,
los autores, los datos sólo sugieren que la obesidad con la de los casos prevalentes en el año 1970 en esta
es una causa, ya que con un estudio transversal, la misma comunidad, con los siguientes resultados
hipótesis de que la obesidad antecede a la aparición (Melton et al, 1983): los pacientes prevalentes tenían
de la artrosis no puede probarse, porque ambas va- mayor edad y la relación hombre/mujer era menor
riables se miden a la vez. que la observada en los casos incidentes. Además, los
casos prevalentes presentaban una mayor probabili-
Cuando una de las variables es la presencia de una dad de tomar hipoglucemiantes orales, tenían valores
enfermedad, hay que tener en cuenta que se estudian de glucosa en ayunas menores, menor probabilidad de
casos prevalentes y que, por tanto, existe una mayor estar sintomáticos, pero mayor probabilidad de pade-
proporción de casos con enfermedad de larga dura- cer complicaciones macrovasculares y microvascula-
ción (fig. 9.1). Si las características de los individuos res. Estas diferencias eran el resultado de la diferente
cuya enfermedad es de corta duración o rápidamen- tasa de supervivencia. Por todo ello, los resultados de
te mortal son diferentes de aquellas en que la enfer- los estudios de asociación cruzada se han de inter-
medad es de larga duración, puede existir un sesgo pretar con suma cautela.

Casos

1984 1985 1986 1987 1988 1989 Tiempo

Momento en el tiempo
Inicio de la enfermedad en el que se realiza el estudio
Duración de la enfermedad
Curación, remisión o evolución fatal de la enfermedad

Figura 9.1. Estudio transversal y su relación con la duración de los casos.

91
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Factores etiológicos Factores ligados


a la supervivencia

Casos incidentes Casos prevalentes


(casos nuevos (casos presentes en
aparecidos en una la población en un
población) momento determinado)

Pérdidas (cambio
de residencia, etc.)
Defunciones
Figura 9.2. Diferencias entre
Curaciones casos prevalentes y casos inci-
dentes.

Las ventajas y desventajas de estos estudios se resu- Tabla 9.1. Ventajas y desventajas
men en la tabla 9.1. de los estudios de prevalencia
y asociación cruzada
CARACTERÍSTICAS DE LA ENFERMEDAD
La enfermedad estudiada debe ser de inicio lento y Ventajas
de larga duración, ya que, en caso contrario, existirán
• Suelen estudiar muestras representativas
pocos individuos que la padezcan en un momento de la población de estudio, lo que facilita
determinado. Estos estudios no son útiles en el caso la extrapolación de resultados
de enfermedades poco frecuentes, ya que para en-
• Se pueden estudiar varias enfermedades
contrar un número suficiente de casos debería reco-
o factores de riesgo en un solo estudio
gerse información de una gran cantidad de personas.
Las variables estudiadas deben ser fácilmente me- • Se realizan en un corto período de tiempo
dibles a través de cuestionarios o exámenes médicos • Permiten estimar la prevalencia y ayudan
simples y seguros, ya que se estudia una muestra de la a la planificación de los servicios sanitarios
población que en su mayoría no tendrá la enferme- • Son un primer paso en la realización de muchos
dad, por lo que no pueden usarse métodos que estudios prospectivos
supongan algún riesgo para los participantes. Las
pruebas deben ser lo más sensibles y específicas posi- Desventajas
ble para evitar la clasificación incorrecta de sujetos en • Falta de una secuencia temporal (dificultades
situación de remisión o en tratamiento. para evaluar relaciones causa-efecto)
• No son útiles para enfermedades poco frecuentes
Ejemplo 9.3. Si se desea conocer la prevalencia de la
hipertensión arterial (HTA) en una población y ésta • Posibilidad de que exista un sesgo de supervivencia
se define a partir de un determinado grado de pre- en los estudios de asociación cruzada
sión arterial, es posible que muchos individuos ya • Posibilidad de sesgo debido a las no respuestas
diagnosticados y tratados presenten cifras inferiores a

92
ESTUDIOS DESCRIPTIVOS

las de referencia para definir la HTA. Si esto no se datos del estudio son válidos, e interpretarlos de
tiene en cuenta, se infraestimará la verdadera preva- forma correcta.
lencia de la enfermedad. Por otro lado, la considera-
ción de hipertensos por el mero hecho de estar en
SERIES DE CASOS
tratamiento también puede tener sus inconvenientes,
ya que probablemente no han seguido los mismos Las series de casos transversales consisten en la enume-
criterios diagnósticos que se han establecido para la ración descriptiva de unas características selecciona-
realización del estudio. das, observadas en un momento del tiempo, en un
grupo de pacientes con una enfermedad determina-
N O RESPUESTAS da o en un grupo de sujetos que tienen una determi-
Si la prevalencia entre los que no participan difiere nada condición en común. Por ejemplo, describir las
de la de los que sí lo hacen, se producirá un sesgo en cifras actuales de presión arterial, colesterol y otros
la estimación del resultado. factores de riesgo cardiovascular en los diabéticos del
centro de salud.
Ejemplo 9.4. La tabla 9.2 recoge los resultados de un En las series de casos longitudinales o seguimiento de
ejemplo hipotético. Se observa que la prevalencia una cohorte se describe la evolución temporal de
estimada de hipercolesterolemia sería del 15% si determinadas características observadas en un grupo
sólo se tuvieran en cuenta los resultados de los par- de pacientes con una enfermedad o en un grupo de
ticipantes. Sin embargo, la prevalencia real en el sujetos que tienen una determinada condición en
total de la muestra es del 21%. Las diferencias apa- común. Existe una secuencia temporal definida, pero
recen porque el 30% de las no respuestas padecía la el estudio no evalúa ninguna relación causa-efecto
enfermedad. entre las variables.

No existe un porcentaje mínimo de no respuestas S EGUIMIENTO DE UNA COHORTE


a partir del cual un estudio pueda considerarse no Se trata de estudios descriptivos longitudinales que
válido. La posibilidad de obtener resultados sesgados tienen como objetivo estudiar la evolución natural de
depende de la diferencia en la prevalencia entre los una enfermedad para conocer la estabilidad o el cam-
participantes y los no participantes, aunque, lógica- bio de ciertas características, describir los resultados
mente, es mayor cuanto mayor es el porcentaje de no observados en un grupo de pacientes que han recibi-
respuestas. do un tratamiento o intervención dentro del proceso
Deben utilizarse todas las estrategias posibles para habitual de atención y que no ha sido administrado
reducir el porcentaje de no respuestas. Además, si se de forma deliberada para la realización del estudio, o
producen, es conveniente estudiar una muestra con estimar la incidencia (anexo 1) de una enfermedad
el fin de averiguar si los sujetos que no han respondi- en un grupo de sujetos.
do tienen características distintas de los que sí lo han Estos estudios tienen dos características comunes.
hecho y recoger la máxima información de los no La primera es que la información sobre la enferme-
participantes con el propósito de poder juzgar si los dad o la aparición de cualquier fenómeno se recoge
con el tiempo, por lo que se puede relacionar, por
ejemplo, con la duración del trastorno, los cambios en
Tabla 9.2. Resultados de un estudio hipotético la gravedad, los tratamientos previos o las enfermeda-
sobre la prevalencia de la des concomitantes. La segunda es que describen la
hipercolesterolemia (ejemplo 9.4) evolución de una muestra de sujetos que tienen una
característica en común (p. ej., padecen la misma
Muestra Hipercolesterolemia enfermedad). Es importante definir la cohorte e indi-
de la población n n (%) car qué sujetos se incluyen, de dónde proceden y el
tiempo empleado para reclutarlos. A menudo, se uti-
Participantes 600 90 (15) lizan datos retrospectivos procedentes de registros clí-
No participantes 400 120 (30) nicos, con las limitaciones que ello comporta.
Total 1.000 210 (21) Además de las no respuestas, en los estudios lon-
gitudinales se presenta el problema de las pérdidas y

93
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

los abandonos durante el seguimiento. Si los motivos menos graves. Por esta razón, en el grupo de estudio
por los que se producen están relacionados con el se han de incluir pacientes con diferentes estados clí-
problema estudiado, es decir, si la incidencia o el nicos y patológicos de la enfermedad. Así mismo, es
pronóstico es distinto entre los que abandonan y los importante que no se excluyan aquellos sujetos que
que no lo hacen, se obtendrá una estimación sesgada se encuentren en el límite diagnóstico.
del resultado. El grupo de no enfermos permite determinar los
falsos positivos. En este grupo se deben incluir indivi-
duos que tengan enfermedades que planteen proble-
ESTUDIOS QUE EVALÚAN
mas de diagnóstico diferencial con los pacientes del
UNA PRUEBA DIAGNÓSTICA
otro grupo. Si se incluyen sólo individuos sanos, exis-
El objetivo de estos estudios es estimar la capacidad te el peligro de encontrar un número menor de fal-
de una medida (prueba diagnóstica) para discrimi- sos positivos, lo que se traduce en una especificidad
nar entre las personas que padecen una enfermedad de la prueba más elevada.
y aquellas que no la padecen, pero presentan unos Existen diferentes estrategias para seleccionar la
síntomas similares. Se asume que el problema de muestra o las muestras de individuos que se incluirán
salud puede medirse de forma válida y fiable median- en el estudio.
te un procedimiento de referencia o gold standard
(estándar de oro) y se desea evaluar la utilidad de Selección de una sola muestra
una nueva prueba. Consiste en seleccionar una única muestra represen-
La estrategia de investigación consiste en aplicar tativa de los sujetos a los que en la práctica se les apli-
en una muestra de individuos tanto el criterio de caría la prueba para realizar el diagnóstico de la
referencia como la prueba en estudio. El primero enfermedad, y aplicar a todos ellos el criterio de refe-
permitirá diferenciar los sujetos que padecen la rencia y la nueva prueba simultáneamente. Esta estra-
enfermedad de los que no la padecen, de forma que tegia utiliza un diseño transversal muy similar al de
se podrá evaluar la capacidad de la nueva prueba los estudios de asociación cruzada.
diagnóstica para discriminar entre ambos grupos.
Los resultados permiten clasificar a los sujetos estu- Ejemplo 9.5. Un estudio tenía por objetivo evaluar
diados en cuatro grupos en una tabla 2 ⫻ 2, a partir qué variables clínicas y analíticas discriminaban a los
de la que se calculan la sensibilidad, la especificidad y pacientes que presentaban neumonía. Se selecciona-
otros índices de utilidad (anexo 3). ron 141 pacientes consecutivos que habían ingresa-
Previamente al inicio del estudio, debe evaluarse do en urgencias en un hospital con fiebre de más de
la reproducibilidad de la prueba, es decir, si produce 38 °C en las últimas 48 horas tanto si tenían síntomas
los mismos resultados cuando se aplica en más de respiratorios como si no tenían ninguna focalidad.
una ocasión a pacientes estables. Una pobre repro- A estos 141 pacientes se les midieron las variables clí-
ducibilidad puede deberse a la propia naturaleza de nicas y analíticas de interés y, a continuación, se les
la prueba, o a que se requiere habilidad en su realiza- aplicó el criterio de referencia para clasificarlos en
ción o en la interpretación clínica de los resultados, enfermos (sujetos con neumonía) y no enfermos
sobre todo en aquellas pruebas cuyos resultados (sujetos sin neumonía).
dependen de la subjetividad del observador. Una
prueba poco reproducible puede afectar de forma Esta estrategia tiene ventajas de validez porque,
grave la validez de los resultados. una vez definidos los criterios de selección de la po-
blación de estudio, es de esperar que se encuentren
S ELECCIÓN DE LOS SUJETOS individuos con un espectro amplio de la enfermedad,
Los pacientes en los que se evalúa una nueva prueba así como sujetos con signos y síntomas que impliquen
no han de diferir sustancialmente de la población a la un diagnóstico diferencial. Sin embargo, al tener que
que se aplicará en la práctica clínica. Si se estudiaran administrar a todos los pacientes la nueva prueba y el
sólo aquellos que presentasen un proceso más grave, criterio de referencia, el estudio puede resultar muy
o más extenso, la nueva prueba daría más resultados caro si el tamaño muestral requerido es muy amplio.
positivos que si el grupo lo compusieran pacientes Además, en determinadas ocasiones, la aplicación del

94
ESTUDIOS DESCRIPTIVOS

criterio de referencia puede suponer riesgos excesi- eficiente, de los cocientes de probabilidad y de las
vos, lo que puede plantear problemas si debe aplicar- curvas ROC, dificulta la estimación de los valores
se a un número elevado de sujetos. predictivos (anexo 3), ya que éstos dependen de la
prevalencia de la enfermedad, y ésta depende del
Selección de dos muestras número de sujetos incluidos en cada grupo.
a partir del diagnóstico Respecto a la anterior, esta estrategia tiene una
Se parte de dos grupos, uno formado por pacientes mejor relación coste-efectividad, si el coste de las
con la enfermedad diagnosticada a partir del criterio pruebas es elevado. Por tanto, es el diseño a conside-
de referencia y otro formado por individuos sin ella. rar cuando se trata de evaluar exploraciones de alta
A todos ellos se les aplica la prueba en estudio y se tecnología.
comparan los resultados obtenidos. Este diseño es
similar al de los estudios de casos y controles, en el Selección de dos muestras a partir
sentido de que la enfermedad clasifica a los sujetos y del resultado de la prueba
la prueba se explora a continuación. Se parte de un grupo de individuos a los que se apli-
Como se ha comentado, es importante que en el ca la nueva prueba, y se obtienen dos subgrupos de
grupo control se incluyan pacientes con situaciones sujetos: uno con resultado positivo y otro con resulta-
que planteen problemas de diagnóstico diferencial do negativo. A continuación se aplica a cada subgru-
con la enfermedad en estudio. Por ejemplo, si se po el criterio de referencia para comprobar la exis-
desea evaluar una prueba diagnóstica del cáncer de tencia de enfermedad. Esta estrategia se asemeja más
colon, el grupo control debería incluir pacientes con a un estudio de cohortes. Tiene la ventaja de que los
enfermedades como la colitis ulcerosa o la enferme- valores predictivos pueden calcularse directamente,
dad de Crohn que pueden plantear problemas pero dificulta la estimación de la sensibilidad y la
diagnósticos con el cáncer de colon, así como pacien- especificidad.
tes con otros tipos de cáncer.
S ELECCIÓN DEL CRITERIO
Ejemplo 9.6. Cuando se evaluó originalmente el antí- DE REFERENCIA
geno carcinoembrionario (CEA, según sus siglas en El criterio de referencia se utiliza para diferenciar
inglés) en el diagnóstico precoz del cáncer de colon entre enfermos y no enfermos y, por tanto, corres-
se hizo en 36 pacientes con cáncer en grado avanzado ponde a la «verdad» contra la que se va a comparar la
y la prueba resultó positiva en 35 de ellos (Thomson nueva prueba diagnóstica. Por ello, es muy importan-
et al, 1969). Al mismo tiempo, se observó que los valo- te definir con claridad la enfermedad o problema de
res de CEA eran mucho más bajos en sujetos asin- salud que se desea estudiar y elegir el criterio de refe-
tomáticos. Los resultados sugerían que el CEA podía rencia adecuado.
ser útil en el diagnóstico del cáncer colorrectal. En
estudios posteriores, realizados en pacientes con cán- Ejemplo 9.7. Para estudiar la enfermedad coronaria,
cer colorrectal en estadios no tan avanzados, compa- pueden distinguirse tres posibles conceptos: enfer-
rando los resultados con los obtenidos en otros cán- medad coronaria aterosclerosa, que es un concepto
ceres gastrointestinales, el CEA mostró una validez anatómico; angina de pecho, que es un concepto clí-
mucho menor y se dejó de utilizar como prueba de nico, o isquemia miocárdica, que es un concepto fi-
cribado (Bates, 1991). siopatológico. Los tres están muy relacionados, aun-
que no son exactamente idénticos. Cada uno de ellos
Con esta estrategia, la prevalencia de la enferme- puede ser medido a través de un criterio de referen-
dad en la población de estudio (la relación entre el cia distinto. Por ejemplo, para la enfermedad coro-
grupo de enfermos y el de no enfermos) puede ser naria aterosclerosa, el criterio debería ser anatomo-
muy diferente de la que existe en la práctica. Así, por patológico; para la angina de pecho, sería un juicio
ejemplo, si se incluye el mismo número de enfermos clínico realizado preferiblemente por un panel de
que de no enfermos, la prevalencia en los sujetos expertos tras una historia clínica, y para la isquemia
estudiados es del 50%. Si bien permite la determina- miocárdica, el mejor método sería el resultado de las
ción de la sensibilidad, de la especificidad de forma determinaciones metabólicas en el seno coronario.

95
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Un criterio de referencia ideal es aquel que da A PLICACIÓN DE LAS PRUEBAS


siempre positivo en los pacientes que padecen la A LOS SUJETOS
enfermedad y negativo en los que no la presentan, Ambas pruebas deben aplicarse a todos los sujetos. En
pero habitualmente hay que conformarse con el algunos estudios, puede observarse que no se ha
«mejor» disponible. Si se utiliza un mal criterio y se hecho así. Cuando se utiliza la estrategia de muestreo,
evalúa una nueva prueba diagnóstica que es mejor en función de los resultados de la prueba, puede ocu-
que él, podría llegarse a la conclusión de que la nueva rrir que no se aplique el estándar de referencia a
prueba no es útil (sesgo del criterio de referencia imperfec- todos los sujetos porque la decisión de hacerlo está
to). Si la nueva prueba es más sensible que la usada condicionada por los resultados de la prueba que se
como estándar, una parte de los pacientes en los que estudia, bien porque sea tan invasivo que se aplique
el resultado de la nueva prueba sea positivo serán cla- sólo en los casos más graves o bien porque no sea bien
sificados como falsos positivos. Análogamente, si la tolerado por los pacientes. En esta situación se pro-
nueva prueba es más específica que la estándar, una duce el llamado sesgo de verificación o de confirmación
parte de los pacientes que realmente no presentan la (work-up bias) debido a que no se obtiene la confirma-
enfermedad serán clasificados como falsos negativos. ción diagnóstica en todos los casos, lo que conduce a
una inadecuada valoración de las características ope-
Ejemplo 9.8. En un estudio que evaluaba la ecografía racionales de la nueva prueba.
para el diagnóstico de litiasis biliar, se usó como es-
tándar la colecistografía oral. En cinco pacientes, la Ejemplo 9.10. El sesgo de verificación diagnóstica apa-
ecografía dio un resultado positivo, mientras que recería, por ejemplo, si los sujetos en los que se sospe-
la colecistografía no detectó la presencia de litiasis. chara enfermedad coronaria y tuvieran una prueba
Dos de estos pacientes fueron intervenidos quirúrgi- de esfuerzo positiva fueran sometidos a una corona-
camente y se halló la litiasis, por lo que, al menos en riografía (estándar de referencia) con mayor frecuen-
estos dos casos, la ecografía fue más exacta que la cia que los que tuvieran una prueba de esfuerzo nega-
colecistografía oral. tiva. Aunque ello no sería sorprendente, ya que los
clínicos son más reticentes a someter a los riesgos de
Si no se dispone de un criterio de referencia ade- una coronariografía a sujetos con una baja probabili-
cuado, puede utilizarse un conjunto de pruebas para dad de enfermedad coronaria, el resultado de este
determinar la presencia o ausencia de la enfermedad. estudio conduciría a una sobrevaloración de la utili-
En esta situación, debe evitarse que la nueva prueba dad de la prueba de ejercicio para diagnosticar la
que se evalúa sea una de las que forman parte de dicho enfermedad. En una situación extrema, si la corona-
criterio compuesto, ya que su validez podría aparecer riografía sólo se realizara a los sujetos con prueba de
artificialmente aumentada (sesgo de incorporación). esfuerzo positiva, sólo podrían existir individuos con
la enfermedad diagnosticada por coronariografía
Ejemplo 9.9. Supongamos que, para evaluar la utili- entre los que tuvieran un resultado de la prueba posi-
dad de la determinación del colesterol total como pre- tivo, por lo que la sensibilidad sería del 100%. De
dictor de riesgo coronario, se utiliza como criterio de forma similar, sólo existirían no enfermos (es decir,
referencia (medida de riesgo coronario) el índice ate- con coronariografías negativas) entre los sujetos con
rogénico (cociente entre el colesterol total y el coles- prueba de esfuerzo positiva, ya que solamente en ellos
terol ligado a las lipoproteínas de alta densidad). Se se habría aplicado la prueba de referencia, por lo que
observa que el colesterol total es muy buen predictor, la especificidad sería del 0%. Este ejemplo extremo
ya que el propio colesterol total sirve para calcular el muestra cómo la existencia de un sesgo de verifica-
índice aterogénico, que es el criterio de referencia. ción puede invalidar la estimación de las característi-
cas de la prueba.
En el caso de no disponer de un criterio de refe-
rencia adecuado, ya sea único o un índice compuesto, Este problema puede evitarse, al menos de forma
debe replantearse el estudio y evaluar la concordancia parcial, con un seguimiento de todos los sujetos a los
entre dos métodos diagnósticos, y no la validez de uno que no se ha podido aplicar el estándar de referen-
respecto a otro. cia, o una muestra de ellos, con la finalidad de obser-

96
ESTUDIOS DESCRIPTIVOS

var si aparece la enfermedad en estudio, y detectar así En un estudio que evalúa la fiabilidad, no siempre
errores de clasificación. se estudian todas las posibles fuentes de variación.
El criterio de referencia debe aplicarse de forma Por ejemplo, al evaluar la fiabilidad de un método de
ciega para que el evaluador no tenga conocimiento medición automática de la presión arterial, en el que
del resultado de la prueba que se está evaluando y evi- el propio aparato proporciona la cifra de presión
tar así sesgos de información. Del mismo modo, la arterial, no tiene sentido evaluar la concordancia
aplicación de la prueba y la interpretación de los intra e interobservador. De la misma forma, en un
resultados deben ser ciegos e independientes del cri- estudio que evalúe la fiabilidad de una prueba cruen-
terio de referencia. Los resultados obtenidos no ta con riesgos potenciales para el paciente, no podría
deben conducir a verificaciones en caso de discordan- evaluarse la repetibilidad, ya que no sería ético reali-
cia con el criterio de referencia, ya que se produciría zar la prueba en más de una ocasión.
un sesgo aumentando la sensibilidad y la especificidad Los sujetos incluidos en el estudio deben ser una
de la prueba. Las técnicas de enmascaramiento impi- muestra representativa de la población a la que se
den que se produzca un sesgo de sospecha diagnóstica. piensa aplicar la medida y cubrir un amplio rango de
Otra posibilidad de error aparece cuando los valores de la variable que se desea medir, para poder
resultados de la prueba son dudosos o están en el evaluar la fiabilidad durante todo su recorrido.
límite de la normalidad. Al calcular la sensibilidad y En el anexo 4 se presentan los índices que evalúan
la especificidad (anexo 3), si no se incluyen estos la concordancia entre medidas.
resultados indeterminados en el denominador, pue-
den obtenerse estimaciones sesgadas de estos índices. R EPETIBILIDAD
La evaluación de la repetibilidad tiene por objetivo
ESTUDIOS DE CONCORDANCIA determinar si una prueba da los mismos resultados o
similares, cuando se aplica a una misma persona en
Estos estudios se realizan con la finalidad de evaluar
más de una ocasión. Requiere que las condiciones de
si un aparato de medida o un cuestionario, por ejem-
aplicación sean iguales en todas las ocasiones.
plo, son fiables, o si dos observadores concuerdan en
El hecho de aplicar la misma prueba en más de una
la medición de una variable.
ocasión en la misma muestra de individuos conlleva
La medición de un fenómeno está sujeta a dife-
rentes fuentes de variación, a menudo difíciles de algunos problemas. En primer lugar, algunas de las
diferenciar en la práctica: individual, del instrumen- características pueden variar con el tiempo. Es el caso
to y del observador. Cuando se evalúa la fiabilidad de de la medida del estado físico o de la salud de una per-
una medida, deben estudiarse diferentes aspectos: sona; cuanto más tiempo transcurra entre ambas prue-
bas mayor es la probabilidad de que hayan ocurrido
– Repetibilidad de la medida. Su evaluación requiere cambios reales en su estado de salud, o de que su opi-
aplicar el método de medida de la misma manera y nión o actitud hacia un problema de salud haya cam-
a los mismos sujetos en dos o más momentos del biado. En esta situación, la fiabilidad de la prueba será
tiempo (fiabilidad test-retest). infravalorada. Esta dificultad se puede subsanar, al
– Concordancia intraobservador. Su evaluación requiere menos parcialmente, efectuando la segunda medición
que un mismo observador valore en dos o más oca- poco tiempo después de la primera. Sin embargo, si el
siones a los mismos sujetos. intervalo de tiempo entre la aplicación de las dos prue-
– Concordancia interobservador. Su evaluación requiere bas es corto, es posible que el resultado obtenido en
que dos o más observadores valoren una misma la segunda ocasión esté influido por el aprendizaje
prueba en una muestra de sujetos. adquirido la primera vez, en cuyo caso ambas medicio-
nes no serán independientes y el coeficiente de fiabili-
Una medida ha de ser reproducible, es decir, debe dad estará artificialmente elevado.
producir el mismo resultado antes de poderla com- Cabe la posibilidad de que los participantes no
parar con otro método. Igualmente, hay que evaluar accedan a que se les efectúe una prueba en más de
si un observador es consistente consigo mismo antes una ocasión en poco tiempo, sobre todo cuando sea
de evaluar la concordancia entre observadores. dolorosa o molesta.

97
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

C ONCORDANCIA INTRA problema (incidencia, prevalencia, mortalidad, utili-


E INTEROBSERVADOR zación de servicios, etc.) en varias áreas, buscando la
La concordancia intraobservador se refiere al grado de detección de algún patrón de tipo geográfico. Por
consistencia de un observador consigo mismo al leer ejemplo, la comparación de la mortalidad por enfer-
o interpretar los resultados de dos medidas indepen- medades cardiovasculares en las comarcas de una
dientes de un mismo fenómeno. Esto puede ser fácil comunidad autónoma o el atlas de mortalidad por
de conseguir cuando se interpreta una radiografía o cáncer en España. La observación de algunas dife-
un electrocardiograma, por ejemplo, pero es más difí- rencias según un patrón geográfico puede dar lugar
cil cuando se trata de un hallazgo físico que requiere a la generación de hipótesis sobre factores sociales,
la presencia directa del paciente, ya que el recuerdo culturales, económicos, de hábitos de vida, medio-
de la primera exploración puede condicionar el resul- ambientales e incluso genéticos.
tado de la segunda. En segundo lugar, los estudios de series temporales,
Por concordancia interobservador se entiende la con- que describen las variaciones de la frecuencia de un
sistencia entre dos observadores independientes problema de salud a lo largo del tiempo, buscando
sobre una medida practicada en el mismo individuo. patrones estacionales o tendencias (p. ej., el análisis
Para asegurar la independencia de las medidas entre de las tendencias de mortalidad cardiovascular en
ambos observadores, ninguno de ellos debe conocer España en los últimos 40 años). Pueden ser útiles
el resultado proporcionado por el otro. para generar hipótesis predictivas sobre la evolución
Con frecuencia, la concordancia intra e interob- de la frecuencia de un problema de salud y, por
servador se evalúa en un mismo estudio. En este caso, tanto, de necesidades de atención sanitaria en el futu-
hay que asegurar la independencia de todas las medi- ro, o para evaluar las intervenciones sanitarias y los
das, para lo que puede ser muy útil usar técnicas programas de salud.
como la aleatoriedad en la secuencia de la aplicación
de las medidas y las técnicas de enmascaramiento. Ejemplo 9.11. El brusco descenso en las tasas de mor-
bilidad declarada por poliomielitis en España en
C ONCORDANCIA ENTRE MÉTODOS 1964 fue la mejor evaluación de la efectividad de la
La concordancia entre métodos se refiere a la capaci- campaña masiva de vacunación llevada a cabo en
dad de dos procedimientos diferentes que miden la 1963. De todas formas, los resultados deben interpre-
misma variable de dar resultados similares cuando se tarse con cautela, ya que, si el cambio no es brusco, y
aplican a los mismos sujetos. no se produce en poco tiempo, es difícil atribuir el
Hay que evaluar o conocer previamente la repeti- descenso a una determinada intervención específica
bilidad de cada uno de los métodos, ya que, si en uno (Salleras, 1989).
de ellos es baja, el grado de concordancia entre
ambos será probablemente bajo, aunque uno de ellos Los cambios en las tendencias pueden deberse
sea mucho mejor que el otro. Si ambos tienen escasa a factores distintos de la intervención, como los
repetibilidad, el problema es aún más grave. siguientes:

– Cambios en las técnicas diagnósticas, lo que conduce a


ESTUDIOS ECOLÓGICOS
una mayor sospecha y un mayor registro.
En los estudios ecológicos, las unidades de análisis
son agregaciones de individuos, a menudo, basadas Ejemplo 9.12. En un estudio, en el que se analizaban
en criterios geográficos o temporales. Son estudios las características epidemiológicas de la hidatidosis
rápidos, económicos y fáciles de realizar, especial- humana en Asturias durante el período 1975-1984
mente si la información que se pretende recoger está (Pozo et al, 1987), se recogió información de todos los
disponible en anuarios estadísticos o grabada en hospitales asturianos. Se observó que la tasa de inci-
soporte magnético. dencia aumentaba considerablemente en los últimos
Se pueden distinguir diferentes tipos de estudios 5 años del período. Los autores señalaban que este
ecológicos. En primer lugar, los estudios que compa- aumento podía deberse al acceso y empleo de las téc-
ran una medida de la frecuencia de un determinado nicas diagnósticas más recientes, que probablemente

98
ESTUDIOS DESCRIPTIVOS

permitían descubrir más fácilmente la enfermedad, talidad por infarto agudo de miocardio y el consumo
sin descartar un aumento real de su incidencia. de cigarrillos en España en los últimos 30 años).
La característica fundamental de los estudios
– Cambios en la estructura demográfica, que alterarían las ecológicos es que no se dispone de información
tasas brutas o crudas, pero no las tasas específicas por sobre la exposición y la enfermedad individual. Por
edad y/o sexo. ello, el solo hecho de que exista una asociación ecoló-
– Si se comparan prevalencias, hay que tener en cuen- gica no garantiza que también exista de forma indivi-
ta posibles cambios en el tratamiento que disminuyan la dual. La elaboración de conclusiones individuales
mortalidad, con lo que la proporción de personas con inadecuadas, basada en datos ecológicos, se denomi-
la enfermedad iría en aumento, aunque la inciden- na falacia ecológica.
cia fuera la misma. Las ventajas de rapidez, facilidad y economía de
– Cambios en la situación socioeconómica, características esfuerzos pueden convertirse en una amenaza. El uso
demográficas o en los estilos de vida de las poblaciones, de datos ya existentes hace posible que se comparen
que pueden contribuir a la disminución de las tasas. múltiples variables con la frecuencia de una enfer-
medad, hasta encontrar alguna que sea significativa,
Ejemplo 9.13. Aunque la profilaxis de la fiebre reumá- pero sin poder explicar un mecanismo plausible del
tica, basada en el correcto diagnóstico y tratamiento de resultado.
la faringoamigdalitis estreptocócica, ha sido crucial A pesar de sus limitaciones, los estudios ecológicos
en el descenso de la enfermedad, conviene no olvidar pueden ser útiles para generar hipótesis que deben
que el declinar de la fiebre reumática en los países ser evaluadas posteriormente con estudios analíticos.
desarrollados se inició mucho antes de que se dispu- Además, en algunas situaciones el enfoque ecológico
siera de antibióticos eficaces. Parece indudable que la puede ser el más razonable. Si la hipótesis de trabajo
mejoría en la calidad de vida, la mejor nutrición y el que existe es poco firme o está poco madura, puede
menor hacinamiento, junto con una atención sanita- no ser conveniente realizar un estudio analítico indi-
ria de más calidad y más accesible, han desempeñado vidual y sea más razonable llevar a cabo uno ecológi-
un papel decisivo en el descenso de la fiebre reumáti- co. También, si el interés se centra en fenómenos
ca, sin que ninguno de ellos de manera aislada sea sociales o culturales, los estudios ecológicos pueden
capaz de explicar la situación actual (Batlle, 1987). ser los más adecuados, ya que se pretende obtener
inferencias sobre comunidades completas más que
En los estudios de correlación ecológica se obtiene, de sobre individuos.
cada una de las unidades de análisis, una medida sinté-
tica de la frecuencia de la enfermedad (p. ej., la inci- B IBLIOGRAFÍA DE LOS EJEMPLOS
dencia, la prevalencia o la mortalidad) y una medida Bates SE. Clinical applications of serum tumor markers. Ann
Intern Med 1991; 115: 623-638.
sintética de la frecuencia de la exposición a uno o
Batlle Gualda E. ¿Dónde está la fiebre reumática? Med Clin
varios factores. Las unidades de estudio pueden ser, (Barc) 1987; 88: 61-64.
por ejemplo, diferentes países, regiones dentro de un Davis M, Ettinger W, Neuhaus J, Hauck W. Sex differences
mismo país o comarcas de una región. El análisis se in osteoarthritis of de knee: the role of obesity. Am
centra en determinar si las unidades ecológicas con J Epidemiol 1988; 127: 1019-1029.
alta frecuencia de la enfermedad también tienen ten- Melton J, Ochi J, Palumbo P, Chu Pin Chu. Sources of dis-
dencia a un mayor grado de exposición. Estos estudios parity in the spectrum of diabetes mellitus at Incidence
son útiles cuando no se dispone de información indi- and Prevalence. Diabetes Care 1983; 6: 427-431.
vidual. Esta correlación puede realizarse sobre datos Pozo F, Fernández MJ, Suárez TV, Tojo S, Lamamie E,
referidos a un mismo momento del tiempo (p. ej., rela- Rodrigo LR. Estudio epidemiológico de la hidatidosis en
Asturias (1975-1984). Med Clin (Barc) 1987; 89: 773-777.
cionar la mortalidad por infarto agudo de miocardio y
Salleras Sanmartí Ll. Estudios descriptivos. Aten Primaria
el consumo de cigarrillos per cápita en los países eu- 1989; 6: 504-510.
ropeos en un año determinado), o bien sobre tenden- Thomson DMP, Krupey J, Freedman SO, Gold P. The
cias temporales y comparar la tendencia en el tiempo radioimmunoassay of circulating carcino-embryonic
de una enfermedad y una exposición, analizando la antigen of the human digestive system. Proc Natl Acad
evolución conjunta de ambas variables (p. ej., la mor- Sci USA 1969; 64: 161-167.

99
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

B IBLIOGRAFÍA Mulherin SA, Miller WC. Spectrum bias or spectrum effect?


Cabello López JB, Pozo Rodríguez F. Estudios de evaluación Subgroup variation in diagnostic test evaluation. Ann
de las pruebas diagnósticas en cardiología. Rev Esp Car- Intern Med 2002; 137: 598-602.
diol 1997; 50: 507-519. Ransohoff DF, Feinstein AR. Problems of spectrum and bias
Greenland S. Ecologic versus individual-level sources of bias in evaluating the efficacy of diagnostic tests. NEJM 1978;
in ecologic estimates of contextual health effects. Int 299: 926-930.
J Epidemiol 2001; 30: 1343-1350. Sackett DL, Haynes RB. The architecture of diagnostic
Grimes DA, Schulz KF. Descriptive studies: what they can research. BMJ 2002; 324: 539-541.
and cannot do. Lancet 2002; 359: 145-149. Susser M. The logic in ecological. Part I. The logic of analy-
Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. De- sis. AJPH 1994; 84: 825-829.
signing studies to ensure that estimates of test accuracy Susser M. The logic in ecological. Part II. The logic of
are transferable. BMJ 2002; 324: 669-671. design. AJPH 1994; 84: 830-835.
Lijmer JG, Mol BW, Heisterkamp S et al. Empirical evidence Walter SD. Estimation of test sensitivity and specificity when
of design-related bias in studies of diagnostic tests. JAMA disease confirmation is limited to positive results.
1999; 282: 1061-1066. Epidemiology 1999; 10: 67-72
Morgenstern H. Ecologic studies in epidemiology: concepts,
principles, and methods. Annu Rev Public Health 1995;
16: 61-81.

100
Capítulo 10
Revisiones sistemáticas

na revisión sistemática (RS) de la evidencia sión. Como cualquier otro estudio, requiere elabo-

U científica consiste en la síntesis de la mejor


evidencia disponible para responder a una
pregunta concreta mediante la aplicación de una
rar un protocolo que especifique las definiciones y
los procedimientos que se efectuarán en sus distin-
tas etapas (tabla10.1).
metodología explícita y rigurosa. Para ello, se utili-
za la misma metodología que cualquier estudio de
DEFINICIÓN DEL OBJETIVO
investigación: se formula un objetivo, se busca, se
identifican y se valoran las pruebas disponibles La finalidad de una RS es intentar responder una
siguiendo un protocolo con criterios explícitos, y se pregunta clínica concreta valorando todas las prue-
obtienen conclusiones a partir del análisis de los bas disponibles. El primer paso es, pues, definir con
datos recogidos y la interpretación de los resulta- claridad y precisión dicha pregunta, explicitando el
dos. Aunque con frecuencia los términos revisión factor de estudio (intervención, exposición o pro-
sistemática y metaanálisis se emplean como sinóni- cedimiento diagnóstico que se evalúa) y el de com-
mos, hoy en día, se reserva el término metaanálisis paración, la variable de respuesta (especificando la
para el procedimiento estadístico que se utiliza medida del efecto que se utilizará, como la reduc-
para integrar los resultados de diferentes estudios y ción de la incidencia o la mortalidad, la mejoría de
obtener una estimación conjunta, mientras que el síntomas, etc.) y la población de estudio (especifi-
de revisión sistemática se aplica a todo el proceso cando el tipo de paciente y la condición clínica).
de la investigación descrito anteriormente. También conviene que se identifique el tipo de es-
tudio que se incluirá. En general, cuanto más pre-
cisa sea la definición de la pregunta que se desea
FASES DE UNA REVISIÓN SISTEMÁTICA
contestar, mejor será la RS.
Una RS es un estudio de investigación que, a dife-
rencia de los presentados en capítulos anteriores,
IDENTIFICACIÓN DE LOS ESTUDIOS
no se realiza sobre datos primarios, es decir, no re-
DISPONIBLES
coge la información directamente de los sujetos,
sino que utiliza los datos recogidos previamente en Para que las conclusiones de una RS sean válidas,
otros estudios. Una RS puede considerarse como hay que identificar y localizar todos los estudios
un estudio observacional en que la «población de existentes, idealmente tanto los publicados como
estudio» está formada por los mejores artículos ori- los no publicados. Habitualmente, la búsqueda de
ginales realizados sobre el tema objeto de la revi- evidencias se realiza en una o varias de las bases

101
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 10.1. Guía para la realización CRITERIOS DE SELECCIÓN


de una revisión sistemática
Los estudios identificados forman la población can-
didata. La selección de los que se incluirán en la RS
• Definición del objetivo (pregunta de investigación) debe hacerse a partir de criterios explícitos y esta-
• Búsqueda de evidencias:
blecidos con claridad, de forma que el proceso sea
– Bases de datos consultadas
reproducible por otros investigadores.
– Palabras clave utilizadas
Los criterios de selección deben referirse a carac-
– Período de cobertura
– Otros requisitos: revistas, idioma, etc. terísticas fundamentales de los estudios. El objetivo
• Criterios de inclusión y exclusión de estudios fundamental es obtener un conjunto de trabajos
• Evaluación de la calidad de los estudios: que respondan a una misma pregunta científica y
– Resumen de las características esenciales con la calidad suficiente para que sus resultados
de los estudios sean válidos. Estos criterios deben ser fácilmente ob-
– Calificación de la calidad de los estudios jetivables, ya que habitualmente su cumplimiento se
– Evaluación de la variabilidad entre los evaluará mediante la lectura detallada del ar-tículo,
investigadores que califican la calidad por lo que deben basarse en información fácilmen-
de los estudios te accesible en él y que se refleje de forma explícita.
• Recogida de datos: En primer lugar, se define el tipo de estudio y
– Registro de las características de los estudios: sus características principales, y a continuación, se
Tipo de artículo y año de publicación establecen otros criterios relacionados habitual-
Diseño del estudio mente con su calidad metodológica. Los más fre-
Características de la intervención cuentemente utilizados se refieren a:
Características del grupo control
Tamaño de la muestra
– Las intervenciones o exposiciones que se evalúan (factor
– Registro de los resultados de los estudios
de estudio). Obviamente, si se desea integrar los re-
• Análisis de los resultados:
– Pruebas de homogeneidad
sultados de diferentes trabajos, éstos deben eva-
– Combinación estadística de los resultados luar un mismo factor de estudio.
– Pruebas para detectar diferencias sistemáticas – La variable de respuesta. Si los estudios utilizan dife-
entre estudios rentes criterios de evaluación o diferentes varia-
– Representaciones gráficas bles de respuesta, resultará muy difícil poder inte-
– Análisis de sensibilidad grar sus resultados.
– Análisis de subgrupos – Criterios de selección de la población de los estudios ori-
• Conclusiones y recomendaciones ginales. El efecto puede ser diferente según diver-
sas características de los sujetos estudiados. Por
ello, pueden utilizarse criterios muy restrictivos
para incluir sólo estudios que evalúen poblacio-
de datos más importantes (Medline, EMBASE, nes homogéneas, o bien más laxos y utilizar las di-
biblioteca Cochrane), pero es conveniente comple- ferentes características para realizar estratificacio-
mentarla con una búsqueda manual en las referen- nes y análisis de subgrupos. Por ejemplo, en una
cias de los artículos localizados, libros y otras revi- RS sobre la eficacia de un determinado tratamien-
siones, y también a través de contactos con expertos to hipolipemiante para la prevención de la cardio-
en la materia para aumentar la exhaustividad de la patía isquémica, los revisores deberán decidir qué
detección de los estudios e intentar identificar tra- rango de concentraciones de colesterol plasmáti-
bajos no publicados. En el capítulo 12 se comenta co van a incluir, si admitirán estudios en los que
con detalle la estrategia de búsqueda bibliográfica. los participantes tengan otros factores de riesgo
El protocolo de la RS debe especificar las bases asociados, así como otros criterios relativos a la in-
de datos que se consultarán, las palabras clave que tervención de estudio y a las de comparación.
se utilizarán, el período de tiempo de cobertura – Tamaño muestral mínimo para asegurar una preci-
y cualquier otro requisito que se piense utilizar sión suficiente en la estimación de los resultados.
en ella. A veces se decide excluir los estudios muy

102
REVISIONES SISTEMÁTICAS

pequeños, ya que pueden estar realizados de mo un metaanálisis acumulativo en que los estudios
forma poco rigurosa y sin controles de calidad sean incluidos sucesivamente en el análisis según su
adecuados. puntuación de calidad, de la mayor a la menor, o
– Duración del seguimiento de los estudios. Es necesario bien mediante un procedimiento estadístico (meta-
asegurar que los estudios han realizado un segui- rregresión) que permite analizar la posible relación
miento suficiente para poder observar la respues- entre el efecto observado y determinadas covaria-
ta de interés. bles relacionadas con la calidad, como el tipo de di-
– Exhaustividad de la información necesaria presenta- seño (ensayo clínico, estudio de cohortes, estudio
da en el artículo original. de casos y controles), la procedencia de los datos
(entrevistas, cuestionarios por correo, etc.) o la
procedencia de los sujetos (registros poblacionales,
VALORACIÓN CRÍTICA
hospitales, etc.).
DE LOS ESTUDIOS SELECCIONADOS
Es conveniente registrar el cumplimiento de los
Idealmente, sólo deberían incluirse en una RS aque- criterios de selección en todos los estudios candida-
llos estudios con una calidad mínima suficiente, es- tos, ya que es recomendable prever análisis de sen-
tablecida de antemano, para asegurar que sus re- sibilidad, repitiendo el metaanálisis en función de
sultados sean válidos. La evaluación de la calidad de diferentes criterios de inclusión y de exclusión para
un estudio es un proceso subjetivo y más teniendo examinar si el resultado final y las conclusiones de
en cuenta que, en ocasiones, la información necesa- la RS cambian en función de dichos criterios.
ria no está disponible o es inadecuada. Por esta ra-
zón, es preferible valorar sólo algunos aspectos clave
EXTRACCIÓN DE LOS DATOS
de su validez y relevancia.
Existen múltiples escalas para realizar esta valo- El protocolo de la RS ha de contemplar la informa-
ración. En la tabla 10.2 se presenta una de las más ción que se extraerá de los diferentes estudios: datos
sencillas y utilizadas. generales del estudio, nombre del autor, año de rea-
La mayoría de las escalas conceden una puntua- lización, características principales del diseño, tipo
ción de calidad a cada uno de los estudios, que pue- de pacientes (características demográficas, condi-
de utilizarse de diferentes maneras: para definir un ción clínica, etc.), características metodológicas (ta-
punto de corte a partir del cual identificar los ar- maño de la muestra, enmascaramiento, duración
tículos que van a ser incluidos o excluidos de la RS, del estudio, etc.), características de las intervencio-
para ponderar el peso relativo de cada uno de los nes de estudio y de comparación (pauta de inter-
estudios en el análisis, para evaluar si existe relación vención, duración, etc.), comparabilidad inicial de
entre la magnitud del efecto observado y las pun- los grupos, variables de respuesta, etc.
tuaciones de calidad, etc. Esta última finalidad po- La recogida de información sobre el resultado
drá ser realizada mediante un método gráfico, co- del estudio es fundamental. Debe utilizarse un úni-

Tabla 10.2. Escala de Jadad para valorar la calidad de un ensayo clínico aleatorio

Pregunta Puntos Puntos adicionales

¿Se indica si el estudio 1: Sí +1: Se describe el método de aleatorización y es adecuado


fue aleatorio? 0: No –1: Se describe el método de aleatorización y es inadecuado
¿Se indica si el estudio 1: Sí +1: Se describe el método de enmascaramiento y es adecuado
fue doble ciego? 0: No –1: Se describe el método de enmascaramiento y es inadecuado
¿Hay una descripción 1: Sí
de las pérdidas de seguimiento? 0: No

Puntuación total: de 0 a 5 puntos (a más puntuación, mayor calidad).

103
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

co (o, como mínimo, que sea comparable), sistema Tabla 10.3. Fases de la estrategia de análisis
de clasificación del evento de interés (muerte, apa- de una revisión sistemática
rición de enfermedad, mejoría de los síntomas,
etc.). Por ejemplo, no sería lícito que, para un estu- • Decidir si es adecuado realizar una integración
dio, se utilizara el valor estimado que compara el de los estudios
consumo excesivo de alcohol con la ausencia total • Decidir qué comparaciones se van a hacer
de dicho consumo como categoría de referencia, • Analizar la heterogeneidad de los estudios
mientras que, para otro, se tomara como valor esti- (tablas de evidencias, pruebas estadísticas,
mado aquel que toma como categoría de referencia métodos gráficos)
la del consumo de menos de determinada cantidad • Si es adecuado, calcular un estimador global
semanal de alcohol. Se debería escoger también el del efecto (metaanálisis) con su intervalo
mismo tipo de estimador para todos los estudios, o de confianza
calcularlo de nuevo si no aparece en el artículo, por • Presentación gráfica de los resultados
lo que éste deberá contener la información necesa- • Análisis de subgrupos
ria. De no ser así, habrá que contactar con los inves- • Análisis de sensibilidad:
tigadores para tratar de obtenerla. – Para evaluar la robustez del resultado
– Para explorar la heterogeneidad de los estudios
Es conveniente que la información la extraigan
• Evaluar la existencia de un posible sesgo
como mínimo dos revisores independientes y, a ser
de publicación
posible, que desconozcan los resultados, los autores
• Pruebas para detectar diferencias sistemáticas
y la revista donde se publicaron los artículos prima- entre estudios
rios. Incluso aunque los investigadores sigan estric-
tamente un protocolo de recogida de datos con cri-
terios explícitos y bien definidos, suele existir cierto
componente de subjetividad. Es importante evaluar comparaciones se van a realizar, definidas con clari-
la concordancia entre ellos para asegurar la calidad dad a priori y de acuerdo con el objetivo de la RS.
de los datos que se utilizarán. El primer paso es analizar la heterogeneidad. So-
lamente tiene sentido combinar estadísticamente
los resultados si los estudios son lo suficientemen-
ESTRATEGIA DE ANÁLISIS
te homogéneos. En caso contrario, debe explorarse
El último paso de una RS suele ser la combinación esta heterogeneidad y tratar de identificar los facto-
estadística de los distintos estudios, si es posible, res de los que depende y que pueden explicarla.
para obtener un resultado global que estime el efec- Si se decide realizar un metaanálisis y combinar
to de la intervención, exposición o procedimiento los resultados, debe determinarse qué tipo de medi-
diagnóstico en estudio. Sin embargo, los proce- da se utilizará para obtener una estimación global
dimientos estadísticos no pueden suplir la falta de del efecto y qué procedimiento estadístico se apli-
sentido común o de criterio clínico en el diseño del cará para calcular su magnitud y su intervalo de
protocolo de la revisión, o de plausibilidad biológi- confianza. Los resultados de este metaanálisis sue-
ca en la interpretación de los resultados. Así pues, el len presentarse gráficamente para facilitar la com-
lector de una RS debe evaluar estos aspectos antes prensión (fig. 10.1). Habitualmente, el resultado
de examinar los métodos estadísticos que han usado de cada uno de los estudios individuales se muestra
los revisores y los resultados que han obtenido. La como una línea horizontal que representa el inter-
combinación de datos de poca calidad, muy sesga- valo de confianza (IC) del 95% de la estimación de
dos o procedentes de estudios muy dispares entre sí la medida del efecto, con una señal que indica la es-
producirá un resultado poco creíble. timación puntual observada en dicho estudio. Una
En la tabla 10.3 se presenta el esquema de la es- última línea horizontal representa el resultado glo-
trategia de análisis de una RS. En primer lugar, de- bal obtenido con el metaanálisis, cuya estimación
be evaluarse si la validez de los estudios es suficien- puntual suele representarse por un rombo. Una lí-
te y si tiene sentido integrar los diferentes estudios, nea vertical representa la ausencia de efecto (valor
para decidir si es adecuado combinar estadística- uno cuando se utilizan medidas relativas como la
mente sus resultados. Después, debe decidirse qué odds ratio o el riesgo relativo, o valor cero cuando se

104
REVISIONES SISTEMÁTICAS

OR (IC 95%) OR (IC 95%)


0,1 0,2 0,5 1 2 5 10 0,1 0,2 0,5 1 2 5 10
Estudio Año N N
Estudio A 1987 122 122
Estudio B 1990 881 1.003
Estudio C 1990 885 1.888
Estudio D 1990 711 2.599
Estudio E 1991 193 2.792
Estudio F 1992 338 3.130
Estudio G 1993 984 4.114
Estudio H 1994 1.749 5.863
Estudio I 1994 329 6.192
Estudio J 1994 140 6.332

GLOBAL 6.332

A favor del A favor del A favor del A favor del


tratamiento control tratamiento control

Figura 10.1. Presentación gráfica de una misma revisión sistemática. En el gráfico de la derecha se presentan los
resultados en forma acumulativa.

utilizan medidas absolutas como la diferencia de in- S ESGO DE PUBLICACIÓN


cidencias). Cuando los estudios se presentan orde- El sesgo de publicación se refiere al hecho de que
nados por algún criterio, como el año de su realiza- no todos los estudios tienen la misma probabilidad
ción o la puntuación de calidad, como ocurre en el de ser publicados. Con frecuencia, los autores deci-
gráfico de la derecha de la figura 10.1, se habla de den no enviar sus manuscritos a las revistas, o bien
metaanálisis acumulativo. los editores y los revisores de una revista deciden no
También debe planificarse si se realizarán análi- aceptar algunos estudios en función de determina-
sis de subgrupos para determinar la magnitud del das características, relacionadas más con los resulta-
efecto en subpoblaciones de diferentes característi- dos encontrados que con aspectos de calidad. Ello
cas, así como los análisis de sensibilidad, dirigidos a hace que los estudios multicéntricos, con financia-
evaluar hasta qué punto los resultados del metaaná- ción externa y que encuentran resultados estadísti-
lisis dependen de determinadas decisiones tomadas camente significativos, se publiquen con mayor fre-
en el diseño de la RS relacionadas con los criterios cuencia, introduciendo un sesgo en la evaluación de
de inclusión, la inclusión de estudios de baja calidad las pruebas disponibles si sólo se toman en conside-
o no publicados, etc. En el anexo 5 se presenta una ración las publicadas.
descripción más detallada del análisis de una RS. La prevención de este sesgo es importante desde
dos perspectivas: en primer lugar, la científica, para
SESGOS EN UNA REVISIÓN conseguir una completa difusión del conocimien-
SISTEMÁTICA to; si las decisiones de los profesionales se han de
basar en los datos publicados, la literatura debe in-
En una RS pueden aparecer sesgos en diferentes cluir todos los estudios que tengan una calidad
fases, especialmente en las de localización y selec- aceptable. En segundo lugar, desde la perspectiva
ción de los estudios; algunos de estos sesgos pueden de los autores que realizan una RS, si se publican
amenazar la validez de las conclusiones. preferentemente artículos con resultados positivos,

105
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

cualquier RS tenderá a obtener también resultados publicadas en determinados países, no lo estén. Por
positivos (fig. 10.2). ejemplo, de las más de 4.000 revistas indizadas en
EMBASE, MEDLINE o Science Citation Index, sólo
S ESGO EN LA LOCALIZACIÓN el 2% procede de países en vías de desarrollo.
DE ESTUDIOS Los artículos que se publican en revistas no indi-
Además del sesgo de publicación, existen otros mu- zadas en estas bases de datos difícilmente serán loca-
chos factores que contribuyen a una inclusión ses- lizados por los autores de una RS, y si sus resultados
gada de estudios en una RS. Los más importantes difieren del obtenido en los estudios indizados, el
son el sesgo del idioma inglés, el sesgo de las bases resultado de la revisión sistemática estará sesgado. De
de datos, el sesgo de citación y el sesgo de publica- hecho, es más probable que los artículos con resulta-
ción múltiple. dos positivos estén publicados en revistas indizadas.

Sesgo del idioma inglés Sesgo de citación


Muchas RS sólo incluyen artículos publicados en in- Para intentar localizar los estudios que deben in-
glés, de manera que los estudios publicados en cluirse en una RS es habitual que los autores com-
otros idiomas quedan excluidos. Además, no es in- plementen la búsqueda en las bases de datos con-
frecuente que los investigadores de países de habla tac-tando con expertos en la materia y realizando
no inglesa publiquen los estudios con resultados una búsqueda manual a partir de las referencias bi-
positivos en revistas de lengua inglesa, al conside- bliográficas de los estudios publicados. Cuando se
rarlas más relevantes, y los negativos en una revista efectúa esta búsqueda manual es probable que se
local, con lo que este sesgo positivo se añade al introduzca un sesgo de citación, ya que, por regla
inherente al de publicación. general, los estudios con resultados positivos se
citan con más frecuencia que los estudios con resul-
Sesgo de las bases de datos tados negativos. Por ello, es más probable incluir en
Las dos bases de datos bibliográficos más utilizadas, una RS estudios con resultados positivos y sesgar su
MEDLINE y EMBASE, no tienen la misma cobertura resultado.
y, por lo tanto, si la búsqueda se limita a artículos in- La revista en la que se publica un estudio tam-
dizados solamente en una de ellas, puede introdu- bién puede influir en su citación y, por tanto, en su
cirse un sesgo. Además, los criterios de selección a la probabilidad de que dicho estudio sea incluido en
hora de indizar las revistas hace que muchas de ellas, una revisión.

A B

Figura 10.2. Sesgo de publicación. Cada círculo representa el resultado de un estudio. El círculo negro representa
el resultado global de los estudios incluidos en una revisión sistemática. El círculo blanco representa la verdadera magnitud
del efecto. A: revisión sistemática que ha incluido todos los estudios existentes. Su resultado se aproxima
al verdadero efecto. B: revisión sistemática en que algunos estudios no han sido incluidos. Su resultado está sesgado.

106
REVISIONES SISTEMÁTICAS

Ejemplo 10.1. En el estudio de Helsinki, un ensayo liarizado con el tema y, por consiguiente, con los
clínico en el que se evaluó la eficacia de un fibrato principales estudios publicados. Este conocimiento
para prevenir la cardiopatía isquémica en pacientes puede influir a la hora de definir estos criterios, lo
sin antecedentes de la enfermedad, se obtuvieron que puede conducir a una inclusión selectiva de
resultados estadísticamente significativos y fue pu- determinados estudios.
blicado en una prestigiosa revista (Frick et al, 1987).
El estudio tenía otra parte destinada a evaluar la efi-
REVISIONES SISTEMÁTICAS QUE USAN
cacia de la intervención para la prevención secun-
DATOS DE PACIENTES INDIVIDUALES
daria de la enfermedad, cuyos resultados no fueron
estadísticamente significativos. Los resultados de Las RS se basan habitualmente en los datos publi-
esta segunda parte se publicaron seis años después cados en los artículos originales. Sin embargo, en
en una revista de mucho menor impacto (Frick ocasiones, la presentación de los datos no favorece
et al, 1993). El primer artículo fue citado en más de su revisión. Por ejemplo, en una RS sobre la eficacia
450 ocasiones durante los tres años siguientes a su del tratamiento antihipertensivo en ancianos, pue-
publicación, mientras que el segundo fue citado de ocurrir que algún estudio no incluya a los pa-
sólo en 17 ocasiones. cientes mayores de 60 años, mientras que otros esta-
blezcan un límite de edad distinto. Además, como
Sesgo de publicación múltiple muchos estudios no presentan resultados estratifi-
La publicación múltiple de resultados de un mismo cados por edad, sus datos no podrán incluirse en el
estudio es un fenómeno frecuente que se da espe- análisis. La recogida de los datos de los pacientes in-
cialmente en los estudios de gran envergadura, y dividuales directamente de los investigadores pue-
que puede conducir a un sesgo. Por un lado, los es- de resolver alguno de estos problemas, ya que se
tudios con resultados estadísticamente significati- solicitan datos sobre tipos específicos de pacientes y
vos tienden a publicarse con más frecuencia; por lo resultados.
tanto, es más fácil localizarlos e incluirlos en una Los principios que guían una revisión con datos
revisión. Por otro lado, si no se identifican como de pacientes individuales son los mismos que los de
publicación múltiple, pueden incluirse datos dupli- cualquier RS. La principal diferencia es que incor-
cados que conduzcan a una sobreestimación del pora, en la medida de lo posible, toda la evidencia
efecto. En ocasiones, es difícil deducir que los resul- relevante disponible. Se trata de conseguir que to-
tados publicados en diferentes artículos proceden dos los pacientes aleatorizados y ninguno de los no
de un mismo estudio, especialmente en estudios aleatorizados de cualquier ensayo considerado váli-
multicéntricos en los que, además de los resultados do y pertinente sean incluidos y se analicen siguien-
globales, se publican resultados de centros aislados. do el principio de «intención de tratar».
Este tipo de RS son el medio más fiable para
S ESGO POR DATOS AUSENTES combinar datos de ensayos clínicos similares. Sus
O DE MALA CALIDAD principales ventajas son las siguientes:
En ocasiones, los artículos no incluyen todos los da-
tos necesarios para efectuar una RS. Muchos facto- – Se pueden realizar análisis de supervivencia, si la
res pueden estar relacionados con la voluntad de variable de respuesta es el tiempo de superviven-
los investigadores de hacer públicos estos resulta- cia o el tiempo hasta que se produce un suceso.
dos, pero uno de ellos puede ser la dirección y la Este enfoque es más potente e informa mejor so-
significación estadística de los mismos. Este sesgo es bre el curso de la enfermedad y el efecto del tra-
más probable en los estudios publicados como tamiento en el transcurso del tiempo.
comunicaciones a congresos y en los no publicados. – Se pueden efectuar análisis de subgrupos con una
definición común para poner a prueba y generar
S ESGO EN LA DEFINICIÓN hipótesis.
DE LOS CRITERIOS DE INCLUSIÓN – Se puede controlar mejor la calidad de los datos,
También es posible introducir un sesgo cuando se teniendo la posibilidad de validarlos y corregirlos
establecen los criterios de inclusión y exclusión, ya si fuera necesario, mediante la comunicación di-
que son definidos por un equipo investigador fami- recta con los investigadores.

107
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

– Es más fácil detectar desviaciones en el protocolo men with dyslipidemia. N Engl J Med 1987; 317: 1237-
de los estudios individuales. 1245.
– Se puede actualizar la información sobre el segui- Frick MH, Heinonen OP, Huttunen JK, Koskinen P, Marttari
miento de los pacientes cuando los registros están M, Manninen V. Efficacy of gemfibrozil in dyslipidaemic
subjects with suspected heart disease. Ann Med 1993; 25:
disponibles.
41-45.
– Es más fácil estandarizar las medidas de resultado.

Un problema que puede surgir en estas RS es B IBLIOGRAFÍA


que los datos de un estudio o más de uno no estén Balk EM, Bonis PA, Moskowitz H et al. Correlation of quality
disponibles. Puede considerarse que, si se ha logra- measures with estimates of treatment effect in meta-
analysis of randomized controlled trials. JAMA 2002; 287:
do reunir el 90-95% de los estudios originales, los
2973-2982.
datos no disponibles no cambiarían sustancialmen-
D’Amico R, Deeks JJ, Altman DG. Numbers needed to treat
te los resultados de la RS. derived from meta-analysis. Length of follow up is poorly
reported. BMJ 1999; 319: 1200.
REVISIONES SISTEMÁTICAS Davey Smith G, Egger M. Meta-analysis. Unresolved issues
DE ESTUDIOS OBSERVACIONALES and future developments. BMJ 1998; 316: 221-225.
Davey Smith G, Egger M, Phillips AN. Meta-analysis. Beyond
El tipo de estudios que se incluyen en la RS puede the grand mean? BMJ 1997; 315: 1610-1614.
condicionar los resultados. Dado que el ensayo clí- Egger M, Ebrahim S, Smith GD. Where now for meta-analy-
nico aleatorio es el diseño que más asegura la com- sis? Int J Epidemiol 2002; F; 31 (1): 1-5.
parabilidad de los grupos, la mayoría de las RS in- Egger M, Schneider M, Davey Smith G. Spurious precision?
cluyen solamente este tipo de estudios, lo que ha Meta-analysis of observational studies. BMJ 1998; 316:
permitido desarrollar consensos sobre cómo debe 140-144.
aplicarse esta metodología. Sin embargo, existe Egger M, Smith GD. Bias in location and selection of studies.
BMJ 1998; 316: 61-66.
más controversia sobre cómo realizar una RS cuan-
Egger M, Smith GD, Phillips AN. Meta-analysis: principles
do se incluyen también estudios observacionales, ya
and procedures. BMJ 1997; 315: 1533-1537.
que en estos diseños es más probable la presencia Egger M, Smith GD. Meta-analysis. Potentials and promise.
de sesgos cuya magnitud y dirección a menudo es BMJ.1997; 315: 1371-1374.
difícil de prever. Egger M, Smith GD, Sterne JA. Uses and abuses of meta-
Existen otros puntos de controversia en la reali- analysis. Clin Med 2001; 1: 478-484.
zación de RS con estudios observacionales, como si Furukawa TA, Guyatt GH, Griffith LE. Can we individualize
es o no correcto combinar distintos tipos de diseño the ‘number needed to treat’? An empirical study of
(p. ej., estudios de casos y controles con estudios de summary effect measures in meta-analysis. Int J Epide-
cohortes), si pueden combinarse estudios de casos miol 2002; 31: 72-76.
y controles que utilizan controles poblacionales Higgins J, Thompson S, Deeks J, Altman D. Statistical hete-
con otros que utilizan controles hospitalarios, o si rogeneity in systematic reviews of clinical trials: a critical
es razonable combinar estudios de cohortes proce- appraisal of guidelines and practice. J Health Serv Res
dentes de varios países o de distintos ámbitos (labo- Policy 2002; 7: 51-61.
ral, poblacional, etc.). Juni P, Holenstein F, Sterne J, Bartlett C, Egger M. Direction
and impact of language bias in meta-analysis of contro-
Algunos autores piensan que no deberían efec-
lled trials: empirical study. Int J Epidemiol 2002; 31:
tuarse nunca RS de estudios observacionales, mien-
115-123.
tras que otros sugieren que lo que no debe efectuar- Juni P, Witschi A, Bloch R, Egger M. The hazards of scoring
se es la combinación estadística de sus resultados. La the quality of clinical trials for meta-analysis. JAMA 1999;
consideración cuidadosa de las posibles fuentes de 282: 1054-1060.
heterogeneidad entre los estudios proporcionará Kjaergard LL, Villumsen J, Gluud C. Reported methodolo-
probablemente datos más valiosos que la simple gic quality and discrepancies between large and small
combinación estadística de los resultados. randomized trials in meta-analysis. Ann Intern Med
2001; 135: 982-989.
B IBLIOGRAFÍA DE LOS EJEMPLOS Macaskill P, Walter SD, Irwig L. A comparison of methods to
Frick MH, Elo O, Haapa K et al. Helsinki heart study: pri- detect publication bias in meta-analysis. Stat Med 2001;
mary prevention trial with gemfibrozil in middle-aged 20: 641-654.

108
REVISIONES SISTEMÁTICAS

McAuley L, Pham B, Tugwell P, Moher D. Does the inclusion Sterne JA, Gavaghan D, Egger M. Publication and related
of grey literature influence estimates of intervention ef- bias in meta-analysis: power of statistical tests and preva-
fectiveness reported in meta-analysis? Lancet 2000; 356: lence in the literature. J Clin Epidemiol 2000; 53: 1119-
1228-1231. 1129.
Moher D, Pham B, Klassen TP, Schulz KF, Berlin JA, Jadad Sterne JA, Juni P, Schulz KF, Altman DG, Bartlett C, Egger M.
AR, Liberati A. What contributions do languages other Statistical methods for assessing the influence of study
than English make on the results of meta-analysis? J Clin characteristics on treatment effects in «meta-epidemio-
Epidemiol 2000; 53: 964-972. logical» research. Stat Med 2002; 21: 1513-1524.
Montori VM, Smieja M, Guyatt GH. Publication bias: a brief Sutton AJ, Duval SJ, Tweedie RL, Abrams KR, Jones DR.
review for clinicians. Mayo Clin Proc 2000; 75: 1284- Empirical assessment of effect of publication bias on me-
1288. ta-analysis. BMJ 2000; 320: 1574-1577.
Shapiro S. Is meta-analysis a valid approach to the evaluation Vale CL, Tierney JF, Stewart LA. Effects of adjusting for cen-
of small effects in observational studies? J Clin Epidemiol soring on meta-analysis of time-to-event outcomes. Int
1997; 50: 223-229. J Epidemiol 2002; 31: 107-111.
Silagy CA, Middleton P, Hopewell S. Publishing protocols of Verhagen AP, De Vet HC, De Bie RA, Boers M, Van den
systematic reviews: comparing what was done to what was Brandt PA. The art of quality assessment of RCTs inclu-
planned. JAMA 2002; 287 (21): 2831-2834. ded in systematic reviews. J Clin Epidemiol 2001; 54: 651-
Sterne JA, Egger M. Funnel plots for detecting bias in meta- 654.
analysis: guidelines on choice of axis. J Clin Epidemiol Weed DL. Interpreting epidemiological evidence: how meta-
2001; 54: 1046-1055. analysis and causal inference methods are related. Int
Sterne JA, Egger M, Smith GD. Systematic reviews in health J Epidemiol 2000; 29: 387-390.
care: Investigating and dealing with publication and
other biases in meta-analysis. BMJ 2001; 323: 101-105.

109
Capítulo 11
Protocolo de investigación

n estudio se inicia cuando un investigador se revisión técnica competente y la crítica constructi-

U plantea una pregunta y elabora una hipótesis


de trabajo. A continuación, diseña un estudio
para obtener una respuesta válida y fiable.
va previa al inicio del estudio.

ESQUEMA DEL PROTOCOLO


Todos los aspectos que tengan relación con el
DE ESTUDIO
estudio, desde la definición del objetivo hasta la
estrategia del análisis, deben ser meditados y deba- El esquema general de un protocolo está íntima-
tidos por todo el equipo investigador, y escribirse mente ligado a las fases del proyecto de investiga-
en el protocolo del estudio. Este documento inclu- ción (tabla 11.1). Cada uno de sus apartados se ex-
ye dos grandes bloques de información: por un pone ampliamente en los siguientes capítulos.
lado, la estructura científica del proyecto, donde se En primer lugar, debe identificarse el problema
describe la razón de ser del estudio, sus objetivos, su que se desea resolver, encuadrándolo en su marco
diseño, su estrategia de análisis, etc.; y, por otro, el teórico, acompañándolo de una breve, pero cuida-
manual de instrucciones para el personal investiga- dosa, revisión bibliográfica muy relacionada con él y
dor, donde se especifican los métodos y proce- que evite revisiones excesivamente genéricas. La re-
dimientos a utilizar en cada uno de los sujetos in- visión de la literatura permite matizar la idea origi-
cluidos. Dentro de un protocolo, ambos aspectos nal, delimitar con mayor precisión el objetivo del
pueden estar mezclados o aparecer en documentos estudio, valorar los conocimientos actuales sobre el
separados. tema, evaluar la pertinencia y la viabilidad del pro-
El protocolo es un instrumento básico, ya que yecto, proporcionar un marco conceptual para la
permite pasar de la concepción de un problema de investigación y obtener información sobre aspectos
investigación a su puesta en marcha. Ayuda al inves- concretos del método, como criterios de selección,
tigador a definir claramente el problema de investi- instrumentos de medida y análisis estadístico, entre
gación, a diseñar un estudio que sea factible de rea- otros.
lizar y a organizar las actividades de forma eficiente. Una idea puede ser muy interesante, pero no
Facilita la comunicación dentro del equipo y la es- abordable en un medio concreto. Hay que valorar
tandarización de todos los procedimientos. En defi- si las variables de interés pueden medirse de forma
nitiva, permite llevar a cabo el estudio como fue di- precisa y exacta, el tiempo necesario para la inves-
señado y asegurar que el paso del tiempo o los tigación, la disponibilidad de sujetos para alcanzar
cambios en el personal no lo modificarán ni lo limi- el tamaño necesario, la disponibilidad de tiempo
tarán. Además, es imprescindible para efectuar la del equipo investigador, la posibilidad de obtener

113
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 11.1. Esquema general de un protocolo la colaboración de otros profesionales o centros, si


de estudio se dispone de las instalaciones, equipos y recursos
económicos necesarios, y si el equipo investigador
1. Introducción: tiene la experiencia suficiente para garantizar que
– Finalidad del estudio: problema que intenta el estudio se realizará con el rigor necesario.
resolver y preguntas que se formulan Debe formularse el (los) objetivo(s) específi-
– Antecedentes del tema: breve revisión co(s) del estudio. El objetivo es el eje en torno al
bibliográfica cual gira el diseño del estudio y es la base para deci-
– Razones por las que la investigación dir los criterios de selección de los sujetos y las va-
propuesta es importante riables que han de ser medidas. A partir de una
2. Objetivos específicos del estudio
idea general de lo que se pretende estudiar, se rea-
3. Aplicabilidad y utilidad de los resultados
lizan matizaciones sucesivas a medida que se avanza
4. Diseño y métodos:
– Tipo de diseño en el diseño de la investigación para acabar en la
– Población de estudio: formulación de uno o varios objetivos específicos.
– Descripción de la muestra La siguiente fase es la elección del diseño básico,
– Criterios de inclusión y exclusión es decir, del tipo de estudio más adecuado para res-
– Método de muestreo ponder a la pregunta. Hay que identificar la pobla-
– Cálculo del tamaño de la muestra ción diana a la que se desea generalizar los resulta-
– Procedencia de los sujetos dos, definir los criterios de selección de los sujetos
– Método de recogida de datos: que participarán en el estudio, estimar el tamaño
entrevista, examen físico, procedimientos de la muestra y describir las técnicas que se utili-
de laboratorio y otras pruebas zarán para seleccionarla y para formar los grupos
complementarias
de estudio, en caso de que sea necesario.
– Variables:
– Definición de las variables El protocolo debe especificar las variables y sus
– Medición de las variables definiciones operativas, la técnica de medición que
– Registro de los valores de las variables se utilizará y la fuente de información. Habitual-
(formularios) mente, una misma variable se puede medir de dife-
– Descripción y definición de la intervención rentes maneras y con distintos instrumentos. Es
(si la hay) conveniente utilizar definiciones e instrumentos es-
– Descripción del seguimiento de los pacientes tándares. En cualquier caso, la definición debe ser
(si lo hay) clara y precisa para que todos los investigadores uti-
– Entrada y gestión informática de los datos licen criterios homogéneos.
– Estrategia de análisis El protocolo ha de describir lo que le ocurrirá a
5. Calendario previsto para el estudio
cada persona que participe en el estudio (cómo se
6. Limitaciones y posibles sesgos del estudio
7. Problemas éticos:
incluirá, qué seguimiento se hará, cómo recibirá la
– Método que se utilizará para obtener intervención, qué mediciones se realizarán, etc.)
el consentimiento informado con el suficiente detalle para que todos los miem-
– Riesgos físicos, sociales o legales a los que bros del equipo investigador conozcan lo que debe
pueden verse sometidos los pacientes hacerse en todo momento a lo largo del estudio.
– Métodos utilizados para minimizar los riesgos Así mismo, debe establecer qué información debe
principales recogerse, quién y de qué forma lo hará, y los meca-
– Beneficios potenciales que pueden obtener nismos de control de calidad.
los participantes en el estudio También deben preverse las posibles dificulta-
8. Plan de ejecución. Estudio piloto des que pueden presentarse durante el estudio y es-
9. Organización del estudio:
pecificar las soluciones que se proponen para evitar
– Personal que interviene y su responsabilidad
– Instalaciones, instrumentación y técnicas
los sesgos; por ejemplo, técnicas para aumentar la
necesarias comparabilidad de los grupos, estrategias para dis-
10. Presupuesto minuir el número de no respuestas o de pérdidas
11. Bibliografía de seguimiento y para recaptarlas si se producen,
estrategias que aseguren que la calidad y la homo-

114
PROTOCOLO DE INVESTIGACIÓN

geneidad de los datos se mantienen a lo largo de miembros del equipo investigador, con el fin de
todo el estudio, y utilización de técnicas de ciego, si realizar una primera aproximación al desarrollo
es posible, para evitar posibles interferencias causa- del objetivo y a la evaluación de la pertinencia y la
das por el investigador o el participante, entre otras viabilidad del estudio.
soluciones. El siguiente paso es desarrollar un esquema ge-
En el protocolo también debe constar el plan de neral sobre cómo se pretende abordar el problema,
análisis de los datos, con la identificación de las e indicar, de forma muy escueta en 2-4 páginas, los
variables demográficas que se utilizarán para des- aspectos metodológicos presentados en la tabla 11.1.
cribir la población estudiada, de los factores Así, por ejemplo, en esta versión, cuando se identi-
pronósticos que se emplearán para valorar la com- fiquen los criterios de selección de los sujetos, no
parabilidad de los grupos, los subgrupos de sujetos será necesario definirlos de forma operativa. Igual-
en los que se deseará realizar el análisis, así como mente, aunque se deben identificar las principales
las pruebas estadísticas que se aplicarán. variables del estudio, no es necesario definirlas con
En el protocolo se recogen aspectos relaciona- precisión ni indicar detalladamente el método de
dos con el método y la organización del estudio, y el recogida de la información. En las versiones sucesi-
calendario previsto. La buena marcha de un estu- vas del protocolo se desarrollarán con más detalle
dio depende, en gran medida, de su buena organi- estos aspectos y se matizarán con la incorporación
zación, por lo que es importante identificar las ta- de los elementos organizativos.
reas administrativas y las personas que las llevarán a Tanto el manual de procedimientos como el
cabo. La realización de un estudio suele precisar la protocolo de estudio deben estar siempre disponi-
colaboración de otras personas, servicios o centros bles para poder ser consultados ante cualquier du-
ajenos al propio equipo investigador, por lo que es da. Una vez que estos documentos han sido deba-
conveniente contactar con ellos y asegurar su cola- tidos y consensuados por el equipo investigador, es
boración antes de iniciarlo. El presupuesto ha de conveniente que los lean otras personas ajenas al
ser realista, ya que es un aspecto muy importante estudio para que juzguen su pertinencia, emitan los
para evaluar la viabilidad de un estudio. Es impor- comentarios y las sugerencias que crean oportunos,
tante asegurar, antes de iniciar el trabajo, que se po- y ayuden a mejorar el proyecto.
drá contar con la financiación necesaria. En el anexo 6 se presenta, en forma de frases o
El éxito de un trabajo de investigación depen- preguntas, una guía para la elaboración de un pro-
derá de lo bien que se haya diseñado y de si se han tocolo de estudio.
identificado los posibles problemas antes de ini-
ciarlo. Además, si el estudio está bien planeado, las
EQUIPO INVESTIGADOR
fases de recogida y de análisis de los datos serán
mucho más fáciles. Por esta razón, antes de iniciar Generalmente, en un proyecto de investigación in-
el estudio propiamente dicho, es conveniente reali- tervienen varias personas que lo impulsan. El equi-
zar una o varias pruebas piloto que pongan de ma- po ha de ser multidisciplinario, es decir, en él de-
nifiesto los aspectos en los que hay que insistir o ben estar representados expertos o conocedores de
que deben mejorarse. los diferentes aspectos del estudio. Es conveniente
que exista un investigador principal que actúe co-
mo líder, que debe ser respetado por el resto del
ELABORACIÓN DEL PROTOCOLO
equipo, y tener el tiempo y la energía suficientes
DE ESTUDIO
para llevar adelante el proyecto y mantener el
El protocolo es un documento que se va desarro- interés del estudio hasta el final.
llando y mejorando a medida que el equipo investi- Entre las funciones del equipo investigador se
gador concreta la idea y el diseño del estudio. incluye redactar el protocolo y el manual de proce-
El punto de partida es la identificación del pro- dimientos. De todas formas, es preferible que esta
blema y la redacción de una hipótesis genérica. tarea sea asumida por un número reducido de per-
Aunque en esta fase de la investigación esta hipóte- sonas, con una de ellas como responsable, y que el
sis es poco operativa, es conveniente que se ponga protocolo sea consensuado por todo el equipo, con
por escrito para poder debatirla con otros colegas o atención a las sugerencias y aportaciones de los

115
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

miembros. También es conveniente que partes muy pen en ellos. Es conveniente que esto se haga en fa-
especializadas del protocolo, como el análisis ses tempranas del diseño, como mínimo antes del
estadístico o determinados procedimientos de labo- inicio del estudio, con la finalidad de implicarlos en
ratorio, sean redactados por expertos en la materia. el diseño o de poder debatir con ellos el protocolo.
Desde el inicio, el investigador principal ha de Una vez contactados, su aceptación dependerá de
mantener reuniones periódicas con el resto del varios factores: su interés por el tema, la compleji-
equipo, con un orden del día preestablecido, en las dad del protocolo, la interferencia excesiva con la
que se informe de cómo está progresando el práctica clínica habitual, la dificultad de la recogida
diseño, los problemas y las dudas que se plantean, de datos, el número de reuniones, etc. Los incenti-
etc. Estas reuniones ayudan a mantener la motiva- vos económicos o de otro tipo también pueden de-
ción y el interés de los investigadores. El número y cantar el sentido de la respuesta a la solicitud de
la duración de las reuniones han de ser los impres- participación.
cindibles, sin ser excesivos.
En estudios multicéntricos, con frecuencia se
BIBLIOGRAFÍA
crean comités para el diseño del proyecto, en los
que suelen intervenir profesionales de gran presti- Gómez de la Cámara A. Análisis de la estructura metodoló-
gio, que difícilmente se harán cargo del desarrollo gica de las propuestas de investigación presentadas al
del estudio en el día a día. Por ello, ha de existir Fondo de Investigación Sanitaria. Med Clin (Barc) 1997;
una persona que asuma este papel y que se ocupe 109: 445-451.
Hulley SB, Cummings SR, Browner WS, Grady D, Hearst N,
de conocer las convocatorias de ayudas para la fi-
Newman RB. eds. Designing clinical research: an epide-
nanciación, qué centros pueden ser los candidatos miologic approach. 2.a ed. Baltimore: Lippincott Wi-
para participar, conducir las reuniones de los inves- lliams & Wilkins, 2001.
tigadores, etc.; es decir, que asuma el proyecto co- Knatterud GL. Management and conduct of randomized
mo una de sus prioridades y con la estabilidad labo- controlled trials. Epidemiol Rev 2002; 24: 12-25.
ral suficiente como para finalizarlo. Rebagliato M, Ruiz I, Arranz M. Metodología de investiga-
En los estudios multicéntricos, una de las fun- ción en epidemiología. Madrid: Díaz de Santos, 1996.
ciones del equipo investigador es identificar y selec- Roca J. Cómo y para qué hacer un protocolo. Med Clin
cionar los centros y los investigadores que partici- (Barc) 1996; 106: 257-262.

116
Capítulo 12
Búsqueda bibliográfica

na vez que se ha centrado el interés en un

U determinado tema, el siguiente paso es revisar


el estado actual del conocimiento sobre él. La
investigación no debe entenderse como el intento
Tabla 12.1. Utilidades de la revisión
bibliográfica en una investigación

• Fuente de ideas susceptibles de investigación


de responder a una pregunta partiendo de cero,
sino que se enmarca en el conjunto de los conoci- • Valoración de los conocimientos actuales
mientos científicos existentes, que son precisamen- sobre el tema
te los que justifican la realización del estudio. • Valoración de la pertinencia y viabilidad
La búsqueda bibliográfica es importante durante del proyecto
todo el proceso de una investigación (tabla 12.1). Por • Provisión del marco conceptual para la
un lado, permite saber si la pregunta que se plantea investigación
ha sido contestada previamente y, por otro, aprove-
• Ayuda en la delimitación del objetivo específico
char la experiencia previa de otros investigadores
para diseñar y ejecutar mejor el estudio. • Información sobre aspectos concretos del diseño:
La forma tradicional de obtener información es a – Estrategias
través de la consulta de un libro de texto. Sin embar- – Procedimientos
go, debe tenerse en cuenta que la mayoría de los – Pautas de seguimiento
libros carecen de información sobre los detalles que – Criterios de selección
– Determinación del tamaño de la muestra
interesan, y que, además, suele transcurrir un perío-
– Definiciones de variables
do de varios años desde que los autores elaboran el
– Instrumentos de medición
manuscrito hasta que el libro es editado. Por tanto, es
– Prevención de problemas
preferible revisar las bases de datos que incluyen refe- – Análisis estadístico
rencias de artículos publicados en las revistas biomé-
dicas y otro tipo de informaciones importantes para • Comparación de los propios resultados
el investigador. con estudios similares
Dada la imposibilidad de buscar la información • Contribución a la valoración de la validez externa
deseada entre los millones de páginas que se publican

117
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

(fuentes primarias), diversas instituciones se dedican Tabla 12.2. Ejemplo de un registro de la base
a seleccionar, resumir, ordenar y catalogar los trabajos de datos MEDLINE
científicos que aparecen en las revistas médicas de
mayor consideración, en forma de repertorios (fuen- TI: Generalizing from clinical trials
tes secundarias), facilitando la tarea de identificación AU: Davis-CE
y localización de la información relevante. AD: Department of Biostatistics, University of North
Internet permite el acceso a múltiples fuentes de Carolina, School of Public Health, Chapel Hill
información desde cualquier lugar y a cualquier hora, 27599-7400
de un modo fácil, cómodo y económico. Además, SO: Control-Clin-Trials. 1994 Feb; 15(1): 11-4
pueden consultarse las nuevas fuentes de información PY: 1994
que aparecen continuamente y que pueden comple- LA: ENGLISH
mentar a las clásicas, aunque deben utilizarse con cau- CP: UNITED-STATES
tela, ya que no puede asegurarse que se hayan cons- AB: Although randomized controlled clinical trials
truido con el suficiente rigor, pueden contener have become the «gold standard» for evaluating
errores deliberados y no es infrecuente que desapa- new treatments, only a small subset of the
rezcan sin dejar rastro. population considered for treatment participate
in randomized clinical trials. To what extent is it
reasonable to generalize beyond the boundaries
BASES DE DATOS BIBLIOGRÁFICOS
of a specific clinical trial? This paper argues that
Por base de datos bibliográfica se entiende un con- several pieces of information are necessary
junto de referencias bibliográficas de publicaciones, to determine the extent of extrapolation or
almacenadas informáticamente, y que pueden ser generalization warranted in a specific clinical trial.
recuperadas interactivamente gracias a un lenguaje The necessary items of information are derived
de consulta. Hablamos, por tanto, de referencias, y from basic science laboratory studies; animal
no de artículos a texto completo. studies; genetic studies (where applicable);
Una base de datos está formada por registros que observational, clinical, and epidemiological studies;
corresponden a las referencias de los documentos and other randomized clinical trials in similar
indizados (tabla 12.2). Cada registro se articula en settings or with similar treatments. An example
diferentes campos que contienen información relati- from the field of cholesterol reduction is presented
va al documento: autores, título, revista en que se ha MESH: Adult-; Aged-; Coronary-Disease-blood; Data-
publicado, año de publicación, tipo de publicación, Interpretation-; Statistical; Middle-Age; Randomized-
etc. (tabla 12.3). Los tres campos más interesantes Controlled-Trials-statistics-and-numerical-data;
para la localización de documentos son el título, el Reproducibility-of-Results; Risk-Factors
resumen del contenido y las palabras clave, o des- MESH:*Cholesterol-blood;*Coronary-Disease-
criptores, que identifican su temática. prevention-and-control; *Randomized-
Controlled-Trials
M EDLINE TG: Animal; Female; Human; Male
MEDLINE es una base de datos bibliográfica produ- PT: JOURNAL-ARTICLE
cida por la National Library of Medicine (NLM) RN: 57-88-5
de Estados Unidos (http://www.ncbi.nlm.nih.gov/ NM: Cholesterol
PubMed) (fig. 12.1). Es el resultado de la automati- AN: 94199997
zación del repertorio del antiguo Index Medicus, al UD: 9407
que se ha sumado el International Nursing Index y el
Index to Dental Literature. Contiene más de diez
millones de referencias bibliográficas, publicadas en Recoge mayoritariamente las publicaciones médi-
unas 3.900 revistas. Su contenido es muy amplio; cas de Estados Unidos y aquellas de otros países que
abarca prácticamente todas las especialidades médi- reúnan unos requisitos mínimos (periodicidad de
cas y paramédicas, aunque presenta deficiencias en publicación, existencia de comité editorial, etc.) y
las áreas de medicinas alternativas e información que lo soliciten a la NLM. Esto se refleja en un núme-
sobre medicamentos. ro relativamente reducido de publicaciones de otros

118
BÚSQUEDA BIBLIOGRÁFICA

Tabla 12.3. Campos del registro de MEDLINE presentado en la tabla 12.2

Siglas Campo Descripción

TI Title Título del artículo. Aparece en inglés. Si el artículo está escrito en otro
idioma, aparecerá en otro campo en su lengua original, delimitado
entre claudátors, y precedido por el código TO (título original)
AU Author Autor o autores del artículo
AD Address Centro de trabajo
SO Source Cita bibliográfica: abreviatura del título de la revista, año de publicación,
mes, volumen, número de fascículo y páginas
PY Publication year Año de publicación
LA Language Lengua original del artículo
CP Country of publication País de publicación
AB Abstract Resumen del artículo. En la base de datos MEDLINE, este resumen
corresponde al elaborado por el autor del artículo
MESH Términos descriptores del tesauro MeSH que representan los contenidos
del documento. Los términos que van precedidos por un asterisco
corresponden a los descriptores principales (Major Topics) que reflejan
el tema central del artículo. El resto de términos corresponde a otros
aspectos tratados en el artículo, pero que no constituyen el contenido
fundamental del mismo
TG Check Tags Términos asignados rutinariamente a cada artículo para facilitar la
restricción de la búsqueda a aspectos concretos como pacientes,
sexo, grupos de edad, animales de experimentación, etc.
PT Publication type Tipo de publicación
NM Name of substance Nombre de la sustancia
AN Access number Número de acceso en la base de datos. Las dos primeras cifras
corresponden al año

países, especialmente de los de habla no inglesa. De E MBASE


hecho, las citas de revistas en inglés constituyen el EMBASE (http://www.embase.com) es una base de
75% del total. Se dispone de resumen en inglés de datos producida por la editorial Elsevier, y correspon-
muchos de los artículos publicados después de 1975. de a la versión automatizada del repertorio Excerpta
Dispone de una versión abreviada (Abridged Medica, editado por la Fundación Internacional Ex-
Index Medicus), en la que se incluyen 125 revistas cerpta Medica de Amsterdam (Holanda). Incluye
publicadas en lengua inglesa, consideradas como las referencias de unas 4.500 revistas y se diferencia de
principales en el campo de la medicina. Es muy útil MEDLINE en que tiene una mayor cobertura de revis-
para búsquedas poco exhaustivas. tas europeas y publicadas en otros idiomas diferentes
Para la indización de materias se utiliza el MeSH del inglés, así como de aquellas relacionadas con la
(Medical Subject Headings), tesauro preestablecido de farmacología y la psiquiatría, e incluye también refe-
descriptores que se describe con detalle más adelante. rencias a libros, tesis, actas de congresos, etc. Por ello,
MEDLINE se ha convertido en la fuente de infor- es especialmente útil para buscar información sobre
mación más utilizada en todo el mundo. fármacos y toxicología.

119
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Figura 12.1. Página de


acceso al sistema PubMed
de consulta de MEDLINE.

La versión impresa, Excerpta Medica, se publica por dor de 2.400 revistas, así como de los trabajos citados
series temáticas (hay cuarenta series que se publican en ellas (aproximadamente cinco millones al año),
en volúmenes independientes), lo que facilita la rea- por lo que permite, cuando se dispone de una refe-
lización de búsquedas más exactas y precisas. Ade- rencia interesante, seguir las aportaciones a un tema
más, tiene un carácter selectivo y analítico, es decir, a través de los trabajos posteriores que la citan. Se
sólo aparecen artículos de una cierta calidad y acom- utiliza para evaluar la producción científica y para
pañados de un resumen. calcular indicadores bibliométricos, como el factor
Utiliza un vocabulario denominado MALIMET de impacto.
(Master List of Medical Indexing Terms), compuesto
por más de 37.000 palabras, que se estructuran en un C OCHRANE L IBRARY
tesauro denominado EMTREE. Las bases de datos anteriores son repertorios de refe-
rencias bibliográficas de artículos publicados en algu-
S CISEARCH nas revistas médicas y, por tanto, no recogen toda la
SCISEARCH es una base de datos producida por el información científica disponible. Por ejemplo, se
Institute for Scientific Information (ISI), un organis- estima que, aproximadamente, la mitad de los ensa-
mo privado localizado en Filadelfia (Estados Unidos). yos clínicos publicados no se recoge en la base de da-
Incluye la versión automatizada de Current Contents, tos MEDLINE. La Cochrane Library, elaborada por la
servicio de alerta bibliográfica que cubre cerca de Colaboración Cochrane, es una base de datos orien-
7.000 publicaciones, muy útil para mantenerse al día, tada a la toma de decisiones clínicas, principalmente
pero no tanto para las búsquedas retrospectivas. Está terapéuticas y diagnósticas, que intenta suplir algunas
compuesta por siete series temáticas. El campo de las de las limitaciones anteriores. Contiene diferentes
ciencias de la salud queda recogido en tres de ellas: bases de datos, entre las que destacan:
Social and Behavioral Sciences, Life Sciences (CCLS)
y Clinical Medicine (CCCM). Para el profesional médi- – Cochrane Database of Systematic Reviews (CDSR), que
co, las más importantes son CCLS y CCCM, que inclu- incluye las revisiones sistemáticas elaboradas por los
yen referencias de 1.200 y 850 revistas, respectivamen- grupos de expertos de la Colaboración Cochrane
te. Ambas series contienen una sección del Current que sintetizan el estado actual de los conocimientos
Book Contents con cerca de 600 publicaciones. sobre temas específicos. Además, incluye detalles
La SCISEARCH incluye también el Science Ci- de los protocolos de las revisiones que están en
tation Index, que recoge la información de alrede- período de elaboración.

120
BÚSQUEDA BIBLIOGRÁFICA

– Database of Abstracts of Reviews of Effectiveness (DARE), Consumo (http://www.msc.es/Diseno/informacion


que incluye resúmenes de revisiones publicadas en Profesional/profesional_biblioteca.htm).
revistas biomédicas, muchas de ellas evaluadas crí-
ticamente. Está elaborada por el Centre for Disse- OTRAS FUENTES
mination of Reviews (CDR) de la Universidad de Existen también otras fuentes y recursos de informa-
York. ción «secundarios» o «filtrados», que reúnen o publi-
– Cochrane Controlled Trials Registers (CCTR), que in- can las referencias más relevantes publicadas o reuni-
cluye las referencias de los ensayos clínicos em- das originalmente en otras fuentes de información
pleados por la Colaboración Cochrane, muchos de (bases de datos, revistas científicas, etc.). Pueden des-
ellos no publicados, y que se han identificado a tacarse los siguientes:
través de diversos mecanismos de búsqueda.
– Cochrane Methodology Register, que incluye referen- – Tripdatabase (http://www.tripdatabase.com), que
cias de artículos sobre aspectos metodológicos rela- permite la búsqueda de evidencias científicas en
cionados con las revisiones sistemáticas. una serie de recursos electrónicos predefinidos y
valorados como altamente relevantes para la identi-
Además, la Cochrane Libray contiene informa- ficacion de evidencias.
ción elaborada por agencias de evaluación de tecno- – Sumsearch (http://sumsearch.uthscsa.edu/), que
logía médica, recursos de Internet relacionados con permite búsquedas en diversas fuentes de eviden-
la medicina basada en la evidencia e información cia mediante la selección del mejor recurso para la
general sobre la Colaboración Cochrane y sus grupos pregunta realizada. Ofrece una pantalla de inte-
de trabajo. rrogación que orienta al usuario a elaborar la pre-
Existe una versión en español llamada Cochrane gunta para obtener unos resultados lo más relevan-
Library Plus (http://www.update-software.com/clib- tes y precisos posible y utiliza un sistema de
plus/clibplus.htm) (fig. 12.2),en la que se encuentran compensación mediante el que elimina referencias
las traducciones al español de las revisiones originales en caso de resultar su número excesivo o amplía la
en inglés y otros recursos. Es accesible desde diferentes búsqueda a otras fuentes si, por el contrario, el
portales, como el Centro Cochrane Iberoamericano número de referencias localizadas resulta escaso.
(http://www.cochrane.es) o el Ministerio de Sanidad y Existe una versión con la interfaz de búsqueda en

Figura 12.2. Página de


acceso a la Cochrane
Library Plus.

121
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

español, aunque los términos de la interrogación bases de datos de la United States National Library of
deben ser en inglés (http://www.sumsearch.uthsc- Medicine (NLM).
sa.edu/espanol.htm. Utilizado correctamente, este vocabulario constituye
una herramienta poderosa que mejora el acceso a la lite-
ratura biomédica. Refleja todo el ámbito de la literatura
TESAURO
biomédica. La NLM lo mantiene, añadiéndole nuevos
Un tesauro es una forma de clasificación y de indiza- términos, a medida que aparecen nuevos conceptos, o
ción de una base de datos. Se basa en el uso de pala- bien modificando o eliminando otros ya existentes.
bras clave que forman un vocabulario especializado La NLM indiza cada referencia con 10-12 térmi-
cuyos términos se relacionan entre sí de forma jerár- nos seleccionados de los 17.000 que componen el
quica. Su finalidad es la de «traducir» el lenguaje na- tesauro MeSH, de acuerdo con su contenido, asig-
tural empleado en los documentos a un vocabulario nando los descriptores más precisos posibles. Cada
controlado de términos que permite representar el uno de los términos representa un único concepto.
contenido de los documentos y facilita la indización y El MeSH se presenta como una lista alfabética y en
la consulta de la base de datos. Sólo los términos que una estructura jerárquica (fig. 12.3), e incluye tanto
figuran en una lista predefinida pueden ser utiliza- términos genéricos como específicos, así como cientos
dos. El hecho de que un concepto esté representado de términos relacionados que ayudan a encontrar los
por un único término descriptor resuelve los proble- descriptores más apropiados. La estructura jerárquica
mas de sinonimias y polisemias. agrupa los descriptores en 15 categorías, en cada una
Un tesauro no es un índice ni un diccionario de de las cuales se hallan ordenados jerárquicamente del
sinónimos, sino un conjunto de términos que permi- más general al más específico, hasta siete niveles. Un
ten expresar con la mayor exactitud posible una mismo descriptor puede encontrarse en varias subca-
determinada noción o concepto. Por lo tanto, debe tegorías o árboles diferentes.
ser conciso, unívoco, bien estructurado, inteligible y Una aplicación interesante de la clasificación
capaz de evolucionar. jerárquica consiste en que pueden recuperarse, me-
El tesauro más utilizado en el ámbito de la medi- diante una opción denominada explosión del término
cina es el MeSH (Medical Subject Headings), que (explode), no sólo los artículos indizados por dicho
corresponde al vocabulario o tesauro preestablecido descriptor, sino también todos los indizados con los
de descriptores, utilizado para indizar diferentes términos más específicos que le están subordinados.

Figura 12.3. Ejemplo


de estructura jerárquica
del tesauro MeSH.

122
BÚSQUEDA BIBLIOGRÁFICA

Algunos descriptores corresponden a los concep- precisa la pregunta de investigación (objetivo) a la


tos principales cubiertos por el artículo (Major Topics) que se desea responder. Ello implica identificar con
y se identifican mediante un asterisco para diferen- claridad, al menos, los elementos siguientes: proble-
ciarlos del resto de términos que se refieren a otros ma de salud, enfermedad o condición clínica de
aspectos que no son los principales. interés; características generales de la población; fac-
Por otro lado, existen también términos específicos, tor de estudio y, en ocasiones, también el factor de
denominados subheadings, que permiten caracterizar comparación, y variable de respuesta.
los descriptores en sus aspectos más específicamente En segundo lugar, deben seleccionarse las bases
biomédicos (diagnóstico, epidemiología, etiología, de datos bibliográficas en las que se realizará la bús-
genética, mortalidad, prevención, complicaciones, queda. Como hemos comentado, dada su accesibili-
efectos adversos, etc.). dad y cobertura, probablemente MEDLINE sea la
MeSH incluye, además, términos especiales que alternativa principal, aunque en ocasiones otras pue-
cualifican la información, como el tipo de publica- den ser más adecuadas. Por ejemplo, la Cochrane
ción (editoriales, cartas, ensayos clínicos, revisiones, Library puede ser más útil para localizar revisiones
etc.), términos geográficos y los denominados check sistemáticas. Dado que los principales repertorios
tags, que caracterizan determinados atributos del bibliográficos tienen una cobertura distinta, si se
contenido de los artículos (estudios en animales o quiere una búsqueda exhaustiva se deben intentar
seres humanos, estudios in vitro, etc.). recuperar los artículos a partir de más de una fuente,
aunque ello produzca un alto porcentaje de artículos
duplicados.
ESTRATEGIA DE BÚSQUEDA
En tercer lugar, deben trasladarse los elementos
Una búsqueda bibliográfica no debe realizarse de de la pregunta de investigación al lenguaje de la ba-
forma precipitada (tabla 12.4). Es frecuente que el se de datos. En este momento suele aparecer el pro-
usuario recupere o bien un número escaso o bien un blema de la falta de normalización del vocabulario,
número excesivo de referencias, o que las que recu- de manera que los distintos conceptos adoptan for-
pere no sean adecuadas a sus necesidades. A menudo, mas diferentes según los países o incluso según la
esto se debe a una preparación apresurada o impreci- especialidad. Puede optarse por realizar la búsqueda
sa de la estrategia de búsqueda y a un uso deficiente con el propio lenguaje natural, con los descriptores
de la técnica de búsqueda propiamente dicha. del tesauro o con una combinación de ambos méto-
dos. La última opción es la más recomendable, pero
es también la que requiere una mayor elaboración.
Tabla 12.4. Pasos de la elaboración
El lenguaje natural puede ser preferible cuando se
de una estrategia de búsqueda
busca información sobre temas de reciente aparición
o de los que no existen descriptores adecuados en el
1. Definir la pregunta e identificar sus componentes
tesauro. Tiene el inconveniente de que puede ser que
2. Seleccionar la base de datos no se logre reunir todos los sinónimos o variantes de
3. Seleccionar los términos descriptores un concepto, o bien que se recuperen artículos en
y las combinaciones que la palabra aparezca en el título o en el resumen,
pero que no sea representativa de su contenido.
4. Considerar el uso de restricciones
La utilización de descriptores normalizados suele
5. Ejecutar la búsqueda garantizar una mayor precisión en la búsqueda, ya
6. Analizar los resultados que selecciona artículos que han sido catalogados con
dichos términos por indizadores expertos. El conoci-
7. Si son inadecuados, revisar la estrategia
miento del tesauro utilizado por la base de datos que
8. Si son adecuados, seleccionar los registros se consulta es necesario para recuperar todos los
de interés y localizar los documentos documentos existentes en ella sobre el tema de
interés. El tesauro MeSH, comentado anteriormente,
es el más utilizado en el ámbito de la medicina.
E LABORACIÓN DE LA ESTRATEGIA La selección de los términos descriptores empieza
Para preparar adecuadamente la estrategia de bús- identificando los que mejor representan la materia
queda, el primer paso es definir de manera clara y de interés, así como términos afines y técnicas y pro-

123
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

cedimientos de especial relevancia, y estableciendo La lista de las referencias bibliográficas obtenida


sus relaciones mutuas. como resultado de la búsqueda puede manejarse con
Los términos descriptores pueden combinarse más eficacia y versatilidad si se guarda en un archivo
según los posibles operadores de relación o cone- para su posterior procesamiento con un programa
xión. Habitualmente se utilizan los operadores lógi- informático de gestión de referencias.
cos o «booleanos» AND (los dos términos que conec-
ta deben estar presentes en el documento), OR (es B IBLIOGRAFÍA
suficiente que esté presente uno de los términos) y Becker L. The Cochrane Collaboration: valuable resource for
NOT (excluye los documentos en los que esté pre- family physicians. Can Fam Physician 1997; 43: 403-404.
sente el término al que precede). Estos operadores Bonfill X. La colaboración Cochrane [editorial]. Aten Pri-
maria 1996; 18: 273-278.
deben emplearse con cuidado, ya que de ellos depen- Bravo Toledo R. Buscando evidencias en Atención Primaria.
de, en gran medida, la eficacia de la búsqueda. FMC 1998; 5 (Supl. 4; Atención Primaria basada en la evi-
Los programas de consulta de la base de datos dencia 1998/2): 23-24.
permiten ejecutar la búsqueda aplicando determina- Dickersin K, Sherer R, Lefebvre C. Identifying relevant stud-
das restricciones, como el campo en que deben apa- ies for systematic reviews. BMJ 1994; 309: 1286-1291.
recer los términos, el idioma o la fecha de publica- Gallagher PE, Allen TY, Wyer PC. How to find evidence when
ción, o, por ejemplo, el tipo de publicación (ensayo you need it. Part 2: A clinician’s guide to MEDLINE: the
clínico, revisión sistemática, carta, etc.). basics. Ann Emerg Med 2002; 39: 436-440.
García Díaz F. Búsqueda de bibliografía médica a través de
Existen también filtros metodológicos elaborados
Internet. El proyecto PubMed. Med Clin (Barc) 1999;
por diferentes instituciones que combinan descripto- 113: 58-62.
res, términos de lenguaje natural y otros campos del Haig A, Dozier M. BEME Guide n.o 3: systematic searching
registro, con el fin de conseguir que las búsquedas for evidence in medical education. Part 1: Sources of
sean a la vez exhaustivas y pertinentes. information. Med Teach 2003; 25: 352-363.
Una vez que se ha confeccionado una estrategia Haig A, Dozier M. BEME Guide n.o 3: systematic searching
adecuada, muchos programas de consulta permiten for evidence in medical education. Part 2: constructing
guardarla para poderla utilizar posteriormente. searches. Med Teach 2003; 25: 463-484.
Hopewell S, Clarke M, Lusher A, Lefebvre C, Westby M.
A comparison of handsearching versus MEDLINE search-
VALORACIÓN DE LOS RESULTADOS
ing to identify reports of randomized controlled trials.
DE LA BÚSQUEDA
Stat Med 2002; 21: 1625-1634.
Los medios informáticos de consulta de las bases de Jordà Olives M. Las bases de datos de la National Library of
datos permiten visualizar los resultados de la búsque- Medicine de Estados Unidos. Aten Primaria 1999; 23:
da a medida que se producen, lo que permite com- 42-46.
probar la adecuación de la estrategia y su progresiva Lowe HJ, Barnett GO. Understanding and using the Medical
adaptación al objetivo de la búsqueda. Subject Headings (MeSH) Vocabulary to perform litera-
Si los artículos identificados no son los adecuados, ture searches. JAMA 1994; 271: 1103-1108.
debe revisarse la estrategia, porque es probable que Marlborough HS. Accessing the literature: using biblio-
graphic databases to find journal articles. Part 1. Prim
los términos no se hayan seleccionado y/o combina-
Dent Care 2001; 8: 117-121.
do adecuadamente. Marlborough HS. Accessing the literature: using biblio-
Si el número de artículos identificados es reduci- graphic databases to find journal articles. Part 2. Prim
do, debe comprobarse que los términos se hayan Dent Care 2001; 8: 163-166.
escrito correctamente y valorar la utilización de des- Pestaña A. El MEDLINE como fuente de información bi-
criptores más genéricos o de otros términos relacio- bliométrica de la producción española en biomedicina y
nados no incluidos. También puede ser útil emplear ciencias médicas. Comparación con el Science Citation
lenguaje natural o incluso suprimir algunas de las res- Index. Med Clin (Barc) 1997; 109: 506-511.
tricciones utilizadas. Shojania KG, Bero LA. Taking advantage of the explosion of
systematic reviews: an efficient MEDLINE search strate-
Si el número de artículos es excesivo, debe plan-
gy. Eff Clin Pract 2001; 4: 157-162.
tearse el uso de descriptores más específicos y/o su Suárez-Almazor ME, Belseck E, Homik J, Dorgan M, Ramos-
combinación con otros términos (mediante el opera- Remus C. Identifying clinical trials in the medical litera-
dor AND). También puede revisarse el uso de limita- ture with electronic databases: MEDLINE alone is not
dores más restrictivos y de filtros metodológicos. enough. Control Clin Trials 2000; 21: 476-487.

124
Capítulo 13
Objetivo del estudio

as fases iniciales del desarrollo de un proyecto Tabla 13.1. Características de un buen

L de investigación son las más importantes. De-


be establecerse de forma clara el objetivo que
se persigue. Habitualmente se dedica una gran can-
investigador

• Voluntad de investigar
tidad de esfuerzos a la recogida y el análisis de los
• Talento
datos, pero, si no están bien dirigidos, serán de
poca utilidad. Esta etapa requiere una profunda • Experiencia
reflexión, ya que muchos aspectos del diseño de- • Capacidad para generar datos
penden de lo que se decida al inicio.
• Honestidad
• Capacidad para obtener recursos
IDENTIFICACIÓN DEL PROBLEMA
• Flexibilidad
Un problema debe entenderse como una incerti- • Perseverancia
dumbre sobre algún hecho o fenómeno que el inves-
tigador desea resolver realizando mediciones en los • Confianza
sujetos del estudio. Su identificación es fruto habi- • Capacidad para reconocer problemas
tualmente de la capacidad del propio profesional y desarrollar hipótesis
para generar ideas y formular interrogantes, y rara • Capacidad para congeniar
vez se produce por pura intuición. con sus colaboradores
La buena investigación depende, en gran medida,
• Competitividad
de las buenas ideas. Un investigador debe poseer no
sólo talento, sino también capacidad de observación • Capacidad de redacción
cuidadosa de lo que acontece en su práctica, honesti-
dad y una buena dosis de tenacidad y perseverancia
(tabla 13.1). Muchas veces, las preguntas surgen del análisis de
La observación cuidadosa de los pacientes puede estudios previos, propios o de otros autores. El inves-
detectar sucesos, situaciones o respuestas a trata- tigador ha de mantener un estado de alerta, realizan-
mientos que parezcan contradecir los conocimientos do una lectura crítica de la literatura, asistiendo a
aceptados, sugiriendo posibles hipótesis de trabajo. reuniones científicas y congresos, y colaborando con

125
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

otros investigadores en un intercambio de ideas y


resultados. De esta forma, pueden detectarse lagunas
Identificación del problema
en el conocimiento y generarse interrogantes.
El estado de alerta se complementa con imagina-
ción y creatividad, proponiendo nuevas respuestas a
viejas preguntas y manteniendo una actitud escéptica
frente a los conocimientos, las creencias y las opinio-
nes que prevalecen en la comunidad científica. La Objetivo genérico
incorporación de nuevas tecnologías diagnósticas o (hipótesis conceptual)
de algunos tratamientos a la práctica clínica se realiza
en muchas ocasiones sin haber demostrado previa- Pertinencia
mente su eficacia. Incluso, aunque su uso esté amplia-
mente difundido, puede considerarse conveniente Viabilidad
realizar un estudio que evalúe si un tratamiento es
más eficaz o más útil que otras alternativas.
Objetivo específico
(hipótesis operativa)
DELIMITACIÓN DEL OBJETIVO
Pregunta principal
La definición precisa del objetivo es el eje en torno al Preguntas secundarias
cual se diseña el estudio. Si no es suficientemente
clara, será difícil tomar decisiones sobre el tipo de
estudio más apropiado, la población a incluir o las
variables que deberán medirse. Figura 13.1. Delimitación del objetivo del estudio.
La elaboración del modelo teórico en que se
enmarca la investigación ayudará a identificar las
variables. Este proceso suele requerir debates con más factible estudiar. Dado que el estudio de las com-
otros profesionales, valorar sus sugerencias y hacer plicaciones requiere un seguimiento prolongado,
una lectura de la bibliografía. Inicialmente, se for- deciden evaluar el efecto de la educación sanitaria
mula el objetivo en términos genéricos y se establece sobre el control metabólico de la diabetes, asumiendo
una pregunta amplia no susceptible de investigación que un mejor control implica una disminución de las
específica. Sirve para poco más que para centrar el complicaciones y un aumento de la esperanza y la cali-
tema de interés. Después, se acota progresivamente dad de vida. A pesar de esta asunción, las conclusiones
hasta formular una pregunta precisa que permita eva- del estudio sólo pueden ceñirse a la influencia de la
luar una hipótesis concreta. La formulación explícita educación sanitaria sobre el control metabólico. La
de este objetivo específico determina la planificación elaboración de este modelo teórico tiene la ventaja de
subsiguiente (fig. 13.1). que identifica algunas de las variables que será impor-
tante medir en el estudio, como el tipo de conoci-
Ejemplo 13.1. Se desea estudiar la utilidad de la edu- mientos o el cumplimiento de las recomendaciones.
cación sanitaria en el tratamiento de los pacientes
diabéticos. Los investigadores asumen el siguiente PERTINENCIA Y VIABILIDAD
modelo teórico:
En las fases iniciales deben valorarse la pertinencia y
Educación sanitaria → Aumento de conocimientos la viabilidad del proyecto, de forma que pueda justifi-
→ Cambio de actitudes → Aumento del cumplimien- carse su realización (tabla 13.2).
to de las recomendaciones (dieta, autocontroles, etc.) Debe asegurarse que la pregunta no ha sido con-
→ Mejoría del control metabólico → Disminución de testada previamente o lo ha sido de forma contradic-
las complicaciones → Aumento de la esperanza y la toria. No deben realizarse estudios sólo en función
calidad de vida. de los temas contemplados en las jornadas y los con-
gresos científicos, sino que deben orientarse a la reso-
A partir de este marco general, los investigadores lución de problemas frecuentes o importantes. Es
deberán decidir el aspecto que tiene más interés o es conveniente que sean coherentes con las líneas de in-

126
OBJETIVO DEL ESTUDIO

Tabla 13.2. Aspectos a valorar en la justificación La valoración de la viabilidad es un proceso más


de un proyecto de investigación dinámico, que requiere considerar aspectos que se-
rán afrontados en fases más avanzadas de la planifica-
Pertinencia ción. En este momento, debe concebirse la pregunta
• La pregunta planteada no ha sido contestada, como una formulación provisional que puede ser
lo ha sido de forma contradictoria, o se requiere replanteada o modificada en función de las dificulta-
adecuarla a la propia práctica des que vayan apareciendo durante el diseño y en la
prueba piloto.
• Importancia del problema:
Debe valorarse la capacidad del investigador para
– Frecuencia, gravedad, interés social, etc.
medir las variables de interés, el número de sujetos
– Beneficios que pueden derivarse del estudio
– Aplicaciones prácticas que pueden derivarse
necesarios, el tiempo preciso y los recursos humanos,
de los resultados de equipamiento y económicos requeridos. La insufi-
– Importancia por su valor teórico ciencia de estos medios o la incapacidad para reunir
• La pregunta y el diseño del estudio se ajustan el número de sujetos necesario en un tiempo deter-
a los principios éticos de investigación minado hace que, con frecuencia, se requiera la cola-
boración de otros centros o servicios. Debe asegurar-
• Los resultados esperables compensan
se esta colaboración y coordinación antes de iniciar
los recursos utilizados
el estudio.
Viabilidad La oportunidad es un criterio que facilitará la rea-
lización del estudio. Esta oportunidad puede enten-
• Variables que sea factible medir
derse desde diferentes vertientes; por ejemplo, por la
• Tiempo hasta la aparición del resultado disponibilidad de sujetos suficientes al existir una epi-
• Oportunidad demia de la enfermedad, porque el objetivo del estu-
dio corresponda a alguna de las líneas prioritarias de
• Disponibilidad de sujetos (tanto en número como
las agencias financiadoras, lo que permitirá obtener
en el tiempo necesario para su inclusión)
los recursos necesarios con más facilidad, o bien por-
• Colaboración con otros profesionales, servicios que el tema de estudio sea de actualidad o tenga una
o centros gran repercusión social.
• Instalaciones y equipamiento
• Recursos económicos (financiación) OBJETIVO ESPECÍFICO
• Experiencia del equipo investigador El objetivo específico es la pregunta principal que se
• Consideraciones éticas quiere contestar, acorde con el propósito del estu-
• Interés del propio equipo investigador dio, formulada con precisión y sin ambigüedades y
en términos mensurables, es decir, realistas y opera-
tivos. Debe concebirse como una hipótesis contras-
table, al menos dentro de las limitaciones del méto-
vestigación, lo que permitirá aprovechar los recursos do disponible.
con una mayor eficiencia y profundizar en el conoci- El objetivo específico lleva implícita la respuesta
miento del problema. que propone el investigador. De hecho, cuando se
El propósito de la mayoría de las investigaciones plantea un estudio, el investigador parte de una hipó-
clínicas y epidemiológicas es servir de base para la tesis previa. Por ejemplo, si desea evaluar la eficacia
toma de decisiones, ya sea inmediata o a largo plazo. de un fármaco es porque cree que es más eficaz que
La potencial utilidad clínica y la aplicabilidad prácti- el placebo o que otros tratamientos. Debe evitarse
ca de los resultados deben tenerse muy en cuenta. que esta predisposición pueda influir sobre las obser-
En la evaluación de la pertinencia, los investiga- vaciones y mantener la objetividad en todo momento
dores deben asegurarse de que tanto la pregunta durante el estudio.
como el tratamiento que se plantea estén de acuerdo Un estudio suele estar diseñado para responder a
con los principios éticos de la investigación en seres una única pregunta. Si existe más de una, la principal
humanos. debe ser aquella que el investigador esté más interesa-

127
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

do en responder y que pueda ser bien contestada, y el tes elementos: el factor de estudio, que corresponde a la
resto puede considerarse como preguntas secundarias. exposición o intervención de interés; la variable de res-
Una buena pregunta principal debe cumplir las puesta, o criterio de evaluación, con la que se preten-
siguientes condiciones: ser única, relevante, simple, de medir el efecto o la asociación con dicho factor, y
consistente, novedosa, viable, contrastable, ética, defi- la población, o conjunto de sujetos a los que se desea
nida a priori y formulada explícitamente. aplicar los resultados del estudio. En ocasiones, pue-
de ser conveniente incluir en la formulación el factor
F ORMULACIÓN DEL OBJETIVO o los factores que se utilizarán como comparación.
ESPECÍFICO En esta fase del diseño, basta con una definición
La formulación del objetivo específico de un estudio genérica de estos elementos. A medida que se avance
descriptivo debe incluir el fenómeno que se desea en la elaboración del protocolo se irán definiendo
describir (p. ej., la prevalencia, la incidencia, la super- con más detalle sus características.
vivencia, los síntomas de presentación, la evolución
natural, etc.), el problema de salud y la población Ejemplo 13.5. Objetivo del estudio: evaluar si la edu-
objeto de estudio. cación sanitaria grupal produce mejores resultados
que la individual en el control metabólico de los
Ejemplo 13.2. Objetivo del estudio: estimar la preva- pacientes diabéticos tipo II. El factor de estudio es la
lencia de hipertensión arterial en una zona básica de educación sanitaria grupal, cuyo efecto se comparará
salud. Esta formulación del objetivo informa que se con la individual, que actuará como referencia. La
desea estudiar la frecuencia de hipertensión arte- variable de respuesta es el control metabólico, mien-
rial mediante la prevalencia, y que la población obje- tras que la población corresponde a los sujetos con
to de estudio son los residentes en una zona básica de diabetes mellitus tipo II.
salud.
Ejemplo 13.6. Objetivo del estudio: determinar si el
Ejemplo 13.3. Objetivo del estudio: describir la su- consumo de tabaco aumenta la incidencia de cardio-
pervivencia de los pacientes con enfermedad pulmo- patía isquémica en sujetos hipertensos. El factor de
nar obstructiva crónica que reciben oxigenoterapia estudio es el consumo de tabaco, la variable de res-
domiciliaria. El fenómeno que se estudia es la super- puesta es el desarrollo de cardiopatía isquémica y la
vivencia. La población no se define geográficamente, población son los sujetos hipertensos.
sino que corresponde a los sujetos con un determina-
do problema de salud y que reciben oxigenoterapia Es frecuente que el objetivo de un estudio esté mal
domiciliaria. definido. A veces, el problema radica, simplemente,
en su deficiente redacción. Ello no implica que el
Ejemplo 13.4. Objetivo del estudio: evaluar si la con- estudio esté mal diseñado, pero un objetivo mal escri-
centración sérica del antígeno prostático específico to no ayuda a su comprensión.
permite distinguir a los pacientes mayores de 50 años
con cáncer de próstata de los que no lo padecen, uti- Ejemplo 13.7. En un artículo se definía el objetivo del
lizando como método de referencia el tacto rectal y el estudio del siguiente modo: «El propósito de nues-
estudio anatomopatológico del material obtenido tro estudio radica en el conocimiento de los tumores
por punción transuretral. Obsérvese que se trata de del sistema nervioso central en el marco de una comu-
un estudio que evalúa una prueba diagnóstica (con- nidad autónoma.» Este objetivo se expresa en térmi-
centración sérica del antígeno prostático específico). nos demasiado vagos. Debería especificar si se refiere,
En este tipo de estudios, en el objetivo debe constar por ejemplo, a su epidemiología, las características clí-
la cuestión clínica precisa que se pretende resolver nicas, el pronóstico o los factores de riesgo.
con la aplicación de la prueba diagnóstica, la natura-
leza de la población estudiada y el método utilizado Ejemplo 13.8. Supongamos un estudio cuyo objetivo
como criterio de referencia. se define como «determinar los efectos de la vacuna
frente al virus de la hepatitis A». Definido de esta for-
En un estudio analítico, la formulación del objeti- ma, no se puede saber qué pretenden los autores.
vo específico requiere la identificación de los siguien- Puede tratarse tanto de un estudio descriptivo de los

128
OBJETIVO DEL ESTUDIO

efectos secundarios de la vacuna como de un estudio Tabla 13.3. Características de una buena
experimental que evalúe su eficacia. Además, tampo- variable de respuesta
co da ninguna orientación sobre el tipo de sujetos en
quienes se realiza el estudio. • Estar definida con precisión y antes de iniciar
el estudio
En otras ocasiones, se incluyen como objetivos de • Ser apropiada a la pregunta que se desea
investigación cuestiones que no lo son. En realidad, responder
un objetivo específico de investigación no es más que
una pregunta concreta a la que se pretende respon- • Medir lo que se quiere medir
der mediante la realización del estudio. No debe con- • Ser suficientemente sensible para detectar
fundirse con los objetivos de un programa sanitario, el efecto de interés
que consisten en la modificación de un estado de • Poderse medir tan detallada como sea posible
salud en un colectivo.
• Poderse medir con un método fiable, preciso
y reproducible
Ejemplo 13.9. Supongamos un estudio que define sus
objetivos como: a) conocer el tipo de reacciones adver- • Poderse medir en todos los sujetos y de la misma
sas a medicamentos notificadas por los facultativos de manera
atención primaria; b) identificar su posible infranotifi- • Ser única en la medida de lo posible. Si hay varias,
cación, y c) proponer medidas para intentar mejorar es preferible utilizar la más relevante y fiable
dicha notificación. El tercer objetivo corresponde más
a recomendaciones que realizan los autores que a un
objetivo de investigación, ya que no implica ninguna
pregunta a la que el estudio pueda dar respuesta. Tabla 13.4. Dificultades en la elección
de la variable de respuesta
En otras ocasiones, el objetivo no existe. El inves-
Relacionadas con la variable
tigador se limita a recoger datos y analizarlos sin una
estrategia previa. Este solo hecho compromete la vali- • Fenómenos que no pueden medirse
dez de cualquier estudio. objetivamente
• Utilización de variables aproximadas
VARIABLE DE RESPUESTA • Utilización de variables intermedias
De los tres elementos que componen el objetivo
específico de un estudio analítico, el que plantea más • Existencia de más de una variable
problemas es la variable de respuesta. Se puede consi- • Medida parcial del fenómeno
derar adecuada si mide el fenómeno que se desea es- • Uso de escalas combinadas
tudiar y puede ser valorada con un instrumento ade-
cuado y en todos los sujetos del estudio (tabla 13.3). • Uso de variables que no miden el fenómeno
Existen múltiples situaciones en las que la elección de interés
de la variable más adecuada puede resultar una tarea Relacionadas con la medición
difícil (tabla 13.4). Estas dificultades pueden estar
relacionadas tanto con la propia variable como con las • Variabilidad inter e intraobservador
limitaciones inherentes al proceso de su medición. • Variabilidad inter e intraindividual
A menudo, interesa estudiar fenómenos que in- • Precisión y exactitud del instrumento de medida
cluyen un gran componente de subjetividad, como
puede ser la evolución del dolor, la mejoría de sínto-
mas clínicos o la calidad de vida. A veces, es difícil
definir una variable que mida estos conceptos con las te un método objetivo para determinar la intensidad
suficientes validez y precisión. del dolor, los autores se ven obligados a utilizar una
escala visual analógica, que consiste en una represen-
Ejemplo 13.10. Supongamos un estudio sobre la efi- tación gráfica en forma de línea recta cuyos extremos
cacia de un tratamiento analgésico. Dado que no exis- definen los valores límite de la intensidad del dolor.

129
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Los pacientes marcan en la escala el punto que, a su El uso adecuado de variables intermedias o subro-
juicio, representa la intensidad de su síntoma. gadas depende de la validez de los estudios que
demuestran su correlación con la variable primaria y,
En otras ocasiones, la mejor variable de respuesta en definitiva, de los conocimientos fisiopatológicos,
no está al alcance de los investigadores y se utiliza una epidemiológicos y clínicos que se tengan sobre la
variable aproximada. enfermedad en estudio. Dado que estos conocimien-
tos cambian con el tiempo, el uso de estas variables
Ejemplo 13.11. Consideremos un estudio en el que se está en permanente debate. Por ejemplo, muchos
evalúa el grado de adherencia a un tratamiento tras estudios evaluaron la eficacia de intervenciones sobre
una intervención educativa. Supongamos que se pue- el sida utilizando como variable de respuesta el
den medir los valores del fármaco o sus metabolitos recuento de linfocitos CD4+, mientras que actual-
en orina. Aunque ésta sería la variable de respuesta mente se sabe que el recuento de viriones circulantes
de elección, si la prueba no está disponible, es muy en sangre mediante pruebas de amplificación genéti-
cara o incómoda para los pacientes, los autores pue- ca es un método mejor para medir la respuesta.
den optar por la utilización de una variable de res- Puede ocurrir que existan diferentes variables que
puesta aproximada, como alguna técnica de determi- midan aspectos distintos del fenómeno de interés.
nación del cumplimiento autocomunicado. Estas situaciones pueden plantear problemas, ya que,
si se obtienen resultados contradictorios o inconsis-
En ocasiones, se recurre al uso de una variable tentes para cada una de ellas, la interpretación resul-
intermedia o subrogada en sustitución de la varia- ta difícil. La mejor solución es haber definido a prio-
ble primaria de interés, porque se cree que está co- ri una variable principal. Esto no quiere decir que no
rrelacionada con ella, refleja la totalidad o gran parte puedan estudiarse todas las variables simultáneamen-
del efecto, y puede obtenerse con un coste inferior, en te, sino que deberá decidirse cuál de ellas es la más
un período más breve, o en circunstancias en las que importante para el investigador, y en la que se basará
aquella no podría estudiarse. Los cambios observados la conclusión del estudio.
en la variable intermedia o subrogada se supone que
reflejan los que se producirían en la variable primaria. Ejemplo 13.13. En un estudio que evaluaba la eficacia
El uso de estas variables lleva implícita la asunción de de un tratamiento preventivo de las crisis convulsivas
la existencia de una relación directa con la respuesta febriles en la infancia, los investigadores utilizaron
final. Así, el uso de la reducción de las cifras de coles- como variable de respuesta la frecuencia de las crisis.
terolemia total tras la administración de un fármaco Ello no significa que no midieran otros aspectos
se hace bajo la asunción de que comporta la disminu- como la gravedad de las crisis, sino que la conclusión
ción de la morbimortalidad cardiovascular. Si esta sobre la eficacia del tratamiento se basó en la dismi-
asunción no es válida, la variable intermedia o subro- nución de su frecuencia.
gada tampoco lo es, e incluso, si la asunción es válida,
estrictamente la conclusión sólo podrá aplicarse a la Otro problema que puede presentarse es el uso
variable intermedia. de variables que sólo midan parcialmente el fenóme-
no de interés.
Ejemplo 13.12. Supongamos un estudio que evalúa la
eficacia de una técnica de educación sanitaria en Ejemplo 13.14. En un estudio se comparaba el efecto
sujetos hipertensos. Los investigadores utilizan como de dos estrategias de atención sanitaria sobre el esta-
variable de respuesta los conocimientos de los pa- do de salud de un grupo de pacientes ancianos. Como
cientes después de la educación y asumen que un variable de respuesta se utilizó una escala que valoraba
mejor conocimiento comporta un mejor control de su estado funcional. Sin embargo, esta variable sólo
la hipertensión arterial y, por ello, una disminución mide parcialmente las necesidades de salud de los an-
de la morbimortalidad cardiovascular. Esta asunción cianos y no tiene en cuenta, por ejemplo, su estado cog-
puede ser cuestionable. De hecho, cuanto más aleja- nitivo. Como siempre, las conclusiones del estudio de-
da esté una variable intermedia o subrogada del berán limitarse a la variable de respuesta, que en este
resultado final, más probable es que no sea válida. estudio es el estado funcional de los sujetos.

130
OBJETIVO DEL ESTUDIO

Cuando no existe una variable única que, por sí riesgo de no recoger toda la información necesaria y
sola, exprese toda la complejidad del fenómeno que limitar su número, ya que su estudio supone incre-
se desea medir, se pueden utilizar escalas o índices mentar la complejidad del diseño y su realización. De
compuestos, en los que se agrupan variables de natu- todas formas, dado que el estudio ha sido diseñado
raleza diferente (p. ej., escalas para medir la auto- para responder a la pregunta principal, la respuesta a
nomía para realizar las actividades de la vida diaria, la las preguntas secundarias será menos «sólida».
calidad de vida, la salud física o mental, etc.). Es im- En su definición es de gran ayuda haber estableci-
portante que este tipo de escalas hayan sido validadas do el marco teórico. En el ejemplo 13.1 sobre la edu-
en el medio en que se va a realizar el estudio. cación sanitaria en los pacientes diabéticos, el interés
En otras ocasiones, se usa una variable de respues- se centraba en el control metabólico, pero sería inte-
ta principal, que es la suma o la combinación de dife- resante estudiar otros aspectos del modelo. Por ejem-
rentes variables que se supone que reflejan el fenó- plo, los conocimientos, ya que puede ser útil evaluar
meno o los fenómenos de interés. Por ejemplo, un si, en el caso de no poderse demostrar la eficacia de la
estudio sobre prevención cardiovascular podría utili- técnica esto se debe a que la educación sanitaria no
zar como variable principal de respuesta el núme- ha sido eficaz, o bien a que los pacientes no han com-
ro de episodios cardiovasculares, definido como la prendido la información proporcionada. Además,
suma de episodios de infarto agudo de miocardio pueden estudiarse otros aspectos colaterales, como
(IAM) mortal, IAM no mortal, muerte súbita, acci- las características de los pacientes que no acuden
dente vascular cerebral (AVC) mortal y AVC no mor- a las sesiones grupales, si el incremento del grado de
tal. Una variable combinada de esta naturaleza per- conocimientos se acompaña de un mejor control
mite aumentar el poder estadístico del estudio, pero metabólico de la enfermedad, etc., de forma que
hay que ser muy prudente a la hora de interpretar los pueda obtenerse el máximo rendimiento de la infor-
resultados y es recomendable analizar cada una de las mación recogida.
variables de forma separada.
Otro problema distinto es la utilización de una B IBLIOGRAFÍA
variable de respuesta que no mida el fenómeno de Albers GW. Choice of endpoints in antiplatelet trials: which
interés, aunque existan otras variables válidas, preci- outcomes are most relevant to stroke patients? Neu-
rology 2000; 54: 1022-1028.
sas y factibles de medir.
Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
medicamentos: fundamentos básicos, metodología y
Ejemplo 13.15. En un estudio se pretende evaluar la práctica. Barcelona: Doyma, 1994; 116-126.
eficacia de una intervención educativa sobre el con- Berger VW. Improving the information content of categori-
trol metabólico de los pacientes diabéticos y, en lugar cal clinical trial endpoints. Control Clin Trials 2002; 23:
de utilizar la hemoglobina glucosilada como varia- 502-514.
ble de respuesta, se escoge una determinación aisla- Hughes MD. Evaluating surrogate endpoints. Control Clin
da de glucemia, que es menos válida y precisa. Trials 2002; 23: 703-707.
Hulley SB, Cummings SR, Browner WS, Grady D, Hearst N,
Newman RB, eds. Designing clinical research: an epi-
PREGUNTAS SECUNDARIAS demiologic approach. 2.a ed. Baltimore: Lippincott
Williams & Wilkins, 2001.
La pregunta principal puede complementarse con Molenberghs G, Buyse M, Geys H, Renard D, Burzykowski T,
otras preguntas secundarias. Algunas de ellas harán Alonso A. Statistical challenges in the evaluation of sur-
referencia a subgrupos de sujetos de especial interés rogate endpoints in randomized trials. Control Clin
y otras requerirán variables de respuesta diferentes a Trials 2002; 23: 607-625.
la principal, ya sea complementándola o midiendo Rebagliato M, Ruiz I, Arranz M. Metodología de investi-
efectos diferentes. Deben fijarse a priori para evitar el gación en epidemiología. Madrid: Díaz de Santos, 1996.

131
Capítulo 14
Población de estudio

n la fase de diseño de una investigación se

E plantean tres cuestiones relacionadas con los


participantes: definir la población de estudio
(especificar los criterios de selección), calcular el
Población diana
Población a la que se desea
tamaño de la muestra necesario y decidir el método generalizar los resultados
para obtener la muestra (técnica de muestreo).
Este capítulo se centra en la primera cuestión. Las
otras dos se abordan en los capítulos siguientes. Criterios Validez
de selección externa
La formulación del objetivo lleva implícita una
definición genérica de la población que se desea
estudiar, pero en la redacción del protocolo es ne- Población de estudio
cesario establecer con mayor precisión unos crite- Población definida por
los criterios de selección
rios de selección de los sujetos que se van a incluir
y accesible para
en el estudio. el investigador

NIVELES DE POBLACIÓN
Muestreo Validez
Pueden considerarse tres niveles de población interna
(fig. 14.1):
Muestra
1. Población diana: conjunto de individuos al que Sujetos realmente
hace referencia la pregunta principal u objetivo estudiados
del estudio. Es la población a la que se desearía
generalizar los resultados. Se define principal-
mente por sus características clínicas y demográ- Figura 14.1. Selección de los sujetos de estudio.
ficas generales.
2. Población de estudio: subconjunto de la población
diana al que se tiene la intención de estudiar. Se 3. Muestra: conjunto de individuos realmente estu-
define por los criterios de selección establecidos diados. En la mayoría de las ocasiones, el núme-
en el protocolo y presenta determinadas carac- ro de sujetos necesarios para la realización del
terísticas geográficas y temporales que la hacen estudio es mucho menor que el de candidatos
accesible a los investigadores. que forman la población de estudio, por lo que,

132
POBLACIÓN DE ESTUDIO

por razones de eficiencia y disponibilidad de Ejemplo 14.2. Heiat et al (2002) revisaron 59 ensayos
recursos (viabilidad), se selecciona una muestra. clínicos aleatorios (ECA) efectuados en pacientes
En otras ocasiones, se incluyen sujetos consecuti- con insuficiencia cardíaca, y observaron que los su-
vamente hasta alcanzar el número necesario. En jetos incluidos eran más jóvenes, con un mayor por-
cualquier caso, la estrategia de inclusión de los centaje de varones y de raza blanca y con una mayor
sujetos debe intentar que la muestra sea repre- probabilidad de una fracción de eyección sistólica
sentativa de la población de estudio. alterada. La exclusión de determinados grupos de
pacientes en los ECA dificulta la generalización de
Ejemplo 14.1. Se desea ensayar un nuevo diurético sus resultados. Este mismo problema se ha puesto
para el control de la hipertensión arterial (HTA) de manifiesto para múltiples enfermedades.
esencial leve-moderada en pacientes de la tercera
edad. La población diana serían, pues, los sujetos de
PRINCIPIOS DE REPRESENTATIVIDAD
la tercera edad con HTA esencial leve-moderada.
Y COMPARABILIDAD
A continuación, deben establecerse criterios de inclu-
sión y exclusión para definir la población de estudio: La muestra de sujetos estudiada debe ser represen-
sujetos mayores de 65 años, con HTA esencial, con tativa de la población de estudio (principio de re-
cifras de presión arterial diastólica (PAD) entre 90 presentatividad). Este principio puede verse com-
y 109 mmHg, sin tratamiento previo, en los que se prometido cuando la muestra inicial ha sido mal
ha seguido un protocolo para descartar HTA secun- seleccionada o cuando, aun habiendo utilizado una
daria, que no han recibido tratamiento antihiper- técnica de muestreo adecuada, la variabilidad alea-
tensivo previamente, que no presentan otras pato- toria (el azar) ha hecho que se obtenga una mues-
logías concomitantes y que han sido visitados y tra no representativa, o cuando la muestra de suje-
diagnosticados en los centros en que trabajan los tos finalmente analizados está sesgada debido a las
investigadores. Se ha calculado que son necesarios no respuestas (sujetos de la muestra inicial de los
200 sujetos para la realización del estudio, por lo que no se ha podido obtener la información desea-
que los investigadores incluyen a los primeros 200 da) o pérdidas durante el seguimiento (en estudios
sujetos que cumplen los criterios de selección prospectivos).
(muestra).
Ejemplo 14.3. Supóngase que se desea conocer la opi-
La consideración de estos niveles tiene repercu- nión de los médicos de una provincia sobre un deter-
siones sobre la interpretación de los resultados. Un minado tema y, para ello, se envía un cuestionario a
investigador desea que sus observaciones puedan profesionales que trabajan en equipos de atención
generalizarse a todos los individuos que forman la primaria (EAP). La muestra resultante no es repre-
población diana, independientemente de que se sentativa de los médicos de la provincia, ya que no
visiten o no en los centros en que se realiza el estu- incluye a los médicos que no trabajan en EAP ni a los
dio. La posibilidad de realizar inferencias sobre que sólo tienen consulta privada, por ejemplo.
otras poblaciones dependerá, en primer lugar, de
cómo se haya diseñado y realizado la investigación, Ejemplo 14.4. Supóngase que en el ejemplo anterior
de si la muestra es representativa de la población de se selecciona una muestra aleatoria de médicos a par-
estudio, de si se han perdido sujetos que puedan tir del registro del Colegio de Médicos de la provin-
comprometer esta representatividad, de si los datos cia, a la que se le envía un cuestionario. Responde el
han sido medidos y registrados correctamente, y de 40% de los profesionales. Si la opinión de los que no
otros factores que condicionan la validez interna. responden difiere de la de los que sí lo han hecho, el
Por otro lado, la validez externa, o capacidad de resultado basado únicamente en las respuestas obte-
extrapolación de los resultados a poblaciones dife- nidas estará sesgado, ya que la muestra analizada no
rentes, o su generalización a otras más amplias de- es representativa de la población de estudio.
pende de factores como las diferencias entre la po-
blación de estudio y la población diana o entre el En los estudios analíticos debe cumplirse,
tipo de sujetos que se visitan en los centros de estu- además, el principio de comparabilidad de los grupos.
dio y la población diana. Estos estudios se basan en que los grupos son com-

133
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

parables por todos los factores pronóstico y en que Tabla 14.1. Características generales
se ha obtenido la información de la misma forma de la población de estudio
en todos los sujetos, de manera que las diferencias
en los resultados observados pueden atribuirse al – Pacientes idóneos para observar el efecto
factor que se está estudiando. o asociación de interés
– Individuos en los que exista una alta probabilidad
Ejemplo 14.5. En un estudio se revisan las historias de detectar el efecto hipotético o la asociación
clínicas de los sujetos que han sufrido un infarto de interés
agudo de miocardio con la finalidad de comparar su
pronóstico en función de si han recibido tratamien- – Sujetos que probablemente cumplirán el
to médico o quirúrgico. Ya que la indicación del protocolo de estudio (en función del objetivo)
tipo de tratamiento depende de la gravedad de la – Excluir aquellos sujetos en los que exista una alta
enfermedad y de otros factores, los grupos no son probabilidad de que no pueda medirse la respuesta
comparables (p. ej., entre los sujetos que han recibi-
do tratamiento médico pueden haber tanto sujetos
con enfermedad leve como individuos que estén tan
graves que en ellos esté contraindicada la cirugía). tes que puedan beneficiarse de ella, y se exclui-
rían los que presenten enfermedades o situacio-
El principio de comparabilidad se discute más nes concomitantes (embarazo, edad avanzada,
ampliamente en el capítulo destinado a la forma- alergias, etc.) en las que la intervención pueda
ción de los grupos de estudio. resultar peligrosa o causar efectos indeseables.
– Seleccionar individuos en los que exista una alta proba-
bilidad de detectar el efecto o la asociación de interés. La
POBLACIÓN DE ESTUDIO
selección de los sujetos debe hacerse de forma
Su definición permitirá identificar en qué indivi- que se optimicen las posibilidades de detectar la
duos se evaluará la presencia del efecto o asocia- diferencia o asociación que se busca. Esta consi-
ción de interés, evaluar su idoneidad para alcanzar deración es especialmente importante cuando se
el objetivo, así como la posibilidad de extrapolación estudian fenómenos que se presentan con una
de los resultados a otras poblaciones. Así mismo, baja frecuencia o con una latencia muy prolonga-
permitirá que otros investigadores puedan utilizar da. Para reducir el número de sujetos necesarios
criterios semejantes a la hora de diseñar estudios o la duración del seguimiento, muchos estudios
con objetivos similares. seleccionan poblaciones de alto riesgo.

CARACTERÍSTICAS GENERALES Ejemplo 14.6. El Heart Protection Study (2002)


La población de estudio debe definirse con crite- tuvo como objetivo evaluar si un tratamiento hipo-
rios precisos, teniendo en cuenta las siguientes con- lipemiante podría reducir la morbididad y la mor-
sideraciones (tabla 14.1): talidad cardiovascular en pacientes de alto riesgo,
independientemente de sus cifras de colesterol. Se
– Seleccionar pacientes idóneos para observar el efecto o incluyeron 20.536 hombres y mujeres de 40 a 80
asociación de interés. Para identificar las caracterís- años de edad, con unas concentraciones plasmáti-
ticas de los sujetos en que es más plausible encon- cas de colesterol total de al menos 3,5 mmol/l,
trar el efecto o asociación de interés, hay que te- siempre que se considerara que tenían en un plazo
ner en consideración el mecanismo de acción del de cinco años un riesgo considerable de muerte a
factor de estudio. Por ejemplo, en un estudio causa de unos antecedentes previos de enfermedad
observacional sobre la asociación entre consumo coronaria o enfermedad oclusiva de las arterias no
de anticonceptivos orales y cáncer, se incluirían coronarias o diabetes o hipertensión tratada o una
obviamente mujeres en edad fértil y se excluirían combinación de estos factores. Esta muestra fue dis-
las que han sido histerectomizadas. tribuida aleatoriamente en dos grupos: uno de ellos
En los estudios experimentales sobre el efecto recibió un tratamiento hipolipemiante, y el otro un
de una intervención, serían candidatos los pacien- placebo. La intención de los investigadores era

134
POBLACIÓN DE ESTUDIO

seleccionar un grupo de muy alto riesgo, ya que, si niente excluir pacientes embarazadas, ya que el
no, se hubiera necesitado un tamaño de muestra y parto puede interferir con el seguimiento.
un seguimiento mucho mayor para encontrar un
efecto significativo. C RITERIOS DE SELECCIÓN
Los criterios de selección deben establecerse en tér-
– Seleccionar sujetos que probablemente cumplirán el pro- minos realistas que permitan la inclusión del nú-
tocolo de estudio. Se pretende evitar situaciones mero deseado de sujetos en el tiempo previsto.
como omisiones de información o incumplimien- Aunque es posible que sean diferentes en estudios
tos de la intervención que podrían comprometer con objetivos similares, pueden agruparse en cua-
la validez interna del estudio. tro grandes categorías (tabla 14.2):

Ejemplo 14.7. En un estudio que evaluaba la efecti-


vidad de una técnica de educación sanitaria para Tabla 14.2. Factores que se deben considerar
disminuir las cifras tensionales de los pacientes con en la definición de los criterios
de selección de los sujetos
HTA esencial de un Centro de Salud (Mata et al,
1987), se escogieron 113 individuos que cumplían
Características sociodemográficas de los pacientes
los criterios de selección. De ellos, se excluyeron,
– Edad
entre otros, los siguientes: 10 pacientes que no – Sexo
habían acudido a las citaciones en los últimos 6 – Raza
meses, ya que muy posiblemente tampoco cum- – Nivel cultural
plirían el protocolo del estudio; un paciente que – Estado socioeconómico
presentaba hipoacusia importante, dado que el – Profesión
método de educación sanitaria consistía en charlas – Otras
que difícilmente habría podido seguir; dos casos Características de la enfermedad o exposición
por enolismo crónico, ya que es conocido que por – Definición de enfermedad o exposición
regla general son malos cumplidores, especialmente – Características: forma, tipo, estadio, curso clínico,
de medidas higienicodietéticas; un caso de analfabe- etiología, complicaciones, duración, etc.
tismo, ya que se repartían documentos escritos de – Tratamiento actual
apoyo a la intervención; tres casos por incapacidad – Tratamientos previos
física para desplazarse al centro, y dos por demencia. – Otras enfermedades o exposiciones
– Otros tratamientos
Sin embargo, la selección de sujetos muy cumpli- Otras características
dores tiene el inconveniente de que aleja la po- – Embarazo o lactancia
blación de estudio de la diana, limitando la genera- – Consumo de tabaco o alcohol
lización de resultados. – Abuso de drogas
– Hábitos dietéticos o nutricionales
– Excluir sujetos en los que exista una alta probabilidad de – Factores de riesgo
que no pueda ser medida la respuesta, ya que podrían – Limitaciones fisiológicas
dificultar la interpretación de los resultados. Esta – Características psicológicas
consideración es especialmente importante en los – Hipersensibilidad a tratamientos o exploraciones
estudios con un seguimiento prolongado, durante – Factores ambientales
– Participación en otros estudios
los cuales los sujetos pueden presentar otros pro-
– Incapacidades
cesos que impidan su seguimiento o la medición
adecuada de la respuesta. Características de accesibilidad
– Lugar de residencia
Ejemplo 14.8. En el ejemplo 14.7, los autores ex- – Visitado en el centro sanitario
cluyeron, además de los ya citados, a un paciente en – Inicio y final del período de inclusión
situación administrativa de desplazado, ya que pro- Esta lista es orientativa, y no siempre es preciso considerar todas
bablemente no completaría el estudio, y un caso de las características. En algunas ocasiones, deben valorarse otros
neoplasia terminal. A menudo, puede ser conve- factores.

135
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

1. Características sociodemográficas. La edad, el sexo, 4. Otras características. En determinadas situaciones,


la profesión o los años de escolaridad pueden ser la existencia de embarazo o lactancia, o de alco-
fundamentales para definir las características de holismo u otras drogodependencias, o incluso la
los participantes y las limitaciones que pueden colaboración del paciente en otros estudios pue-
haber para la extrapolación a otras poblaciones. den aconsejar su exclusión.
2. Características de la enfermedad o exposición. Es el cri-
terio de inclusión más importante. El diagnóstico De esta forma, los criterios establecidos permi-
de una enfermedad o la identificación de una ten seleccionar un conjunto de sujetos. Este plan-
exposición deben establecerse con toda la preci- teamiento es útil cuando se va a estudiar una única
sión posible para evitar que puedan existir dudas muestra de sujetos para estimar un parámetro o
acerca de si un sujeto cumple o no este criterio. medir un efecto en un solo grupo de individuos
En la medida de lo posible, es conveniente utili- (como ocurre en los estudios transversales que esti-
zar criterios estándar ampliamente aceptados o man una prevalencia o en los longitudinales que
semejantes a otros estudios, con la finalidad de estiman una incidencia), o se va a subdividir la
facilitar la comparación de los resultados. muestra en dos grupos en función de su exposición
a un factor de riesgo (como en los estudios de co-
Ejemplo 14.9. Marantz et al (1988) revisaron los hortes con control interno) o de forma aleatoria
ensayos clínicos aleatorios de fármacos contra pla- para comparar dos intervenciones (como en los
cebo en la insuficiencia cardíaca congestiva, reali- ensayos clínicos aleatorios).
zados a doble ciego y publicados entre 1977 y 1985, Sin embargo, otros diseños, como los estudios de
con la finalidad de evaluar la homogeneidad de los casos y controles o los de cohortes con control exter-
criterios diagnósticos utilizados. Sólo 23 de los 51 no, requieren la definición de criterios específicos
estudios revisados (45%) especificaban dichos cri- para el grupo control. Por ejemplo, en los estudios
terios, y éstos hacían referencia tanto a síntomas y de casos y controles, hay que definir qué patologías
signos clínicos como a datos de laboratorio en com- se incluyen en el grupo control y, a la vez, excluir
binaciones diferentes. Sólo cuatro estudios presen- aquellos sujetos que puedan estar relacionados posi-
taban criterios idénticos, y todos ellos correspon- tiva o negativamente con el factor de estudio.
dían a estudios realizados por el mismo equipo
investigador. Por otro lado, las diferencias en los C RITERIOS DE SELECCIÓN AMPLIOS
criterios utilizados podrían explicar algunos de los O RESTRICTIVOS
resultados contradictorios observados. A la hora de definir los criterios de selección, los
investigadores pueden adoptar diferentes perspec-
Es conveniente tener presente que la inclusión tivas. En un extremo se sitúa la utilización de cri-
de falsos positivos o falsos negativos suele conducir terios restrictivos, que definan una población de
a una dilución del efecto, es decir, disminuye la pro- estudio muy homogénea y cumplidora con el pro-
babilidad de detectarlo. También es importante tocolo, que sea fácil de estudiar y en la que existan
establecer criterios relacionados con sus caracterís- mayores posibilidades de detectar una diferencia o
ticas clínicas de tipo, evolución, gravedad, compli- asociación, si existe. Esta postura tiene el inconve-
caciones y tratamiento. Además, hay que conside- niente de que la población de estudio difiere enor-
rar otras enfermedades, procesos o tratamientos memente de la diana, por lo que los resultados
concomitantes que puedan ser de interés como cri- serán difícilmente generalizables o extrapolables.
terios de inclusión o de exclusión. En el otro extremo se sitúa la definición de criterios
amplios, que buscan facilitar la generalización de
3. Características de accesibilidad de la población. No los resultados definiendo una población de estudio
toda la población definida por las características más representativa de la diana, aun a costa de que
de los apartados anteriores es accesible al investi- la muestra de sujetos sea muy heterogénea y se difi-
gador. Por ello, deben fijarse criterios de accesi- culte la detección de un efecto.
bilidad geográfica (lugar de residencia, atención
en determinado centro sanitario, etc.) y tempo- Ejemplo 14.10. Kennedy et al (2003) compararon
ral (inicio y final del período de inclusión). los sujetos asmáticos tratados con corticoides inha-

136
POBLACIÓN DE ESTUDIO

lados que habían participado en ensayos clínicos esta misma enfermedad en la población deman-
con los que no lo habían hecho, y comprobaron dante de un centro, la muestra deberá ser repre-
que los primeros tomaban dosis superiores de cor- sentativa de aquellos que se visitan en el centro.
ticoides y acudían menos a los servicios de urgen- Desde un punto de vista estricto, los resultados
cias, demostrando la existencia de diferencias que de un estudio son aplicables a la población de la
pueden limitar la generalización de los resultados. que la muestra de sujetos estudiados sea realmente
representativa. Por tanto, los resultados que se ob-
Al definir los criterios de selección, los investiga- tienen pueden variar en función de los criterios de
dores deben tener en cuenta algunas consideracio- selección utilizados y del ámbito o tipo de centro en
nes generales (tabla 14.3) y balancear la necesidad que se realiza el estudio. De hecho, algunas de las
de definir una población lo suficientemente diferencias observadas en la literatura entre estu-
homogénea como para permitir detectar el efecto o dios dependen más de la diferente procedencia de
asociación que se busca con la necesidad de facili- los sujetos que de otros aspectos del diseño.
tar la generalización de los resultados, lo que habi-
tualmente implica adoptar una posición interme- Ejemplo 14.11. Ellenberg y Nelson (1980) revisaron
dia entre ambos extremos. los estudios publicados sobre la pertinencia del tra-
tamiento preventivo de las recurrencias de las crisis
convulsivas febriles en la infancia. Por un lado, en
Tabla 14.3. Consideraciones generales los estudios de base poblacional se encontraron
en la definición de criterios tasas de recurrencia muy bajas, entre 1,5 y 4,6%,
para la selección de la población mientras que si los niños estudiados procedían de
de estudio consultas hospitalarias o unidades especializadas,
las tasas eran muy variables, y en general más altas
– Optimización de las posibilidades de detectar (desde 2,6 hasta 76,9%). Si se tuvieran en cuenta
una diferencia o asociación, si existe únicamente los resultados del último tipo de estu-
– Población suficientemente homogénea respecto dios, la necesidad de un tratamiento preventivo de
a las características más relevantes del fenómeno las recurrencias parecería clara. Sin embargo, si se
de estudio consideran los estudios de base poblacional, esta
– Debe asemejarse, dentro de unos límites decisión no es tan evidente. Esto no significa que
razonables, a la población diana a la que unos sean mejores que otros, sino simplemente
se desearía generalizar los resultados que las poblaciones estudiadas son distintas en lo
que se refiere al tipo de enfermedad, su gravedad,
– Criterios realistas que permitan la inclusión del
otras patologías concomitantes, etc., por lo que es
número deseado de sujetos en el tiempo previsto
importante que los investigadores utilicen criterios
– Aspectos éticos de selección coherentes con el objetivo concreto
del estudio.

P ROCEDENCIA DE LOS SUJETOS


INCLUSIÓN DE LOS SUJETOS
La procedencia de los sujetos ha de estar en conso-
nancia con el objetivo. Si el interés está en conocer El reclutamiento con éxito de los participantes es
la prevalencia de una enfermedad en la comuni- esencial en toda investigación. La estrategia de
dad, deberá escogerse una muestra representativa inclusión de sujetos busca obtener una muestra
de la población de dicha comunidad. Si se optara representativa de la población definida por los cri-
por una muestra de individuos atendidos en un terios de selección, del tamaño suficiente y de for-
centro sanitario, se obtendría un resultado sesga- ma eficiente.
do, ya que la demanda de servicios estaría influida,
además de por las necesidades biológicas, por fac- Ejemplo 14.12. Moore et al (2000) analizaron las ca-
tores como el sistema sanitario, los propios profe- racterísticas de los participantes en dos grandes en-
sionales, o factores socioculturales, entre otros. En sayos sobre tratamiento antirretroviral en sujetos
cambio, si el objetivo es conocer la prevalencia de infectados por el VIH, y observaron que existía una

137
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

infrarrepresentación de pacientes que se habían y, si es necesario, una tercera carta, aproximadamen-


infectado por vía heterosexual o por el uso de dro- te a las siete u ocho semanas de la primera.
gas por vía parenteral, una mayor frecuencia de pa- En los estudios que requieren seguimiento, de-
cientes homosexuales y una menor probabilidad de ben preverse estrategias para reducir el número de
pérdidas de seguimiento al año, en relación con los pérdidas. En los criterios de selección, deben ex-
que cumplían los criterios de selección, pero que cluirse los individuos que es probable que se pier-
no fueron incluidos en el estudio. dan durante el seguimiento, por ejemplo, porque
piensan cambiar de domicilio. Es conveniente reco-
El éxito del reclutamiento depende de diversos ger información que permita localizar a los indivi-
factores, entre los que destacan los relacionados duos en caso de que interrumpan el seguimiento
con el propio fenómeno de estudio, las caracterís- (p. ej., la dirección y el teléfono del individuo, los
ticas socioculturales de la población y su relación amigos y los familiares), así como mantener contac-
con los profesionales o servicios sanitarios, y la tos periódicos con ellos, telefónicamente o por
forma en que se solicite el consentimiento para correo, que también servirán para determinar con
participar. Por ello, al solicitar la colaboración, es mayor exactitud el momento en que aparecen los
importante presentar de forma comprensible desenlaces de interés.
el tema y los objetivos del estudio, la importancia
de su participación, la institución que avala el pro- B IBLIOGRAFÍA DE LOS EJEMPLOS
yecto, la garantía de confidencialidad de la infor- Ellenberg JH, Nelson KB. Sample selection and the natural
mación, los beneficios potenciales y los posibles history of disease: studies of febrile seizures. JAMA 1980;
243: 1337-1340.
riesgos y molestias que podría suponerles su parti-
Heart Protection Study Collaborative Group. MRC/BHF
cipación, etc. Heart Protection Study of cholesterol lowering with sim-
Cuando se diseña la estrategia de inclusión de vastatin in 20,536 high-risk individuals: a randomised
los sujetos, deben preverse las posibles causas que placebo-controlled trial. Lancet 2002; 360: 7-22.
puedan reducirla y establecer mecanismos para evi- Heiat A, Gross CP, Krumholz HM. Representation of the
tarlas. En estudios de larga duración es frecuente elderly, women, and minorities in heart failure clinical
que la tasa de reclutamiento disminuya como con- trials. Arch Intern Med 2002; 162 (15):1682-1688.
secuencia del cansancio de los investigadores. Suele Kennedy WA, Laurier C, Malo JL, Ghezzo H, L’Archeveque
ser útil monitorizar la tasa de inclusión a medida J, Contandriopoulos AP. Does clinical trial subject selec-
que el estudio progresa, para detectar la aparición tion restrict the ability to generalize use and cost of
health services to «real life» subjects? Int J Technol Assess
de estos problemas y poder solucionarlos.
Health Care 2003; 19: 8-16.
Marantz PR, Alderman MH, Tobin JN. Diagnostic heteroge-
ESTRATEGIAS PARA DISMINUIR neity in clinical trials for congestive heart failure. Ann In-
LAS NO RESPUESTAS Y LAS PÉRDIDAS tern Med 1988; 109: 55-61.
Mata M, Monraba M, Travería M, Guarner MA, Antó JM.
DE SEGUIMIENTO
Ensayo aleatorio controlado de educación sanitaria en
La representatividad de la muestra debe garantizar- pacientes hipertensos en asistencia primaria. Aten Pri-
se a lo largo de todo el proceso de la investigación maria 1987; 4: 189-194.
de forma que se eviten sesgos en el análisis de los Moore DA, Goodall RL, Ives NJ, Hooker M, Gazzard BG,
resultados. Easterbrook PJ. How generalizable are the results of lar-
ge randomized controlled trials of antiretroviral thera-
En los diseños transversales, es importante con-
py? HIV Med 2000; 1: 149-154.
seguir el mayor porcentaje de respuestas posible. Si
el reclutamiento es telefónico, deben preverse múl-
tiples llamadas en diferentes franjas horarias, y se B IBLIOGRAFÍA
Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
deben incluir también los fines de semana. Si es por
medicamentos: fundamentos básicos, metodología y
carta, por ejemplo, puede enviarse un agradeci- práctica. Barcelona: Doyma, 1994; 173-175.
miento a los que han respondido, un recordatorio a Bartlett C, Davey P, Dieppe P, Doyal L, Ebrahim S, Egger M.
la semana de que haya vencido el plazo de participa- Women, older persons, and ethnic minorities: factors as-
ción a aquellos que no han respondido, una nueva sociated with their inclusion in randomised trials of sta-
carta a las tres semanas si todavía no han respondido, tins 1990 to 2001. Heart 2003; 89: 327-328.

138
POBLACIÓN DE ESTUDIO

Bell-Syer SE, Moffett JA. Recruiting patients to randomized McMahon AD. Study control, violators, inclusion criteria
trials in primary care: principles and case study. Fam and defining explanatory and pragmatic trials. Stat Med
Pract 2000; 17: 187-191. 2002; 21: 1365-1376.
Fairhurst K, Dowrick C. Problems with recruitment in a ran- Olson SH, Voigt LF, Begg CB, Weiss NS. Reporting partici-
domised controlled trial of counselling in general prac- pation in case-control studies. Epidemiology 2002; 13:
tice: causes and implications. J Health Serv Res Policy 123-126.
1996; 1: 77-80. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS. Se-
Foy R, Parry J, Duggan A et al. How evidence based are lection of controls in case-control studies. I. Principles.
recruitment strategies to randomized controlled trials in Am J Epidemiol 1992; 135: 1019-1028.
primary care? Experience from seven studies. Fam Pract Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
2003; 20: 83-92. Selection of controls in case-control studies. II. Types of
Gross CP, Mallory R, Heiat A, Krumholz HM. Reporting the controls. Am J Epidemiol 1992; 135: 1029-1041.
recruitment process in clinical trials: who are these pa- Wacholder S, Silverman DT, McLaughlin JK, Mandel JS.
tients and how did they get there? Ann Intern Med 2002; Selection of controls in case-control studies. III. Design
13: 10-16. options. Am J Epidemiol 1992; 135: 1042-1050.
Haidich AB, Ioannidis JP. Patterns of patient enrollment in
randomized controlled trials. J Clin Epidemiol 2001; 54:
877-883.

139
Capítulo 15
Tamaño de la muestra

l cálculo del tamaño de la muestra permite res- evaluar cuál de dos pautas terapéuticas consigue un

E ponder a las siguientes preguntas: ¿cuántos in-


dividuos es necesario estudiar para poder es-
timar un parámetro determinado con el grado de
mayor porcentaje de éxitos).

ESTUDIOS QUE ESTIMAN


confianza deseado?, ¿cuántos sujetos es necesario
UN PARÁMETRO
estudiar para tener las mínimas garantías de poder
detectar una determinada diferencia entre los gru- Se trata de estudios en los que los investigadores, par-
pos de estudio, en el supuesto de que esta diferen- tiendo de los valores observados en la muestra estu-
cia exista realmente? diada, y utilizando la inferencia estadística, buscan
El resultado del cálculo debe considerarse como estimar el valor de un parámetro en la población.
orientativo, ya que se basa en asunciones que pueden
ser incorrectas. Por ello, es importante realizarlo cui- C ONSIDERACIONES PREVIAS :
dadosamente, ya que tiene implicaciones sobre la via- INTERVALO DE CONFIANZA
bilidad del estudio y puede suponer modificaciones Supongamos que se desea estimar el valor medio de la
en su diseño (modificación de los criterios de selec- colesterolemia en una población. Se escoge una mues-
ción, prolongación del período de inclusión, etc.). tra de 80 sujetos en los que se observa una media
La inclusión de un número excesivo de sujetos de 180 mg/100 ml, con una desviación estándar de
encarece el estudio tanto desde el punto de vista 20 mg/100 ml. Si se hubiera estudiado una muestra
económico como de los recursos humanos y físicos. diferente, seguramente se habrían obtenido cifras dis-
Además, puede ser considerado poco ético, ya que un tintas aunque los criterios de selección hubiesen sido
mayor número de pacientes estará sometido innece- los mismos, si bien es probable que el valor observado
sariamente a determinadas exploraciones o recibirá la en esta segunda muestra hubiera estado alrededor de
intervención menos eficaz. Por otra parte, un estudio 180 mg/100 ml. Por lo tanto, a partir del valor obser-
con un tamaño insuficiente de la muestra estimará un vado en una única muestra no puede conocerse exac-
parámetro con poca precisión o será incapaz de detec- tamente el verdadero valor en la población de origen,
tar diferencias entre los grupos, conduciendo erró- ya que es tan sólo una aproximación (estimación pun-
neamente a la conclusión de que no existen. tual). Para conocer entre qué límites es más probable
En general, puede considerarse que el objetivo de que se sitúe este verdadero valor, debe calcularse el
una investigación pertenece a uno de los dos siguien- intervalo de confianza (IC).
tes tipos: estimación de un parámetro (p. ej., el porcen- El método de cálculo del IC en las situaciones más
taje de pacientes hipertensos que presentan una de- frecuentes se desarrolla en los capítulos dedicados al
terminada complicación) o contraste de hipótesis (p. ej., análisis de los datos. La amplitud del IC, es decir, la

140
TAMAÑO DE LA MUESTRA

precisión de la estimación, depende del grado de Tabla 15.1. Fórmulas para el cálculo
confianza, la variabilidad del parámetro de interés y del número de sujetos necesarios
el número de sujetos estudiados. Cuanto menor sea para la realización de un estudio
la variabilidad del parámetro y mayor el número de cuyo objetivo es la estimación
sujetos, mayor precisión existirá en la estimación de una media o una proporción
para un grado de confianza determinado. Cuanta
más confianza se desee obtener, más amplio será el Estimación de una proporción
IC, y menor la precisión obtenida. (variable cualitativa)
Zα2 P (1 – P)
C ÁLCULO DEL TAMAÑO DE LA MUESTRA N=
i2
Para calcular el tamaño de la muestra debe conocerse: Estimación de una media
(variable cuantitativa)
– La variabilidad del parámetro que se desea estimar. Zα2 s2
Si no se conoce, puede obtenerse una aproxima- N=
ción a partir de datos propios o de otras investiga- i2
ciones, o un estudio piloto. En el caso de las varia-
bles cuantitativas se mide por la variancia, y en el de N: número de sujetos necesarios.
Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
las cualitativas, por el producto P·(1 – P).
P: valor de la proporción que se supone existe en la
– La precisión con que se desea obtener la estimación, es población.
decir, la amplitud del IC. Cuanto más precisa se s2: variancia de la distribución de la variable cuantitativa
desee, más estrecho deberá ser este intervalo, y más que se supone que existe en la población.
sujetos deberán ser estudiados. La precisión debe i: precisión con que se desea estimar el parámetro
fijarse previamente, en función de la finalidad de la (2·i es la amplitud del intervalo de confianza).
estimación. En algunos casos, puede requerirse una
gran precisión, mientras que, en otros, si sólo se nece-
sita conocer aproximadamente entre qué valores se que debe estar situado alrededor del 40% (p = 0,40).
encuentra el parámetro, se requerirá una menor pre- Se quiere realizar la estimación con una precisión de
cisión y, consecuentemente, menos sujetos. ± 4% (i = 0,04) y una confianza del 95% (1 – α = 0,95;
– El nivel de confianza deseado, que habitualmente se α = 0,05; Zα = 1,96). Aplicando la fórmula correspon-
fija en el 95%, correspondiente a un valor α de 0,05. diente, se obtiene que se precisan 576 sujetos. La
Este valor indica el grado de confianza que se tiene tabla A proporciona el mismo resultado.
de que el verdadero valor del parámetro en la
población se sitúa en el intervalo obtenido. Cuanta Esta estimación del número de sujetos realizada a
más confianza se desee, menor será el valor de α, priori no es más que una aproximación. Si en el ejem-
y más elevado el número de sujetos necesario. plo el porcentaje real de pacientes controlados es
diferente del 40%, puede alterarse el grado de preci-
De estos tres elementos, sólo debe conocerse la sión de la estimación.
variabilidad del parámetro, ya que tanto la precisión En la tabla 15.2 puede apreciarse cómo diferentes
como el nivel de confianza se fijan a partir de los inte- grados de precisión y diferentes valores del porcenta-
reses del investigador. je esperado modifican el número de sujetos necesa-
rios. Así, por ejemplo, para estimar el porcentaje del
Estimación de una proporción 40% del ejemplo 15.2 con el mismo nivel de confian-
La fórmula para el cálculo del número de sujetos para za del 95%, los 576 sujetos se convierten en 9.220
estimar una proporción se presenta en la tabla 15.1. cuando se desea una precisión muy alta (i = 0,01), o
También puede utilizarse la tabla A que se encuentra en tan sólo 92 si se es menos exigente (i = 0,1). Mo-
al final del libro. dificando cualquiera de estos valores, puede obte-
nerse un número de individuos que se aproxime al
Ejemplo 15.1. Un estudio se propone estimar el por- «deseado» o al disponible. Debe evitarse cualquier
centaje de pacientes hipertensos de un centro que es- manipulación del cálculo, ya que, al reducir el núme-
tán controlados. A partir de datos previos, se estima ro de sujetos que se van a estudiar, también disminu-

141
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 15.2. Influencia de la precisión forma que el número obtenido supera cualquier otra
de la estimación y del valor combinación de parámetros. Esta actitud también es
supuesto de la proporción útil, por ejemplo, cuando se realizan encuestas en las
que se desea estimar sobre que interesa estimar múltiples parámetros. Su incon-
el número de sujetos necesarios veniente es que requiere el estudio de un número de
sujetos a veces muy superior al realmente necesario.
Influencia de la precisión
P i N Estimación de una media
El cálculo es similar a la situación anterior (ver tabla
0,40 0,100 92 15.1). También debe fijarse el nivel de confianza y la
0,40 0,075 164 precisión de la estimación, que se traduce en la ampli-
0,40 0,050 369 tud del intervalo alrededor de la media que se desea
0,40 0,025 1.475 estimar. En las variables cuantitativas, la medida de la
0,40 0,010 9.220
variabilidad viene proporcionada por la variancia de
su distribución en la población. La tabla B del final del
Influencia del valor de la proporción
libro proporciona una fácil solución alternativa al
P i N
cálculo matemático.
0,10 0,05 138
0,20 0,05 246 Ejemplo 15.2. Supongamos que se desea estimar la
0,30 0,05 323 tensión arterial diastólica (TAD) de los pacientes
0,40 0,05 369 diabéticos registrados en un centro de salud. Por estu-
0,50 0,05 384 dios previos, se conoce que la desviación estándar de
la TAD en sujetos diabéticos es de 25 mmHg (s = 25
Todos los cálculos se han realizado con el grado de confianza mmHg; s2 = 625 mmHg). Se quiere realizar la estima-
del 95%. ción con una confianza del 95% (1 – α = 0,95) y una
P: valor supuesto de la proporción que se desea estimar. precisión de α 5 mmHg (i = 5). Aplicando la fórmula,
i: medida de la precisión de la estimación, que corresponde a se puede determinar que son necesarios 96 sujetos.
la mitad del intervalo de confianza. Esta cifra debe aumentarse en función del porcenta-
N: número de sujetos necesarios para realizar la estimación de
je de sujetos en que se prevea que no podrá determi-
P con la precisión deseada y el 95% de confianza.
narse la TAD. El mismo resultado se obtiene consul-
tando la tabla B en la línea correspondiente al valor
ye el grado de precisión con que el parámetro va a ser i/s = 5/25 = 0,200.
estimado y aumenta la amplitud del IC.
En el cálculo del tamaño de la muestra también Si no se dispone de una estimación de la variabili-
debe tenerse en cuenta la estrategia de análisis y cómo dad, puede utilizarse una regla práctica, que consiste
se presentarán los resultados. Así, si en el ejemplo 15.1 en determinar la diferencia entre los valores máximo
los investigadores presentan el resultado principal en y mínimo esperables. Dado que se asume que es-
función del sexo, la estratificación hará que la estima- ta variable es de distribución normal, el intervalo
ción se haya obtenido en un número menor de suje- m ± (2s), siendo m la media y s la desviación estándar
tos, por lo que la precisión será menor de la deseada. de la distribución, incluye aproximadamente el 95% de
En algunas ocasiones no se conoce el valor apro- los valores posibles, por lo que, al dividir dicha ampli-
ximado del parámetro que se está buscando. Si no tud de valores entre 4, puede obtenerse una cierta
existen datos de la literatura que resulten útiles, o si aproximación al valor de la desviación estándar s.
no puede realizarse una prueba piloto para obtener
una primera aproximación a dicho valor, puede C ORRECCIÓN PARA POBLACIONES
adoptarse la postura de la máxima indeterminación. FINITAS
Esta actitud consiste en suponer que el porcentaje En los cálculos anteriores no ha intervenido el tamaño
que se quiere estimar se sitúa alrededor del 50%, de la población, ya que en ellos se ha asumido que es
ya que es el valor que requiere una mayor cantidad infinito. Sin embargo, en muchas ocasiones, es preciso
de individuos para una precisión determinada, de obtener una muestra de una población de tamaño

142
TAMAÑO DE LA MUESTRA

conocido (finito). En esta situación, puede aplicarse la que B es más eficaz que A en el tratamiento de los
siguiente fórmula que ajusta el número de individuos hipertensos esenciales de edad avanzada. En la reali-
necesarios según el tamaño de la población: dad, esta hipótesis puede ser verdadera o falsa, y eso
es lo que se trata de averiguar. Dado que el investiga-
na = n / [1 + (n/N)] dor no puede estudiar todos los hipertensos esencia-
les de edad avanzada, la hipótesis debe contrastarse
donde na es el número de sujetos necesarios, n es el en una muestra de esta población. A partir única-
número de sujetos calculado para poblaciones infini- mente de los datos recogidos en un estudio, no pue-
tas y N es el tamaño de la población. de aceptarse o rechazarse absolutamente la hipótesis
que se contrasta. Existe cierto riesgo de error, sea
Ejemplo 15.3. En el ejemplo 15.1 se ha calculado que cual sea la conclusión a la que se llegue.
son necesarios 576 sujetos para estimar el porcentaje
de hipertensos controlados de un centro, realizando Error α y error β
determinadas asunciones. Si la población de referen- Desde el punto de vista estadístico, el investigador se
cia es de 1.000 hipertensos, aplicando la fórmu- enfrenta al problema del contraste de una hipótesis
la anterior podría determinarse que son necesarios realizando la asunción de que no existen diferencias
365 pacientes hipertensos. en la eficacia de los dos fármacos A y B (hipótesis nula).
A partir de los resultados observados en la muestra, el
investigador utilizará las pruebas de significación
ESTUDIOS QUE COMPARAN
estadística para evaluar si existe la suficiente evidencia
DOS GRUPOS
que le permita rechazar esta hipótesis nula y, conse-
Muchos estudios tienen por objetivo responder a pre- cuentemente, aceptar la hipótesis alternativa de que sí
guntas del siguiente tipo: ¿es más eficaz el fármaco A existen diferencias entre ambas terapéuticas.
que el B en el tratamiento de una enfermedad?, ¿exis- El error tipo I, conocido también como error α (ta-
te un aumento del riesgo de malformaciones congé- bla 15.3), se comete cuando el investigador rechaza la
nitas en los niños nacidos de madres que han padeci- hipótesis nula, siendo ésta verdadera en la población.
do cierto trastorno durante el embarazo?, etc. Es equivalente a encontrar un resultado falso positivo,
ya que el investigador concluye que hay una diferen-
C ONSIDERACIONES PREVIAS : cia, cuando en realidad no existe.
PRUEBAS DE CONTRASTE DE HIPÓTESIS El error tipo II, o error ß (ver tabla 15.3), se comete en
Bajo las preguntas que se han planteado en el párra- la situación contraria, cuando el investigador no recha-
fo anterior, subyace una hipótesis, por ejemplo, la de za la hipótesis nula, siendo ésta falsa en la población.

Tabla 15.3. Tipos de error aleatorio en una prueba estadística de contraste de hipótesis

Realidad (población)
Existe diferencia No existe diferencia
o asociación o asociación
(Ho falsa) (Ho cierta)
Resultado Diferencia
de la prueba o asociación No error Error tipo I
(muestra) significativa α
(rechazo de Ho)
Diferencia
o asociación Error tipo II No error
no significativa β
(no rechazo de Ho)

Ho: hipótesis nula.

143
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Es equivalente a un resultado falso negativo, ya que el formulación precisa de la hipótesis que se contrasta.
investigador concluye que ha sido incapaz de encon- Si se pretende determinar si dos fármacos A y B difie-
trar una diferencia que existe en la realidad. Si ß re- ren en su eficacia, sin suficiente evidencia de cuál de
presenta la probabilidad de un resultado falso negati- ellos ha de ser mejor o peor, se habla de hipótesis bila-
vo, su complementario 1 – ß, conocido como poder o teral, o de dos colas (fig. 15.1). En cambio, si la hipó-
potencia estadística, representa la probabilidad de obser- tesis alternativa es que el fármaco A es más eficaz que
var en la muestra una determinada diferencia o un el B, se habla de hipótesis unilateral, o de una cola. En
efecto, si existen en la población. este caso, interesa únicamente evaluar si B es, como
Para calcular el tamaño de la muestra, se fijan a mínimo, tan eficaz como A, es decir, tan sólo una de
priori los riesgos que se está dispuesto a asumir de las direcciones de la comparación.
cometer estos errores. Lo ideal sería poder reducirlos Desde un punto de vista estricto, son preferibles
a cero, pero ello no es posible. Una de las formas las hipótesis bilaterales, ya que son más conservado-
para disminuirlos consiste en aumentar el número ras y requieren un mayor número de participantes.
de sujetos estudiados.
Magnitud de la diferencia
Hipótesis unilaterales o de la asociación
e hipótesis bilaterales La magnitud de la diferencia o de la asociación tiene
Desde el punto de vista estadístico, otro aspecto que una gran influencia sobre el tamaño de la muestra. Si
afecta al cálculo del tamaño de la muestra es el de la la diferencia es muy amplia (p. ej., si la eficacia del

Prueba unilateral*
Ho: A ≤ B
Ha: A > B

α = 0,05

0 Z = 1,645

Prueba bilateral**
Ho: A = B
Ha: A = B

α/2 = 0,025 α/2 = 0,025

Z = – 1,96 0 Z = 1,96

* Especifica la dirección de la diferencia.


** Interesa determinar si A y B son diferentes, sin especificar la dirección de la diferencia. Dado que se asume
que la distribución es normal, el valor de α se distribuye simétricamente en las dos colas de la distribución.
Ho: hipótesis nula.
Ha: hipótesis alternativa.

Figura 15.1. Valores de la distribución normal tipificada (Z) correspondientes al valor α del 5% en las pruebas
estadísticas unilaterales y bilaterales.

144
TAMAÑO DE LA MUESTRA

fármaco A es el doble que la del B), se podrá detectar fármacos en el cálculo del tamaño de la muestra, se
con más facilidad que si es de escasa magnitud, y necesitará un número reducido de sujetos, pero una
requerirá un número menor de sujetos. En la ta- diferencia del 40%, que puede ser muy importante
bla 15.4 puede apreciarse cómo una diferencia de desde el punto de vista clínico, no será estadística-
40 mg/100 ml en la media de colesterol de dos mues- mente significativa, ya que el investigador ha decidi-
tras puede ser significativa, aunque se hayan estudia- do considerar como importantes sólo las diferencias
do tan sólo 20 sujetos, mientras que una pequeña superiores al 50%.
diferencia de 3 mg/100 ml no alcanza suficiente sig- En función del enfoque del estudio, esta magni-
nificación, aunque se hayan estudiado 200 individuos tud puede fijarse como una diferencia entre grupos,
en cada grupo. o bien, en términos relativos, como una relación de
Para calcular el tamaño de la muestra, debe defi- riesgos.
nirse la mínima magnitud de la diferencia o de la aso-
ciación que se desea detectar y que se considera de C ÁLCULO DEL TAMAÑO DE LA MUESTRA
relevancia clínica. Esta diferencia debe fijarse en tér- Para calcular el tamaño de la muestra deben utilizar-
minos realistas, dentro del rango de valores espera- se los siguientes elementos principales (tabla 15.5):
bles. A menudo, es tentador utilizar diferencias más
amplias, ya que se obtiene un tamaño de la muestra – Definir la hipótesis que se va a contrastar, precisan-
más reducido. Esta actitud debe evitarse, ya que do si es uni o bilateral.
implica que diferencias menores a la establecida, a – Establecer el riesgo de cometer un error de tipo I
pesar de que pueden ser de importancia clínica, no (α) que se está dispuesto a aceptar. Habitualmente
alcanzarán el grado de significación estadística con el suele aceptarse un riesgo α del 5%, y preferible-
número de sujetos estudiados. Si, por ejemplo, se uti- mente con hipótesis bilaterales, ya que son más con-
liza una diferencia del 50% en la eficacia de los dos servadoras.

Tabla 15.4. Influencia del número de sujetos estudiados y la magnitud de la diferencia


sobre la significación estadística

Ejemplo 1. Una diferencia de gran magnitud es estadísticamente significativa incluso con un reducido número
de sujetos
Colesterolemia
n (media ± DE) t p
Muestra 1 20 260 ± 20
6,32 < 0,001
Muestra 2 20 220 ± 20

Ejemplo 2. Una diferencia de escasa magnitud no es estadísticamente significativa, aunque se haya estudiado
un elevado número de sujetos
Colesterolemia
n (media ± DE) t p
Muestra 1 200 218 ± 20
1,5 0,14
Muestra 2 200 215 ± 20

n: número de sujetos de la muestra.


DE: desviación estándar.
t: valor de la t de Student-Fisher de comparación de dos medidas independientes.
p: probabilidad de cometer un error α. Habitualmente, valores menores de 0,05 se aceptan como evidencia suficiente para decidir
que la diferencia es estadísticamente significativa.

145
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 15.5. Elementos que intervienen – Establecer, así mismo, el riesgo que se acepta de
en el cálculo del número de sujetos cometer un error tipo II (ß). Habitualmente se sitúa
necesarios para la realización entre el 5 y el 20%. La elección variará en función de
de un contraste de hipótesis las consecuencias que pueda tener cometer dicho
error. A menudo, es más fácil enfrentar esta decisión
1. Hipótesis uni o bilateral a partir del concepto de poder o potencia estadística
(1 – ß), que es la capacidad del estudio para detectar
2. Riesgo aceptado de cometer un error α
una determinada diferencia. Aceptar el riesgo de
3. Riesgo aceptado de cometer un error β cometer un error ß del 20% significa que, si la dife-
(potencia: 1 – β) rencia que se busca existe en la realidad, el estudio
4. Magnitud mínima de la diferencia o asociación tiene un 80% de probabilidades de detectarla.
que se considera importante detectar – Definir la magnitud de la diferencia, el efecto o la
asociación que se quiera detectar. Debe basarse en
5. Variabilidad de la variable de respuesta
datos de estudios previos o de la literatura que defi-
en el grupo de referencia
nan el rango de los valores esperables, y en la míni-
6. Otros factores: ma magnitud que se considere de relevancia clínica.
• Prueba estadística que se utilizará en el análisis – Es necesario, también, disponer de alguna medida
• Tipos especiales de diseño del estudio de la variabilidad de la variable de respuesta en la
• Comparación de más de dos grupos población o grupo de referencia.
• Grupos de tamaño diferente
• Equivalencia de las intervenciones De estos cinco elementos, sólo debe conocerse el
• Estratificación por las características basales último, ya que los cuatro primeros son fijados por
• Múltiples variables de respuesta el investigador. A continuación, se aplica la fórmula
• Porcentaje de pérdidas y abandonos esperado correspondiente, que depende de la prueba estadísti-
durante el seguimiento ca que vaya a ser utilizada en el análisis. En la tabla 15.6
se presentan las fórmulas de uso más habitual, corres-

Tabla 15.6. Fórmulas para el cálculo del número de sujetos necesarios por grupo en un estudio
cuyo objetivo es la comparación de dos muestras del mismo tamaño

Comparación de dos proporciones (variable cualitativa)

[Zα [2·P·(1 – P)] + Zβ [P1·(1 – P1) + P2·(1 – P2)] ]2


N=
(P1 – P2)2

Comparación de dos medias (variable cuantitativa)

2·(Zα + Zβ)2·s2
N=
d2

N: número de sujetos necesarios en cada uno de los grupos.


Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8).
P1: valor de la proporción que se supone existe en el grupo de referencia.
P2: valor de la proporción que se supone existe en el grupo de estudio.
P2–P1: valor mínimo de la diferencia que se desea detectar (variable cualitativa).
P: media ponderada de las proporciones P1 y P2.
s2: variancia de la distribución de la variable cuantitativa que se supone que existe en el grupo de referencia.
d2: valor mínimo de la diferencia que se desea detectar (variable cuantitativa).

146
TAMAÑO DE LA MUESTRA

pondientes a la comparación de dos variables dicotó- que comparan dos grupos, y para ello utilizan una
micas (dos proporciones) o de dos variables cuantita- variable de respuesta cualitativa dicotómica.
tivas (dos medias). Las tablas 15.7 y 15.8 recogen los
valores de la variable normal tipificada, correspon- Ejemplo 15.4. Un estudio tiene por objetivo determi-
dientes a los riesgos a y ß utilizados con mayor fre- nar si un nuevo tratamiento T consigue un mayor
cuencia en dicho cálculo, respectivamente. porcentaje de éxitos en las sobreinfecciones respira-
Las fórmulas pueden resultar algo complicadas, torias que el tratamiento estándar E. Lo primero que
por lo que se recomienda utilizar tablas como las pre- debe conocerse es el porcentaje de curaciones en
sentadas al final del libro (tablas C y D). pacientes de características similares a los que van a
ser estudiados, obtenido con el tratamiento estándar
E. Supongamos que esta cifra se sitúa alrededor del
Tabla 15.7. Valores de Zα utilizados 40% (P1 = 0,4).
con mayor frecuencia en el cálculo El siguiente paso es determinar la diferencia míni-
del tamaño de la muestra ma que se quiere detectar, es decir, responder a la pre-
gunta: ¿a partir de qué porcentaje de éxitos con el
Zα nuevo tratamiento se considerará que éste es mejor
Prueba Prueba que E y, por lo tanto, se estará dispuesto a modificar la
α unilateral bilateral pauta terapéutica habitual? Es decir, si el porcentaje
de individuos curados con T es del 41%, ¿puede con-
0,200 0,842 1,282 siderarse que esta diferencia del 1% es un resultado lo
0,150 1,036 1,440 suficientemente importante para modificar la pauta
0,100 1,282 1,645 terapéutica?, ¿o se exigirá un mínimo, por ejemplo,
0,050 1,645 1,960 del 50% de éxitos? La respuesta a estas preguntas
0,025 1,960 2,240 depende de muchos factores, tales como la seguridad
0,010 2,326 2,576 del fármaco, la facilidad de administración o el cos-
te, entre otros. Supongamos que los investigadores
consideran que, si se cura el 50% de pacientes con T
Tabla 15.8. Valores de Zβ utilizados (P2 = 0,5), se aceptará como la elección terapéutica.
con mayor frecuencia en el cálculo A continuación, sólo falta determinar los niveles de
del tamaño de la muestra riesgo de cometer algún tipo de error aleatorio que se
está dispuesto a asumir. Supongamos que se acepta el
Potencia nivel de riesgo α habitual del 5% con una hipótesis
bilateral y un riesgo β del 20% (potencia: 1 – β = 0,80).
β (1 – β) Zβ
Aplicando la fórmula de la tabla 15.6 puede cal-
0,01 0,99 2,326 cularse que son necesarios 387 sujetos por grupo de
0,05 0,95 1,645 estudio. Con la tabla C del final del libro se obtiene la
0,10 0,90 1,282 misma cifra.
0,15 0,85 1,036 Este número indica los sujetos que deben finalizar
0,20 0,80 0,842 el estudio para tener un 80% de probabilidades de
0,25 0,75 0,674 detectar una diferencia igual o superior a la fijada,
0,30 0,70 0,524 con un nivel de error α del 5%. Por lo tanto, hay que
0,35 0,65 0,385 incrementarlo en función del número de pérdidas de
0,40 0,60 0,253 seguimiento y de abandonos que se prevea que ocu-
0,45 0,55 0,126 rrirán durante el estudio.
0,50 0,50 0,000
El tamaño de la muestra requerido es mayor cuan-
to más pequeña es la diferencia que se desea detectar
Comparación de dos proporciones y menos elevados son los riesgos α y β que se aceptan.
La comparación de dos proporciones es, probable- Es importante destacar que una misma diferencia del
mente, la prueba de contraste de hipótesis más utili- 5% entre dos porcentajes requiere el máximo núme-
zada en investigación clínica. Se trata de estudios ro de pacientes cuando éstos se sitúan alrededor del

147
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

50%. Ello se debe a que, si el porcentaje del grupo de mero suficiente de expuestos. Si la frecuencia de la ex-
referencia es del 5%, una diferencia del 5% impli- posición en la población general (f) fuera de un 20%,
ca que el grupo de estudio debe pasar a un 10%, es sería necesario examinar a N/f = 199/0,2 = 995 sujetos
decir, dobla la eficacia. En cambio, si el porcentaje para encontrar a 199 expuestos.
del grupo de referencia es del 50%, una diferen-
cia del 5% implica solamente un incremento relativo Estimación de una odds ratio
del 10%, es decir, pasar del 50 al 55%. En los estudios de casos y controles, la magnitud de la
asociación se estima mediante la odds ratio (OR). Se trata
Estimación de un riesgo relativo de una situación similar a la de la estimación de un RR,
Si el objetivo del estudio es determinar la magnitud de en la que debe conocerse la proporción de exposición
la asociación en términos relativos, la medida que se esperada en los controles (P1) y fijar la magnitud de la
utilizará en los estudios prospectivos (ensayos clínicos OR que se desea detectar. Análogamente a la situación
y estudios de cohortes) es el riesgo relativo (RR). Lo anterior, la proporción esperada de exposición entre los
que debe fijarse en este caso es la mínima magnitud casos es
del RR que se quiere ser capaz de detectar. En esta
situación, puede utilizarse la misma fórmula que en el P2 = (P1·OR) / [1 + P1·(OR – 1)].
caso de la comparación de dos proporciones, teniendo
en cuenta que RR = P2/P1. La magnitud de la asocia- La tabla E del final del libro presenta el resultado
ción que se quiere detectar corresponde al mínimo RR del cálculo del número de sujetos necesarios para los
que se considerará de importancia clínica, donde P1 es estudios que estiman una OR en las situaciones más
el riesgo de desarrollar la enfermedad en el grupo no habituales.
expuesto y P2 el riesgo de desarrollarla en el grupo
expuesto (P2 = P1·RR). Ejemplo 15.6. Un estudio de casos y controles pre-
La tabla D del final del libro presenta el resultado tende evaluar el riesgo de padecer un infarto agudo
del cálculo del número de sujetos necesarios para los de miocardio (IAM) asociado al uso de anticoncepti-
estudios que estiman un RR en las situaciones más vos orales (AO) en mujeres jóvenes. Se estima que la
habituales. proporción esperada de uso de AO en la población
candidata a ser incluida en el grupo control es del
Ejemplo 15.5. Se pretende realizar un estudio de co- 30% (P1 = 0,30). El incremento mínimo del riesgo
hortes con el objetivo de estimar el riesgo de desarro- que se quiere detectar es de 3 (OR = 3). El riesgo α es
llar infarto agudo de miocardio (IAM) asociado a la de 0,05 (hipótesis bilateral) y el riesgo ß es de 0,10
hipercolesterolemia. El riesgo esperado en la cohor- (potencia: 1 – ß = 0,90). Por lo tanto:
te no expuesta (P1) es del 10% a los diez años (inci-
dencia acumulada). El riesgo relativo (RR) que se P2 = (0,3·3) / [1 + 0,3·(3 – 1)] = 0,56
considera relevante detectar es de 2. El valor del ries-
go de cometer un error α será el convencional del Aplicando la fórmula de la tabla 15.6, puede de-
5% (hipótesis bilateral) y el de cometer un error ß, terminarse que son necesarios 74 sujetos por grupo.
del 20% (potencia: 1 – β = 0,80). A partir de estos La tabla E del final del libro proporciona un resulta-
datos, puede calcularse el valor de P2: do similar.

P2 = P1·RR = 0,10·2 = 0,20 (o 20%) Comparación de dos medias


Para calcular el tamaño de la muestra, debe conocer-
Aplicando la fórmula de la tabla 15.6 o bien la tabla se el valor de la variancia de la distribución de la va-
D del final del libro, puede determinarse que son riable de respuesta en el grupo de referencia, decidir
necesarios 199 sujetos por grupo. Este número repre- la mínima diferencia que se considera de relevancia
senta el tamaño mínimo tanto del grupo de expuestos clínica y si interesa poder detectar y fijar los niveles de
como del de no expuestos. Por lo tanto, si desea estu- error a y ß que se aceptan.
diar una cohorte general, o si se deben identificar los
sujetos expuestos a partir de una muestra de la pobla- Ejemplo 15.7. Un estudio se propone comparar los
ción general, se deberá determinar el número de suje- niveles de fructosamina de dos grupos de diabéticos
tos que habrá que examinar para identificar el nú- sometidos a dos pautas terapéuticas diferentes, T1 y

148
TAMAÑO DE LA MUESTRA

T2, con la finalidad de determinar cuál de ellas con- te fijando diferencias muy pequeñas, se requerirá un
sigue un mayor control de la enfermedad. Se utiliza número muy elevado de sujetos.
habitualmente la pauta T1, con la que se consigue La tabla 15.9 presenta la fórmula para el cálculo
unos valores medios de fructosamina de 3 mmol/l, del tamaño de la muestra cuando la variable de res-
con una desviación estándar de 0,625 mmol/l. Por lo puesta es dicotómica. La tabla G del final del libro
tanto, el valor de la variancia s2 es de (0,625)2 = 0,39. presenta el número de sujetos necesarios para estu-
A continuación, se establece que la diferencia míni- dios de equivalencia en las situaciones más habituales.
ma entre ambos grupos que se considera de relevan-
cia clínica es de 0,5 mmol/l (d = 0,5). El riesgo de
error α que se está dispuesto a asumir es de 0,05. Tabla 15.9. Fórmula para el cálculo
Dado que se pretende evaluar qué pauta es más efi- del tamaño de la muestra
en un estudio de equivalencia
caz, se trata de una hipótesis bilateral. Interesa tener
(variable cualitativa)
una capacidad del 90% para detectar la diferencia, si
existe realmente (1 – ß = 0,90).
Para utilizar la tabla F del final del libro, debe calcu- 2·P·(1 – P)·(Zα + Zβ)2
N=
larse el valor d/s, que corresponde al cociente entre la d2
diferencia que se quiere detectar y la desviación están-
dar de la variable de respuesta en el grupo de referen- N: número de sujetos necesarios en cada uno de los grupos.
cia. En este caso, corresponde a 0,5/0,625 = 0,8. Bus- Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
cando este valor en la primera columna de las tablas, Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8).
y leyendo la fila correspondiente al valor de α de 0,05 P: proporción que se espera en el grupo control.
en una hipótesis bilateral, en el punto de intersección d: diferencia máxima entre la eficacia de ambos tratamientos
que se tolerará para concluir que son equivalentes.
con la potencia de 0,90, se obtiene un tamaño de 33
sujetos por grupo; es decir, en total, debe incluirse en
el estudio un mínimo de 66 personas. El mismo resul- Ejemplo 15.8. Un estudio se propone evaluar la efica-
tado se obtiene utilizando la fórmula de la tabla 15.6. cia de una pauta monodosis para el tratamiento de
las infecciones urinarias frente a la pauta habitual
Equivalencia de dos intervenciones de 7-10 días, cuya eficacia se sitúa alrededor del 90%
En ocasiones se diseña un estudio para determinar si (P = 0,90). La monodosis es menos costosa y facilita el
una nueva intervención, que ofrece alguna ventaja, cumplimiento del paciente, por lo que interesa deter-
como ser menos costosa o producir menos efectos minar si la monodosis y la pauta de 7-10 días pueden
secundarios, es tan eficaz como la terapéutica habi- considerarse equivalentes. Se concluirá que lo son si
tual. El problema radica en que no existe un procedi- la diferencia de eficacia entre ellas no supera el 15%.
miento estadístico para demostrar la equivalencia de Se aceptan los niveles de error α del 0,05 (hipótesis
ambas pautas. La ausencia de significación estadística bilateral) y ß del 20% (potencia: 1 – ß = 0,80). Apli-
en su comparación no significa que sean idénticas, cando la fórmula, puede determinarse que son nece-
especialmente en estudios con pocos sujetos. sarios 63 sujetos por grupo. La tabla G del final del
El concepto de equivalencia requiere descartar libro proporciona el mismo resultado.
pequeñas diferencias en la respuesta a las interven-
ciones. Para considerar dos intervenciones equiva- Comparación de grupos cuando la
lentes, la diferencia entre ellas debe ser menor que la variable de respuesta es ordinal
mínima diferencia clínicamente significativa, defini- Cuando la variable de respuesta se mide en una esca-
da ésta como la diferencia entre los resultados que la ordinal, o cuando en el análisis deben utilizarse
induciría a adoptar la mejor terapia. El procedimien- pruebas estadísticas no paramétricas, el cálculo es
to que se sigue es el de utilizar este valor como la dife- más complejo. Por criterios de operatividad, suele
rencia que se desea detectar en el cálculo del núme- calcularse el tamaño como si fuera a utilizarse una
ro de sujetos. De esta forma, si existe una diferencia prueba paramétrica. La estimación será tanto mejor
real igual o mayor, el estudio tiene las suficientes cuanto menos se aleje la distribución de la variable
garantías (potencia estadística) para detectarla. Si se de la ley normal.
quiere determinar con un alto grado de confianza la En el anexo 7 se presenta el cálculo del tamaño
existencia de una equivalencia definida estrictamen- de la muestra en otras situaciones.

149
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

CORRECCIÓN POR LAS Tabla 15.10. Estrategias para disminuir


NO RESPUESTAS, LAS PÉRDIDAS el número de sujetos necesarios
Y LOS ABANDONOS en un estudio
El número de sujetos calculado debe ampliarse en fun-
ción del porcentaje de no respuestas, pérdidas y aban- 1. Al seleccionar la variable de respuesta, usar:
donos durante el seguimiento y de las desviaciones del • Variables cuantitativas que aumentan la
protocolo que puedan esperarse, de forma que se ase- potencia de las pruebas estadísticas
gure que finalizará el estudio del número de pacientes • Variables precisas
requerido. Una fórmula para hacerlo es la siguiente: • Variables de presentación frecuente
2. Al medir las variables, usar:
Na = N [1/(1 – R)] • Promedios de medidas repetidas
• Técnicas de medición precisas
donde N representa el número de sujetos teórico; Na, • Criterios y técnicas estandarizados
el número de sujetos ajustado, y R, la proporción
esperada de pérdidas. 3. Seleccionar la población de estudio:
• Homogéneas (criterios de selección restrictivos)
Ejemplo 15.9. Para realizar un estudio se ha calcu- • Poblaciones de alto riesgo, en las que es más
lado que son necesarios 300 sujetos (N = 300) y se frecuente observar la respuesta
espera un 20% de pérdidas (R = 0,20). El número 4. Al diseñar el estudio, valorar si es posible:
de pacientes que deberían iniciar el estudio sería • Asignar aleatoriamente los sujetos a los grupos
Na = 300 [1/(1 – 0,2)] = 375 sujetos. • Usar como medida de la respuesta
las diferencias individuales entre el inicio
La utilización de esta fórmula asegura que el estu- y el final del estudio
dio mantenga la potencia estadística deseada, pero • Usar diseños especiales (p. ej., diseños cruzados)
no evita que se puedan producir sesgos si las no res- • Estratificar por factores pronósticos
puestas, las pérdidas o los abandonos no se han pro-
ducido aleatoriamente, es decir, si los sujetos que
finalizan el estudio no son representativos de los
que lo inician (lo que suele ser habitual). Florey CV. Sample size for beginners. BMJ 1993; 306: 1181-
1184.
Kerry SM, Bland JM. Sample size in cluster randomisation.
ESTRATEGIAS PARA MINIMIZAR BMJ 1998; 316: 549.
EL NÚMERO DE SUJETOS NECESARIO Hauschke D, Kieser M, Diletti E, Burke M. Sample size deter-
mination for proving equivalence based on the ratio of
Estas estrategias se basan en conseguir una población two means for normally distributed data. Stat Med 1999;
homogénea, disminuir la variabilidad de las medidas 18: 93-105.
y aumentar la frecuencia de aparición del fenómeno Marrugat J, Vila J, Pavesi M, Sanz F. Estimación del tamaño
de interés, por lo que deben aplicarse siempre que de la muestra en la investigación clínica y epidemiológi-
sea posible para aumentar la potencia del estudio ca. Med Clin (Barc) 1998; 111: 267-276.
(tabla 15.10). Norman GR, Streiner DL. Bioestadística. Madrid: Mosby-
Algunas de estas estrategias enumeradas pueden Doyma, 1996.
implicar una modificación de las hipótesis de trabajo. Obuchowski NA. Sample size calculations in studies of test
Por ello, es importante realizar, ya en fases tempranas accuracy. Stat Methods Med Res 1998; 7: 371-392.
del diseño, una estimación aproximada del número Sahai H, Khurshid A. Formulae and tables for the determi-
nation of sample sizes and power in clinical trials for test-
de sujetos necesario, con el fin de evaluar la factibili-
ing differences in proportions for the two-sample design:
dad del estudio y discutir si es necesario replantear o a review. Stat Med 1996; 15: 1-21.
adaptar la hipótesis de trabajo o el estudio en general. Schlesselman JJ. Case-control studies: design, conduct, ana-
lysis. Nueva York: Oxford University Press, 1982.
B IBLIOGRAFÍA Whitehead J. Sample size calculations for ordered categori-
Campbell MJ, Julious SA, Altman DG. Estimating sample size cal data. Stat Med 1993; 12: 2257-2271.
for binary, ordered categorial, and continuous outcomes Wittes J. Sample size calculations for randomized controlled
in two group comparison. BMJ 1995; 311: 1145-1148. trials. Epidemiol Rev 2002; 24: 39-53.

150
Capítulo 16
Muestreo

l principio de representatividad implica que, Ejemplo 16.1. Un estudio comparó la utilidad de

E para que los resultados de una investigación


tengan validez interna, la muestra de sujetos
estudiados debe ser representativa de la población
tres muestras para determinar la morbilidad aten-
dida en las consultas de medicina general (García
Olmos et al, 1987). La fuente de información era
de estudio. En los estudios transversales que estiman un registro de todas las visitas atendidas en la con-
un parámetro se emplean técnicas de muestreo pro- sulta durante un período determinado. La primera
babilístico, que aumentan la probabilidad de obte- muestra correspondía a los 40 primeros días del re-
ner una muestra representativa. Cuando no se dis- gistro y representaba un total de 735 visitas; la se-
pone de un listado con los miembros que forman la gunda, a los 7 primeros días del registro (114 vi-
población de estudio o cuando ésta es dinámica, y sitas), y la tercera se obtuvo eligiendo de forma
la muestra de sujetos se selecciona por métodos sistemática una de cada 7 visitas realizadas durante
como la inclusión consecutiva de los pacientes que los primeros 40 días (106 visitas). Las características
acuden a la consulta y cumplen los criterios de selec- de edad, sexo, régimen administrativo, clase de
ción, para poder realizar inferencias, también debe educación y actividad laboral fueron similares en
asumirse que la muestra seleccionada es representa- las tres muestras. Los diagnósticos de los motivos de
tiva de la población de estudio. consulta también fueron similares, excepto en lo
que se refiere a las enfermedades endocrinas, más
frecuentes en la tercera muestra. Tampoco se halla-
VENTAJAS DEL MUESTREO
ron diferencias en relación con las actividades gene-
La razón principal para estudiar una muestra y no radas por cada una de las visitas. Este ejemplo pre-
toda la población es el ahorro en tiempo, dinero y tende ilustrar cómo diferentes técnicas de muestreo,
otros recursos. Es una cuestión de eficiencia. Si se ha incluso con muestras de tamaños diferentes, pueden
calculado que son necesarios 300 individuos, y la conducir a resultados similares, aunque sería necesa-
población de referencia la forman 3.000 personas, rio conocer la precisión que se ha obtenido con cada
estudiarlas a todas supone desperdiciar una buena una de ellas para decidir cuál es preferible.
cantidad de recursos, ya que, si la selección de la
muestra y la medición de las variables se realizan Una segunda ventaja del muestreo, también re-
correctamente, se obtendrá un resultado válido estu- lacionada con la validez del estudio, es que las me-
diando una muestra representativa de 300 personas. diciones tenderán a ser de mayor calidad, ya que se

151
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

pueden dedicar más esfuerzos al estudiar un menor El primer paso para planificar un muestreo sue-
número de individuos. Paradójicamente, podría le ser la definición del marco muestral, que es esen-
darse el caso de que se obtuvieran resultados más fi- cialmente una lista, o forma de identificación, de
dedignos al estudiar una muestra que a toda la las unidades de muestreo sobre las que se aplicará
población. el proceso de selección. La definición de este mar-
También es un problema de cantidad de infor- co debe ser cuidadosa, ya que condiciona la inter-
mación. Al poder invertir más recursos en el estudio pretación de los resultados.
de cada individuo, pueden medirse otras variables,
lo que no es posible hacer en toda la población. Si Ejemplo 16.3. En un estudio sobre la asociación en-
algunas de estas variables son potenciales factores tre la adaptación social y la depresión, Luty et al
de confusión, su medición posibilita su control en el (2002) comprobaron que esta asociación no varia-
análisis, lo que aumenta la validez de los resultados ba entre los diferentes países, pero sí que dependía
del estudio. del marco muestral del estudio, ya que se observa-
ron resultados diferentes en la comunidad y en los
Ejemplo 16.2. En un estudio cuyo objetivo era cono- centros sanitarios.
cer la prevalencia de factores de riesgo cardiovascu-
lar en jóvenes de 16 a 19 años, se seleccionó aleato- Ejemplo 16.4. Fuchs et al (2001) compararon la pre-
riamente una muestra de 1.176 estudiantes en los valencia de HTA que se obtenía al utilizar dos mar-
que se evaluaron unos pocos factores de riesgo (An- cos muestrales diferentes: los adultos residentes en
dersen et al, 1989). A partir de esta muestra se selec- una población y los que acuden a una unidad de
cionó uno de cada cuatro estudiantes, en los que prevención de la HTA en un centro sanitario. Las
además se analizó su perfil lipídico, se midió la pre- diferencias en la prevalencia observada (24% fren-
sión arterial, el pliegue corporal, y el pulso en con- te a 42%, respectivamente) ilustran la influencia
diciones basales y después de una actividad intensa. del proceso de muestreo sobre la evaluación de los
Con la finalidad de establecer la representatividad factores de riesgo en la población.
de la segunda muestra se comparó la edad, el sexo,
la talla y el peso con la primera, no encontrándose El siguiente paso es decidir cómo seleccionar la
diferencias significativas. El hecho de estudiar un muestra. En líneas generales, las técnicas de mues-
conjunto de variables más exhaustivamente en una treo pueden clasificarse en probabilísticas y no pro-
muestra reducida persigue el objetivo de alcanzar babilísticas.
mayor exactitud y estandarización en las medidas
llevadas a cabo. TÉCNICAS DE MUESTREO
M UESTREO PROBABILÍSTICO
PLANIFICACIÓN DEL MUESTREO
Se define como el proceso de selección en que to-
Las unidades de muestreo son los elementos sobre los dos los individuos candidatos tienen una probabi-
que se aplicará la técnica de selección. Pueden ser lidad conocida, distinta de cero, de ser incluidos
personas, centros de salud o escuelas, por ejemplo. en la muestra. Se utiliza alguna forma de selección
Si se quiere estimar la prevalencia de hipertensión aleatoria para obtener las unidades que serán estu-
arterial (HTA) en una población, serán las perso- diadas.
nas; si se pretende conocer el número de escuelas Existe una tendencia a considerar sinónimas
de una provincia en las que se imparte educación las expresiones muestra probabilística y muestra repre-
sanitaria, serán las escuelas. sentativa. El uso de una técnica de muestreo pro-
Las unidades de muestreo no tienen que coinci- babilístico tiende a asegurar que se obtendrá una
dir necesariamente con las unidades de análisis. En un muestra representativa, en especial, si la pobla-
estudio para conocer la prevalencia de HTA en la ción y la muestra son de gran tamaño. Sin embar-
población escolar, las unidades de muestreo pueden go, puede que no sea así, ya que el propio azar
ser las escuelas, pero se analiza en cada una la pre- puede conducir a una muestra que no tenga la
sión arterial de sus alumnos (unidades de análisis). misma distribución de las variables de interés que

152
MUESTREO

la población de referencia, sobre todo si su simple, ya que cualquiera de los 252 subconjuntos
tamaño es reducido. Por otro lado, pueden obte- diferentes de 5 niños puede ser seleccionado y con
nerse muestras representativas utilizando técnicas la misma probabilidad.
no probabilísticas.
En todas las técnicas probabilísticas la selección Como se deduce del ejemplo anterior, el primer
de las unidades se realiza al azar y se evita la posible paso es preparar una lista de las unidades de mues-
parcialidad, consciente o inconsciente, de los inves- treo, numerándolas, por ejemplo, de forma secuen-
tigadores. Por esta razón, es más probable que las cial. Este proceso puede ser fácil y rápido si la po-
muestras tiendan a ser representativas, aunque ello blación de referencia se encuentra en una base de
no significa que estén exentas de error. En realidad, datos informatizada, o muy laborioso si se realiza
la muestra seleccionada no es más que una de las manualmente y la población es amplia. A continua-
muchas que podrían obtenerse de la población de ción, se seleccionan tantos números aleatorios co-
referencia. Es probable que la estimación de la mo elementos debe tener la muestra. La selección
variable obtenida a partir de una muestra difiera de de números aleatorios suele realizarse con un orde-
su verdadero valor en la población de referencia nador o una calculadora de mano.
por azar (error aleatorio o debido al muestreo), y lo Esta técnica es sencilla y de fácil comprensión, y
es más cuanto menor es el tamaño de la muestra. El permite el cálculo rápido de medias y variancias.
uso de muestras probabilísticas permite la aplica- Requiere, sin embargo, que se conozca de antema-
ción de técnicas estadísticas capaces de cuantificar no la lista completa de todas las unidades de mues-
este error aleatorio. treo. Si la lista contiene fallos u omite segmentos de
la población, se perderán las ventajas propias del
Muestreo aleatorio simple muestreo aleatorio, ya que todas las unidades no
Es aquella técnica en la que cada unidad del marco tendrán la misma probabilidad de aparecer en la
muestral tiene la misma probabilidad de ser escogi- muestra.
da y en la que cada una de las posibles muestras del
mismo tamaño tienen la misma probabilidad de ser Muestreo aleatorio estratificado
escogidas. El muestreo aleatorio simple es, pues, un Se trata de una modificación del método anterior
procedimiento equiprobabilístico, pero no todo que intenta asegurar que la muestra presente la
método equiprobabilístico es aleatorio simple. misma distribución que la población en relación
con determinadas variables.
Ejemplo 16.5. Silva (1993) ilustra este concepto con La población se divide en estratos en función de
el siguiente ejemplo: supongamos un grupo de las categorías de las variables por las que se desea
10 niños ordenados alfabéticamente, de los que se estratificar, formando subgrupos con alguna carac-
quiere seleccionar una muestra de 5 niños. Consi- terística en común y mutuamente excluyentes.
deremos los tres siguientes procedimientos de se- A continuación, se escoge una muestra aleatoria de
lección: a) tomar los 5 primeros de la lista; b) dividir cada estrato, manteniendo las proporciones obser-
el listado en dos grupos (los 5 primeros y los 5 úl- vadas en la población de referencia (muestreo aleato-
timos), lanzar una moneda al aire y tomar como rio estratificado proporcional).
muestra los elementos del primer grupo en caso de Los estratos deben definirse en función de varia-
obtener cara, y los del segundo en caso de obtener bles que puedan influir sobre los resultados. Si se
cruz, y c) numerar los 10 elementos y obtener 5 nú- desea determinar la prevalencia de HTA en una co-
meros aleatorios. El método a no es probabilístico, munidad, posibles factores de confusión serían,
ya que los últimos 5 niños del listado no podrán sa- entre otros, la edad, el sexo o la presencia de obesi-
lir en la muestra. El método b es equiprobabilístico dad, ya que son variables relacionadas con la pre-
porque todos los niños tienen la misma probabili- sencia de HTA. Si se aplicara un muestreo aleatorio
dad de salir en la muestra, pero no es aleatorio sim- simple, podría obtenerse una muestra en la que la
ple, ya que sólo dos muestras pueden ser elegidas distribución de estas variables no fuera la misma
(existen subconjuntos de 5 elementos que no po- que en la población, lo que conduciría a un sesgo
drían ser seleccionados). El método c es aleatorio en los resultados. Un muestreo estratificado por

153
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

estos factores garantizaría una distribución similar sí (miembros de distintos estratos no comparten la
a la de la población de referencia. variable).
En general, con el muestreo estratificado se ob-
Ejemplo 16.6. Supongamos un marco de muestreo tienen estimaciones más precisas que con el mues-
de 2.000 personas en las que se desea estimar la pre- treo aleatorio simple, porque la variancia total se
valencia de hipertensión arterial (HTA), estudian- basa en la de cada uno de los estratos, y éstos son
do para ello una muestra de 250 sujetos. Se conoce más homogéneos que la población. El aumento de
que la prevalencia de HTA varía en función del precisión que se consigue depende de las diferen-
sexo y la presencia de obesidad. Por tanto, los inves- cias entre los estratos. Cuanto mayor sea esta dife-
tigadores desean que la muestra en que se realizará rencia, y menor la variabilidad dentro de cada estra-
el estudio refleje fielmente la distribución, según el to, mayor será la reducción de la variancia que se
sexo y la presencia de obesidad que tiene la pobla- produce. Por tanto, siempre que se utiliza un mues-
ción de referencia, que se muestra en la tabla 16.1. treo estratificado, debe tenerse en cuenta en el aná-
Así, por ejemplo, existe un 12% de hombres obe- lisis, al realizar las estimaciones.
sos, por lo que, de los 250 sujetos de la muestra, un Cuando alguno de los estratos tiene un tamaño
12% deberán tener estas características. Por tanto, reducido, puede desaparecer esta ventaja, ya que
de los 240 hombres obesos de la población, deben disminuiría la precisión de la estimación en dicho
seleccionarse aleatoriamente 30 para formar parte estrato y podría afectar a la de la estimación global.
de la muestra. Se procede de la misma forma con En esta situación, puede aplicarse un muestreo no
los otros estratos (tabla 16.1). proporcional que sobrerrepresente este estrato, apli-
cando sobre él una fracción de muestreo diferente.
La correcta aplicación de esta técnica requiere Esta alternativa dificulta el análisis, ya que la esti-
que se conozca la distribución en la población de mación del parámetro en el global de la muestra
la(s) variable(s) empleada(s) para la estratificación deberá hacerse a partir de cada estrato por separa-
y que la variabilidad entre los distintos estratos sea do, y ponderando la diferente variabilidad de cada
lo más amplia posible, mientras que dentro de cada uno de ellos. De hecho, el muestreo no propor-
estrato debe ser lo más pequeña posible. Así, se ob- cional se utiliza más cuando la finalidad es realizar
tendrán subgrupos homogéneos respecto a la posi- comparaciones entre los estratos, con el fin de ase-
ble variable de confusión (todos los miembros de gurar que cada uno de ellos tiene el tamaño sufi-
un estrato la presentan o no) y heterogéneos entre ciente para obtener estimaciones con la suficiente
precisión.

Tabla 16.1. Muestreo estratificado Ejemplo 16.7. Supongamos que se lleva a cabo una
(ejemplo 16.6) encuesta entre los médicos de atención primaria
para conocer su opinión sobre un determinado
Distribución de una población de 2.000 personas problema de salud. La distribución de médicos
en función del sexo y la obesidad según su ámbito de trabajo es la siguiente: 230
Varones Mujeres Total (. 56%) trabajan en el medio urbano, 160 (39%) en
el semiurbano y 20 (5%) en el rural. Si se seleccio-
Obesidad 240 (12%) 320 (16%) 560 (28%)
nara una muestra de 100 médicos y se mantuvieran
No obesidad 960 (48%) 480 (24%) 1.440 (72%) las mismas proporciones, sólo se conseguirían las
Distribución de una muestra de 250 personas respuestas de 5 médicos rurales, lo cual sería insufi-
que mantiene la misma distribución en función ciente para conocer su opinión y compararla con la
del sexo y la obesidad que la población general de otros grupos. Los investigadores deciden aplicar
diferentes fracciones de muestreo en cada uno de
Varones Mujeres Total los estratos (urbanos, 20%; semiurbanos, 30%; ru-
Obesidad 30 (12%) 40 (16%) 70 (28%) rales, 100%), con lo que la distribución de encues-
No obesidad 120 (48%) 60 (24%) 180 (72%) tados es de 46, 48 y 20, respectivamente. Hay que
tener en cuenta las diferentes fracciones si se quie-

154
MUESTREO

ren realizar estimaciones globales de toda la mues- personas. Además, si una o varias familias son muy
tra, lo que añade cierta dificultad al análisis. Si se numerosas contribuirán de una forma despropor-
tiene la intención de realizar un análisis sólo de los cionada al tamaño de la muestra
subgrupos por separado, no es necesario tener en Otro inconveniente es que la variabilidad es ma-
cuenta las diferentes fracciones de muestreo, por- yor que las técnicas anteriores, y su cálculo es com-
que cada estrato puede considerarse como una po- plejo. Una solución parcial es extraer una muestra
blación diferente. de mayor tamaño y considerarla como aleatoria
simple, y procurar que las unidades de muestreo
Muestreo en múltiples etapas sean lo más pequeñas posible.
Esta técnica consiste en seleccionar unidades de
muestreo de una población (unidades primarias), Ejemplo 16.8. Un estudio tenía por objetivo co-
y, en una segunda etapa, obtener una muestra de nocer las creencias y opiniones de los escolares
cada una de las unidades primarias (unidades se- respecto al tabaco, el alcohol y el ejercicio físico
cundarias). Por ejemplo, si se desea estudiar la pre- (Comín et al, 1989). Se seleccionó una muestra re-
valencia de escoliosis en niños de edad escolar, una presentativa de escolares de la ciudad de Barcelo-
manera de seleccionar la muestra sería elegir al na. La técnica de muestreo empleada fue la de con-
azar escuelas y, dentro de cada una, una muestra de glomerados en varias etapas. Se tomó como unidad
niños. Se pueden usar el número de etapas que de muestreo el aula, estratificando por las siguien-
sean necesarias y, en cada una de ellas, aplicar un tes variables: curso, tipo de escuela (pública, priva-
método diferente de muestreo (simple, estratifica- da) y tamaño del curso (número de aulas). Es im-
do, sistemático). Cuando en el estudio se incluyen portante remarcar que todos estos factores están
todas las unidades secundarias (es decir, la fracción relacionados con las variables estudiadas; el curso
de muestreo es del 100%), se denomina muestreo en se asocia a los hábitos de vida a través de la edad, y
conglomerados. el tipo de escuela, a través de la clase social. La es-
Esta técnica es útil cuando la población de refe- tratificación permite obtener estimaciones más pre-
rencia es muy grande y está dispersa, como en el cisas. El empleo del muestreo por conglomerados
caso de la población escolar de un país o una gran es prácticamente inevitable al estudiar la población
ciudad. El uso de una técnica aleatoria simple sería escolar. El aumento de la variabilidad que acom-
muy costoso, ya que la muestra incluiría a pocos paña a la utilización de conglomerados se minimiza
estudiantes de cada institución y los investigadores al tomar el aula, en lugar del colegio, como unidad
tendrían que ir a casi todas ellas para entrevistarlos primaria de muestreo, y se compensa parcialmente
o examinarlos, rentabilizando muy poco cada viaje. con la estratificación.
Además, es probable que no se disponga de un lis-
tado de todos los niños en edad escolar de una ciu- Muestreo sistemático
dad, pero sí de una lista de escuelas, y que cada una Este procedimiento se basa en aplicar alguna regla
de ellas tenga el listado de sus alumnos. sistemática simple, como elegir uno de cada n indivi-
Su desventaja principal es que si las unidades duos. Los pasos a seguir son los siguientes: en primer
primarias contienen personas similares en relación lugar, se calcula la constante de muestreo (k), dividiendo
con el fenómeno de interés, la precisión de la esti- el total de la población candidata por el tamaño de la
mación será menor que si se utiliza un muestreo muestra deseado. A continuación, se extrae la pri-
aleatorio simple, por ejemplo. Si se considera un es- mera unidad al azar entre las k primeras unidades de
tudio sobre los hábitos alimentarios de una comu- muestreo, y se le suma la constante, sucesivamente,
nidad y se encuesta a 100 individuos obtenidos me- hasta completar el tamaño de la muestra.
diante un muestreo aleatorio simple, el grado de
información y la precisión de las estimaciones no Ejemplo 16.9. Supongamos que deseamos obtener
será igual que si se estudian 100 individuos (unidad se- una muestra de 200 historias clínicas de un archi-
cundaria) procedentes de 25 familias (unidad pri- vo de 1.000 historias. La constante de muestreo es
maria). Los hábitos alimentarios son muy parecidos 1.000/200 = 5, lo que significa que se escoge una de
entre miembros de una misma familia, por lo que, cada 5 historias. La primera se elige de forma alea-
en realidad, es casi como si sólo se estudiara a 25 toria entre los números del 1 al 5. Si la elegida es la

155
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

2, la siguiente es la 7 (2 + 5), después la 12 (7 + 5), Las ventajas y desventajas de cada uno de los mé-
la 17 (12 + 5) y así, sucesivamente, hasta conseguir todos de muestreo probabilístico se encuentran en
las 200 historias necesarias. la tabla 16.2.

La primera ventaja del muestreo sistemático es Muestreo no probabilístico


que es fácil de aplicar y, en ocasiones, es más cómo- En el muestreo no probabilístico se desconoce la
do y práctico que el muestreo aleatorio simple. Es probabilidad que posee cada unidad de ser incluida
más sencillo, por ejemplo, escoger todas las historias en la muestra, y la selección se realiza mediante mé-
cuyo número termina en cero que a partir de un lis- todos en los que no interviene el azar.
tado de números aleatorios. La segunda es que no El uso de pruebas estadísticas requiere que la
siempre es necesario tener de antemano una lista muestra analizada sea aleatoria. Su aplicación en
completa y exhaustiva de toda la población. Los muestras no obtenidas por un método aleatorio se
sujetos se pueden ir seleccionando a medida que el hace asumiendo que están libres de sesgos y que
estudio avanza, siempre y cuando lleguen en algún son representativas de la población de referencia.
orden preestablecido, como por ejemplo, los pa- La técnica más frecuente es el muestreo consecuti-
cientes que acuden a una consulta. La tercera ven- vo. Consiste en seleccionar a los pacientes que cum-
taja es que, cuando la población de referencia está plen los criterios de selección especificados en el
ordenada siguiendo una tendencia conocida (de protocolo del estudio, a medida que acuden a la
mayor a menor, de más viejo a más joven, etc.), el consulta durante un período determinado.
muestreo sistemático asegura una cobertura de uni-
dades de todos los tipos. Si interesa extraer una Ejemplo 16.11. Lee et al (2002) compararon las ca-
muestra de los médicos de una provincia y el racterísticas de 1.546 pacientes que acudieron con-
Colegio profesional tiene las listas ordenadas por el secutivamente a un centro de salud con las de la
año de licenciatura, podría darse el caso de que con población de referencia. Observaron que los pa-
un muestreo aleatorio simple predominaran los cientes incluidos en la muestra consultaban con
médicos de una determinada edad. Sin embargo, mayor frecuencia, eran mayores, con peor estado
con un muestreo sistemático, se aseguraría una de salud (mayor prevalencia de HTA, AVC y cán-
muestra que representara todos los años de licen- cer), menos fumadores y vivían solos, con mayor
ciatura. frecuencia.
La limitación más importante para su uso apare-
ce cuando la constante que se aplica está relaciona- El muestreo consecutivo es la técnica más utili-
da con el fenómeno que se quiere medir. En este zada en los ensayos clínicos. Si se evalúa la eficacia
caso se pueden hallar estimaciones muy distorsio- de una medida terapéutica contra la gastroenteritis,
nadas de los parámetros poblacionales. no se dispone al inicio del estudio de un listado de
la población que desarrollará la enfermedad, por lo
Ejemplo 16.10. Supongamos que se quiere estu- que no puede aplicarse un muestreo aleatorio sim-
diar la actividad asistencial de un equipo de aten- ple. En esta situación, el equipo investigador se
ción primaria y que la unidad de muestreo son los limita a reclutar a los individuos que cumplen los
días de la semana. Si el primer día seleccionado criterios de selección a medida que son diagnosti-
fuera un lunes y se aplicara una constante (k = 7), cados.
se recogería únicamente la actividad realizada los La inclusión de voluntarios es otra técnica de
lunes de cada semana. Con este procedimiento se muestreo no probabilístico. En general, es preferi-
sobreestimaría la media real de visitas, ya que tra- ble rechazar su colaboración, ya que las verdaderas
dicionalmente los lunes son los días de mayor razones que llevan a una persona a prestarse para
actividad. Como puede deducirse, estas situacio- un estudio sin haber sido seleccionado para ello
nes son muy poco frecuentes y, en todo caso, es suelen estar relacionadas con otras características
relativamente fácil intuir que la constante de que afectan a la representatividad de la muestra.
muestreo está relacionada con el fenómeno de Otra técnica utilizada en encuestas de opinión y
estudio. de mercado, pero muy poco en la investigación epi-

156
MUESTREO

Tabla 16.2. Ventajas y desventajas de las principales técnicas de muestreo probabilístico

Ventajas Desventajas

Muestreo aleatorio simple


– Sencillo y de fácil comprensión – Requiere que se posea de antemano un listado
– Cálculo rápido de medias y variancias completo de toda la población
– Cuando se trabaja con una muestra pequeña,
es posible que no sea representativa de la población
Muestreo aleatorio estratificado
– Tiende a asegurar que la muestra representa – Se ha de conocer la distribución en la población
adecuadamente a la población en función de las variables utilizadas en la estratificación
de unas variables determinadas – Requiere que se posea de antemano un listado
– Se obtienen estimaciones más precisas completo de toda la población
– Se pueden aplicar distintas fracciones de muestreo – Cálculo de las estimaciones más complejo
en cada estrato que en el muestreo aleatorio simple
Muestreo en etapas múltiples
– Es muy eficiente cuando la población – Las estimaciones son menos precisas que con
es muy grande y dispersa el muestreo aleatorio simple o estratificado
– La necesidad de listas de las unidades de una etapa – El cálculo de las estimaciones es complejo
se limita a aquellas unidades de muestreo
seleccionadas en la etapa anterior
Muestreo sistemático
– Fácil de aplicar – Si la constante de muestreo está asociada con
– No siempre es necesario disponer de una lista el fenómeno de interés, se pueden obtener
de toda la población estimaciones sesgadas
– Cuando la población está ordenada siguiendo
una tendencia conocida, asegura una cobertura
de unidades de todos los tipos

demiológica, es el muestreo por cuotas, en el que la En las técnicas adaptativas el diseño del muestreo
composición general de la población de referencia se adapta en función de las observaciones que se
en términos de características como la edad, el se- van realizando durante el estudio, por ejemplo, so-
xo, o la clase de educación se decide, o se conoce, licitando a los participantes en un estudio sobre
de antemano. Seguidamente, se determina el nú- consumo de drogas que informen al investigador
mero de personas requerido, o las cuotas, para los sobre otros consumidores. Dependiendo del meca-
hombres y mujeres, según las diferentes edades y la nismo de adaptación, reciben nombres como bola
clase de educación, siendo el único requerimiento de nieve, paseos aleatorios o muestreo en red. Estas técni-
conseguir el número adecuado de personas para cas son especialmente útiles cuando la población
llenar cada una de las cuotas. de interés es difícil de alcanzar, ya que, además de
En algunas ocasiones, en especial cuando tanto la ganancia que suponen en términos de eficiencia
el tamaño de la población de referencia como el de en relación con las técnicas convencionales, pue-
la muestra son muy pequeños, la selección puede den ser la única forma operativa de obtener una
hacerse por criterios razonados. Por ejemplo, si se muestra lo suficientemente amplia. Su principal
desea conocer el funcionamiento de los centros inconveniente es que deben aplicarse procedimien-
de salud de una provincia a través de un análisis tos estadísticos que tengan en cuenta su utilización.
exhaustivo de dos de ellos, es preferible seleccionar
los dos centros que puedan considerarse los más re- La figura 16.1 presenta un algoritmo para la se-
presentativos, en vez de dejar la selección al azar. lección de la técnica de muestreo.

157
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

¿Existe una
No población de referencia Sí
accesible y bien diferenciada
antes de iniciar
el estudio?

Muestreo Muestreo
no probabilístico probabilístico

¿La población
de referencia es muy
grande, dispersa y está agrupada
por alguna
No característica? Sí

Muestreo en
múltiples etapas

¿Interesa
a priori controlar la
distribución de alguna variable
de confusión?
No Sí

Muestreo aleatorio Muestreo


simple o sistemático estratificado

Las preguntas son orientativas y han de realizarse en función de las ventajas y desventajas de cada técnica

Figura 16.1. Algoritmo para la selección de la técnica de muestreo.

B IBLIOGRAFÍA DE LOS EJEMPLOS personality, and clinic versus community sampling. J Af-
Andersen LB, Henckel P, Saltin B. Risk factors for cardio- fect Disord 2002; 70: 143-154.
vascular disease in 16-19 year old teenagers. Int J Med Silva Ayçaguer LC. Muestreo para la investigación en cien-
1989; 225: 157-163. cias de la salud. Madrid: Díaz de Santos, 1993.
Comín E, Nebot M, Villalbí JR. Exercici i consum de tabac i
alcohol dels escolars de Barcelona. Gac Sanit 1989; 3: B IBLIOGRAFÍA
355-365. Armitage P, Berry G, Matthews JNS. Statistical methods in me-
Fuchs SC, Petter JG, Accordi MG, Zen VL, Pizzol AD Jr, dical research. 4.a ed. Oxford: Blackwell Science, 2002.
Moreira LB et al. Establishing the prevalence of hyper- Kelsey JL, Wittemore AS, Evans A, Thompson WD. Methods
tension. Influence of sampling criteria. Arq Bras Cardiol in observational epidemiology. 2.a ed. New York. Oxford
2001; 76: 445-452. University Press, 1996.
García Olmos LM, Pérez Fernández MM, Bassolo Abad A, Phillips CV, LaPole LM. Quantifying errors without random
Abraira V, Gervás JJ. Estudios de morbididad ambulato- sampling. BMC Med Res Methodol. 2003; 3: 9.
ria: ¿qué muestra elegir? Aten Primaria 1987; 4: 136-139. Rodríguez Osuna J. Métodos de muestreo. Colección «Cua-
Lee ML, Yano EM, Wang M, Simon BF, Rubenstein LV. What dernos metodológicos» núm. 1. Madrid: Centro de In-
patient population does visit-based sampling in primary vestigaciones Sociológicas, 1991.
care settings represent? Med Care 2002; 40: 761-770. Thompson SK, Collins LM. Adaptive sampling in research
Luty SE, Joyce RR, Mulder RT, McKenzie JM. Social adjust- on risk-related behaviors. Drug Alcohol Depend 2002; 68
ment in depression: the impact of depression severity, (Suppl 1); S57-S67.

158
Capítulo 17
Formación de los grupos de estudio

PRINCIPIO DE COMPARABILIDAD de selección, el control de los factores de confusión,


y eliminar o reducir el sesgo de información.
Los estudios analíticos tratan de estimar el efecto
Existen algunas técnicas que pueden ser útiles
de un factor de estudio sobre una variable de res-
para intentar asegurar la comparabilidad inicial de
puesta, o la magnitud de la asociación entre ambas los grupos. La asignación aleatoria de los sujetos a los
variables, mediante la comparación de los resulta- grupos de estudio se basa en la tendencia que tiene
dos observados en un grupo de estudio con los ha- el azar de formar grupos que presenten distribucio-
llados en otro grupo que actúa de referencia o con- nes similares de todos los factores conocidos o no.
trol. La función del grupo control es proporcionar Esta técnica sólo es utilizable en los estudios experi-
una estimación del valor de la variable de respuesta mentales. El emparejamiento (matching) consiste
en ausencia del factor de estudio. El grupo control en seleccionar, para cada individuo del grupo de
debe ser comparable al de estudio en todas aquellas estudio, uno o varios sujetos de referencia similares
variables que puedan influir sobre la respuesta, de en las características que se desean controlar, y se
forma que permita aislar el efecto del factor de es- emplea preferentemente en los estudios de casos y
tudio del causado por otros factores. controles. Estas estrategias suelen complementarse
La formación de los grupos debe realizarse de con la restricción de los criterios de selección, de for-
forma que éstos no difieran significativamente en la ma que tanto el grupo de estudio como el de con-
distribución de las variables pronósticas, excepto trol sean homogéneos.
en la del factor de estudio. La comparabilidad de Teniendo en cuenta el principio de comparabi-
los grupos, desde el inicio del estudio hasta el final, lidad, lo más adecuado es que el grupo control sea
es fundamental, ya que de ella dependerá, en gran contemporáneo o concurrente, es decir, que la medi-
medida, la validez de las conclusiones. ción de las variables se realice durante el mismo pe-
Existen tres conceptos básicos relacionados con ríodo de tiempo que en los sujetos del grupo de
la comparabilidad de los grupos, que intentan mi- estudio. El uso de otros tipos de grupo control tiene
nimizar los sesgos: debe conseguirse que los sujetos ciertas limitaciones.
tanto del grupo de estudio como del de control Por controles históricos se entiende un grupo de
sean representativos de una misma población de pacientes que se asume que tuvieron la misma en-
referencia; deben controlarse los posibles factores fermedad o condición que el grupo que se va a estu-
de confusión, y debe obtenerse información váli- diar, pero que fueron diagnosticados, tratados o
da de todos los sujetos de ambos grupos. Sus objeti- seguidos en un espacio de tiempo anterior. Su in-
vos son, respectivamente, eliminar o reducir el sesgo conveniente es que es difícil asegurar que los cri-

159
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

terios de selección y seguimiento de los sujetos, de COMPARABILIDAD DE LOS GRUPOS


medición y evaluación de la respuesta, y la distribu- EN ESTUDIOS OBSERVACIONALES
ción de las variables pronósticas son similares a las
El proceso de formación de los grupos depende del
del grupo de estudio (tabla 17.1).
tipo de estudio. En los diseños observacionales, se
Otros tipos de grupo control que pueden utili-
realiza en función de la existencia o no de la enfer-
zarse en algunas ocasiones son las series de pacien-
medad de interés (estudios de casos y controles) o
tes obtenidos de la literatura, de bases de datos o a
de la presencia o no de la exposición (estudios de
partir de su participación en algún otro estudio, o
cohortes). En los estudios experimentales la situa-
incluso datos correspondientes a la población gene-
ción es muy distinta, ya que los sujetos se asignan a
ral. Estos grupos tienen limitaciones similares a las
los diferentes grupos que se desea comparar por un
comentadas para los controles históricos.
procedimiento aleatorio.
Dado que en los estudios observacionales el in-
Tabla 17.1. Argumentos en contra vestigador no decide a qué grupos serán asignados
de la utilización de controles los sujetos, pueden aparecer limitaciones impor-
históricos tantes en la comparabilidad inicial.

• Posibilidad de sesgos de selección E STUDIOS DE COHORTES


• Posibilidad de que se hayan presentado cambios En los estudios en los que se define una cohorte ge-
en los criterios diagnósticos, exploraciones, etc., neral cuyos sujetos se clasifican en expuestos (co-
durante el tiempo transcurrido horte de estudio) y no expuestos (cohorte interna
de comparación), puede asegurarse que ambos
• Dificultades para el cálculo de las pruebas
grupos proceden de la misma población de estudio
de significación estadística
(cohorte general) (fig. 17.1). Esta situación es muy
• Menor capacidad de convencimiento similar a la de los ensayos clínicos, excepto que, en
de los profesionales sobre la validez los estudios de cohortes, los sujetos no son asigna-
de las conclusiones dos a los grupos al azar, sino que se clasifican en
• Dificultades para obtener financiación función de su exposición al factor de estudio. Dado
que esta exposición puede estar asociada con otros

Ensayo clínico Estudio de cohortes Estudio de cohortes Estudio de casos


aleatorio con cohorte interna con cohorte externa y controles

Población Población Población Población


de estudio de estudio de estudio de estudio

Muestra Muestra

Asignación
aleatoria

Grupo de Grupo de Grupo Grupo no Grupo Grupo no Casos Controles


intervención referencia expuesto expuesto expuesto expuesto (enfermos) (no enfermos)

Figura 17.1. Formación de los grupos en los diseños analíticos.

160
FORMACIÓN DE LOS GRUPOS DE ESTUDIO

factores pronóstico (potenciales factores de confu- duos que, en el supuesto de desarrollar la enferme-
sión), puede afectarse la comparabilidad inicial de dad, hayan sido detectados como casos. Si no se tie-
los grupos. Por lo tanto, deben medirse todas las va- nen en cuenta estos supuestos, se podría cometer
riables pronóstico conocidas y controlar su influen- un sesgo de selección relacionado con alguna varia-
cia en la fase de análisis para obtener resultados ble ligada al hecho de poder ser detectado como
válidos. En cambio, en los ensayos clínicos aleato- caso. Así, en un estudio de casos y controles hospi-
rios, al existir una asignación al azar de los sujetos a talarios, la selección de los controles a partir de los
los grupos, si el tamaño de la muestra es grande, se individuos ingresados en el mismo hospital en que
tiende a conseguir grupos comparables por todos se han identificado los casos se sustenta en la asun-
los posibles factores de confusión, conocidos o no, ción de que la distribución de la exposición es la
medidos o no. misma que en la población de donde proceden los
Además, la comparabilidad entre los grupos casos. Esta asunción es razonable cuando se cum-
también puede afectarse por las diferencias en la plen dos supuestos:
recogida de la información y por las pérdidas de su-
jetos que puedan haber durante el seguimiento. – El área de influencia del hospital es la misma para los
En los diseños en que no se parte de una cohor- casos y para los controles. Implica que los sujetos que
te general, sino que se identifica un grupo de suje- son ingresados en un hospital como casos habrían
tos expuestos al factor de estudio (cohorte de estu- sido ingresados en el mismo hospital si hubieran
dio) y un grupo de sujetos no expuestos que actúa tenido la enfermedad de los controles, y viceversa,
como control (cohorte externa de comparación) aquellos ingresados como controles hubieran
(ver fig. 17.1), a los problemas comentados ante- sido ingresados en el mismo hospital en el supues-
riormente se les añade la dificultad de asegurar que to de que hubiesen padecido la enfermedad de
la cohorte externa sea representativa de la misma los casos.
población de la que procede la cohorte de estu- – La selección de los controles no está relacionada con la
dio, es decir, de que ambas procedan de una misma exposición en estudio. En la práctica, implica excluir
población. del grupo control a los pacientes que tengan en-
fermedades relacionadas positiva o negativamen-
E STUDIOS DE CASOS Y CONTROLES te con la exposición en estudio. Igualmente, con
El grupo de casos y el de controles deben ser repre- el fin de evitar que los controles puedan concen-
sentativos de una misma población, formada con- trarse en alguna enfermedad relacionada con la
ceptualmente por los miembros de una cohorte exposición, conviene escoger controles con dis-
subyacente, definida por los criterios de inclusión y tintas patologías, con el fin de minimizar un posi-
exclusión (ver fig. 17.1). Un tipo de estudio para- ble sesgo debido al muestreo.
digmático en este sentido es el de casos y controles
anidado en una cohorte, donde se identifica clara-
COMPARABILIDAD DE LOS GRUPOS
mente la cohorte subyacente, de la que proceden
EN LOS ESTUDIOS EXPERIMENTALES:
tanto los casos como los controles.
ASIGNACIÓN ALEATORIA
En los estudios de casos y controles poblaciona-
les, en los que se seleccionan todos los casos que se En los estudios experimentales, el investigador de-
desarrollan en una zona determinada, el grupo be distribuir a los sujetos en dos grupos que sean
control debe ser una muestra representativa de la comparables por los factores pronóstico. La asigna-
población que reside en el área geográfica de la ción aleatoria, también conocida por el anglicismo
que proceden los casos. En estas circunstancias, la randomización, es la técnica que más tiende a asegu-
selección del grupo control se simplifica, ya que rar esta comparabilidad.
puede extraerse una muestra aleatoria de la pobla- La asignación aleatoria significa que la decisión
ción mediante técnicas probabilísticas. de qué tratamiento (o intervención) recibirá cada
En cambio, cuando el diseño no es poblacional, uno de los pacientes incluidos en el estudio se rea-
sino que los casos se detectan sin identificar la co- liza al azar, sin que exista ninguna influencia por
horte subyacente de donde proceden, el grupo parte del propio sujeto o del investigador. Por ello,
control debe ser representativo de aquellos indivi- el ensayo clínico aleatorio es el estudio que propor-

161
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ciona mayor fuerza a los resultados observados, y después de haber tomado la decisión de incluir el
constituye el estándar con el que se compara el res- sujeto en el estudio, de forma que ésta no pueda
to de los diseños de investigación. verse influida por el conocimiento previo de la in-
tervención que debería recibir (ocultación de la se-
VENTAJAS DE LA ASIGNACIÓN ALEATORIA cuencia aleatoria).
Las ventajas de la asignación aleatoria son múltiples La ocultación de la secuencia aleatoria no debe
(tabla 17.2). En primer lugar, tiende a producir una confundirse con el concepto de «ciego». La oculta-
distribución equilibrada de las variables pronósti- ción de la secuencia aleatoria trata de prevenir un
cas, tanto de las conocidas como de las desconoci- sesgo de selección y evita que el investigador conoz-
das, entre los diferentes grupos de estudio. Si el ca la secuencia antes de la asignación, mientras que
proceso es realmente aleatorio, ni el sujeto ni el in- las técnicas de «ciego» tratan de evitar un sesgo de
vestigador influyen en la decisión de qué interven- información y protegen la aleatorización una vez se
ción recibirá cada uno de los participantes. De esta ha producido la asignación.
forma se intenta prevenir posibles sesgos que pue-
dan comprometer la comparabilidad de los grupos. Ejemplo 17.1. Chalmers et al (1983) clasificaron 145
El azar tiende a producir grupos comparables, ensayos clínicos sobre el tratamiento del infarto
pero no lo asegura. Esta tendencia es mayor cuanto agudo de miocardio en tres grupos. El primero de
más elevado es el número de sujetos. Por consiguien- ellos correspondía a aquellos en que el investigador
te, en los estudios que se llevan a cabo con un núme- había sido informado del tratamiento que debía
ro de pacientes relativamente reducido, aumenta la asignar a un paciente después de haber decidido in-
probabilidad de que alguna variable quede distribui- cluirlo en el estudio (ocultación de la secuencia de
da de forma desigual. Si esta variable está relacio- aleatorización). El segundo grupo lo formaban los
nada con la respuesta que se mide, actuará como un estudios en que el tratamiento asignado había sido
factor de confusión. conocido antes de incluir al paciente (asignación
La asignación aleatoria permite el uso del cálcu- aleatoria no ciega), y el tercero, aquellos en los que
lo de probabilidades para determinar hasta qué la asignación no se había realizado de forma alea-
punto una diferencia observada puede ser causada toria. El porcentaje de variables pronósticas que no
por el azar, garantizando que las pruebas estadísti- presentaron una distribución similar en los grupos
cas proporcionen valores de significación válidos. de estudio fue del 35,7 y 34,4%, respectivamente.
Por último, permite el uso de placebo y técnicas de Sólo en el primer grupo este porcentaje se man-
enmascaramiento. tenía por debajo del 5% esperable por azar. En los
El hecho de que la asignación aleatoria propor- otros dos grupos se encontraron diferencias en di-
cione grupos comparables depende, en la práctica, chas distribuciones que favorecían al grupo trata-
de dos aspectos muy relacionados: por un lado, miento en más del 75% de los casos, y conducían a
debe generarse una secuencia aleatoria que no sea una mayor frecuencia de observación de resultados
predecible ni por el investigador ni por el paciente, significativos a favor del tratamiento ensayado, lo
y, por otro, es esencial que la secuencia se aplique que sugiere un sesgo debido al investigador.

Es importante asegurarse de que la asignación


Tabla 17.2. Ventajas de la asignación aleatoria se realiza de forma correcta. Una técnica muy fre-
cuente es la utilización de sobres cerrados numera-
• Tiende a producir una distribución equilibrada
dos. Cuando un paciente cumple los criterios de se-
de las variables pronósticas, conocidas lección y se decide su inclusión en el estudio, se le
y no conocidas asigna un código (habitualmente un número se-
cuencial) y se abre el sobre correspondiente para
• Previene sesgos debidos al propio sujeto conocer qué intervención le ha correspondido.
y al observador
Si el estudio se efectúa con la técnica de doble
• Permite la utilización de las pruebas estadísticas ciego, el sobre contiene un número que codifica la
• Permite el uso de las técnicas de enmascaramiento intervención o el tratamiento correspondiente. En
los estudios multicéntricos puede guardarse la lista

162
FORMACIÓN DE LOS GRUPOS DE ESTUDIO

con la secuencia de las asignaciones en el centro de toria de tratamientos, de forma que los pacientes
coordinación, donde deben telefonear los investi- sean asignados a partir de esta secuencia a medida
gadores cuando se incluye un nuevo paciente para que vayan siendo incluidos en el estudio.
conocer la intervención que le ha sido asignada. Una forma sencilla de proceder a la distribución
Es conveniente que la mecánica del proceso de de los sujetos en dos grupos es la asignación sistemá-
asignación recaiga en personas o servicios no directa- tica, según la cual se asignan alternativamente se-
mente involucrados en el estudio. Por ello, con el gún la secuencia ABABABAB... Sin embargo, este
tiempo cada vez será más frecuente el uso de procesos método no es aleatorio, salvo en todo caso para el
automatizados para realizar la asignación aleatoria. primer individuo, y no es aconsejable su uso, ya que
el investigador conoce qué tratamiento recibirá el
T ÉCNICAS DE ASIGNACIÓN próximo sujeto que entre en el estudio, lo que pue-
Aunque se utiliza una terminología similar, mues- de, por ejemplo, influir en su decisión de incluirlo
treo y asignación son dos conceptos diferentes o no. Lo mismo ocurre si la asignación se realiza se-
(fig. 17.2). La asignación parte de una muestra de gún las fechas de nacimiento (días pares o impares)
pacientes que debe ser distribuida en dos o más o las iniciales de los apellidos.
grupos. En algunas ocasiones, existe un registro La mayoría de las técnicas aleatorias asignan los
previo de la población candidata, a partir del cual sujetos según una probabilidad prefijada, habitual-
puede obtenerse una muestra aleatoria. Después, mente la misma para todos los grupos, y que no se
se procede a la distribución aleatoria de los sujetos modifica a lo largo del estudio. A continuación,
de esta muestra en dos grupos, cada uno de los cua- se presentan los métodos utilizados con mayor
les recibirá una de las intervenciones que se com- frecuencia (tabla 17.3).
paran. Si no se conocen previamente los sujetos
candidatos, deberá prepararse una secuencia alea-
Tabla 17.3. Técnicas de asignación
de los sujetos a los grupos
de estudio

Población diana a) Sistemática


b) Aleatoria
Criterios – Con probabilidad prefijada
de selección
• Asignación aleatoria simple
• Asignación por bloques
Población de estudio • Asignación estratificada
– Adaptativa
Muestreo

Asignación aleatoria simple


Muestra de Es la técnica más sencilla (tabla 17.4). Sería el equi-
sujetos estudiados valente a lanzar una moneda al aire cada vez que
un sujeto fuese incluido en el estudio, de forma
que si saliera cara recibiría la intervención A, y si
Asignación saliera cruz, la intervención B. Con este método,
aproximadamente la mitad de los individuos reci-
biría cada una de las intervenciones.
Los ordenadores y muchas calculadoras pueden
Grupo A Grupo B generar números aleatorios que van de 0 a 0,9999.
Si se trata de asignar los sujetos a dos grupos, puede
establecerse, por ejemplo, que si se obtiene para un
Figura 17.2. Diferencias entre muestreo y asignación individuo un número entre 0 y 0,4999, recibirá la
de los pacientes. intervención A, mientras que si se obtiene un nú-

163
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 17.4. Ventajas y desventajas será asignada a un grupo, y la otra mitad, al otro. El
de la asignación aleatoria simple orden en que estas intervenciones se asignan den-
tro de los bloques es aleatorio, y el proceso se repi-
Ventajas te sucesivamente para cada uno de ellos, hasta que
• Técnica muy sencilla todos los sujetos han sido asignados. Esta técnica
Desventajas
garantiza que, en cualquier momento a lo largo del
• Puede producir desequilibrios en el número proceso, el número de sujetos de cada uno de los
de pacientes asignados a cada uno de los grupos, grupos será muy similar.
sólo por azar
• Puede producir desequilibrios en el número Ejemplo 17.3. Supongamos que se pretende estu-
de sujetos asignados a cada uno de los grupos si diar una muestra de 60 individuos, a los que se de-
el estudio finaliza antes de haber incluido a todos sea asignar aleatoriamente dos tratamientos, A y B.
los sujetos previstos Si se utilizara la técnica de la asignación aleatoria
simple, podría ocurrir que, si sólo se reclutaran
42 pacientes, 27 hubieran recibido el tratamiento
mero entre 0,5 y 0,9999, recibirá la B. Este método A, y los 15 restantes, el B. La asignación por bloques
se puede generalizar cuando son más de dos grupos previene este desequilibrio. Pueden utilizarse, por
y también permite utilizar probabilidades de asigna- ejemplo, bloques de 6 individuos. Se establece una
ción diferentes para cada uno de los grupos. correspondencia entre los números aleatorios y las
posibles combinaciones de las asignaciones en los
Ejemplo 17.2. En un ensayo clínico se desea compa- bloques. Existen 20 permutaciones de bloques de
rar tres grupos, con unas probabilidades de asigna- 6 elementos (tabla 17.5), cada una de las cuales se
ción del 25, 25 y 50%, respectivamente. Puede esta- corresponde con 5 números aleatorios de 2 cifras
blecerse una correspondencia como la siguiente: (del 00 al 99).
Dado que se pretende estudiar a 60 individuos
Entre 0 y 0,2499 = A
y que los bloques son de 6 sujetos, se precisarán
Entre 0,25 y 0,4999 = B
Entre 0,5 y 0,9999 = C
Si se estudia a un número reducido de pacientes, Tabla 17.5. Asignación por bloques.
puede existir un cierto desequilibrio en la cantidad Permutaciones de las asignaciones
de ellos que ha sido asignada a cada uno de los gru- de dos tratamientos en bloques
pos. Existen dos técnicas para prevenir este proble- de 6 sujetos
ma: supongamos que se dispone de una muestra de
40 sujetos, y se desea distribuirla en dos grupos Números Números
de forma que cada uno tenga el mismo número de Permutación aleatorios Permutación aleatorios
pacientes. Se procede a la lectura de la tabla de nú-
meros aleatorios y se obtiene una secuencia de 20 AAABBB 00-04 BAAABB 50-54
números de dos cifras entre 0 y 40, que correspon- AABABB 05-09 BAABAB 55-59
den a los sujetos que recibirán el tratamiento A. Los AABBAB 10-14 BAABBA 60-64
AABBBA 15-19 BABAAB 65-69
20 individuos restantes recibirán el tratamiento B.
ABAABB 20-24 BABABA 70-74
Sin embargo, esta técnica no previene la aparición
ABABAB 25-29 BABBAA 75-79
de desequilibrios si se finaliza el estudio antes de lo
ABABBA 30-34 BBAAAB 80-84
previsto, ya que la distribución se equilibra al asig- ABBAAB 35-39 BBAABA 85-89
nar los 40 sujetos. La otra técnica es la asignación ABBABA 40-44 BBABAA 90-94
por bloques. ABBBAA 45-49 BBBAAA 95-99

Asignación por bloques


A partir de una tabla de dígitos aleatorios, se seleccionan
Esta técnica consiste en crear unos bloques de un ta- números de dos cifras, cada uno de los cuales corresponde a un
maño prefijado, múltiplo de dos, de forma que la bloque de 6 pacientes, a los que se asignan los dos tratamientos
mitad de los sujetos de cada uno de estos bloques en la secuencia correspondiente.

164
FORMACIÓN DE LOS GRUPOS DE ESTUDIO

10 bloques. A partir de una tabla se seleccionan aleatorio 80 pacientes hipertensos esenciales con
10 números aleatorios de dos cifras. Utilizando las edades comprendidas entre los 40 y 70 años. Se con-
correspondencias de la tabla 17.5, se sustituye cada sidera que la edad y la presencia de obesidad son
uno de ellos por la permutación de 6 pacientes co- variables pronósticas que pueden influir en la res-
rrespondiente. Si los números obtenidos son 21, 47, puesta a dichos tratamientos. Dado que el tamaño
29, etc. la secuencia de asignación de los tratamien- de la muestra no es muy elevado, se desea prevenir
tos sería ABAABB ABBBAA ABABAB... Como pue- la posible aparición de desequilibrios en la distribu-
de apreciarse, en ningún momento existirá una di- ción de estas variables en los grupos de estudio. Para
ferencia de más de tres sujetos (la mitad del tamaño ello se procede a una asignación estratificada (tabla
del bloque) entre ambos grupos. 17.7). En primer lugar, se divide la muestra en fun-
ción de tres grupos de edad (40-49, 50-59 y 60-69
Otra ventaja de este procedimiento es que, si el años, respectivamente) y la presencia o ausencia de
tipo de sujetos reclutados cambia durante el perío- obesidad, y se distribuye a los 80 individuos en los
do de inclusión (p. ej., porque se utilizan consecu- 6 estratos. Posteriormente, se procede a la asigna-
tivamente diferentes fuentes de pacientes), la asig- ción de los sujetos que forman cada uno de los es-
nación por bloques producirá grupos que incluso tratos a los dos grupos de tratamiento, ya sea con la
serán más comparables. técnica aleatoria simple o por bloques.
El número de estratos que se crean es igual al
Asignación estratificada producto del número de subgrupos que se conside-
Implica la división de la muestra en subgrupos en ran por cada variable de estratificación. Si se uti-
función de las variables pronósticas consideradas, lizan muchas variables, se crea un gran número
procediéndose, a continuación, a la asignación de estratos, lo que hace que el tamaño de alguno de
aleatoria de los sujetos dentro de cada uno de los ellos pueda ser muy reducido. No se aconseja crear
estratos, utilizando alguna de las técnicas ya comen- más de 8 o 10 estratos.
tadas. Esta técnica ayuda a prevenir la aparición de Las variables de estratificación son diferentes
desequilibrios en la distribución de las variables para cada estudio y deben considerarse únicamente
pronósticas (tabla 17.6). las que tengan verdadera importancia sobre la res-
puesta a la intervención. No tiene sentido estratifi-
Ejemplo 17.4. Supongamos que en un estudio sobre car por variables fisiológicas o sociodemográficas,
la eficacia de dos tratamientos, A y B, para la hiper- como la edad, el sexo o la profesión, si no existe
tensión arterial, se incluyen en un ensayo clínico ningún motivo para sospechar que puedan mo-
dificar la respuesta o su evaluación. También debe
tenerse presente que los estratos han de ser exclu-
yentes para evitar que existan ambigüedades en la
Tabla 17.6. Ventajas y desventajas de la
asignación aleatoria estratificada
inclusión de los sujetos a los diferentes subgrupos.
Al mismo tiempo, estos estratos deben ser lo sufi-
cientemente distintos como para sospechar que los
Ventajas
resultados puedan ser diferentes en cada uno de
• Previene desequilibrios en la distribución
de las variables pronósticas consideradas en
ellos, y homogéneos en su interior para facilitar la
la estratificación (muy útil en estudios con detección de diferencias.
un reducido número de sujetos) Dentro de cada estrato es preferible usar una
• Disminuye la variabilidad dentro de los estratos, técnica de asignación por bloques, con el fin de que
y aumenta, en consecuencia, la potencia el proceso sea más efectivo.
estadística del estudio Una asignación estratificada debe tenerse en
cuenta en el momento del análisis. Los individuos
Desventajas
incluidos en cada uno de los estratos son similares
• Complica el análisis estadístico
• Si existen muchos estratos, puede haber un
en cuanto a las características pronósticas conside-
número muy reducido de sujetos en alguno radas, por lo que la variabilidad es menor y permite
de ellos (no se aconsejan más de 8-10 estratos) aumentar la potencia del ensayo si se utilizan las
técnicas estadísticas adecuadas.

165
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 17.7. Asignación estratificada según la edad y la obesidad, con posterior asignación en bloques
de 4 sujetos en cada uno de los estratos (ejemplo 17.6)

Edad (años) Obesidad Número de sujetos Asignación

40-49 Sí 8 ABAB BBAA


No 12 BBAA ABBA...
50-59 Sí 12 AABB BABA...
No 8 AABB ABBA
60-69 Sí 28 BAAB ABAB...
No 12 BBAA ABBA...

Técnicas adaptativas ron 45.130 mujeres residentes en la ciudad, con


Existen otras técnicas en las que la probabilidad de edades comprendidas entre 45 y 64 años, que acu-
asignación se va modificando, adaptándose, a medida dieron a dichas consultas durante un período de
que el estudio progresa. Pueden clasificarse en dos 4 años. La distribución por edades de estas pacien-
grandes grupos. Por un lado, las que adaptan la pro- tes fue prácticamente idéntica en ambos grupos.
babilidad de asignación según la aparición de dese- Dado que la consulta es la unidad de asignación, el
quilibrios en la distribución de las variables pronósti- análisis requirió la comparación de las tasas de mor-
cas o en el número de sujetos de cada uno de los talidad por cáncer de mama de cada una de ellas.
grupos. Por otro, las que la ajustan en función de la Sin embargo, el estado socioeconómico, muy rela-
respuesta observada en los pacientes estudiados, e cionado con el tipo de consulta, presentó grandes
intentan minimizar el número de sujetos que reciben diferencias en su distribución, con una proporción
la intervención menos eficaz. La descripción de estas claramente mayor de pacientes de clase socioe-
técnicas sobrepasa el ámbito de este texto. conómica elevada en el grupo de cribado respecto
al control (52,5 y 15,3%, respectivamente). Ello
Asignación por grupos obligó a los autores a tener en consideración esta
En algunas ocasiones resulta más práctico asignar variable en el análisis, para evitar su posible efecto
grupos de pacientes, por ejemplo, por centros, por de confusión (Alexander et al, 1989).
consultas o por áreas geográficas. Este procedi-
miento es útil para evitar el fenómeno de contami- Si los integrantes de los grupos presentan algu-
nación que aparece cuando un individuo se somete, na característica común que influya en los resulta-
total o parcialmente, a la intervención destinada a dos, pequeñas diferencias en la distribución de las
los sujetos del otro grupo. unidades pueden comportar grandes diferencias
en la estimación de la respuesta. En el ejemplo an-
Ejemplo 17.5. En el Edinburgh Randomised Trial of terior puede apreciarse que sólo existen 78 unida-
Breast Cancer Screening, cuyo objetivo era de- des de asignación, cada una de ellas integrada por
terminar si el cribado reducía la mortalidad por un promedio de casi 6.000 mujeres. Así pues, un de-
cáncer de mama, los médicos consideraron inacep- sequilibrio de tan sólo 3 o 4 consultas en las que
table ofrecer el cribado a unas pacientes y no ofre- predominen mujeres de clase socioeconómica ele-
cerlo a las otras. Además, existía el riesgo de que las vada implica un desequilibrio de miles de mujeres
pacientes del grupo control conocieran la existen- entre los grupos.
cia del cribado en la consulta y lo solicitaran, lo que Otras veces no es factible realizar la asignación
hubiera supuesto una contaminación. Por tanto, se individual. Es habitual el uso de la asignación por
decidió utilizar la consulta del médico general co- grupos en los estudios de fluoración de las aguas,
mo unidad de asignación. De las 78 consultas que en los que la unidad de asignación es la comuni-
se incluyeron, 37 fueron asignadas al grupo de cri- dad, o en los ensayos de intervención dietética, en
bado, y las 41 restantes al grupo control. Se estudia- los que lo es la familia.

166
FORMACIÓN DE LOS GRUPOS DE ESTUDIO

B IBLIOGRAFÍA DE LOS EJEMPLOS Kernan WN, Viscoli CM, Makuch RW, Brass LM, Horwitz RI.
Alexander F, Roberts MM, Lutz W, Hepburn W. Randomiza- Stratified randomization for clinical trials. J Clin Epide-
tion by cluster and the problem of social class bias. J Epi- miol 1999; 52: 19-26.
demiol Community Health 1989; 43: 29-36. Roberts C, Torgerson DJ. Randomisation methods in con-
Chalmers TC, Celano P, Sacks HS, Smith H. Bias in treat- trolled trials. BMJ 1998; 317: 1301.
ment assignment in controlled clinical trials. N Engl Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
J Med 1983; 309: 1358-1361. dence of bias: dimensions of methodological quality as-
sociated with estimates of treatment effects in controlled
B IBLIOGRAFÍA trials. JAMA 1995; 273: 408-412.
Altman DG, Bland JM. Treatment allocation in controlled Schulz KF, Altman DG, Moher D. Allocation concealment in
trials: why randomise? BMJ 1999; 318: 1209. clinical trials. JAMA 2002; 288: 2406-2407.
Altman DG, Schulz KF. Concealing treatment allocation in Schulz KF, Grimes DA. Generation of allocation sequences
randomised trials. BMJ 2001; 323: 446-447. in randomised trials: chance, not choice. Lancet 2002;
Bracken MB. On stratification, minimization and protection 359: 515-519.
against types 1 and 2 error. J Clin Epidemiol 2001; 54: Schulz KF, Grimes DA. Unequal group sizes in randomised
104-105. trials: guarding against guessing. Lancet 2002; 359: 966-
Chalmers I. Comparing like with like: some historical miles- 970.
tones in the evolution of methods to create unbiased Scott NW, McPherson GC, Ramsay CR, Campbell MK. The
comparison groups in therapeutic experiments. Int method of minimization for allocation to clinical trials a
J Epidemiol 2001; 30: 1156-1164. review. Control Clin Trials 2002; 23: 662-674.
Cobo Valeri E. Necesidad y limitaciones de la asignación ale- Torgerson DJ. Contamination in trials: is cluster randomisa-
atoria. Med Clin (Barc) 2000; 115: 73-77. tion the answer? BMJ 2001; 322: 355-357.

167
Capítulo 18
Medición de variables

edir es asignar valores a una variable. Al- 75 kg y sean obesos, aunque de baja estatura, y otros

M gunas variables son sencillas de medir. La


sensibilidad de un microorganismo a un
antibiótico o el peso de una persona no presentan
que pesen más de 75 kg, pero que no sean obesos al
ser de estatura elevada.

grandes dificultades de conceptualización ni de La fiabilidad expresa el grado en que se obten-


medición. Estas variables se denominan objetivas, ya drían valores similares al aplicar el proceso de medi-
que su definición es clara, deja poco margen a la ción en más de una ocasión, concepto muy relacio-
interpretación por parte del sujeto o del investiga- nado con el de variabilidad aleatoria.
dor y se dispone de un buen instrumento para me-
dirlas. Sin embargo, muchos de los problemas que Ejemplo 18.2. Supongamos que se utiliza una tira
se investigan en ciencias de la salud son difíciles de reactiva colorimétrica para determinar la intensidad
medir. La gravedad de la enfermedad, la intensidad de una proteinuria en una muestra de 20 sujetos. Dos
del dolor, o el propio concepto de salud o de cali- observadores independientes las evalúan y coinciden
dad de vida son variables subjetivas, para las que no tan sólo en cinco de ellas. La determinación de la pro-
existe una definición ni un proceso de medición teinuria por este método no es fiable por la gran varia-
universalmente aceptados. bilidad hallada entre los observadores.
En cualquier estudio, el equipo investigador de-
be asegurar la validez y la fiabilidad de las medidas
FIABILIDAD
que utiliza (fig. 18.1). La validez expresa el grado en
que el valor que se obtiene con el proceso de medi- El término fiabilidad es sinónimo de precisión. Si, por
ción se corresponde con el verdadero valor de la ejemplo, el resultado de la medición de la concentra-
variable en un sujeto, es decir, que no existe un sesgo ción sérica de colesterol en un sujeto es de 180 mg/dl
(error sistemático) en el proceso de medición. y, acto seguido, una segunda medición efectuada con
la misma técnica y en el mismo individuo, proporcio-
Ejemplo 18.1. Supongamos que se pretende estimar la na el resultado de 240 mg/dl, de inmediato se creerá
prevalencia de obesidad en una comunidad. Para ello, que el proceso de medición es poco fiable. Cuanta
se pesa a una muestra de sujetos, registrando para menor variabilidad se obtenga al repetir una medi-
cada uno de ellos si es obeso o no, definiendo como ción, más fiable será el proceso.
obesa aquella persona cuyo peso supere los 75 kg. Este El que una medida sea muy precisa no significa
proceso de medición de la obesidad carece de validez, que tenga que ser válida. Un ejemplo sencillo sería
ya que pueden existir sujetos que pesen menos de pesar dos veces consecutivas a un mismo individuo

168
MEDICIÓN DE VARIABLES

Error aleatorio Error sistemático

Valor verdadero Valor verdadero

130 150 170 130 150 170


mmHg mmHg mmHg mmHg mmHg mmHg
01 02 03 04 05 01
02
03
04
05

Baja precisión Alta precisión

– Ninguno de los 5 observadores – Los 5 observadores coinciden


coinciden en el resultado en el resultado

No error sistemático Error sistemático

– El valor medio de las – El valor medio se aleja mucho


5 observaciones se acerca del verdadero valor
al valor verdadero

Tamaño de la muestra Tamaño de la muestra

– Al aumentar el tamaño – Aunque se aumente el tamaño


de la muestra, la estimación de la muestra, persistirá el error
será más precisa sistemático

Figura 18.1. Relación entre error aleatorio y error sistemático. Medición de la presión arterial sistólica
de un paciente por cinco observadores independientes (01, 02, 03, 04 y 05).

en una báscula mal calibrada; seguramente se obten- fuentes de variación por separado, en la práctica, todas
drían resultados similares, pero no válidos, ya que ellas actúan de forma simultánea.
la balanza proporcionaría mediciones inexactas.
Variación individual
F UENTES DE VARIABILIDAD La mayoría de fenómenos biológicos varían de un
La fiabilidad de una medida no es una propiedad momento a otro. Una medición realizada en un mo-
intrínseca de ella, sino más bien de un instrumento mento dado puede considerarse una muestra de todas
cuando se aplica en una muestra de individuos con- las posibles mediciones de este fenómeno durante un
creta, en unas condiciones dadas. La medición de un período determinado y no tiene por qué representar
fenómeno clínico está sujeta a la variación biológica su verdadero valor.
individual, del observador o del instrumento utilizado.
Así, si dos médicos toman la presión arterial de un Ejemplo 18.3. Las variaciones del colesterol sérico en
paciente y no obtienen el mismo resultado, puede un mismo individuo pueden ser lo suficientemente
deberse a la propia variación de la tensión arterial grandes como para que sea difícil evaluar su riesgo
entre una medición y otra, a que el esfigmomanóme- cardiovascular en una sola determinación. Para po-
tro utilizado proporciona resultados variables, a que ner de relieve este hecho, se realizó un trabajo en el
los clínicos difieren en la forma de medir y registrar la que se analizaba el colesterol sérico de un individuo
presión arterial, o a una combinación de todas estas en ayunas cada 20 minutos durante 6 horas (Natelson
circunstancias. Aunque se describirá cada una de las et al, 1988). Los valores de colesterol variaron des-

169
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

de un mínimo de 189 mg/dl hasta un máximo de Para reducir la variabilidad debida a los observa-
211 mg/dl. De las 19 muestras extraídas, 8 presenta- dores es necesario entrenarlos debidamente antes
ban valores por encima de 200 mg/dl. Por consiguien- de iniciar el estudio y elegir medidas lo más objeti-
te, si el criterio de inclusión en un estudio fuera preci- vas posible, ya que, cuanto más subjetivas sean,
samente el tener unos valores superiores a 200 mg/dl, mayor es la probabilidad de que exista variabilidad
esta persona hubiera podido o no ser candidata, según de una medición a otra y entre los distintos obser-
la muestra considerada. Igualmente, es posible que un vadores. Por último, siempre que sea factible es
individuo presente valores más bajos o más altos de conveniente evaluar la variabilidad inter e intraob-
colesterol una vez finalizado un estudio, con indepen- servadores.
dencia de la intervención practicada.
E VALUACIÓN DE LA FIABILIDAD
Ejemplo 18.4. En un estudio en el que se analizaban La fiabilidad se evalúa repitiendo el proceso de medi-
los registros de 8 tomas de la presión arterial de 30 ción, con el fin de analizar la concordancia entre las
individuos se observó una gran variabilidad intraindi- distintas medidas. El índice más utilizado para ello,
viduo. La variabilidad media de la presión sistólica fue en caso de variables cualitativas, es el índice Kappa,
de 13,2 mmHg (DE: 6,8) y de la presión diastólica de que corrige la concordancia observada por la que se
8,8 mmHg (DE: 4,6), utilizando un esfigmomanóme- esperaría simplemente por azar (anexo 4). Si las
tro de mercurio (Cuesta y Gómez Moro, 1987). Los variables son cuantitativas, se utiliza el coeficiente de
autores observaron también una diferencia significati- correlación intraclase, que combina un análisis de la
va entre la presión sistólica del brazo derecho respecto correlación de las medidas con una prueba de la dife-
a la observada simultáneamente en el brazo izquierdo. rencia de las medias entre ellas, o el método gráfico
Las cifras diastólicas no mostraron diferencias de uno de Bland y Altman (anexo 4).
a otro brazo. Deben estudiarse diferentes aspectos de la fiabili-
dad: la repetibilidad (fiabilidad test-retest), la con-
Para minimizar la variación biológica intraindivi-
cordancia intraobservador y la concordancia interob-
dual, una estrategia consiste en repetir la medición
varias veces y utilizar alguna medida promedio de los servador.
resultados. Sin embargo, antes de ponerla en marcha
hay que considerar el coste y las dificultades prácticas Repetibilidad
que implica. La evaluación de la repetibilidad tiene por objetivo
determinar si una prueba da los mismos resultados o
Variación causada por el instrumento similares, cuando se aplica a una misma persona en
Por instrumento se entiende cualquier vehículo útil más de una ocasión. Requiere que las condiciones de
para recoger datos de una forma organizada; por aplicación sean iguales en ambas ocasiones.
ejemplo, un esfigmomanómetro, un autoanalizador o El hecho de aplicar la misma prueba en más de
un cuestionario. Siempre pueden presentarse varia- una ocasión en la misma muestra de individuos con-
ciones al aplicar un instrumento de medida y en la téc- lleva algunos problemas, ya que algunas característi-
nica empleada. Por ejemplo, al tomar la presión arte- cas pueden variar con el tiempo. Es el caso de una
rial, la presión del brazal o la posición del estetoscopio medida sobre el estado físico o de salud de una perso-
pueden cambiar, lo que originará inconsistencias en las na; cuanto más tiempo transcurra entre ambas prue-
mediciones. Por ello, es importante estandarizar los bas mayor es la probabilidad de que hayan ocurrido
procedimientos y seleccionar el instrumento que pre- cambios reales en su estado de salud, o de que su opi-
sente menor variabilidad. nión o actitud hacia un problema de salud haya cam-
biado. En esta situación, la fiabilidad de la prueba será
Variación causada por el observador infravalorada. Esta dificultad se puede subsanar, al
La tercera fuente de variabilidad es el observador. Las menos parcialmente, efectuando la segunda medi-
personas que llevan a cabo la medición de la presión ción poco tiempo después de la primera. Sin embar-
arterial pueden variar; por ejemplo, el ángulo de go, si el intervalo de tiempo entre la aplicación de las
observación, las condiciones en que realizan las me- dos pruebas es breve, es posible que el resultado obte-
diciones, o aumentar su experiencia a medida que nido en la segunda ocasión esté influido por el apren-
progresa el estudio. dizaje adquirido la primera vez. En otras palabras,

170
MEDICIÓN DE VARIABLES

ambas mediciones no son independientes y el coefi- escoger las que hayan demostrado ser más fiables en
ciente de fiabilidad estará artificialmente elevado. estudios anteriores.
Cabe la posibilidad de que los participantes no Si la medición de la variable de respuesta tiene
accedan a que se les efectúe la misma prueba más de poca fiabilidad, la consecuencia directa es que la esti-
una vez en poco tiempo, en especial cuando sea dolo- mación del efecto que se obtenga será poco precisa, es
rosa o molesta, o implique mucho tiempo de realiza- decir, su intervalo de confianza será muy amplio. Este
ción o desplazamiento, lo cual significa que se perderá problema puede soslayarse aumentando el tamaño de
mucha información, ya que si un individuo no ha com- la muestra, ya que el número de sujetos necesario
pletado las dos pruebas no será útil para el análisis. depende, entre otros factores, de la variabilidad de las
medidas, aunque ello supone un incremen-
Concordancia intra e interobservador to de la complejidad y el coste del estudio.
La concordancia intraobservador se refiere al grado de
consistencia de un observador consigo mismo al leer
VALIDEZ
o interpretar un resultado. Al igual que con la repeti-
bilidad, las dos medidas que realiza cada observador El término validez se refiere al grado en que una va-
deben ser independientes una de otra, lo que puede riable mide realmente aquello para lo que está desti-
ser muy difícil de conseguir cuando la observación de nada. Es un concepto ligado al de error sistemático.
interés es un hallazgo físico que requiere la presencia Cuanto menos válida sea una medida más probabili-
directa del paciente, ya que el recuerdo de la prime- dades hay de cometer un sesgo.
ra exploración puede condicionar el resultado de la Unas variables son más válidas que otras. Por
segunda. Esta dificultad queda soslayada si la obser- ejemplo, la hemoglobina glucosilada representa
vación es, por ejemplo, una radiografía o un electro- mejor el grado de control de un diabético que una
cardiograma. medición aislada de la glucemia. Los responsables
Por concordancia interobservador se entiende la con- del estudio deben procurar escoger siempre las medi-
sistencia entre dos observadores independientes das más válidas, en especial cuando se trata de las
sobre una medida practicada en el mismo individuo. variables importantes del estudio.
Para asegurar la independencia de las medidas entre
ambos observadores, uno no debe conocer el resulta- F UENTES DE ERROR SISTEMÁTICO
do proporcionado por el otro (observadores ciegos). Las posibles fuentes de error sistemático son las mis-
Con frecuencia, la concordancia intra e interob- mas que las enumeradas en el apartado destinado a la
servador se evalúa en un mismo estudio. En este caso, fiabilidad.
hay que asegurar la independencia de todas las medi-
das, para lo que puede ser muy útil aplicar técnicas Error causado por el individuo
como la aleatoriedad en la secuencia de aplicación Ocurre cuando el error en la medición de un fenó-
de las medidas y las técnicas de enmascaramiento. meno se introduce a causa de los participantes en el
El análisis de la concordancia inter e intraobser- estudio. El ejemplo más sencillo es el sesgo de memo-
vador es, en muchas ocasiones, un paso previo a la ria. Los pacientes que sospechen que el problema de
validación de una nueva prueba diagnóstica, ya que, salud que padecen está relacionado con alguna varia-
si los distintos observadores discrepan en los resulta- ble en estudio, es posible que recuerden con mucha
dos, la prueba, aunque teóricamente pueda ser váli- más exactitud su historia pasada de exposición que
da, tendrá poca utilidad clínica. aquellos participantes libres de la enfermedad. Este
diferente recuerdo se traduce en un error en la medi-
C ONSECUENCIAS DE UNA MEDIDA ción de la variable en estudio.
POCO FIABLE
La fiabilidad de las medidas no se ha de analizar en Ejemplo 18.5. Para investigar los posibles efectos te-
cada estudio. Sólo es necesario cuando se desarrolle ratogénicos de un fármaco, se realizó un estudio de ca-
una nueva medida o como control de la calidad de las sos y controles. Los casos eran los recién nacidos con
mediciones. Sin embargo, al planificar un trabajo de malformaciones, y los controles, recién nacidos sin
investigación es imprescindible considerar las posi- malformaciones. Se preguntaba a las madres por el
bles medidas alternativas de las distintas variables y consumo de fármacos durante el embarazo. Es muy

171
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

probable que las madres de niños con malformaciones gurar la validez de los instrumentos que se van a utili-
tiendan a recordar más todo lo que ocurrió durante su zar en una investigación.
embarazo, incluidos los fármacos que tomaron, que las
madres de niños sin malformaciones. E VALUACIÓN DE LA VALIDEZ
Para evaluar la validez de una medida se comparan
En otras ocasiones, los participantes pueden fal- sus valores con los obtenidos con una técnica de refe-
sear de forma deliberada las respuestas simplemente rencia objetiva, fiable y ampliamente aceptada como
para complacer al entrevistador o porque piensen una buena medida del fenómeno de interés (validez
que una determinada respuesta no está bien vista de criterio).
socialmente, por ejemplo, cuando se interroga sobre Cuando la variable es dicotómica, los índices de
los hábitos tóxicos de una persona. validez de criterio más usados son la sensibilidad y la
especificidad (anexo 3). La sensibilidad se define como
Error causado por el observador la probabilidad de que una persona que presente la
Ocurre cuando el observador mide una variable de característica sea clasificada correctamente por la me-
forma errónea, por ejemplo, al utilizar una técnica dida empleada en el estudio. La especificidad se define
incorrecta para la toma de la presión arterial (mala como la probabilidad de que una persona que no
posición del brazal, tomarla en el brazo inadecua- tenga la característica sea correctamente clasificada
do, etc.) o al administrar un cuestionario de forma por la medida utilizada. Para que una medida sea útil
errónea. deberá ser lo más sensible y específica posible. Si la
En los estudios analíticos puede ocurrir también variable es cuantitativa, una forma de evaluar la vali-
cuando el observador mide una variable de forma sis- dez es el análisis de las diferencias individuales entre
temáticamente distinta en un individuo u otro, según los valores que proporciona la medida que se está uti-
el grupo de estudio al que pertenece. Si un investiga- lizando y la obtenida con el método de referencia, sin-
dor supone que los pacientes que reciben un trata- tetizadas en su media y desviación estándar (anexo 4).
miento presentan con más frecuencia un determina- A veces es difícil disponer de un criterio de refe-
do efecto secundario, es posible que, incluso de rencia adecuado, bien porque no existe o porque no
forma inconsciente, lo busque con mayor insistencia está al alcance del investigador. En estos casos, el pro-
(con preguntas más frecuentes o con más pruebas cedimiento más empleado es evaluar la validez de cons-
complementarias) en aquellos que lo reciben que en tructo o de concepto, que analiza la correlación de la
los participantes del otro grupo. medida con otras variables que se cree que están rela-
cionadas con ella (validez convergente) y la correlación
Error causado por el instrumento con otras que se sospecha que no tienen relación algu-
Ocurre cuando la medida empleada no es la adecuada na (validez divergente). Si la correlación es alta en el pri-
para el fenómeno que se quiere analizar, o en el caso mer caso y baja en el segundo, puede considerarse que
de que el instrumento utilizado no esté bien calibrado. la medida tiene validez de constructo.
Otro aspecto a tener en cuenta es la evaluación de
Ejemplo 18.6. En un estudio se revisaron los esfigmo- la validez de contenido de la medida, es decir, si contem-
manómetros de 9 centros de salud, lo que suponía pla o abarca todas las dimensiones del fenómeno que
una muestra de 44 aparatos de mercurio y 58 aneroi- se quiere medir. Por ejemplo, la concentración de tri-
des, comparándose sus lecturas con las de un aparato glicéridos puede ser una medida fácil de definir, fiable
testigo debidamente certificado (Borrell et al, 1984). y con cifras muy exactas por parte del laboratorio. Sin
Se consideró que los aparatos funcionaban incorrec- embargo, puede no ser una medida válida de arterios-
tamente cuando tenían fugas de aire que producían clerosis. Es conveniente abordar estos problemas en la
un descenso de la columna de mercurio superior a fase de diseño de un estudio, ya que después esta
5 mmHg, aun con la válvula cerrada, registraban dife- información ayudará a matizar los resultados.
rencias superiores o inferiores a 4 mmHg en los va-
lores de 106 o 96, o mostraban este mismo error C ONSECUENCIAS DE UNA MEDIDA
(4 mmHg) en dos de las cifras siguientes: 180, 160 o POCO VÁLIDA
146. El 13,6% de los aparatos de mercurio y el 67,2% La utilización de medidas poco válidas conduce a una
de los aneroides funcionaban incorrectamente. Estos respuesta errónea a la pregunta de investigación. Si se
resultados ponen de manifiesto la necesidad de ase- trata de un estudio descriptivo que estime, por ejem-

172
MEDICIÓN DE VARIABLES

plo, la frecuencia de una enfermedad, se obtendrá aplica para detectar la enfermedad tiene una sensibi-
una prevalencia errónea. Si se trata de estudios analí- lidad del 85% y una especificidad del 90% en ambos
ticos, los sesgos de información conducirán a una esti- grupos. Aplicando estos valores se obtienen los datos
mación errónea del efecto del factor de estudio. En de la tabla 18.1. Por ejemplo, en el grupo A se espe-
este tipo de estudios, conviene distinguir entre los raría que de las 60 personas con la enfermedad, la
errores diferenciales y los no diferenciales. prueba identificara correctamente a 51 (60 ⫻ 0,85), y
que 36 (40 ⫻ 0,90) se clasificaran correctamente
Error no diferencial como que no la tienen.
Es el error que ocurre al medir el factor de estudio De esta forma, la incidencia acumulada en el
y/o la variable de respuesta y que se produce por igual grupo A ha disminuido del 60 al 55%, mientras que
en todos los participantes, con independencia del en el grupo B ha aumentado del 20 al 25%. Esto es así
grupo al que pertenecen o del valor de cualquier otra porque cuando la incidencia o la prevalencia no es
variable. En otras palabras, significa que cuando la muy alta, como sucede en el grupo B, incluso una
variable es cualitativa, la sensibilidad y la especificidad pequeña proporción de falsos positivos puede com-
para medirla permanecen constantes en todos los par- pensar una mayor proporción de falsos negativos.
ticipantes, al margen de otros factores. Si la variable es Si se calcula la razón de incidencias, se observa
continua lo que permanece constante es la diferencia que ha disminuido de 3 a 2,2 como resultado de una
entre la media observada y la verdadera media. mala clasificación no diferencial.

Ejemplo 18.7. Consideremos un estudio en el que un Cuando se comparan dos grupos y se usa una me-
60% de los individuos del grupo A desarrollan la dida poco válida que afecta a todos los participantes
enfermedad, mientras que en el grupo B, la inci- por igual, se introduce un error no diferencial que
dencia es sólo del 20%. La verdadera razón de inci- conduce a una infraestimación del verdadero efecto
dencias es igual a 3. Supongamos que la prueba que se o asociación.

Tabla 18.1. Estudio hipotético que ilustra un error sistemático no diferencial (ejemplo 18.7)

Grupo A
Resultados Enfermedad
de la prueba Presente Ausente Total

Positivos 51 4 55 Incidencia
Negativos 9 36 45 observada
Total 60 40 100 55%
Incidencia acumulada verdadera: 60%.
Sensibilidad de la prueba: 85%.
Especificidad de la prueba: 90%.

Grupo B
Resultados Enfermedad
de la prueba Presente Ausente Total

Positivos 17 8 25 Incidencia
Negativos 3 72 75 observada
Total 20 80 100 25%
Incidencia acumulada verdadera: 20%. Razón de incidencias verdadera: 3.
Sensibilidad de las pruebas: 85%. Razón de incidencias observada: 2,2.
Especificidad de las pruebas: 90%.

173
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Cuando el efecto real es de gran magnitud, esta 98% en el grupo A y sólo del 70% en el B. El resulta-
infraestimación no tiene una gran trascendencia. Sin do es que se sobrestima la verdadera razón de inci-
embargo, en aquellos estudios que no encuentran un dencias, que de 3 ha pasado a 3,75 (tabla 18.2).
efecto, el investigador debe valorar la posibilidad de
que la prueba empleada sea poco sensible o específi- Un ejemplo clásico de error diferencial es el sesgo
ca y que ésta sea la verdadera causa de que no se haya de memoria en los estudios de casos y controles, en el
encontrado ninguna asociación. que el conocimiento de la enfermedad influye sobre
el recuerdo de la exposición (ejemplo 18.5). Otro
Error diferencial ejemplo son los estudios prospectivos en los que no se
Ocurre cuando la medición del factor de estudio y/o aplican o no es posible aplicar técnicas de ciego: el
la variable de respuesta depende del valor de otra conocimiento de la exposición (o la intervención)
variable, y afecta de modo diferente a los participan- puede condicionar la búsqueda, consciente o incons-
tes en el estudio según el grupo al que pertenecen. ciente, de un efecto en este individuo, de forma dife-
Cuando la medida es poco válida, y la sensibilidad rente a la realizada en otro individuo no expuesto. En
y la especificidad de la prueba son diferentes en cada ambos casos, la medición no se realiza independiente-
grupo, la mala clasificación que resulta puede sesgar mente y puede sobrevalorarse o infraestimarse la ver-
los resultados en cualquier dirección. Una verdadera dadera magnitud del efecto o de la asociación.
asociación puede quedar enmascarada, disminuida o
aumentada, o bien puede encontrarse un efecto que ESTRATEGIAS PARA AUMENTAR
en realidad no existe. LA FIABILIDAD Y LA VALIDEZ
Ejemplo 18.8. En un estudio similar al del ejemplo Las cinco primeras estrategias tienen efecto sobre la
18.7 se utiliza una prueba de detección de la enfer- validez y sobre la precisión; la sexta sólo mejora la fia-
medad que tiene la misma especificidad en ambos bilidad, mientras que las restantes sirven para aumen-
grupos (98%), mientras que la sensibilidad es del tar la validez de la medición.

Tabla 18.2. Estudio hipotético que ilustra un error sistemático diferencial (ejemplo 18.8)

Grupo A
Resultados Enfermedad
de la prueba Presente Ausente Total

Positivos 59 1 60 Incidencia
Negativos 1 39 40 observada
Total 60 40 100 60%
Incidencia acumulada verdadera: 60%.
Sensibilidad de la prueba: 99%.
Especificidad de la prueba: 98%.

Grupo B
Resultados Enfermedad
de la prueba Presente Ausente Total

Positivos 14 2 16 Incidencia
Negativos 6 78 84 observada
Total 20 80 100 16%
Incidencia acumulada verdadera: 20%. Razón de incidencias verdadera: 3.
Sensibilidad de las pruebas: 70%. Razón de incidencias observada: 3,75.
Especificidad de las pruebas: 98%.

174
MEDICIÓN DE VARIABLES

1. Seleccionar las medidas más objetivas posibles. Si la La puesta en marcha de todas las estrategias
variable de respuesta es, por ejemplo, la mortali- simultáneamente es muy difícil. No obstante, la estan-
dad total, no existirán variaciones en su determi- darización de las variables y la formación de los obser-
nación por parte de los observadores. Si, por el vadores debe realizarse siempre. La aplicación del
contrario, es la aparición o el alivio de un síntoma, resto de estrategias dependerá de las características
es más probable que la evaluación se lleve a cabo de las variables que se estén estudiando, el diseño
de forma dispar entre los observadores. empleado y la disponibilidad de recursos.
2. Estandarizar la definición de las variables. Es imprescin-
dible que las variables estén definidas de forma ope- B IBLIOGRAFÍA DE LOS EJEMPLOS
rativa en el protocolo o en el manual de instruccio- Borrell F, Dalfó A, Esteban J et al. Fiabilidad de los datos pro-
nes, para que todos los investigadores utilicen los porcionados por los aparatos de medida de la tensión
mismos criterios incluso ante situaciones dudosas. arterial. Aten Primaria 1984; 1: 5-10.
3. Formar a los observadores. Su entrenamiento no per- Cuesta V, Gómez Moro MB. Precisión en la toma de tensión
mitirá controlar totalmente la variación entre un arterial: eficacia de los esfigmomanómetros automáticos.
observador y otro, pero sí reducirla. Rev Clin Esp 1987; 180: 482-485.
4. Utilizar la mejor técnica posible. Por ejemplo, si se tiene Natelson B, Tapp W, Munsif A, Burns W. Fluctuating serum
cholesterol: implications for coronary prevention. Lan-
la posibilidad de escoger entre un aparato aneroide
cet 1988; 2: 404-405.
y otro de mercurio para medir la presión arterial, se
elegirá este último, ya que es más fiable. B IBLIOGRAFÍA
5. Utilizar instrumentos automáticos. Si es factible, y el Armstrong BK, White E, Saracci R. Principles of exposure
instrumento automatizado es más preciso, permi- measurement in epidemiology. Oxford: Oxford Uni-
tirá reducir la variabilidad interobservador. versity Press, 1994; 5.
6. Obtener varias mediciones de una variable. El prome- Bland JM, Altman DG. Comparing two methods of clinical
dio de varias medidas tiende a ser más preciso que measurement: a personal history. Int J Epidemiol 1995;
una medida aislada. El ejemplo más clásico es la 24 (Supl. 1): S7-S14.
presión arterial: dado que es una medida muy Bland JM, Altman DG. Measurement error and correlation
variable, la práctica más habitual es tomarla en más coefficients. BMJ 1996; 313: 41-42.
de una ocasión y obtener la media de las distintas Bland JM, Altman DG. Measurement error. BMJ 1996; 312:
mediciones. De la misma forma, se obtendrá una 1654.
Bland JM, Altman DG. Measurement error proportional to
estimación más precisa de un fenómeno como la
the mean. BMJ 1996; 313: 106.
calidad de vida si se realizan varias preguntas rela-
Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin
cionadas con el tema en un cuestionario. Esta Epidemiol 1993; 46: 423-429.
estrategia sólo mejora la precisión, no la validez. Doyle JR, Doyle JM. Measurement error. Measurement error
7. Emplear técnicas de enmascaramiento (ciego). En los ensa- is that which we have not yet explained. BMJ 1997; 314:
yos clínicos controlados con placebo donde es posible 147-148.
utilizar las técnicas de enmascaramiento, y más con- Guggenmoos-Holzmann I. The meaning of kappa: proba-
cretamente las de doble ciego, es muy difícil incurrrir bilistic concepts of reliability and validity revisited. J Clin
en un error diferencial, ya que ni los observadores ni Epidemiol 1996; 49: 775-782.
los participantes conocen la intervención que están Jiménez Villa J. Comparación de métodos cuantitativos de
recibiendo. En algunos estudios observacionales es medida. FMC 1994; 1: 404-410.
factible mantener ciegos a los observadores, pero no Kundel HL, Polansky M. Measurement of observer agree-
así a los participantes. En esta situación se elimina ment. Radiology 2003; 228: 303-308.
Latour J, Abraira V, Cabello JB, López Sánchez J. Las me-
el error potencial que se deriva de las expectativas de
diciones clínicas en cardiología: validez y errores de me-
los observadores, pero no el que puede provenir dición. Rev Esp Cardiol 1997; 50: 117-128.
de los participantes. De todos modos, las técnicas de Luiz RR, Costa AJ, Kale PL, Werneck GL. Assessment of agree-
ciego no evitan los errores no diferenciales. ment of a quantitative variable: a new graphical approach.
8. Calibrar los instrumentos. El ejemplo 18.6, correspon- J Clin Epidemiol 2003; 56: 963-967.
diente a un estudio sobre la calibración de los esfig- Mertens TE. Estimating the effects of misclassification.
momanómetros, ilustra lo que puede ocurrir si no se Lancet 1993; 342: 418-421.
toma esta precaución. Hay que calibrar los instru- Michels KB. A renaissance for measurement error. Int J
mentos con el fin de evitar medidas sesgadas. Epidemiol 2001; 30: 421-422

175
Capítulo 19
Selección y definición de las variables

SELECCIÓN DE VARIABLES lo, se corresponden con los criterios de inclusión y


La selección debe guiarse por una norma sencilla: exclusión, y sirven para determinar si un individuo
recoger tantas variables como sean necesarias y tan es candidato para participar en el estudio. Es útil
pocas como sea posible. Cuando existan dudas so- recoger y archivar esta información, ya que intere-
bre la pertinencia de incluir una variable, debe con- sará conocer los motivos de las exclusiones para
trastarse su utilidad con la dificultad de su medi- evaluar de forma adecuada la capacidad de gene-
ción. Las variables se pueden agrupar en cinco ralización de los resultados.
grandes bloques (tabla 19.1). Esta lista es orientati- El segundo grupo corresponde a dos elementos
va y deberá adecuarse a cada situación concreta. ya especificados en la formulación del objetivo. Por
El primer grupo hace referencia a las variables un lado, el factor de estudio. Si se trata de una ex-
que permiten evaluar la aplicabilidad del protoco- posición, interesará medir el tipo, la intensidad y la
duración. Si se trata de una intervención, el tipo,
la dosis, la pauta y la duración. Por otro lado, la
variable de respuesta, que permitirá estimar la exis-
Tabla 19.1. Variables que deben ser medidas
tencia y la magnitud del efecto observado. Estas
en un trabajo de investigación
dos variables deben ser definidas y medidas con la
máxima fiabilidad y validez, ya que el objetivo del
– Variables que permitan evaluar la aplicabilidad
estudio es cuantificar la relación entre ellas.
del protocolo (criterios de selección)
Las variables del tercer grupo se identifican a
– Variables que permitan medir el factor o los partir del análisis del modelo teórico en el que se
factores de estudio, y la variable o variables enmarca la investigación. Corresponden a los po-
de respuesta
tenciales factores de confusión, es decir, las varia-
– Variables que puedan actuar como: bles que se sabe, o se sospecha, que están asocia-
• Posibles factores de confusión das tanto al factor de estudio como a la variable de
• Posibles variables modificadoras del efecto respuesta. Su medición permitirá controlar su
• Pasos intermedios de la cadena causal efecto en el análisis. También es importante medir
– Variables universales descriptoras de los sujetos las variables que puedan actuar como modificado-
estudiados ras del efecto, para conocer y describir mejor el
– Otras variables de interés (subgrupos de población, efecto del factor de estudio. Por último, es intere-
preguntas secundarias, medidas de tiempo, etc.) sante recoger datos sobre los pasos intermedios de
la cadena causal, para evaluar cómo han evolucio-

176
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES

nado y cómo se han comportado ante el resto de en la actualidad o la habitual. Si se está estudiando
los factores. una determinada exposición laboral, interesa más
El cuarto grupo lo forman las variables que des- la historia ocupacional que la profesión.
criben las características de los sujetos estudiados, A menudo, no existe una variable única que, por
de forma que pueda evaluarse la capacidad de ge- sí sola, exprese toda la complejidad del fenómeno
neralización de los resultados a otros grupos de que se desea medir. En estas situaciones, pueden
sujetos o poblaciones. Son variables la clasificación utilizarse diferentes variables, de manera que cada
de la enfermedad, el tiempo de evolución, y los tra- una de las cuales refleje un aspecto diferente de di-
tamientos previos, entre otras. También se incluyen cho fenómeno, y que después puedan agruparse en
variables que podrían llamarse universales, ya que una escala combinada.
se recogen en la mayoría de los estudios, como el
sexo o la edad. Ejemplo 19.2. Para evaluar la calidad de vida puede
El último grupo corresponde a las variables que utilizarse un cuestionario como el SF-36 (Short-
complementan la medición del efecto o la asocia- Form-36 Health Survey) validado en España (Alon-
ción, definen subgrupos de sujetos de especial so et al, 1995), que consta de 36 ítems, medidos en
interés o son necesarias para responder a las pre- una escala ordinal, que abarca 8 dimensiones: esta-
guntas secundarias. do físico, limitaciones por problemas físicos, dolor,
Una buena práctica es elaborar una lista de las salud mental, limitaciones de vida a causa de pro-
variables contenidas en cada una de estas categorías blemas emocionales, vitalidad, energía o fatiga y
y debatirla entre todo el equipo investigador para percepción de la salud general.
valorar la pertinencia de su recogida.
En ocasiones, es necesario descomponer un fe-
nómeno complejo en diferentes aspectos que se mi-
DEFINICIÓN DE LAS VARIABLES
den por variables separadas. Un ejemplo es el elec-
Es conveniente adoptar definiciones estándar, utili- trocardiograma, cuya valoración requiere estudiar
zadas y validadas por otros investigadores, con la el patrón QRS, el segmento ST, la onda T, el ritmo y
finalidad de poder comparar los resultados con los la frecuencia, entre otros.
de otros trabajos.
ESCALAS DE MEDIDA
Ejemplo 19.1. En una revisión de los ensayos clíni-
cos que evalúan las intervenciones de apoyo a los La escala de medida determinará el análisis estadís-
cuidadores de pacientes con demencia, Thompson tico que podrá realizarse. La más simple correspon-
y Briggs (2000) ponen de manifiesto que tanto el de a las variables nominales, cuyos valores son ca-
tipo de las intervenciones evaluadas como el de las tegorías no numéricas bien definidas, como por
variables de respuesta y sus definiciones son distin- ejemplo, el tipo de tratamiento de la diabetes melli-
tas en la mayoría de los estudios, lo cual dificulta tus codificado como dieta sola, dieta + hipoglice-
enormemente tanto la comparación de los resulta- miantes orales, dieta + insulina y otras combina-
dos como su interpretación conjunta. ciones. En el caso concreto de que sólo existan dos
valores posibles (sí/no, presente/ausente, masculi-
Las definiciones han de ser claras, operativas y no no/femenino, etc.) se habla de variables dicotómicas.
deben dejar lugar a la ambigüedad; además, deben En las variables ordinales las categorías pueden
prever todas las situaciones posibles. Por ejemplo, en ordenarse de alguna forma lógica. Por ejemplo, la
la definición de visita: ¿se incluyen las de enferme- codificación del dolor, en ausente, leve, moderado
ría?, ¿y las consultas telefónicas?, ¿o las debidas a mo- o grave.
tivos burocráticos?, ¿o las consultas sobre el paciente Las variables cuantitativas discretas pueden
realizadas por sus familiares? adoptar sólo ciertos valores (en general, números
Para muchos conceptos se utilizan mediciones enteros), como ocurre con el número de hijos o el
aproximadas. Por ejemplo, al definir la profesión de ingresos hospitalarios. Las variables cuantitativas
de un sujeto deberá decidirse si interesa la ejercida continuas pueden adoptar cualquier valor numéri-

177
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

co, en general, dentro de un rango; por ejemplo, el alcohol, el cálculo de los gramos consumidos dia-
peso, la edad o la glucemia basal. riamente requiere un esfuerzo suplementario. Si
En muchas ocasiones, la propia definición de la esta variable tiene un interés marginal en el estu-
variable lleva implícita la escala de medida, pero en dio, puede bastar con medirla con una escala ordi-
otras puede ser necesario escoger entre diversas po- nal (no consumo/consumo moderado/consumo
sibilidades. El consumo de tabaco puede expresar- importante), mucho más fácil de obtener. Pero si la
se como una variable nominal (sí/no, o bien nunca variable es importante, debe medirse con la mayor
ha fumado/fumador/exfumador), ordinal (no/fu- precisión y cuantitativamente, si es posible.
mador leve/fumador moderado/fumador impor-
tante) e incluso cuantitativa (número de cigarrillos Ejemplo 19.3. Existen diversos métodos para medir
o gramos de nicotina diarios). Como norma gene- la intensidad del dolor. Las escalas descriptivas sim-
ral, es preferible escoger la escala continua, si es po- ples resultan poco sensibles. Se han desarrollado
sible. En primer lugar, porque contiene más infor- otras técnicas, entre las que destacan los métodos
mación, lo cual permite utilizar pruebas estadísticas gráficos y las escalas analógicas visuales, siendo estas
más potentes (la tabla 19.2 enumera las escalas por últimas las que se han mostrado más sensibles. Con-
orden creciente de información que contienen). En sisten en representaciones gráficas en forma de lí-
segundo lugar, porque, a partir de los datos cuan- nea recta cuyos límites se definen como los límites
titativos, puede agruparse como categorías cualita- extremos de la sensación que se quiere medir. El pa-
tivas, incluso según diferentes criterios, mientras ciente marca en la escala el punto que, a su juicio,
que el proceso inverso no es posible. representa la intensidad de su síntoma. Es recomen-
Sin embargo, debe valorarse la dificultad de la dable que la línea no contenga señales ni puntos
recogida de la información necesaria frente al be- intermedios de referencia, ya que pueden con-
neficio esperado. Si se desea medir el consumo de dicionar la respuesta, convirtiendo una escala incial-
mente cuantitativa en una prácticamente categórica,
como se ilustra en la figura 19.1. Las escalas analógi-
Tabla 19.2. Escalas de medida de las variables cas visuales no sólo se utilizan en la valoración del
dolor, sino también de otros síntomas percibidos
Escala Ejemplos por el paciente más o menos subjetivamente.
– Cualitativa: Una buena escala debería cumplir los criterios
• Nominal Sexo: masculino/femenino enumerados en la tabla 19.3.
Cefalea: sí/no
Tabaco: sí/no
Vía de administración del fármaco FUENTES DE INFORMACIÓN
• Ordinal Clase social: I, II, III, IV, V Las fuentes de obtención de datos pueden clasifi-
Proteinuria: –, ⫹, ⫹⫹, ⫹⫹⫹ carse en cinco grupos (tabla 19.4). Algunas varia-
Cefalea: no, leve, moderada, grave
bles pueden medirse utilizando diferentes fuentes.
Tabaco: no, fumador moderado,
La elección de la más adecuada se basa en el tipo y
gran fumador
la validez de la información que pueden proporcio-
– Cuantitativa: nar, los recursos necesarios para obtenerla, la acep-
• Discreta Número de hijos tabilidad del método por los sujetos y la probabili-
Número de ingresos hospitalarios dad de que proporcione una cobertura adecuada a
Número de episodios
todos ellos.
de una enfermedad
Número de visitas en el último año
Ejemplo 19.4. Un estudio comparó la información
• Continua Peso proporcionada por las mujeres respecto a la reali-
Glucemia basal zación previa de pruebas de Papanicolaou median-
Consumo de alcohol (g/día) te entrevista y la registrada en las historias clínicas
Presión arterial
(. Walter et al, 1988). Los datos procedentes de la en-

178
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES

Moderado
Método gráfico

Grave
Máximo dolor
N.º de observaciones

Leve
Grave 32
28
24
Moderado
20
16
Leve 12
8
4
Sin dolor
0
1 3 5 7 9 11 13 15 17 19
Escala analógica visual Resultados de 100 mediciones consecutivas
Máximo dolor N.º de observaciones
32
28
24
20
16
12
8
4
Sin dolor
0
1 3 5 7 9 11 13 15 17 19
Resultados de 100 mediciones consecutivas

Figura 19.1. Métodos de representación gráfica del dolor (ejemplo 19.3).

trevista indicaban una mayor cantidad de pruebas variables como el grupo sanguíneo, que permane-
realizadas en los 5 años previos, una fecha más re- cen fijas durante toda la vida, y en el otro, variables
ciente de la última exploración, una mayor presen- como el monóxido de carbono, que indican el con-
cia de sintomatología y una gran discrepancia en sumo de tabaco en las horas que preceden a su me-
los resultados de la prueba. Un estudio similar dición. En una situación intermedia estarían, por
comparó la información obtenida mediante entre- ejemplo, el peso o la presión arterial.
vista sobre el consumo de anticonceptivos orales Un problema que se puede presentar con las
con la registrada en las historias clínicas (Rosen- medidas biológicas es que su valor se modifique
berg et al, 1983). En la entrevista se utilizaron por la presencia de una enfermedad.
recordatorios de sucesos relevantes y fotografías de
las marcas disponibles en el mercado. Se obtuvo Ejemplo 19.5. Supongamos un estudio de casos y
una concordancia bastante buena (90%) en la controles en el que se estudiara el riesgo de pade-
duración en meses del consumo, pero bastante cer infarto agudo de miocardio (IAM) asociado a
menor en cuanto a la duración y la marca (62%) y la presencia de hipercolesterolemia. En las horas
la dosis (54%). inmediatas después de padecer un IAM se observa
un descenso de las cifras de colesterol, por lo que
O BSERVACIÓN DIRECTA si la valoración de la colesterolemia se hace en
La utilidad del examen físico o de las medidas función de una medición de las cifras de coleste-
biológicas depende, principalmente, de su estabili- rol a las pocas horas de padecer el IAM, se produ-
dad en el tiempo. En un extremo se encuentran cirá un error de medición, y un sesgo en la estima-

179
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 19.3. Características de una buena escala Muchas variables se pueden modificar mediante
de medida una intervención preventiva o terapéutica. Esta con-
sideración es importante en los diseños transversa-
• Apropiada para su uso en el estudio, de acuerdo les de asociación cruzada, por ejemplo, entre la pre-
con los objetivos y la definición de la variable sión arterial y la edad, en el supuesto de que los
• Viable, de acuerdo con los métodos que podrán individuos hipertensos hayan recibido alguna inter-
utilizarse para recoger la información vención para reducir sus cifras de presión arterial.
• Con suficiente potencia para alcanzar
los objetivos del estudio E NTREVISTAS Y CUESTIONARIOS
Permiten obtener información tanto sobre exposi-
• Categorías claramente definidas
ciones ocurridas en el pasado como en la actuali-
• Número suficiente de categorías, dad. Son la fuente de información de elección
pero no innecesariamente elevado cuando se requieren grandes cantidades de datos,
• Exhaustiva en su conjunto para permitir clasificar en especial, si se refieren principalmente a exposi-
todas las situaciones posibles ciones pasadas y que han tenido un gran impacto
• Categorías mutuamente excluyentes (cada en la vida del individuo. Los capítulos 20 y 21 de
situación debe clasificarse en una única categoría) esta obra se dedican al diseño de cuestionarios y a
• Categorías ordenadas jerárquicamente su validación.
• Capacidad para medir tanto la mejoría como Cada vez es más frecuente que las variables de
el empeoramiento del síntoma o la enfermedad respuesta tanto de los ensayos clínicos como de los
en estudio estudios observacionales sean medidas de la calidad
de vida relacionada con la salud (CVRS). El desa-
rrollo y el uso creciente de los instrumentos de la
Tabla 19.4. Fuentes de información CVRS viene dado por la convicción de que las me-
didas de resultado tradicionales, como la tasa de
– Observación directa: mortalidad, no son lo suficientemente sensibles
• Exploración física para analizar las posibles diferencias entre trata-
• Exploraciones complementarias mientos, y que algunos de ellos, si bien aumentan la
superviviencia, pueden tener un impacto negativo
– Entrevistas y cuestionarios
sobre la calidad de vida del paciente.
– Registro de datos por el propio paciente
– Informador indirecto R EGISTRO POR EL PROPIO PACIENTE
– Registros y documentos ya existentes Se refiere a un registro detallado y prospectivo lle-
(datos secundarios): vado a cabo por los propios sujetos del estudio. El
• Datos individuales detalle (y la duración del registro) con que se reco-
• Datos agregados ge la información está definida por el investigador.
En la mayoría de las ocasiones, el registro es diario
y su duración de pocos días o semanas.
ción de su efecto sobre el riesgo de desarrollar la Al ser registros prospectivos, no dependen de
enfermedad. la memoria de los sujetos, y son muy útiles para
exposiciones muy frecuentes y que tengan, por
Cuando las mediciones corresponden a pruebas ejemplo, poco impacto en la vida de los indivi-
de laboratorio o pruebas complementarias, es im- duos. Se han usado para medir la actividad física,
portante asegurarse de que los valores no depen- la actividad sexual, el consumo de alcohol o la
den del observador, que los aparatos de medida dieta. Por otro lado, al registrar las actividades a
están bien calibrados, que las unidades de medida medida que se realizan, permite conocerlas con
son las de referencia y que sus valores normales son detalle, lo que supone una ventaja frente a otras
conocidos y comparables entre los laboratorios par- fuentes de información que recogen simplemente
ticipantes en el estudio. la actividad habitual.

180
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES

La principal limitación es que sólo se pueden duos que han muerto puede causar un sesgo im-
registrar variables que se observan durante la reali- portante y, por consiguiente, es útil el estudio de la
zación del estudio. Por tanto, no sirven para medir historia de exposición a través de sujetos próximos
una exposición en el pasado, a no ser que esté muy a él. Su uso puede aumentar el número de suje-
correlacionada con la actual. Además, los diarios tos disponibles y conseguir una muestra más repre-
requieren más tiempo de dedicación por parte de sentativa.
los sujetos incluidos en el estudio, por lo que éstos Este método de obtención de información pre-
deben estar motivados para llevar a cabo el regis- senta limitaciones añadidas a las de las entrevistas
tro. Al recoger gran cantidad de datos, tienen el personales. Es posible que la persona que responde
inconveniente añadido de una mayor dificultad de no sepa con exactitud la historia de exposición del
codificación y procesamiento de dichos datos. Por individuo. Además, si la razón por la cual ha de res-
todas estas dificultades, su uso ha sido muy limita- ponder es por la muerte de una persona, es posible
do, en general, como criterio de referencia para que este hecho pueda alterar las respuestas. Con el
estudios de validación de cuestionarios u otros fin de atenuar estos errores, es conveniente que los
métodos de recogida de datos. Las principales informadores indirectos sean personas muy próxi-
fuentes de error de este tipo de registros se resu- mas al individuo incluido en el estudio.
men en la tabla 19.5. La fiabilidad de los datos proporcionados por
un informador indirecto varía en función de la va-
riable sobre la que se recoge la información. Por
Tabla 19.5. Errores frecuentes en el uso
ejemplo, la fiabilidad es alta cuando se pregunta
de los registros por el propio sobre los estudios, y moderada, si es sobre el consu-
paciente mo de tabaco o la dieta.
En ocasiones, el uso de una persona próxima
• El tiempo de cobertura del registro puede no ser puede proporcionar información más fiable que el
suficiente para reflejar la verdadera exposición propio sujeto, por ejemplo, si se interroga a una
del individuo madre sobre la historia de las enfermedades pade-
cidas por su hijo en la infancia.
• El registro puede no reflejar las variaciones
en la exposición con el tiempo
R EGISTROS PREVIOS
• El hecho de mantener un registro diario puede Los registros previos contienen datos obtenidos
afectar (cambiar) el comportamiento de los para otro propósito que no es el del estudio de in-
participantes en relación con la exposición
vestigación, y se denominan datos secundarios, por
• Inexactitudes de los participantes al recoger oposición a los datos primarios, recogidos directa-
los datos mente para la realización del estudio. La tabla 19.6
• Errores en la codificación presenta algunos ejemplos de registros utilizados
frecuentemente en investigación.
Sus principales ventajas radican en que son
fuentes de datos rápidas, sencillas y económicas.
I NFORMADOR INDIRECTO Además, si los registros son exhaustivos, no habrá
La entrevista a personas próximas a los sujetos in- pérdidas de información debido a las no respues-
cluidos en el estudio se usa cuando éstos no son ca- tas. Si la información que contienen se ha registra-
paces de proporcionar la información necesaria. do prospectivamente, se minimizan errores de me-
Las causas más frecuentes de esta incapacidad son moria.
la defunción del individuo seleccionado, la presen- Tienen importantes limitaciones relacionadas
cia de enfermedades mentales o la edad. fundamentalmente con su validez y calidad. Los da-
Son muy útiles en estudios de casos y controles tos que contienen han sido recogidos por múltiples
sobre una enfermedad de elevada letalidad y cuan- personas, que pueden haber utilizado definiciones
do la serie de casos es muy pequeña. En estas cir- y métodos diferentes. Además, aunque los datos
cunstancias la falta de información de los indivi- sean homogéneos, pueden no corresponder a la

181
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 19.6. Ejemplos de datos secundarios ser tratada como tal y no como si el individuo no
fumara.
• Censo poblacional Antes de utilizar una determinada base de datos,
• Estadísticas de mortalidad
deben conocerse las definiciones empleadas, el mé-
todo de recogida y procesamiento de los datos y su
• Estadísticas de natalidad validez.
• Estadísticas demográficas Pueden diferenciarse dos grandes tipos de datos
• Registros laborales secundarios:
• Encuestas poblacionales
– Datos individuales, que proporcionan información
• Registros de malformaciones separadamente para cada sujeto. Provienen sobre
• Estadísticas de centros de control epidemiológico todo de la documentación clínica de los hospita-
• Enfermedades de declaración obligatoria les y los centros de salud, de registros de determi-
nadas enfermedades o procesos, o de datos reco-
• Altas hospitalarias
gidos en estudios previos.
• Registros hospitalarios – Datos agregados, que proporcionan información
• Registros de actividad de los centros de salud sobre grupos de individuos, pero no de forma se-
• Historias clínicas
parada para cada uno de ellos. Su principal incon-
veniente radica en la posibilidad de incurrir en
• Datos de estudios previos una falacia ecológica, ya que las asociaciones ob-
servadas en los datos agregados no son necesaria-
mente ciertas individualmente.
definición concreta que el investigador desea utili- B IBLIOGRAFÍA DE LOS EJEMPLOS
zar. Por ejemplo, en muchas historias clínicas no se Alonso J, Prieto L, Antó JM. La versión española del SF-36.
registra el número de cigarrillos que fuma habitual- Health Survey (cuestionario de Salud SF-36): un instru-
mente una persona o los gramos de alcohol que be- mento para la medida de resultados clínicos. Med Clin
be. Existen problemas añadidos relacionados con la (Barc) 1995; 104: 771-776.
ilegibilidad de algunas caligrafías o la dificultad Rosenberg MJ, Layde PM, Ory HW, Strauss LT, Rooks JB,
para encontrar determinada información enmasca- Rubin GL. Agreement between women’s histories of oral
rada entre otros muchos datos irrelevantes para el contraceptive use and physician records. Int J Epidemiol
estudio. 1983; 12: 84-87.
Las bases de datos se mantienen habitualmente Thompson C, Briggs M. Support for carers of people with
con finalidades clínicas o administrativas, pero no Alzheimer’s type dementia. Cochrane Database Syst Rev
2000 (2): CD000454.
de investigación, por lo que no suelen recogerse
Walter SD, Clarke EA, Hatcher J, Stitt LW. A comparison of
con la debida meticulosidad. Una decisión que de-
physician and patient reports of Pap smear histories.
be tomarse con la información que falta es si se
J Clin Epidemiol 1988; 41: 401-410.
debe considerar que el individuo no tiene la expo-
sición o la enfermedad, o si se debe considerar
como una pérdida de información. En enfermeda- B IBLIOGRAFÍA
Armstrong BK, White E, Saracci R. Principles of exposure
des (o exposiciones) graves y poco frecuentes, se
measurement in epidemiology. Oxford: Oxford Univer-
puede asumir que la falta de información es equi-
sity Press, 1994.
valente a la ausencia de la condición. Por ejemplo, Badia X, Salamero M, Alonso J. La medida de la salud: guía
en un trabajo en el que se estudian los aneurismas de escalas de medición en español. 3.a ed. Barcelona:
de aorta, si la información no especifica claramen- Edimac, 2002.
te que el individuo tiene esta enfermedad, se Casas Anguita J, Ramon Repullo Labrador J, Pereira Candel
puede codificar como que no la tiene. Por el con- J. Medidas de calidad de vida relacionadas con la salud.
trario, si se trata de exposiciones frecuentes, como Conceptos básicos, construcción y adaptación cultural.
el consumo de tabaco, la falta de información debe Med Clin (Barc) 2001; 116 (20): 789-796.

182
SELECCIÓN Y DEFINICIÓN DE LAS VARIABLES

Doyle JR, Doyle JM. Measurement error. Measurement error ted quality of life instrument. J Clin Epidemiol 2001; 54:
is that which we have not yet explained. BMJ 1997; 314: 571-579.
147-148. Muñoz A, Gange SJ. Methodological issues for biomarkers
Howe GR. Use of computerized record linkage in cohort stu- and intermediate outcomes in cohort studies. Epidemiol
dies. Epidemiol Rev 1998; 20: 112-119. Rev 1998; 20: 29-42.
Hyland ME. A brief guide to the selection of quality of life Nelson LM, Longstreth WT Jr, Koepsell TD, Van Belle G.
instrument. Health Qual Life Outcomes 2003 3; 1 (1): Proxy respondents in epidemiologic research. Epide-
24. Epub 2003 Jul 03. miol Rev 1990; 12: 71-86.
Latour J, Abraira V, Caballero JB, López Sánchez J. Las medi- Phillips CV. Quantifying and reporting uncertainty from sys-
ciones clínicas en cardiología: validez y errores de me- tematic errors. Epidemiology 2003; 14: 459-466.
dición. Rev Esp Cardiol 1997; 50: 117-128. White E, Hunt JR, Casso D. Exposure measurement in co-
Michels KB. A renaissance for measurement error. Int J Epi- hort studies: the challenges of prospective data collec-
demiol 2001; 30: 421-422. tion. Epidemiol Rev 1998; 20: 43-56.
Moran LA, Guyatt GH, Norman GR. Establishing the mini-
mal number of items for a responsive, valid, health-rela-

183
Capítulo 20
Diseño de cuestionarios

n cuestionario es un proceso estructurado de

U
Tabla 20.1. Etapas en la preparación
recogida de información a través de la cum- de un cuestionario
plimentación de una serie predeterminada de
preguntas. Estructurado significa que a todos los 1. Decidir la información necesaria y revisar
participantes se les formulan las mismas preguntas, la bibliografía
de la misma forma y en la misma secuencia. La fi- 2. Elegir el tipo de cuestionarios
nalidad es conseguir la máxima fiabilidad en la in- 3. Elegir el tipo de preguntas para cada variable
formación. 4. Definir códigos, puntuaciones y escalas
Existe una gran cantidad de instrumentos o es- 5. Elegir el orden de las preguntas
calas disponibles, pero es frecuente que los investi- 6. Diseñar el formato
gadores rechacen los cuestionarios empleados en 7. Preparar el manual de instrucciones
otros estudios, aduciendo que ninguno de ellos les 8. Entrenar a los encuestadores
es totalmente adecuado, y desarrollen uno nuevo, 9. Realizar una prueba piloto
con la esperanza de que será más válido y fiable, 10. Revisar el cuestionario y el manual
desestimando los esfuerzos y dificultades que supo- de instrucciones
ne elaborar y validar un nuevo cuestionario. Ade-
más, esta multiplicidad de escalas dificulta la com-
paración de resultados entre estudios. por el modo de registrarlas, y además el estudio es
Las etapas que se siguen en la elaboración de un más económico. Otra ventaja es que la duración del
nuevo cuestionario se muestran en la tabla 20.1. estudio será menor, ya que se puede obtener in-
formación de un gran número de personas sin
necesidad de entrevistarlas personalmente.
TIPOS DE CUESTIONARIOS
Cuando el cuestionario se envía por correo, su
La forma de obtener la información a través de principal desventaja es que el porcentaje de res-
un cuestionario puede ser de dos tipos: que sea el puestas es muy bajo comparado con los otros méto-
propio participante quien lo cumplimente (encues- dos. Este porcentaje varía según el problema estu-
tas autocumplimentadas) o que sea administrado por diado y la motivación de las personas seleccionadas
un encuestador, ya sea personalmente o por teléfono. para la encuesta.
Una estrategia para mejorar el número de res-
ENCUESTAS AUTOCUMPLIMENTADAS puestas es enviar el cuestionario dos y hasta tres ve-
Al no mediar un entrevistador, no se introducen ces a las personas que no lo devuelven y/o efectuar
sesgos por la forma de formular las preguntas ni una llamada telefónica invitando a su cumplimen-

184
DISEÑO DE CUESTIONARIOS

tación y devolución. Aun así, es de esperar que el completos. Por otro lado, puede introducir un ses-
número de personas que respondan sea menor que go al preguntar, ya sea omitiendo cuestiones o cam-
en las entrevistas personales. biando sus palabras, al clarificar las respuestas; ya
Cuando se estudian personas que pertenecen a sea porque no lo hace o lo hace de forma inade-
grupos muy definidos, como escuelas o centros sa- cuada o sesgada, al registrar las respuestas dadas
nitarios, puede darse el cuestionario personalmen- por el entrevistado; ya sea porque falsea los datos y
te a cada individuo seleccionado y recogerlo un registra respuestas de preguntas (o todo un cues-
tiempo después. tionario) que no se han formulado.
Las preguntas han de ser sencillas y las instruc-
ciones muy claras. Si el cuestionario es complejo se Ejemplo 20.1. Supongamos que en un estudio para
corre el riesgo de que muchas preguntas queden validar los datos sobre el uso de servicios sanitarios
sin contestar, o lo que es peor, que se respondan en que la información se recoge a través de una en-
erróneamente por falta de comprensión. Además, trevista personal, se observa que la frecuencia re-
serán de poca utilidad cuando la muestra de perso- gistrada en el uso de los servicios sanitarios descien-
nas seleccionadas no posea un grado de escolariza- de en los cuestionarios cumplimentados a partir de
ción suficiente como para leer y escribir las respues- la quinta semana desde que se inició el estudio, lo
tas con fluidez. La tabla 20.2 recoge las ventajas y que podría indicar una pérdida de interés y en-
desventajas mencionadas. tusiasmo por parte de los entrevistadores a medida
que avanza el estudio. Éste es un ejemplo de un ses-
go debido al entrevistador.
Tabla 20.2. Características de los cuestionarios
autocumplimentados La variación debida al entrevistador no puede
ser controlada en su totalidad. Incluso si se emplea
Ventajas a un solo encuestador, éste puede variar su técnica
– Bajo coste en relación con los cuestionarios de entrevista durante el estudio. Por ello, la selec-
por entrevista personal ción y la formación de los entrevistadores es un
– Mayor posibilidad para encuestar a un gran paso clave, que permite estandarizar la manera de
número de personas formular las preguntas y de registrar las respuestas.
– Se elimina el sesgo debido al entrevistador Estos aspectos se comentan con detalle en el capí-
– Contestación más cómoda para el encuestado tulo dedicado a los preparativos para la puesta en
– Mayor estandarización en la presentación marcha.
del material
Desventajas Entrevistas personales
– Requieren un mínimo grado de escolarización Éste es el tipo de encuestas que proporciona el ma-
y capacidad de lectura yor número de respuestas. Es más fácil contestar
– La limitación habitual radica en que las preguntas unas preguntas verbalmente que por escrito. Ade-
han de ser simples y cerradas más, en un cuestionario por correo los participan-
– Incapacidad de clarificar preguntas o respuestas tes pueden dejar sin contestar parte de una sección
– Si se envían por correo, hay un alto porcentaje y pasar a la siguiente. En la tabla 20.3 se resumen
de no respuestas sus características.
– No permiten observar respuestas emocionales Las preguntas pueden ser más complejas y la in-
– Ausencia de seguridad sobre quién responde formación más exhaustiva. La presencia de un en-
y si lo hace solo cuestador facilita la respuesta a personas con difi-
cultades para leer y escribir. Permite, también,
reconducir la entrevista en el supuesto de que el en-
ENCUESTAS ADMINISTRADAS cuestado se muestre distraído o confuso.
POR UN ENCUESTADOR Un error frecuente es que no todos los encuesta-
El entrevistador puede aumentar el porcentaje de dores siguen las mismas técnicas de entrevista, con
respuestas y motivar al participante a responder lo que se pierde uniformidad en el proceso de re-
correctamente, o clarificar y obtener datos más cogida de datos. La actitud del entrevistador es per-

185
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 20.3. Características de los cuestionarios La entrevista ha de ser breve y muy sencilla.
para entrevistas personales Estar muchos minutos al teléfono respondiendo
preguntas que por su complejidad requieren fre-
Ventajas cuentes aclaraciones es cansado y hace que el en-
– Permiten alcanzar un alto porcentaje trevistado termine colgando el auricular. Hay que
de respuestas evitar las preguntas íntimas porque muy probable-
– Mayor control sobre la secuencia de las preguntas mente la gente se muestre reticente a responderlas
– Permiten clarificar las preguntas y las respuestas por teléfono.
– Las preguntas pueden ser más complejas Con el fin de conseguir un buen número de res-
– El número de preguntas puede ser elevado, puestas es indispensable, al igual que en cualquier
con lo que se obtiene una información otro tipo de encuesta, enviar una carta previa donde
más exhaustiva se expliquen los motivos por los que se realiza el es-
Desventajas tudio y la institución que lo efectúa. Es primordial,
– Alto coste además, la presentación telefónica. Hay que decir el
– Se necesita más tiempo para terminar el estudio nombre del encuestador y repetir los fines del estu-
– Posibilidad de introducir sesgos debidos dio, el nombre de la institución que lo respalda y
al entrevistador cómo son seleccionados los participantes.
El éxito de la encuesta dependerá del número de
personas candidatas que no tengan teléfono, y si di-
cibida por los sujetos; las palabras que usa al for- fieren sustancialmente respecto a las características a
mular una pregunta y la entonación que les da son estudiar. Si el número es muy alto y las diferencias
factores que influyen sobre las respuestas. Los parti- importantes, se obtendrá un resultado sesgado.
cipantes, a menudo, desean complacer a los encues-
tadores y dan una respuesta que piensan que mere-
TIPOS DE PREGUNTAS
cerá su aprobación.
Existen dos tipos de preguntas: las cerradas y las
Encuestas telefónicas abiertas (tabla 20.4).
El uso de la encuesta telefónica ha ido en aumento
en los últimos años. Muchas de las ventajas de las en- PREGUNTAS CERRADAS
trevistas personales también se consiguen con las te- Las preguntas cerradas son aquellas en que se espe-
lefónicas. Tienen un coste intermedio y el porcenta- cifica de antemano las posibles respuestas alternati-
je de respuestas es más alto que en las encuestas por vas. Son más fáciles de aplicar y, también, de tabular y
correo, aunque algo más bajo que en las realizadas analizar que la mayoría de las preguntas abiertas. La
por entrevista personal. recogida de datos gana en precisión y uniformidad,

Tabla 20.4. Ventajas y desventajas de las preguntas abiertas y cerradas

Preguntas cerradas Preguntas abiertas

Ventajas
– Obligan a reflexionar sobre detalles – Útiles para informaciones complejas
– Uniformidad de respuesta – Permiten observaciones y comentarios
– Facilidad de codificación – No se inducen respuestas
Desventajas
– No son útiles para informaciones complejas – Requieren mayor tiempo y esfuerzo
– Inducción de las respuestas – Dificultad para codificar
– Pueden no recoger datos importantes – No son útiles cuando se pregunta sobre hechos
o actitudes mal vistas socialmente

186
DISEÑO DE CUESTIONARIOS

a la vez que es más eficiente, ya que una persona gorías, un 37,5% estimó que la miraba más de
puede contestar, por norma general, un mayor nú- 2 horas y media. En general, muchos participantes
mero de preguntas cerradas que abiertas, en un tiem- huyen de los valores extremos y escogen los inter-
po determinado. Además, si se leen las posibles res- medios, ya que piensan que esto es lo que contesta-
puestas, pueden ayudar al entrevistado a recordar o a rá la mayoría. Si la pregunta hubiera sido del tipo
considerar opciones que de otra forma le hubieran abierta se hubiera soslayado este problema.
pasado inadvertidas.
Las preguntas cerradas son más difíciles de ela-
SELECCIÓN DE LOS ÍTEMS
borar, ya que hay que considerar todas las posibles
opciones alternativas en términos correctos y com- El diseño de un cuestionario generalmente se inicia
prensibles para todos los participantes. Otra des- con la selección de los ítems que luego se tradu-
ventaja es que permiten sólo un número limitado cirán a preguntas. Hay que recoger la cantidad mí-
de opciones, sin que los encuestados puedan mati- nima de datos necesarios para alcanzar los objetivos
zarlas o proporcionar información adicional. del estudio.
Entre los aspectos que limitan la viabilidad de la
PREGUNTAS ABIERTAS administración de un cuestionario se encuentra su
En las preguntas abiertas las respuestas no están pre- duración. Se estima que un cuestionario mediante
establecidas. Las respuestas suelen ser más detalladas, entrevista no debe durar más de 60-90 minutos,
al recogerse íntegramente lo que los participantes y por teléfono, no más de 40 minutos. Si un cues-
expresan libremente con sus propias palabras. Sin tionario enviado por correo es muy largo, es posi-
embargo, es difícil medir diferencias entre los parti- ble que las personas que deban responderlo pien-
cipantes, ya que una misma pregunta puede ser con- sen que será demasiado pesado y decidan no re-
testada con diferentes frases, lo que dificulta su in- llenarlo. Por esta razón, se recomienda que los
terpretación. Las preguntas abiertas son más útiles cuestionarios autocumplimentados no sobrepasen
cuando la información que se desea recoger es muy las 12 páginas (Dillman, 1978).
compleja, de forma que, si se quisieran utilizar pre-
guntas cerradas, ello obligaría a predefinir multitud Ejemplo 20.3. En un estudio se comparaba la admi-
de opciones, o cuando se usan con finalidades explo- nistración de una versión completa de un cuestio-
ratorias porque se desconocen cuáles serían las op- nario con otra abreviada a un grupo de estudiantes
ciones de respuesta más adecuadas. (Herzog y Batchman, 1981). Las personas que res-
El análisis de las preguntas abiertas suele ser pondieron la versión completa tenían más tenden-
lento, y si se decide tabular las respuestas, puede ser cia a dar las mismas opciones de respuesta a la ma-
difícil decidir en qué categoría hay que clasificar yoría de los ítems (p. ej., contestaban siempre de
una determinada respuesta. Es posible que el inves- acuerdo o en desacuerdo) que aquellos a los que se
tigador decida más en función de sus opiniones o les administró la versión abreviada.
preferencias que en las de los propios participantes.
Existen preguntas abiertas en las que la respues- Otros aspectos que dificultan las respuestas son
ta es directa, como la edad, el lugar de nacimiento el espacio de tiempo al que se refieren las pregun-
o de residencia, el número de cigarrillos fumados tas, el impacto que ha podido tener en la vida del
por día, etc. El uso de preguntas cerradas para este individuo el hecho por el que se le pregunta, y la
tipo de cuestiones conlleva una pérdida de infor- complejidad y el detalle de los datos que se solici-
mación y, para conductas mal consideradas social- tan. Si los encuestados tienen que recordar hechos
mente, un mayor grado de error. que han sucedido muchos años atrás, y/o se trata
de hechos que han tenido poco impacto y/o son
Ejemplo 20.2. En un estudio en el que se formulaba muy complejos de explicar, muchos tenderán a no
una pregunta cerrada sobre el número de horas contestar el cuestionario.
al día en que se miraba la televisión (Schwartz et al, Como consecuencia de los aspectos menciona-
1985), un 16% estimó que la miraba más de 2 horas dos en los párrafos anteriores, existe el riesgo de
y media. Cuando se aumentó el número de las cate- que los participantes den por terminada la entrevis-

187
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ta antes de tiempo o, si se trata de un cuestionario Tabla 20.5. Aspectos prácticos a tener


autocumplimentado, de que dejen una parte sin en cuenta en la redacción
contestar. Además, existe la posibilidad de que los de las preguntas
datos obtenidos sean de poca calidad, de que dis-
minuya el porcentaje de respuestas y de descrédito • Evitar preguntas ambiguas
de las encuestas y, en consecuencia, que la pobla- • No usar términos vagos como: en ocasiones,
ción tienda a no aceptar participar en ellas. Este a menudo, etc.
último problema es especialmente importante en • No formular las preguntas en forma negativa
los estudios longitudinales que requieren encuestas • No formular dos preguntas en una
seriadas durante el proceso. • Las preguntas deben ser cortas y no contener
La decisión sobre si las preguntas deben tener o muchos conceptos (un concepto, una pregunta)
no validez lógica, es decir, si su significado y relevan- • Utilizar un lenguaje sencillo
cia es evidente, debe tomarse antes de iniciar su • No sobrevalorar la memoria de los encuestados
redacción. Si carecen de validez lógica es muy pro- • Utilizar preguntas cerradas para las cuestiones
bable que los encuestados rechacen contestar. De personales
todos modos, en alguna ocasión puede ser de in- • Las preguntas han de ser neutras
terés disimular la verdadera finalidad de los ítems • Evitar un número de opciones elevado
por temor a que el encuestado trate de amañar las en las preguntas cerradas
respuestas. Por ejemplo, es probable que un pa- • Considerar todas las opciones posibles
ciente trate de aparentar que está más enfermo de en las preguntas cerradas
lo que realmente está, con el fin de conseguir una • En las preguntas cerradas, cuando el encuestado
mejor o más rápida asistencia médica. sólo debe elegir una de las opciones, éstas deben
ser mutuamente excluyentes
REDACCIÓN DE LAS PREGUNTAS • Ordenar lógicamente las alternativas

Decidir cómo se van a formular las preguntas es


una de las tareas más difíciles. Una forma apropia-
da de empezar es escribir una lista con los ítems EVITAR PREGUNTAS AMBIGUAS
seleccionados (información que se desea obtener). Una pregunta no ha de admitir más de una inter-
A partir de aquí irán surgiendo las distintas pre- pretación. Incluso las preguntas que parecen más
guntas que abarquen cada uno de estos conceptos. sencillas y directas pueden ser ambiguas para quie-
Es frecuente que el número de preguntas se vaya nes responden la encuesta.
ampliando a medida que avanza el diseño del cues-
tionario. Por ello, ya en las fases iniciales, es muy Ejemplo 20.4. Supongamos que a un hipertenso se
útil definir el plan de análisis con el fin de imaginar le pregunta: ¿qué tratamiento sigue usted? Ante
los resultados que se obtendrán en función de su esta pregunta es difícil que sepa si debe contestar el
posible utilidad, y decidir si puede suprimirse algu- tratamiento que le recomendó su médico, con in-
na pregunta. dependencia de su cumplimiento, o bien el trata-
Hay que prestar mucha atención a la redacción miento que hace en realidad, independientemente
de las preguntas, muy especialmente cuando se del que le recomendó su médico.
trata de actitudes (predisposición a hacer algo),
comportamientos (conductas) y creencias (convic- NO USAR TÉRMINOS VAGOS
ciones en relación con el sistema de valores del in- Se debe evitar el uso de términos vagos o ambiguos
dividuo). El entrevistado puede entremezclar lo como en ocasiones, a menudo, etc.
que piensa, lo que haría y lo que realmente hace.
En este sentido, la sola modificación del tiempo de Ejemplo 20.5. La pregunta ¿consulta a menudo a su
un verbo puede cambiar el significado de una pre- médico por dolor de cabeza? sería mejor sustituirla
gunta, y lo que era un comportamiento pasa a ser por otra más precisa, como ¿cuántas veces consultó
una actitud o una creencia. En la tabla 20.5 se resu- a su médico por dolor de cabeza durante las dos
men algunas recomendaciones prácticas. últimas semanas?

188
DISEÑO DE CUESTIONARIOS

NO FORMULAR LAS PREGUNTAS UTILIZAR UN LENGUAJE SENCILLO


DE FORMA NEGATIVA El lenguaje debe ser comprensible para todos los
Las preguntas negativas conducen a dobles inter- participantes del estudio, incluidos aquellos con un
pretaciones. Considérese la siguiente pregunta: ¿no menor grado de escolarización, y no hay que usar
piensa usted que fumar perjudica su salud? Una res- terminología médica. Tampoco deben utilizarse
puesta afirmativa puede significar: sí, creo que per- abreviaturas, siglas, extranjerismos, argots, etc. Una
judica mi salud; o bien: sí, no pienso que perjudi- forma de solucionar este problema es incluir notas
que mi salud. aclaratorias con sinónimos más coloquiales entre
paréntesis.
NO FORMULAR DOS PREGUNTAS EN UNA
Considérese la siguiente pregunta: ¿ha tenido algu- Ejemplo 20.7. En un cuestionario interesa recoger
na vez dolor en el pecho cuando sube escaleras o la fecha de la menarquia. Una posible pregunta es:
una cuesta? La respuesta puede ser negativa senci- ¿a qué edad tuvo la menarquia (la primera mens-
llamente porque el encuestado no acostumbra su- truación)?
bir escaleras. Si se quiere conocer si una persona ha
tenido dolor en el pecho, si este dolor se produce La regla general es que la escala no debería exi-
cuando sube escaleras, o si se calma con el reposo, gir una habilidad de lectura más allá de la que
es conveniente formular una pregunta para cada tiene una persona de 12 años. Las frases deben ser
uno de estos conceptos. Se empezaría preguntan- cortas y con una estructura gramatical lo más sen-
do: ¿ha tenido alguna vez dolor en el pecho? Esta cilla posible.
cuestión actuaría como filtro, y si la respuesta fuese
negativa, no haría falta efectuar las restantes pre- NO SOBREVALORAR LA MEMORIA
guntas. El uso de cuestiones filtro conlleva el desa- DE LOS ENCUESTADOS
rrollo de instrucciones complejas. Esta dificultad El recuerdo varía según la naturaleza del problema
no es importante cuando los entrevistadores están y el tiempo transcurrido. Estancias breves en el hos-
bien entrenados y adquieren experiencia en el ma- pital a causa de una enfermedad crónica, o medi-
nejo del cuestionario. caciones que se toman diariamente, son hechos im-
portantes que pueden olvidarse sólo porque, para
Ejemplo 20.6. En un cuestionario sobre estilos de vi- el encuestado, no son nuevos. En este caso, el uso
da, se incluían las siguientes preguntas sobre el há- de una lista de enfermedades o de medicaciones
bito de fumar: será de gran ayuda para estimular la memoria del
Pregunta 33. ¿Es usted fumador/a de cigarrillos, encuestado.
puros o pipa?
Sí ( ) No ( ) Ejemplo 20.8. Considérese la siguiente pregunta:
En caso de respuesta negativa pase a la pregunta ¿cuántas veces ha consultado a su médico en el últi-
número 44. mo año? Éste es un dato que mucha gente no recor-
Pregunta 34. ¿Actualmente fuma? dará. Sin embargo, si se pregunta por un período
Sí ( ) No ( ) más reciente, por ejemplo, las dos últimas semanas,
En caso de respuesta negativa pase a la pregunta 39. es más fácil de recordar.

UN CONCEPTO, UNA PREGUNTA UTILIZAR PREGUNTAS CERRADAS


Las preguntas no han de contener muchos concep- PARA LAS CUESTIONES PERSONALES
tos. Considérense las siguientes preguntas: ¿ha Las preguntas personales que pueden inculpar al
notado alguna vez los tobillos o los pies hinchados sujeto o ir en contra de los valores de ciertos sectores
al levantarse por la mañana, o a últimas horas del de la sociedad han de redactarse con sumo cuidado,
día?, ¿ha notado alguna vez los tobillos o los pies ya que tienden a conducir a un rechazo o a que se res-
hinchados? La segunda sería preferible, ya que sólo ponda erróneamente. Es mejor utilizar preguntas
expresa una idea, por lo que no se distrae la aten- cerradas entre cuyas respuestas alternativas se enmas-
ción del encuestado. care la información que se desee obtener.

189
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Ejemplo 20.9. Para un encuestado puede ser muy útil que el encuestador muestre una tarjeta en la
embarazoso contestar directamente a la pregunta de que se reproduzcan las distintas alternativas con el
si ha padecido una determinada enfermedad vené- fin de facilitar la respuesta, ya que el encuestado
rea en los últimos años. Sin embargo, si esta en- podrá leerlas.
fermedad se encuentra como una opción dentro de Además del número, es conveniente que las res-
una lista de enfermedades, se facilita la respuesta: puestas alternativas no sean muy largas porque es
¿El año pasado padeció usted alguna de las si- molesto para los participantes tener que leer tantas
guientes enfermedades? palabras o tratar de recordar tantos detalles.

Sí No NS/NC CONSIDERAR TODAS LAS POSIBLES


Infección de orina () () () ALTERNATIVAS
Cálculos en los riñones () () () El investigador, en ocasiones, descuida o no conside-
Gonorrea () () () ra algunas opciones potencialmente importantes.

LAS PREGUNTAS HAN DE SER NEUTRAS Ejemplo 20.11. Consideremos la siguiente pregun-
Deben evitarse preguntas que sugieran algún tipo ta: ¿dónde tuvo lugar la última consulta que hizo us-
particular de respuesta. El uso de palabras con un ted al médico?
alto contenido emocional o ideológico (p. ej., liber- ( ) Centro de salud.
tad, democracia, saludable, etc.) condiciona res- ( ) Consulta externa de un hospital.
puestas positivas, mientras que otros términos (bu- ( ) Servicio de urgencias de un ambulatorio.
rocracia, inspección, control, etc.) pueden llevar a ( ) Servicio de urgencias de un hospital.
respuestas negativas. Del mismo modo, el uso de ( ) Consulta privada de un médico.
atributos o adjetivos en el enunciado puede influir Aunque a primera vista pueda parecer una lista
en la respuesta. completa, muchas personas pueden no entrar en
ninguna de estas categorías, porque han consulta-
Ejemplo 20.10. Si a alguien se le pide que dé su opi- do al médico de su empresa o por teléfono, por ci-
nión sobre la siguiente frase: «desde el punto de tar dos ejemplos.
vista sanitario es indudable que se debería prohibir
fumar en los restaurantes», la palabra indudable Para evitar estos problemas se suele incluir una
puede inducir a los encuestados a mostrar un total categoría denominada otros, y se solicita al encues-
acuerdo con esta proposición. tado que especifique la respuesta. Durante la reali-
zación de la prueba piloto pueden detectarse estas
Hay que ser muy cuidadoso cuando se pregun- omisiones. Si se observa que muchos encuestados
ta sobre conductas o actitudes que no están bien eligen la opción otros, hay que revisar y completar
aceptadas socialmente. Ante estas preguntas el par- las opciones de respuesta.
ticipante es más proclive a falsear las respuestas. En
estas circunstancias, cualquier palabra, o la entona- LAS ALTERNATIVAS HAN DE SER
ción del entrevistador, puede ser motivo para que el MUTUAMENTE EXCLUYENTES
encuestado no exprese su propia opinión, y contes- Si el encuestado sólo puede elegir una alternativa,
te lo que «todo el mundo espera que conteste». éstas deben ser mutuamente excluyentes.

EVITAR UN NÚMERO DE OPCIONES MUY Ejemplo 20.12. Consideremos la siguiente pregun-


ELEVADO EN LAS PREGUNTAS CERRADAS ta: ¿cuántas mamografías le han hecho en los últi-
El número de respuestas alternativas debería ser mos 3 años?
menor de diez. En caso contrario, se corre el peli- ( ) Ninguna.
gro de que el encuestado no las recuerde todas y ( ) 1 o 2.
tienda a escoger una de las últimas. Sin embargo, ( ) 2 o 3.
cuando se pregunta si ha padecido alguna enfer- ( ) Más de 3.
medad o si toma algún medicamento, el número de Ante esta pregunta, una mujer a la que se le han
opciones suele ser elevado. En estas ocasiones, es practicado dos mamografías no sabría si debe con-

190
DISEÑO DE CUESTIONARIOS

testar la segunda o la tercera opción. Aunque en Ejemplo 20.14. A continuación encontrará una se-
este ejemplo el error parece evidente, no es raro rie de afirmaciones. Indique el grado de acuerdo o
descubrir este tipo de errores cuando se realiza la desacuerdo con cada una de ellas. Por favor, mar-
prueba piloto. que con un círculo la opción elegida.

ORDENAR LÓGICAMENTE
LAS ALTERNATIVAS No Total
Las distintas alternativas deben seguir un orden ló- Total estoy Des- des-
gico, sobre todo cuando las opciones siguen una lí- acuerdo Acuerdo seguro acuerdo acuerdo
nea de continuidad o jerarquía.
La publicidad 1 2 3 4 5
Ejemplo 20.13. ¿Cómo valora la forma en que el mé- del tabaco
dico atiende a las explicaciones que usted le da? debería
( ) Muy satisfactoria. prohibirse
( ) Bastante satisfactoria.
( ) Aceptable. Hay 1 2 3 4 5
( ) Bastante insatisfactoria. demasiadas
( ) Muy insatisfactoria. restricciones
para fumar
PUNTUACIONES Y ESCALAS
Hoy en día 1 2 3 4 5
Los códigos y las puntuaciones transforman las res- se insiste
puestas en variables que pueden ser tabuladas y demasiado
analizadas estadísticamente. sobre el daño
Las respuestas dicotómicas, dada su simplicidad, del tabaco
se emplean con frecuencia en cuestionarios muy lar-
gos. A menudo incluyen una tercera categoría: no
sabe/no contesta. Sus principales limitaciones son El primer paso consiste en reunir un buen nú-
la pérdida de información y el hecho de que algún mero de frases, entre 10 y 20, que señalen actitudes
participante no quiera contestar alguna de las pre- favorables y desfavorables sobre un tema. Habi-
guntas, ya que no puede matizar la respuesta. Las tualmente cada frase tiene cinco alternativas, que
preguntas cerradas con múltiples opciones tratan van desde el total acuerdo hasta el total desacuer-
de superar estos inconvenientes. Las variables tam- do. El número de frases que contengan actitudes
bién se pueden medir en una escala ordinal o cuan- positivas o negativas ha de ser similar. Es importan-
titativa. te no incluir actitudes neutras o muy extremas que
Para poder medir algunos fenómenos se requie- generen una aceptación o rechazo definitivos.
re efectuar varias preguntas interrelacionadas. A continuación se concede una puntuación a las
Desde un punto de vista estadístico se pueden usar respuestas dadas en cada pregunta. En general, la
escalas más complejas para combinar las diferentes puntuación más alta es para la aceptación de las acti-
respuestas en una única puntuación. Para conse- tudes consideradas como positivas, o el desacuerdo
guir esta puntuación global todas las preguntas de- con las consideradas negativas. La suma aritmética
ben evaluar la misma característica. El tipo de esca- de las puntuaciones servirá para clasificar a los parti-
la más usado es la de Likert, aunque también se cipantes y permitir comparaciones entre ellos. La
emplean la de Guttman y la escala visual analógica, suma de todas las puntuaciones proporciona una
entre otras. puntuación ordinal total que no garantiza la lineali-
dad o igualdad de los intervalos.
ESCALA DE LIKERT En algunos pocos casos se obtienen «pesos» para
Esta escala comprende varias frases y los encuesta- cada ítem que reflejan su importancia relativa en el
dos deben expresar su grado de acuerdo o desa- contexto de la escala. En la mayoría de los instru-
cuerdo con cada una de ellas. mentos cada ítem se puntúa igual ya que se ha de-

191
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

mostrado que el uso de «pesos» no mejora la capa- Las primeras preguntas han de despertar el inte-
cidad discriminante o la sensibilidad al cambio del rés del encuestado y aumentar su motivación para
instrumento y, por contra, complica la tarea de cal- colaborar. Las cuestiones más generales, como el
cular las puntuaciones. estado civil, el trabajo, la dirección o el teléfono, no
son buenas para conseguir este propósito y deben
ESCALA DE GUTTMAN dejarse para el final de la encuesta. Igualmente, no
En esta escala se escoge un número relativamente hay que iniciar un cuestionario con preguntas de
pequeño de frases que expresan una actitud favora- índole personal o que puedan herir la susceptibili-
ble o desfavorable hacia un tema y que están redac- dad de los participantes. Si un encuestado se moles-
tadas de tal manera que quien está de acuerdo con ta por un pregunta en concreto puede dar por ter-
una de ellas también lo está con las anteriores. minada la entrevista, y si esta pregunta está al inicio
del cuestionario, se perderá toda la información.
Ejemplo 20.15. Por favor, marque con un círculo La primera pregunta ha de ser sencilla, de tal for-
cada una de las frases con la que está de acuerdo. ma que todos los participantes puedan responderla
en pocos segundos; se han de evitar las preguntas
1. El tabaco puede causar enfermedad. abiertas o las cerradas con muchas alternativas.
2. El tabaco es una causa importante de enfer- También ha de ser neutral. Un cuestionario no debe
medad. empezar con una pregunta en la que los encues-
3. El tabaco es una causa muy importante de enfer- tados deban expresar su acuerdo o desacuerdo
medad y muerte. sobre una cuestión.
4. El tabaco es la causa más importante de enfer- Si en un cuestionario se incluyen preguntas
medad y muerte en España. abiertas y cerradas sobre un mismo tema, es prefe-
rible colocar en primer lugar las abiertas, ya que de
En la escala de Guttman las frases son siempre esta forma las personas pueden expresar sus opi-
de intensidad creciente y referidas a un solo tema o niones sin estar influidas por las distintas alternati-
concepto, y su número no es superior a cuatro o vas de las preguntas cerradas.
cinco. El hecho de que el número de frases referi- Toda encuesta debe iniciarse con los plantea-
das a un concepto sea pequeño hace que este tipo mientos más generales para pasar posteriormente a
de escalas no discrimine lo suficiente entre indivi- los más específicos.
duos y limita su uso generalizado.
Ejemplo 20.16. En un cuestionario sobre la detec-
ción precoz del cáncer de mama se incluían las si-
ESCALA VISUAL ANALÓGICA
guientes preguntas:
Se presenta a los encuestados una escala en forma
lineal con los límites claramente definidos, por – ¿Le han hecho alguna vez una mamografía?
ejemplo, entre 0 y 1, o ente 0 y 100. Estos límites son – ¿Por qué se hizo la mamografía?
fijos en el sentido de que un extremo representa el – El resultado de la mamografía fue...
estado menos preferido, por ejemplo, el peor esta-
do de salud o más dolor, y el otro el más preferido. En esta secuencia de preguntas, la primera ac-
Si la línea está dividida en milímetros, se denomina tuaría como filtro, ya que si la encuestada respon-
termómetro, y si sólo tiene definidos los límites inicial diera negativamente, no sería necesario contestar
y final, se denomina escala visual analógica. las siguientes.

El orden de las preguntas puede influir en las


ORDEN DE LAS PREGUNTAS
respuestas. Por ello, si se desea comparar los resul-
Si la secuencia de preguntas sigue un orden lógico tados obtenidos al administrar la encuesta en dife-
se facilitará el proceso de respuesta. Si las preguntas rentes ocasiones, el orden de las preguntas debe
son dispersas y no tienen ninguna ligazón unas con mantenerse constante. Si se desean añadir nuevas
otras se desviará la atención del encuestado, que irá preguntas, es preferible colocarlas al final del cues-
perdiendo interés, a medida que avance la encuesta. tionario en la medida de lo posible.

192
DISEÑO DE CUESTIONARIOS

Para recoger información sobre sucesos cronoló- mentos que consume habitualmente) o cuando una
gicos (historia laboral, lugares de residencia, etc.), es sección va dirigida a un subgrupo de personas (p. ej.,
aconsejable comenzar por el último y retroceder esta sección trata sobre aspectos de salud en la mujer
hasta el primero. y sólo ha de ser contestada por mujeres). Es conve-
La tabla 20.6 resume los puntos principales que niente que estos subtítulos queden bien resaltados.
se deben considerar cuando se decide el orden de Estas anotaciones sirven, además, para romper la
las preguntas. monotonía y evitan que el cuestionario parezca un
listado interminable de preguntas.
En las preguntas filtro, se han de especificar con
FORMATO DEL CUESTIONARIO
claridad las instrucciones de cuál es la siguiente
El formato se ha de diseñar prestando atención a los pregunta que se debe responder. Ha de quedar
pequeños detalles. Un buen formato evita errores. claro quién debe contestarla y qué es lo que se su-
Los cuestionarios deben iniciarse con una breve pone que debe hacer el que no la ha de responder.
introducción sobre la naturaleza y la finalidad del Los números que identifican cada una de las op-
estudio. En las encuestas personales o telefónicas, ciones de respuesta se sitúan a la izquierda. La ra-
la lee el encuestador. En los cuestionarios auto- zón principal de ello es que algunas respuestas son
cumplimentados, estará aparte del cuestionario más largas que otras, y si el número está a la de-
para que el encuestado pueda hojearla cuando recha aumenta la probabilidad de error.
desee. Debe incluir la finalidad del estudio, la im- El formato del cuestionario ha de permitir una
portancia de que los participantes dediquen unos rápida codificación. La opción más simple es que
minutos a responder la encuesta, el nombre de la cada alternativa esté numerada y en el margen de-
institución que avala el proyecto, el método de se- recho del cuestionario se anote el código de la op-
lección de los participantes, el uso que se hará de la ción seleccionada, y se repita el número de la pre-
información y si se conservará el anonimato y gunta, con el fin de facilitar la introducción de los
la confidencialidad de los datos, y debe agradecer resultados en el ordenador.
de antemano la colaboración de los participantes. Las preguntas no se han de partir nunca. Termi-
Al inicio del cuestionario autocumplimentado se nar una página con una pregunta a medias crea
darán las instrucciones básicas que se deben seguir confusión e invita al error.
acompañadas de los consiguientes ejemplos. En la primera hoja del cuestionario se ha de re-
Es importante no apiñar demasiadas preguntas servar un espacio para el código de los encuestados.
en un espacio reducido. Es preferible que cada una Esto será muy práctico cuando se tenga que verifi-
de las opciones esté en una línea. car y consultar alguna pregunta de un participante
Es conveniente utilizar frases introductorias cuan- en concreto. También suele ser útil anotar el tiem-
do se cambia de tema (p. ej., la alimentación es una po de duración de la encuesta, así como reservar un
parte importante en nuestra vida cotidiana; a conti- espacio para que el encuestador pueda anotar sus
nuación me gustaría preguntarle acerca de los ali- propios comentarios.

Tabla 20.6. Guías para decidir el orden de las preguntas

• Las preguntas han de ser lo suficientemente importantes como para despertar el interés
• Se evitará que la primera pregunta sea una pregunta abierta o una cerrada con muchas alternativas
• La primera pregunta será «neutral»
• Las preguntas sociodemográficas (edad, sexo, grado de estudios, etc.) suelen ir al final del cuestionario
• Las preguntas relacionadas con un mismo tema han de ir consecutivamente
• Si se incluyen preguntas abiertas y cerradas sobre un mismo tema, es preferible colocar en primer lugar
las abiertas
• Las preguntas que pueden causar mayor objeción entre los participantes deben ir al final
• Empezar por los planteamientos generales para poder pasar después a los más específicos

193
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Una buena pregunta presentada en un buen tionarios sobre conocimientos, esta frecuencia refle-
formato conduce a un fácil registro. La tabla 20.7 ja la dificultad de la pregunta. En los cuestionarios
resume algunas recomendaciones. El mejor conse- sobre opiniones o actitudes, la frecuencia refleja la
jo para conseguir un buen formato es realizar una popularidad de cada ítem. Cuando una alternati-
prueba piloto rigurosa con el fin de detectar los va se responde con mucha o poca frecuencia (por
problemas y corregirlos. encima del 95% o por debajo del 5%), discrimina
poco entre individuos y, en definitiva, aporta poca
información. Este tipo de preguntas no mejora las
Tabla 20.7. Recomendaciones para propiedades psicométricas del cuestionario y
la elaboración del formato además hace que sea más largo, por lo que son can-
de un cuestionario didatas a eliminarse.
Otro índice de utilidad de un ítem es su capaci-
– Utilizar distintos formatos de letra para cada parte dad de discriminación. Indica si una persona con pun-
de la pregunta. Por ejemplo, usar: tuación elevada en el total del cuestionario es más
• MAYÚSCULAS para la pregunta probable que haya obtenido también una pun-
• negrita para las opciones de respuesta tuación elevada en un determinado ítem. En otras
• cursiva para las instrucciones palabras, se trata de saber si un ítem será de ayuda
– Incluir junto a cada pregunta sus instrucciones para discriminar entre los individuos que obtienen
específicas una puntuación total alta y los que la obtienen baja.
Otra característica importante es la homogeneidad
– Usar un formato vertical para las respuestas
de los ítems, es decir, que midan diferentes aspec-
– Precodificar todas las preguntas cerradas tos de un mismo fenómeno y no diferentes aspectos
– Asociar siempre el mismo código para una misma de diferentes fenómenos. Esto implica que cada
opción de respuesta (p. ej., utilizar siempre: sí = 1) ítem debe estar moderadamente relacionado con
– Registrar la respuesta a una pregunta cerrada los demás, y a la vez con la puntuación total. Estas
poniendo un círculo o una cruz (pero siempre dos condiciones son el fundamento de las pruebas
lo mismo) en la opción escogida de consistencia interna de un cuestionario. Por un
lado, si un ítem no está relacionado con otro, quie-
– Proporcionar los espacios necesarios para las
re decir que probablemente miden fenómenos
preguntas abiertas de respuesta directa
diferentes y, por tanto, no es lógico sumar sus pun-
– Recordar que el diseño del formato ha de facilitar tuaciones en una sola escala. Si, por el contrario,
la entrada de datos dos ítems están muy relacionados quiere decir que
la información proporcionada por uno de ellos es
redundante.
Una alta consistencia interna de los ítems tiene
PRUEBA PILOTO
sentido cuando el interés principal del instrumento
Una vez que se ha completado la primera versión reside en describir, por ejemplo, un concepto, un
del cuestionario y ya se ha evaluado su legibilidad, comportamiento o un problema de salud. Por el
éste se administra a un grupo de sujetos represen- contrario, cuando el objetivo principal de la escala
tativo de la población a la que va dirigida el instru- es discriminar las personas que tienen un deter-
mento. El tamaño de la muestra de esta prueba pi- minado atributo de las que no lo tienen, la escala no
loto debe ser siempre superior al número de ítems tiene que ser necesariamente homogénea. Por
y se recomienda que el número de sujetos se sitúe ejemplo, en un cuestionario de conocimientos so-
entre dos y diez veces el número de ítems que tiene bre una determinada enfermedad, destinado a dis-
el instrumento. criminar a los que saben sobre ella, para alcanzar un
La aplicación del instrumento a estos individuos rango variado de respuestas correctas entre todos
permitirá obtener los primeros resultados. Se ob- los participantes, se tendrán que incluir tanto pre-
servará, en primer lugar, la frecuencia de respuesta guntas fáciles como difíciles, lo que hará disminuir
de las distintas opciones de cada ítem. En los cues- la consistencia interna del cuestionario.

194
DISEÑO DE CUESTIONARIOS

BIBLIOGRAFÍA DE LOS EJEMPLOS Conceptos básicos, construcción y adaptación cultural.


Herzog AR, Batchman JG. Effect of questionnaire length on Med Clin (Barc) 2001; 116: 789-796.
response quality. Public Opinion Quarterly 1981; 45: Charlton R. Research: is an «ideal» questionnaire possible?
549-559. Int J Clin Pract 2000; 54 (6): 356-359.
Schwartz N, Hippler HJ, Deutsch B, Strack F. Response sca- Dillman D. Mail and telephone surveys. Nueva York: John
les: effects of category range on reported behaviour and Willey & Sons, 1978.
comparative judgements. Public Opinion Quarterly Guyatt GH, Naylor CD, Juniper E, Heyland DK, Jaeschke R,
1985; 49: 388-395. Cook DJ for the Evidence-Based Medicine Working
Group. Users' guides to the medical literature. XII. How
BIBLIOGRAFÍA to use articles about health related quality of life. JAMA
Badia X, Carné X. La evaluación de la calidad de vida en el 1997; 277: 1232-1237.
contexto del ensayo clínico. Med Clin (Barc) 1998; 110: McDowell I, Newell C. Measuring health: a guide to rating
550-556. scales and questionnaires. 2.a ed. Nueva York: Oxford
Badia X. La investigación de resultados en salud. Barcelona: University Press, 1996.
Edimac, 2000. Navarro MD. Encuestas de salud. «Cuadernos metodológi-
Badia X, Salamero M, Alonso J. La medida de la salud: guía cos n.° 11». Madrid: Centro de Investigaciones Sociológi-
de escalas de medición en español. 3.a ed. Barcelona: cas, 1994.
Edimac, 2002. Stone DH. Design a questionnaire. BMJ 1993; 307: 1264-
Bosch JLC, Torrente D. Encuestas telefónicas y por correo. 1266.
«Cuadernos metodológicos n.° 9». Madrid: Centro de In- Streiner DL, Norman GR. Health measurement scales: a
vestigaciones Sociológicas, 1993. practical guide to their development and use. 2.a ed.
Casas Anguita J, Repullo I, Labrador JR, Pereira Candel J. Oxford: Oxford University Press, 1995.
Medidas de calidad de vida relacionadas con la salud.

195
Capítulo 21
Validación de cuestionarios

ntes de generalizar la aplicación de un cues- partir del cual pueda considerarse que un cuestiona-

A tionario es necesario evaluar su fiabilidad y su


validez, lo que supone tiempo y esfuerzos. Por
ello, un investigador debería usar cuestionarios que
rio es válido, en general, es necesario realizar más de
un estudio con esta finalidad. Las características con-
sideradas en la validación de un cuestionario se deta-
ya hubieran mostrado su utilidad, fiabilidad y vali- llan en la tabla 21.1.
dez en otros estudios, lo que le permitiría además
comparar los resultados.
Sin embargo, hay ocasiones en que es inevitable Tabla 21.1. Características a considerar
el uso de nuevos cuestionarios: cuando los existen- en la validación de un cuestionario
tes han mostrado resultados poco satisfactorios,
cuando un cuestionario se ha mostrado eficaz pero – Viabilidad
en un medio distinto, o cuando no hay ninguno – Fiabilidad
que sea adecuado para medir las variables de • Repetibilidad
interés. En estas circunstancias, es preceptivo eva- • Fiabilidad interobservador
luar la utilidad del nuevo cuestionario a partir de • Consistencia interna
dos criterios: su fiabilidad y su validez. – Sensibilidad
Los cuestionarios deben poseer una serie de ca- • Sensibilidad al cambio
racterísticas: ser sencillos, viables y aceptados (feasi-
– Validez
bility), fiables, válidos y bien adaptados culturalmen-
• Validez lógica
te, útiles y sensibles a los cambios. Mientras que la • Validez de contenido
fiabilidad y la validez son exigencias necesarias en • Validez de criterio
todos los instrumentos, la importancia de otras ca- • Validez de constructo o de concepto
racterísticas psicométricas dependerá del contexto;
así, por ejemplo, la sensibilidad al cambio (responsi-
veness) será muy importante si el instrumento se VIABILIDAD
aplica como medida de la respuesta en los ensayos
clínicos, pero no lo será tanto en un estudio sobre Los mejores instrumentos son inservibles si su apli-
opiniones o actitudes acerca de una enfermedad. cación resulta compleja y costosa. Características
La validación de un cuestionario es un proceso como el tiempo empleado en la cumplimentación
complejo que implica múltiples fuentes de informa- del cuestionario, la sencillez y la amenidad del for-
ción y la recogida de diferentes evidencias empíricas. mato, y el interés, la brevedad y la claridad de las
Dado que no existe un criterio concreto ni único a preguntas, así como la facilidad de la puntuación,

196
VALIDACIÓN DE CUESTIONARIOS

el registro y la codificación, y de la interpretación respuestas de los pacientes con enfermedades cró-


de los resultados, son algunos aspectos relaciona- nicas eran más fiables que las de los que padecían
dos con la viabilidad. enfermedades agudas, y que las respuestas negati-
vas eran más consistentes que las afirmativas. Dado
que el Nottingham Impact Profile resulta en una
FIABILIDAD
alta proporción de respuestas negativas cuando se
Un instrumento es fiable si produce resultados con- administra a una persona sana, una investigación
sistentes cuando se aplica en diferentes ocasiones sobre su fiabilidad se debería llevar a cabo en una
(estabilidad o reproducibilidad). Esquemáticamente, población en la que se esperara un elevado número
se evalúa administrando el cuestionario a una misma de respuestas afirmativas, con el fin de evitar su so-
muestra de sujetos, ya sea en dos ocasiones distintas brevaloración. Por otro lado, para evitar una infra-
(repetibilidad) y/o por dos observadores diferentes estimación de la repetibilidad, la muestra de la po-
(fiabilidad interobservador). Se trata, por tanto, de blación debería padecer una enfermedad estable y
analizar la concordancia entre los resultados obteni- que previsiblemente no cambiara en un corto espa-
dos en las diversas aplicaciones del cuestionario. Si la cio de tiempo. Por estas razones, seleccionaron a
escala de medida es cualitativa, se evalúa mediante el pacientes con artrosis. Aunque el estado físico de
índice Kappa, y si es cuantitativa, principalmente una persona con artrosis puede fluctuar diariamen-
mediante el coeficiente de correlación intraclase te, es muy poco probable que se produzcan cam-
(anexo 4). Otro concepto relacionado con la fiabili- bios significativos en un período de semanas.
dad es el de la consistencia interna que mide el grado Los autores consiguieron reclutar a 73 personas
en que se obtienen respuestas homogéneas a dife- que cumplían los criterios de inclusión, y a cada una
rentes preguntas sobre un mismo concepto o dimen- se le envió un cuestionario, una carta explicando el
sión. Siempre que sea posible deben evaluarse todos propósito del estudio y un sobre libre de franqueo
los componentes de la fiabilidad. para la respuesta. A todos aquellos que respondieron
se les envió un segundo cuestionario cuatro semanas
REPETIBILIDAD más tarde. Este período se eligió para minimizar la
La repetibilidad, o fiabilidad test-retest, se refiere a posible sobrevaloración de la repetibilidad debida al
si, cuando se administra un cuestionario a la misma efecto del recuerdo de las respuestas efectuadas en la
población en dos ocasiones diferentes en el tiempo, primera ocasión. Los autores obtuvieron una tasa de
se obtienen resultados idénticos o similares. respuesta del 88% en el primer cuestionario y del
Las limitaciones de la evaluación de la repetibi- 90% en el segundo, francamente alta para este tipo
lidad de un cuestionario son las mismas que las de de estudios, y la repetibilidad del cuestionario, a su
cualquier otro instrumento de medida. Si el tiempo juicio, fue buena. Sin embargo, se ha de recordar
transcurrido entre ambas aplicaciones del cuestio- que, en el sentido más estricto, estos resultados sólo
nario es muy largo, el fenómeno que se mide puede son aplicables a pacientes con artrosis. Muy posible-
haber presentado variaciones, mientras que si es mente, los resultados sean extrapolables a otras
demasiado corto, puede existir un recuerdo de las poblaciones sanas o con otras enfermedades, aun-
respuestas dadas en la primera ocasión. En ambos que esto debe ser evaluado en cada ocasión.
casos se obtendrá una medida distorsionada de la
repetibilidad. Además, algunos participantes pue- FIABILIDAD INTEROBSERVADOR
den no aceptar que se administre el cuestionario en La evaluación de la fiabilidad interobservador con-
dos ocasiones, especialmente si es extenso. siste en estimar el grado de concordancia entre dos
o más evaluadores (observadores). La demostra-
Ejemplo 21.1. En la evaluación de la fiabilidad del ción de una alta fiabilidad interobservador implica
cuestionario de salud Nottingham Impact Profile, que la fiabilidad intraobservador también es alta.
uno de los aspectos que se tuvo en cuenta fue la No obstante, si la fiabilidad interobservador es baja,
repetibilidad (Hunt et al, 1981). El primer proble- no se puede asegurar si se debe a la existencia de
ma que se planteaba era la elección de la pobla- diferencias entre los observadores o se debe a un
ción. En estudios previos se había observado que las solo observador.

197
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Ejemplo 21.2. El Older Americans Resources and didos entre 0 y 1, y su interpretación es similar a la
Services Multidimensional Functional Assessment de un coeficiente de correlación. Pueden calcular-
Questionnaire (OARS-MFAQ) es un cuestionario se diferentes valores del alfa de Cronbach exclu-
sobre la capacidad funcional y las necesidades de yendo determinados ítems del cuestionario, de for-
atención de las personas de edad avanzada. Dado ma que puede evaluarse si la supresión de algunas
que las puntuaciones del cuestionario se basan en preguntas mejora la fiabilidad. De todas formas,
una revisión de las respuestas por un observador, la antes de decidir eliminar un ítem, debe evaluarse si
fiabilidad interobservador es especialmente impor- ello puede afectar a la validez del cuestionario, ya
tante. En un estudio (Fillenbaum y Smyer, 1981), se que puede ser preferible mantener la pregunta aun
evaluó la concordancia entre 11 observadores que a costa de una consistencia interna ligeramente
evaluaron a 30 pacientes, obteniéndose coeficientes menor.
de correlación intraclase que oscilaron entre 0,66 Como norma general se sugiere que el valor del
para el estado físico y 0,87 para los autocuidados. alfa de Cronbach ha de ser igual o superior a 0,70
para considerar que un instrumento tiene una bue-
CONSISTENCIA INTERNA na consistencia interna.
La consistencia interna se refiere a si los ítems que
miden un mismo atributo presentan homogenei- Ejemplo 21.3. El cuestionario de apoyo social fun-
dad entre ellos. cional Duke-UNC-11 consta de 11 ítems medidos
Los cuestionarios se desarrollan para medir se- en una escala de Likert con puntuaciones de 1 a 5,
paradamente diferentes componentes o dimensio- y evalúa el apoyo social confidencial (posibilidad de
nes de un problema. Un cuestionario de salud sue- contar con personas para comunicarse con ellas) y
le estar dividido en preguntas que tratan de medir el afectivo (demostraciones de amor, cariño y em-
la salud física y mental, o un cuestionario de satis- patía). En el marco de un estudio de su validez y fia-
facción en apartados que identifican, por ejemplo, bilidad, se evaluó también su consistencia interna
los componentes de competencia profesional, las (Bellón et al, 1996a). El alfa de Cronbach de la
cualidades personales del profesional sanitario y la escala fue de 0,90, el de la subescala de apoyo con-
accesibilidad de los servicios. En todas estas situa- fidencial de 0,88 y el del apoyo afectivo de 0,79. Los
ciones es de esperar que exista una buena homo- autores no observaron que la extracción de ningún
geneidad entre las distintas preguntas que miden ítem mejorara la consistencia interna de la escala ni
un mismo componente. Si en un cuestionario de de las subescalas.
satisfacción los usuarios contestan que su médico se
preocupa bastante de ellos como persona, es de es- FUENTES DE ERROR
perar que, en otra pregunta sobre si su médico está La fiabilidad de una medida puede afectarse por al-
dispuesto a escucharles, contesten afirmativamen- gunos de los factores que se citan a continuación:
te. De otro modo se pensará que los distintos ítems
que componen la satisfacción con el médico que les – Cambios a través del tiempo en la característica estudia-
atiende son poco consistentes entre sí y que el cues- da. Al repetir un cuestionario se debe tener en
tionario es poco fiable. cuenta qué medidas son susceptibles de variar con
Cuando un cuestionario está compuesto por di- el tiempo. De hecho, muchas actitudes, creencias
ferentes subescalas, cada una de las cuales pretende o estilos de vida pueden hacerlo, como la frecuen-
medir una dimensión diferente del fenómeno, cia de cepillado de los dientes o la práctica de ejer-
debe evaluarse la consistencia interna de cada una cicio físico. Si ha existido un cambio, una repetibi-
de ellas. lidad baja no implica necesariamente una escasa
A diferencia de los otros aspectos de la fiabili- fiabilidad del cuestionario.
dad, la evaluación de la consistencia interna sólo re- – Cambios debidos a las condiciones de administración del
quiere la administración del cuestionario en una cuestionario. Algunos factores personales del entre-
única ocasión. vistado, como el estado emocional, el cansancio, el
La técnica estadística para su análisis es el alfa de estado de salud o las condiciones del entorno
Cronbach, que expresa la consistencia interna en- (ruido, calor, frío, etc.), pueden influir en el modo
tre tres o más variables. Sus valores están compren- de contestar a las preguntas y alterar la fiabilidad.

198
VALIDACIÓN DE CUESTIONARIOS

– Variaciones debidas al propio cuestionario. En ocasio- la sensación de control del propio paciente sobre la
nes, el formato del cuestionario, la formulación de enfermedad. La repetibilidad, que se evaluó en 100
las preguntas o las instrucciones para cumplimen- pacientes con limitación crónica al flujo aéreo esta-
tarlo son poco comprensibles y pueden ser inter- ble, fue excelente para las cuatro dimensiones. La
pretadas de forma distinta por el encuestado al sensibilidad para detectar cambios en la enferme-
repetir la prueba. Por consiguiente, hay que insistir dad se evaluó en 13 pacientes antes y después de
en que las instrucciones sean cortas y precisas y que adecuar su tratamiento farmacológico, y en otros
las preguntas estén definidas de forma operativa 28 antes y después de entrar en un programa de
con un lenguaje claro y sin ambigüedades. rehabilitación respiratoria. En ambos casos, se en-
– Cambios atribuidos a los encuestadores. Los encuesta- contraron mejoras estadísticamente significativas
dores deben atenerse estrictamente a la estructura para las cuatro dimensiones.
y la secuencia del cuestionario y a cómo han esta-
do formuladas las preguntas. La transcripción de La sensibilidad al cambio se mide con el estadísti-
las respuestas a las preguntas abiertas debe ser lite- co «tamaño del efecto» (effect size) que relaciona la
ral. Al poner en marcha un estudio es de suma media de las diferencias entre las puntuaciones antes
importancia entrenar a los entrevistadores para y después de una intervención con la desviación
evitar estos errores y conseguir al mismo tiempo estándar de la puntuación antes de la intervención.
que exista uniformidad entre ellos. El conocimiento de la sensibilidad al cambio de
– Errores en el manejo de los datos. Estos errores se pue- un instrumento es importante para la estimación
den producir al codificar, grabar y/o transformar del cálculo del tamaño muestral necesario para de-
las variables para su análisis. mostrar los cambios debidos al tratamiento en un
ensayo clínico. Cuanto mayor sea la sensibilidad al
cambio del instrumento menor será el tamaño de la
SENSIBILIDAD AL CAMBIO
muestra necesario.
El concepto de sensibilidad (sensitivity) se refiere a
la capacidad de un instrumento para detectar casos
VALIDEZ
verdaderos.
La sensibilidad al cambio (responsiveness) es la ca- La validez se refiere a la capacidad de un cuestiona-
pacidad que tiene un instrumento para detectar cam- rio para medir aquello para lo que ha sido diseña-
bios clínicos importantes en el atributo verdadero do; tiene diferentes aspectos o componentes, que
que se mide. La sensibilidad al cambio es un aspecto deben ser evaluados en la medida de lo posible.
crucial en los ensayos clínicos, la valoración de pro-
gramas y los análisis de coste-utilidad; en otras pala- VALIDEZ LÓGICA
bras, cuando el instrumento se utiliza como variable La validez lógica o aparente (face validity) es el gra-
de respuesta. Cuando interesa que un instrumento do en que parece que un cuestionario, una parte de
sea sensible al cambio, hay que prestar atención a la él o un ítem mide lo que quiere medir.
escala con que se miden las respuestas: cuantos más La decisión sobre si las preguntas deben tener o
puntos haya en las categorías de respuesta, más sensi- no validez lógica ha de tomarse antes de iniciar su
ble será el instrumento a los cambios significativos. redacción. Si las preguntas carecen de validez lógi-
ca es muy probable que los encuestados rechacen
Ejemplo 21.4. Dado que la relación entre la capaci- contestar. De todos modos, en alguna ocasión pue-
dad pulmonar y la calidad de vida en enfermos pul- de ser de interés formular preguntas carentes
monares crónicos es débil, Guyatt et al (1987) desa- de validez lógica. Por ejemplo, cuando se trata de
rrollaron un cuestionario sobre calidad de vida temas muy sensibles, conflictivos o que no están
para utilizarlo en ensayos clínicos. Los existentes bien vistos socialmente, si se realizan preguntas
hasta el momento se centraban en la disnea y deja- directas (con mucha validez lógica), es muy proba-
ban a un lado otros aspectos que pueden influir en ble que el encuestado no responda o falsee la res-
la vida cotidiana de los pacientes. Por ello, desarro- puesta, por lo que puede ser preferible realizar pre-
llaron un cuestionario que comprende cuatro gran- guntas que aborden el tema de una forma más
des dimensiones: disnea, fatiga, estado emocional y indirecta, con una menor validez aparente.

199
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

VALIDEZ DE CONTENIDO 4 ítems. Ambos factores explicaban, conjunta-


La validez de contenido se basa en el análisis del mente, el 60,9% de la variabilidad. Estos factores
concepto que se pretende medir y, en especial, en corresponden a los dos componentes teóricos del
la definición de las áreas o dimensiones que abarca cuestionario original: el apoyo social confidencial
y sus límites con otros conceptos relacionados. Se (posibilidad de contar con personas para comuni-
puede considerar que un cuestionario es válido por carse con ellas) y el afectivo (demostraciones de
su contenido si contempla todos los aspectos rela- amor, cariño y empatía).
cionados con el concepto en estudio, lo que suele
evaluarse a través de la opinión de expertos. La diferencia entre la validez aparente y la de
contenido reside en que la evaluación de esta última
Ejemplo 21.5. Supongamos que se desarrolla un es un proceso más exhaustivo, y quizá más formal, y
cuestionario para evaluar los conocimientos que en el que deberían participar tanto investigadores y
tienen los estudiantes de medicina sobre una deter- clínicos como miembros de la población diana.
minada enfermedad o sobre varios grupos de enfer-
medades. Para determinar la validez de contenido, VALIDEZ DE CRITERIO
podría construirse una tabla en la que las columnas En ocasiones se puede disponer de algún método
representarían las diferentes áreas de conocimien- alternativo de medida del fenómeno estudiado
to (anatomía, fisiología, etiología, diagnóstico, etc.) cuya validez haya sido demostrada, que se toma
y en cada columna se señalarían las preguntas del como referencia para determinar la validez de la
cuestionario que se incluyeran en dicha área. La encuesta. Siempre que se disponga de un método
simple inspección visual de la tabla permitiría apre- de referencia adecuado, deberá evaluarse la vali-
ciar si todas las áreas de conocimiento están repre- dez de criterio del cuestionario.
sentadas en la proporción deseada. El número de Cuando se habla de validar un cuestionario, los
preguntas de cada área dependería de la importan- investigadores se suelen referir a la validez de crite-
cia relativa de su contenido, habitualmente deter- rio, que es, sin lugar a dudas, la más importante. En
minada por las opiniones de expertos e investiga- algunos casos se pueden usar como criterio de refe-
ciones previas sobre el tema. rencia medidas bioquímicas o radiológicas. Se
Una forma empírica de evaluar la validez de puede validar, por ejemplo, el consumo de tabaco
contenido es aplicar un análisis factorial, técnica declarado, comparándolo con los valores derivados
estadística que explora las respuestas a las pregun- de la nicotina en sangre o de monóxido de carbono
tas del cuestionario, intentando agruparlas en fun- en el aire espirado. En otros casos, el investigador
ción de factores subyacentes. Por ejemplo, si un tendrá que fiarse de medidas menos objetivas,
cuestionario de estado de salud contiene dos subes- como la historia clínica o los resultados obtenidos
calas, una que mide la salud física y otra la mental, mediante otro cuestionario.
es de esperar que el análisis detecte dos factores, La validez de criterio puede evaluarse de dos for-
cada uno de ellos formado por las preguntas que se mas: la validez concurrente y la validez predictiva.
relacionan con cada una de las subescalas. Para Para valorar la validez concurrente se relaciona la
aplicar el análisis factorial, las escalas de medida nueva medida con la de referencia, siendo ambas
deben ser cuantitativas o de puntuación por inter- administradas simultáneamente, de forma similar
valos y las respuestas han de seguir una distribución al estudio de la utilidad de una prueba diagnóstica.
aproximadamente normal. Cuando el criterio de referencia no esté disponible
hasta un tiempo después (p. ej., el desarrollo de
Ejemplo 21.6. En el estudio presentado en el ejem- una enfermedad), se valora hasta qué punto la nue-
plo 21.3, en el que se evaluaba el cuestionario de va medida es capaz de predecirlo correctamente,
apoyo social funcional Duke-UNC-11, que consta y se habla de validez predictiva. Cuando se evalúa la
de 11 ítems medidos en una escala de Likert con validez predictiva, los resultados del cuestionario
puntuaciones de 1 a 5, se realizó un análisis facto- no pueden influir sobre el criterio de referencia.
rial para detectar las dimensiones subyacentes en el En otras palabras, la evaluación de este criterio de
cuestionario. El análisis reveló la existencia de dos referencia debe hacerse independientemente del
factores: el primero con 7 ítems y el segundo con resultado del cuestionario.

200
VALIDACIÓN DE CUESTIONARIOS

Ejemplo 21.7. En el ejemplo 21.5 se presentaba la mento, seleccionando, por ejemplo, el 30% de los
evaluación de la repetibilidad y la sensibilidad al sujetos con mejores puntuaciones y el 30% de
cambio de un cuestionario sobre calidad de vida en los que tienen las peores puntuaciones. El segundo
enfermos pulmonares crónicos. Los autores tam- problema es similar al que se presenta al evaluar
bién evaluaron la validez de criterio, comparando una prueba diagnóstica: puede ser relativamente
las puntuaciones del cuestionario con los resultados sencillo discriminar entre dos grupos muy extre-
espirométricos y con otros cuestionarios destinados mos, pero ésta no es la utilidad que se pretende dar
a medir la disnea y la calidad de vida en general. al instrumento en la práctica habitual. Por tanto,
comprobar que un cuestionario es útil para dife-
Cuando la escala de medida es cualitativa, los ín- renciar entre dos grupos extremos no es suficiente
dices que se utilizan para evaluar la validez de crite- para demostrar su validez.
rio son la sensibilidad y la especificidad (anexo 3).
Cuando se trata de una escala cuantitativa, se utiliza Ejemplo 21.8. En un estudio que tenía por objetivo
habitualmente el coeficiente de correlación intra- evaluar la validez y fiabilidad de un cuestionario de
clase (anexo 4). función familiar (Bellón et al, 1996b), se utilizó el
A menudo, surge el interrogante de por qué, si ya método de los grupos extremos para evaluar la vali-
existe un buen criterio de referencia, interesa una dez de constructo. Se partió de la hipótesis de que los
nueva medida. El desarrollo de esta nueva medida casados tienen una mejor función familiar que
está justificado si el criterio de referencia es muy caro, los divorciados, por lo que deberían obtener puntua-
requiere mucho tiempo de administración, presenta ciones superiores en el cuestionario.
muchos efectos secundarios, o bien no se desarrolla
hasta un tiempo después. En las tres primeras situa- Otra estrategia para evaluar la validez de cons-
ciones el interés se centra en evaluar la validez con- tructo es comprobar que el cuestionario se correla-
currente, mientras que en la última interesa determi- ciona con otras variables que se cree que están re-
nar la validez predictiva del cuestionario. lacionadas con él (validez convergente), mientras que
no lo hace con otras con las que se sospecha que no
VALIDEZ DE CONSTRUCTO O DE CONCEPTO tiene relación alguna (validez divergente).
A veces resulta imposible evaluar la validez de crite-
rio, ya que éste no existe o no está al alcance del Ejemplo 21.9. En un estudio se evaluó la validez y la
investigador. En estos casos, el procedimiento más fiabilidad del cuestionario de apoyo social funcional
empleado es evaluar la validez de constructo, que Duke-UNC-11 en una muestra de 656 pacientes
engloba distintas estrategias. La validez discriminan- (Bellón et al, 1996a). Para evaluar la validez de cons-
te se refiere a la capacidad para distinguir entre sub- tructo, los autores eligieron determinadas carac-
grupos de pacientes o individuos con distintos ni- terísticas que, según la literatura, están relacionadas
veles del atributo de interés. Por ejemplo, es de con el apoyo social, y que son la edad, el estado civil,
esperar que la calidad de vida relacionada con la el estado de salud, la utilización de servicios, la salud
salud será peor en los pacientes asmáticos con gran mental, la función familiar y el número de convi-
afectación funcional que en aquellos con formas vientes. Para ello, compararon las distribuciones de
más leves. estas variables entre los sujetos con un apoyo social
El método más sencillo para evaluar la validez normal o bajo, según el cuestionario, y determina-
discriminante es el de los grupos extremos, que con- ron los coeficientes de correlación entre el cuestio-
siste en administrar el cuestionario a dos grupos de nario evaluado y el resto de escalas cuantitativas.
sujetos: uno con la característica o conducta de in-
terés, y otro que carece de ella. Este enfoque pre- FUENTES DE ERROR
senta dos problemas. El primero es la propia defini- Los aspectos del diseño del cuestionario que pue-
ción de los grupos extremos, ya que no siempre den influir en su validez son los siguientes:
existe un criterio adecuado para conocer quién
tiene y quién no tiene la característica de interés. – Orden de las preguntas. Es conveniente situar las más
En este caso se puede dividir la muestra en función conflictivas al final del cuestionario, ya que, si se
de la puntuación obtenida con el propio instru- ponen al principio, existe la posibilidad de que la

201
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

persona encuestada rechace seguir respondiendo vistado tenga intención de engañar, mientras que
o no lo haga con la sinceridad deseada. en otras el individuo no dice lo que piensa de
– Redacción de las preguntas, ya que puede inducir a forma deliberada.
una respuesta sesgada. – Tendencia sistemática a dar siempre la misma respuesta.
Otra fuente de error es la tendencia sistemática
Ejemplo 21.10. Supongamos una pregunta en la que de algunos individuos a contestar «sí», «verdade-
se plantea la posibilidad de que una enfermedad ro» o «de acuerdo» a las cuestiones planteadas.
afecte a 600 individuos y se informa que existen dos En el caso más extremo estas respuestas se dan
programas alternativos: el programa A, que salvará independientemente del contenido de la pregun-
200 vidas, y el B, con el que hay un tercio de pro- ta. Como ejemplo se podría dar el caso de un indi-
babilidades de salvarse y dos tercios de morir. La viduo que contestara afirmativamente a la pre-
gran mayoría de los encuestados preferirá el pro- gunta de si toma medicación todos los días a la
grama A. Nótese que los resultados de los progra- hora indicada, y también lo hiciera cuando se le
mas A y B (en términos de vidas salvadas) son los preguntara si a menudo se olvida de tomar la
mismos. La diferencia está en cómo se ha explicado medicación. En el otro extremo del espectro se
o descrito la situación. En el programa A, el número encuentran los que siempre contestan negativa-
de supervivientes queda explícito, mientras que el mente o no están de acuerdo.
número que muere (400) queda implícito. Desde – Características del encuestador. La respuesta de una
un punto de vista aritmético, el número de sujetos persona a la pregunta de si cumple con la medi-
que debería preferir uno u otro programa tendría cación prescrita puede ser muy distinta si la reali-
que ser el mismo o similar. Esta aparente paradoja se zan los profesionales sanitarios que atienden al
puede explicar porque los individuos tienen aver- paciente o si lo hace un entrevistador no implica-
sión al riesgo cuando se presenta una situación de do directamente en su seguimiento médico.
posible ganancia y, por el contrario, aceptan el ries- – Elección de la categoría o puntuación intermedia. En
go cuando la situación se presenta desde el punto las escalas de puntuación o las de Likert existe la
de vista de pérdida. posibilidad, además, de que aparezcan otros ses-
gos. Uno de ellos se refiere a que algunos indivi-
– Errores en la categorización de las respuestas. En los duos siempre escogen la categoría o puntuación
cuestionarios con opciones de respuestas prede- intermedia. El efecto de este sesgo es la reduc-
terminadas hay que tener en cuenta todas las po- ción, en la práctica, de las posibles respuestas. Así,
sibilidades de respuesta, de modo que el encues- si en una escala de Likert con cinco opciones, las
tado encuentre siempre una opción adecuada. En extremas recogen la posibilidad de «siempre» o
otras ocasiones, son los factores personales del «nunca», un sesgo de aversión hacia los extremos im-
entrevistado los que introducen los sesgos en las plica que la escala queda reducida a tres catego-
respuestas. Hay individuos que, al ser encuesta- rías, ya que el individuo no contesta ni «nunca» ni
dos, tienden a contestar de forma distinta a como «siempre», con la consiguiente pérdida de fiabili-
lo harían normalmente. dad. Existen dos posibles soluciones a este pro-
– Sesgo de conveniencia social. Algunas personas tien- blema. La primera es evitar términos absolutos y,
den a dar la respuesta más aceptable socialmente, en su lugar, utilizar «casi siempre» y «casi nunca».
o la que piensan que contesta la mayoría de indi- La segunda consiste en aumentar las categorías
viduos. Este sesgo depende de muchos factores posibles en cada respuesta, de modo que, si en
individuales, como la edad, el sexo, la clase social realidad se desea una pregunta con cinco cate-
del entrevistado y el contexto en el que se realiza gorías de respuesta, finalmente tenga siete, sien-
la pregunta. Ejemplos de él se pueden encontrar do las categorías extremas las ocupadas por los
en cuestionarios o preguntas sobre el consumo de términos absolutos.
alcohol o el aborto. Un mecanismo para intentar
evitarlo es dar en primer lugar las opciones
ADAPTACIÓN TRANSCULTURAL
menos convenientes, de modo que sea más fácil
seleccionarlas. En muchas ocasiones, el sesgo de La adaptación de un cuestionario a otra cultura
conveniencia social se produce sin que el entre- tiene como objetivo conseguir un instrumento

202
VALIDACIÓN DE CUESTIONARIOS

equivalente al desarrollado en el país de origen. No cultura original para poder identificar similitudes
puede limitarse a una simple traducción, sino que en la nuestra.
debe seguir una metodología que asegure la equi- A continuación, hay que traducir el cuestionario.
valencia conceptual y semántica con el original y la Deben realizarse al menos dos traducciones con-
comprensión por los pacientes de la versión adap- ceptuales más que literales. La persona que traduce
tada. El método más utilizado es el de la traducción- el cuestionario no sólo debe ser un perfecto cono-
retraducción por personas bilingües (fig. 21.1), segui- cedor de los dos idiomas, sino también de los conte-
do de un análisis de la nueva versión para detectar nidos y los propósitos del cuestionario, ya que la tra-
discrepancias y de la comprobación en un grupo de ducción literal de un término puede tener un
pacientes de su comprensión y aceptabilidad. significado distinto según el idioma. Por ejemplo,
Para realizar una adaptación transcultural, en en inglés se usa la palabra blue para designar tristeza.
primer lugar debe evaluarse si el fenómeno que Si la frase: «I feel blue» se tradujera literalmente al
tiene que medir el cuestionario existe en la cultura español no tendría ningún sentido. A partir de estas
a la que se desea adaptar. Por ejemplo, si el cuestio- traducciones, el equipo investigador consensúa una
nario trata sobre cómo una enfermedad o un pro- primera versión del cuestionario. Es conveniente
blema de salud afecta al grado o la manera de reali- que un panel de expertos evalúe la equivalencia
zar una determinada actividad, hay que preguntarse conceptual de esta versión con la original.
si estos conceptos se operativizan de igual modo en Después se retraduce el cuestionario dos veces al
una cultura que en otra. Es esencial conocer qué sig- idioma original por al menos dos individuos
nificado tiene el concepto y cómo se expresa en la bilingües, evaluando su equivalencia conceptual
con el cuestionario original. Es conveniente reali-
zar una revisión del cuestionario por un panel de
población general o de pacientes de diferentes
características sociodemográficas con la finalidad
Versión original
de llegar a un acuerdo sobre los ítems a incluir. A
partir de toda esta información, se consensúa una
Traducción Traducción versión preliminar. Finalmente, debe realizarse un
versión A versión B estudio piloto de esta versión en una muestra de
sujetos de características similares a las de la pobla-
Consenso con el equipo investigador
ción a la que se administrará el cuestionario, para
y panel de expertos poder evaluar su comprensión y viabilidad.
Versión 1 Una vez obtenida la versión final, deben com-
probarse sus propiedades métricas mediante el re-
escalamiento de los ítems y dimensiones en nuestro
Equivalencia Estudios
Retraducción medio, ya que su importancia, o valor relativo, pue-
conceptual piloto
de ser distinta en ambas culturas. Y, finalmente, de-
be comprobarse su validez y fiabilidad. Además, si
Consenso con el equipo investigador pretende utilizarse para medir la respuesta en es-
y panel de expertos tudios longitudinales, hay que evaluar su sensibili-
Versión 2 dad al cambio.

Evaluación de las Ejemplo 21.11. Un estudio tenía por objetivo adap-


características métricas tar el cuestionario genérico de estado de salud SF-36
Health Survey para su uso en España (Alonso et al,
1995). Este proyecto se estaba realizando de forma
Versión definitiva
coordinada en diferentes países. El cuestionario ori-
ginal fue traducido al castellano por dos personas
bilingües con experiencia clínica. Ambas traduccio-
Figura 21.1. Esquema del proceso de adaptación nes fueron discutidas simultáneamente entre los tra-
transcultural de un cuestionario. ductores y un miembro del equipo investigador

203
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

hasta alcanzar un consenso. Otras dos personas que los ítems que la formen midan todos los con-
bilingües evaluaron la equivalencia conceptual, la ceptos relevantes de la enfermedad o del problema
claridad y la naturalidad de cada una de las frases y que se esté estudiando, y que la mayoría de ellos
de las opciones de respuesta de esta primera ver- sean capaces de detectar cambios. La sensibilidad al
sión. A continuación, fue traducido al inglés por dos cambio vendrá determinada por la interacción
personas bilingües. Sus dos retrotraducciones fue- entre los propios ítems que formen la escala, la
ron comparadas con la versión original por un equi- intervención que se evalúe y la población en la que
po de expertos, quienes señalaron algunos ítems o se aplique.
palabras que no parecían tener una completa equi- Si al contestar un ítem de un cuestionario los
valencia conceptual con el original. También se rea- pacientes no reflejan tener un problema de salud,
lizó una reunión con los autores de todas las versio- entonces este ítem no será válido para detectar una
nes del cuestionario existentes en diferentes países, mejoría. Del mismo modo, si un ítem sólo se altera
durante la que se trató de armonizar el contenido en los casos más graves, en los estudios donde se
del cuestionario en los casos en que existían dife- incluyan pacientes menos graves este ítem tampoco
rentes expresiones alternativas del mismo concepto. será útil para detectar cambios. Por otro lado, si un
Por ejemplo, se sustituyó la distancia de una milla ítem se altera en todos los pacientes porque es una
por la de un kilómetro. Se realizaron diferentes característica de la enfermedad, tampoco servirá
estudios piloto con diversos grupos de pacientes cró- para detectar cambios, a menos que la intervención
nicos para valorar la comprensibilidad del cuestio- que se evalúe consiga la curación del paciente. En
nario y la factibilidad de su administración. definitiva, los ítems que muestren un efecto «te-
cho» (ceiling effect) o un efecto «suelo» (floor effect)
no serán sensibles para detectar cambios.
OBTENCIÓN DE VALORES
Los efectos «techo» o «suelo» dependen, en par-
DE REFERENCIA
te, de la población de estudio. Un ítem puede mos-
La utilidad de un instrumento depende básicamen- trar un efecto «cielo» cuando se estudia a pacientes
te de su fiabilidad y validez, pero también de su in- muy graves, pero no cuando estos pacientes tienen
terpretabilidad clínica. Ésta viene dada por el grado un grado menor de afectación del estado de salud.
en que se pueden realizar juicios de valor sobre un Los efectos «cielo» o «techo» se pueden inferir de los
resultado cuantitativo, que permitan, por ejemplo, resultados de las pruebas piloto o de los estudios que
la toma de decisiones clínicas. La estrategia más uti- se hayan efectuado en distintas poblaciones
lizada para aumentar la interpretabilidad de los ins- Estos efectos también dependen de la validez de
trumentos de medida de la salud percibida ha sido contenido del cuestionario. Si un ítem es irrelevan-
su administración a una muestra representativa de te para un grupo de población, su capacidad para
la población general para obtener valores o normas detectar un cambio a lo largo del estudio será
poblacionales de referencia, basados habitualmen- pequeña.
te en el cálculo de los percentiles.
Ejemplo 21.12. Los resultados de algunas investiga-
ciones sobre el asma sugieren que los ítems relacio-
SELECCIÓN Y USO DE UN INSTRUMENTO
nados con la práctica de un deporte son más sen-
DE MEDIDA
sibles al cambio en las personas jóvenes, mientras
Los instrumentos de medida una vez validados se que en las mayores lo son menos. Una explicación
usan generalmente con dos fines distintos: para es que para las personas mayores la posibilidad de
evaluar la efectividad de una intervención sanitaria practicar un deporte es menos importante. La rele-
o para describir y/o discriminar entre grupos de vancia de un ítem depende mucho de la población
pacientes. en la que se administra el cuestionario.

La relevancia de un ítem tiene importancia cuan-


E STUDIOS LONGITUDINALES
do se comparan escalas específicas de una enfer-
Para que una escala pueda emplearse como varia- medad o un problema de salud para medir la ca-
ble de respuestas en un ensayo clínico, es necesario lidad de vida o el estado de salud percibido por los

204
VALIDACIÓN DE CUESTIONARIOS

pacientes con escalas genéricas. Como norma gene- de la función pulmonar. Debido a la gran variabili-
ral, las escalas específicas suelen contener más ítems dad observada en la puntuación del cuestionario de
con capacidad para detectar cambios que las gené- calidad de vida es posible que se reduzca la posible
ricas y, por consiguiente, son las más usadas en los asociación entre calidad de vida y la medida de la
ensayos clínicos. función pulmonar. En este caso sería preferible el
El que un ítem sea o no sensible a los cambios uso de un cuestionario específico, en el que no exis-
también depende del formato de respuesta. Las res- tieran interferencias de preguntas que no tuvieran
puestas tipo escala de Likert son las más sensibles una relación directa con la enfermedad. Por el con-
para detectar cambios. trario, si se deseara una medida general del estado
Como las escalas que se usan en los ensayos clí- de salud de una población, o compararlo con el de
nicos han de contener una elevada proporción de otro grupo, teniendo en cuenta la comorbididad,
ítems sensibles al cambio, no suelen ser muy largas sería preferible una medida genérica.
y, habitualmente, no superan los 30 o 40 ítems.
BIBLIOGRAFÍA DE LOS EJEMPLOS
Alonso J, Prieto L, Antó JM. La versión española del SF-36
E STUDIOS TRANSVERSALES Health Survey (Cuestionario de Salud SF-36): un instru-
Cuando un instrumento se emplea en un estudio mento para la medida de los resultados clínicos. Med
transversal con el fin de describir el estado de salud Clin (Barc) 1995; 104: 771-776.
Bellón JA, Delgado A, Luna del Castillo JD, Lardelli P.
y/o discriminar entre los pacientes, no es necesario
Validez y fiabilidad del cuestionario de apoyo social fun-
que el número de ítems sea reducido. Un instru- cional Duke-UNC-11. Aten Primaria 1996a; 18: 153-163.
mento tendrá más capacidad de discriminación Bellón JA, Delgado A, Luna del Castillo JD, Lardelli P.
cuanto mayor sea el número de ítems que contenga. Validez y fiabilidad del cuestionario de función familiar
En un ensayo clínico no conviene usar instru- Apgar-familiar. Aten Primaria 1996b; 18: 289-296.
mentos que contengan ítems frente a los que más Fillenbaum GG, Smyer MA. The development, validity and
del 70% de los pacientes opten por la respuesta más reliability of the OARS Multidimensional Functional
extrema (efecto «techo» o «cielo»). Sin embargo, Assessment Questionnaire. J Gerontol 1981; 36: 428-434.
en un estudio transversal interesa usar instrumen- Guyatt G, Berman L, Towsend M, Pugsley S, Chambers L.
tos donde los pacientes opten por todas las posibles A measure of quality of life for clinical trials in chronic
respuestas en función de su gravedad. Por tanto, lung disease. Thorax 1987; 42: 773-778.
Hunt S, Mc Kenna, Williams J. Reliability of a population sur-
los pacientes más graves o con menos calidad de
vey tool for measuring percieved health problems:
vida optarán por una respuesta extrema, mientras
a study of patients with osteoarthrosis. J Epidemiol Com-
que los que tengan menor afectación optarán por munity Health 1981; 35: 297-300.
otra respuesta.
La elección entre una escala genérica o específi- BIBLIOGRAFÍA
ca para una enfermedad dependerá del objetivo Altman DG, Bland JM. Cronbach's alpha. BMJ 1997; 314:
del estudio. 572.
Badia X. La investigación de resultados en salud. Barcelona:
Ejemplo 21.13. Supóngase que en un estudio se em- Edimac, 2000.
plea un instrumento genérico para valorar la cali- Badia X, Salamero M, Alonso J. La medida de la salud: guía
dad de vida de un grupo de pacientes diagnostica- de escalas de medición en español. 3.a ed. Barcelona:
dos de enfermedad pulmonar obstructiva crónica Edimac, 2002.
(EPOC), y que este instrumento contiene un nú- Badia X. Sobre la adaptación transcultural de medidas de la
calidad de vida relacionada con la salud para su uso en
mero importante de ítems relacionados con el do-
España. Med Clin (Barc) 1995; 105: 56-58.
lor. Como los pacientes con EPOC suelen ser ma-
Bland JM, Altman DG. Validating scales and indexes. BMJ
yores y presentan otras enfermedades, algunas de 2002; 324: 606-607.
ellas cuyo síntoma principal puede ser el dolor, Cohen RD. Validation of health-related quality of life instru-
existirá una gran variación en las puntuaciones de ments. Hepatology 1999; 29 (6 Suppl): 7-8.
estos enfermos. Supóngase que se desea, a conti- Epstein RS. Responsiveness in quality-of-life assessment:
nuación, correlacionar la puntuación obtenida en nomenclature, determinants, and clinical applications.
el cuestionario de calidad de vida con una medida Med Care 2000; 38 (9 Suppl): 1191-1194.

205
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Guyatt GH, Osoba D, Wu AW, Wyrwich KW, Norman GR, Moran LA, Guyatt GH, Norman GR. Establishing the mini-
Clinical Significance Consensus Meeting Group. Me- mal number of items for a responsive, valid, health-rela-
thods to explain the clinical significance of health status ted quality of life instrument. J Clin Epidemiol 2001; 54:
measures. Mayo Clin Proc 2002; 77: 371-383. 571-579.
Herdman M. La medida de la calidad de vida relacionada Patrick DL, Chiang YP. Measurement of health outcomes in
con la salud. Med Clin (Barc) 2000; 114 (Suppl 3): 22-25. treatment effectiveness evaluations: conceptual and me-
Hyland ME. A brief guide to the selection of quality of life thodological challenges. Med Care 2000; 38 (9 Suppl):
instrument. Health Qual Life Outcomes 2003 3; 1 (1): II14-25.
24. Epub 2003 Jul 03. Schwartz CE, Sprangers MA. Methodological approaches for
Knauper B, Turner PA. Measuring health: improving the assessing response shift in longitudinal health-related
validity of health assessments. Qual Life Res 2003; 12 quality-of-life research. Soc Sci Med 1999; 48 (11): 1531-
(Suppl 1): 81-89. 1548.
Liang MH. Longitudinal construct validity: establishment of Streiner DL, Norman GR. Health measurement scales: a
clinical meaning in patient evaluative instruments. Med practical guide to their development and use. 2.a ed.
Care 2000; 38 (9 Suppl): II84-90. Oxford: Oxford University Press, 1995.
Liang MH, Lew RA, Stucki G, Fortin PR, Daltroy L. Mea -
suring clinically important changes with patient-oriented
questionnaires. Med Care 2002; 40 (4 Suppl): II45-51.

206
Capítulo 22
Estrategia de análisis

a planificación de la estrategia de análisis ción y síntesis de datos que componen la estadística

L forma parte del diseño del estudio y no debe


dejarse para después de haberse recogido los
datos. Para planificar adecuadamente la estrategia,
descriptiva. Una tabla de frecuencias permitirá
detectar posibles anomalías, como errores de codi-
ficación o transcripción, que obligarán a revisar la
es necesario tener presente el objetivo específico hoja de recogida de datos para realizar las correc-
del estudio y el marco conceptual que permite esta- ciones. Al mismo tiempo, podrá comprobarse si la
blecer las interrelaciones entre las diferentes varia- distribución de frecuencias es similar a la esperada,
bles, lo que ayuda a definir cuál es el papel de cada de forma que podrán detectarse errores que de
una de ellas en el análisis. otra forma pasarían inadvertidos.
El esquema que se presenta en este capítulo no La distribución de frecuencias puede indicar la
es rígido, y debe ser adaptado a las características necesidad de realizar agrupaciones o desagregacio-
concretas de cada estudio. Es importante, sin em- nes de determinados valores. Si el estado civil se ha
bargo, mantener su línea general, que podría resu- codificado en múltiples categorías (soltero, casado,
mirse en ir de lo sencillo a lo complicado. viudo, separado, divorciado), puede ocurrir que en
En este capítulo se exponen los pasos a seguir en algunas de ellas exista un reducido número de
la estrategia de análisis, dejando para el próximo casos que dificulte el uso e interpretación de las
los problemas relacionados con la decisión de qué pruebas estadísticas. En este caso, puede resul-
individuos deben ser incluidos en él. tar adecuado realizar una agrupación de valores.
O bien, puede darse la situación contraria. Si una
categoría es poco específica y contiene un alto por-
REVISIÓN DE LOS DATOS
centaje de casos, puede resultar conveniente des-
Al finalizar la recogida de datos, es frecuente que el agregarla en categorías más pequeñas que puedan
investigador esté impaciente por responder a la ser interpretadas adecuadamente. Por ejemplo, si
pregunta planteada, y desee realizar rápidamente se recoge información sobre enfermedades conco-
los pasos finales del análisis. El problema es que, si mitantes y se codifica como hipertensión arterial,
no se ha asegurado la calidad de los datos, los resul- diabetes y otras, puede ocurrir que la categoría
tados pueden ser erróneos. Por ello, una fase previa «otras» incluya un importante número de casos. En
al análisis será la revisión de la matriz de datos. esta situación, sería conveniente desagregar esta
Hay que prever un análisis de las variables una a categoría.
una, en busca de valores no habituales o ilógicos, o En el caso de las variables cuantitativas, hay que
de errores de transcripción o codificación. Para prever revisar su distribución y no conformarse sim-
esta finalidad, son útiles las técnicas de presenta- plemente con determinar su media y desviación es-

207
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tándar. Si esta última es muy elevada en relación con Tabla 22.1. Pasos de la estrategia de análisis
la media, indica una gran dispersión de los valores o de un estudio descriptivo
una falta de normalidad en la distribución, lo que
deberá tenerse en cuenta para seleccionar la prueba 0. Revisar los datos previamente al análisis
estadística más adecuada. También resulta muy útil
1. Describir los sujetos estudiados
observar con detenimiento la distribución de los
valores, ya sea gráficamente o utilizando un número 2. Evaluar la representatividad de la muestra
suficiente de percentiles. De esta forma, pueden 3. Estimar el valor del parámetro de interés
detectarse valores extremadamente altos o bajos, 4. Calcular el intervalo de confianza de la estimación
que pueden influir sobre la media, alterando los
resultados de las pruebas estadísticas. Estos valores 5. Describir las no respuestas y/o pérdidas de
extremos deben ser verificados y corregidos si seguimiento y evaluar su impacto potencial
es necesario. Por ejemplo, valores de potasemia de 6. Análisis de subgrupos
10 mEq/l son incorrectos con toda seguridad, ya que
son incompatibles con la vida, o valores de colestero-
lemia muy bajos (p. ej., inferiores a 125 mg/dl) pue- DESCRIBIR LOS SUJETOS ESTUDIADOS
den requerir una confirmación, dada su escasa pro- La descripción de la muestra de los sujetos estudia-
babilidad. Si los criterios de inclusión fijan un rango dos permite:
de edad entre los 15 y los 45 años, valores fuera de
este rango pueden corresponder a la inclusión erró- – Evaluar la adecuación de la muestra respecto al
nea de algún sujeto o a errores en la transcripción problema planteado.
del dato. – Conocer en qué tipo de sujetos se ha obtenido el
Al mismo tiempo, si se desea reclasificar una resultado y poder interpretar correctamente las
variable cuantitativa en una cualitativa mediante la conclusiones del estudio.
creación de intervalos, para facilitar la compren- – Evaluar la posibilidad de extrapolar los resultados
sión de los resultados, el conocimiento de la distri- del estudio a otras poblaciones. Los lectores po-
bución de frecuencias puede ser de inestimable drán determinar las diferencias entre las carac-
ayuda para definir sus límites. terísticas de su población y la estudiada, y tomar
También conviene prever cruces de variables en consideración cómo pueden influir sobre los
dos a dos para detectar valores improbables o ilógi- resultados.
cos. Por ejemplo, los varones no pueden estar to- – Replicar el estudio por otros investigadores, utili-
mando anticonceptivos orales o tener antecedentes zando criterios similares, de forma que puedan
de histerectomía. Es improbable que un sujeto de detectarse diferencias entre poblaciones, ámbitos
16 años tenga 5 hijos, por lo que debe verificarse si geográficos, etc.
el dato es correcto.
Mediante estos sencillos procedimientos, y otros No se trata de describir exhaustivamente la
similares, pueden corregirse gran parte de los erro- muestra, sino de sintetizar sus principales carac-
res de transcripción y codificación, aumentando la terísticas relacionadas con las finalidades citadas
calidad de los datos de la matriz en la que se basará (tabla 22.2).
el análisis.
E VALUAR LA REPRESENTATIVIDAD
DE LA MUESTRA
ESTRATEGIA DE ANÁLISIS
Debe preverse qué variables se analizarán para eva-
DE UN ESTUDIO DESCRIPTIVO
luar la representatividad de la muestra estudiada en
La estrategia que se presenta es útil para los estu- relación con la población de estudio. Si, por ejem-
dios cuyo objetivo es estimar un parámetro (p. ej., plo, ésta la forman individuos de 20 a 70 años de
la prevalencia o la incidencia de un problema de sa- edad, residentes en una comunidad, y la muestra se
lud) en la población (tabla 22.1). Las estrategias extrae del padrón municipal, la representatividad
útiles para los estudios con otros objetivos se co- de la muestra se estudiará comparando las carac-
mentan al presentar sus diseños específicos. terísticas de los individuos seleccionados con las dis-

208
ESTRATEGIA DE ANÁLISIS

Tabla 22.2. Características de la población o ausente en cada elemento de una muestra en un


estudiada que deben ser descritas instante dado (p. ej., hipertensión arterial, diabetes
en el análisis* mellitus, esquizofrenia o desempleo), la medida
de elección es la prevalencia puntual. En cambio,
1. Fuente de los sujetos cuando se trata de procesos agudos o de fenóme-
2. Mecanismo de selección e inclusión de los grupos
nos que cursan con episodios más o menos breves,
como la migraña o la lumbalgia aguda, puede ser
3. Características sociodemográficas preferible la prevalencia de período.
4. Características que permiten evaluar la La prevalencia de período plantea el problema
aplicabilidad del protocolo (criterios de inclusión de determinar el valor del denominador, ya que el
y exclusión) número de elementos de la población puede haber
5. Características de la enfermedad estudiada cambiado a lo largo del tiempo considerado y hay
y su tratamiento, o de la exposición y su grado: que decidir en qué momento se hará la estimación
• Criterios diagnósticos correspondiente (habitualmente la del punto me-
• Tiempo de evolución de la enfermedad dio del período).
• Gravedad de la enfermedad Dependiendo de la rareza de la característica
• Presencia de complicaciones considerada, la proporción suele presentarse mul-
• Tipo de tratamiento tiplicada por 100 o por 10n. Por ejemplo, la preva-
• Otras características lencia de hipertensión arterial en personas mayores
6. Situación basal: punto de partida (en estudios de 65 años podría expresarse como porcentaje,
longitudinales) pero la de esclerosis múltiple en la población gene-
ral probablemente habría de darse en tanto por mi-
7. Factores que pueden influir en el resultado
llón o por 100.000 habitantes.
8. Otras características de interés (si no están Los estudios longitudinales permiten estimar la
incluidas en los apartados anteriores) frecuencia de aparición de un problema de salud,
denominada incidencia. Existen dos tipos: la inci-
* Las categorías no son excluyentes y, algunas características, dencia acumulada, que es la proporción de indivi-
pueden situarse en varias de ellas de forma simultánea. duos sanos que desarrolla la enfermedad a lo largo
de un período determinado, y la densidad de inci-
ponibles en el padrón municipal de toda la pobla- dencia, que se define como el número de nuevos
ción candidata. casos que ocurren por unidad de persona-tiempo a
riesgo. La elección del más adecuado viene condi-
E STIMAR EL VALOR DEL PARÁMETRO cionada por el objetivo del estudio (anexo 1). Si el
DE INTERÉS interés está en predecir el cambio en el estado de
La medida de la frecuencia del problema de salud salud de un individuo en función de alguna carac-
debe ser la adecuada al objetivo y al diseño del estu- terística, entonces se deberá estimar el riesgo de
dio (anexo 1). que este cambio ocurra (incidencia acumulada). Si
Un diseño transversal permite estimar la preva- el tiempo de seguimiento es muy desigual entre los
lencia, es decir, la proporción de sujetos de la mues- sujetos de la muestra, deberá optarse por la densi-
tra que presentan la característica o el problema de dad de incidencia.
salud estudiado, que puede ser de dos tipos: la pre-
valencia de punto, puntual o instantánea, que corres- CALCULAR EL INTERVALO
ponde a la proporción o la frecuencia relativa de DE CONFIANZA DE LA ESTIMACIÓN
individuos de la muestra que presentan una carac- Sea cual sea la medida utilizada, las estimaciones
terística en un momento determinado, y la prevalen- puntuales deben acompañarse de su correspon-
cia de período, o proporción de sujetos que ha pre- diente intervalo de confianza. El valor observado en
sentado el fenómeno o la característica en algún la muestra no es más que uno de los posibles valores
momento durante el período considerado. que hubieran podido obtenerse si se hubieran estu-
Cuando el problema de salud es de carácter pro- diado las múltiples muestras que pueden extraerse
longado, y tiene interés determinar si está presente de una población, cada una de las cuales conduciría

209
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

a un resultado diferente debido a la variabilidad del Si se desea realizar un análisis de subgrupos, de-
muestreo. Por ello, se necesita una medida de esta berá tenerse en cuenta en el cálculo del tamaño
variabilidad que permita conocer entre qué límites de la muestra y en el método de selección de los
se encuentra el verdadero valor de la población con sujetos, ya que, en caso de no hacerlo, se perderá
una confianza determinada, lo que se hace median- precisión en la estimación del parámetro en cada
te el llamado intervalo de confianza (IC). subgrupo en relación con la obtenida cuando se
El IC proporciona mucha más información que analiza el total de la muestra, ya que el número de
la simple estimación puntual, ya que permite cono- sujetos será claramente inferior.
cer la precisión con que el parámetro poblacional
ha sido estimado, es decir, cuál es el posible error
ESTRATEGIA DE ANÁLISIS
de la estimación puntual en relación con el verda-
DE UN ESTUDIO ANALÍTICO
dero pero desconocido valor, debido a la variabili-
dad aleatoria. Habitualmente, el IC se calcula para El objetivo de los estudios analíticos es estimar la
un nivel de confianza del 95%. magnitud del efecto o la asociación entre un factor
de estudio y una variable de respuesta. La finali-
D ESCRIBIR LAS NO RESPUESTAS dad de la estrategia de análisis es obtener la estima-
Y / O PÉRDIDAS DE SEGUIMIENTO ción más válida, eliminando la influencia de todas
Y EVALUAR SU IMPACTO POTENCIAL las variables que puedan interferir, y lo más precisa
La descripción de las no respuestas y pérdidas posible. Las fases de la estrategia se resumen en la
deberá incluir no sólo su número, sino también sus tabla 22.3.
motivos, ya que pueden suponer un sesgo. Para eva-
luar su impacto potencial pueden ser útiles dife-
Tabla 22.3. Pasos de la estrategia de análisis
rentes estrategias de análisis:
de un estudio analítico
– Comparar los sujetos que responden y los que no lo ha-
0. Revisar los datos
cen, por las variables disponibles. Por ejemplo, si se
desea seleccionar, a partir del padrón municipal, 1. Describir los sujetos estudiados
una muestra de individuos de ambos sexos, con 2. Evaluar la comparabilidad inicial de los grupos
edades comprendidas entre los 20 y 60 años, de-
3. Estimar la magnitud del efecto o asociación
bería conocerse la edad y el sexo de los que res-
ponden y de los que no lo hacen. Si se observan 4. Evaluar la existencia de modificación del efecto
diferencias entre ellos, las no respuestas podrían 5. Ajustar por potenciales factores de confusión
introducir un sesgo de selección. 6. Análisis de subgrupos
– Comparar los que responden a la primera llamada de los
investigadores con los que lo hacen en llamadas sucesi- 7. Responder las preguntas secundarias
vas. En este caso se podrá comparar no sólo por las
variables utilizadas para seleccionar la muestra,
sino también por la frecuencia de la exposición o D ESCRIBIR LOS SUJETOS ESTUDIADOS
de la enfermedad que se está estudiando. La asun- Su utilidad y las características por las que se reali-
ción que se realiza en esta situación es que aque- za esta descripción son similares a las comentadas
llos que responden más tardíamente tienen carac- para los estudios descriptivos (ver tabla 22.2).
terísticas intermedias entre los que responden
rápidamente y los que no responden. E VALUAR LA COMPARABILIDAD
INICIAL DE LOS GRUPOS
A NÁLISIS DE SUBGRUPOS El análisis se basa en que los grupos de estudio son
Cuando los investigadores piensan que la frecuen- comparables y no existen sesgos que alteren los re-
cia del problema de salud puede variar en función sultados. Por ello, antes de determinar si el efecto
de diferentes características, puede ser práctico pla- o la asociación es diferente entre los grupos, debe
nificar la estimación del parámetro en los diferen- planificarse un análisis de su comparabilidad basal.
tes subgrupos de interés. Si se encuentran diferencias relevantes en alguna

210
ESTRATEGIA DE ANÁLISIS

variable importante, deberá controlarse su poten- diafragma puede influir sobre el efecto del trata-
cial efecto de confusión en fases posteriores del miento, la diferencia en su uso entre los grupos
análisis. deberá tenerse en cuenta en fases posteriores del
El análisis de esta comparabilidad no se basa en análisis.
la significación estadística, ya que algunas diferen-
cias podrían ser estadísticamente significativas sólo E STIMAR LA MAGNITUD DEL EFECTO
por azar, mientras que diferencias relevantes po- O DE LA ASOCIACIÓN
drían no serlo si el número de sujetos es reducido. La planificación de esta fase del análisis supone ele-
Además, los grupos podrían diferir en alguna ca- gir la medida óptima del resultado, identificar las
racterística importante, que no hubiera sido medi- variables que pueden influir sobre el efecto de
da en el estudio. interés y utilizar las pruebas estadísticas adecuadas.

Ejemplo 22.1. En un ensayo clínico aleatorio a doble Elección de la medida del efecto
ciego cuyo objetivo era comparar la eficacia del tri- La medida más adecuada depende del tipo de estu-
metoprim-sulfametoxazol en pauta de 10 días y en dio y su finalidad, y de la escala de medida de las
monodosis, en mujeres con sintomatología de disu- variables. Existen dos tipos de medidas: relativas y
ria aguda (Fihn et al, 1988), se incluyó a 255 muje- absolutas. Las medidas relativas más utilizadas son el
res que cumplían los criterios de selección; 126 riesgo relativo (RR) y la odds ratio (OR) (anexo 2).
de ellas recibieron la monodosis, y 129, la pauta de El RR corresponde al cociente entre las inci-
10 días. En la tabla 22.4 se presentan los resultados dencias observadas en el grupo expuesto y en el no
de la evaluación de la comparabilidad inicial de expuesto, y por tanto sólo puede calcularse direc-
ambos grupos respecto a las variables pronósticas de tamente en aquellos estudios que permitan deter-
la respuesta. Puede comprobarse que son compara- minar incidencias (estudios de cohortes y ensayos
bles para todas las variables analizadas, excepto en clínicos). El RR indica el número de veces que es
el uso de diafragma, más frecuente en el grupo asig- más frecuente la aparición de la respuesta en un
nado a la monodosis. Si se considera que el uso de grupo respecto al de referencia. Por este motivo, al

Tabla 22.4. Características de las 255 mujeres incluidas en un ensayo clínico aleatorio comparativo
de la eficacia de trimetoprim-sulfametoxazol en monodosis respecto a la pauta de 10 días
(ejemplo 22.1)

Grupos

Características de las pacientes Monodosis (n = 126) 10 días (n = 129)

Edad (media ± DE) 24,5 ± 3,5 24,5 ± 4,2


Casadas (%) 4 9
Infecciones urinarias previas:
Antes de los 12 años (%) 12 11
Últimas 6 semanas (%) 9 10
Últimos 6 meses (%) 31 29
Últimos 12 meses (%) 44 40
Número de episodios (media ± DE) 3,9 ± 5,2 3,6 ± 4,3
Número de parejas sexuales masculinas en los últimos 6 meses
(media ± DE) 1,7 ± 1,1 1,5 ± 1,0
Frecuencia de relaciones sexuales al mes (media ± DE) 12,6 ± 10,2 12,3 ± 7,8
Usuarias de diafragma (%)* 64 48
Días de duración de los síntomas (media ± DE) 4,2 ± 4,9 4,0 ± 4,8
DE: desviación estándar.
*p = 0,013.

211
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

preparar la estrategia de análisis, es importante –5,5 a 20,6). Además de medir el efecto en la escala
decidir cuál será la categoría que se utilizará como absoluta como diferencia en las respuestas observa-
referencia, y definirla con claridad. das, los autores también estimaron el efecto en una
En los estudios de casos y controles no puede escala relativa (OR = 1,4; IC 95%: 0,8 a 2,4).
calcularse directamente el RR, por lo que se utiliza
la OR. Si el estudio está bien diseñado y se cumplen Variables a controlar
determinadas asunciones, la OR es una buena esti- Al planificar la estrategia de análisis, es importante
mación del RR. identificar todas las variables implicadas a partir del
Cada vez es más frecuente el uso de la OR como marco conceptual elaborado al diseñar el estudio, y
medida relativa del efecto en investigación clínica y decidir por cuáles deberá ajustarse la estimación,
epidemiológica, debido a que puede calcularse in- por cuáles no, y qué factores podrían modificar el
dependientemente del diseño del estudio. Además, efecto estudiado. En esta fase, es muy útil una buena
las técnicas estadísticas multivariantes de uso habi- revisión bibliográfica que permita identificar los
tual, como la regresión logística o el modelo de posibles factores de confusión y modificadores del
Cox, facilitan su cálculo. efecto tenidos en cuenta por otros investigadores.
Otra forma de expresar los resultados de un es- Según su función en la relación causa-efecto que
tudio es a través de medidas absolutas. La más utili- se esté estudiando, pueden distinguirse los siguien-
zada es la diferencia de riesgos, o diferencia entre las tes tipos de variables (fig. 22.1):
incidencias observadas en ambos grupos, que pro-
porciona una idea del impacto que tendría sobre la – Variable de respuesta. En términos estadísticos, suele
incidencia la eliminación de un factor de riesgo o denominarse variable dependiente.
la aplicación de una intervención. En los estudios – Factor de estudio. Suele denominarse variable inde-
de casos y controles no puede determinarse direc- pendiente principal, ya que la finalidad del análisis
tamente, ya que estos estudios no permiten estimar es estimar su efecto sobre la variable dependiente,
la incidencia. ajustando o controlando la influencia del resto de
las variables.
Ejemplo 22.2. En el estudio sobre la disuria aguda – Variables modificadoras del efecto. Cuando el efecto o
del ejemplo 22.1, la respuesta sintomática fue uno la asociación entre el factor de estudio y la variable
de los criterios de evaluación del estudio. Se midió de respuesta varían según la existencia de una ter-
en tres tiempos diferentes. Se observó que las di- cera variable o de diferentes niveles de ella, se dice
ferencias favorecían al grupo tratado con pauta de que ésta es modificadora de dicho efecto. Estas
10 días. Así, por ejemplo, en el grupo tratado con variables son importantes porque forman parte del
monodosis, el 56,1% de mujeres no presentaba sín- propio efecto del factor de estudio, por lo que, más
tomas a las 6 semanas frente a un 63,6% de mujeres que controlar por ellas, interesa tenerlas en cuenta
del grupo tratado con pauta de 10 días. La diferen- en el análisis para poder describir cómo modifican
cia de los porcentajes fue, pues, del 7,5% (IC 95%: dicho efecto.

Factores de confusión

Variables Variables
Factor de estudio Variable de respuesta
intermedias posteriores

Factores modificadores
del efecto

Figura 22.1. Papel de las variables en la estrategia de análisis.

212
ESTRATEGIA DE ANÁLISIS

Ejemplo 22.3. En el estudio sobre el tratamiento de perinatal. A diferencia del ejemplo anterior, la va-
la disuria aguda (ejemplo 22.1), se observó que los riable intermedia no sólo está asociada al factor de
resultados en las mujeres cuyo cultivo inicial presen- estudio, sino que es consecuencia del mismo en la
taba menos de 100.000 colonias/ml eran diferentes cadena causal que conduce hacia la respuesta. Si se
en relación con los resultados de las que presenta- elimina el efecto debido al bajo peso al nacer (es
ban 100.000 colonias/ml o más. Por lo tanto, el nú- decir, si se ajusta por esta variable), se obtendrá una
mero de colonias en el cultivo inicial es una variable estimación sesgada del efecto del consumo de taba-
modificadora del efecto del tratamiento sobre la res- co, que no tendrá en cuenta la parte del efecto que
puesta al mismo, por lo que deberán presentarse los se produce a través del bajo peso al nacer.
resultados separadamente en función del número
de colonias. Ejemplo 22.6. Supóngase un estudio que trata de
estimar el efecto del consumo de tabaco durante el
– Potenciales factores de confusión. Son variables que embarazo sobre la probabilidad de bajo peso al na-
están relacionadas tanto con el factor de estudio cer. En esta situación, la mortalidad perinatal sería
como con la variable de respuesta, de forma que, una variable posterior y no debería ajustarse por
si no se tienen en cuenta en el análisis, se obtiene ella, ya que se eliminaría del análisis el efecto del
una estimación sesgada del efecto. Por lo tanto, consumo de tabaco sobre la mortalidad perinatal,
deberá ajustarse la estimación del efecto por estas de forma que sólo se estimaría el efecto del consu-
variables. mo de tabaco sobre el riesgo de bajo peso al nacer
no relacionado con la mortalidad.
Ejemplo 22.4. Supóngase un estudio que desea es-
timar el efecto del consumo de alcohol sobre el Elección de la prueba estadística
riesgo de presentar una enfermedad coronaria. Un En la planificación de la estrategia de análisis es ne-
potencial factor de confusión es el consumo de cesario prever las pruebas estadísticas que se utili-
tabaco, ya que se sabe que las personas que consu- zarán, que dependerán fundamentalmente del tipo
men más alcohol fuman con más frecuencia, y que de variables implicadas, el número de grupos que
los fumadores tienen un mayor riesgo de enferme- se compararán, el tamaño de la muestra y las condi-
dad coronaria. Si no se ajusta por el consumo de ciones de aplicación específicas de cada una de las
tabaco, se obtendrá una estimación sesgada del pruebas (anexo 8).
efecto del consumo de alcohol sobre el riesgo de Si es necesario obtener una estimación del efec-
enfermedad coronaria. to, ajustando por múltiples variables, debe recurrir-
se a modelos estadísticos multivariantes. La elección
– Variables de la cadena causal. Se relacionan con el del modelo apropiado depende de la escala de me-
factor de estudio y con la variable de respuesta, dida de la variable de respuesta (variable depen-
pero se encuentran situadas en la cadena causal, diente) y de otras condiciones de aplicación especí-
ya sea antes (variables intermedias) o después de ficas. Los modelos más utilizados en investigación
la variable de respuesta (variables posteriores). En clínica y epidemiológica son la regresión lineal múl-
principio no debe ajustarse por este tipo de va - tiple (cuando la variable de respuesta es cuantitati-
riables, ya que, al formar parte de la cadena causal, va), la regresión logística (cuando es dicotómica) y
la estimación ajustada del efecto del factor de estu- el modelo de Cox (cuando la variable de respuesta
dio no tendría en cuenta el componente que pasa es el tiempo de aparición de un suceso) (anexo 8).
a través de las variables intermedias o el relaciona-
do con las variables posteriores. Confusión y modificación del efecto
La estrategia de análisis ha de planificarse de forma
Ejemplo 22.5. Supóngase un estudio que trata de es- que permita obtener la mejor estimación posible de
timar el efecto del consumo de tabaco durante el la magnitud del efecto del factor de estudio sobre la
embarazo sobre la mortalidad perinatal. Una varia- variable de respuesta, teniendo en cuenta las influen-
ble intermedia podría ser el bajo peso al nacer, ya cias del resto de variables que pueden interferir.
que puede ser consecuencia del consumo de taba- En primer lugar, deben identificarse las varia-
co y, a la vez, es un factor de riesgo de mortalidad bles que pueden ser modificadoras del efecto, pre-

213
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ver la estimación del efecto en los diferentes estra- (OR ajustada), sino que deben presentarse separa-
tos definidos por los valores de dichas variables, y damente para cada estrato. De todas formas, para
la aplicación de pruebas estadísticas para compa- poder asegurar que existe modificación de efecto
rar las estimaciones obtenidas. Si se detecta la exis- debería comprobarse que la diferencia de los valores
tencia de modificación del efecto, deberá tenerse de OR de cada estrato es estadísticamente significati-
en cuenta al presentar los resultados, ya que no va, aunque si el número de sujetos de los estratos es
existirá un único resultado, sino que variará en reducido, esta prueba puede no tener la potencia
función de las categorías o los valores de otras suficiente para detectarla.
variables. Si no se detecta ninguna modificación
del efecto, deberá obtenerse una estimación del Ejemplo 22.8. Siguiendo con el mismo estudio del
resultado ajustada por los potenciales factores de ejemplo 22.1, se había detectado una diferencia es-
confusión. tadísticamente significativa en el porcentaje de mu-
jeres utilizadoras de diafragma entre los grupos de
Ejemplo 22.7. En el estudio sobre el tratamiento de estudio. Dado que esta variable puede estar asocia-
la disuria aguda del ejemplo 22.1, se analizaron los da con la respuesta terapéutica, por ejemplo, a tra-
resultados en función de diferentes variables. En la vés de la infección por patógenos diferentes, podría
tabla 22.5 se presentan los resultados en función inter ferir con la medición de la respuesta. Por ello,
del número de colonias en el cultivo inicial. Se ob- puede recurrirse al análisis estratificado, analizan-
ser va que las OR de los estratos son muy distintas do por separado las utilizadoras de las que no lo
entre sí, lo cual sugiere que el efecto de la mono- son, y evaluando las diferencias en la respuesta al
dosis respecto a la pauta de 10 días produce resul- tratamiento en cada grupo (tabla 22.6). Se aprecia
tados diferentes en función del recuento inicial de que en el grupo tratado con monodosis existe un
colonias. Si se calculara una única OR ajustada, se mayor porcentaje de mujeres utilizadoras de dia-
obtendría el valor 1,60, que resumiría inadecuada- fragma (61 frente al 48%), y que éstas tienen un
mente los resultados, ya que parecería indicar que mayor porcentaje de fallos terapéuticos que las no
el porcentaje de fallos con la monodosis es superior utilizadoras (27,5 frente al 16%). Por lo tanto, pue-
en todos los sujetos, cuando el análisis estratificado de cuestionarse si la mayor tasa de fracasos observa-
indica que ello es así en las pacientes con más de da en el grupo de monodosis puede ser consecuen-
100.000 colonias/ml (OR = 1,97), mientras que pa- cia del mayor porcentaje de utilizadoras incluidas
rece ser todo lo contrario si el recuento inicial de en dicho grupo. Los datos de la tabla muestran que,
colonias es menor (OR = 0,63). Por ello, cuando en ambos estratos, la tasa de fracasos fue más eleva-
existe modificación de efecto, no es adecuado resu- da en el grupo tratado con monodosis, si bien la
mir los resultados en un solo índice ponderado diferencia respecto al otro grupo fue ligeramente

Tabla 22.5. Fallos del tratamiento con trimetoprim-sulfametoxazol (monodosis frente a pauta
de 10 días) en mujeres con disuria aguda, en función del número de colonias del cultivo
inicial (ejemplo 22.7)

Grupo

Monodosis 10 días
(fallos/casos) (fallos/casos) OR (IC 95%)

Total 29/90 20/97 1,8 (0,9 a 3,5)


Estratos (cultivo inicial)
< 100.000 colonias/ml 2/19 6/38 0,6 (0,1 a 3,4)
100.000 colonias/ml 27/71 14/59 2,0 (0,9 a 4,3)

OR: odds ratio.


IC 95%: intervalo de confianza del 95%.

214
ESTRATEGIA DE ANÁLISIS

Tabla 22.6. Fallos del tratamiento con trimetoprim-sulfametoxazol (monodosis frente a pauta
de 10 días) a los 42 días en mujeres con disuria aguda, en función del uso de diafragma
(ejemplo 22.8)

Grupo

Monodosis 10 días
(fallos/casos) (fallos/casos) OR (IC 95%)

Total 29/108 20/111 1,7 (0,9 a 3,2)


Estratos (uso de diafragma)
Sí 20/66 13/54 1,4 (0,6 a 3,1)
No 9/42 7/57 1,9 (0,7 a 5,7)

OR: odds ratio.


IC 95%: intervalo de confianza del 95%.

menor en el estrato de las utilizadoras de diafragma A NÁLISIS DE SUBGRUPOS


(OR: 1,4 frente a 1,9). El análisis de subgrupos se realiza cuando interesa
Dado que la diferencia entre las OR de los estra- evaluar los resultados en algún grupo especial de
tos no es estadísticamente significativa, puede calcu- sujetos, habitualmente en función de su edad, sexo
larse una medida global del efecto eliminando la o alguna variable pronóstica.
influencia de la posible variable de confusión, ob- El análisis por subgrupos se justifica si se ha pla-
teniéndose una OR ajustada de 1,6 (IC 95%: 0,7 a neado previamente al inicio del estudio, en función
3,3). En este caso, tiene sentido una medida ajustada de una hipótesis fundamentada. En algunas ocasio-
ya que no existe ninguna modificación del efecto. nes, aunque no haya sido establecido previamente,
el análisis de los resultados observados en algún sub-
Los dos ejemplos anteriores han evaluado la in- grupo de sujetos puede ser razonable. Sin embargo,
fluencia de dos variables separadamente. Sin embar- no hay que olvidar que, si se define un gran número
go, la estrategia de análisis debe diseñarse de forma de subgrupos en función de diferentes combinacio-
que permita obtener una estimación del efecto que nes de variables, un análisis indiscriminado puede
tenga en cuenta todas las variables simultáneamente, conducir a la obtención de conclusiones erróneas,
y no una a una. Para lograrlo, el análisis estratificado al aparecer el problema de las comparaciones múl-
es poco eficiente, ya que podría ser necesario utilizar tiples, por lo que es preferible planificar a priori los
gran cantidad de estratos, lo que dificultaría la inter- análisis de subgrupos que se realizarán y justificarlos
pretación de los resultados, además de reducir el adecuadamente. La tabla 22.7 recoge los criterios
número de sujetos en cada uno de ellos, haciendo para considerar que los resultados de un análisis de
poco potentes los procedimientos estadísticos. Por subgrupos es válido.
ello, es preferible utilizar el análisis multivariante que
obvia estas limitaciones. En el capítulo 30 se comentan P REGUNTAS SECUNDARIAS
más detalladamente los conceptos de factor de confu- A menudo, interesa responder a preguntas secun-
sión y modificación de efecto y las técnicas de análisis darias. Por ejemplo, si se va a realizar un estudio so-
disponibles para su evaluación. bre la eficacia de un programa de educación sanita-
ria sobre el control metabólico de los pacientes
D ETERMINAR LA PRECISIÓN diabéticos, también interesará responder a pregun-
DE LA ESTIMACIÓN DEL EFECTO tas tales como: ¿qué grupo de población ha asistido
Una vez calculada la estimación que se considere a las sesiones?, ¿qué características socioculturales
más válida, deberá acompañarse de su correspon- definen a los no cumplidores?, ¿qué individuos han
diente intervalo de confianza como medida de la incrementado su nivel de conocimientos sobre la
precisión. enfermedad?, etc. Estas respuestas pueden ayudar a

215
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 22.7. Criterios de validez de un análisis Altman DG, Bland JM. Units of analysis. BMJ 1997; 314: 1874.
de subgrupos Argimon JM, Jiménez Villa J. Medidas del efecto de un trata-
miento. FMC 1998; 5 (Supl. 7); Atención primaria basa-
da en la evidencia 1998 (3): 45-46.
– Hipótesis específica sobre los resultados del
Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup
subgrupo planteada a priori en el diseño analysis and other (mis)uses of baseline data in clinical
del estudio como una de las pocas hipótesis trials. Lancet 2000; 355: 1064-1069.
que se querían contrastar Bland JM, Altman DG. Multiple significance tests: the Bon-
– Análisis de subgrupos realizado dentro de una ferroni method. BMJ 1995; 310: 170.
estrategia adecuada de comparaciones múltiples Cobo E, Buekens P. Necesidad y limitaciones del ajuste. Med
Clin (Barc) 1990; 95: 702-708.
– Magnitud del efecto clínicamente relevante Furberg CD, Vittinghoff E, Davidson M et al. Subgroup inte-
– Efecto estadísticamente muy significativo ractions in the Heart and Estrogen/Progestin Replace-
(cuanto más bajo es el valor de p, más creíble ment Study: lessons learned. Circulation 2002; 105: 917-
es la diferencia) 922.
Gardner MJ, Altman DG. Confidence intervals rather than p
– Resultados consistentes con los de otros estudios
values: estimation rather than hypotesis testing. Br Med
– Evidencia indirecta que avale los resultados J 1986; 292: 746-750.
encontrados (plausibilidad biológica) Goodman SN. Multiple comparisons, explained. Am J Epi-
demiol 1998; 147: 807-812.
Lang JM, Rothman KJ, Cann CI. That confounded P-value.
Epidemiology 1998; 9: 7-8.
enriquecer la discusión y la interpretación de los re- Norman GR, Streiner DL. Bioestadística. Madrid: Mosby/
sultados. Sin embargo, están sometidas a los mismos Doyma, 1996.
inconvenientes que se han citado para el análisis Oxman AD, Guyatt GH. A consumer's guide to subgroup
analyses. Ann Intern Med 1992; 116: 78-84.
por subgrupos, por lo que deben ser escasas en nú-
Ramalle Gómara E. Validez de los análisis de subgrupos.
mero, establecidas a priori y estar debidamente fun-
FMC 1999; 6 (Supl. 2); Atención primaria basada en la
damentadas. En su interpretación, deben recordar- evidencia 1999 (1): 1-2.
se las limitaciones de las comparaciones múltiples. Rotwell PM. Can overall results of clinical trials be applied to
all patients? Lancet 1995; 345: 161-162.
B IBLIOGRAFÍA DE LOS EJEMPLOS Savitz DA, Olshan AF. Multiple comparison and related
Fihn SD, Johnson C, Roberts PL, Running K, Stamm WE. issues in the interpretation of epidemiological data. Am
Trimetoprim-sulfamethoxazole for acute dysuria in wo- J Epidemiol 1995; 142: 904-908.
men: a single-dose or 10-day course. A double blind ran- Simon R. Confidence intervals for reporting results of clini-
domized trial. Ann Intern Med 1988; 108: 350-357. cal trials. Ann Intern Med 1986; 105: 429-435.
Vickers AJ, Altman DG. Analysing controlled trials with baseli-
B IBLIOGRAFÍA ne and follow up measurements. BMJ 2001; 323: 1123-
Altman DG. Practical statistics for medical research. Lon- 1124.
dres: Chapman & Hall, 1991. Yusuf S, Wittes J, Probstfield J, Tyroler HA. Analysis and inter-
Altman DG, Bland JM. Interaction revisited: the difference pretation of treatment effects in subgroups of patients in
between two estimates. BMJ 2003; 326: 219. randomized clinical trials. JAMA 1991; 266: 93-98.

216
Capítulo 23
Sujetos a incluir en el análisis

n el capítulo anterior se ha presentado el es- del análisis puede introducir un sesgo y compro-

E quema de la estrategia del análisis de los datos,


asumiendo que se disponía de la información
completa de todos los sujetos. Sin embargo, es muy
meter la validez interna del estudio.
Las situaciones especiales que obligan a consi-
derar la posible exclusión de determinados casos u
frecuente que no hayan podido medirse todas las observaciones del análisis pueden ser diferentes
variables en todos los sujetos, e incluso suelen exis- según el diseño del estudio (tabla 23.1). No existe
tir casos en los que no ha podido determinarse la una clasificación ni una terminología unánime-
variable de respuesta. Además, pueden presentarse mente aceptada, por lo que es recomendable que el
ciertas situaciones que obliguen a considerar si de- protocolo del estudio describa claramente estas si-
terminados sujetos u observaciones deben ser ex- tuaciones y defina qué debe hacerse cuando se pre-
cluidos del análisis. Según la actitud que se adopte sentan. De la misma forma, el informe final del es-
ante estas situaciones, las conclusiones del estudio tudio debe explicar las circunstancias por las que
pueden ser diferentes. determinados sujetos no han finalizado el estudio o
La exclusión de sujetos u observaciones del aná- han sido excluidos del análisis, el momento en que
lisis puede plantear dos tipos de problemas. Por un se ha producido el problema y la información de
lado, disminuye la potencia estadística, ya que el que se dispone, para poder evaluar las posibles im-
número de individuos u observaciones que se tiene plicaciones que tienen sobre la interpretación y ex-
en cuenta es inferior al inicialmente previsto, por lo trapolación de los resultados.
que existirá una menor capacidad para detectar la En este capítulo se describen el impacto y el abor-
diferencia o asociación de interés. Este problema se daje de las no respuestas, las pérdidas de seguimien-
previene aumentando el tamaño de la muestra en to, las retiradas y, más específicamente para los ensa-
función del porcentaje esperado de abandonos o yos clínicos, las exclusiones antes de la asignación
pérdidas. Sin embargo, si éstas no se producen alea- aleatoria.
toriamente, el incremento del número de sujetos
incluidos no previene la aparición de sesgos en la
NO RESPUESTAS
estimación del efecto. Por otro lado, estas situacio-
nes especiales pueden vulnerar los principios de re- Habitualmente, cuando se habla de no respuestas
presentatividad y comparabilidad de los grupos, si se hace referencia a los estudios transversales, en
los motivos por los que determinados sujetos no los que se ha seleccionado una muestra de sujetos
son considerados en el análisis son diferentes. Por de los que va a recogerse una determinada infor-
tanto, la actitud de excluir a determinados sujetos mación. Las no respuestas corresponden a los suje-

217
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 23.1. Situaciones que pueden plantear menor potencia estadísitica, ya que se habrá estu-
la posible exclusión de diado un número menor de individuos, pero no
determinados sujetos del análisis estará sesgada.
de un ensayo clínico aleatorio En realidad, el impacto potencial de las no res-
puestas sobre la medida del fenómeno de interés
• Violaciones de los criterios de inclusión y exclusión depende tanto de su número como de la frecuencia
• Diagnóstico incorrecto
de presentación de dicho fenómeno.
• Asignación incorrecta Ejemplo 23.1. Supongamos un estudio transversal
• Falta de cooperación o voluntad de continuar que desea estimar la prevalencia de una enfermedad
en el ensayo a partir de una muestra de 200 sujetos, de los que
• Pérdida de contacto durante el seguimiento 20 rehúsan participar. De los 180 restantes, 36 presen-
tan la enfermedad, por lo que la estimación puntual
• Enfermedades intercurrentes de la prevalencia en ellos es del 20%. Si ninguno de
• Insuficiente cumplimiento con la intervención los 20 sujetos que han rehusado participar tuviera la
asignada enfermedad, la verdadera prevalencia en la muestra
• Administración de una intervención diferente de 200 sujetos sería de 36/200 = 0,18. Por el contra-
de la asignada rio, si los 20 sujetos tuvieran la enfermedad, sería de
(36 + 20)/200 = 0,28. Si las no respuestas fueran alea-
• Uso de medicación concomitante prohibida
torias y se comportaran como el resto de los sujetos
• Fallecimiento por causas no relacionadas de la muestra, cabría esperar que 4 de ellos tuvieran
con la enfermedad en estudio la enfermedad, por lo que la prevalencia sería de
• Ausencia de datos (36 + 4)/200 = 0,20, por lo que la estimación de la
• No finalización del estudio por acontecimientos prevalencia no habría sido sesgada.
adversos Supongamos que en este mismo estudio, de los
180 sujetos que participan, tan sólo 4 tuvieran la en-
• No finalización del estudio por falta de eficacia fermedad, de forma que la estimación puntual
de la prevalencia sería del 2,2%. Si ninguno de los
20 sujetos que no participan tuviera la enfermedad,
tos que forman parte de esta muestra, pero que no la prevalencia sería de 4/200 = 0,02, mientras que,
colaboran en el estudio o de los que no se dispone si los 20 la tuvieran, sería de (4 + 20)/200 = 0,12. En
de la información deseada, de forma que el análisis este caso, en que la prevalencia de la enfermedad es
únicamente del conjunto de sujetos de los que se inferior, el impacto potencial de las no respuestas
dispone de información puede vulnerar el princi- puede ser mayor, ya que puede haber estimaciones
pio de representatividad. hasta seis veces superiores.
Conceptualmente, el problema de las no res- Finalmente, si en lugar de 20 no respuestas se
puestas radica no tanto en su número o en el por- hubieran producido tan sólo 2, su impacto poten-
centaje que suponen respecto a la muestra, sino en cial sobre las estimaciones sería mucho menor. Y si
los motivos por los que se han producido. Si están hubieran sido 100 las no respuestas, su impacto po-
asociadas al problema en estudio o a determinadas dría ser todavía mayor al descrito.
características relacionadas con éste, el conjunto de
sujetos analizados no es representativo de la pobla- El diseño del estudio debe prever mecanismos
ción que se deseaba estudiar, y el resultado obteni- que ayuden a conseguir el máximo número de res-
do no será una buena estimación del verdadero va- puestas y a recaptar las no respuestas cuando se pro-
lor de dicha población. ducen. Así mismo, en el análisis de los datos es con-
Si, por el contrario, las no respuestas se produ- veniente realizar un estudio de éstas y evaluar si el
cen de forma aleatoria o se deben a motivos que no valor de la variable de interés difiere en relación con
están relacionados con el problema en estudio, la el de las respuestas. Por ello, es frecuente que, si se
consecuencia será que la estimación que se obtenga han realizado varios intentos para captar a los sujetos
tendrá una menor precisión, o la comparación, una de la muestra, se analicen por separado los resulta-

218
SUJETOS A INCLUIR EN EL ANÁLISIS

dos de cada uno de ellos para ver si existen diferen- tos a participar en el estudio, no son finalmente
cias en la estimación del valor de la variable de incluidos en él, ya sea porque no cumplen todos los
interés, y poder así evaluar un posible sesgo en dicha criterios de selección o bien porque no consienten
estimación. Es importante describir las causas por las en participar. Si los criterios de selección son muy
que se han producido las no respuestas y evaluar si rigurosos y/o muchos sujetos rehúsan colaborar en
existen diferencias, en relación con las respuestas, en el estudio, la muestra de pacientes realmente in-
las características que puedan estar relacionadas con cluida diferirá mucho de la candidata, lo que limi-
la variable de interés. tará la generalización de los resultados. Además,
También en los estudios analíticos puede apare- algunos ensayos clínicos utilizan un período de pre-
cer el problema de las no respuestas. En los estu- inclusión con la finalidad de excluir, antes del ini-
dios de casos y controles, suelen ser más frecuentes cio del estudio propiamente dicho, a los sujetos que
en el grupo de los controles, en especial cuando presentan efectos secundarios, problemas de cum-
provienen de la población general. Estas situacio- plimiento, etc., lo que conformará una muestra en
nes pueden alterar la estimación de la frecuencia la que será más fácil observar el efecto que se busca,
de la exposición en los grupos, de forma que, si su pero que será más difícilmente extrapolable.
impacto es diferente en los casos y en los controles, En los ensayos clínicos, dado que estas exclusio-
además del principio de representatividad, puede nes se han producido antes de la asignación de los
vulnerarse también el de comparabilidad. sujetos a los grupos, no se vulnera el principio de
En los estudios de cohortes, también puede afec- comparabilidad y, por tanto, no se afecta la validez
tarse el principio de comparabilidad, ya que las no interna de los resultados. Sin embargo, a pesar de
respuestas se producen cuando los grupos ya están que no se analicen como parte del propio estudio,
formados (dado que los sujetos no son asignados a debe recogerse información sobre los motivos por
los grupos, sino que forman parte de ellos por deter- los que no son incluidos, tanto si es porque no cum-
minadas características sobre las que los investiga- plen los criterios de selección, como si es porque
dores no tienen control). no desean participar en el estudio, o por cualquier
otro motivo. Esta información será imprescindible
Ejemplo 23.2. Supongamos que se realiza un estudio para evaluar su posible impacto sobre la extrapola-
de cohortes para evaluar el efecto del consumo de ción de los resultados.
tabaco sobre la incidencia de cardiopatía isquémica.
Supongamos que todos los no fumadores aceptan
participar, ya que son sujetos preocupados por su PÉRDIDAS
salud, mientras que, entre los fumadores, existe un Se entiende por pérdidas aquellos casos que, habien-
porcentaje de sujetos que rehúsa participar tanto do iniciado el estudio, lo abandonan o se pierde el
más elevado cuanto mayor es su consumo de tabaco contacto con ellos, de forma que no es posible deter-
y peor su estado de salud. De esta forma, la compa- minar el valor de la variable de respuesta. Habi-
ración de las tasas de incidencia de cardiopatía tualmente se producen por abandono del sujeto,
isquémica entre ambas cohortes estaría sesgada, ya que no desea continuar participando en el estudio,
que los sujetos con peor estado de salud y mayor por pérdida durante el seguimiento o por la apari-
probabilidad de desarrollar dicha enfermedad ha- ción de algún suceso concomitante durante éste que
brían rehusado participar en uno de los grupos de impide la valoración de la respuesta.
estudio. Según la naturaleza de la variable de respuesta
que se utiliza puede realizarse algún esfuerzo suple-
EXCLUSIONES PREASIGNACIÓN mentario para obtener información sobre ella en los
EN LOS ENSAYOS CLÍNICOS sujetos que se han perdido. Por ejemplo, si se trata
de la mortalidad, puede acudirse a los registros de
En los ensayos clínicos, la repercusión de estos pro- mortalidad para obtener esta información. Sin em-
blemas tiene características que los diferencian de bargo, en otras ocasiones, es imposible determinar-
lo que ocurre en los estudios observacionales. Las la. Si se trata de la valoración del estado funcional
llamadas exclusiones preasignación corresponden a de un paciente al mes de una intervención, o una to-
los sujetos que, aunque inicialmente son candida- ma de presión arterial al año de seguimiento, y no se

219
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ha determinado en ese momento, puede ser un frecuencia menor, en que la estimación del efecto
dato que resulte imposible de obtener. puede ser hasta cuatro veces mayor en función de
Si las pérdidas se producen aleatoriamente, es cómo se comporten las pérdidas.
decir, por motivos no relacionados con lo que se
está estudiando, no introducen un sesgo en la com- Ejemplo 23.4. Imaginemos un estudio comparativo
paración de los resultados. Si su número es impor- del efecto de dos fármacos, A y B, en el tratamien-
tante, pueden conducir a una disminución en la to de una enfermedad. La variable de respuesta es
precisión de la estimación del efecto. En la tabla la mejoría en el estado funcional del paciente al
23.2 se resumen las implicaciones que pueden tener año de seguimiento. Se diseña un ensayo clínico
estas situaciones en los ensayos clínicos aleatorios. aleatorio, en el que se asignan 100 pacientes a cada
Por otro lado, su posible impacto sobre los resulta- uno de los grupos (tabla 23.4). Al año, el 90% de
dos depende de la frecuencia de presentación de la los pacientes que finalizan el estudio en cada uno
respuesta. de los grupos muestra mejoría, por lo que podría
suponerse que su eficacia es idéntica. Sin embargo,
Ejemplo 23.3. En la tabla 23.3 se presentan los datos al analizar los datos con detenimiento, puede ob-
de dos estudios hipotéticos de seguimiento de una servarse que en el grupo A se ha producido un 30%
cohorte de 100 pacientes, ambos con un 10% de de pérdidas, mientras que en el grupo B sólo un
pérdidas, pero que difieren en la frecuencia de apa- 10%. Aun suponiendo que las pérdidas estén rela-
rición de la respuesta. En la situación A fallecen el cionadas con una menor eficacia de los tratamien-
60% de los pacientes, mientras que en la situación tos, y que ésta sea del 20% para ambos grupos, al
B, sólo el 3,3%. Puede observarse cómo la distorsión tener en cuenta en el análisis todos los sujetos que
producida en la estimación del efecto es mayor en la han sido asignados, puede verse que el fármaco B
situación B, cuando la respuesta se presenta con una es más eficaz (83 frente a 69%). Si el investigador se

Tabla 23.2. Exclusiones preasignación, pérdidas y retiradas en los ensayos clínicos aleatorios

Fase del estudio Características Motivos Consecuencias

Exclusiones Antes de la No son incluidos No cumplen los criterios No producen sesgos


asignación en el estudio de selección Pueden limitar
No dan su la generalización
consentimiento para de los resultados
participar en el estudio
Pérdidas Después de la No se ha determinado Pérdidas y abandonos Si el motivo de la pérdida
asignación la variable de durante el seguimiento está relacionado con el
respuesta Sucesos concomitantes pronóstico inicial o con
(otros procesos, etc.) algún efecto de la
intervención su
exclusión del análisis
puede producir un sesgo
Retiradas Después de la Puede haberse Sujetos inelegibles Pueden producir sesgos
asignación determinado (incluidos por error, importantes si la decisión
la variable de etc.) de excluirlos del análisis
respuesta, pero Desviaciones del está relacionada con el
se ha decidido protocolo (fallos pronóstico inicial o con
deliberadamente de cumplimiento, algún efecto de la
su exclusión etc.) intervención
del estudio Outliers

220
SUJETOS A INCLUIR EN EL ANÁLISIS

Tabla 23.3. Influencia de las pérdidas y retiradas del análisis sobre la estimación del efecto, en función
de la frecuencia de presentación de la respuesta (ejemplo 23.3)

Datos hipotéticos del seguimiento de una cohorte de 100 pacientes, durante el cual se han producido
10 pérdidas (10%). La variable de respuesta es la defunción del sujeto
Se plantean dos situaciones con diferentes valores observados de mortalidad
En cada una de ellas se estima el efecto potencial de las pérdidas en función de dos asunciones: el peor caso
(las 10 pérdidas fallecen) y el mejor caso (las 10 pérdidas sobreviven) posibles

Situación A. Enfermedad de mal pronóstico: mortalidad 60%


Fallecen 54 (60%)
Inicio Final
(100) (90) Sobreviven 36 (40%)
Pérdidas
(10)
Peor caso posible: fallecen 54 + 10 = 64 (64%)
Mejor caso posible: fallecen 54 + 0 = 54 (54%)
Cociente entre ambas asunciones: 64/54 = 1,2
Situación B. Enfermedad de buen pronóstico: mortalidad 3,3%
Fallecen 3 (3,3%)
Inicio Final
(100) (90) Sobreviven 97 (96,7%)
Pérdidas
(10)
Peor caso posible: fallecen 3 + 10 = 13 (13%)
Mejor caso posible: fallecen 3 + 0 = 3 (3%)
Cociente entre ambas asunciones: 13/3 = 4,3

Tabla 23.4. Resultados de un ensayo clínico hipotético comparativo de la eficacia de dos fármacos
A y B, administrados a dos grupos de 100 pacientes. La variable de respuesta corresponde
al cambio en el estado funcional al año de seguimiento. Se presentan los resultados por
separado para los sujetos que han finalizado el estudio y para las pérdidas de seguimiento
(ejemplo 23.4)

Mejoría al año

Pacientes Grupo A Grupo B

Que han finalizado el seguimiento 63/70 (90%) 81/90 (90%)


Pérdidas 6/30 (20%) 2/10 (20%)
Total 69/100 (69%) 83/100 (83%)

conforma con analizar a los sujetos que finalizan el servada en los sujetos que han finalizado el estudio
estudio, puede llegar a conclusiones erróneas. no es una buena estimación, ya que compromete la
Este problema es muy similar al comentado para validez de la comparación. La mejor estrategia es,
las no respuestas. La medición de la respuesta ob- una vez más, diseñar el estudio de forma que se es-

221
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tablezcan todos los mecanismos posibles para pre- para calcular un factor de corrección para cada uno
venir estas pérdidas y minimizar sus efectos. Y si, a de los estratos e incluirlo en la ponderación. La
pesar de todo, se producen, debe intentar obtener- asunción que se realiza es que la submuestra estu-
se la máxima información de ellas para poder in- diada es una muestra aleatoria de todas las pérdidas
cluirlas en el análisis. o no respuestas que se han producido.
Una tercera alternativa es asignar o imputar valo-
TRATAMIENTO DE LAS PÉRDIDAS res de la variable de respuesta u otras variables rele-
Y LAS NO RESPUESTAS vantes a las pérdidas o no respuestas. Existen dife-
rentes opciones para realizar esta imputación de
Una primera alternativa es considerar que las pérdi- valores: extrapolar, para cada caso, los valores de la
das o no respuestas se han producido al azar, y usar última visita realizada a las siguientes; interpolar los
en el análisis sólo la información de los sujetos que valores (si se dispone de datos anteriores y posterio-
han completado el estudio. El resultado de este aná- res); calcular los valores según un modelo estadísti-
lisis es equivalente a aplicar a las pérdidas la misma co (se determina el valor de la respuesta de los su-
frecuencia de la respuesta observada entre los que jetos en función de sus características basales,
permanecen en el estudio. Un inconveniente que
aplicando este modelo posteriormente a los sujetos
existe es la reducción de la precisión consiguiente a
con datos ausentes), y comparar los resultados de di-
la disminución del número de sujetos, aunque, si se
ferentes análisis, aplicando a los datos ausentes dife-
ha previsto la posibilidad de pérdidas o no respues-
rentes posibilidades de respuesta.
tas al determinar el tamaño de la muestra, esta dis-
En general, las técnicas de imputación también
minución puede ser contrarrestada. Sin embargo, la
asumen que las pérdidas y las no respuestas se han
asunción de que las pérdidas o no respuestas se han
producido al azar y de que no introducen ningún producido de forma aleatoria. Uno de los inconve-
sesgo es habitualmente difícil de asegurar. nientes de estas técnicas es que reducen artificial-
Una segunda alternativa es utilizar alguna técni- mente la variabilidad de los valores, en especial,
ca de ponderación de los resultados de la propor- cuando se asignan valores promedio en función de
ción observada de respuestas en diferentes estratos determinadas características, de forma que existirá
de la muestra. Las variables utilizadas para definir una precisión artificialmente elevada, por lo que los
estos estratos deben ser predictoras del hecho de intervalos de confianza deberán interpretarse con
que los sujetos completen el estudio. Por ejemplo, cautela.
ponderar los resultados por el inverso de la propor- Ninguna de las alternativas presentadas es ideal,
ción de respuestas observadas en hombres y muje- y los estudios con gran cantidad de datos ausentes
res, y/o grupos de edad. Si se desea definir gran siempre son criticables. Sea cual fuere la opción uti-
cantidad de estratos, el ajuste por este método es lizada, debe hacerse constar en el protocolo del es-
poco eficiente, ya que en algunas casillas habrá po- tudio, y al publicar los resultados, hay que explicar
cos sujetos y los factores de ponderación serán muy el procedimiento seguido y los valores asignados en
inestables. En esta situación, es preferible utilizar lugar de los datos ausentes.
una regresión logística para determinar las varia-
bles predictoras del hecho de completar el estudio, RETIRADAS
y utilizar esta información en la ponderación. El
principal inconveniente de esta estrategia es la difi- Se entiende por retiradas aquellas personas inclui-
cultad en el cálculo de las variancias. Por otro lado, das en el estudio, pero que deliberadamente no son
la asunción que se realiza es que las pérdidas que se tenidas en cuenta en el análisis, a pesar de que en
han producido han sido aleatorias, y el único hecho ellas se ha podido determinar la variable de res-
que se tiene en cuenta es que la proporción de suje- puesta. Este tipo de problemas se presenta, en ge-
tos que han completado el estudio difiere según de- neral, en los estudios con seguimiento de sujetos, y
terminadas características de ellos mismos. ha sido ampliamente debatido en los ensayos clíni-
Si se ha estudiado una submuestra de las pérdi- cos, dadas las repercusiones que el análisis y la in-
das o las no respuestas para determinar en los estra- terpretación de estos estudios tienen sobre las deci-
tos la variable de interés y evaluar la posible existen- siones terapéuticas. Las causas por las que puede
cia de un sesgo, esta información puede utilizarse plantearse la posible exclusión de un sujeto del aná-

222
SUJETOS A INCLUIR EN EL ANÁLISIS

lisis son muy variadas: personas incluidas por error los criterios se obtiene posteriormente al inicio de la
o que no cumplen todos los criterios de selección, intervención.
desviaciones del protocolo, sujetos que no han
cumplido con la intervención prescrita, individuos Ejemplo 23.5. En un estudio se comparó la eficacia
que han recibido una intervención distinta de la de la vasopresina y de la epinefrina en 324 pacien-
asignada, etc. tes que sobrevivieron a un paro cardíaco mientras
En algunos casos, estas situaciones pueden im- estaban ingresados en un hospital. Cincuenta de
plicar un porcentaje importante de sujetos, por lo estos pacientes fueron finalmente excluidos del es-
que su eliminación del análisis puede sesgar los re- tudio porque el paro ocurrió antes de la llegada al
sultados. La comparabilidad inicial de los grupos hospital y, en consecuencia, habían sido asginados
debe mantenerse a lo largo de todo el estudio. Si se erróneamente (Stiell et al, 2001).
excluye un número diferente de pacientes en cada
uno de los grupos, puede alterarse dicha compara- En la primera situación, la exclusión del análisis
bilidad. Pero, aunque el número de retiradas sea el de los pacientes que se han incluido por error puede
mismo en ambos grupos, sus motivos pueden diver- sesgar los resultados, si, como puede suceder, el des-
ger y afectar a un tipo diferente de individuos, por cubrimiento del error no se produce al azar. Por
lo que también puede alterarse la comparabilidad. ejemplo, los pacientes que responden peor a un tra-
Por tanto, es fundamental que el diseño del estudio tamiento o que presentan más efectos adversos son
prevea las posibles fuentes de retiradas e intente los que pueden llamar la atención de los investiga-
evitarlas. dores, que, en consecuencia, pueden buscar con
más ahínco errores en la evaluación de los criterios
S UJETOS QUE NO CUMPLEN de inclusión y exclusión de estos pacientes.
LOS CRITERIOS DE SELECCIÓN
Puede ocurrir que los sujetos sean incluidos en el es- Ejemplo 23.6. El estudio The Anturane Reinfarction
tudio y asignados a un grupo, pero que se considere Trial (1980) comparaba el tratamiento con sulfin-
a posteriori que no cumplen los criterios de inclu- pirazona frente a placebo en pacientes con infarto
sión. Se pueden distinguir dos situaciones: cuando agudo de miocardio (tabla 23.5). De los 1.558 suje-
se producen errores en la valoración de los criterios tos incluidos y asignados, 71 (38 del grupo trata-
de inclusión (p. ej., al registrar la edad o el sexo), en miento y 33 del grupo placebo) fueron considera-
alguna determinación de laboratorio o incluso dos inelegibles a posteriori. Si se excluyen del
en los criterios diagnósticos, debido a la necesidad análisis, puede apreciarse que el grupo sulfinpira-
de efectuar con rapidez la inclusión en algunos pro- zona presenta una menor mortalidad que el grupo
cesos agudos; o cuando debe instaurarse un trata- placebo, aunque no alcanza el nivel convencional
miento rápidamente y la confirmación de alguno de de significación del 5%, pero se acerca bastante. En

Tabla 23.5. Resultados finales de mortalidad en el Anturane Reinfarction Trial (1980), que tienen en
cuenta a los individuos que fueron eliminados del análisis por ser considerados inelegibles
(ejemplo 23.6)

Mortalidad (%)

Grupo Grupo
sulfinpirazona placebo p*

Analizados 64/775 (8,3%) 85/783 (10,9%) 0,07


Asignados 74/813 (9,1%) 89/816 (10,9%) 0,20
Inelegibles** 10/38 (26,3%) 4/33 (12,1%) 0,13
*Significación estadística.
**Pacientes considerados inelegibles posteriormente a su asignación a uno de los dos grupos.

223
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

cambio, si se analiza a todos los pacientes asignados, tratamiento produzca un beneficio, crea una falsa
las diferencias son menores y no significativas. impresión de eficacia. De hecho, entre los que tu-
Puede apreciarse, así mismo, que en el grupo pla- vieron la enfermedad, el tratamiento causó vómitos
cebo los sujetos inelegibles presentan una mortali- o náuseas en el 19% de los pacientes, y es de espe-
dad similar al resto de los sujetos (el 12,1 frente rar que entre los 255 que no tenían la infección por
al 10,9%), mientras que en el grupo tratamiento el virus de la influenza, el porcentaje de pacientes
esta mortalidad es tres veces superior (el 26,3 frente con efectos adversos sería similar, pero sin el bene-
al 8,3%). ficio que produce el tratamiento.

Como regla general, los pacientes que no cum- En los estudios de cohortes también pueden
plan con los criterios de elegibilidad y que se hayan presentarse este tipo de situaciones. Supongamos
incluido por error deben permanecer en el estu- que se evalúa la asociación entre la exposición a un
dio. Una excepción podría darse cuando el estable- factor de riesgo y un determinado tipo de cáncer.
cimiento de los criterios de inclusión y exclusión es Obviamente, ninguno de los sujetos debe presentar
difícil. En estas circunstancias, un comité ajeno al la enfermedad al inicio del estudio. Los casos en los
diseño y la ejecución del estudio, y que desconozca que se detecte el cáncer a los pocos meses de inicia-
a qué grupo ha sido asignado cada paciente y los re- do suelen ser excluidos del análisis, al considerar
sultados relacionados con la variable de respuesta, que la enfermedad ya estaba presente desde el prin-
podría valorar la información sobre los criterios de cipio, aunque en una fase todavía indetectable.
selección obtenida antes de la asignación.
En la segunda situación, también conviene in- C UMPLIMIENTO INSUFICIENTE
cluir a todos los sujetos en el análisis, incluso aun- CON LA INTERVENCIÓN
que después se demuestre que algunos no cumplan Si el objetivo de un estudio es comparar la eficacia de
los criterios de inclusión, ya que los resultados refle- dos pautas terapéuticas, puede parecer lógico no con-
jarán más fielmente lo que sucede en la práctica clí- siderar en el análisis a aquellos sujetos que no hayan
nica, donde los médicos, en algunos procesos agu- cumplido adecuadamente con la intervención asig-
dos, inician un tratamiento antes de disponer de nada. Sin embargo, esta actitud puede comprometer
toda la información diagnóstica. la validez interna.
Los fallos de cumplimiento pueden deberse al su-
Ejemplo 23.7. En un estudio que evaluó la efecti- jeto, a su médico habitual o al propio investigador,
vidad de un tratamiento frente al virus de la in- y pueden estar motivados por la aparición de efectos
fluenza, el fármaco debía administrarse durante las secundarios de las intervenciones, pérdida de inte-
primeras 48 horas después de haberse iniciado los rés en permanecer en el estudio o aparición de cam-
síntomas, que, en muchas ocasiones son indistin- bios en la situación del sujeto, entre otras razones.
guibles de los de otras infecciones (Treanor et al, La validez de las comparaciones entre cumplido-
2000). En el protocolo del estudio se especificaba res y no cumplidores para determinar el efecto de
que sólo se incluiría a los pacientes que dieran un un tratamiento asume que ambos grupos son simi-
resultado positivo a la infección en los cultivos o lares en todas las características, excepto en el cum-
pruebas serológicas. Se asignaron 629 pacientes, de plimiento de la intervención. Sin embargo, no sue-
los cuales 255 (40%) no dieron un resultado positi- le ser así.
vo en las pruebas diagnósticas de infección por el vi-
rus de la influenza. Los investigadores informaron Ejemplo 23.8. Al comparar los datos de los grupos
que en los 374 pacientes infectados, el tratamiento en tratamiento con clofibrato y con placebo del The
redujo la duración de la enfermedad en un 30%. Coronary Drug Project (1980), puede apreciarse
Sin embargo, el análisis en el que se tenía en cuen- que ambos grupos muestran cifras similares de
ta a los 629 pacientes inicialmente incluidos y asig- mortalidad a los 5 años. La técnica de medida utili-
nados a los distintos grupos de estudio mostró una zada fue el recuento de las cápsulas. Los pacientes
reducción del 22%, un resultado menos impactan- fueron clasificados como buenos cumplidores si
te. La exclusión retrospectiva de un número impor- habían tomado al menos el 80% de las cápsulas
tante de pacientes en los que no se espera que el prescritas. La mortalidad fue superior entre los no

224
SUJETOS A INCLUIR EN EL ANÁLISIS

cumplidores, incluso en el grupo placebo (28,2 cial establecida por la asignación aleatoria. Si se
frente 15,1%), evidenciando que se trataba de suje- incluyen en el grupo de educación sanitaria grupal,
tos de características diferentes de los cumplidores. aumenta la probabilidad de encontrar resultados
favorables a ella. En el grupo individual, al eliminar
Algunos autores proponen la eliminación de los a estos mismos pacientes, se disminuye el porcenta-
no cumplidores del análisis, argumentando que, je de pacientes controlados.
si no han seguido la intervención, no pueden bene- La mejor estrategia para manejar estas situacio-
ficiarse de ella. Sin embargo, ya que el cumplimien- nes es la de considerar a cada individuo en el grupo
to puede estar relacionado con la intervención, y al que ha sido asignado, con independencia de la
de hecho puede considerarse un efecto de ella, no intervención que haya recibido (análisis por inten-
se recomienda esta actitud. Si los no cumplidores ción de tratar).
son más frecuentes en uno de los grupos, puede
aparecer un sesgo en la comparación. Pero incluso Ejemplo 23.9. El Heart Protection Study (2002) tuvo
si el porcentaje es similar en ambos grupos, puede como objetivo evaluar si un tratamiento hipolipe-
ser debido a causas diferentes y afectar a un tipo di- miante podía reducir la morbilidad y la mortalidad
ferente de sujetos. cardiovascular en pacientes de alto riesgo, inde-
En algunas situaciones, cuando el estudio busca pendientemente de sus cifras de colesterol. Se in-
establecer si un tratamiento es eficaz cuando se ad- cluyó a 20.536 hombres y mujeres de 40-80 años de
ministra correctamente, puede utilizarse un perío- edad, con unas concentraciones plasmáticas de co-
do de preinclusión (run-in phase) que permita valo- lesterol total de al menos 3,5 mmol/l, siempre que
rar el cumplimiento de los candidatos, y que sólo tuvieran en un plazo de 5 años un riesgo considera-
aquellos que sobrepasen los criterios definidos sean ble de muerte a causa de unos antecedentes previos
incluidos y asignados aleatoriamente, de forma que de enfermedad coronaria, o enfermedad oclusiva de
las características relacionadas con el cumplimiento las arterias no coronarias, o diabetes, o hipertensión
sean distribuidas equitativamente en ambos grupos. tratada, o una combinación de estos factores. Esta
muestra fue distribuida aleatoriamente en dos gru-
S UJETOS QUE RECIBEN pos: uno de ellos recibió tratamiento hipolipemian-
UNA INTERVENCIÓN DIFERENTE te, y el otro, un placebo. Durante el seguimiento, el
DE LA ASIGNADA 17% de los pacientes asignados al grupo placebo
Supongamos que se desea evaluar si una determi- recibieron un tratamiento hipolipemiante debido a
nada estrategia de educación sanitaria grupal es efi- que sus médicos consideraron que sus concentracio-
caz como medida complementaria en el control de nes de colesterol habían aumentado lo suficiente
los pacientes diabéticos. Para ello se diseña un ensa- como para requerirlo. De todos modos, los investiga-
yo clínico aleatorio, en el que los pacientes diabéti- dores analizaron los datos de estos pacientes como si
cos del centro de salud que cumplen con determi- hubieran recibido un placebo, ya que ésta era la in-
nados criterios de selección son asignados a dos tención inicial del tratamiento.
grupos, uno de los cuales recibirá la nueva modali-
dad de educación sanitaria, y el otro, la individual O UTLIERS
habitual en la consulta. Puede ocurrir, y de hecho Un outlier es un valor aberrante o inusual en com-
ocurre, que algunos pacientes tengan conocimien- paración con el resto. Su inclusión en el análisis
to de la realización de los grupos de educación, y puede distorsionar los resultados, sobre todo en los
acudan a ellos, aunque hayan sido asignados al estudios con un número reducido de sujetos. Algu-
grupo de control. ¿Dónde se van a considerar estos nos autores recomiendan eliminar estos valores del
pacientes? En realidad, han recibido la interven- análisis. Sin embargo, sólo deberían eliminarse si
ción, por lo que parece lógico incluirlos en el gru- son claramente un error de medición, ya que, en
po de estudio. Sin embargo, habían sido asignados caso contrario, su exclusión podría alterar los resul-
al grupo de control. tados, despreciando la información de alguna situa-
Si del grupo control se elimina a los pacientes ción que puede ser muy interesante.
que acuden a la educación grupal, probablemente Es lícito argumentar que, si se utilizan pruebas
los más motivados, se rompe la comparabilidad ini- estadísticas paramétricas, los outliers tienen una gran

225
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

influencia. Como solución de compromiso en estos tudio que han recibido la intervención con los 80
casos, puede procederse al análisis con estos valores del grupo control que recibieron la atención habi-
y sin ellos. Si las conclusiones obtenidas en ambos tual. Sin embargo, hay que tener en cuenta que se
análisis son diferentes, los resultados deberán ser excluyen, del grupo de intervención grupal, 20 suje-
interpretados con mucha precaución. tos que podrían considerarse como los menos mo-
tivados para reducir peso, ya que rehúsan acudir a
los grupos, mientras que del grupo control se exclu-
MODALIDADES DE ANÁLISIS
ye a 10 sujetos que podrían considerarse muy mo-
DE UN ENSAYO CLÍNICO ALEATORIO
tivados, ya que acuden a los grupos de educación de
Dado que las pérdidas y retiradas difícilmente se forma espontánea. Por tanto, la exclusión de estos
producen al azar, cualquier exclusión de sujetos del 30 sujetos del análisis conduciría a una compara-
análisis puede alterar la comparabilidad de los gru- ción sesgada entre los grupos.
pos. Con el fin de preservarla, la única opción válida Otra posibilidad sería analizar a los sujetos se-
de análisis es evaluar a todos los pacientes incluidos gún la intervención que han recibido realmente,
en el estudio según el principio denominado aná- pero en este caso todavía se agravaría más el pro-
lisis según intención de tratar (intention-to-treat analysis) blema anterior.
o según asignación aleatoria (as-randomized), según el La asignación aleatoria ha formado dos grupos
cual se analiza a todos los pacientes como perte- de 90 sujetos, que son los que pueden considerarse
necientes al grupo al que fueron inicialmente asig- como comparables. Por ello, la única opción válida
nados, con independencia del tratamiento que es analizar a los sujetos según el grupo al que fue-
hayan recibido realmente o de cualquier desviación ron asignados.
del protocolo que se haya producido. Algunos auto-
res matizan la definición de este principio, inclu- Una alternativa diferente al análisis según inten-
yendo en el análisis tan sólo a los sujetos que han re- ción de tratar es la de comparar sólo a los pacientes
cibido al menos una dosis del tratamiento. que han sido asignados a un grupo, han recibido el
Aunque pueda parecer extraño analizar en un tratamiento correspondiente y han sido seguidos
grupo a sujetos que no han tomado el tratamiento hasta el final del estudio. Esta estrategia se conoce
asignado, o incluso que han recibido la interven- como análisis de casos válidos o según protocolo (per-
ción del otro grupo u otras medicaciones, si no se protocol). Aunque esta alternativa pueda parecer
siguiese el principio de intención de tratar, se com- más atractiva a primera vista, la exclusión de sujetos
prometería la comparabilidad de los grupos. De del análisis puede generar sesgos y conducir a con-
todas formas, si estas situaciones se producen en un clusiones erróneas, en especial, si estas situaciones
gran número de sujetos, el estudio debería ser con- se producen en las primeras fases del ensayo y en
siderado como no evaluable. mayor número en uno de los grupos, ya que no apa-
recen por azar. Si, por ejemplo, algunos sujetos de
Ejemplo 23.10. Supongamos un ensayo clínico que un grupo no finalizan el estudio porque presentan
evalúa la eficacia de una intervención educativa acontecimientos adversos, su exclusión del análisis
grupal para reducir peso en pacientes obesos, en conducirá, quizá, a un sesgo favorable al tratamien-
relación con la atención habitual que reciben estos to. Habitualmente se producen más retiradas por
sujetos, en el que se ha incluido a 180 pacientes, de acontecimientos adversos entre los pacientes que
los cuales 90 han sido asignados a cada uno de los reciben un tratamiento activo que entre los que re-
grupos. Una vez iniciado el estudio, 10 pacientes ciben placebo. También puede conducir a sesgos la
del grupo control manifiestan su deseo de recibir la exclusión de sujetos que no finalizan el estudio por-
intervención grupal y acuden a las sesiones. Por que se han curado, o porque han requerido un tra-
otro lado, entre los individuos asignados a la inter- tamiento adicional por ineficacia de la interven-
vención grupal, 20 no acuden a ninguna de las se- ción recibida.
siones a pesar de que habían dado su consenti- Por todo ello, la estrategia de análisis de un en-
miento para participar en el estudio. sayo clínico debe ser la de intención de tratar. En
Una posibilidad sería excluir a estos sujetos del determinadas circunstancias pueden aceptarse eva-
análisis, comparando los 70 sujetos del grupo de es- luaciones secundarias, en las que se excluyan algu-

226
SUJETOS A INCLUIR EN EL ANÁLISIS

nos pacientes con situaciones especiales, siempre B IBLIOGRAFÍA


que se justifique lo suficiente y haya sido previsto en Begg CB. Ruminations on the intent-to-treat principle. Con-
el protocolo. En la mayoría de las ocasiones, los re- trol Clin Trials 2000; 21 (3): 241-243.
sultados de ambas modalidades de análisis no difie- Clark TG, Altman DG, De Stavola BL. Quantification of the
ren sustancialmente. Sin embargo, cuando se obtie- completeness of follow-up. Lancet 2002; 359: 1309-1310.
Fergusson D, Aaron SD, Guyatt G, Hebert P. Post-randomisa-
nen resultados diferentes, su interpretación puede
tion exclusions: the intention to treat principle and exclud-
ser controvertida, y debe prevalecer la estrategia ing patients from analysis. BMJ 2002 21; 325: 652-654.
según intención de tratar, ya que suele ser más Goetghebeur E, Loeys T. Beyond intention to treat. Epide-
conservadora. miol Rev 2002; 24: 85-90.
Grimes DA, Schulz KF. Sample size slippages in randomised
B IBLIOGRAFÍA DE LOS EJEMPLOS trials: exclusions and the lost and wayward. Lancet 2002;
Heart Protection Study Collaborative Group. MRC/BHF 359: 781-785.
Heart Protection Study of cholesterol lowering with sim- Hollis S, Campbell F. What is meant by intention to treat ana-
vastatin in 20,536 high-risk individuals: a randomised lysis? Survey of published randomised controlled trials.
placebo-controlled trial. Lancet 2002; 360: 7-22. BMJ 1999; 319: 670-674.
Stiell IG, Hebert PC, Wells GA et al. Vasopressin versus epi- Kreiger N, Nishri ED. The effect of non-response on estima-
nephrine for inhospital cardiac arrest: a randomised tion of relative risk in case-control study. Am J Epidemiol
controlled trial. Lancet 2001: 358: 105-109. 1997; 7: 194-199.
The Anturane Reinfarction Trial Research Group. Sulfin- Kruse RL, Alper BS, Reust C, Stevermer JJ, Shannon S,
pyrazone in the prevention of sudden death after myo- Williams RH. Intention-to-treat analysis: who is in? Who
cardial infarction. N Engl J Med 1980; 302: 250-254. is out? J Fam Pract 2002; 51: 969-971.
The Coronary Drug Project Research Group. Influence of Lachin JM. Statistical considerations in the intent-to-treat
adherence to treatment and response of cholesterol on principle. Control Clin Trials 2000; 21 (3): 167-189.
mortality in the Coronary Drug Project. N Engl J Med Matts JP, Launer CA, Nelson ET, Miller C, Dian B y The Terry
1980; 303: 1038-1041. Beirn Community Programs for Clinical Research on
Treanor JJ, Hayden FG, Vrooman PS et al. Efficacy and safety Aids. A graphical assessment of the potential impact of
of the oral neuraminidase inhibitor oseltamivir in treat- losses to follow-up on the validity of study results. Stat
ing acute influenza: a randomized controlled trial. US Med 1997; 16: 1943-1954.
Oral Neuraminidase Study Group. JAMA 2000; 283: Montori VM, Guyatt GH. Intention-to-treat principle. CMAJ
1016-1024. 2001; 165: 1339-1341.

227
Capítulo 24
Preparativos para la puesta en marcha

ara que un estudio se ejecute de forma correc- del estudio. En este documento se definen de

P ta, es necesario que todos los procedimientos


se ajusten a lo planificado en el protocolo y el
manual de procedimientos. Estos documentos de-
forma operativa todos los métodos relacionados
con el diseño y la organización del estudio, indi-
cando de quién es responsabilidad cada tarea,
ben contemplar todas las situaciones posibles, de dónde debe realizarse y en qué condiciones. Su
forma que un investigador sepa qué hacer en todo función principal es estandarizar los procedimien-
momento y cómo actuar ante cualquier duda. tos y disminuir la variabilidad en todas las fases del
Antes de iniciar el estudio, el cuaderno de reco- estudio, para lo que debe estar disponible para
gida de datos (CRD) ha de estar diseñado, y los indi- todos los investigadores en cualquier momento del
viduos responsables de su cumplimentación han de estudio.
estar debidamente formados y entrenados. De la El manual de procedimientos ha de incluir los
misma forma, el resto de los documentos necesarios métodos para la selección de la muestra y recluta-
para la realización del estudio (hojas de consenti- miento de sujetos; las instrucciones sobre la forma
miento informado, de información al paciente, soli- de ponerse en contacto con los participantes en el
citudes de colaboración y participación, etc.) deben estudio; la definición y el procedimiento detalla-
estar diseñados, y los investigadores, familiarizados do para la medición de las variables e instrucciones
con ellos. para su codificación; los métodos de obtención y
Es aconsejable realizar una prueba piloto del gestión de las muestras; los procedimientos para ase-
CRD y del resto de procedimientos y actividades pre- gurar la confidencialidad de los datos; las instruc-
vistas en el protocolo. Aunque el plan parezca per- ciones claras de qué ha de hacerse en cada una de
fectamente ensamblado en la teoría y los métodos a las visitas de seguimiento, cómo deben recaptar-
utilizar estén especificados con detalle, puede ocu- se las no respuestas o las pérdidas de seguimiento y
rrir que, en la práctica, algo, o todo, funcione de qué hacer ante situaciones que planteen conflictos,
diferente manera. Es preferible descubrir los pro- entre otros. También ha de incluir todos los impre-
blemas en un ensayo previo y realizar las modifica- sos que se van a utilizar en el estudio, como la hoja
ciones adecuadas antes de que el estudio se inicie. de recogida de datos, las cartas de presentación a los
participantes, o las hojas de consentimiento infor-
mado, así como los aspectos relacionados con la ges-
MANUAL DE PROCEDIMIENTOS
tión de los datos y el control de calidad de éstos. En
El manual de procedimientos es una versión la tabla 24.1 se presenta un ejemplo de índice de un
ampliada de la sección de métodos del protocolo manual de procedimientos.

228
PREPARATIVOS PARA LA PUESTA EN MARCHA

Tabla 24.1. Ejemplo de índice de un manual de procedimientos

1. Resumen del estudio: 6. Evaluación de la respuesta:


– Objetivos específicos del estudio – Técnicas de medida de la respuesta
– Características generales del diseño – Valoración de la respuesta
2. Información general: – Acontecimientos adversos que dificulten
– Investigadores y centros participantes; la medida de la respuesta
especificar el o los investigadores principales 7. Gestión y análisis de los datos:
– Datos del promotor y fuentes de financiación – Control de calidad de los datos
– Centro coordinador (en estudios – Entrada de datos
multicéntricos) – Archivo y copias de seguridad
3. Selección de los sujetos: – Plan de análisis
– Definición operativa de los criterios de selección 8. Consideraciones prácticas:
– Plan de muestreo – Responsabilidades de los investigadores
– Método de reclutamiento, incluir cómo y y otros profesionales implicados en el estudio
cuándo solicitar el consentimiento informado – Entrenamiento de los procedimientos
– Número de pacientes – Modificaciones del protocolo
4. Descripción de las intervenciones (en ensayos – Etiquetado y gestión de las muestras
clínicos): – Política de publicación
– Método y procedimientos de aleatorización 9. Bibliografía
– Definición operativa de las intervenciones: 10. Apéndices:
descripción, dosis, pauta, etc. – Hojas de recogida de datos, cuestionarios
– Tratamientos concomitantes y formularios
– Medicación de rescate – Cartas de presentación y agradecimiento
– Evaluación del cumplimiento a los participantes
5. Desarrollo del estudio: – Hoja de información al paciente
– Esquema de seguimiento y consentimiento informado
– Definición de las variables – Hoja de notificación de acontecimientos
– Procedimientos a realizar en cada visita, incluir adversos
los métodos de medición – Valores de normalidad de los parámetros
– Recaptación de las no respuestas y pérdidas de laboratorio
de seguimiento
– Procedimientos de seguimiento
de los que no responden

CUADERNO DE RECOGIDA DE DATOS conveniente discutir el diseño del documento con


todos aquellos que deban cumplimentarlo, proce-
El CRD es el soporte documental específicamente
sarlo o analizarlo.
diseñado para recoger los datos del estudio, de for-
ma que toda la información relevante de cada uno
de los sujetos quede registrada y disponible. F ORMATO
Debe estar preparado antes del inicio de la reco- El CRD debe ser de diseño tan claro y atractivo co-
gida de datos, y haber sido elaborado con la sufi- mo sea posible, y estar dirigido a facilitar la recogida
ciente atención. Sin embargo, no se diseña hasta y el procesamiento de los datos. Debe ser fácil de
que el plan de estudio no está prácticamente com- manejar y debe evitar usar letra menuda o apretada
pletado, ya que debe contemplar las definiciones y y hojas de pequeño formato, lo que disminuirá el
escalas de medida de las variables implicadas, así co- número de errores.
mo la pauta de seguimiento (número de visitas, ex- Es conveniente encabezar el CRD con el título
ploraciones a realizar, periodicidad de las medicio- del proyecto y registrar la fecha de recogida de los
nes, etc.). Antes del inicio de la recogida de datos, es datos para evitar posibles confusiones con otros

229
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

estudios llevados a cabo en el mismo centro o por el tudio y del sujeto, debe recogerse la información
mismo profesional. que permite comprobar que el candidato cumple
Es preferible utilizar un CRD para cada indivi- con los criterios de inclusión y exclusión exigidos
duo (o unidad de estudio), lo que facilita el poste- (fig. 24.1).
rior manejo de los datos. Debe identificarse a cada A continuación, deben indicarse las exploracio-
sujeto en todas las hojas, habitualmente mediante nes que delimiten el estado inicial del sujeto y, pos-
un número secuencial. Ello evita confusiones y per- teriormente, el resto de las variables en orden cro-
mite verificar posteriormente algunos datos y locali- nológico. Deben agruparse los ítems por visitas y
zar al paciente si es necesario su seguimiento. Sin evitar tener que retroceder varias hojas para anotar
embargo, no debe olvidarse la confidencialidad de algún dato durante una visita.
la información contenida en estos documentos. Las páginas deben ser espaciosas, con conteni-
Puede ser útil mantener un fichero separado en el dos distribuidos ampliamente y bien alineados. De-
que consten sus datos de identificación. ben resaltarse los encabezamientos y los aspectos
El CRD debe seguir la secuencia en que los datos más importantes con caracteres tipográficos de di-
serán recogidos. Después de la identificación del es- verso tamaño o subrayándolos. Incluso puede ser

Protocolo N.º paciente x _ x _ x _ x

A. IDENTIFICACIÓN DEL PACIENTE

N.º del paciente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x _ x _ x _ x

Fecha del examen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . día/mes/año x _ x _ x – x _ x _ x – x _ x _ x

Sexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 hombre/2 mujer x _ x

Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . años x _ x _ x

Teléfono . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x _ x _ x _ x _ x _ x _ x _ x _ x _ x

B. CRITERIOS DE INCLUSIÓN

SÍ NO

Mayor de 18 años x_x x_x

Diagnóstico clínico de cólico nefrítico x_x x_x

Dolor en una o ambas fosas lumbares y/o irradiado


con una intensidad de dolor igual o superior a 2 x_x x_x

Ha otorgado su consentimiento informado x_x x_x

C. CRITERIOS DE•EXCLUSIÓN

Alergia a los AINE x_x x_x

Fiebre o sospecha de pielonefritis x_x x_x

Se le ha administrado analgésicos durante las 6 horas previas x_x x_x

Presenta dolor de 48 horas o más de evolución x_x x_x

Está en período de embarazo o lactancia x_x x_x

Está afectado de clínica ulcerosa activa x_x x_x

Figura 24.1. Ejemplo de hoja de recogida de datos. Identificación del sujeto y criterios de selección.

230
PREPARATIVOS PARA LA PUESTA EN MARCHA

aconsejable utilizar algún tipo de ilustración. Hay ma posición, y ajustar las cifras por la derecha. De-
que evitar el uso de abreviaturas no habituales. be tenerse un cuidado especial en la señalización
Si existen varias páginas, éstas deberían estar de los puntos decimales. Es preferible sobreesti-
identificadas con un sistema de acceso rápido me- mar que infraestimar el número de dígitos necesa-
diante indicaciones del número de visita, o bien uti- rios. No es conveniente categorizar variables con-
lizar hojas, o indicadores de diferentes colores. tinuas que pueden recogerse directamente, por
Es conveniente que el CRD especifique todas las ejemplo, la edad.
instrucciones y codificaciones necesarias para su – Fechas. Las fechas suelen introducirse con el for-
cumplimentación. Además de facilitar la recogida mato día/mes/año. Hay que asegurarse de que el
de datos, puede ser un complemento importante programa informático permita trabajar con fechas
del protocolo, al incluir una lista de los criterios de en este formato.
inclusión y exclusión, o de las exploraciones que – Datos no precodificados porque existen demasiadas
deben realizarse en cada visita. respuestas posibles; por ejemplo, otros procesos
concomitantes, tratamientos previos, etc. Si se
P RECODIFICACIÓN desea procesar esta información automáticamen-
Debe facilitarse el procesamiento de los datos. Lo te, deberá establecerse una fase intermedia de co-
ideal es un documento precodificado en el que el dificación de las respuestas obtenidas.
investigador deba escribir lo menos posible. No de-
be obligarse a las personas que recogen los datos a Es aconsejable utilizar el mismo código para las
hacer cálculos antes de codificarlos, sino que es pre- no respuestas en todas las variables. En cualquier
ferible entrar los datos brutos y hacer los cálculos di- caso, deben evitarse los espacios en blanco que pue-
rectamente en la fase de análisis. dan indicar tanto la ausencia de respuesta como
Sin embargo, una recogida completamente pre- que ésta no ha sido valorada, no ha sido considera-
codificada tiene el inconveniente de que pueden no da relevante o se ha olvidado.
reflejarse aspectos relevantes. Este problema se evita Si bien el CRD ha de ser autoexplicativo y conte-
dejando algún espacio para comentarios y observa- ner las instrucciones necesarias para su cumpli-
ciones, que, aunque a priori puedan parecer inne- mentación, no debe sustituir al manual de procedi-
cesarias, después pueden resultar de interés. mientos que explique detalladamente cómo debe
Pueden identificarse diferentes tipos de datos recogerse toda la información, e incluya las defini-
precodificados: ciones de las variables, las instrucciones para los
investigadores y el circuito que debe seguir la infor-
– Datos alfanuméricos que deben escribirse completa- mación recogida.
mente (p. ej., nombre y apellidos).
– Datos dicotómicos. Preferiblemente debe utilizarse
FORMACIÓN DEL PERSONAL
una codificación numérica (1: sí / 2: no), evitando
el dígito 0 para no confundirlo con los datos ausen- La calidad de los datos depende en gran medida de
tes. Puede ser útil prever un código para la res- la persona que los recoge, de su experiencia, su co-
puesta «no se sabe», que idealmente debe ser el nocimiento del protocolo, su motivación por el es-
mismo para todas las variables. Los códigos de las tudio y su meticulosidad. La persona más cualificada
respuestas deben ser consistentes en todas las pre- para recoger los datos no es necesariamente la más
guntas. Es decir, si en una pregunta con dos posi- competente desde el punto de vista profesional.
bles opciones de respuestas, éstas se han codificado Muchos investigadores prestan poca atención a
como 1 = sí y 2 = no, en las siguientes preguntas di- la recogida de datos porque la consideran tediosa y
cotómicas se han de respetar los mismos códigos. menos estimulante desde el punto de vista intelec-
– Respuestas múltiples. Deberían ser mutuamente ex- tual que las fases de diseño y análisis. En conse-
cluyentes y contemplar todas las situaciones posi- cuencia, las conclusiones de un estudio bien
bles. Si no son excluyentes, es preferible desagre- diseñado pueden ser poco válidas por la existencia
gar las respuestas y considerarlas como variables de errores en los datos recogidos.
aisladas. Debe recogerse información sobre todas las
– Datos numéricos. Es aconsejable que las centenas, variables consideradas de interés, de forma
las decenas y las unidades ocupen siempre la mis- homogénea por todos los investigadores, para

231
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

todos los sujetos y durante todo el estudio. Para C ONTACTAR CON EL PARTICIPANTE
ello, se requiere una definición clara de las varia- En el contacto inicial, la persona que recoge los datos
bles, de la fuente de datos, del instrumento de debe presentarse, identificarse, indicar la institución
medida y de las codificaciones utilizadas, que que promueve la investigación y explicar sus objetivos.
deben estar especificadas en el protocolo y/o El entrevistador debe estar preparado para res-
manual de procedimientos, y la formación adecua- ponder a las preguntas más habituales que le pue-
da de las personas que participarán en la recogida. den formular: ¿cómo me seleccionaron?, ¿quién le
La primera estrategia es elegir un número redu- dio mi nombre?, ¿para qué sirve todo esto?, ¿qué
cido de personas adecuadas y entrenarlas correcta- más tendré que hacer?, ¿cómo sé que estos datos
mente. Las sesiones de formación y entrenamiento son confidenciales?, ¿por qué quiere saber todo es-
de los investigadores y personas que participen en to?, ¿qué van a hacer con todas estas respuestas?
la recogida de la información para promover su ho-
mogeneidad son cruciales, sobre todo en estudios F ORMULAR LAS PREGUNTAS
de gran tamaño. Debe discutirse con ellos la impor- Para aumentar la homogeneidad de la recogida de
tancia de una recogida exhaustiva y exacta de los datos, es importante que quienes la llevan a cabo
datos. De la misma forma, deben calibrarse y vali- dispongan de instrucciones precisas y detalladas
darse los instrumentos de medida. sobre cómo formular las preguntas y clarificar las
respuestas (tabla 24.2). Se debe explicar la necesi-
Ejemplo 24.1. Supongamos que se desea realizar un dad de una estricta estandarización en los métodos
estudio sobre pacientes con demencia. Dada la difi- de entrevista. Cada pregunta se ha de formular tal y
cultad que entraña el diagnóstico de la enferme- como está en el cuestionario, sin interpretaciones
dad, existe mucha variabilidad entre los profesio- subjetivas o aclaraciones adicionales, ya que
nales. Para mejorar las habilidades y homogeneizar pequeñas variaciones pueden comportar cambios
los criterios diagnósticos, se decide utilizar una en el significado de la pregunta.
estrategia de formación y entrenamiento, en la que Cuando un participante no entienda una pre-
se incluye a actores que simulan ser pacientes con gunta, el encuestador deberá repetirla nuevamente
demencia. Se graban las entrevistas, y se debaten
con los investigadores para corregir los errores y
homogeneizar los criterios.
Tabla 24.2. Recomendaciones para la recogida
de datos mediante un cuestionario
Ejemplo 24.2. En un estudio sobre el tratamiento de
la hipertensión arterial, se instruyó a los profesiona-
• Leer las preguntas exactamente como están
les que recogían los datos en las técnicas para loca-
formuladas en el cuestionario
lizar la arteria braquial, aplicar el manguito de pre-
sión, insuflar y desinsuflar el manguito, y reconocer • Leer despacio cada una de las preguntas
los sonidos que indican la presión arterial diastóli- • Usar una entonación correcta
ca. Además, se les realizó una prueba teórica escrita • Preguntar las cuestiones en el orden en que están
sobre los contenidos del manual de procedimien- en el cuestionario
tos y una prueba práctica de la toma de la presión
• Preguntar sólo las cuestiones que afectan
arterial (Siegel et al, 1987). a los participantes
Si los datos que se han de recoger son muy obje-
tivos (p. ej., los resultados de una analítica), la for- • Repetir en su totalidad una pregunta que haya
mación debe ir dirigida principalmente al registro sido malinterpretada por un participante
cuidadoso y detallado de los datos. Si el estudio re- • Usar sólo las frases permitidas para clarificar
quiere la recogida de información mediante en- respuestas
cuestas o entrevistas, quienes las hayan de realizar • Leer las frases que enlazan bloques de preguntas
deberán someterse a una formación y entrena- como están impresas en el cuestionario
miento específicos sobre cómo contactar con el su- • No dar explicaciones por propia cuenta, a menos
jeto, cómo formular las preguntas y cómo clarificar que estén escritas en el cuestionario
y registrar las respuestas.

232
PREPARATIVOS PARA LA PUESTA EN MARCHA

en su totalidad. Si el entrevistado todavía muestra – Repetir la respuesta. La repetición de la respuesta


sus dudas, el encuestador no debe intentar explicár- estimulará al participante a proporcionar más
sela (ya que podría indirectamente inducir la res- detalles.
puesta) sino que puede usar alguna frase neutra del – Preguntas o comentarios neutros. Se utilizan con fre-
estilo: «lo que signifique para usted», para clarificar cuencia para clarificar (¿qué es lo que quiere de-
la pregunta. Si aun así el participante no está seguro cir exactamente?, ¿qué es lo que usted entiende
de responder, la pregunta se deja sin respuesta y se por...?); conseguir más especificidad (¿podría ser
anota en el cuestionario la razón de esta dificultad. más específico sobre esto?, ¿podría darme una
fecha más concreta?, ¿podría ser un poco más
C LARIFICAR LAS RESPUESTAS exacto?); o una información más completa (¿po-
En ocasiones, el entrevistador usa frases para clari- dría decirme alguna cosa más sobre esto?, ¿hay
ficar una respuesta, cuando ésta ha sido incomple- alguna otra razón por la que usted piense de esta
ta o irrelevante. Estas frases sirven para motivar al manera?).
participante a responder de forma más completa y
ayudarle a centrar una cuestión. Estos objetivos se R EGISTRAR LAS RESPUESTAS
han de cumplir sin sesgar las respuestas. Como norma general un encuestador debe regis-
trar de forma exacta y completa cada una de las res-
Ejemplo 24.3. Un participante podría responder «lo puestas dadas por el entrevistado. Si una respuesta
normal» a la cuestión: «¿cuántos cigarrillos fuma us- se deja en blanco hay que anotar la razón (rechazo
ted diariamente?» Esta respuesta puede considerar- del entrevistado, falta de comprensión, etc.).
se inaceptable, ya que «normal» puede significar un Las opiniones del encuestado deben aceptarse
cigarrillo, cinco, diez, un paquete o dos, según la con toda naturalidad, y el entrevistador nunca mani-
persona. En este caso, es conveniente que el entre- festará sorpresa, rechazo ni aprobación. Antes de re-
vistador formule una segunda pregunta: «¿qué en- gistrar una respuesta, el encuestador debe estar se-
tiende usted por normal?» Esta pregunta es mucho guro de que la ha comprendido y no inferirla a
más neutra que la siguiente: «¿qué entiende usted partir de una información incompleta dada por el
por normal, un paquete?» Hay que entrenar a los encuestado. Las respuestas se han de registrar mien-
encuestadores a que formulen estas preguntas acla- tras se efectúa la entrevista, y empezar a escribir tan
ratorias de la forma más neutra posible. pronto como el encuestado empiece a hablar, utili-
Los encuestadores deben estar entrenados en el zar las mismas palabras que el encuestado y anotar
uso de frases u otros métodos útiles para clarificar las frases empleadas para clarificar una respuesta.
la información: Una vez finalizada la entrevista, debe revisarse el
CRD para comprobar que no se ha omitido ninguna
– Repetir la pregunta. Una respuesta imprecisa puede pregunta y que no falta ninguna información. Es
ser consecuencia de que el encuestado no ha en- frecuente que al responder una pregunta el encues-
tendido la pregunta o no ha tenido el tiempo sufi- tado facilite accidentalmente información sobre
ciente para pensarla. En esta situación el encuesta- preguntas posteriores. El principal problema de la
dor debe repetir la pregunta con una introducción información dada fuera de orden es que, si el en-
como la siguiente: «no estoy seguro de haberle cuestador formula una pregunta cuya respuesta ya
comprendido. Si me lo permite, le formularé nue- ha sido facilitada con anterioridad, el encuestado
vamente la pregunta...» Hay que tratar de clarificar puede molestarse al pensar que el encuestador no le
las respuestas del tipo no sé. A veces puede ser útil presta la suficiente atención.
decirle al participante una frase como la siguiente:
«no hay respuestas buenas o malas a estas pregun- Ejemplo 24.4. Supongamos que al realizar la siguien-
tas; simplemente responda lo que usted crea que es te pregunta: «¿alguna vez su médico le ha encontra-
más correcto». do o le ha dicho que tuviera el colesterol alto en la
– Pausa de espera. Una pausa le indicará al partici- sangre?», el encuestado responde: «sí, y también el
pante que el encuestador está esperando más in- azúcar». Si después se pregunta sobre los antece-
formación, que no le basta con la que le ha pro- dentes de diabetes, no sería correcto por parte del
porcionado hasta ese momento. encuestador preguntarlo directamente. Ante este

233
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tipo de preguntas es conveniente usar alguna frase detectar datos ficticios, ítems con poca fiabilidad,
aclaratoria como: «antes me dijo algo sobre esta encuestadores que se equivocan sistemáticamente
cuestión, pero no he tenido tiempo de anotarlo, ¿le en las mismas preguntas, etc. También es útil com-
importaría repetirlo?», y, a continuación, formular parar los datos recogidos por los distintos observa-
la pregunta tal y como está en el cuestionario. dores para ver si difieren sistemáticamente.
En ocasiones, la comparación de la evolución de
las medidas de variabilidad de la variable de res-
CONTROL DE CALIDAD DE LOS DATOS
puesta a medida que avanza el estudio puede per-
Ya que las conclusiones del estudio se basarán en el mitir apreciar un progresivo deterioro en la fiabili-
análisis de los datos recogidos, hay que prever me- dad de las mediciones.
canismos para asegurar su calidad. Las estrategias Todos estos mecanismos de control de la calidad
para mejorarla pueden aplicarse en distintas fases de los datos son más valiosos cuando existe una es-
del proyecto: trecha relación con los profesionales que los reco-
gen, intentando solucionar los problemas a medida
– En el diseño, elaborar un manual detallado y preci- que se detectan. Deben realizarse reuniones para
so de todos los procedimientos que se emplearán reentrenar a las personas que recogen los datos, dis-
y un instrumento adecuado para la recogida de cutir los problemas que hayan aparecido y mante-
los datos. ner la motivación.
– En las fases previas al inicio de la recogida, formar a
las personas responsables. S UPERVISIÓN DE LOS RESPONSABLES
– Durante la recogida, supervisar el proceso y contro- DE LA RECOGIDA DE DATOS
lar la exhaustividad y la calidad de los datos. Además de la formación inicial, los responsables
– Durante su manejo, asegurar su correcta codifica- del estudio deben seguir la evolución de las perso-
ción y proceso informático. nas que recogen los datos de la siguiente forma:

C ONTROL DE CALIDAD DE LOS DATOS – Supervisar todos y cada uno de los CRD. Cuando se
DURANTE LA RECOGIDA detecten errores se darán a conocer al entrevista-
Durante la realización del estudio, la verificación dor para que los corrija. El principal inconve-
de los datos permitirá detectar inexactitudes, erro- niente de esta estrategia es que consume mucho
res u omisiones, datos incorrectamente recogidos o tiempo.
resultados dudosos o improbables. Este proceso de- – Buscar posibles variaciones de un encuestador a otro. Si
be realizarse de forma simultánea a la recogida la población es similar y se observan resultados
de datos para permitir la recuperación o la rectifi- diferentes entre los entrevistadores querrá decir
cación de la información. que se está introduciendo un error sistemático. Es
Antes de dar por finalizada cualquier visita o en- el momento de detener el estudio y volver a insis-
trevista con un participante, debe comprobarse que tir en la necesidad de estandarizar los métodos.
se han recogido todos los datos. No debería archi- – Impartir durante el estudio alguna sesión de recuerdo
varse ningún CRD que no estuviera completo. Si los complementada con entrevistas supervisadas. El princi-
datos ausentes o no registrados son frecuentes, pue- pal inconveniente de esta estrategia es su coste.
den producir un sesgo en las conclusiones. Si se re- Sin embargo, permite que los encuestadores re-
quiere la utilización de instrumental, éste debe revi- fresquen conceptos y se den cuenta de la impor-
sarse periódicamente, aunque haya sido calibrado tancia de seguir con fidelidad las instrucciones. El
inicialmente. Por ejemplo, si se mide la presión ar- simple hecho de saber que los responsables del
terial con esfigmomanómetros aneroides, deben estudio controlan la calidad de las encuestas hace
compararse regularmente con uno de mercurio. Lo que los entrevistadores se esfuerzen en seguir fiel-
mismo ocurre si se almacena material que puede mente el manual de instrucciones.
deteriorarse con el tiempo (p. ej., tiras reactivas), y
prever las condiciones necesarias de almacenaje. P ROCESAMIENTO DE LOS DATOS
Otra estrategia útil es la de volver a entrevistar a Previamente a la introducción de los datos, un
una muestra de los participantes en el estudio para miembro del equipo investigador debe revisar los

234
PREPARATIVOS PARA LA PUESTA EN MARCHA

CRD para detectar errores u omisiones de informa- obtención de datos (p. ej., la existencia de determi-
ción o problemas de legibilidad y, si aparecen, in- nada información en la historia clínica), evaluar la
tentar corregirlos con las instrucciones del manual reproducibilidad de algunas mediciones, la validez
de procedimientos; por ejemplo, llamar a los parti- y la fiabilidad de un instrumento de medida o un
cipantes, consultar a los profesionales que han re- cuestionario, etc.
gistrado los datos o verificarlos a partir de registros Antes de iniciar el estudio, puede ser convenien-
clínicos. te poner a prueba todos los procedimientos de re-
Es conveniente entrar los datos poco tiempo clutamiento y medición y, en general, los aspectos
después de haberse recogido y de haber comproba- organizativos y logísticos del estudio, en un ensayo
do su veracidad. También existen mecanismos para general, en el que se incluyan individuos que cum-
verificar los datos a medida que se introducen. Uno plen los criterios de selección. Aunque en el papel
de los más útiles es la doble entrada, que consiste puede parecer un protocolo que no tenga proble-
en introducir dos veces cada uno de los registros, mas de ejecución, en la práctica pueden aparecer
con el fin de comparar ambas versiones y detectar multitud de dificultades que deberán subsanarse
inconsistencias. Otro es el de utilizar programas in- antes de iniciar el estudio.
formáticos que impiden introducir valores de una La muestra de personas que participa en la
variable fuera del rango previamente definido o prueba piloto ha de tener características similares a
dejar sin informar determinados campos. la que se incluirá en el estudio. Habitualmente, su
A medida que se introducen los datos, deben re- tamaño es de 30-50 sujetos. En la tabla 24.3 se enu-
visarse periódicamente las distribuciones de las va- meran los pasos a seguir en la prueba piloto y el
riables para verificar errores en su entrada, buscar desarrollo de la versión final del CRD.
valores extremos o ilógicos y corregirlos. Los datos
registrados incorrectamente pueden llegar a ser in-
detectables. La única solución es evitar, en la medida Tabla 24.3. Pasos a seguir en la prueba
de lo posible, que aparezca este tipo de problemas. piloto y el desarrollo de la versión
Hay que evaluar la coherencia de los datos. Por ejem- final del cuaderno de recogida
plo, no pueden anotarse pulsos periféricos simétri- de datos (CRD)
cos en extremidades inferiores en una persona con
antecedentes de amputación, ni pueden detectarse 1. Solicitar a los colegas la revisión del CRD
cambios de gran magnitud en el peso de una perso-
na entre dos visitas próximas. También deben corro- 2. Evaluar el CRD en una muestra de conveniencia
borarse los valores improbables obtenidos en explo- 3. Revisar las instrucciones para el uso del CRD
raciones o exámenes complementarios. 4. Entrenar a los responsables de la recogida
de datos para la prueba piloto
PRUEBA PILOTO 5. Realizar una prueba piloto en una muestra
de 30-50 sujetos de características similares a la
El número de pruebas piloto y sus características población de estudio
dependerán de la naturaleza y la envergadura del
6. Recoger las opiniones de los responsables
estudio. Su finalidad es poner a prueba los métodos
de la recogida de datos y participantes,
y procedimientos del estudio para conseguir un
preferiblemente por escrito
protocolo que garantice que se podrá responder a
la pregunta de investigación. Pueden hacerse estu- 7. Revisar las preguntas que presentan alguna
dios piloto para poner a prueba, principalmente, dificultad
los métodos de reclutamiento de sujetos, de medi- 8. Realizar una nueva prueba piloto y revisar
ción de variables y de gestión de datos. Pueden pro- el CRD
porcionar estimaciones sobre el número de sujetos 9. Preparar las instrucciones revisadas y entrenar
disponibles y dispuestos a participar, la eficiencia de a los responsables de la recogida de datos
diferentes métodos de reclutamiento o sobre las 10. Monitorizar las primeras fases de administración
que basar el cálculo del tamaño de la muestra, así del CRD
como evaluar la factibilidad de algún método de

235
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

B IBLIOGRAFÍA DE LOS EJEMPLOS tice: causes and implications. J Health Serv Res Policy
Siegel D, Culler L, Lazarus NP et al. Predictors of cardiovas- 1996; 1: 77-80.
cular events and mortality in the Systolic Hipertension in Gassman JJ, Owen WW, Kuntz TE, Martin JP, Amoroso WP.
the Elderly Pilot Project (SHEP). Am J Epidemiol 1987; Data quality assurance, monitoring and reporting. Con-
126: 385-399. trol Clin Trials 1995; 16 (2 Supl.): 104S-136S.
Knatterud GL. Management and conduct of randomized
B IBLIOGRAFÍA controlled trials. Epidemiol Rev 2002; 24: 12-25.
Caloto T. Multicentre Project for Tuberculosis Research Stu- Rebagliato M, Ruiz I, Arranz M. Metodología de investiga-
dy Group. Quality control and data-handling in multi- ción en epidemiología. Madrid: Díaz de Santos, 1996.
centre studies: the case of the Multicentre Project for Tu- Whitney CW, Lind BK, Wahl PW. Quality assurance and qua-
berculosis Research. BMC Med Res Methodol 2001; lity control in longitudinal studies. Epidemiol Rev 1998;
1 (1): 14. 20: 71-80.
Fairhurst K, Dowrick C. Problems with recruitment in a ran-
domised controlled trial of counselling in general prac-

236
Capítulo 25
Solicitud de ayuda
para la financiación

a mayoría de los proyectos o protocolos de in- ción. En estos casos, además del protocolo de estu-

L vestigación deberán pasar un proceso de eva-


luación externa, ya sea porque se solicita una
ayuda financiera o porque se desea que un comité
dio, hay que rellenar una solicitud de ayuda para la
financiación, dirigida a las agencias o instituciones
que las conceden. Las convocatorias de ayudas para
de investigación avale la calidad científica y la ade- la financiación de proyectos de investigación inclu-
cuación a las líneas de investigación de un determi- yen formularios estandarizados para presentar tanto
nado centro o institución. Además, si el protocolo los aspectos del diseño contemplados en el protoco-
corresponde a un ensayo clínico con medicamen- lo como la información adicional administrativa y de
tos, la ley establece que debe ser revisado por un financiación que es exigida por la agencia que con-
Comité Ético de Investigación Clínica (CEIC). cede las ayudas. La función de estos formularios es
Un proyecto tendrá una alta probabilidad de lle- conseguir que los distintos grupos de investigación
varse a la práctica con éxito si el equipo investigador presenten la información de forma similar, y facilitar
tiene los conocimientos suficientes sobre el tema de así la labor de los evaluadores.
estudio para formular una pregunta clara y precisa, si Esta solicitud de ayuda no sustituye el protocolo
el diseño del estudio es el adecuado para responder- de estudio. De hecho, su enfoque es algo diferente,
la, si los métodos de selección de la población y de ya que las agencias financiadoras no sólo evalúan la
recogida de la información garantizan que la res- calidad metodológica del proyecto, sino que realizan
puesta será válida, si el tamaño de la muestra y el también una evaluación estratégica de la adecuación
tiempo de seguimiento (si lo hay) son suficientes y si de la propuesta a las prioridades de la política sani-
se dispone de los medios técnicos y presupuestarios taria o de la propia agencia, y una evaluación econó-
necesarios para llevar a cabo las actividades. Por tan- mica que se basa en la adecuación del presupuesto al
to, cualquier evaluador del proyecto prestará una proyecto evaluado y en la disponibilidad presupues-
especial atención a estos aspectos. taria de la agencia. Por tanto, con la propuesta se
trata de convencer a los evaluadores, en poco espa-
cio, de la bondad del proyecto, de su pertinencia, de
ELABORACIÓN DE UNA SOLICITUD
que los resultados esperables tendrán aplicabilidad
DE AYUDA PARA LA FINANCIACIÓN
práctica, de la capacidad del equipo investigador
En muchas ocasiones, se requiere financiación exter- para desarrollarlo y de que el presupuesto está acor-
na para poder llevar a cabo un proyecto de investiga- de con la envergadura del estudio.

237
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Para elaborar una solicitud de ayuda de financia- Tabla 25.1. Elementos de una solicitud
ción no es necesario tener un protocolo de estudio de ayuda para un proyecto
totalmente finalizado que contenga todos los detalles de investigación al Fondo de
del estudio. No se trata de extenderse en detalles Investigación Sanitaria
metodológicos y definiciones operativas, sino de ex-
poner la estructura general del diseño con el fin de 1. Identificación del proyecto
que la agencia pueda evaluar si el tratamiento meto- 2. Resumen estructurado
dológico es correcto y permitirá obtener una res-
puesta válida y fiable. 3. Antecedentes y estado actual del tema
En la tabla 25.1 se presentan los principales ele- 4. Bibliografía más relevante
mentos que contempla la solicitud de una ayuda del • Señalar sólo aquella más fundamental
Fondo de Investigación Sanitaria a un proyecto de y comentarla
investigación. Los contenidos metodológicos de la 5. Objetivos concretos
solicitud se han de exponer de forma escueta, y deben
6. Razones que justifican la necesidad
quedar especialmente claros el objetivo y la pregunta
de coordinación.
o preguntas concretas que se quieren responder, así • Sólo en proyectos coordinados
como la arquitectura básica del estudio. Los apartados
de experiencia del equipo investigador y de medios 7. Aplicabilidad y utilidad práctica de los
necesarios y disponibles están destinados a evaluar la resultados previsibles en el área de la salud
idoneidad y la capacidad del equipo para poder llevar 8. Hipótesis, metodología y plan de trabajo
a cabo el estudio. La investigación requiere una dedi- • Incluir sujetos de estudio, diseño, variables,
cación sustancial, sin la cual es improbable la obten- recogida y análisis de datos, dificultades
ción de logros importantes, por lo que es necesario y limitaciones del estudio y etapas
que los equipos tengan el personal y la dedicación de su desarrollo
suficientes. De la misma forma, la mayoría de agencias 9. Experiencia del equipo investigador sobre
no ven favorablemente que un mismo investigador el tema
participe en múltiples proyectos de forma simultánea. • Reseñar los logros alcanzados en los últimos
La ayuda solicitada debe justificarse con detalle, 5 años
teniendo en cuenta que sólo podrán solicitarse con- 10. Instalaciones, instrumentación y técnicas
ceptos directamente relacionados con el proyecto y disponibles para la realización del proyecto
sólo, excepcionalmente, personal técnico y auxiliar.
11. Otros medios necesarios no disponibles
Conjuntamente con la memoria del proyecto debe
enviarse el compromiso del organismo que gestiona 12. Justificación detallada de la ayuda solicitada:
el centro o centros donde se realizará el estudio, así • Personal
como la composición del equipo investigador y un • Instalaciones y equipos
currículum normalizado de cada uno de sus miem- • Material fungible
bros. La mayoría de las agencias exigen que algún • Viajes y dietas
miembro del equipo investigador ostente la función • Otros gastos
de investigador principal, que será quien dirija los 13. Otras consideraciones que se desee hacer
esfuerzos y asuma el compromiso con la agencia fi- constar
nanciadora. Además, algunas agencias solicitan que la 14. Posibilidad de que la investigación propuesta
propuesta se acompañe de un informe del Comité conduzca a patentes u otros resultados
Ético de Investigación Clínica que avale el proyecto. explotables comercialmente
Hay que tener presente que cada agencia finan- 15. Financiación del equipo investigador
ciadora tiene su propio modelo de solicitud, a veces • Reseñar los proyectos con participación de
con exigencias específicas. Por tanto, lo primero es miembros del equipo investigador que hayan
decidir a qué agencia se solicitará la ayuda, y a con- recibido financiación en los últimos 3 años,
tinuación obtener un modelo de solicitud y de las e indicar la entidad financiadora
instrucciones para su cumplimentación. Si no se

238
SOLICITUD DE AYUDA PARA LA FINANCIACIÓN

tiene mucha experiencia, es de gran utilidad con- tener derecho de réplica si considera que su trabajo
sultar con profesionales que la tengan y disponer de no se ha valorado de forma adecuada.
una propuesta modelo que ilustre de manera con- Los evaluadores de los proyectos han de ser impar-
creta el formato y el contenido de cada uno de los ciales, evaluar el contenido científico y sus méritos o
apartados. defectos intrínsecos desde una postura de máxima
Antes de escribir la versión final, es conveniente neutralidad. Tampoco deben tener ningún conflicto
que la propuesta sea revisada por colegas que estén de intereses con los proyectos que se evalúan. Así, por
familiarizados con este proceso. Es mejor tener críticas ejemplo, un evaluador no debería revisar un proyecto
inteligentes y detalladas antes de presentar la propues- presentado por él mismo o por compañeros de traba-
ta que tener que aceptar que ésta sea rechazada por jo, o proyectos en los que tenga intereses económicos
problemas de forma, por una presentación poco per- o financieros, o que sean presentados por grupos
suasiva o porque no prevé soluciones a problemas competidores en su misma línea de investigación. La
potenciales. documentación que se entrega a los evaluadores para
revisión es confidencial y no debe ser divulgada ni uti-
lizada en beneficio propio, por ejemplo, para antici-
EVALUACIÓN DE LAS SOLICITUDES
parse en el desarrollo de una idea.
DE AYUDAS PARA LA FINANCIACIÓN
Por otro lado, el evaluador debe ser competente
El propósito de la evaluación es asegurar que se cum- científica y técnicamente, y estudiar a fondo el proyec-
plen los requisitos éticos, la calidad científica del pro- to con el fin de formular el dictamen con criterio. No
yecto y su viabilidad, es decir, la capacidad para llevar debe tomar decisiones rápidas ni caprichosas, ni ofen-
a cabo el estudio en las condiciones con las que se der a los autores. Las críticas al proyecto deben efec-
cuenta, tratando de evitar que se pongan en marcha tuarse con corrección y profesionalidad, sin valoracio-
iniciativas con una alta probabilidad de fracaso o nes peyorativas de la capacidad de los investigadores.
abandono. A continuación se comentan los principales aspec-
La evaluación de un proyecto incluye tanto la revi- tos que tienen en cuenta los evaluadores en cada uno
sión de cada uno de los apartados de la propuesta de los apartados de la solicitud.
como los aspectos formales de la solicitud. El princi-
pal requerimiento formal es la presencia de toda la A NTECEDENTES Y ESTADO ACTUAL
documentación solicitada. La falta de algún docu- DEL TEMA
mento impedirá que un proyecto llegue a la etapa de Este apartado permite a los evaluadores determinar el
revisión científica. Aunque pueda parecer poco razo- grado de conocimiento de los investigadores de la cues-
nable denegar una ayuda a un proyecto por defectos tión de estudio, así como la pertinencia del proyecto.
de forma, parece existir una relación directa entre la Esta sección debe redactarse de forma escueta y
calidad científica del proyecto y su adecuada presen- precisa, y ha de estar orientada hacia las hipótesis de
tación en tiempo y forma. trabajo. Los investigadores deben presentar los co-
Actualmente, el principal mecanismo de control nocimientos principales existentes en el campo de
de la calidad de un proyecto de investigación es su investigación y qué preguntas quedan por responder.
revisión por expertos independientes, proceso cono- La descripción de generalidades y la falta de concre-
cido como revisión por pares (peer-review), que juzgan ción de los problemas que quedan por resolver pue-
su pertinencia y si cumple los requisitos mínimos de den indicar que los investigadores no están muy fami-
calidad para alcanzar sus objetivos. Este sistema liarizados con la materia, aunque ello no signifique
de revisión no está exento de errores, sobre todo necesariamente una falta de competencia en la prác-
cuando se ha de revisar un número elevado de pro- tica clínica.
yectos en un tiempo limitado. Para minimizar estos
errores, conviene que cada proyecto sea revisado por B IBLIOGRAFÍA MÁS RELEVANTE
al menos dos expertos de forma independiente y, en Esta sección sirve de apoyo a la anterior; en ella de-
caso de discrepancias, resolverlas mediante el consen- ben constar los artículos más relevantes, siempre rela-
so entre revisores o recurrir a un tercer revisor. Así cionados con la hipótesis de trabajo, que pueden ayu-
mismo, el investigador que presenta el proyecto debe dar a llevar a cabo el proyecto.

239
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Debe procurarse que las referencias bibliográfi- H IPÓTESIS, METODOLOGÍA


cas sean actuales, preferentemente de los últimos Y PLAN DE TRABAJO
cinco años. Si se solicita que se comenten, debe espe- Este apartado es una síntesis de los elementos meto-
cificarse por qué se consideran relevantes para la dológicos más importantes detallados en el protoco-
investigación. lo de estudio. Han de presentarse de forma precisa
todos los pasos a seguir para alcanzar los objetivos
O BJETIVOS CONCRETOS propuestos, de forma que el evaluador no deba reali-
Los objetivos de un proyecto son la declaración explí- zar ninguna asunción sobre lo que pretenden hacer
cita de la pregunta o preguntas que se pretende res- los investigadores.
ponder con el estudio, por lo que los expertos eva- Esta información suele presentarse estructurada
luarán los distintos apartados de la propuesta en en epígrafes para facilitar su comprensión, habitual-
relación con ellos. mente como población de estudio, diseño, descrip-
En general, el número de objetivos de un proyec- ción de las intervenciones (si procede), determina-
to debe ser limitado, y hay que diferenciar el motivo ciones y medidas del estudio, mecanismos de control
principal de los secundarios. de calidad, estudios piloto, descripción del plan de
Aunque es difícil evaluar los objetivos de forma ais- análisis estadístico, así como las dificultades y limita-
lada del resto del proyecto, su definición clara y preci- ciones del estudio y las etapas para su desarrollo. El
sa es tan importante que la mayoría de los evaluadores evaluador debe juzgar si la metodología es adecuada
le conceden la misma importancia que a otros aparta- para el problema de estudio y si permite obtener una
dos de la propuesta, como la metodología o la justifi- respuesta válida a la pregunta planteada.
cación. Por ello, los objetivos deben ser evaluables,
factibles y relevantes tanto desde el punto de vista E XPERIENCIA DEL EQUIPO
INVESTIGADOR SOBRE EL TEMA
científico como social y sanitario. Si no se cumplen
estos criterios, los evaluadores informarán negativa- La mejor garantía de que un proyecto puede reali-
mente la solicitud. zarse adecuadamente es que los investigadores hayan
Los principales criterios para evaluar la relevancia completado proyectos similares con anterioridad.
Debe evaluarse, por tanto, la capacidad del equipo
científica de una propuesta son su originalidad, su
investigador en relación con la envergadura del pro-
capacidad para solucionar de forma precisa un pro-
yecto. Para ello, el evaluador debe tener en cuenta no
blema y la posibilidad de producir avances significati-
solamente los logros obtenidos por el equipo investi-
vos en el tema de estudio. La relevancia sociosanitaria
gador en los años previos, sino también aspectos del
depende de la repercusión socioeconómica del pro-
currículum profesional de los investigadores.
blema estudiado, ya sea por su frecuencia, por la
El investigador principal debe acreditar su parti-
carga que supone al segmento de población afectado
cipación anterior en otros proyectos de investiga-
o por el impacto previsible que se derive del logro del
ción. Los evaluadores juzgan esta capacidad sobre
objetivo del proyecto. todo por las ayudas concedidas previamente y por las
publicaciones realizadas por los investigadores en los
A PLICABILIDAD Y UTILIDAD PRÁCTICA últimos cinco años, prestando atención no sólo a la
DE LOS RESULTADOS PREVISIBLES calidad de los estudios y su grado de contribución,
En este apartado, el evaluador juzga el beneficio que sino también a la coherencia de las publicaciones en
los resultados previsibles del proyecto aportan a la relación con el tema de estudio. Por ello, debe
sociedad. La posibilidad de generalizar las conclusio- hacerse constar los artículos originales, ya que las
nes y su aplicabilidad práctica ayudan a evaluar la monografías, libros, editoriales o artículos de revi-
relevancia sociosanitaria. sión pueden ser académicamente importantes, pero
Por otro lado, tienen importancia socioeconómi- poco relevantes desde el punto de vista de la expe-
ca aquellos proyectos con elevada probabilidad de riencia investigadora.
resultar en patentes, aplicaciones tecnológicas, pro- El número de personas que integran el equipo
gramas informáticos o productos potencialmente investigador debe corresponderse con la envergadu-
comercializables. ra del proyecto, y las responsabilidades de cada uno

240
SOLICITUD DE AYUDA PARA LA FINANCIACIÓN

de sus miembros deben quedar claramente estableci- mental de estos comités consiste en salvaguardar los
das. La composición del equipo debe reflejar las derechos y el bienestar de los seres humanos que son
necesidades del proyecto, con expertos en las técni- objeto de investigación, haciendo respetar los princi-
cas que se van a utilizar durante su realización. pios éticos establecidos. Por ello, lo deseable es que
Un equipo consolidado y con experiencia aumen- estos comités puedan evaluar cualquier proyecto de
ta las probabilidades de completar de forma satisfac- investigación que implique la participación de seres
toria el proyecto. La presencia de investigadores con humanos, y no sólo de los ensayos clínicos con medi-
experiencia es imprescindible cuando el investigador camentos.
principal carece de ella. En la práctica, es difícil deslindar los problemas
éticos de los científicos, ya que un protocolo incorrec-
I NSTALACIONES, INSTRUMENTACIÓN tamente diseñado plantea, por definición, problemas
Y TÉCNICAS éticos. Los CEIC deben valorar los aspectos meto-
El evaluador juzga si la disponibilidad de medios ma- dológicos, éticos y legales del protocolo propuesto, así
teriales de los investigadores, tanto de los existentes como el balance de riesgos y beneficios. Para ello, a
como de los solicitados, es suficiente para realizar el diferencia de lo que sucede cuando se solicita una
proyecto. ayuda para la financiación de un proyecto, los investi-
gadores deben presentar al CEIC el protocolo com-
J USTIFICACIÓN DETALLADA pleto del estudio, incluyendo el cuaderno de recogida
DE LA AYUDA SOLICITADA de datos y todos los anexos que sean necesarios. El
Los evaluadores han de revisar el presupuesto solici- protocolo del ensayo clínico debe adaptarse a la
tado, juzgar si se ajusta a la envergadura del proyecto, estructura que se presenta en la tabla 25.2.
y si existe algún valor añadido que pueda aportar a la
institución, como la consolidación de un grupo inves-
tigador y el fomento de relaciones entre institucio- Tabla 25.2. Apartados de un protocolo
nes, entre otros. de ensayo clínico
El personal contratado con cargo al proyecto se
refiere a profesionales que se están formando como 1. Resumen
investigadores y no, por ejemplo, a personal auxiliar
2. Índice
para recoger datos o realizar tareas administrativas.
Por tanto, debe tratarse de proyectos de cierta enver- 3. Información general
gadura que justifiquen la necesidad de uno o más 4. Justificación y objetivos
becarios, solicitados por equipos que tengan expe- 5. Tipo de ensayo clínico y su diseño
riencia en la formación de personal investigador.
6. Selección de los sujetos
Difícilmente se considera que un proyecto de corta
duración permita la formación de un investigador. 7. Descripción del tratamiento
En cuanto a las instalaciones y los equipos, el 8. Desarrollo del ensayo y evaluación
material fungible, los viajes, las dietas y otros gastos de la respuesta
sólo deberán solicitarse si son relevantes para el desa- 9. Acontecimientos adversos
rrollo del estudio.
10. Aspectos éticos
11. Consideraciones prácticas
EVALUACIÓN DE UN PROTOCOLO
12. Análisis estadístico
POR UN COMITÉ ÉTICO
DE INVESTIGACIÓN CLÍNICA Anexo 1. Cuaderno de recogida de datos
En España, los proyectos de investigación correspon- Anexo 2. Manual del investigador
dientes a ensayos clínicos con medicamentos deben Anexo 3. Procedimientos normalizados de trabajo
ser aprobados por el Comité Ético de Investigación
Anexo 4. Memoria analítica de las muestras
Clínica (CEIC), ya sea el de la propia institución o el a utilizar
que actúe como comité de referencia. El papel funda-

241
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

B IBLIOGRAFÍA Gómez de la Cámara A. Análisis de la estructura metodoló-


Bellavista J, Guardiola E, Méndez A, Bordons M. Evaluación gica de las propuestas de investigación presentadas al
de la investigación. Colección «Cuadernos metodológi- Fondo de Investigación Sanitaria. Med Clin (Barc) 1997;
cos», n.o 23. Madrid: Centro de Investigaciones Socio- 109: 445-451.
lógicas, 1997. Guallar E, Conde J, De la Cal MA, Martín-Moreno JM, Grupo
Espinosa de los Monteros J, Díaz V, Toribio MA et al. La de evaluación de la actividad del Fondo de Investiga-
investigación biomédica en España (I). Evaluación del ciones Sanitarias entre 1988 y 1995. Guía para la eva-
Fondo de Investigación Sanitaria (FIS) a través de los luación de proyectos de investigación en ciencias de la
proyectos de investigación financiados en el período salud. Med Clin (Barc) 1997; 108: 460-471.
1988-1995 a instituciones sanitarias asistenciales (hospi- Prieto Carles C, Gómez-Gerique J, Gutiérrez Millet V, Veiga
tales). Med Clin (Barc) 1999; 112: 182-197. de Cabo J, Sanz Martul E, Mendoza Hernández JL.
Espinosa de los Monteros J, Díaz V, Toribio MA et al. La Análisis del proceso evaluador de los proyectos de inves-
investigación biomédica en España (II). Evaluación del tigación en el Fondo de Investigación Sanitaria. Med
Fondo de Investigación Sanitaria (FIS) a través de los Clin (Barc) 2000; 115 (11): 418-422.
proyectos de investigación financiados en el período
1988-1995 a centros de investigación, facultades y escue-
las. Med Clin (Barc) 1999; 112: 225-235.

242
Capítulo 26
Interpretación de resultados

l finalizar un estudio se obtiene un resultado tar adecuadamente los resultados de un estudio,

A principal, ya sea en forma de estimación de un


parámetro, de una diferencia entre grupos o de
una asociación entre variables, con el que se preten-
que serán desarrollados ampliamente en los capítu-
los siguientes.
Tras el análisis de los resultados de un estudio
de responder a la pregunta planteada en el objetivo. que compara dos o más grupos, pueden plantearse
Para interpretar este resultado, en primer lugar, dos situaciones generales: o bien se ha encontrado
debe tenerse en cuenta la variabilidad aleatoria, ya una diferencia estadísticamente significativa entre
sea cuantificando la precisión con que se ha realizado los distintos grupos respecto a la variable de respues-
la estimación mediante el cálculo de su intervalo de ta (estudio positivo), o bien la diferencia observada no
confianza, o bien estableciendo si la diferencia o la es estadísticamente significativa (estudio negativo)
asociación son estadísticamente significativas. En (fig. 26.1).
segundo lugar, debe evaluarse si este resultado es váli-
do, descartando posibles sesgos que puedan haber
PAPEL DE LA ESTADÍSTICA
conducido a una estimación distorsionada, evaluan-
do si se han controlado los potenciales factores de En los estudios cuya finalidad es estimar un paráme-
confusión y rechazando explicaciones alternativas. tro poblacional a partir de una muestra de sujetos
Y, en tercer lugar, si se considera que el resultado es (p. ej., estimar la prevalencia de una enfermedad en
válido, debe evaluarse su utilidad práctica, teniendo una comunidad determinada), la estadística permite
en cuenta su magnitud, su importancia y relevancia cuantificar la precisión con que se ha realizado dicha
clínicas, su impacto potencial, su aplicabilidad en estimación, mediante el cálculo de un intervalo de
otros entornos y grupos de sujetos, etc. valores entre cuyos límites se tiene una determinada
Los responsables de la investigación se hallan en confianza de que esté incluido el verdadero valor del
una posición privilegiada para cumplir esta función parámetro (intervalo de confianza, IC).
al conocer las limitaciones del estudio y de los datos
recogidos mejor que nadie. Tienen la responsabili- Ejemplo 26.1. Para estimar la prevalencia de hiper-
dad de revisarlos críticamente y con honestidad, tensión arterial (HTA) en una comunidad, se estu-
teniendo en cuenta los aspectos del diseño que pue- dia una muestra representativa de sujetos y se
dan influir en su interpretación y evitar obtener con- encuentra que el 20% de ellos presenta HTA. Los
clusiones precipitadas o insuficientemente justifica- autores indican que la prevalencia estimada es del
das sobre objetivos no contemplados en el protocolo. 20%, con un IC del 95%, cuyos límites son el 18 y el
En este capítulo se introducen los principales 22%. Este resultado significa que se tiene un 95%
aspectos que es necesario considerar para interpre- de confianza de que el intervalo entre el 18 y el 22%

245
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Asociación o diferencia observada

Estadísticamente significativa Estadísticamente no significativa

Verdadera Verdadera
(existe asociación) (no existe asociación)

Útil

Falsa Sin utilidad Falsa


(no existe asociación) práctica (existe asociación)

Error α
(azar) Error β Comparación
(azar) poco sensible
Sesgo Figura 26.1.
Aspectos a considerar
Número insuficiente de sujetos en la interpretación de
(falta de potencia estadística) Sesgo los resultados
de un estudio.

incluya el verdadero valor de la prevalencia de HTA que deban descartarse, como sesgos o factores de
en la comunidad de referencia. confusión no controlados.
Por otro lado, un resultado estadísticamente no
En los estudios en los que se comparan dos o más significativo quiere decir que, si en realidad no existe
grupos, el resultado que se obtiene es una diferencia ninguna diferencia, es relativamente probable que el
de incidencias o de medias, o bien una medida relati- resultado observado en el estudio pueda haberse pro-
va de asociación como la odds ratio o el riesgo relativo. ducido simplemente por variabilidad aleatoria. No
En este caso, la estadística también permite cuantifi- debe interpretarse como indicativo de que no existe
car la precisión con que se ha estimado esta diferen- una diferencia en la realidad, sino tan sólo de que los
cia o asociación, mediante un IC, así como determi- resultados del estudio no permiten descartar esta
nar si este resultado es estadísticamente significativo posibilidad. En esta situación, es importante determi-
mediante la utilización de una prueba estadística de nar la potencia estadística del estudio, es decir, su
contraste de hipótesis. capacidad para haber detectado una determinada
Un resultado estadísticamente significativo signi- diferencia si existiera en la realidad.
fica que, si en realidad no existe ninguna diferencia,
es poco probable que el resultado observado en el Ejemplo 26.2. Supongamos un estudio que compara
estudio se deba simplemente a la variabilidad aleato- un grupo de sujetos con hipercolesterolemia que reci-
ria, lo que conduce a la conclusión de que quizá refle- ben un tratamiento hipolipemiante frente a otro gru-
ja una diferencia real entre los grupos. Sin embargo, po que no recibe ninguna intervención. Se observa
no debe interpretarse que necesariamente el factor que el primer grupo ha reducido sus cifras de coleste-
de estudio sea el responsable de esta diferencia, rolemia en 10 mg/dl más que el grupo de compara-
ya que pueden existir otras explicaciones alternativas ción. Tras aplicar una prueba estadística de contraste

246
INTERPRETACIÓN DE RESULTADOS

de hipótesis, se concluye que este resultado es estadís- pia para una ligadura de trompas. En este grupo con-
ticamente significativo (p = 0,03), lo cual quiere decir trol sólo se diagnosticó endometriosis en cuatro
que, en el supuesto de que el tratamiento no fuera efi- mujeres. El valor de la odds ratio fue de 13. Se puede
caz, existiría un 3% de probabilidades de producirse argumentar que la información sobre la endometrio-
una diferencia como la observada o mayor, simple- sis no es comparable en los casos y en los controles, ya
mente por azar. Dado que puede considerarse que que no es lo mismo buscar este proceso cuando la
esta probabilidad es pequeña, se concluye que la laparoscopia se realiza a causa de infertilidad que
mayor reducción de la colesterolemia en el primer cuando se hace por ligadura de trompas. Probable-
grupo de sujetos refleja una diferencia real. Sin mente, en el primer caso se busca con más insisten-
embargo, no puede asegurarse que el tratamiento sea cia, lo que da lugar a un sesgo de información que
el responsable de dicha diferencia, sino que deberá sobrevalora la asociación. De todos modos, si se corri-
evaluarse si el diseño del estudio era adecuado, si los giera este sesgo es muy probable que esta fuerte aso-
grupos eran comparables, si la estrategia de análisis ha ciación disminuyera, pero no que desapareciese en
sido la correcta, si pueden haber existido otros facto- su totalidad. Por el contrario, si la asociación que se
res que hayan podido interferir, etc. Además, si se ha observado es débil, la existencia de un sesgo po-
llega a la conclusión de que el tratamiento es la única dría alterar totalmente la interpretación de los resul-
explicación plausible de la diferencia observada, de tados. Un estudio positivo puede pasar a ser negativo,
ello tampoco puede deducirse que sea una buena y viceversa, según la dirección del sesgo.
alternativa terapéutica de la hipercolesterolemia, sino
que deberá evaluarse la relevancia clínica de un des- Otro elemento a tener en cuenta en la evaluación
censo promedio de 10 mg/dl, los efectos secundarios de la validez interna de un estudio es la existencia de
del tratamiento, su coste, otras ventajas e inconve- factores de confusión. Se trata de variables que pue-
nientes de su administración, la existencia de otras den distorsionar la relación entre el factor de estudio
alternativas terapéuticas, etc. y la variable de respuesta. Por tanto, si no se han con-
trolado, o se ha hecho de forma inadecuada, también
pueden obtenerse estimaciones distorsionadas del
SESGOS Y FACTORES DE CONFUSIÓN
resultado.
Para evaluar si el resultado observado proporciona
una respuesta válida a la pregunta formulada en el Ejemplo 26.4. Supongamos un estudio de casos y con-
objetivo, deben descartarse errores en el diseño del troles que evalúa si el consumo de alcohol es un fac-
estudio que puedan comprometer su validez interna. tor de riesgo de cáncer de pulmón. Si no se tienen en
De hecho, se trata de comprobar hasta qué punto cuenta otros factores, podría encontrarse una rela-
puede concluirse que el factor de estudio causa el ción positiva entre ambos. Sin embargo, esta conclu-
efecto o asociación observados. sión sería errónea. Dado que el consumo de alcohol
Los sesgos son errores sistemáticos introducidos se asocia también al de tabaco, y éste es un factor muy
en un estudio tanto en el proceso de selección de los asociado con el desarrollo de cáncer de pulmón. El
sujetos como en el de recogida de la información, consumo de tabaco estaría actuando como un factor
que conducen a estimaciones erróneas del resultado. de confusión, de forma que, si no se controla su
No sólo hay que evaluar la posible existencia de estos influencia, podría observarse una aparente relación
errores, sino también, en caso de que existan, su ten- entre el consumo de alcohol y el cáncer de pulmón.
dencia a sobre o infraestimar el resultado, y valorar su En cambio, si se controla en la fase de análisis, esta
magnitud y sus implicaciones prácticas. aparente asociación desaparece e indica que, en rea-
lidad, el consumo de alcohol no está asociado con la
Ejemplo 26.3. En un estudio de casos y controles cuyo enfermedad, sino que lo parecía porque estaba rela-
objetivo era evaluar la hipótesis de que la endome- cionado con el de tabaco.
triosis predispone a la infertilidad, se revisaron las
historias clínicas de 100 mujeres a las que se había
UTILIDAD PRÁCTICA
practicado una laparoscopia a causa de su infertilidad
(Strathy et al, 1982). En 21 de ellas se diagnosticó Aunque el resultado de un estudio sea válido, no por
endometriosis. Como grupo control se eligieron 200 ello es clínicamente relevante o aplicable a la prácti-
mujeres a las que se había practicado una laparosco- ca clínica.

247
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Para poder evaluar la relevancia clínica de un estu- ción relativa del 50%. Sin embargo, en términos abso-
dio, es de gran ayuda calcular el IC del resultado, que lutos, la diferencia es el 10%, por lo que, por cada 100
indica entre qué valores es probable que esté situado pacientes tratados, se evitan 10 casos de enfermedad,
el verdadero efecto o asociación. Muchos estudios o, lo que es lo mismo, es necesario tratar a 10 sujetos
presentan el resultado en forma de una medida rela- para evitar la aparición de un caso.
tiva (odds ratio, riesgo relativo, etc.), pero para evaluar
el impacto del resultado en la práctica es preferible El ejemplo anterior ilustra cómo las medidas abso-
utilizar medidas absolutas, como la diferencia de inci- lutas proporcionan información más útil sobre la
dencias o la reducción absoluta del riesgo producida relevancia clínica que las relativas, y son más eficaces
por una intervención. Cuando se refiere a interven- cuando hay que elaborar recomendaciones prácticas
ciones terapéuticas, una medida absoluta muy útil es basadas en los resultados de los estudios. Incluso
el número de personas que es necesario que reciban habiendo considerado que un resultado es clínica-
una determinada intervención para conseguir un mente relevante, las recomendaciones que se derivan
éxito o prevenir una muerte o un suceso perjudicial. de él no siempre pueden aplicarse directamente a
Por otro lado, el estudio debe proporcionar infor- pacientes o entornos diferentes del estudiado. Por
mación sobre todas las respuestas y desenlaces rela- ello, al interpretar los resultados, hay que considerar
cionados con el factor de estudio. No basta con cono- todos los elementos que pueden limitar su generali-
cer los beneficios de una intervención sobre una zación y extrapolación, sobre todo cuando se utilizan
variable de respuesta, sino que deben conocerse sus para realizar recomendaciones prácticas.
efectos sobre otras variables relevantes, sus efectos
secundarios u otros inconvenientes derivados de su B IBLIOGRAFÍA DE LOS EJEMPLOS
administración, etc., de forma que pueda realizarse Strathy JH, Molgaard CA, Coulam CB et al. Endometriosis
un balance entre los beneficios y los riesgos derivados and infertility: a laparoscopic study of endometriosis
del tratamiento. among fertile and infertile women. Fertil Steril 1982; 38:
667-672.
Ejemplo 26.5. Consideremos un estudio que evalúa la
eficacia de una intervención farmacológica preventi- B IBLIOGRAFÍA
va que consigue reducir la incidencia de una enfer- Altman DG, Bland JM. Absence of evidence is not evidence
medad, que es del 2% en el grupo de referencia, al of absence. BMJ 1995; 311: 485.
Altman DG, Bland JM. Generalization and extrapolation.
1%. En términos relativos, se ha reducido el riesgo
BMJ 1998; 317: 409-410.
en un 50% (a la mitad). En términos absolutos, el
Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S.
riesgo se ha reducido en un 1%, lo que significa que
Basic statistics for clinicians. Part 2. Interpreting study
es necesario que 100 sujetos reciban la intervención results: confidence intervals. CMAJ 1995; 152: 169-173.
para evitar la aparición de un caso de la enfermedad. Porta M, Plasencia A, Sanz F. La calidad de la información
Con esta información, puede evaluarse la relación clínica (III): ¿estadísticamente significativo o clínica-
entre los beneficios y los riesgos potenciales de tratar mente importante? Med Clin (Barc) 1988; 90: 463-468.
a 100 sujetos. Schlesselman J. Biostatistics in epidemiology: a view from the
Supongamos que la misma intervención se aplica a faultline. J Clin Epidemiol 1996; 49: 627-629.
otra población en la que la incidencia es muy superior, Wright JG. The minimal important difference: who’s to say
por ejemplo, del 20%. Si la incidencia en el grupo de what is important? J Clin Epidemiol 1996; 49: 1221-
estudio es del 10%, se ha conseguido la misma reduc- 1222.

248
Capítulo 27
Papel de la estadística

a estadística no es útil exclusivamente para el Clásicamente, la estadística se diferencia en des-

L análisis de los resultados, sino que debe consi-


derarse como una parte integrante del método
científico que se aplica en diferentes fases de una
criptiva e inferencial. La estadística descriptiva permite
organizar, presentar y sintetizar la información y es
fundamental en la revisión de los datos recogidos en
investigación para facilitar que se alcance el objetivo un estudio para asegurar su calidad y la validez del
deseado (tabla 27.1). En la fase de análisis permite análisis posterior, así como para describir las carac-
evaluar y cuantificar la variabilidad debida al azar. terísticas de los sujetos estudiados. La estadística infe-
La premisa previa para su uso es que el estudio haya rencial permite establecer conclusiones referidas a po-
sido diseñado y ejecutado de forma correcta. blaciones a partir de los resultados obtenidos en
muestras. Su aplicación en la fase de análisis tiene dos
finalidades principales: evaluar la variabilidad aleato-
Tabla 27.1. Fases de una investigación ria y controlar los factores de confusión.
en las que interviene la estadística Las técnicas de análisis estadístico pueden utilizar-
se para explorar conjuntos de datos sin hipótesis pre-
• Selección de la variable de respuesta vias o bien para confirmar hipótesis de trabajo. Am-
• Definición de los criterios de selección bas finalidades están vinculadas a la naturaleza de los
de la población de estudio objetivos del estudio, a la actitud con que el investi-
gador se enfrenta a los datos y a los términos en que
• Elección de la técnica de selección de los sujetos
deberán interpretarse los resultados. Una hipótesis
• Cálculo del número de sujetos necesarios solamente puede confirmarse mediante un estudio
• Selección de las variables que deben ser medidas diseñado con el propósito de hacerlo. La exploración
implica el rastreo de datos en busca de información,
• Medición de las variables (precisión y exactitud)
sin objetivos concretos ni hipótesis que hayan gober-
• Descripción de la muestra de sujetos estudiados nado el diseño del estudio. La exploración puede ser-
• Estimación de la magnitud del efecto o respuesta vir para sugerir nuevas hipótesis, pero de ningún
observada modo para contrastarlas, sino que la confirmación
• Comparación del efecto observado en diferentes
deberá obtenerse en un nuevo estudio diseñado para
grupos ello. Ambas finalidades pueden coexistir en un estu-
dio diseñado para confirmar una hipótesis, cuan-
• Control de los factores de confusión do se establecen objetivos secundarios exploratorios.
• Interpretación de los resultados Aunque no están vinculadas a técnicas de análisis
concretas, las pruebas de contraste o de significación

249
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

estadística están dirigidas a confirmar hipótesis, mien- cierto si la variable es normal en la población de ori-
tras que las técnicas exploratorias son eminentemen- gen. Pero, aunque no lo sea, la distribución de las me-
te gráficas y descriptivas. En este capítulo se abordan, dias muestrales tiende a ser normal a medida que su
sobre todo, las bases de la utilización de la inferencia tamaño aumenta, aceptándose que, si las muestras
estadística para confirmar la hipótesis de trabajo y son de más de 30 sujetos, la distribución de sus me-
alcanzar el objetivo del estudio. dias es normal.
Esta distribución de medias muestrales tiene dos
características que la hacen especialmente interesan-
VARIACIONES DEL MUESTREO
te. La primera es que su media es la media de la po-
En estadística, el término población se utiliza para des- blación de la que proceden las muestras; es decir, las
cribir todas las posibles observaciones de una deter- medias muestrales se distribuyen normalmente alre-
minada variable o todas las unidades sobre las que po- dedor de la media poblacional desconocida que se
dría haberse realizado una observación. El significado quiere estimar. La segunda es que la desviación están-
preciso de este concepto varía en función del contex- dar de dicha distribución tiene el valor σ/√n, siendo
to en que se utiliza. Puede tratarse de una población σ la desviación estándar de la población de origen y n
de pacientes, de profesionales o de determinacio- el tamaño de la muestra. Este valor es conocido como
nes de laboratorio, e incluso difiere según la localiza- error estándar de la media (EEM), y mide la dispersión
ción geográfica y la fuente de sujetos u observaciones de las medias muestrales respecto de la media pobla-
utilizada. A menudo no tiene una realidad física con- cional. No debe confundirse con la desviación están-
creta, ya que, por ejemplo, la población de infeccio- dar (DE, s), cuyos valores miden la dispersión de
nes urinarias no existe como tal, sino que el proceso los valores de la variable (no de las medias muestra-
va apareciendo y desapareciendo en diferentes sujetos les) en la población y en la muestra, respectivamente
en función de múltiples y variados factores. (fig. 27.1). Puede deducirse fácilmente que el EEM
En sentido amplio, el término muestra se refiere a disminuye cuando aumenta el tamaño de la muestra
cualquier conjunto específico de sujetos u observa- n, lo que explica el hecho de que las muestras gran-
ciones procedentes de una población determinada. des estimen el valor poblacional con mayor precisión.
Para que sea útil y permita aplicar las técnicas estadís- En el caso de las variables cualitativas, la distribu-
ticas, se requiere que la muestra tenga un tamaño ción de la proporción sigue la ley binomial. Sin embar-
razonable y sea representativa de la población de la go, cuando los productos n·p y n·(1 – p) son superiores
que procede. Un tamaño grande no asegura la repre- a 5, la distribución se asemeja bastante a la normal. Así,
sentatividad, sino que ésta radica básicamente en que las proporciones observadas en las muestras se distri-
la muestra se haya escogido aleatoriamente y esté buyen alrededor de la verdadera proporción poblacio-
libre de sesgos. nal, y la dispersión de esta distribución se mide
Se estudian muestras en lugar de poblaciones por mediante el error estándar de la proporción (EEP), cuyo
criterios de eficiencia. El propósito fundamental del valor es √p·(1 – p)/n, y tiene características similares
muestreo es estimar el valor de una determinada varia- al EEM.
ble (parámetro) en la población, a partir de un núme-
ro menor de observaciones (muestra). Sin embargo,
ESTIMACIÓN DE UN PARÁMETRO
tan sólo se estudia una de las múltiples muestras que
POBLACIONAL: INTERVALO
podrían seleccionarse de la población de referencia,
DE CONFIANZA
en cada una de las cuales podría obtenerse un valor
diferente, simplemente por azar. Las diferentes técni- Un objetivo frecuente en la investigación médica es
cas de la estadística inferencial se fundamentan en que estimar un parámetro poblacional a partir de los valo-
esta variabilidad inherente al proceso de muestreo res que la variable de interés adopta en los individuos
sigue unas leyes conocidas y puede ser cuantificada. de una muestra. Si la variable es cuantitativa, la media
Así, en el caso de una variable cuantitativa, en ca- y la desviación estándar (DE) observadas en la mues-
da muestra se obtendrá una media diferente. Si se tra son la mejor estimación disponible de los verda-
representa gráficamente la distribución de las medias deros valores de los parámetros poblacionales. Pero,
de todas las muestras posibles de un mismo tamaño, ¿cuáles serían los resultados si se repitiera el estudio
se puede comprobar que sigue la ley normal. Esto es en múltiples ocasiones?

250
PAPEL DE LA ESTADÍSTICA

Distribución de los valores de una variable x medidos en los individuos de una población

Número
de sujetos
(frecuencia)

μ Valores de x
μ: media
σ: desviación estándar

Distribución de las medias observadas en las múltiples muestras de tamaño n que pueden
obtenerse de una población de media μ y desviación estándar σ

Número
de muestras
(frecuencia)

EEM

μ Medias observadas

μ: media
EEM: error estándar de la media = σ
n

Figura 27.1. Diferencia entre desviación estándar y error estándar de la media.

Ejemplo 27.1. Supongamos que en una muestra de valor α del 5%, que corresponde a un valor Z de 1,96.
60 sujetos se observa una media de presión arterial Aplicando la fórmula, se obtendría un IC del 95%,
sistólica (PAS) de 150 mmHg con una DE de 20 que sería aproximadamente de 150 ± 5 mmHg, lo que
mmHg, y que se desea conocer el verdadero valor de significa que hay un 95% de confianza de que el valor
la PAS media en la población de referencia. En prin- medio de la PAS de la población de referencia se
cipio, el valor más probable es la estimación puntual encuentre entre 145 y 155 mmHg.
obtenida en la muestra (150 mmHg), pero, dado que
si se hubiera estudiado una muestra diferente proba- De forma similar se calcularía el IC en el caso de
blemente se habría obtenido un resultado distinto, se una variable cualitativa (ver tabla 27.2).
necesita una medida de la precisión de esta estima- El IC proporciona mucha más información que la
ción, lo que se hace mediante el cálculo del llamado estimación puntual, ya que permite evaluar la preci-
intervalo de confianza (IC) (tabla 27.2). Habitualmente sión con que se ha estimado el parámetro poblacio-
se trabaja con una confianza del 95%, es decir, con un nal; es decir, entre qué límites se tiene una determi-

251
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 27.2. Cálculo del intervalo de error no debidas al azar (errores sistemáticos o ses-
de confianza (IC) en la estimación gos). Si éstas existen, o si la muestra no es aleatoria, el
de un parámetro poblacional error de la estimación puede ser mayor que el sugeri-
do por la amplitud del intervalo.
IC de una media (variable cuantitativa)*: Siempre que se realizan inferencias sobre pará-
–x ± (Zα ⋅ EEM) metros poblacionales a partir de criterios estadísticos
muestrales, los resultados deben expresarse como IC,
s y no sólo como estimaciones puntuales, para poder
siendo EEM =
n valorar la precisión de la estimación.

IC de una proporción (variable cualitativa)**: CONTRASTE DE HIPÓTESIS


p ± (Zα ⋅ EEP) Aunque la situación es similar a la anterior, dado que
se pretende descubrir algo sobre las poblaciones a
p ⋅ (1 – p)
siendo EEP = partir del estudio de muestras, las pruebas de con-
n
traste de hipótesis, o de significación estadística, valo-
ran la variabilidad debida al azar de forma diferente
x–: media observada en la muestra. a la estimación de los parámetros.
s: desviación estándar observada en la muestra.
Existen diversas pruebas estadísticas aplicables en
n: número de individuos de la muestra.
EEM: error estándar de la media.
diferentes situaciones en función del número de gru-
p: proporción observada en la muestra. pos que se comparan, la escala de medida de las varia-
EEP: error estándar de la proporción. bles, el número de sujetos analizados, etc. (anexo 8).
Zα: valor de la variable normal tipificada correspondiente En este capítulo se presentan los fundamentos co-
al valor α para un valor de confianza (1 – α). munes a todas ellas, haciendo especial énfasis en
* Este cálculo se basa en la distribución normal. El valor de Zα los aspectos relacionados con la interpretación de los
para un IC del 95% es 1,96. Para muestras de tamaño inferior resultados obtenidos.
a 30 individuos, este valor debe sustituirse por el de la distribución
de la t de Student-Fisher para (n – 1) grados de libertad.
Ejemplo 27.2. Supongamos que existe interés en com-
** Las variables cualitativas no presentan una distribución
normal. Las fórmulas de la tabla se basan en una aproximación
parar dos tratamientos (un diurético D y el tratamien-
a la normalidad, aplicable cuando los productos n⋅p y n⋅(1 – p) to estándar E), para determinar cuál de ellos es el más
son mayores de 5. En caso contrario, debe aplicarse una eficaz en el control de la presión arterial. Se diseña
corrección al valor de Zα. un ensayo clínico, distribuyendo aleatoriamente
60 pacientes hipertensos en dos grupos, cada uno de
los cuales recibe uno de los tratamientos. A los 3 me-
nada confianza de que esté situado su verdadero, ses, el porcentaje de individuos controlados en cada
pero desconocido, valor. Si se repitiera el estudio en grupo es del 70 y el 50%, respectivamente. ¿Qué con-
100 ocasiones, el IC incluiría el verdadero valor en 95 clusión puede obtenerse a la vista de estos resultados?
de ellas. Sin embargo, no puede descartarse total- ¿Hasta qué punto es posible que se deban simple-
mente que el estudio corresponda a una de las 5 oca- mente al azar (variaciones del muestreo) y que en rea-
siones restantes. lidad no exista ninguna diferencia de eficacia entre
De las fórmulas de la tabla 27.2 se deduce que un ambas intervenciones?
aumento del número de sujetos conduce a un IC más
estrecho y un aumento de la precisión de la estima- H IPÓTESIS NULA
ción. La amplitud del IC depende también del grado E HIPÓTESIS ALTERNATIVA
de confianza que se utilice, aumentando a medida Siguiendo con el ejemplo anterior, el análisis parte
que se incrementa la confianza deseada. de la hipótesis de que no existen diferencias entre los
En el cálculo del IC se asume que se ha estudiado porcentajes de hipertensos controlados observados
una muestra aleatoria y representativa de la pobla- en ambos grupos. La prueba de significación estadís-
ción de referencia. Al interpretarlo, hay que tener en tica intentará rechazar esta hipótesis, conocida como
cuenta la posibilidad de la existencia de otras fuentes hipótesis nula (Ho). Si se consigue, se aceptará la hipó-

252
PAPEL DE LA ESTADÍSTICA

tesis alternativa (Ha), según la cual existen diferencias que la diferencia observada es estadísticamente signi-
entre ambos grupos. ficativa, ya que es poco probable (p < 5%) que el azar
El primer paso es formular la Ho. A continuación, pueda haber producido estos resultados. La respuesta
se calcula, mediante la prueba estadística más adecua- a la pregunta de si esta diferencia se debe al nuevo tra-
da, la probabilidad de que los resultados observados tamiento D dependerá del diseño y la ejecución
puedan deberse al azar, en el supuesto de que la Ho correctos del estudio. El valor de p sólo informa de la
sea cierta. En otras palabras, la probabilidad de que, a existencia de una diferencia entre ambos grupos, y de
partir de una población de referencia, puedan obte- que muy probablemente no se deba al azar, pero no
nerse dos muestras que presenten unos valores tan informa sobre la causa de dicha diferencia.
diferentes como los observados. Esta probabilidad es
el grado de significación estadística, que suele represen- El valor de p no es una medida de la fuerza de la
tarse con la letra p. En tercer lugar, basándose en esta asociación. Un estudio en el que se obtenga un valor
probabilidad, se decide si se rechaza o no la Ho. p < 0,001 no quiere decir que la asociación encontra-
Cuanto menor sea la p, es decir, cuanto menor sea la da sea más fuerte (o la diferencia más importante)
probabilidad de que el azar pueda haber producido que otro estudio en que sea de 0,04. Sólo quiere decir
los resultados observados, mayor será la evidencia en que es más improbable que su resultado sea por azar.
contra de Ho y, por tanto, mayor será la tendencia a No hay que ser excesivamente rígido en el límite
concluir que la diferencia existe en la realidad. del valor de significación. Un valor de p de 0,048 es
En el ejemplo, una vez aplicada la prueba estadís- estadísticamente significativo con el umbral del 5%, y
tica adecuada, se obtiene un valor de p aproximada- uno de 0,052, en cambio, no lo es, pero en ambos
mente de 0,10. Esto significa que, si la Ho fuera cier- casos la probabilidad de observar el resultado por
ta, la probabilidad de que el azar pueda producir azar es prácticamente la misma, y muy próxima al
unos resultados como los observados es del 10%, es 5%. Por ello, es conveniente indicar el valor de p
decir, que existe un 10% de probabilidad de que dos al dar los resultados, sobre todo si es próximo al valor
muestras de 30 sujetos obtenidas de una misma po- de significación, en lugar de limitarse a decir si existe
blación presenten unos porcentajes del 70 y el 50% o no significación estadística. De esta forma, el lector
sólo por variabilidad aleatoria. podrá valorar adecuadamente los resultados.
Para decidir si se rechaza o no la Ho, debe fijarse
previamente un valor de p por debajo del cual se consi- P RUEBAS UNILATERALES
dera que se dispone de la suficiente evidencia en contra Y PRUEBAS BILATERALES
de la Ho para rechazarla. Este valor se conoce como En ocasiones, lo que interesa no es determinar si exis-
valor de significación estadística α. De forma arbitraria, y ten diferencias entre dos tratamientos, sino evaluar si
por convenio, se fija habitualmente en el 5% (0,05). un nuevo fármaco es mejor que otro. En este caso, la
Dado que el valor de p obtenido en el ejemplo es de hipótesis alternativa no es que D y E difieran, sino que
0,10, superior al valor de significación de 0,05, se con- D es mejor que E. Por tanto, la Ho que se va a contras-
sidera que la probabilidad de haber obtenido estos tar es que D no difiere o es peor que E. Dado que sólo
resultados por azar es demasiado elevada y que, por interesa un sentido de la comparación, se habla de
tanto, no se dispone de la suficiente evidencia para pruebas unilaterales, o de una cola.
rechazar la Ho. Se concluye que la diferencia observa- ¿Cómo afecta este hecho a la prueba de significa-
da en el porcentaje de pacientes controlados no es ción? No es la prueba en sí misma la que se ve afecta-
estadísticamente significativa. No significa que ambos da. El cálculo es idéntico al anterior. Lo que se modi-
grupos sean iguales, sino que no se ha encontrado la fica es el valor de p. Como la distribución de Z sigue
suficiente evidencia para decir que son diferentes. la ley normal y, por tanto, es simétrica, en las pruebas
unilaterales el valor de p corresponde a la mitad del
Ejemplo 27.3. Supongamos ahora que en el grupo valor α, dado que sólo se está interesado en uno de
que recibió el tratamiento E sólo se hubieran contro- los extremos.
lado 12 pacientes a los 3 meses, lo que supondría un
porcentaje observado en este grupo del 40%. Si se E RROR α Y ERROR β
repiten los cálculos, se obtiene un valor de p menor de En estadística no puede hablarse de certeza absoluta.
0,02. Como este valor es inferior a 0,05, se considera Sea cual sea la decisión que se tome respecto a la

253
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

hipótesis nula, se corre un cierto riesgo de equivocar- Si, por el contrario, se concluye que la diferencia
se (fig. 27.2). no es estadísticamente significativa, es decir, si no se
La realidad no es conocida, ya que, si lo fuera, no rechaza la Ho, puede ocurrir que la hipótesis sea falsa
sería necesario realizar el estudio. Si no se rechaza la y que, en realidad, exista una diferencia entre ambos
Ho, y ésta es cierta, no se comete ningún error. Si se re- grupos, en cuyo caso se cometerá otro tipo de error,
chaza y es falsa, tampoco. Pero, ¿qué pasa en las otras llamado error tipo II o β. Utilizando el símil con la
dos situaciones? prueba diagnóstica, equivale a la probabilidad de obte-
En un estudio, puede concluirse que existe una ner un resultado falso negativo. Su valor complemen-
diferencia cuando en realidad no la hay. Es decir, tario 1 – β, denominado potencia, o poder estadístico, indi-
puede rechazarse la Ho cuando en realidad es cierta. ca la capacidad que tiene la prueba para detectar una
Si esto ocurre, la decisión es incorrecta y se comete un diferencia que existe en la realidad. Lógicamente,
error, conocido como error tipo I o error α. La proba- cuanta más diferencia hay entre dos poblaciones y
bilidad de cometer este error es la de que, si se con- mayor es el número de individuos estudiados, mayor
cluye que existe una diferencia significativa, ésta sea capacidad existe para detectarla; es decir, el poder
en realidad debida al azar. Si se hace un símil entre estadístico es mayor y, por tanto, la probabilidad de
una prueba estadística y una diagnóstica, equivale a la cometer un error β es menor.
probabilidad de obtener un resultado falso positivo. Existe una interdependencia entre el grado de
Esto es precisamente lo que mide el valor de p, o significación p, la potencia estadística, el número
grado de significación estadística de la prueba. de individuos estudiados y la magnitud de la diferen-

Realidad

No existe Existe
diferencia diferencia
(Ho cierta) (Ho falsa)

Diferencia Error tipo I


significativa No error
Resultado (rechazo de Ho) (α)
de la prueba
estadística Diferencia Error tipo II
no significativa No error
(no rechazo de Ho) (β)

B
A

β α

O R D
Ho: hipótesis nula; Ha: hipótesis alternativa; A: distribución de la diferencia cuando la Ho es cierta
(media = O); B: distribución de la diferencia cuando la Ha es cierta (media desconocida = D);
R: resultado (diferencia) observado en el estudio.

Figura 27.2. Resultados de una prueba de significación estadística.

254
PAPEL DE LA ESTADÍSTICA

cia observada. Conociendo tres de estos parámetros, Tabla 27.3. Influencia del número
puede calcularse el cuarto. Así, antes de iniciar un de sujetos estudiados sobre
estudio, puede calcularse el número de sujetos nece- el grado de significación estadística
sario, fijando a priori el grado de significación, la de la comparación de los
potencia estadística y el valor de la diferencia que porcentajes de pacientes
quiere detectarse. De igual modo, si una vez acabado controlados con dos tratamientos:
el estudio se concluye que no se ha encontrado una D (70%) y E (65%) (ejemplo 27.4)
diferencia estadísticamente significativa, dado que n,
p y la diferencia observada son conocidas, puede cal- Número de sujetos
cularse el poder estadístico. No es lo mismo concluir estudiados por grupo Valor de Z* Valor de p
que no se ha encontrado una diferencia estadística-
mente significativa entre dos tratamientos cuando se 30 0,41 0,68
100 0,76 0,45
tiene una probabilidad del 90% de haberla detectado
200 1,06 0,29
si hubiera existido (β = 0,10), que cuando esta proba-
500 1,69 0,09
bilidad es sólo del 20% (β = 0,20). 700 2,00 0,05
1.000 2,39 < 0,02
¿D IFERENCIA ESTADÍSTICAMENTE 2.000 3,38 < 0,001
SIGNIFICATIVA O CLÍNICAMENTE
RELEVANTE ? * Valor de la Z de comparación de dos proporciones.
Un resultado estadísticamente significativo no impli-
ca que sea clínicamente relevante. El valor de p no
mide la fuerza de la asociación. Pueden obtenerse
E STIMACIÓN FRENTE A SIGNIFICACIÓN
valores pequeños de p (resultados estadísticamente
ESTADÍSTICA
significativos) simplemente estudiando un número
Al analizar los resultados de un estudio, los investiga-
grande de sujetos. Al aumentar el tamaño de la mues- dores están interesados no sólo en saber si una dife-
tra, se incrementa el poder estadístico para detectar rencia o una asociación son estadísticamente significa-
incluso pequeñas diferencias. tivas, sino también en determinar su magnitud. La
diferencia observada en el estudio es la mejor estima-
Ejemplo 27.4. Supongamos un estudio en que se ción puntual de dicha magnitud. Pero, dado que si se
comparan dos fármacos D y E para el tratamiento de repitiera el estudio con otras muestras podrían obser-
la hipertensión arterial. El porcentaje de pacientes varse resultados de diferente magnitud, hay que calcu-
controlados en el grupo que ha recibido el fármaco D lar un intervalo que contenga, con una determinada
es del 70%, y en el que ha sido tratado con E, del confianza, la verdadera magnitud del parámetro de
65%. En la tabla 27.3 se aprecia que la conclusión de interés, tanto si se trata de una diferencia (tablas 27.4
si esta diferencia es o no estadísticamente significa- y 27.5) como de una medida de asociación (anexo 2).
tiva depende del número de individuos. Estudiando Existen fórmulas para el cálculo de los IC en cualquier
30 pacientes en cada grupo, se concluiría que la dife- situación.
rencia no es significativa. A medida que aumenta el Cuando se utiliza como medida del efecto una
tamaño de los grupos, aumenta el valor de Z y dismi- diferencia, si el IC del 95% incluye el valor 0, que es
nuye el de p. Al estudiar 700 pacientes en cada grupo, el que corresponde a la Ho (ausencia de diferencia
ya se alcanza el nivel de significación del 0,05. Y si se entre ambos grupos), se concluirá que el resultado
estudiaran 2.000 individuos, el valor de p sería menor no es estadísticamente significativo, ya que no puede
de 0,001. descartarse que ése sea el verdadero valor. Si, por el
contrario, el IC excluye este valor 0, se concluirá que
La diferencia que se considera clínicamente rele- la diferencia observada es estadísticamente significa-
vante depende de su magnitud y de otros factores, tiva, ya que puede descartarse dicho valor (con un
como la frecuencia y la gravedad de los efectos secun- riesgo de error inferior al 5%). Por tanto, el IC,
darios de ambos fármacos, la facilidad de administra- además de indicar si la diferencia es o no estadística-
ción o su coste económico. mente significativa, permite conocer entre qué lími-

255
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 27.4. Cálculo del intervalo Tabla 27.5. Cálculo del intervalo
de confianza (IC) de la diferencia de confianza (IC) de la diferencia
entre dos proporciones entre dos medias

IC de la diferencia de dos proporciones* IC de la diferencia de dos medias*


a) Muestras independientes
a) Muestras independientes
(x– – –x ) ± Zα · EED
A B
(PA – PB) ± Zα · EED
1 1
PA·(1 – PA) PB·(1 – PB) siendo EED = s · +
siendo EED = + nA nB
nA nB
sA2 (nA – 1) + sB2 (nB – 1)
y s=
b) Muestras apareadas nA + nB – 2
(PA – PB) ± Zα · EED
b) Muestras apareadas
1 (b – c)2 –x ± Zα · EEx–
siendo EED = b+c d d
n n
–x , –x :
medias observadas en las muestras A y B.
A B
sA, sB:
desviaciones estándar observadas en las muestras A y B.
PA, PB: proporciones observadas en las muestras A y B.
nA, nB:
número de sujetos de las muestras A y B.
nA, nB: número de sujetos de las muestras A y B.
EED: error estándar de la diferencia.
b, c: número de casos que presentan valores diferentes –x : media de las diferencias de las dos mediciones en cada
en ambas mediciones (series apareadas). d
individuo (series apareadas).
n: número total de casos.
EEx–d: error estándar de la media de las diferencias
EED: error estándar de la diferencia.
individuales.
Zα: valor de la variable normal tipificada correspondiente
Zα: valor de la variable normal tipificada correspondiente
al valor α, para un nivel de confianza (1-α).
al valor α, para un nivel de confianza (1–α).
* Las variables cualitativas no presentan una distribución
* El cálculo se basa en la distribución normal. El valor de Zα
normal. Las fórmulas de la tabla corresponden a una
para un IC del 95% es 1,96. Para muestras de tamaño inferior
aproximación a la normalidad, aplicable cuando todos
a 30 individuos, este valor debe sustituirse por el de la t de
los productos n⋅PA, n⋅(1 – PA), n⋅PB y n⋅(1 – PB) son mayores de 5.
Student para (n – 1) grados de libertad. Así mismo, el cálculo
En caso contrario, deben aplicarse correcciones en el valor de Zα.
requiere que no existan diferencias significativas entre las

tes es probable que se encuentre la verdadera dife- entre un 4% a favor del tratamiento A y un 44% a
rencia, lo que es muy útil en la interpretación de los favor de B. Dado que una diferencia del 0% es posi-
resultados. ble, no puede descartarse que éste sea su verdadero
valor, por lo que el resultado no es estadísticamente
Ejemplo 27.5. Supongamos un estudio que compara significativo. En cambio, el IC informa, además, que
la eficacia de dos tratamientos A y B en dos grupos de también son posibles grandes diferencias a favor de
30 pacientes. Se observa una diferencia en el porcen- B, y que son improbables grandes diferencias a favor
taje de éxitos del 20% (70 – 50%) a favor del trata- de A. Aunque los resultados siguen sin ser conclu-
miento B, que no es estadísticamente significativa yentes, se dispone de más información para interpre-
(p = 0,12). El IC del 95% de la diferencia entre los tarlos de forma adecuada. El IC cuantifica el resulta-
dos tratamientos es: do encontrado y provee un rango donde es muy
probable que se encuentre el valor real que se está
IC 95%: 0,2 ± 0,24; es decir, de –4 a 44% buscando.

Con un 95% de confianza, la verdadera magnitud Ejemplo 27.6. Supongamos un estudio que compara la
de la diferencia está en el intervalo comprendido eficacia de dos tratamientos A y B en dos grupos de 80

256
PAPEL DE LA ESTADÍSTICA

pacientes. Se observa una diferencia del 5% (65 – 60%) te significativo, también debe determinarse si incluye
a favor del tratamiento B, que es estadísticamente sig- o excluye el valor de la mínima diferencia de relevan-
nificativa (p = 0,04). El IC del 95% de esta diferencia es: cia clínica, para poder evaluar si el estudio es conclu-
yente acerca de la existencia de una diferencia clíni-
IC 95%: 0,05 ± 0,047; es decir, de 0,3 a 9,7% camente importante.

Al excluir el valor 0%, se concluye que la diferen- Ejemplo 27.7. En la figura 27.3 se presentan 6 posibles
cia es estadísticamente significativa. El IC informa resultados de un estudio que compara dos grupos y
que la diferencia es de pequeña magnitud, como má- utiliza como medida del resultado la diferencia entre
ximo de aproximadamente un 10% a favor de B. los porcentajes observados en cada uno de ellos.
Supongamos que los investigadores establecieron a
Los IC tienen otra ventaja adicional, y es la de priori que la mínima diferencia de relevancia clínica
expresar los resultados en las unidades en que se han era del 20%.
realizado las mediciones, lo que permite al lector Situación A. Se observa una diferencia del 10%
considerar críticamente su relevancia clínica. (IC 95%: de –5 a +25%), que no es estadísticamente sig-
Al diseñar un estudio, los autores establecen la nificativa, ya que el IC incluye el valor 0. Pero el valor
magnitud mínima de la diferencia que consideran de 20% también es un valor posible, ya que está situado en
relevancia clínica, en función de la cual han calcula- el interior del IC. Se trata, por tanto, de un resultado
do el tamaño necesario de la muestra. Al acabar el que no permite descartar ninguna conclusión.
estudio, la interpretación del resultado observado y Situación B. En esta ocasión, se observó una diferen-
de su IC debe tener en cuenta también esta magni- cia entre los grupos del 5% (IC 95%: de –5 a +15%).
tud. Además de determinar si el IC del 95% excluye No es estadísticamente significativa, ya que el IC inclu-
el valor 0 para saber si el resultado es estadísticamen- ye el valor 0, pero excluye el valor 20%. Así pues, el

Ho RC Diferencia Significación
observada estadística IC 95% Interpretación
A
A 10% NS –5 a +25% No concluyente

B B 5% NS –5 a +15% Negativo
C 10% ES +5 a +15% No importante
C D 15% ES +5 a +25% Potencialmente
importante
D (observado
< relevante)

E E 25% ES +15 a +35% Potencialmente


importante
(observado
F > relevante)
–10 –5 0% 5 10 15 20% 25 30 35 40 F 30% ES +25 a +35% Importante
Ho: hipótesis nula.
RC: diferencia de relevancia clínica.
NS: estadísticamente no significativo (p > 0,05).
ES: estadísticamente significativo (p < 0,05).

Figura 27.3. Posibles resultados de un estudio que compara dos grupos y utiliza como medida del efecto
la diferencia entre los porcentajes observados. Se considera que la mínima diferencia de relevancia clínica
es del 20% (ejemplo 27.7).

257
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

resultado es negativo en el sentido de que no puede – La realización de pruebas para cada variable por
descartarse que los grupos sean iguales, pero, aunque separado ignora el hecho de que muchas de ellas
fueran diferentes, es muy improbable que la diferencia pueden estar relacionadas entre sí, de forma que el
sea mayor del 15%. Por tanto, puede descartarse que resultado de una prueba estadística determinada
exista una diferencia de relevancia clínica. puede estar influido por diferencias en la distribu-
Situación C. La diferencia observada del 10% ción de otras variables relacionadas.
(IC 95%: de +5 a +15%) es estadísticamente significa- – Si cada una de las pruebas estadísticas se realiza con
tiva, ya que el IC excluye el valor 0. Dado que el lími- el nivel de significación prefijado del 5%, en pro-
te superior del IC no alcanza el valor 20%, puede medio, 5 de cada 100 comparaciones pueden resul-
concluirse que existe una diferencia, pero que ésta tar significativas sólo por azar. Al realizar múltiples
no es de relevancia clínica. comparaciones, aumenta la probabilidad de obte-
Situación D. La diferencia observada es del 15% ner algún resultado estadísticamente significativo
(IC 95%: de +5 a +25%), estadísticamente significati- que no refleje una diferencia real.
va y potencialmente importante, ya que el valor 20%
es un valor posible. Así pues, el estudio no es del todo Para estimar la probabilidad de obtener un resul-
concluyente. tado significativo por azar tras realizar un número n
Situación E. Similar a la anterior. Aunque la dife- de pruebas estadísticas, cada una de ellas con el ni-
rencia observada es mayor del 20%, el resultado no es vel de significación α, puede usarse la llamada desi-
del todo concluyente, ya que el límite inferior del IC gualdad de Bonferroni, de la que se deriva la siguiente
está por debajo del 20% e indica que la verdadera fórmula:
diferencia podría ser inferior a este valor.
Situación F. La diferencia observada es del 30%. Pr = 1 – (1 – α)n
Dado que el límite inferior del IC es mayor del 20%,
este resultado es estadísticamente significativo y con-
donde Pr representa la probabilidad de encontrar
cluyente a favor de la existencia de una diferencia de
un resultado significativo.
relevancia clínica.

Cuando se utiliza una medida relativa del efecto Ejemplo 27.8. Supongamos que se realizan 8 compa-
(riesgo relativo, odds ratio, etc.), la Ho de igualdad entre raciones independientes, cada una de ellas con el
los grupos corresponde al valor 1, ya que se trata de un nivel de significación de 0,05. La probabilidad de que
cociente y no de una diferencia. Por tanto, cuando el alguna de estas comparaciones conduzca a un resul-
IC del 95% de una medida relativa incluye el valor 1, tado significativo simplemente por azar es:
el resultado no es estadísticamente significativo.
Aunque las pruebas de significación continúan Pr = 1 – (1 – 0,05)8 = 0,336
siendo los procedimientos estadísticos más emplea-
dos, las ventajas de la utilización complementaria de es decir, existe un 33% de probabilidades de cometer
los IC en el análisis e interpretación de los resultados, algún error α, y no el 5% con el que se deseaba tra-
tanto si el objetivo es la estimación de parámetros bajar.
como el contraste de una hipótesis, hacen que cada
vez haya más revistas que recomienden a los investi- Puede utilizarse como aproximación el producto
gadores su empleo. del valor de significación por el número de pruebas
realizadas (n·α). En el ejemplo, este valor sería 0,40,
C OMPARACIONES MÚLTIPLES que, como puede observarse, sobrestima ligeramente
En cualquier estudio, se realizan habitualmente múlti- dicha probabilidad.
ples comparaciones; por ejemplo, cuando se evalúa si La solución más adecuada a este problema es
los grupos difieren por alguna variable, cuando se com- reducir en lo posible el número de comparaciones a
paran diferentes variables de respuesta o cuando se realizar, aplicándolas solamente para contrastar hipó-
analizan diversos subgrupos de sujetos. Efectuar com- tesis previas, y asignar prioridades antes del análisis,
paraciones múltiples tiene dos grandes inconvenientes: decidiendo cuál es la comparación principal y cuáles

258
PAPEL DE LA ESTADÍSTICA

las secundarias, de forma que estas últimas se utilicen trucción de un modelo matemático. La elección de
para matizar la respuesta a la primera. un modelo u otro dependerá del diseño del estudio,
Otra solución es dividir el valor de significación la naturaleza de las variables y las interrelaciones entre
deseado por el número de pruebas a realizar y obte- el factor de estudio, la variable de respuesta y las res-
ner así un valor de significación corregido para apli- tantes variables incluidas en el modelo (anexo 8).
carlo a cada una de las pruebas. Este procedimiento Estas técnicas pueden aplicarse con las siguientes
se conoce como corrección de Bonferroni. En el ejemplo finalidades:
27.8, si se desea mantener el valor de significación
global del 0,05, cada una de las pruebas deberá reali- – Proporcionar una estimación del efecto de una
zarse con el valor corregido de 0,05/8 = 0,00625. Esta variable independiente principal (factor de estu-
técnica es muy estricta, ya que exige un valor de sig- dio) sobre una dependiente (variable de respues-
nificación muy bajo. Además, la corrección de ta), ajustada por un conjunto de factores o variables
Bonferroni asume que las comparaciones son inde- independientes (potenciales factores de confusión
pendientes, por lo que no resulta adecuado cuando y modificadores del efecto).
los análisis están mutuamente asociados.
Otra alternativa más adecuada es el empleo de Ejemplo 27.9. Supongamos un ensayo clínico aleato-
técnicas multivariantes que tomen en consideración rio que evalúa el efecto de un nuevo fármaco (varia-
las relaciones que existen entre las variables que se ble independiente principal) sobre la colesterolemia
comparan. (variable dependiente), controlando la influencia de
Un problema similar puede presentarse en estu- la edad y el sexo de los sujetos.
dios con un seguimiento prolongado, cuando el
investigador decide analizar sus datos repetidamen- – Describir la relación que existe entre un conjunto
te a medida que el estudio progresa. El uso del valor de variables independientes (sin identificar una
de significación estadística según el método habitual de ellas como principal) y una variable depen-
no resulta apropiado, ya que el cálculo convencional diente, y la contribución de cada una de ellas a la
asume que el tamaño de la muestra es un valor fijo, y relación.
que los resultados del estudio se analizarán una
única vez con los datos de todos los sujetos. Por Ejemplo 27.10. Supongamos un estudio transversal
tanto, si un investigador analiza los datos en diversas que pretende evaluar, de entre un conjunto de varia-
ocasiones, la probabilidad de alcanzar un resultado bles independientes (colesterol, edad, sexo, gluce-
significativo es mayor que la deseada. Cuando se mia, etc.), cuáles están asociadas con una variable
efectúa este tipo de estudios, lo mejor es utilizar un dependiente (cifras de presión arterial).
diseño secuencial, en el que no es necesario asumir
que el análisis se realizará una sola vez, y en el que las – Predecir el valor de una variable dependiente en fun-
normas para finalizar el estudio permiten la evalua- ción de los valores que toma un conjunto de varia-
ción continuada de los datos. bles independientes.

A NÁLISIS MULTIVARIANTE Ejemplo 27.11. Supongamos un estudio de cohortes


Hay veces en las que interesa considerar la influencia en el que se desea obtener una ecuación que prediga
de más de dos variables simultáneamente. Ello requie- el riesgo cardiovascular (variable dependiente) en
re técnicas sofisticadas, basadas en modelos matemá- función de la edad, el sexo, las cifras de presión arte-
ticos complejos, agrupadas bajo el nombre genérico rial, el consumo de tabaco y las cifras de colesterol de
de análisis multivariante. los sujetos.
Existen múltiples técnicas estadísticas multiva-
riantes. En investigación clínica y epidemiológica las Las técnicas que relacionan un conjunto de varia-
más utilizadas son las que analizan la relación entre bles independientes con una dependiente derivan
una variable dependiente (variable de respuesta) y un del modelo de regresión lineal, y pueden clasificarse
grupo de variables independientes (factor de estudio y a partir de la escala de medida de la variable depen-
variables a controlar). Estas técnicas implican la cons- diente (anexo 8).

259
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Cuando la finalidad del análisis es predictiva o dad de los datos, combinando un conjunto amplio de
descriptiva de las relaciones entre variables, lo que variables observadas en unas pocas variables ficticias
interesa es obtener una ecuación o un modelo lo más (combinaciones lineales de las anteriores) que repre-
sencillo posible, de forma que la selección de las senten casi la misma información que los datos origi-
variables que formarán el modelo se basa en criterios nales (análisis factorial y análisis de componentes prin-
de significación estadística. En cambio, cuando la cipales). Estas técnicas se utilizan con frecuencia en la
finalidad es estimar el efecto del factor de estudio investigación sobre servicios sanitarios, pero poco en
controlando determinados factores de confusión, no investigación clínica y epidemiológica.
puede confiarse en que la selección automática inclu-
ya las variables que interesa controlar, ya que no siem- Ejemplo 27.12. Supongamos que se desea desarro-
pre están asociadas de forma estadísticamente signifi- llar un indicador del estado de salud aplicable a dife-
cativa, por lo que se utilizan otros procedimientos rentes regiones. Para ello, se recogen multitud de
que obligan a la selección por parte del investigador indicadores sanitarios, demográficos, sociales, etc.,
de las variables que desea controlar. de estas regiones, y se aplica una técnica multiva-
La correcta utilización de la estadística en el análi- riante para reducir todos estos indicadores a unas
sis de los datos es fundamental para poder interpretar- pocas variables ficticias, con la extracción de facto-
los de forma adecuada y obtener conclusiones válidas. res, cada uno de los cuales representa una dimen-
Por ello, una vez realizado el análisis multivariante, hay sión de la información contenida en la totalidad de
que evaluar la adecuación del modelo obtenido (bon- los indicadores.
dad de ajuste), ya que, por ejemplo, una ecuación
puede ser estadísticamente significativa, pero predecir B IBLIOGRAFÍA
con poca fiabilidad el riesgo de enfermar de un sujeto. Altman DG. Practical statistics for medical research. Lon-
dres: Chapman & Hall, 1991.
Debe prestarse atención a las medidas globales de bon-
Altman DG, Bland JM. Units of analysis. BMJ 1997; 314:
dad del modelo, así como comprobar si se cumplen las 1874.
condiciones de aplicación de cada una de las técnicas. Altman DG, Bland JM. Statistics notes: variables and para-
También en las técnicas multivariantes, el resulta- meters. BMJ 1999; 318: 1667.
do obtenido es una estimación puntual, por lo que Altman DG. Statistics in medical journals: some recent
deberá calcularse el correspondiente IC para evaluar trends. Stat Med 2000; 19: 3275-3289.
su relevancia clínica. Todos los comentarios realiza- Altman DG, Goodman SN, Schroter S. How statistical exper-
dos a propósito de la significación estadística y la rele- tise is used in medical research. JAMA 2002; 287: 2817-
vancia clínica en las pruebas estadísticas bivariantes 2820.
son aplicables a las multivariantes. La principal dife- Argimon JM. El intervalo de confianza: algo más que un
valor de significación estadística. Med Clin (Barc) 2002;
rencia es que en el análisis multivariante se tienen en
118: 382-384.
cuenta simultáneamente las relaciones entre múlti- Argimon JM. La ausencia de significación estadística en un
ples variables, de forma que una ecuación predictiva ensayo clínico no significa equivalencia terapéutica. Med
mejorará su capacidad de predicción al incorporar Clin (Barc) 2002; 118: 701-703.
más de una variable o la estimación del efecto del fac- Bayarri MJ, Cobo E. Una oportunidad para Bayes. Med Clin
tor de estudio estará ajustada, es decir, se habrá con- (Barc) 2002; 119: 252–253.
trolado el efecto simultáneo de diferentes factores de Bland JM, Altman DG. Multiple significance tests: the Bon-
confusión. ferroni method. BMJ 1995; 310: 170.
En otras ocasiones, no puede diferenciarse entre Bland JM, Altman DG. Survival probabilities (the Kaplan-
variables dependientes e independientes, sino que, de Meier method). BMJ 1998; 317: 1572.
Bender R, Lange S. Adjusting for multiple testing-when and
acuerdo con el objetivo del estudio, el análisis persi-
how? J Clin Epidemiol. 2001; 54: 343-349.
gue finalidades diferentes, como la clasificación de
Bender R. Calculating confidence intervals for the number
variables o individuos aparentemente heterogéneos needed to treat. Control Clin Trials 2001; 22: 102-110.
en grupos homogéneos, según un conjunto de datos Bradburn MJ, Clark TG, Love SB, Altman DG. Survival
(análisis de conglomerados o cluster analysis), o la iden- Analysis Part II: Multivariate data analysis - an introduc-
tificación de los factores subyacentes en un conjunto tion to concepts and methods. Br J Cancer 2003; 89:
de variables, es decir, la reducción de la dimensionali- 431-436.

260
PAPEL DE LA ESTADÍSTICA

Clark TG, Bradburn MJ, Love SB, Altman DG. Survival Moss M, Wellman DA, Cotsonis GA. An appraisal of multi-
Analysis. Part I: Basic concepts and first analyses. Br J variable logistic models in the pulmonary and critical
Cancer 2003; 89: 232-238. care literature. Chest 2003; 123: 923-928.
Cobo E. Análisis multivariante en investigación biomédica: Moye LA. P-value interpretation and alpha allocation in clin-
criterios para la inclusión de variables. Med Clin (Barc) ical trials. Ann Epidemiol 1998; 8: 351-357.
2002; 119: 230-237. Thompson JR. Invited commentary. Re: multiple compari-
Delgado-Herrera L, Anbar D. A model for the interim ana- son and related issues in the interpretation of epidemio-
lysis process: a case study. Control Clin Trials 2003; 24: logical data. Am J Epidemiol 1998; 147: 801-806.
51-65. Vickers AJ, Altman DG. Analysing controlled trials with base-
Goodman SN. Multiple comparisons, explained. Am J Epi- line and follow up measurements. BMJ 2001; 323: 1123-
demiol 1998; 147: 807-812. 1124.
Katz MH. Multivariable analysis: a primer for readers of med- Wilhelmsen L. Role of the Data and Safety Monitoring
ical research. Ann Intern Med 2003; 138: 644-650. Committee (DSMC). Stat Med 2002; 21: 2823-2829.
Lang JM, Rothman KJ, Cann CI. That confounded P-value. Wright JG. The minimal important difference: who’s to say
Epidemiology 1998; 9: 7-8. what is important? J Clin Epidemiol 1996; 49: 1221-1222.

261
Capítulo 28
Potencia de un estudio

os estudios cuyos resultados no son estadística- sultados negativos publicados en tres revistas de ci-

L mente significativos suelen denominarse estu-


dios negativos. Sin embargo, la ausencia de sig-
nificación estadística no implica necesariamente
rugía entre 1988 y 1998. Tan sólo 35 de ellos (39%)
cumplían los criterios para demostrar equivalencia,
de manera que en los 55 restantes (61%) podría
que no exista en la realidad una asociación relevan- considerarse que existía una potencia estadística in-
te entre el factor de estudio y la respuesta. Puede suficiente. De hecho, sólo 22 casos (24%) tenían
ocurrir que el estudio haya sido incapaz de detec- una potencia superior al 80% para detectar un efec-
tarla porque el número de sujetos analizado era to terapéutico del 50%.
insuficiente para hacerlo (es decir, tenía una baja
potencia estadística), de manera que no se ha po- Una prueba estadística calcula, a partir de los
dido llegar a ninguna conclusión (de hecho, podría resultados observados en un estudio, un valor de p
corresponder a un resultado negativo falso). La que indica la probabilidad de rechazar la hipótesis
probabilidad de cometer este error (no detectar nula Ho cuando es verdadera. El valor de significa-
como estadísticamente significativa una diferencia ción estadística α está fijado por el investigador
o asociación que existe en la realidad) se conoce (habitualmente es 5%). En cambio, el riesgo β
como β. Su complementario 1-β corresponde a la (probabilidad de no rechazar la Ho cuando la hipó-
potencia estadística, que cuantifica, por tanto, la capa- tesis alternativa Ha es verdadera) depende del ver-
cidad de un estudio para detectar como estadística- dadero pero desconocido valor de Ha (tabla 28.1).
mente significativa una determinada diferencia o Las conclusiones de una prueba estadística no son
asociación que existe en la realidad. simétricas: lo único que se puede demostrar por las
observaciones es que una hipótesis es falsa, pero no
Ejemplo 28.1. En un artículo ya clásico, Freiman et que sea verdadera. Como máximo, puede decir-
al (1978) revisaron 71 estudios cuyo resultado era se que no ha sido contradicha por la experiencia.
negativo, publicados entre 1960 y 1977 en cuatro Se comprende, entonces, que sea prioritario con-
prestigiosas revistas. Según sus cálculos, la mitad de trolar el riesgo de error: aplicar una prueba a una
estos estudios tenía una potencia menor de 0,26 hipótesis es exigir una evidencia fuerte en favor su-
para encontrar una diferencia relativa del 50%, o yo, y no contentarse con una observación explica-
menor de 0,60 si la diferencia que se consideraba ble por las fluctuaciones del muestreo.
importante era del 25%. Como la probabilidad de cometer un error β es
diferente según la magnitud de la diferencia que se
Ejemplo 28.2. En un estudio más reciente, Dimick et desee ser capaz de descartar, es importante que
al (2001) evaluaron los 90 ensayos clínicos con re- se tenga en cuenta este hecho en la determinación

262
POTENCIA DE UN ESTUDIO

Tabla 28.1. Errores en una prueba estadística que contrasta la hipótesis de que OR = 1
en función de la hipótesis alternativa considerada

Conclusión de la prueba

Realidad Valor de la OR Rechazo de Ho No rechazo de Ho

Ho verdadera ORo = 1 α 1-α


Ha verdadera ORa 1-β β
OR'a 1-β' β’
Ho: hipótesis nula.
Ha: hipótesis alternativa.

del tamaño de la muestra necesario, para intentar dicha variabilidad (selección de poblaciones
garantizar que el estudio tiene la capacidad (poten- homogéneas, reducción de los errores de medida,
cia) suficiente para detectar una determinada dife- etc.) aumentarán la potencia del estudio. Lo mismo
rencia (si existe). ocurre cuando la variable se mide en una escala cua-
litativa. En este caso, la potencia dependerá del va-
lor de la variable de respuesta en el grupo control.
POTENCIA ESTADÍSTICA
Cuando este valor sea muy pequeño, cualquier
La potencia de un estudio depende de cuatro ele- aumento observado en el grupo de estudio será fácil
mentos: la asociación o la diferencia existente entre de detectar.
los grupos considerada de interés, la variabilidad de
la variable de respuesta, el valor de significación es- Ejemplo 28.4. Supongamos un ensayo clínico que
tadística y el número de sujetos estudiado. compara un nuevo fármaco con otro estándar, y
La potencia depende de la asociación o la dife- que la variable de respuesta es el porcentaje de cu-
rencia entre los grupos que se considera de interés raciones. Si el fármaco estándar produce un por-
o relevancia, es decir, de la hipótesis alternativa, de centaje muy bajo de curaciones, cualquier mejoría
forma que la potencia es tanto mayor cuanto más se observada con el nuevo fármaco será fácil de detec-
aleja Ha de Ho. El aumento de la potencia es mayor tar. Si el grupo control tiene, por ejemplo, un por-
de lo que podría parecer intuitivamente. centaje de éxitos (Pc) del 10% y el grupo de estudio
(Pe) del 20%, esta diferencia absoluta del 10% será
Ejemplo 28.3. Un estudio que compara dos grupos más fácil de detectar que en el supuesto de que Pc
de 200 sujetos cada uno, en el que la proporción fuera del 45% y Pe del 55%. En el primer caso, la di-
observada en el grupo control es del 10%, tiene ferencia relativa es del 100%, mientras que en el se-
una potencia del 33% para detectar un RR de gundo, es sólo del 22%.
1,5 (Ha: RR = 1,5), del 81% para detectar un RR
de 2 (Ha: RR = 2) y de hasta el 98% para detectar El valor de significación estadística prefijado
un RR de 2,5 (Ha: RR = 2,5). influye directamente sobre la potencia: si se dismi-
nuye α con el fin de reducir el riesgo de llegar a una
La potencia también depende de la variabilidad conclusión falsamente positiva, se aumenta la pro-
del parámetro de interés. Cuando la variable de res- babilidad de obtener un resultado falsamente ne-
puesta se mide en una escala cuantitativa, puede gativo (se disminuye la potencia estadística). Aun-
deducirse intuitivamente que, cuanto mayor sea su que este comentario parece poco relevante porque
variabilidad (mayor variancia), más difícil será po- casi siempre se fija el valor de α en el 5%, es impor-
der descartar que determinadas diferencias puedan tante cuando debe decidirse entre el carácter uni o
deberse a las fluctuaciones del muestreo, es decir, bilateral de la prueba. Sin embargo, aunque la prue-
menor será la potencia del estudio. Por ello, al ba unilateral es más potente que la bilateral, la con-
diseñar un estudio, las medidas dirigidas a reducir trapartida es que sólo se presta atención a un senti-

263
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

do de la comparación, por lo que las desviaciones en investigadores están tentados de añadir categorías
la dirección contraria conducirán a un resultado no diferentes de la enfermedad. Sin embargo, esta
significativo (no rechazo de Ho). práctica puede disminuir la potencia y conducir a
Finalmente, cuanto mayor sea el número de par- un sesgo en la estimación del efecto, ya que aumen-
ticipantes en un estudio, mayor será su potencia es- ta la heterogeneidad de la muestra y determinados
tadística. Por ello, los estudios con una muestra muy efectos pueden quedar diluidos.
pequeña son los que con más probabilidad pueden
dar conclusiones falsamente negativas. Ejemplo 28.5. Supongamos un estudio de cohortes
que investiga si la administración de un fármaco
durante el embarazo aumenta la incidencia de una
POTENCIA Y DISEÑO DEL ESTUDIO
determinada malformación congénita. Dado que
Numerosos aspectos del diseño del estudio están ésta sólo aparece en un número muy reducido de
relacionados con su potencia. La mayoría de ellos casos, los investigadores deciden incluir todas las
son interdependientes y, a menudo, resulta imposi- malformaciones, con independencia de su tipo, en
ble optimizarlos de forma simultánea. una variable de respuesta única. Como no existe un
teratógeno único que cause todas las malformacio-
D EFINICIÓN DE LA POBLACIÓN nes, el problema del análisis puede ser agrupar mal-
DE ESTUDIO formaciones no relacionadas con el medicamento
Si bien la elección de la población es obligada por la de estudio con otras que sí lo están.
misma naturaleza del estudio y de la hipótesis que se
desea contrastar, es conveniente tener en cuenta Las estrategias para prevenir fenómenos de con-
algunos aspectos que pueden aumentar la potencia. fusión (emparejamiento y estratificación) también
En primer lugar, ya que la potencia depende son útiles para aumentar la potencia estadística, al
de la variabilidad de la variable de respuesta, la ho- reducir la variabilidad del parámetro de estudio.
mogeneidad de la población de estudio tiende a
aumentar la potencia. M EDICIÓN DEL FACTOR DE ESTUDIO
Por otro lado, la potencia de un estudio es tanto Y LA VARIABLE DE RESPUESTA
mayor cuanto más se aproxima al 50% la proporción Los errores de medida conducen a sesgos de clasifi-
de sujetos expuestos (en los estudios de casos y con- cación, una de cuyas consecuencias es una pérdida
troles) o la frecuencia de la enfermedad (en los es- de la potencia causada por una dilución de la aso-
tudios de cohortes y ensayos clínicos). Pero, en la ciación. Por otro lado, no debe olvidarse que la pro-
práctica, raramente se alcanzan estos valores, por lo pia elección de la variable de medida de la exposi-
que se trata de definir una población de estudio en ción al factor de estudio y de la respuesta tiene una
la que estos porcentajes sean lo más elevados posible. gran influencia sobre la potencia, ya que de ella de-
Dado que la potencia también depende de la pende, en gran parte, la capacidad para detectar
magnitud de la asociación considerada (Ha), es con- una diferencia o una asociación. Por ello, es funda-
veniente seleccionar una población de estudio en la mental asegurar que las variables estén perfecta-
que sea probable que el efecto sea de mayor mag- mente definidas al inicio del estudio y que su medi-
nitud (p. ej., utilizando a personas de edad avanza- da sea lo más exacta posible.
da o niños asmáticos para evaluar el riesgo respira-
torio asociado a la contaminación atmosférica). TAMAÑO DE LA MUESTRA
El empleo de criterios de selección amplios con El número de sujetos incluidos en un estudio influ-
la finalidad de conseguir un mayor número de ye directamente sobre su potencia. En general, la
casos no necesariamente aumenta la potencia del máxima potencia se alcanza cuando los grupos tie-
estudio, ya que puede introducir una mayor varia- nen el mismo tamaño. Sin embargo, en ocasiones,
bilidad y diluir la asociación, al incluir casos en los el número de sujetos accesibles está limitado en uno
que ésta sea menor o en los que ésta no esté asocia- de los grupos (habitualmente los casos en los es-
da con la exposición. Por ejemplo, en ocasiones, tudios de casos y controles, y los expuestos en los de
dado el previsible reducido número de casos, los cohortes), de forma que si se elige el mismo núme-

264
POTENCIA DE UN ESTUDIO

ro en el otro grupo, la potencia será muy reducida. En algunas situaciones, la definición de un pe-
En estas circunstancias, se puede incrementar el ríodo de exposición de interés puede influir sobre
número de sujetos del otro grupo de comparación la potencia del estudio.
para aumentar la potencia, aunque esta ganancia es
casi nula cuando la relación es superior a 4:1. Ejemplo 28.6. El riesgo de cáncer asociado a la expo-
La ausencia de información sobre algunos suje- sición ambiental a determinados agentes químicos
tos puede comportar una disminución de la poten- suele manifestarse tras períodos de inducción muy
cia al reducirse el número de individuos útiles para largos, entre 10 y 40 años. Por ello, cuando se detec-
el análisis, especialmente cuando se utilizan técni- ta la aparición de uno de estos cánceres en un indi-
cas multivariantes, ya que éstas sólo tienen en cuen- viduo, las exposiciones muy recientes (p. ej., en los
ta a los sujetos de los que se dispone de informa- últimos 10 años) o muy antiguas (p. ej., hace más de
ción en todas las variables implicadas. 40 años) no deberían incluirse en el cálculo de la ex-
posición acumulada, el cual debería limitarse a una
ventana temporal (en el ejemplo, 10-40 años antes
POTENCIA Y ANÁLISIS ESTADÍSTICO de la aparición del cáncer). La inclusión de exposi-
El investigador también puede influir sobre algu- ciones ocurridas fuera de este intervalo podrían
nos aspectos del análisis de los datos con la finali- producir una dilución de la asociación y, por tanto,
dad de aumentar la potencia estadística. una pérdida de la potencia.

CARACTERÍSTICAS DE LA PRUEBA A JUSTE Y SOBREAJUSTE


ESTADÍSTICA El ajuste tiene como finalidad controlar los factores
Una prueba unilateral es más potente que una bila- de confusión, pero también permite disminuir la
teral. Supongamos que se desea evaluar el exceso variabilidad del parámetro estudiado, lo que con-
de riesgo asociado a una exposición. Para utilizar duce a un aumento de la potencia.
una prueba unilateral (Ha: OR > 1), no sólo debe Se habla de sobreajuste cuando, al ajustar por una
ser ésta la hipótesis de interés, sino que deben exis- variable, se reduce la variabilidad del factor de estu-
tir fuertes argumentos para excluir la posibilidad dio y, por tanto, la potencia de la prueba, sin que
de que el verdadero valor de OR sea inferior a 1. De ello signifique el control de un factor de confusión.
hecho, si se observa un valor de OR inferior a 1, el Este fenómeno puede aparecer cuando se controla
resultado se considerará como estadísticamente no por una variable muy correlacionada con el factor
significativo, es decir, será atribuido a las fluctua- de estudio, ya que puede ser difícil distinguir los
ciones del muestreo alrededor del valor OR = 1, y efectos de ambos, lo que conduce a una estimación
no se considerará como el reflejo de un valor de imprecisa de la asociación. Esta pérdida de preci-
OR en la población inferior a 1. sión en la estimación debida al sobreajuste también
puede aparecer cuando se controla por variables
E LECCIÓN Y DEFINICIÓN que no son verdaderos factores de confusión.
DE LA VARIABLE
Si una variable se mide en una escala cuantitativa, POTENCIA E INTERPRETACIÓN
en general, es preferible no categorizarla para no DE LOS RESULTADOS
perder información. Además, la elección de los in-
tervalos que definen las categorías puede conducir Al diseñar un estudio, los investigadores fijan la po-
a un resultado significativo, que no aparecería de tencia estadística deseada al determinar el número
otro modo. Por ello, es importante que las diferen- mínimo de sujetos necesario para encontrar una di-
tes alternativas sean discutidas con independencia ferencia que se considera clínicamente útil, con
de los resultados observados. unos márgenes de error α y β prefijados. No obstan-
El uso de variables combinadas para medir un te, es frecuente que las cosas no salgan como se ha-
efecto permite aumentar la potencia estadística, bían planeado, por lo que, si el resultado no es
aunque debe tenerse en cuenta que su utilización estadísticamente significativo, es conveniente cal-
puede diluir determinadas diferencias o asociacio- cular la potencia real del estudio para haber detec-
nes que afecten algunos de sus componentes. tado dicha diferencia. Si es elevada, lo más proba-

265
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

ble es que el resultado refleje que, en realidad, la Tabla 28.2. Tabla de conversión de valores
diferencia no existe o es inferior a la magnitud que de Zβ a potencia estadística
se deseaba descartar. Si es reducida, el resultado es
poco informativo y debe interpretarse como que las Zβ Potencia Zβ Potencia
evidencias obtenidas son insuficientes para llegar a
una conclusión sobre la existencia o la ausencia de –2,5 0,006 0,0 0,500
la diferencia. –2,4 0,008 0,1 0,540
–2,3 0,011 0,2 0,579
–2,2 0,014 0,3 0,618
CÁLCULO DE LA POTENCIA –2,1 0,018 0,4 0,655
ESTADÍSTICA –2,0 0,023 0,5 0,691
El cálculo de la potencia estadística se sustenta en el –1,9 0,029 0,6 0,726
cálculo de Zβ a partir de los resultados observados –1,8 0,036 0,7 0,758
en el estudio, el número de sujetos realmente ana- –1,7 0,045 0,8 0,788
lizados y el valor de la significación estadística prefi- –1,6 0,055 0,9 0,816
jado. Los métodos que se presentan a continuación –1,5 0,067 1,0 0,841
–1,4 0,081 1,1 0,864
son aproximados, ya que utilizan valores de pará-
–1,3 0,097 1,2 0,885
metros que son, de hecho, desconocidos (p. ej., la
–1,2 0,115 1,3 0,903
variancia cuando se trata de variables cuantitativas, –1,1 0,136 1,4 0,919
o el valor del porcentaje, si la hipótesis alternativa –1,0 0,159 1,5 0,933
es cierta, cuando se trata de variables cualitativas), y –0,9 0,184 1,6 0,945
no tienen en cuenta que la mayoría de los análisis –0,8 0,212 1,7 0,955
estadísticos que se llevarán a cabo usarán métodos –0,7 0,242 1,8 0,964
de ajuste o modelos multivariantes. –0,6 0,274 1,9 0,971
Puede utilizarse una tabla de la distribución nor- –0,5 0,309 2,0 0,977
mal para determinar la probabilidad de cometer un –0,4 0,345 2,1 0,982
error β asociada al valor Zβ. La tabla 28.2 presenta los –0,3 0,382 2,2 0,986
valores más frecuentes. El cálculo de la potencia es- –0,2 0,421 2,3 0,989
tadística cuando la variable de respuesta es cualitati- –0,1 0,460 2,4 0,992
va puede realizarse con la fórmula de la tabla 28.3. 0,0 0,500 2,5 0,994

Ejemplo 28.7. Supongamos un ensayo clínico alea-


torio en el que se han estudiado 50 sujetos en cada
grupo, y en el que se ha observado un porcentaje Tabla 28.3. Fórmula para el cálculo
de eficacia en el grupo control del 25% (p0 = 0,25). de la potencia estadística cuando
Si se considera como diferencia clínicamente im- la variable de respuesta es cualitativa
portante que el porcentaje de eficacia del nuevo
tratamiento sea como mínimo del 35% (p1 = 0,35), n(p1–p0)2
Zβ = – Zα/2
la potencia del ensayo para detectarla se calculará 2pq
del siguiente modo:
Z β: es el valor de la distribución normal Z para un valor β
determinado (unilateral).


50  (0,35  0,25)2 n: es el número de sujetos estudiados en cada grupo
zβ = 1,96 = 0,87 (se asume que es el mismo en ambos grupos).
2  0,3  0,7
p0: es el porcentaje de eficacia observado en el grupo control.
p1: es el porcentaje de eficacia del grupo de intervención que
(cabe recordar que p = (0,25 + 0,35)/2 = 0,30, por se desearía detectar (así pues, p1-p0 sería la diferencia de
lo que q = 1 –0,30 = 0,70). A partir de la tabla 28.2 relevancia clínica que se desearía detectar).
p: = (p0 + p1)/2.
puede apreciarse que la potencia estadística se si-
q: = 1–p.
túa entre un 18 y un 21%. Si se busca el valor de Zα/2: es el valor de la distribución normal Z para el valor α
Zβ = –0,87 en las tablas de la distribución normal, se bilateral fijado (habitualmente, α = 0,05 y Zα/2 = 1,96).

266
POTENCIA DE UN ESTUDIO

obtiene que la probabilidad de cometer un error β dios de casos y controles. En esta situación, p1
es de 0,81, es decir, que la potencia del estudio para representa la proporción de casos expuestos que se
detectar esta diferencia es sólo de 0,19 (19%). desea detectar y p0 la proporción de controles
expuestos. Si en lugar de definir la diferencia de
Si la variable de respuesta es cuantitativa, puede relevancia clínica que se desea detectar en forma de
utilizarse la fórmula de la tabla 28.4. porcentajes se realiza en forma de magnitud de
OR, puede aplicarse la misma fórmula, calculando
p1 del siguiente modo:
Tabla 28.4. Fórmula para el cálculo
de la potencia estadística cuando p0 OR
la variable de respuesta p1 =
es cuantitativa
1  p0 (OR  1)

d n Ejemplo 28.9. Supongamos un estudio de casos y


Zβ = s 2 – Zα/2 controles diseñado para evaluar el riesgo de pade-
cer un infarto agudo de miocardio (IAM) asociado
Zβ: es el valor de la distribución normal Z para un valor β al uso de anticonceptivos orales (AO) en mujeres
determinado (unilateral).
jóvenes. Se incluyeron 50 casos y 50 controles y se
d: es la diferencia entre las medias de los grupos que se desea
detectar (diferencia de relevancia clínica).
observó una proporción de uso de AO en el grupo
s: es la desviación estándar de la variable de respuesta (estima control del 30% (p0 = 0,30). Se desea conocer la po-
la desviación estándar del parámetro). tencia de este estudio para detectar un riesgo míni-
n: es el número de sujetos estudiados en cada grupo mo de 2 (OR = 2), aceptando una probabilidad de
(se asume que es el mismo en ambos grupos). error α bilateral del 0,05. El cálculo se realizaría del
Zα/2: es el valor de la distribución normal Z para el valor α siguiente modo:
bilateral fijado (habitualmente, α = 0,05 y Zα/2 = 1,96).

0,3  2
p1 = = 0,46
Ejemplo 28.8. Supongamos un estudio diseñado 1  0,3  (2  1)
para comparar la función pulmonar de dos grupos p = (0,30  0,46) / 2 = 0,38
de 50 varones utilizando el volumen espiratorio
forzado (FEV). La desviación estándar del FEV es q = 1  0,38 = 0,62
de 0,5 l (s = 0,5). Se desea calcular la potencia de


dicho estudio para detectar una diferencia entre 50  (0,46  0,30)2
zβ = = 1,96 = 0,31
las medias de FEV de ambos grupos de 0,25 l. 2  0,38  0,62
Aplicando la fórmula, se obtiene:
En la tabla 28.2 puede apreciarse que la poten-


0,25 50 cia se sitúa alrededor del 38%. Buscando el valor de
Zβ = 1,96 = 0,54
0,5 2 Zβ = –0,31 en las tablas de la distribución normal, se
obtiene que la probabilidad de cometer un error β
En la tabla 28.2 puede apreciarse que este valor es de 0,62, es decir, que la potencia del estudio para
corresponde a una potencia que se sitúa entre el 70 detectar esta diferencia es de 0,38 (38%). Así pues,
y el 73%. Buscando el valor de Zβ = 0,54 en las si el riesgo de IAM asociado al uso de AO en las mu-
tablas de la distribución normal, se obtiene que la jeres jóvenes fuera de 2, y sólo se incluyeran 50 ca-
probabilidad de cometer un error β es de 0,29, es sos y 50 controles, el estudio sólo tendría un 38%
decir, que la potencia del estudio para detectar esta de posibilidades de detectar esta diferencia como
diferencia es de 0,71 (71%). estadísticamente significativa.

La fórmula para el cálculo de la potencia cuan- Nótese que esta fórmula asume que se han in-
do la variable de respuesta es cualitativa (ver ta- cluido el mismo número de casos que de controles
bla 28.3) también permite su cálculo en los estu- (o aproximadamente el mismo). Si no es éste el

267
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

caso, deberá aplicarse la fórmula para la situación tar un riesgo de 1,5 de AVC asociado al consumo de
en que hay más de un control por caso: tabaco, si éste existe.


n (p1  p0)2 De las relaciones entre los diferentes términos
zβ = – Zα/2 implicados en los cálculos anteriores, puede dedu-
(1  1/c)pq
cirse una sencilla fórmula que permite determinar,
si se conoce el número de sujetos que era necesario
Donde n representa el número de casos; c, el de para detectar una determinada diferencia con la
controles por cada caso, y p se calcula del siguiente potencia deseada al inicio del estudio, la diferencia
modo: que ha sido capaz de detectar con el número de
sujetos realmente estudiado y la potencia deseada:
p 1  c p0
p=


1c n1
d2= d1
n2
siendo q el complementario de p.
Donde d2 es la diferencia entre ambos grupos
Ejemplo 28.10. Supongamos un estudio de casos y que podría detectarse con el número de sujetos
controles sobre el riesgo de padecer un accidente estudiado; d1 es la diferencia considerada de rele-
vascular cerebral (AVC) asociado al consumo de ta- vancia clínica, a partir de la cual se determinó el
baco, en el que se han estudiado 474 casos, de los número de sujetos necesario; n1 es el número de
cuales 171 fumaban, y 255 controles, de los que fu- sujetos que se determinó que era necesario para
maban 90. Se desea determinar la potencia estadís- detectar la diferencia d1; y n2 es el número de suje-
tica de este estudio para detectar un riesgo de AVC tos realmente estudiado.
asociado al consumo de tabaco de 1,5 (OR = 1,5),
aceptando una probabilidad de error α bilateral Ejemplo 28.11. Supongamos que se ha realizado un
del 0,05. El cálculo se realizaría del siguiente modo:
ensayo clínico para evaluar la eficacia de un nuevo
fármaco. La eficacia del tratamiento utilizado como
c = 255/477 = 0,54
control es del 25% (p0 = 0,25). Se diseñó el estudio
p0 = 90/255 = 0,35 de forma que, para detectar una diferencia entre
0,35  1,5 los tratamientos del 10% (p1 – p0 = 0,1) con un valor
p1 = = 0,45 de significación bilateral del 5%, tuviera una poten-
1  0,35  (1,5  1) cia del 90%, lo que significaba que eran necesarios
0,45  0,54  0,35 439 sujetos por grupo. Sin embargo, al realizar el
p= = 0,41 estudio, sólo se encontraron 600 sujetos disponi-
1  0,54 bles, 300 en cada grupo. ¿Qué diferencia ha sido ca-
paz de detectar este estudio con el número de suje-
q = 1  0,41 = 0,59
tos estudiado con la potencia deseada del 90%?


474  (0,45  0,35)2
zβ = 1,96 = 0,66 439
(1  1/0,54)  0,41  0,59 d2 = 0,1 = 0,12
300
En la tabla 28.2 se aprecia que la potencia se
sitúa entre el 73 y el 76%. Buscando el valor de Por lo tanto, al haber estudiado 300 sujetos por
Zβ = 0,66 en las tablas de la distribución normal, se grupo, se tenía una potencia del 90% para detectar
obtiene que la probabilidad de cometer un error β una diferencia mínima del 12%; es decir, dado que
es de 0,25, es decir, que la potencia del estudio para la eficacia del tratamiento de control es del 25%,
detectar esta diferencia es de 0,75 (75%). Así pues, podrá detectarse un aumento de la eficacia con el
el estudio tiene un 75% de posibilidades de detec- nuevo tratamiento a partir del 37%.

268
POTENCIA DE UN ESTUDIO

B IBLIOGRAFÍA DE LOS EJEMPLOS Lang TA, Secic M. How to report statistics in medicine.
Dimick JB, Diener-West M, Lipsett PA. Negative results of Filadelfia: American College of Physicians, 1997.
randomized clinical trials published in the surgical litera- Matthews JN. Small clinical trials: are they all bad? Stat Med
ture: equivalency or error? Arch Surg 2001; 136: 796-800. 1995; 14: 115-126.
Freiman JA, Chalmers TC, Smith H, Kuebler RR. The impor- Moher D, Dulberg CS, Wells GA. Statistical power, sample
tance of beta, type II error and sample size in the design size, and their reporting in randomized controlled trials.
and interpretation of the randomized control trial. JAMA 1994; 272: 122-124.
N Engl J Med 1978; 299: 690-694. Redelmeier DA, Guyatt GH, Goldstein RS. Assessing the
minimal importat difference in symptoms: a comparison
B IBLIOGRAFÍA of two techniques. J Clin Epidemiol 1996; 49: 1215-1219.
Altman DG, Bland JM. Absence of evidence is not evidence Sahai H, Khurshid A. Formulae and tables for the determi-
of absence. BMJ 1995; 311: 485. nation of sample sizes and power in clinical trials for tes-
Armitage P, Berry G, Matthews JNS. Statistical Methods in ting differences in proportions for the two-sample
Medical research. 4.a ed. Oxford: Blackwell Science, 2002. design: a review. Stat Med 1996; 15: 1-21.
Bouyer J, Hémon D, Cordier S, Derriennic F, Stücker I, Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
Stengel B et al. Épidémiologie: principes et méthodes dence of bias: dimensions of methodological quality
quantitatives. París: INSERM, 1995. associated with estimates of treatment effect in con-
Galbraith S, Marschner IC. Guidelines for the design of cli- trolled trials. JAMA 1995; 273: 408-412.
nical trials with longitudinal outcomes. Control Clin Wright JG. The minimal important difference: who’s to say
Trials 2002; 23: 257-273. what is important? J Clin Epidemiol 1996; 49: 1221-1222.
Godwin M. Hypothesis: the research page. Part 3: Power,
sample size, and clinical significance. Can Fam Physician
2001; 47: 1441-1443.

269
Capítulo 29
Sesgos

os sesgos se definen como errores sistemáticos SESGOS DE SELECCIÓN

L que se introducen en un estudio y que dan co-


mo resultado una estimación incorrecta (ses-
gada) del parámetro o del efecto de interés. Por lo
En los estudios transversales, la forma en que se se-
lecciona la muestra de sujetos o la presencia de no res-
puestas pueden introducir sesgos de selección. En
tanto, la ausencia de errores sistemáticos, o sesgos,
confiere validez interna a un estudio. los estudios longitudinales analíticos, los sesgos de se-
A grandes rasgos, los sesgos se pueden deber a la lección se presentan, principalmente, en los estudios
forma en que se seleccionan los sujetos de estudio de casos y controles, y en los estudios retrospectivos de
(sesgos de selección) o a la manera en que se recoge la cohortes, donde tanto la exposición (factor de estudio)
información (sesgos de información). como la enfermedad (respuesta) han ocurrido en el
Una vez que aparece un sesgo no puede eliminarse momento de iniciarse el estudio. En los estudios de
en el análisis, a diferencia de lo que ocurre con los fac- casos y controles, los sesgos de selección pueden ocu-
tores de confusión. Por esta razón, es fundamental rrir cuando la identificación de los individuos para su
prevenir su aparición en la fase de diseño. Sin embar- inclusión en el estudio se basa en criterios distintos
go, en la fase de interpretación es bueno volverse a for- según se trate de casos o de controles y, además, estos
mular las mismas preguntas que se hicieron en los ini- criterios están relacionados con la exposición en estu-
cios del estudio, cuando se escogió la población y las dio. Análogamente, en los estudios de cohortes, si la
variables que iban a ser medidas (tabla 29.1), lo que clasificación de los individuos en «expuestos» y «no
ayudará a detectar posibles errores que hayan pasado expuestos» depende del desarrollo de la enfermedad
desapercibidos mientras el estudio se llevaba a cabo y de interés, también se producirá un sesgo de selección.
que pueden ser útiles para discutir los resultados. Por el contrario, es menos frecuente que se pro-
Cuando se interpreta un estudio, debe explorar- duzcan en los ensayos clínicos aleatorios, ya que el
se la posible presencia de sesgos como una explica- único factor que interviene en la asignación de los
ción alternativa a los resultados observados. Para ello individuos a los grupos de estudio es el azar. De todos
hay que tener en cuenta el tipo de estudio y las carac- modos, en los estudios prospectivos, ya sean de cohor-
terísticas específicas de su diseño, si los sesgos son de tes o ensayos clínicos, las pérdidas durante el segui-
selección y/o información, y, en este último supues- miento pueden dar lugar a un sesgo de selección.
to, si se trata de un error diferencial o no diferencial. Los sesgos de selección pueden ocurrir en nume-
No interesa sólo saber si ha introducido un sesgo, rosas circunstancias, relacionadas con la forma de
sino también conocer su posible efecto sobre los identificar y seleccionar a los individuos para un estu-
resultados observados. dio (tabla 29.2).

270
SESGOS

Tabla 29.1. Preguntas que se han de formular para evaluar la presencia de un sesgo

Tipo de sesgo si la
Pregunta respuesta es negativa Observaciones

¿Todos los participantes tienen la Sesgo de selección En los ensayos clínicos se previene
misma probabilidad de haber con la asignación al azar
recibido la intervención o haber En los estudios observacionales se
estado expuestos al factor previene siguiendo unos criterios de
de estudio? selección y exclusión muy estrictos
¿Los individuos que se pierden Sesgo de selección que limita Hay que conocer los motivos y
tienen la misma probabilidad la comparabilidad final del estudiar una muestra de los que
de desarrollar la respuesta estudio se pierden para poder contestar
que los que finalizan el estudio? a la pregunta y poder interpretar
los resultados
¿La detección de la respuesta se ha Sesgo de información Emplear técnicas de enmascaramiento
hecho con las mismas pruebas Dar resultados falsos negativos (atenúa
y con la misma intensidad la asociación)
en todos los participantes?
¿La medición de la variable Sesgo de información En algunas ocasiones puede estimarse
de respuesta es sensible su magnitud o corregirse una vez
y específica? finalizado el estudio

Tabla 29.2. Situaciones en las que principio es más difícil de asegurar en los estudios
puede haberse introducido un observacionales, especialmente en los diseños de casos
sesgo de selección en un estudio y controles y en los retrospectivos de cohortes.

• Selección del grupo control Ejemplo 29.1. Consideremos un estudio retrospecti-


vo de cohortes que trataba de analizar el efecto de un
• Pérdidas de seguimiento programa de educación para diabéticos sobre el con-
• Supervivencia selectiva trol metabólico de la enfermedad. Para ello los inves-
• Muestra no representativa de la población
tigadores incluyeron en el grupo de estudio 40 in-
de estudio dividuos que cumplían los siguientes requisitos:
1) haber sido tratados por primera vez en su centro
• Sesgo de detección entre 1994 y 1996; 2) haber cumplido los cinco apar-
• Participación de voluntarios o efecto tados de los que constaba el programa de educación,
de autoselección y 3) haber cumplido con las visitas de seguimiento. El
grupo control se formó contactando telefónicamente
de manera consecutiva con aquellas personas de su
S ELECCIÓN DEL GRUPO CONTROL lista de pacientes que cumplían las siguientes condi-
Los estudios analíticos se basan en que el grupo de ciones: 1) haber sido tratados por primera vez en su
estudio y el de referencia son comparables por las centro entre 1994 y 1996; 2) haber rechazado el pro-
variables pronósticas o predictoras de la respuesta, de grama de educación, y 3) haber acudido o no a las
forma que sólo difieren en la presencia o no del factor visitas de seguimiento.
de estudio (principio de comparabilidad). En los ensa- En este estudio se observó que los individuos que
yos clínicos aleatorios, la asignación aleatoria de los habían recibido el programa poseían un mejor con-
sujetos a los grupos de estudio tiende a asegurar esta trol metabólico que la cohorte de referencia. Sin
comparabilidad al inicio del estudio, mientras que este embargo, no se podía asegurar que ello fuera debido

271
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

a haber recibido el programa de educación. Al revisar de salud relacionados con el consumo de tabaco
los criterios de selección de ambos grupos, puede (p. ej., un mayor número de defunciones por infarto
observarse que son diferentes, ya que el grupo control de miocardio). Si no se tiene en cuenta este hecho, se
está formado por sujetos que habían rechazado el producirá un sesgo en la estimación del riesgo de
programa de educación y que podían no haber acudi- cáncer de pulmón asociado al consumo de tabaco, ya
do a las visitas de seguimiento. Así pues, estos dos que probablemente los sujetos más expuestos (más
hechos parecen indicar que el grupo de referencia fumadores) habrán presentado otros problemas
podría estar formado por individuos menos motiva- de salud relacionados, de forma que la incidencia de
dos por su enfermedad que los del grupo de estudio, cáncer se estimará en un grupo de sujetos que
de forma que podría ser esta diferente motivación la estarán menos expuestos que la cohorte inicial.
que les hubiera conducido a un peor control de la dia-
betes, independientemente del efecto del programa de S UPERVIVENCIA SELECTIVA
educación. Este ejemplo pone de manifiesto la dificul- El sesgo de selección debido a la supervivencia selec-
tad que existe en los estudios retrospectivos para eva- tiva se produce en los estudios en que se incluyen
luar determinadas prácticas preventivas o exposiciones, casos prevalentes, es decir, sujetos que han sobrevivi-
debido a la introducción de sesgos de selección. do a las primeras fases de su enfermedad. Si la letali-
dad de una enfermedad depende de la exposición
La elección de un grupo de comparación adecua- (p. ej., si la cardiopatía isquémica es más grave en
do que evite los sesgos de selección es particularmente los sujetos que presentan más factores de riesgo), los
difícil en los estudios de casos y controles. La selección casos prevalentes no serán representativos de todos
de los sujetos del grupo control ha de ser indepen- los casos, sino que presentarán menores niveles de
diente de la historia de exposición, y debe excluir exposición, lo que puede conducir a una estimación
aquellos individuos que tengan enfermedades relacio- sesgada de la asociación. Además, los casos prevalen-
nadas positiva o negativamente con la exposición. Por tes pueden haber cambiado sus hábitos en relación
otro lado, también se recomienda utilizar pacientes con la exposición (p. ej., haber dejado de fumar tras
con diferentes patologías como grupo control, y com- un infarto de miocardio), hecho que también condu-
probar que las frecuencias de exposición son similares ciría a un sesgo en los resultados.
entre ellas. La finalidad de esta estrategia es que, si
alguna de las patologías seleccionada está asociada Ejemplo 29.3. Supongamos un estudio de cohortes
positiva o negativamente con la exposición, su influen- en el que se incluyen 1.000 individuos expuestos a un
cia dentro del grupo control sea pequeña. factor de riesgo (p. ej., hipertensión arterial, HTA) y
1.000 no expuestos. Ambos grupos son seguidos
P ÉRDIDAS DE SEGUIMIENTO durante 10 años con el fin de comparar las tasas de
En los estudios prospectivos, una de las principales incidencia de cardiopatía isquémica (CI) observadas
causas potenciales de sesgos de selección son las pér- en cada uno de ellos. Los resultados a los 10 años se
didas de individuos, o abandonos, producidas duran- presentan en la tabla 29.3. El riesgo de CI sería
te el período de seguimiento. Cuando las personas 3 veces mayor en los expuestos que en los no expues-
que se pierden durante el seguimiento difieren de tos (300 casos de CI entre los expuestos y sólo 100
las que no abandonan por variables relacionadas con entre los no expuestos).
el factor de estudio y la variable de respuesta, se pro- Supongamos ahora que, en lugar de haberse lle-
ducirá un sesgo en los resultados. La introducción de vado a cabo este estudio, se hubiera realizado un estu-
este sesgo dependerá de los motivos de la pérdidas, dio de casos y controles 10 años después, seleccio-
más que de su número. nando los casos prevalentes (supervivientes). Por lo
tanto, se incluirían como casos los sujetos vivos con
Ejemplo 29.2. Supongamos un estudio de cohortes CI (primera columna de resultados de la tabla), y
en el que se sigue un grupo de sujetos fumadores y como controles, los vivos sin CI (tercera columna de
otro de no fumadores, para comparar en ellos la inci- resultados de la tabla). En este estudio hipotético, la
dencia de cáncer de pulmón. A lo largo del segui- estimación del riesgo de CI sería OR = (50 ⫻ 900)
miento, es muy probable que se produzcan pérdidas /(700 ⫻ 80) = 0,80. Dado que la OR es inferior a 1,
de seguimiento con mayor frecuencia en la cohor- este resultado parece sugerir que la HTA habría
te de fumadores debido a la aparición de problemas actuado como un factor protector de la CI. Por estos

272
SESGOS

Tabla 29.3. Resultados de un estudio hipotético en el que se compara la incidencia


de cardiopatía isquémica (CI) de dos cohortes de 1.000 sujetos, seguidas durante 10 años

Vivos con CI Muertos por CI Vivos sin CI Total

Expuestos 50 250 700 1.000


No expuestos 80 20 900 1.000
Total 130 270 1.600 2.000

motivos, en los estudios de casos y controles sobre Ejemplo 29.5. Un ejemplo clásico de este tipo de ses-
una enfermedad con elevada mortalidad deben utili- go es el estudio sobre el riesgo de tromboembolia
zarse siempre casos incidentes. pulmonar (TP) asociado al uso de anticonceptivos
orales (AO). En el primer estudio de casos y contro-
M UESTRA NO REPRESENTATIVA les publicado sobre esta asociación (Sartwell et al,
DE LA POBLACIÓN DE ESTUDIO 1969), se discutió que una posible explicación era el
La selección de una muestra no representativa es una hecho de que algunos médicos conocían la hipótesis
causa frecuente de sesgo de selección en los estudios de trabajo y, en consecuencia, las usuarias de AO te-
transversales, aunque también puede presentarse en nían mayor probabilidad de ser ingresadas con el
los estudios analíticos. Se introduce en el proceso diagnóstico de TP y, además, podían haber sido some-
de selección de la muestra a partir de la población de tidas a un mayor número de pruebas para diagnosticar
estudio. o descartar la enfermedad que las mujeres del grupo
control. Si esto hubiera sucedido realmente, la obser-
Ejemplo 29.4. Consideremos que se realiza un estu- vación de una mayor frecuencia de uso de AO en las
dio transversal para estimar la prevalencia de un pro- mujeres con TP podría explicarse, al menos en parte,
blema de salud (p. ej., hipercolesterolemia) en una porque la hospitalización y la determinación del
comunidad determinada. Si se selecciona la muestra diagnóstico habrían estado influidas por el uso de AO.
a partir de los individuos que acuden espontánea-
mente a los centros sanitarios públicos por cualquier PARTICIPACIÓN DE VOLUNTARIOS
motivo, probablemente se obtendrá una estimación O EFECTO DE AUTOSELECCIÓN
sesgada de la prevalencia, ya que las personas que Cuando se decide utilizar voluntarios en un estudio,
consultan no son representativas de la población debe tenerse en cuenta que pueden introducir un
general, ni las que lo hacen en centros públicos son sesgo, ya que estos sujetos habitualmente son dife-
comparables a las que acuden a centros privados. rentes de los no voluntarios (autoselección). Si la
voluntad de participar está relacionada con factores
En este tipo de estudios debe identificarse clara- que pueden influir sobre la relación que se estudia, la
mente la población de estudio y obtener una muestra selección de este tipo de sujetos puede conducir a
de ella mediante una técnica de selección que tienda una estimación sesgada.
a asegurar su representatividad y prever estrategias
para reducir el número de no respuestas. Ejemplo 29.6. Un ejemplo de este tipo de sesgo es la
evaluación del efecto de la vacuna antipolio de Salk.
S ESGO DE DETECCIÓN Se utilizaron dos diseños diferentes para valorar la
El sesgo de detección se produce cuando el proce- eficacia de la vacuna (Meier, 1978). En algunas comu-
dimiento utilizado para identificar la presencia de nidades, se asignaron los niños al azar para recibir la
la respuesta varía o se modifica según la presencia o la vacuna o una inyección de placebo. Sin embargo,
ausencia del factor de estudio. Por ejemplo, en los es- otras comunidades rehusaron participar en un ensa-
tudios de casos y controles, este sesgo podría presentar- yo clínico aleatorio, pero estuvieron de acuerdo en
se si los casos fueran individuos en los que la presencia que la vacuna se podía dar a los niños de familias que
de enfermedad hubiera tenido mayor probabilidad de mostraban su interés en recibirla y que los demás
diagnosticarse por la presencia de la exposición. podían servir de control. Al analizar los datos, los

273
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

investigadores encontraron que las familias que mo (o expuesto/no expuesto en los estudios de
voluntariamente aceptaron la participación de sus cohortes). Cuando los errores de clasificación no son
hijos tenían un nivel de estudios superior e ingresos independientes se habla de mala clasificación diferen-
económicos mayores que los del grupo control. cial, y cuando lo son, de mala clasificación no diferencial.
Aunque estas variables se puedan controlar en el aná-
lisis, da idea de que ha existido una cierta selección E RROR DE CLASIFICACIÓN
por múltiples factores, algunos de ellos no medidos, NO DIFERENCIAL
y que pueden sesgar la estimación del efecto, en este Cuando la proporción de sujetos clasificados erró-
caso, la eficacia de la vacuna. neamente es similar en cada uno de los grupos de
estudio, se produce un error de clasificación no dife-
Este proceso de selección puede producirse antes rencial. Un ejemplo de esta situación es el empleo de
de que los sujetos sean identificados para su inclusión una técnica poco sensible para medir la exposición al
en el estudio. Por ejemplo, es bien conocido que la factor de riesgo, que se aplica por igual a los indivi-
mortalidad de los trabajadores en activo es menor duos de ambos grupos.
que la de la población de la misma edad y sexo en su Todos los estudios de investigación clínica y epi-
conjunto. Este efecto del trabajador sano se debe pre- demiológica tienen siempre algún grado de mala cla-
sumiblemente a un fenómeno de autoselección, que sificación de la exposición al factor de estudio o de la
permite a la gente que goza de buena salud conver- variable de respuesta, ya que generalmente es impo-
tirse en (o mantenerse como) trabajador en activo, sible utilizar un proceso de medición que sea a la vez
en tanto que los que permanecen desempleados, reti- 100% sensible y 100% específico.
rados, incapacitados o de algún modo fuera de la Los errores de clasificación no diferenciales tien-
población trabajadora activa son, en general, un den a producir una infraestimación de la verdadera
grupo que goza de menos salud. diferencia o asociación, es decir, que la estimación
estará sesgada hacia la unidad cuando se expresa en
medidas relativas, o hacia el cero si se expresa como
SESGOS DE INFORMACIÓN
una diferencia absoluta. Por esta razón, para la validez
Se producen cuando la información sobre el factor de un estudio estos errores suelen considerarse como
de estudio o la variable de respuesta es errónea o se una amenaza menor que los errores diferenciales. Sin
recoge de forma sistemáticamente diferente entre los embargo, pueden ser un problema importante, ya
grupos de estudio. Son causas frecuentes el uso de que pueden explicar algunas discrepancias entre los
instrumentos de medida inadecuados o de definicio- resultados de diferentes estudios epidemiológicos.
nes poco válidas o precisas de las variables, los errores El grado de infraestimación que producen depen-
introducidos por los encuestadores o por el personal de no sólo de la sensibilidad y la especificidad del ins-
que recoge la información, o errores debidos a los trumento de medida utilizado, sino también de la
propios participantes en el estudio, como el sesgo de prevalencia de la exposición.
memoria. En el diseño del estudio debe preverse su
aparición, utilizando definiciones e instrumentos de Ejemplo 29.7. Supongamos un estudio en que se
medida válidos y asegurando que el personal que los mide la exposición al factor de estudio con un instru-
aplica lo haga de igual forma en los distintos grupos. mento que tiene una sensibilidad del 90% y una espe-
Cuando la finalidad de un estudio es la estimación cificidad del 90%, y en el que la prevalencia de expo-
de un parámetro en una muestra de sujetos, la pre- sición es del 50%. Si la verdadera magnitud de la
sencia de un sesgo de este tipo conduce a la obten- asociación entre la exposición y la enfermedad fuera
ción de un resultado no válido. En los estudios analí- OR = 5, en el estudio se observaría una OR = 3,29. Si
ticos, la introducción de un sesgo de información la prevalencia de exposición fuera del 1%, el valor
conduce a una mala clasificación de los sujetos res- de la OR observado en el estudio sería de 1,33.
pecto al factor de estudio o a la variable de respuesta.
Las consecuencias son diferentes según si el error de Este hecho puede ser importante cuando se reali-
clasificación respecto al estado de expuesto/no za un ajuste por factores de confusión, ya que, si la
expuesto en los estudios de casos y controles (o de prevalencia de la exposición es diferente en cada una
enfermo/no enfermo en los estudios de cohortes) es de las categorías por las que se estratifica, el efecto del
o no independiente del estado de enfermo/no enfer- error de medida será diferente en cada una de ellas.

274
SESGOS

En el ejemplo 29.7 puede verse que, si la prevalencia entrevista o un cuestionario, y los casos recuerdan sus
de exposición fuera del 1% en una categoría del fac- antecedentes de forma diferente a los controles.
tor de confusión y del 50% en la otra, se obtendrían También puede producirse cuando los individuos
OR de 1,3 y 3,3, respectivamente, lo cual daría la falsa expuestos a algún riesgo (ocupacional, ambiental,
impresión de que existe una modificación de efecto, etc.) informan sobre el desarrollo de problemas de
cuando en realidad la OR es de 5 en ambas situacio- salud de forma diferente a como lo hacen los que no
nes. Por lo tanto, si la variable de confusión se ha están expuestos. Este tipo de sesgo es especialmente
medido sin error, pero la exposición (o la respuesta) problemático en los estudios de casos y controles, y en
se ha medido incorrectamente, los resultados deben los retrospectivos de cohortes, ya que tanto la exposi-
interpretarse con cautela, ya que pueden ser artefac- ción como la enfermedad ya han ocurrido, y puede
tos producidos por el error de medida. Cuando es la conducir tanto a una sobrestimación como a una
propia variable de confusión la que está sujeta a un infraestimación de la asociación entre la exposición y
error de medida no diferencial se puede observar la la enfermedad, dependiendo de si los casos recuer-
misma falsa apariencia de modificación del efecto del dan su exposición mejor o peor que los controles.
factor de estudio sobre la respuesta.
Otra posible consecuencia del error de medición Ejemplo 29.8. En un estudio realizado en madres de
de una variable de confusión es que, al ajustar la esti- niños con malformaciones congénitas, se obtuvo
mación por dicha variable, puede quedar un efecto información mediante una entrevista personal sobre
de confusión residual. 8 posibles exposiciones durante el embarazo y se
Los ejemplos y comentarios anteriores ilustran los comparó con la información registrada en la historia
peligros de la utilización de medidas de baja calidad, clínica del obstetra (Werler et al, 1989). Se consiguió
no sólo a la hora de clasificar a los individuos según la misma información, y de las mismas fuentes, de
su exposición al factor de riesgo o su estado de enfer- un grupo de madres de hijos sin malformaciones,
medad, sino incluso de las variables de confusión por que sirvió de control. La información sobre 5 de las
las que se va a ajustar. 8 exposiciones fue igual de exacta en los casos que en
En la interpretación de los resultados de un estu- los controles, pero la historia de infección durante el
dio que no ha observado un efecto, debe tenerse en embarazo, de infertilidad tratada o no, y del uso de
cuenta la posibilidad de que se haya introducido un métodos anticonceptivos durante dos semanas o más
sesgo de clasificación no diferencial, para evaluar en después del último período menstrual, fue mucho
qué medida podría haber enmascarado un efecto más exacta en los casos que en los controles.
real. Por el contrario, tiene menos importancia en Otro tipo de sesgo diferencial es el debido al
estudios en los que se ha observado un efecto impor- entrevistador o a la persona que recoge la informa-
tante, ya que este sesgo lo que produce es una infraes- ción, que aparece cuando existe alguna diferencia sis-
timación del mismo. Consecuentemente, en términos temática en la forma en que solicita, recoge o inter-
generales, no es correcto desdeñar un estudio que ha preta los datos procedentes de los participantes en
observado un efecto simplemente por el hecho de un estudio, en función del grupo al que pertenecen.
que exista un error de clasificación no diferencial.
Ejemplo 29.9. En un estudio de casos y controles cuyo
E RROR DE CLASIFICACIÓN objetivo era evaluar la hipótesis de que la endometrio-
DIFERENCIAL sis predispone a la infertilidad, se revisaron las historias
Los errores de clasificación diferencial pueden ir clínicas de 100 mujeres en las que se había practicado
tanto en la dirección de infraestimar la magnitud de una laparoscopia a causa de una infertilidad (Strathy et
la asociación o de la diferencia, como en la dirección al, 1982). En 21 de ellas se diagnosticó endometriosis.
de sobrestimarla. Como grupo control eligieron a 200 mujeres a las que
Un ejemplo de error de clasificación diferencial es se había prácticado una laparoscopia para una ligadura
el denominado sesgo de memoria, que se produce cuan- de trompas. En este grupo control sólo se diagnosticó
do los individuos con un determinado problema de endometriosis en 4 mujeres, lo que suponía una OR =
salud recuerdan su historia de exposición de forma 13. Se puede argumentar que la información sobre la
distinta a cómo la recuerdan aquellos que no tienen endometriosis no es comparable en los casos y en los
dicho problema. Suele producirse cuando se recoge controles. No es lo mismo su búsqueda cuando la lapa-
la información sobre la exposición mediante una roscopia se realiza a causa de infertilidad que por liga-

275
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

dura de trompas. Probablemente, en el primer caso se por razones prácticas o éticas, no se utiliza un diseño
buscó con más insistencia, dando lugar a un sesgo de controlado con placebo ni técnicas de enmascara-
información que sobrevaloraba la asociación. De todos miento.
modos, si este sesgo se corrige es muy probable que esta
fuerte asociación disminuya, pero no que desaparezca. Ejemplo 29.11. En un estudio de casos y controles
Por el contrario, si la asociación que se está estudiando sobre el efecto protector de la aspirina frente al infar-
es débil, la introducción de un sesgo puede alterar to agudo de miocardio se pueden introducir pregun-
totalmente la interpretación de los resultados. Un estu- tas sobre la frecuencia de otros medicamentos
dio positivo puede pasar a ser negativo, y viceversa, analgésicos, de los que no se tenga constancia de que
dependiendo de la dirección del sesgo. Así pues, no muestren ningún efecto sobre la enfermedad. Si los
sólo hay que valorar la posible existencia de errores sis- casos y los controles difieren en la frecuencia de uso
temáticos, sino también su magnitud. de estos fármacos se puede sospechar que se ha co-
metido un sesgo de información. Si son dos o más las
Un encuestador puede introducir un error de cla- personas que recogen la información, otra estrategia
sificación diferencial, si conoce la hipótesis del estu- para evaluar la posible existencia de un sesgo de in-
dio y la condición (de expuesto o enfermo, según el formación es comparar los resultados obtenidos por
tipo de estudio) del entrevistado. En esta situación cada una de ellas. Si se observan diferencias respecto
puede obtener información de los individuos de a la frecuencia de exposición o en otras variables, se
forma diferente (más exacta o más exhaustiva) según pensará que existe un sesgo debido al entrevistador.
al grupo de estudio al que pertenezcan. En la tabla 29.4 se resumen los principales efectos
de los errores de mala clasificación tanto diferencia-
Ejemplo 29.10. Aunque el objetivo de un estudio de les como no diferenciales.
casos y controles era la evaluación del efecto del con-
sumo de alcohol sobre el infarto de miocardio, se
explicaba a los participantes que se trataba de una
investigación sobre factores de riesgo de la hospitali- Tabla 29.4. Principales efectos de la mala
zación. De esta forma, aunque los participantes sa- clasificación
bían que habían sufrido un infarto de miocardio, no
lo relacionaban con la hipótesis de estudio. Por otro • Cuando la enfermedad se clasifica como presente
lado, los investigadores obtenían información no o ausente, la mala clasificación no diferencial
sólo sobre el consumo de alcohol, sino también hace que se diluya la asociación y en
sobre otros factores, lo que servía, así mismo, para consecuencia se infraestima el efecto de interés
que los participantes no pudieran relacionar el con- • Cuando la exposición se clasifica en dos
sumo de alcohol como el único factor de riesgo en categorías, la mala clasificación no diferencial
estudio. De esta forma se minimizaba la probabili- infraestima la asociación
dad de un sesgo de memoria o de un sesgo debido al • Cuando la exposición se clasifica en más de dos
encuestador. categorías, la mala clasificación no diferencial
puede sobrestimar o infraestimar la asociación
En los estudios de casos y controles, el sesgo debi-
• La mala clasificación diferencial de la
do al entrevistador se produce al recoger datos sobre
enfermedad o la exposición pueden conducir
la historia de exposición, dado que el conocimiento
a un sesgo en cualquier dirección (sobrestimar
de si se está entrevistando a un caso o a un control
o infraestimar la asociación)
puede condicionar la forma en que se recoge. Por la
misma razón, en los estudios restrospectivos de • La mala clasificación de un factor de confusión
cohortes también puede aparecer un sesgo debido al conducirá a una ajuste incorrecto
entrevistador, cuando se recoge información sobre la • La mala clasificación de un factor de confusión
exposición. En los estudios prospectivos de cohortes, puede dar lugar a estimaciones diferentes según
el sesgo debido al entrevistador se puede dar en el las categorías de la variable de confusión,
momento de recoger información sobre la enferme- introduciendo una modificación espúrea
dad (variable de respuesta). Este sesgo también pue- del efecto
de aparecer en estudios experimentales en los que,

276
SESGOS

B IBLIOGRAFÍA DE LOS EJEMPLOS Maldonado G, Greenland S. Estimating causal effects. Int


Meier P. The biggest public health experiment ever. En: J Epidemiol 2002; 31: 422-429.
Tanur JM, ed. Statistics: a guide to the unknown. 20.a ed. Marcus SM. Assessing non-consent bias with parallel ran-
Holden-Day, 1978; 3-15. domized and nonrandomized clinical trials. J Clin
Sartwell PE, Masi AT, Arthes FG et al. Tromboembolism and Epidemiol 1997; 50: 823-828.
oral contraceptives: an epidemiologic case-control Marshall RJ. An empirical investigation of exposure mea-
study. Am J Epidemiol 1969; 90: 365-380. surement bias and its components in case-control stud-
Strathy JH, Molgaard CA, Coulam CB et al. Endometriosis ies. J Clin Epidemiol 1999; 52: 547-550.
and infertility: a laparoscopic study of endometriosis Nishioka SA, Gyorkos TW, Joseph L, Collet JP. Selection of
among fertile and infertile women. Fertil Steril 1982; 38: subjects for hospital-based epidemiologic studies based
667-672. on outward manifestations of disease. Clin Invest Med
Werler M, Pober B, Nelson K, Holmes L. Reporting accura- 2001; 24: 299-303.
cy among mothers of malformed and nonmalformed Patten SB. Selection bias in studies of major depression
infants. Am J Epidemiol 1989; 129: 415-421. using clinical subjects. J Clin Epidemiol 2000; 53: 351-
357.
B IBLIOGRAFÍA Phillips CV. Quantifying and reporting uncertainty from sys-
Berger VW, Exner DV. Detecting selection bias in random- tematic errors. Epidemiology 2003; 14: 459-466.
ized clinical trials. Control Clin Trials 1999; 20: 319-327. Richiardi L, Boffetta P, Merletti F. Analysis of nonresponse
Chalmers I. Comparing like with like: some historical mile- bias in a population-based case-control study on lung
stones in the evolution of methods to create unbiased cancer. J Clin Epidemiol 2002; 55:1033-1040.
comparison groups in therapeutic experiments. Int J Rockenbauer M, Olsen J, Czeizel AE, Pedersen L, Sorensen
Epidemiol 2001; 30: 1156-1164. HT, EuroMAP Group. Recall bias in a case-control sur-
Greenland S. An introduction to instrumental variables for veillance system on the use of medicine during preg-
epidemiologists. Int J Epidemiol 2000; 29: 722-729. nancy. Epidemiology 2001; 12: 461-466.
Grimes DA, Schulz KF. Bias and causal associations in obser- Selby JV, Friedman GD, Quesenberry CP, Weiss NS. Ascer-
vational research. Lancet 2002; 359(19): 248-252. tainment bias in case-control studies of cancer screen-
Infante-Rivard C, Jacques L. Empirical study of parental ing. J Clin Epidemiol 2001; 54: 215-216.
recall bias. Am J Epidemiol 2000; 152: 480-486. Sturmer T, Thurigen D, Spiegelman D, Blettner M, Brenner
Lash TL, Silliman RA. A sensitivity analysis to separate bias H. The performance of methods for correcting mea-
due to confounding from bias due to predicting mis- surement error in case-control studies. Epidemiology
classification by a variable that does both. Epidemiology 2002; 13: 507-516.
2000; 11: 544-549. Touloumi G, Pocock SJ, Babiker AG, Darbyshire JH. Impact
Longford NT. Selection bias and treatment heterogeneity of missing data due to selective dropouts in cohort stud-
in clinical trials. Stat Med 1999; 18: 1467-1474. ies and clinical trials. Epidemiology 2002; 13: 347-355.
Lundberg M, Hallqvist J, Diderichsen F. Exposure-depen- White E. Design and interpretation of studies of differential
dent misclassification of exposure in interaction analy- exposure measurement error. Am J Epidemiol 2003;
ses. Epidemiology 1999; 10: 545-549. 157: 380-387.

277
Capítulo 30
Confusión y modificación del efecto

a finalidad del análisis de los resultados de un incluidos es muy pequeño. Por lo tanto, la signifi-

L estudio es obtener la mejor estimación posible


del efecto, diferencia o asociación de interés,
para lo que se debe tener en cuenta la existencia de
cación estadística no es un buen criterio para con-
siderar que una variable puede ser un potencial
factor de confusión. Lo que cuenta es la posible
factores modificadores de dicho efecto y controlar relevancia que pueda tener sobre los resultados la
la influencia de los factores de confusión. diferente distribución de una variable entre los
grupos. Además, no debe olvidarse que múltiples
CONFUSIÓN diferencias de escasa importancia aparente pue-
den producir una distorsión del resultado clínica-
La confusión puede definirse como la distorsión que mente relevante, al actuar de forma conjunta.
se produce en la estimación de la magnitud de la aso-
ciación entre el factor de estudio y la variable de res- Ejemplo 30.1. Supongamos un ensayo clínico alea-
puesta, debida a la influencia de uno o varios facto- torio, en el que 50 individuos son asignados al azar
res externos. a dos grupos, uno que recibe el tratamiento A,
Como ya se ha explicado en páginas anteriores, y otro que recibe el tratamiento B, observándose
para producir confusión, una variable debe estar un desequilibrio en el porcentaje de mujeres que
asociada tanto con el factor de estudio como con la han quedado asignadas a cada grupo (el 60% en el
variable de respuesta, y no debe formar parte de tratamiento A frente al 40% en el tratamiento B).
la cadena causal entre ellos. Por tanto, deben consi- Esta diferencia no es estadísticamente significativa
derarse potenciales factores de confusión las varia- (p = 0,20), debido, probablemente, al reducido ta-
bles por las que difieren los grupos que se compa- maño de la muestra, pero, si el sexo fuera una
ran y que son pronósticas de la respuesta. variable pronóstica del resultado, la magnitud de la
Su identificación no debe basarse en la existen- diferencia podría ser lo suficientemente relevante
cia de una diferencia estadísticamente significativa como para distorsionar el resultado del estudio.
entre los grupos de estudio. Dado que la significa-
ción estadística depende tanto de la magnitud de la Además de identificar los potenciales factores
diferencia observada como del tamaño de la mues- de confusión, es conveniente tener en cuenta su
tra, una diferencia muy pequeña e irrelevante dirección, es decir, cómo pueden afectar a los re-
puede ser estadísticamente significativa si el sultados.
tamaño de los grupos es muy grande, y una dife-
rencia de gran importancia puede ser estadística- Ejemplo 30.2. Supongamos un estudio que evalúa
mente no significativa si el número de sujetos las diferencias en las concentraciones de colesterol

278
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO

ligado a las lipoproteínas de alta densidad (cHDL) el riesgo de desarrollar un infarto agudo de miocar-
entre enfermos con sarcoidosis activa y los que no dio (IAM) es el consumo de tabaco. En un estudio
presentan actividad. Se observa que los pacientes sobre esta asociación no sería suficiente recoger
con enfermedad activa tienen unas concentracio- información sobre si un individuo fuma, ya que no
nes de cHDL más bajas y que a su vez el porcentaje podría controlarse toda la distorsión debida a la can-
de mujeres es más alto que en el grupo con enfer- tidad de tabaco consumido, de manera que que-
medad inactiva. Es conocido, por estudios previos, daría un fenómeno de confusión residual sin con-
que las mujeres tienen unas concentraciones de trolar, al considerar que todos los fumadores tienen
cHDL superiores a las de los hombres. Si no se ajus- el mismo riesgo, sin tener en cuenta el gradiente de
taran las diferencias observadas de cHDL en fun- riesgo asociado a la cantidad de tabaco consumido.
ción del sexo, se obtendría como resultado un
efecto observado menor que el verdadero. Por el Dado que los factores de confusión son una
contrario, en otras ocasiones, no ajustar por facto- amenaza constante a la validez de los datos de un
res de confusión puede suponer obtener en el estu- estudio, no sólo es necesario considerar qué varia-
dio una asociación mayor que la verdadera. bles pueden confundir una asociación, sino tam-
bién medirlas de forma válida y precisa.
Desde un punto de vista práctico, la presencia
de un fenómeno de confusión puede detectarse
AJUSTE POR FACTORES DE CONFUSIÓN
comprobando si el análisis bruto (sin tener en
cuenta el factor de confusión) y el ajustado (con- Aunque el ajuste puede realizarse en la fase de aná-
trolando el potencial fenómeno de confusión) lisis, también pueden utilizarse estrategias en el
conducen a resultados que difieren de forma clíni- diseño del estudio destinadas a evitar o reducir la
camente relevante. La evaluación de la confusión confusión (tabla 30.1). Estos procedimientos pue-
no se basa, pues, en una prueba estadística, sino en den utilizarse en diferentes combinaciones para
la valoración de lo relevante que pueda considerar- aumentar el grado de control.
se la diferencia entre ambas estimaciones. Aunque
es difícil fijar un criterio único para concluir que ha
existido confusión, ya que depende de cada situa- Tabla 30.1. Métodos para controlar factores
ción concreta, algunos autores lo establecen en un de confusión
cambio de un 15-20% en la estimación del efecto
de interés. Sin embargo, debe tenerse en cuenta En la fase de diseño:
que lo importante no es tanto identificar si ha exis- • Asignación aleatoria
tido confusión, sino, en caso de que se haya produ- • Restricción
cido, obtener una estimación no distorsionada de
la magnitud del efecto del factor de estudio sobre la En la fase de diseño y análisis:
• Emparejamiento
variable de respuesta, es decir, que se haya contro-
lado su influencia (estimación ajustada). En la fase de análisis:
Aunque en la fase de análisis puede ajustarse por • Análisis estratificado
las variables de confusión, no hay que olvidar que ya • Análisis multivariante
en el diseño se debe tener en cuenta qué variables
pueden actuar como tales, para medirlas. Esta iden-
tificación depende del conocimiento que se tenga T ÉCNICAS DE CONTROL DE FACTORES
de los mecanismos causales, así como de estudios DE CONFUSIÓN EN EL DISEÑO
previos que se hayan realizado sobre una hipótesis Dado que para que una variable actúe como un
similar. La información que se recoge sobre ellos factor de confusión es necesario que se distribuya
debe ser lo suficientemente detallada como para de forma desigual entre los grupos de estudio, las
permitir su adecuado control en el análisis. técnicas que buscan conseguir su distribución
equilibrada tienden a prevenir su aparición. Sin
Ejemplo 30.3. Supongamos que un posible factor de embargo, no todas estas técnicas pueden utilizarse
confusión de la asociación entre el ejercicio físico y en todos los tipos de estudio.

279
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Asignación aleatoria sión, se emparejará cada caso con un control, o más


En los ensayos clínicos, la asignación aleatoria de de uno, que tenga el mismo hábito tabáquico.
los sujetos a los grupos de estudio tiende a conse- El emparejamiento fuerza que la distribución de
guir grupos similares para todas las variables los factores de confusión sea idéntica entre los dis-
pronósticas del resultado, ya que el único factor tintos grupos del estudio, lo que obliga a utilizar en
que inter viene en su distribución es el azar. De el análisis técnicas estadísticas que tengan en cuen-
todos modos, aunque tiende a conseguir grupos ta la naturaleza apareada de los datos para poder
similares, no lo asegura. Cuando se trata de grupos controlar el efecto del factor de confusión.
pequeños, la probabilidad de que las variables se Esta técnica tiene limitaciones. Puede ser muy
distribuyan desigualmente y puedan actuar como difícil encontrar los controles adecuados, especial-
factores de confusión es mayor (ejemplo 30.1). Por mente si se desea emparejar por muchas variables.
ello, debe comprobarse la comparabilidad de los Además, imposibilita evaluar el efecto de las varia-
grupos y, en caso de que existan potenciales facto- bles por las que se ha emparejado.
res de confusión, ajustar el análisis por ellos. El desarrollo de las técnicas de análisis de tipo
multivariante, que permiten controlar los factores
Restricción de confusión sin necesidad de recurrir al empareja-
Una forma de conseguir grupos comparables respec- miento, ha disminuido el atractivo de este método.
to a la distribución de una determinada variable es
restringiendo la selección de los sujetos del estudio. T ÉCNICAS DE AJUSTE POR FACTORES
Por ejemplo, si el sexo es un potencial factor de con- DE CONFUSIÓN
fusión, se puede decidir incluir sólo a mujeres. En El procedimiento de control de factores de confusión
ocasiones, la restricción reduce la influencia de una en la fase de análisis se conoce como ajuste estadístico.
variable, pero no la elimina totalmente. Por ejemplo, La estrategia de análisis debe prever y especificar las
aunque en un estudio se restrinja la inclusión a los técnicas que se utilizarán con esta finalidad.
sujetos de edades entre 40 y 60 años, si existe un gra-
diente de riesgo asociado a la edad (el riesgo de los Ejemplo 30.4. Müllner et al (2002) revisaron 537 ar-
sujetos de 60 años es diferente del de los de 40 años) tículos originales publicados en 34 revistas médicas,
y esta variable se distribuye de forma desequilibrada de los que 169 (32%) informaban que habían reali-
en los grupos de estudio, no se ha eliminado comple- zado algún tipo de ajuste por factores de confusión.
tamente el efecto de la edad, pudiendo quedar cierto En un 45% de casos no quedaba claro cómo se ha-
fenómeno de confusión residual. bían controlado las variables continuas o de múlti-
El uso de criterios de selección restrictivos tiene ples categorías, es decir, si se habían clasificado en
el inconveniente de que reduce el número de suje- intervalos o se habían agregado categorías, de ma-
tos candidatos, lo que puede suponer una dificul- nera que no podía evaluarse si se había controlado
tad para alcanzar el tamaño de la muestra necesario todo el fenómeno de confusión que podían haber
para el estudio en un tiempo razonable. producido. La conclusión que se extrae es que los
Además, limita la capacidad de generalización artículos frecuentemente no informan de los méto-
de los resultados, al haber utilizado criterios de se- dos de ajuste o lo hacen inadecuadamente.
lección restrictivos, y no permite evaluar el efecto
de las variables no consideradas (p. ej., si el estudio Análisis estratificado
sólo incluye mujeres, no podrá analizarse si el efec- La estratificación permite evaluar la asociación
to del factor de estudio es diferente en los varones). entre el factor de estudio y la variable de respuesta
dentro de categorías homogéneas (estratos) de una
Emparejamiento tercera variable. Si se evalúa la asociación entre ejer-
Esta técnica implica que los sujetos del grupo de es- cicio físico e infarto agudo de miocardio (IAM) en
tudio y los del de control se emparejan en función los hombres y en las mujeres por separado, su esti-
de los valores de un determinado factor de confu- mación no estará interferida por la variable sexo, ya
sión. Por ejemplo, si en un estudio de casos y con- que en cada estrato no existirá variabilidad por este
troles sobre el ejercicio físico y el riesgo de IAM, el factor, de forma que se habrá eliminado su poten-
consumo de tabaco es un potencial factor de confu- cial efecto de confusión. Si no existen diferencias en

280
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO

las estimaciones obtenidas en cada estrato, es prefe- dio, la estimación del riesgo de IAM asociado a la
rible presentar los resultados como una estimación práctica de ejercicio físico, ajustada por el consumo
conjunta del efecto entre el ejercicio físico y el IAM de tabaco, es de 0,834. Como este valor es sensible-
que haya tenido en cuenta la influencia del sexo, es mente diferente del obtenido con los datos crudos
decir, ajustada (ponderada según los estratos). (OR = 0,65), puede decirse que existe fenómeno de
confusión por el consumo de tabaco.
Ejemplo 30.5. Supongamos un estudio sobre la aso-
ciación entre ejercicio físico e infarto agudo de mio- Como ya se ha comentado, la magnitud de un
cardio (IAM), en el que se considera que el con- efecto de confusión se evalúa observando el grado
sumo de tabaco puede ser un potencial factor de de discrepancia entre las estimaciones crudas y las
confusión. Para controlar su efecto, se divide esta va- ajustadas, y valorando no su significación estadísti-
riable en categorías homogéneas (estratos), en cada ca, sino su relevancia clínica. En el ejemplo ante-
una de las cuales se analiza el efecto del ejercicio físi- rior, como las estimaciones cruda y ajustada difie-
co sobre la enfermedad. Aunque las categorías de ren (0,65 y 0,83, respectivamente), si se considera
consumo de tabaco podrían ser múltiples (p. ej., que la diferencia es clínicamente relevante, puede
nunca fumador, fumador de < 10 cigarrillos/día, decirse que ha existido efecto de confusión debido
fumador de > 10 cigarrillos/día y exfumador), para a la variable consumo de tabaco. La mejor estima-
ilustrar este ejemplo se han considerado tan sólo ción es la ajustada, ya que ha controlado este fenó-
dos estratos: no fumador y fumador. meno de confusión.
De los datos de la tabla 30.2 se desprende que el El análisis estratificado es una técnica sencilla, ase-
ejercicio físico es un factor protector del IAM tanto quible para los investigadores y los lectores de revistas
en fumadores como en no fumadores. La OR calcu- biomédicas, que permite comprender fácilmente las
lada en cada uno de los estratos es una estimación interrelaciones entre el factor de estudio, la respues-
de la asociación entre el ejercicio físico y el IAM en ta y las variables que pueden actuar como factores de
fumadores y en no fumadores. Dado que ambos re- confusión y/o modificadoras del efecto. Su principal
sultados son muy similares, es preferible obtener limitación es la dificultad para estratificar por múlti-
una estimación global ponderada que tenga en ples variables. Por ejemplo, si se desea controlar por
cuenta la información de todos los individuos inclui- tres variables (de 2, 3 y 5 categorías, respectivamen-
dos en el estudio. Cuando se trata de tablas 2  2, el te), existirán 30 posibles estratos y, aunque en el estu-
procedimiento más utilizado para realizar esta pon- dio se haya incluido un número importante de suje-
deración es el de Mantel y Haenszel. En este estu- tos, es muy posible que en algunos estratos no exista

Tabla 30.2. Ejemplo de análisis estratificado. Estudio hipotético de la asociación entre ejercicio físico
(EF) e infarto agudo de miocardio (IAM), con estratificación por el consumo de tabaco
(ejemplo 30.5)

Análisis de datos crudos


Casos Controles
EF sí 222 121
EF no 194 69 OR = 0,65
Análisis estratificado
Casos Controles
Fumadores EF sí 112 79
EF no 27 16 OR = 0,84
Casos Controles
No fumadores EF sí 110 42
EF no 167 53 OR = 0,83

OR ajustada (Mantel-Haenszel) = 0,834.

281
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

el número de efectivos suficiente para estimar un como variable de respuesta la disminución de las
efecto con una precisión aceptable. cifras de presión arterial diastólica (PAD). Los resul-
tados se resumen en la tabla 30.3. En el gru-
Análisis multivariante po con tratamiento activo, se ha observado un des-
El análisis multivariante supera esta limitación del censo de 25 mmHg, mientras que ha sido sólo de
análisis estratificado y permite estimar de forma efi- 10 mmHg en el grupo placebo, por lo que el efecto
ciente el efecto de un factor de estudio sobre una del tratamiento puede cuantificarse en una dismi-
enfermedad, ajustado por varios potenciales facto- nución de 15 mmHg (en la ecuación de regresión
res de confusión, simultáneamente. obtenida con los datos crudos, el coeficiente de la
Su uso implica la construcción de un modelo ma- variable tratamiento es 15).
temático, en el que deben identificarse la variable Dado que los investigadores consideran que el
dependiente (variable de respuesta), la variable in- sexo podría ser un factor de confusión, controlan
dependiente principal (factor de estudio) y el resto su efecto, obteniendo una estimación del efecto del
de las variables independientes (factores de confu- tratamiento de 5 mmHg tanto en hombres como
sión a controlar), y se determinan los valores de los en mujeres. Si se hubiera realizado un análisis mul-
coeficientes de regresión de cada una de las varia- tivariante se habría obtenido una ecuación de
bles independientes. El coeficiente del factor de es- regresión en la que el coeficiente de la variable tra-
tudio corresponde a la estimación de su efecto so- tamiento sería 5, una vez controlado el efecto de la
bre la variable de respuesta, ajustado por el resto de variable sexo (también incluida en la ecuación). El
las variables independientes incluidas en el modelo. coeficiente de la variable sexo indicaría la diferen-
cia en la respuesta observada entre hombres y mu-
Ejemplo 30.6. Supongamos un ensayo clínico jeres (obsérvese que la disminución de las cifras de
hipotético en el que se compara la eficacia de un tra- PAD en los hombres ha sido 20 mmHg superior a la
tamiento antihipertensivo con un placebo. Se utiliza conseguida en las mujeres).

Tabla 30.3. Ejemplo de análisis multivariante. Ensayo clínico hipotético que compara un fármaco
antihipertensivo con placebo. La variable de respuesta es la disminución de las cifras
de presión arterial diastólica (dif. PAD). Se estima el efecto del tratamiento con ajuste
por la variable sexo (ejemplo 30.6)

Análisis de datos crudos


Dif. PAD Efecto del tratamiento
Tratamiento activo 25 mmHg
Placebo 10 mmHg 15 mmHg
Ecuación de regresión lineal
Dif. PAD = 10 + 15·tratamiento
Códigos: tratamiento (0 = placebo; 1 = tratamiento activo)
Análisis estratificado
Hombres Dif. PAD Efecto del tratamiento
Tratamiento activo 30 mmHg
Placebo 25 mmHg 5 mmHg

Mujeres Dif. PAD Efecto del tratamiento


Tratamiento activo 10 mmHg
Placebo 5 mmHg 5 mmHg
Ecuación de regresión lineal
Dif. PAD = 5 + 5·tratamiento + 20·sexo
Códigos: tratamiento (0 = placebo; 1 = tratamiento activo)
sexo (0 = mujer; 1= hombre)

282
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO

En este ejemplo puede decirse que ha existido Información inadecuada sobre la


un fenómeno de confusión debido al sexo, ya que variable de confusión
los coeficientes de regresión de la variable trata-
Agrupación inadecuada de los datos
miento, calculados en el modelo con datos crudos y
en el modelo que incluye también la variable sexo, Cuando las categorías que se crean son demasiado
difieren (15 y 5, respectivamente). Dado que el ob- amplias y dentro de cada una de ellas existe cierta
jetivo del estudio es estimar el efecto del tratamien- heterogeneidad o gradiente de riesgo, el ajuste no
to activo, el mejor resultado es el ajustado por el controla todo el fenómeno de confusión y queda
sexo, es decir, 5 mmHg. cierto efecto residual (ejemplo 30.3).

Existen diferentes técnicas de análisis multiva- Utilización de medidas indirectas


riante. La elección de la más adecuada depende del poco válidas
diseño del estudio, de la naturaleza de las variables Dadas las dificultades para medir algunos de los fe-
y de las interrelaciones entre el factor de estudio, la nómenos de interés, suelen utilizarse medidas indi-
variable de respuesta y los restantes factores inclui- rectas. Cuando se ajusta por ellas, no se controla
dos en el modelo, y de las condiciones específicas todo el efecto de dicho fenómeno, y queda cierta
de aplicación de cada una de ellas (anexo 8). confusión residual.

P ROBLEMAS DEL AJUSTE POR FACTORES Ejemplo 30.7. Supongamos que se quiere estudiar la
DE CONFUSIÓN relación entre la dieta y el cáncer de mama y se
La mayoría de los estudios clínicos y epidemiológi- desea ajustar la estimación del efecto por la clase so-
cos presentan estimaciones del efecto ajustadas por cioeconómica. Si se utiliza como medida indirecta
las variables consideradas como potenciales facto- de esta variable el grado de estudios, dado que éste
res de confusión. Sin embargo, el hecho de haber no la representa adecuadamente, el ajuste de los
ajustado por algunas variables no garantiza que se datos sólo será parcial.
haya eliminado cualquier efecto de confusión. Pue-
den existir algunos problemas relacionados con la Mala clasificación de las variables
información de las variables de confusión o con el de confusión
uso de técnicas estadísticas inadecuadas, que pue- Cuando las variables de confusión se miden de for-
den conducir a fallos en el ajuste (tabla 30.4). ma imprecisa o poco válida, sus relaciones con el
resto de las variables no se estiman correctamente,
de forma que, al ajustar por ellas, no se controla to-
talmente el fenómeno de confusión, y también
Tabla 30.4. Problemas en el ajuste por factores puede quedar un efecto de confusión residual.
de confusión
Ejemplo 30.8. Supongamos un estudio que desea
– Información inadecuada sobre la variable estimar el efecto del consumo de tabaco sobre el
de confusión
riesgo de padecer un infarto agudo de miocardio
• Agrupación inadecuada de los datos
(IAM). Los investigadores sospechan que la asocia-
• Utilización de medidas indirectas poco válidas
ción puede ser total o parcialmente explicada por la
• Mala clasificación de las variables de confusión
influencia de la práctica de ejercicio físico. Asuma-
– Variables muy correlacionadas mos que el 10% de los hombres no realizan activi-
– Existencia de modificación de efecto dad física. La tabla 30.5a muestra los resultados que
– Variable intermedia en la cadena causal se obtendrían cuando no hay mala clasificación.
Para ajustar correctamente por un factor de con-
– Variables que no son factores de confusión fusión, los instrumentos de medida deberían ser
– Pruebas estadísticas inadecuadas per fectos. En la práctica, la medición del grado de
– Selección automática de variables en un modelo actividad física es difícil y puede cambiar en el tiem-
de regresión po. Además, pueden existir errores de información
debidos al instrumento de medida utilizado, al pro-

283
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 30.5. Efecto de los errores de medida del factor de confusión sobre el ajuste. Estudio hipotético
del efecto del consumo de tabaco sobre el riesgo de infarto agudo de miocardo (IAM)
ajustado por la realización de ejercicio físico (EF) (ejemplo 30.8)

a) Situación en que no existe mala clasificación


IAM no IAM Total OR

EF sí Fuma 120 680 800


No fuma 20 180 200 1,5
EF no Fuma 54 1.746 1.800
No fuma 144 7.056 7.200 1,5
Total 338 9.662 10.000

b) Situación en que existe mala clasificación (el 50% de los hombres que realizan ejercicio físico son clasificados
como que no lo realizan, mientras que el 5% de los que no lo hacen son clasificados como que sí)

IAM no IAM Total OR

EF sí Fuma 63* 427 490


No fuma 17 443 460 3,8
EF no Fuma 111 1.999 2.110
No fuma 147 6.793 6.490 2,7
Total 338 9.662 10.000

*63 = 120 – (0,5  120) + (0,05  54).


El resto de las casillas se calculan de la misma forma aplicando los porcentajes correspondientes.

pio observador o, sencillamente, a que los indivi- Variables muy correlacionadas


duos falseen las respuestas sobre sus hábitos. Aunque para que una variable actúe como un factor
Supongamos que el 50% de los hombres que de confusión debe estar asociada con el factor de estu-
practican algún deporte son clasificados como dio, si ambas variables están muy relacionadas, pue-
que no lo practican, mientras que el 5% de los que de ser difícil distinguir sus efectos de forma precisa.
no hacen ejercicio físico son clasificados como que Intuitivamente, el ajuste implica estimar el efecto
sí. En la tabla 30.5b se presentan los resultados del factor de estudio sobre la variable de respuesta,
que se obtendrían con una mala clasificación no di- mientras se mantiene fijo el valor del factor de con-
ferencial de estas características. En esta situación, fusión. Por lo tanto, si el factor de estudio y el de
en ambos estratos se sobrestima el efecto del consu- confusión están muy relacionados, prácticamente
mo de tabaco sobre el riesgo de IAM (que era de todos los sujetos con un valor determinado de la va-
OR = 1,5). Así pues, aunque aparentemente se esté riable de confusión tendrán el mismo valor del fac-
ajustando por un factor de confusión, en realidad, tor de estudio y, en consecuencia, será difícil estimar
se está introduciendo un sesgo. Además, la mala su efecto sobre la variable de respuesta.
clasificación no diferencial del factor de confusión Si se ajusta por esta variable, el resultado será
ha conducido a una estimación del efecto diferente una estimación del efecto imprecisa, de tal forma
en cada uno de los estratos, de forma que podría su- que los intervalos de confianza de la estimación no
gerir erróneamente que la actividad física modifica ajustada serán más estrechos que los de la ajustada.
el efecto del consumo de tabaco sobre el IAM. La si-
tuación llega a ser mucho más compleja cuando Existencia de una modificación del efecto
hay más de un factor de confusión que no se ha me- La asunción que subyace cuando se utiliza la esti-
dido correctamente. mación ajustada es que el factor de estudio tiene el

284
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO

mismo efecto en cada uno de los estratos o cate- confusión, y el efecto del consumo de alcohol sobre
gorías de la variable de confusión. Cuando existe el IAM no debe ajustarse por ellas. Por otro lado, si
una modificación del efecto, y los resultados son es de interés evaluar hasta qué punto el consumo
diferentes en cada estrato, la presentación de una de alcohol tiene un efecto sobre el IAM por meca-
única estimación ajustada no es adecuada. nismos distintos al aumento del cHDL, entonces el
análisis debería contemplar el cHDL como una va-
Variable intermedia en la cadena causal riable a controlar.
No es apropiado ajustar por una variable que es un
paso intermedio en la cadena causal entre el factor Variables que no son factores de confusión
de estudio y la variable de respuesta. Si se hiciera di- El ajuste por variables que no son verdaderos fac-
cho ajuste, se obtendría una infraestimación de la tores de confusión no sesga la estimación, pero la
verdadera asociación, ya que se eliminaría de la esti- hace más imprecisa (fenómeno que se conoce como
mación del efecto la parte mediada a través de sobreajuste).
dicha variable intermedia. El uso generalizado de programas informáticos
que permiten realizar análisis estadísticos complejos
Ejemplo 30.9. Supongamos que en un estudio que con multitud de variables, de forma rápida y cómo-
trata de estimar el efecto del consumo de tabaco da, facilita que algunos investigadores incluyan en el
sobre la mortalidad infantil, se ajuste por el peso análisis gran cantidad de variables, algunas de las
del recién nacido. El bajo peso en los recién naci- cuales no son relevantes para la relación que se estu-
dos es una de las consecuencias del consumo de ta- dia. Aunque las técnicas de análisis multivariante tie-
baco y, a su vez, puede ser una causa de mortalidad nen ventajas respecto a las del análisis estratificado,
infantil. Al ajustar por el bajo peso, parte del efecto para que sean realmente útiles, se deben tener en
del tabaco (exposición) quedaría neutralizado por cuenta dos condiciones básicas: el objetivo del estu-
dicho ajuste (se eliminaría la parte del efecto del ta- dio debe estar bien definido, especificando cuál es
baco que actúa a través del bajo peso), de forma la variable de estudio y cuál la de respuesta, cuáles
que se infraestimaría su verdadera magnitud. los potenciales factores de confusión y cuáles las po-
tenciales variables modificadoras del efecto; y hay
Una de las condiciones que debe reunir una va- que incluir en el modelo sólo aquellas variables que
riable para ser considerada un potencial factor de se conoce o se sospecha firmemente que pueden ser
confusión es la de no ser un paso intermedio en confusoras o modificadoras de efecto.
la cadena causal. Con frecuencia, es difícil distin-
guir si una variable lo es, por lo que se requiere un Pruebas estadísticas inadecuadas
conocimiento profundo de los mecanismos bioló- Si no se utilizan las pruebas estadísticas correctas,
gicos por los que una exposición puede causar una no se controla adecuadamente el fenómeno de
enfermedad. confusión. Por ejemplo, si en un estudio se utiliza el
emparejamiento, pero en el análisis no se tiene en
Ejemplo 30.10. Si se evalúa el efecto del consumo cuenta la naturaleza apareada de los datos, la esti-
moderado de alcohol sobre el riesgo de padecer un mación del efecto resultará sesgada.
infarto agudo de miocardio (IAM), una variable
que puede considerarse como un potencial factor Selección de variables en un modelo
de confusión es la concentración de cHDL. En al- de regresión
gunos estudios se ha observado que el consumo La finalidad del análisis estadístico es obtener la
moderado de alcohol aumenta las concentraciones mejor estimación (no sesgada y lo más precisa posi-
plasmáticas de cHDL y que, a mayor concentración ble) del efecto del factor de estudio. En esta situa-
de cHDL, menor riesgo de padecer un IAM. Se ha ción, el uso de un algoritmo automático para la se-
postulado que uno de los mecanismos por los que lección de las variables del modelo multivariante
el consumo moderado de alcohol reduce el riesgo puede no incluir variables importantes porque indi-
de IAM es precisamente el aumento de cHDL. Si se vidualmente no son estadísticamente significativas;
asume esta posible cadena causal, las concentracio- sin embargo, estas variables tomadas en conjunto
nes de cHDL no deben considerarse un factor de podrían ser responsables de una parte sustancial

285
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

del efecto estudiado, y por tanto serían variables re- ficación del efecto en un análisis estratificado se rea-
levantes a controlar. liza mediante pruebas estadísticas específicas, como
la de Welch, ya que se trata de determinar si las dife-
rencias entre las estimaciones obtenidas en cada
EVALUACIÓN DE LA MODIFICACIÓN DEL
estrato pueden ser causadas por la variabilidad alea-
EFECTO
toria o si, por el contrario, reflejan diferencias reales.
En las situaciones anteriores, los efectos observados
en los diferentes estratos eran similares, por lo que Ejemplo 30.11. Supongamos un estudio de casos y
tenía sentido obtener una única estimación ajusta- controles (tabla 30.6) que evalúa la asociación en-
da. Sin embargo, cuando no lo son y puede consi- tre la práctica de ejercicio físico y el riesgo de sufrir
derarse que existe una modificación del efecto, no un infarto agudo de miocardio (IAM), y que se
es adecuado calcular un único resultado global, desea evaluar si esta asociación es diferente según
sino que lo importante es precisamente describir el sexo de los sujetos.
que el efecto es diferente según las diversas cate- Los datos crudos sugieren que el ejercicio físico
gorías de otras variables. A diferencia del fenóme- disminuye el riesgo de IAM (OR = 0,64). Sin embar-
no de confusión, la modificación del efecto se go, al estratificar, en los hombres se observa un
evalúa estadísticamente, y puede decirse que existe efecto protector (OR = 0,53), mientras que en las
cuando las estimaciones de cada uno de los estratos mujeres no (OR = 1,19). Si se realizara una prueba
presentan una diferencia estadísticamente estadística para comparar ambas estimaciones, se
significativa. Las técnicas que se utilizan para eva- obtendría un resultado estadísticamente significati-
luar su existencia son también el análisis estratifica- vo, que indicaría que el sexo es una variable modi-
do y el multivariante. ficadora del efecto, y que la asociación entre el ejer-
cicio físico y el IAM es diferente en los hombres y
A NÁLISIS ESTRATIFICADO en las mujeres.
El análisis estratificado se realiza de la misma forma Si se hubiera realizado una estimación ajustada,
que en el caso del ajuste por factores de confusión: se hubiera obtenido un valor de OR = 0,64, similar
calculando la estimación del efecto en cada uno de al calculado con los datos crudos, que parecería
los estratos definidos por las categorías de la varia- indicar que existe un efecto protector en todos los
ble cuya influencia se desea evaluar. sujetos, sin poner de manifiesto que este efecto so-
A diferencia de lo que ocurre con el fenómeno lamente se ha observado en los hombres. Por lo
de confusión, la evaluación de la existencia de modi- tanto, cuando existe una modificación del efecto,

Tabla 30.6. Modificación de efecto en un análisis estratificado. Estudio hipotético de la asociación


entre ejercicio físico (EF) e infarto agudo de miocardio (IAM), estratificado por sexo
(ejemplo 30.11)

Análisis de datos crudos


Casos Controles
EF sí 190 266 OR = 0,64
EF no 176 157
Análisis estratificado
Casos Controles
Hombres EF sí 141 208 OR = 0,53
EF no 144 112 IC 95% = 0,38 a 0,73
Casos Controles
Mujeres EF sí 110 42 OR = 1,19
EF no 167 53 IC 95% = 0,65 a 2,16

OR ajustada (Mantel-Haenszel) = 0,64.

286
CONFUSIÓN Y MODIFICACIÓN DEL EFECTO

es preferible presentar los resultados por estratos y Ejemplo 30.12. Recuérdese el ejemplo 30.6 que pre-
no utilizar una medida global ajustada, que podría sentaba un ensayo clínico hipotético en el que se
conducir a interpretaciones erróneas. comparaba la eficacia de un tratamiento antihiper-
tensivo con un placebo, utilizando como variable
A NÁLISIS MULTIVARIANTE de respuesta la disminución de las cifras de presión
Cuando se utiliza una técnica de análisis multiva- arterial diastólica (PAD).
riante para evaluar la presencia de modificación del Supongamos que los investigadores desean estu-
efecto, debe incluirse en el modelo no sólo la varia- diar la influencia de la presencia de diabetes melli-
ble que potencialmente puede producir dicho efec- tus sobre la eficacia del tratamiento. Al estratificar
to, sino también un término que refleje la interac- (tabla 30.7), se observa que el efecto del tratamien-
ción entre esta variable y el factor de estudio. Dado to en relación con el placebo es de 20 mmHg en los
que muchos programas estadísticos no evalúan la diabéticos y de sólo 5 mmHg en los no diabéticos.
existencia de modificación del efecto de forma Dado que la diferencia entre ambas estimaciones es
automática, es necesario crear los términos de in- estadísticamente significativa, se concluye que la
teracción previamente al análisis. diabetes modifica el efecto del tratamiento, es de-
Puede decirse que existe modificación del efec- cir, que la eficacia es diferente en diabéticos y en no
to cuando el coeficiente de regresión del término diabéticos.
de interacción es estadísticamente significativo (di- Si se hubiera realizado un análisis multivariante,
ferente de 0). En este caso, la estimación del efecto además de los términos tratamiento y diabetes, se ha-
no corresponde solamente al valor del coeficiente bría incluido en el modelo un término de interac-
de regresión del factor de estudio, sino que tam- ción tratamiento  diabetes. En la ecuación obteni-
bién incluye el valor de los coeficientes de los tér- da, este término tiene un coeficiente de 15, que
minos de interacción. es estadísticamente significativo, indicando la exis-

Tabla 30.7. Modificación de efecto en un análisis multivariante. Ensayo clínico hipotético


que compara un fármaco antihipertensivo con placebo. La variable de respuesta es
la disminución de las cifras de presión arterial diastólica (dif. PAD). Se evalúa la existencia
de modificación de efecto debida a la diabetes (ejemplo 30.12)

Análisis de datos crudos


Dif. PAD Efecto del tratamiento
Tratamiento activo 25 mmHg
Placebo 10 mmHg 15 mmHg
Ecuación de regresión lineal
Dif. PAD = 10 + 15  tratamiento
Códigos: tratamiento (0 = placebo; 1 = tratamiento activo)

Análisis estratificado
Diabéticos Dif. PAD Efecto del tratamiento
Tratamiento activo 35 mmHg
Placebo 15 mmHg 20 mmHg

No diabéticos Dif. PAD Efecto del tratamiento


Tratamiento activo 10 mmHg
Placebo 5 mmHg 5 mmHg

Ecuación de regresión lineal


Dif. PAD = 5 + 5  tratamiento + 10  diabetes + 15  tratamiento  diabetes
Códigos: tratamiento (0 = placebo; 1 = tratamiento activo); diabetes (0 = no; 1 = sí)

287
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tencia de interacción entre el tratamiento y la B IBLIOGRAFÍA DE LOS EJEMPLOS


presencia de diabetes. Si bien el coeficiente de Müllner M, Matthews H, Altman DG. Reporting on statistical
la variable tratamiento es 5, el efecto del tratamien- methods to adjust for confounding: a cross-sectional sur-
to difiere según la presencia de diabetes, por lo vey. Ann Intern Med 2002; 136: 122-126.
que su estimación es 5  (15  diabetes). Así, en
los sujetos no diabéticos (diabetes = 0), el efecto B IBLIOGRAFÍA
Cobo E, Buekens P. Necesidad y limitaciones del ajuste. Med
es 5  0 = 5 mmHg, mientras que en los diabéti-
Clin (Barc) 1990; 95: 702-708.
cos (diabetes = 1) es 5  15 = 20 mmHg. De esta for- Cole SR, Hernan MA. Fallibility in estimating direct effects.
ma, el análisis multivariante permite expresar, en Int J Epidemiol 2002; 31: 163-165.
una sola ecuación, los resultados de los diferentes Greenland S, Morgenstern H. Confounding in health re-
estratos. search. Annu Rev Public Health 2001; 22: 189-212.
Grimes DA, Schulz KF. Bias and causal associations in obser-
Los fenómenos de confusión y de modificación vational research. Lancet 2002; 359: 248-252.
del efecto son muy distintos tanto en la información Hallqvist J, Ahlbom A, Diderichsen F, Reuterwall C. How to
que proporcionan como en la forma de interpretar- evaluate interaction between causes: a review of practices
in cardiovascular epidemiology. J Intern Med 1996; 239:
la. Si una variable actúa como un factor de confu-
377-382.
sión depende de cómo se distribuye entre los gru- Hernan MA, Hernández-Díaz S, Werler MM, Mitchell AA.
pos de estudio y de si el efecto observado del factor Causal knowledge as a prerequisite for confounding eva-
de estudio sobre la variable de respuesta puede ex- luation: an application to birth defects epidemiology.
plicarse total o parcialmente por esta distribución Am J Epidemiol 2002; 155: 176-184.
desigual. Por lo tanto, una variable puede actuar Julious SA, Mullee MA. Confounding and Simpson’s para-
como factor de confusión en un estudio experimen- dox. BMJ 1994; 309: 1480-1481.
tal, pero no en otro, dependiendo de cómo quede Kleinbaum DG. Logistic regression: a self-learning text.
distribuida tras el proceso de asignación. En cam- Nueva York: Springer-Verlag, 1994.
Kleinbaum DG. Survival analysis: a self-learning text. Nueva
bio, en los estudios observacionales, al estar aso-
York: Springer-Verlag, 1996.
ciadas a la exposición y a la variable de respuesta, los Leon DA. Failed or misleading adjustment for confounding.
factores de confusión siempre actúan como tales Lancet 1993; 342: 479-481.
cuando no se ha utilizado una técnica para prevenir Maclure M, Schneeweiss S. Causation of bias: the episcope.
su efecto (restricción o emparejamiento). Cuando Epidemiology 2001; 12: 114-122.
una variable se comporta como un factor de confu- Shapiro S. Bias in the evaluation of low-magnitude associa-
sión, el interés reside en controlar su efecto. tions: an empirical perspective. Am J Epidemiol 2000;
En cambio, la modificación del efecto refleja 151: 939-945.
una característica de la relación entre el factor de Silva Ayçaguer LC. Excursión a la regresión logística en cien-
cias de la salud. Madrid: Díaz de Santos, 1995.
estudio y la variable de respuesta, ya que la mag-
Smith GD, Phillips AN. Confounding in epidemiological stu-
nitud de esta relación depende de una tercera dies: why «independent» effects may not be all they
variable. Por tanto, la modificación del efecto seem. BMJ 1992; 305: 757-759.
debe ser des crita, pero no controlada. Además, Sonis J. A closer look at confounding. Fam Med 1998; 30:
puede proporcionar claves interesantes (hipóte- 584-588.
sis de trabajo) sobre los mecanismos causales de Sonis J, Hertz-Piccioto I. Accessing the presence of confoun-
dicha relación. ding. Fam Med 1996; 28: 462-463.

288
Capítulo 31
Inferencia causal

a mayor parte de los estudios analíticos en inves-

L tigación clínica y epidemiológica tiene por ob-


jetivo evaluar la existencia de una potencial rela-
ción causa-efecto entre el factor de estudio y la varia-
Efecto observado
(asociación o diferencia)

ble de respuesta, excluyendo otras posibles explica-


ciones alternativas de los resultados observados. ¿Existe algún sesgo de
Lo ideal sería comprobar la existencia de una re- selección o información?
lación causal entre el factor de estudio y una varia-
ble, que mida el resultado final, por ejemplo, en No
términos de mortalidad total, mortalidad ajustada ¿Se han controlado los
por la calidad de vida, o variaciones en la incidencia Evaluación
factores de confusión?
de una enfermedad. A menudo, poder demostrar de la validez
esta relación es muy difícil, ya que requiere un nú- Sí interna
mero elevado de sujetos y un tiempo de seguimien-
¿La magnitud de la
to muy largo, así como el control de un gran núme- estimación es relevante y
ro de factores que pueden interferir durante todo lo suficientemente precisa?
el proceso. Por este motivo, en muchas ocasiones,
los estudios se centran en evaluar el efecto sobre Sí
una variable intermedia de esta cadena causal, asu-
miendo qué cambios en ella se corresponden con
Resultado válido
cambios en el resultado final.

Ejemplo 31.1. Muchos ensayos clínicos que evalúan Juicio sobre


Aplicación de los criterios
la eficacia de los hipolipemiantes determinan su la causalidad
de causalidad
efecto sobre las cifras de colesterolemia. Este enfo- de la relación
que asume la existencia de una relación causal
entre las cifras de colesterolemia y el pronóstico de
Figura 31.1. Evaluación de la validez interna como
los sujetos en términos de desarrollo de sucesos car- paso previo al juicio sobre la causalidad.
diovasculares y de mortalidad.

Para poder establecer una relación causal es nece- ción recogida y, si existen, evaluar si pueden llegar a
sario que el estudio tenga validez interna (fig. 31.1). alterar sustancialmente los resultados. También debe
En primer lugar, debe descartarse la existencia de ses- valorarse si se han controlado adecuadamente todos
gos en la selección de la población o en la informa- los factores de confusión relevantes. Hay que valorar,

289
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

además, si en el proceso de análisis se han tenido en existía una asociación positiva entre los suplementos
cuenta posibles modificaciones del efecto causadas de lactancia artificial administrados en los hospitales
por otras variables. Finalmente, debe valorarse si el durante los primeros días después del parto y un
resultado final es relevante desde el punto de vista clí- período más corto de duración de la lactancia ma-
nico, teniendo en cuenta tanto su magnitud como la terna. Con el fin de evitar algunos de los problemas
precisión con que se ha estimado. inherentes a los estudios observacionales, Gray-
La evaluación de la validez interna está muy rela- Donald et al (1988) llevaron a cabo un ensayo clíni-
cionada con el diseño utilizado. Si se ha realizado co que abordaba este problema. Las madres fueron
un ensayo clínico aleatorio, bien diseñado y ejecu- asignadas al azar a una de las dos salas donde se
tado, y con una muestra de tamaño suficiente, es seguían regímenes alimentarios distintos: en una,
menos probable que existan sesgos o factores de los recién nacidos recibían suplementos de lactan-
confusión no controlados que si se ha utilizado un cia artificial junto con la lactancia materna, mientras
diseño observacional. que en la otra sólo recibían la lactancia materna.
De todas formas, el estudio perfecto no existe. Antes de iniciar este ensayo clínico, los autores
En cualquier investigación hay multitud de amena- realizaron durante cuatro meses una prueba piloto
zas que pueden comprometer o limitar la validez in- en la que se evaluaba la comparabilidad de los pro-
terna: en general, no se dispone de una medida per - fesionales que trabajaban en ambas salas con res-
fecta de la respuesta o del factor cuyo efecto se pecto a variables que se consideraban de interés.
desea estudiar; es posible que los investigadores in- Este estudio piloto proporcionó datos para un estu-
troduzcan sesgos o errores inconscientemente; pue- dio observacional. En este caso tanto las madres
den aparecer diferentes acontecimientos durante el como las enfermeras eran las que elegían el tipo de
seguimiento de los sujetos que interfieran con él; alimentación. Los criterios de inclusión y exclusión
pueden haber factores de confusión no conocidos y para formar parte de este estudio eran idénticos a
no controlados, etc. Además, un estudio evalúa la los especificados en el ensayo clínico. La informa-
hipótesis en una única muestra de sujetos proce-
ción sobre la variable de respuesta (duración de la
dente de una población determinada, lo que limita
lactancia materna) fue recogida a las nueve sema-
la generalización de las conclusiones. Aunque se
nas del alta mediante una entrevista telefónica, en
observe un resultado estadísticamente significativo,
la que el encuestador desconocía el tipo de alimen-
con un valor de p muy reducido, no se habrá descar-
tación que la madre había escogido. Los resultados
tado totalmente la posibilidad de que pueda ser cau-
de este estudio observacional mostraron una aso-
sado por la variabilidad aleatoria.
El hecho de que pueda asumirse que el resulta- ciación entre el tipo de alimentación y la duración
do observado es válido, no implica que la relación de la lactancia materna. Aquellos que habían re-
estudiada sea causal. Para evaluar si lo es, hay que cibido suplementos en el hospital tenían menos
tener en cuenta otros aspectos, que suponen un jui- probabilidad de seguir siendo alimentados con lac-
cio de valor y que, en muchas ocasiones, deben uti- tancia materna (OR = 3,3). El control de los poten-
lizar pruebas y conocimientos procedentes de otros ciales factores de confusión que se consideraron no
estudios. Por todos estos motivos, difícilmente redujo la magnitud de la asociación.
puede establecerse con seguridad una relación cau- En contraste con estos resultados, en el ensayo
sal a partir de un único estudio. clínico no se encontraron diferencias entre ambos
grupos (54,7 frente al 54,1%). Los autores comenta-
ban que no era probable que se debiera a una falta
TIPOS DE ESTUDIO de potencia estadística, ya que existía una probabili-
E INFERENCIA CAUSAL dad del 94% de detectar una diferencia de un 5% a
Dos estudios que aborden un mismo problema en favor del grupo que no recibía suplementos. La
poblaciones similares y con un mismo diseño pue- única diferencia entre ambos estudios era quién
den dar lugar a resultados divergentes. Esto es más controlaba la intervención. En el ensayo clínico eran
probable si los estudios utilizan diseños diferentes. los profesionales quienes asignaban al azar, mientras
que en el observacional eran las mujeres las que
Ejemplo 31.2. Estudios observacionales realizados elegían la intervención. Esta única diferencia podría
previamente habían llegado a la conclusión de que explicar la contradicción de los resultados.

290
INFERENCIA CAUSAL

En los estudios observacionales existen aspectos ello, algunas instituciones han incorporado explíci-
que pueden influir sobre la variable de respuesta tamente una valoración del rigor del estudio en la
y que no son fácilmente medibles. En este caso, las gradación de la calidad de la evidencia como el
madres más motivadas en amamantar a sus hijos po- Scottish Intercollegiate Guidelines Network (SIGN),
drían haber elegido el grupo sin suplementos, cuya dirección de Internet es: http://www.sign.
mientras que las menos motivadas podrían elegir, o ac.uk/guidelines/fulltext/50/index.htm. Algunas
permitir, los suplementos de lactancia artificial. El clasificaciones incorporan el metaanálisis como un
factor de confusión sería la motivación previa de la tipo de estudio, en ocasiones situándolo como el di-
madre, una variable difícil de medir y, por tanto, de seño de mayor rigor científico, asumiendo que su-
controlar en el análisis. Sin embargo, en el ensayo pone la mejor combinación de validez interna, u
clínico es de esperar que esta diferente motivación homogeneidad del diseño, y validez externa, o capa-
entre las madres se reparta por un igual entre los di- cidad de generalizar los resultados a la población ge-
ferentes grupos, gracias a la asignación al azar. Por neral. Sin embargo, a pesar de sus ventajas, el meta-
esta razón, si es factible realizar un ensayo clínico, y análisis no está exento de sesgos ni limitaciones
no existen contraindicaciones éticas, hay que pre- (sesgo de publicación, sesgo de idioma, selección
ferir este diseño, ya que es el que proporciona una inadecuada de estudios, evaluación sesgada de la
evidencia más directa de que una relación es de na- calidad de los artículos, etc.). Así, por ejemplo, en el
turaleza causal. caso de que los estudios seleccionados para el meta-
análisis fueran heterogéneos o de baja calidad, pro-
Ejemplo 31.3. Estudios observacionales han mostra- bablemente la fuerza de la evidencia proporcionada
do que las personas que consumen más frutas y ve- por un único ensayo clínico aleatorio bien diseñado
getales, ricos en betacarotenos, y aquellas con ma- y realizado podría ser mayor que la del metaanálisis.
yores concentraciones séricas de esta sustancia
tienen una menor frecuencia de enfermedad car- Ejemplo 31.4. Retomando el ejemplo 31.3, también
diovascular y cáncer. El betacaroteno tiene propie- se realizó un metaanálisis de los hallazgos sobre
dades antioxidantes, y es plausible esperar que pre- mortalidad cardiovascular, comparando los resulta-
venga la carcinogénesis y la aterogénesis, al reducir dos de seis estudios observacionales con los propor-
el daño oxidativo sobre el ADN y las lipoproteínas. cionados por los cuatro ensayos clínicos aleatorios
Contrariamente a otros problemas estudiados con (Egger et al, 1998). El metaanálisis de los estudios
diseños observacionales, esta hipótesis podría ser, y de cohortes mostró un menor riesgo de mortalidad
ha sido, abordada en estudios experimentales. Los cardiovascular entre los que consumen mayores
resultados de cuatro ensayos clínicos aleatorios no cantidades de betacaroteno (reducción relativa de
han confirmado estos hallazgos (Egger et al, 1998). riesgo del 31%; IC 95%: del 20 al 41%; p < 0,0001).
Sin embargo, los resultados combinados de los
Las escalas de clasificación de la evidencia cientí- ensayos clínicos mostraron un moderado efecto
fica suelen diferenciar de forma jerárquica los dis- adverso de los suplementos de betacaroteno (incre-
tintos grados, en función de la diferente capacidad mento del riesgo relativo del 12%; IC 95%: del 4 al
de los diversos tipos de diseños para determinar la 22%; p = 0,005).
existencia de una relación causal. La tabla 31.1 pre-
senta la gradación de la evidencia científica según Este ejemplo ilustra cómo en este caso el meta-
diferentes agencias. Sin embargo, algunas de estas análisis de estudios observacionales ha servido sólo
clasificaciones no discriminan explícitamente entre para aumentar la precisión de la estimación, pero
las posibles diferencias de calidad y rigor que pue- no ha corregido los posibles sesgos de los estudios
den existir entre dos estudios situados en el mismo individuales y, por tanto, no ha aumentado la vali-
grado de evidencia científica. Por otro lado, podría dez del resultado.
darse el caso de que un estudio situado en una cate-
goría inferior presentara mayor calidad y más rigor Ejemplo 31.5. Un estudio tenía por objetivo evaluar
en comparación con otro estudio situado en un ni- las discrepancias entre los resultados obtenidos en
vel superior en el esquema de clasificación, pero ensayos clínicos aleatorios de gran tamaño (más de
que no se hubiera ejecutado de forma correcta. Por 1.000 pacientes) y en metaanálisis sobre el mismo

291
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 31.1. Gradación de los niveles de calidad de la evidencia en función del rigor
científico del diseño

The Swedish Council


US Preventive Service on Technology Assessment in Agència d’Avaluació
Task Force (1996) Health Care (Goodman, 1993) de Tecnologia Mèdica*

I Evidencia obtenida de al 1. Ensayo controlado y aleatorio I Metaanálisis de ensayos


menos un ensayo clínico con una muestra grande controlados y aleatorios
aleatorio y controlado
diseñado de forma apropiada 2. Ensayo controlado y aleatorio II Ensayo controlado y aleatorio
II-1 Evidencia obtenida a partir con una muestra pequeña de una muestra grande
de ensayos controlados bien
diseñados pero sin 3. Ensayo no aleatorio con III Ensayo controlado y aleatorio
asignación aleatoria controles concurrentes de una muestra pequeña
II-2 Evidencia obtenida a partir
de estudios de cohortes 4. Ensayo no aleatorio con IV Ensayo prospectivo controlado
o de casos y controles bien controles históricos no aleatorio (controles
diseñados, realizados coincidentes en el tiempo)
preferentemente en más
de un centro o por más de 5. Estudio de cohortes
V Ensayo prospectivo controlado
un grupo de investigación
no aleatorio (controles
II-3 Evidencia obtenida a partir de 6. Estudio de casos y controles históricos)
múltiples series comparadas
en el tiempo, con o 7. Estudios transversales VI Estudios de cohorte
sin intervención. Este tipo
de evidencia también incluye
8. Vigilancia epidemiológica VII
resultados «dramáticos» Estudios de casos y controles
(bases de datos o registros)
producidos en experiencias
no controladas, como fueron VIII
9. Serie consecutiva de casos Series clínicas no controladas.
las derivadas de la
Estudios descriptivos. Comités
introducción de la penicilina
de expertos
en la década de 1940 10. Notificación de un caso aislado
III Opiniones de expertos (anécdota) IX Anécdotas o casos únicos
reconocidos, basadas en
experiencias clínicas, estudios
descriptivos o informes de
comités de expertos

*La valoración se complementa con unas condiciones de rigurosidad científica.

tema (LeLorier et al, 1997). Los autores considera- taanálisis fue del 68% y el negativo del 67%. Es
ron los ensayos clínicos como el estándar de refe- decir, si no se hubieran realizado los ensayos clí-
rencia. Se incluyeron 12 ensayos clínicos de gran ta- nicos aleatorios, a partir de los resultados de los
maño publicados en 4 revistas, y 19 metaanálisis metaanálisis, se habrían adoptado tratamientos
que abordaban el mismo problema, y evaluaron los ineficaces en un 32% de los casos y rechazado tra-
resultados en relación con 40 variables de respues- tamientos útiles en el 33%.
ta, utilizadas en estos estudios. Observaron una
concordancia moderada (kappa = 0,35; IC 95%: del Los aspectos del diseño que se considera que
0,06 al 0,64). El valor predictivo positivo de los me- están asociados a un mayor rigor científico son la

292
INFERENCIA CAUSAL

asignación aleatoria a los grupos experimental y estadísticamente significativas en estudios de gran


control, la existencia de un grupo control concu- tamaño.
rrente en el tiempo, el sentido prospectivo del estu- Por otro lado, esta valoración no debe hacerse
dio, el enmascaramiento de los pacientes e investi- solamente según la estimación puntual de la mag-
gadores y la inclusión en el estudio de un número nitud de la asociación, sino que debe tenerse en
de pacientes suficiente para detectar diferencias es- cuenta la precisión con que se ha valorado, es decir,
tadísticamente significativas en la estimación del su intervalo de confianza. Es frecuente encontrar
efecto que se evalúa. estudios realizados con un número reducido de su-
jetos, que presentan riesgos relativos cuyo intervalo
de confianza tiene un límite superior muy elevado.
CRITERIOS DE CAUSALIDAD
Hay que interpretar con cautela estos resultados, ya
El establecimiento de una relación causa-efecto es, que reflejan más una ausencia de precisión que una
en gran medida, un juicio de valor que se realiza a asociación muy fuerte.
partir de las evidencias disponibles. Dado que estas
evidencias provienen habitualmente de diferentes Ejemplo 31.6. Supongamos un estudio que presenta
estudios, con metodologías distintas, a menudo el siguiente resultado: RR = 19 (IC 95%: 1,5-452).
centrados en aspectos parciales de la cadena causal, Estos datos no deben interpretarse como que el ries-
a veces proporcionando resultados contradictorios, go asociado al factor de estudio puede ser hasta
emitir este juicio no es una tarea fácil, y diferentes 452 veces superior al del grupo control, sino que re-
investigadores pueden defender opiniones o visio- flejan que se ha estudiado a un número muy reducido
nes distintas. de sujetos. De hecho, lo más cauteloso es interpretar
Existen, sin embargo, determinados criterios el límite inferior, que indica que, como mínimo, el
que pueden ser de ayuda a la hora de distinguir riesgo se incrementa 1,5 veces.
entre asociación y causa. Ninguno de ellos debe en-
tenderse como necesario ni suficiente para estable- P LAUSIBILIDAD BIOLÓGICA
cer una relación causal, sino simplemente como as- A la hora de enjuiciar una posible relación causal,
pectos a tener en cuenta a la hora de realizar esta el criterio de plausibilidad biológica debería recibir
valoración. una mayor atención de la habitual. Según él, los re-
sultados obtenidos deben ser compatibles con los
M AGNITUD OBSERVADA DE LA FUERZA conocimientos existentes.
DE LA ASOCIACIÓN Este criterio se ha utilizado de formas diferentes
Cuanto mayor sea la magnitud de la medida de aso- por los investigadores. Para algunos, una asociación
ciación utilizada (riesgo relativo, odds ratio, etc.), biológicamente plausible es aquella para la cual se
mayor será la probabilidad de que el factor de estu- puede elaborar una hipótesis razonable sobre su
dio sea la causa de la respuesta observada. mecanismo, aunque no exista ninguna evidencia
Cuando en un estudio se observa una asociación biológica sobre él. Argumentan que, si no se adop-
muy fuerte, es difícil que pueda deberse, en toda su tara esta visión tan permisiva, podrían descartarse
magnitud, a un sesgo o a factores de confusión no asociaciones causales reales por la ausencia de co-
controlados. En cambio, si es de escasa magnitud, nocimientos sobre su mecanismo biológico. En rea-
puede ocurrir que, en realidad, exista una asocia- lidad, la ausencia de una explicación plausible
ción fuerte, pero que un sesgo o un factor no con- puede impulsar el desarrollo de nuevas teorías que
trolado la haga aparecer como débil; pero también deben ser sometidas a prueba. En muchas ocasio-
puede suceder que el sesgo o los factores no contro- nes, estas hipótesis se generan por analogía con
lados hagan aparecer como positiva una asociación procesos similares. De todas formas, hay que ser
que en realidad no existe, o incluso que es de signo cauteloso, ya que puede ser relativamente fácil esta-
contrario. blecer hipótesis en apariencia biológicamente plau-
La fuerza de una asociación no se mide por el sibles a partir de los resultados de un estudio. Ade-
grado de significación estadística. El valor de p de- más, el uso de paquetes estadísticos informatizados
pende de la magnitud de la asociación y del permite relacionar largas listas de variables, por lo
tamaño de la muestra, de forma que asociaciones que, si el análisis de los datos se hace sin seguir una
de escasa o nula relevancia pueden aparecer como estrategia previa, aumenta la probabilidad de en-

293
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

contrar asociaciones que carecen de una mínima nicotina y cotinina en el moco cervical de mujeres
plausibilidad biológica. fumadoras, lo que representaba los primeros datos
que apoyaban las hipótesis anteriores, que empeza-
Ejemplo 31.7. En un estudio de cohortes en el que ron a ganar credibilidad (Sasson et al, 1985). Estu-
se incluyeron prostitutas con la finalidad de analizar dios posteriores han aportado nuevos datos y gene-
factores asociados a la transmisión del VIH entre rado nuevas hipótesis sobre la relación entre el
hombres y mujeres heterosexuales, se observó una consumo de tabaco y el cáncer de cérvix.
fuerte asociación entre el consumo de anticoncep-
tivos orales (AO) y la infección por VIH. Los auto- C ONSISTENCIA
res formularon la hipótesis de que, entre otros me- Según este criterio, los distintos estudios que han
canismos, el riesgo de transmisión podía estar abordado un objetivo similar deberían mostrar resul-
aumentado, debido al efecto de los AO sobre la tados concordantes. Si varios estudios están realiza-
mucosa genital, al incrementar el área de ectopia y dos en lugares y poblaciones diferentes, y todos lle-
el riesgo de rotura durante el acto sexual (Plummer gan a la misma conclusión, se refuerza la idea de
et al, 1991). En otro estudio publicado al mismo causalidad. Sin embargo, es frecuente que diferentes
tiempo, sus autores encontraron un resultado dia- estudios den resultados distintos. Esto no significa
metralmente opuesto, que indicaba que el uso de que la asociación no sea causal, sino que deben te-
AO protegía frente a la infección por VIH, y formu- nerse en cuenta las diferencias en la metodología em-
laron otra hipótesis igualmente plausible: dado que pleada y la calidad de cada uno de ellos, que podrían
los AO, que contienen progesterona, engrosan la explicar los resultados en apariencia contradictorios.
mucosa cervical, dificultarán la entrada del VIH
(Lazzarin et al, 1991). Es probable que sesgos y fac- Ejemplo 31.9. Los estudios diseñados para evaluar si
tores de confusión no controlados hayan desem- el consumo de anticonceptivos orales (AO) causa
peñado un papel importante en la obtención de cáncer de mama han producido resultados contra-
estos resultados contradictorios. dictorios. Algunos concluyen que las mujeres me-
nores de 35 años expuestas a los AO durante largos
Algunos autores argumentan que no es suficien- períodos tienen un riesgo aumentado de padecer
te sugerir simplemente un mecanismo aparente- cáncer de mama, mientras que otros no apoyan
mente plausible, sino que deben existir algunas evi- estos resultados. La revisión cuidadosa de los estu-
dencias que lo apoyen, mientras que otros obligan dios revela diferencias en los criterios de selección,
a que existan evidencias suficientes que muestren en las técnicas empleadas para medir la exposición
cómo el factor de estudio actúa sobre un mecanis- y en otros aspectos del diseño, que podrían explicar
mo conocido de producción de la enfermedad. El las aparentes contradicciones de los resultados.
riesgo de este criterio más restringido puede llevar
a descartar hipótesis sólo por la ausencia de conoci- R ELACIÓN TEMPORAL
mientos en un momento determinado. Según este criterio, la presunta causa ha de prece-
der al efecto y el tiempo de inducción o latencia
Ejemplo 31.8. En 1977, Winckelstein sugirió una po- (tiempo transcurrido entre el comienzo de la expo-
sible asociación entre el consumo de tabaco y el sición y la aparición de la respuesta) debe ser com-
cáncer de cérvix. Propuso dos hipótesis: primero, patible con el que se conoce de la historia natural
que el cáncer de cérvix es una enfermedad de célu- de la enfermedad. Aunque este principio es eviden-
las escamosas y que el tabaco causa cánceres de este te, en los estudios transversales y en los de casos y
tipo celular en otros órganos, como el pulmón; y se- controles con casos prevalentes esta condición es
gundo, que los componentes carcinógenos del ta- difícil de asegurar.
baco podían ser transportados al epitelio cervical a
través de la circulación. No citó ninguna evidencia G RADIENTE BIOLÓGICO
para estas hipótesis. El hecho de que la magnitud de la respuesta aumen-
Si se hubiera adoptado una postura restrictiva, te a medida que se incrementa el grado de exposi-
estas hipótesis hubieran sido descartadas por falta ción al factor de estudio (en cantidad y/o tiempo) es
de pruebas. Sin embargo, posteriormente, un estu- un argumento más a favor de que la relación entre
dio presentó resultados sobre concentraciones de ambos es causal. Para evaluar este criterio, la exposi-

294
INFERENCIA CAUSAL

ción al factor de estudio debe tener más de dos cate- large randomized, controlled trials. N Engl J Med 1997;
gorías, y cada una de ellas debe reflejar los incre- 337: 536-542.
mentos de la exposición; se trata de determinar si Plummer FA, Simonsen JN, Cameron DW et al. Cofactors in
implican también aumentos del riesgo. Algunos male-female sexual transmission of human immunodefi-
ciency virus type 1. J Infect Dis 1991; 233: 233-239.
autores incluyen este criterio como un elemento de
Sasson IM, Halley NJ, Hoffmann D et al. Cigarette smoking
la plausibilidad biológica. and neoplasia of the uterine cervix: smoke constituents
Sin embargo, no todas las relaciones causales in cervical mucus. N Engl J Med 1985; 312: 315-316.
deben tener necesariamente un gradiente dosis-res- Winckelstein W Jr. Smoking and cancer of the uterine cervix:
puesta. Puede ocurrir, por ejemplo, que exista un hypothesis. Am J Epidemiol 1977; 106: 257-259.
umbral por encima del cual aumente el riesgo, sin
hacerlo más aunque aumente el grado de exposi- B IBLIOGRAFÍA
ción. Así mismo, la relación no tiene por qué ser li- Argimon JM. Distinguiendo entre asociación y causa. FMC
neal; se puede adoptar otro tipo de relación que no 1998; 5: 555-556.
se ponga de manifiesto con las técnicas de análisis Goodman C. Literature searching and evidence interpretation
habituales. for assessing health care practices. Estocolmo: The Swedish
Council on Technology Assessment in Health Care, 1993.
D ISMINUCIÓN DEL RIESGO DESPUÉS Greenland S, Brumback B. An overview of relations among
causal modelling methods. Int J Epidemiol 2002; 31:
DE LA REDUCCIÓN DE LA EXPOSICIÓN
1030-1037.
Es tan importante como criterio de causalidad ob- Grimes DA, Schulz KF. Bias and causal associations in obser-
ser var que, al aumentar la dosis de exposición al vational research. Lancet 2002; 359: 248-252.
factor de estudio, aumenta el riesgo de enferme- Jovell AJ, Navarro-Rubio MD. Evaluación de la evidencia
dad, como el proceso inverso, es decir, que al redu- científica. Med Clin (Barc) 1995; 105: 740-743.
cirse, disminuye el riesgo. Karhausen LR. Causation in epidemiology: a Socratic dialo-
gue: Plato. Int J Epidemiol 2001; 30: 704-706.
Ejemplo 31.10. Desde la década de 1950, diversos Kaufman JS, Kaufman S. Estimating causal effects. Int
estudios de cohortes han demostrado que las per- J Epidemiol 2002; 31: 431-432.
sonas con concentraciones elevadas de colesterol Maclure M, Schneeweiss S. Causation of bias: the episcope.
sérico tienen un mayor riesgo de presentar proble- Epidemiology 2001; 12: 114-122.
Maldonado G, Greenland S. Estimating causal effects. Int
mas cardiovasculares. A partir de la década de 1980,
J Epidemiol 2002; 31: 422-429.
se han publicado los resultados de diferentes ensa- Olsen J. What characterises a useful concept of causation in
yos clínicos aleatorios que evalúan la eficacia de epidemiology? J Epidemiol Community Health 2003; 57:
una intervención para disminuir las cifras de coles- 86-88.
terol, observándose que aquellas personas que ha- Poole C. Causal values. Epidemiology 2001; 12: 139-141.
bían recibido la intervención tenían, en promedio, Shafer G. Estimating causal effects. Int J Epidemiol 2002; 31:
cifras menores de colesterol sérico que las del gru- 434-435.
po control, y también una menor frecuencia de epi- Susser M. Judgment and causal inference: criteria in epi-
sodios cardiovasculares. demiologic studies. Am J Epidemiol 1977; 105: 1-15 (publi-
cado también en Am J Epidemiol 1995; 141: 701-715).
B IBLIOGRAFÍA DE LOS EJEMPLOS US Preventive Services Task Force. Guide to Clinical Preven-
Egger M, Schneider M, Davey Smith G. Spurious precision? tive Services. 2.a ed. Alexandria (Virginia): International
Meta-analysis of observational studies. BMJ 1998; 316: Medical Publishing, 1996.
140-144. Weed DL, Hursting SD. Biologic plausibility in causal infe-
Gray-Donald K, Kramer MS. Causality inference in observa- rence: current methods and practice. Am J Epidemiol
tional vs experimental studies. An empirical comparison. 1998; 147: 415-425.
Am•J Epidemiol 1988; 127: 855-892. Weed DL. Interpreting epidemiological evidence: how meta-
Lazzarin A, Saracco A, Musicco M, Bicolosi A. Man-to-wo- analysis and causal inference methods are related. Int
man sexual transmission of the human immunodefi- J Epidemiol 2000; 29: 387-390.
ciency virus. Arch Intern Med 1991; 151: 2411-2416. Weiss NS. Can the «specificity» of an association be rehabili-
LeLorier J, Grégoire G, Denhaddad A, Lapierre J, Derderian tated as a basis for supporting a causal hypothesis? Epide-
F. Discrepances between meta-analysis and subsequent miology 2002; 13: 6-8.

295
Capítulo 32
Aplicabilidad práctica de los resultados

a interpretación de los resultados de un estu- FACTOR DE ESTUDIO

L dio incluye tanto la evaluación de la validez


interna como la de los aspectos relacionados
con su aplicabilidad práctica e impacto potencial.
Para poder aplicar los resultados de un estudio, es
necesario que la pregunta que se ha formulado ten-
ga relevancia clínica y corresponda a una cuestión
Dado que los investigadores son los profesionales que los profesionales se plantean en la práctica.
que mejor conocen los puntos fuertes y débiles del En un estudio sobre pruebas diagnósticas, es im-
estudio, son los que están en la situación óptima portante considerar si la prueba que se evalúa es
para poder evaluar su posible utilidad. factible de realizarse en un entorno determinado y
La finalidad última de un estudio de investiga- si los profesionales tienen las habilidades necesarias
ción es aplicar sus resultados para mejorar el estado para llevarla a cabo e interpretar sus resultados.
de salud de la población, por ejemplo, recomen- Hay que recordar que el estudio se ha realizado en
dando los tratamientos más efectivos y seguros o la condiciones más o menos ideales, con profesiona-
aplicación de determinadas medidas preventivas les motivados y entrenados en la aplicación de la
capaces de disminuir la incidencia de las enferme- prueba, de forma que, cuando sea aplicado en la
dades, o el uso de las mejores pruebas diagnósticas. práctica por personas no tan entrenadas en su
Una vez asegurada la validez interna de los resulta- manejo, pueden obtenerse resultados diferentes de
dos, su aplicabilidad a la práctica clínica se enmar- los proporcionados por el estudio. También hay
ca dentro del concepto de validez externa, lo que que considerar la información sobre la variabilidad
supone un juicio de valor para intentar evaluar, por inter e intraobservadores.
ejemplo, si los resultados pueden ser aplicables a Cuando el estudio evalúa la eficacia de un trata-
poblaciones de características diferentes a las de la miento, la aplicabilidad depende no sólo del factor
muestra estudiada o a entornos con distintas condi- de estudio, sino también de la alternativa de refe-
ciones. Esta valoración se fundamenta sobre todo rencia, en el sentido de si la comparación se realiza
en la magnitud del efecto observado, ya que, si es entre opciones que realmente se utilizan en la prác-
de escasa relevancia, es más probable que no se pro- tica clínica, de forma que el ensayo clínico sirva de
duzca en otras poblaciones, y en la plausibilidad ayuda en la toma de decisiones en la consulta.
biológica, en el sentido de evaluar si es razonable Un aspecto controvertido es el uso de placebo
asumir que el mecanismo fisiopatológico por el que en el grupo de comparación cuando ya existe una
se produce el efecto se cumple también en pobla- alternativa que ha demostrado su eficacia y es utili-
ciones de diferentes características. zada por los profesionales clínicos. Idealmente, un

296
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS

nuevo tratamiento debería compararse con la me- por el tema, formados y con experiencia. Por tanto,
jor alternativa existente, ya que la pregunta que in- debe tenerse mucha precaución a la hora de extra-
teresa es si es mejor que ésta, y no si es superior al polar los resultados a ámbitos en los que la crioci-
placebo. De todas formas, el gran arsenal existente rugía cutánea no es una práctica habitual en las
de medicamentos hace que se espere que los nue- consultas.
vos representen tan sólo incrementos de eficacia de Algo similar ocurre, por ejemplo, con fármacos
escasa magnitud, lo que obliga a la realización en los que es necesario monitorizar sus concentra-
de estudios con un número muy elevado de sujetos. ciones plasmáticas, si se decide aplicarlos a entor-
Éste es uno de los motivos por los que muchos in- nos en los que la tecnología adecuada no está dis-
vestigadores e industrias farmacéuticas realizan los ponible. O cuando la intervención puede producir
estudios comparando con placebo, ya que esperan efectos adversos graves que requieren un trata-
encontrar diferencias de eficacia de mayor magni- miento sofisticado o que son de difícil diagnóstico,
tud y, por consiguiente, requieren estudios de un lo que aumentaría la gravedad de las consecuencias
tamaño más reducido. Sin embargo, hay que valo- de los efectos adversos, pudiendo interferir en la
rar si estas comparaciones vulneran los principios evaluación de la relación entre los riesgos y los be-
éticos de la investigación en seres humanos. neficios esperados.
Otro aspecto controvertido es el de decidir cuál
es la mejor alternativa de referencia, no sólo en tér-
VARIABLE DE RESPUESTA
minos de qué fármaco, sino también en términos
de qué pauta. Para poder elaborar recomendaciones sólidas a
Hay aspectos de la aplicación del factor de estu- partir de los datos de un estudio, idealmente éste
dio que pueden limitar su extrapolación a la prácti- debería evaluar el impacto de un factor de estudio
ca clínica en determinadas condiciones. Por ejem- (prueba diagnóstica, tratamiento, actividad preven-
plo, si se trata de una intervención quirúrgica, es tiva, supresión de una exposición, etc.) sobre una
importante tener en cuenta las capacidades y habi- variable de resultado final (mortalidad, incidencia
lidades necesarias para llevarla a cabo, que tienen de enfermedades, calidad de vida, etc.). Sin embar-
una influencia clara sobre los propios resultados de go, pocos estudios lo documentan directamente,
la intervención o sobre la morbilidad peroperatoria dadas las dificultades metodológicas de evaluar
y, por tanto, estas consideraciones pueden llegar a completamente un proceso en el que influyen múl-
alterar la relación entre riesgos y beneficios. tiples variables difíciles de controlar y que reque-
rirían seguimientos muy prolongados y un número
Ejemplo 32.1. Supongamos un ensayo clínico que elevado de sujetos. En consecuencia, en muchas
compare dos técnicas de criocirugía cutánea (nitró- ocasiones los estudios se limitan a evaluar aspectos
geno líquido y un aerosol de dimetil-éter-propano) parciales de la relación.
en consultas de atención primaria, en el que no se
observan diferencias clínicamente relevantes en Ejemplo 32.2. En la situación representada en la figu-
cuanto a eficacia, tolerancia y seguridad de ambos ra 32.1, lo ideal sería realizar un estudio que de-
agentes criogénicos. La evaluación de la aplicabili- muestre si la detección precoz de concentraciones
dad de los resultados requiere tener en cuenta las elevadas de colesterol en sangre mejora el pronósti-
ventajas y desventajas de cada una de las técnicas, la co de los sujetos y así reducir la incidencia y la mor-
capacidad diagnóstica de los profesionales para talidad cardiovasculares. Sin embargo, lo que se
identificar las lesiones dermatológicas susceptibles suele hacer es realizar estudios que aporten eviden-
de tratamiento, las habilidades técnicas adquiri- cias parciales, por ejemplo, sobre la utilidad de dife-
bles por cualquier profesional con una formación rentes técnicas de detección de las concentraciones
adecuada, los requerimientos técnicos necesarios elevadas de colesterol sérico, o sobre si la aplicación
para el adecuado almacenamiento de las sustancias de diferentes intervenciones, ya sea farmacológicas o
(p. ej., el nitrógeno líquido precisa de unos conte- dietéticas, produce una disminución de las concen-
nedores especiales, habitualmente no disponibles traciones de colesterol, o, lo que sería aún mejor, de
en los centros de salud). Este tipo de estudios sue- la incidencia de la enfermedad cardiovascular.
len hacerlo profesionales interesados y motivados Cuantos más pasos de este proceso abarque un estu-

297
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Detección Intervención
Concentraciones Disminución de Prevención
Individuos
elevadas de las concentraciones de la enfermedad
asintomáticos
colesterol sérico de colesterol sérico coronaria

Figura 32.1. Detección de las concentraciones elevadas de colesterol sérico: marco para la elaboración
de recomendaciones.

dio, más firmes podrán ser sus recomendaciones. debería poder explicar el efecto del fármaco sobre
Así, un estudio que evalúe la eficacia de una inter- la progresión clínica, lo que ocurre sólo parcial-
vención dietética sobre la incidencia de enfermedad mente. Hoy se sabe que los cambios en dicha cifra
cardiovascular proporcionará una base más sólida sólo explican un pequeño porcentaje del benefi-
para recomendarla que si tan sólo ha demostrado cio que proporciona el tratamiento antirretrovi-
que reduce las concentraciones de colesterol. ral, y que el recuento de viriones circulantes en
Es frecuente que la variable del resultado princi- sangre mediante pruebas de amplificación genéti-
pal presente alguna dificultad para su medición, de ca es, por ahora, el mejor método para valorar el
forma que muchos estudios optan por utilizar varia- grado de respuesta al tratamiento. El tiempo dirá
bles intermedias o subrogadas, es decir, correlacio- si la carga viral es una variable intermedia válida
nadas con la del resultado principal, que reflejan el con esta finalidad.
efecto del factor de estudio y son más fáciles de me-
dir. Dado que su uso comporta un coste menor del A la hora de interpretar los resultados de un es-
estudio, ya que se requiere un seguimiento más cor- tudio que ha utilizado variables intermedias, hay
to y un menor número de sujetos, muchos estudios que tener en cuenta las posibles limitaciones de su
utilizan este tipo de variables para evaluar el efecto uso. Se debe valorar si la relación entre la variable
del factor de estudio. Sin embargo, los resultados intermedia y la principal es causal, o si sólo se trata
deben evaluarse con cautela, ya que, por ejemplo, de una asociación coincidente o mediada por un
el hecho de que un fármaco disminuya el coleste- tercer factor. Otro problema puede presentarse
rol y los triglicéridos no implica que aumente la cuando hay varios mecanismos de actuación sobre
supervivencia, o de que un antihipertensivo reduz- la variable principal, y la variable intermedia refleja
ca la presión arterial no significa que disminuya el tan sólo uno de ellos.
riesgo de ictus, o que un tratamiento que aumente
la densidad mineral ósea, disminuya el riesgo de Ejemplo 32.4. La relación causa-efecto entre la hi-
fracturas. De hecho, muchas variables intermedias pertensión arterial y el aumento de riesgo de mor-
pueden ser consideradas válidas durante años, e talidad cardiovascular está bien establecida. Sin em-
investigaciones posteriores pueden demostrar que bargo, el beneficio del tratamiento antihipertensivo
no lo eran. sobre la mortalidad cardiovascular no puede gene-
ralizarse directamente de su eficacia sobre una va-
Ejemplo 32.3. La necesidad de intervenir de forma riable intermedia como es la medición de la pre-
rápida y eficaz sobre la epidemia de sida ha impul- sión arterial. Algunos fármacos, como los diuréticos
sado el uso sistemático de variables intermedias o los bloqueadores betaadrenérgicos, han demos-
para evaluar los efectos de los tratamientos. Du- trado en ensayos clínicos controlados mejoras de
rante mucho tiempo, el recuento de los linfocitos supervivencia en los pacientes del grupo sometido
CD4 se consideró como la mejor variable interme- a intervención, mientras que otros grupos de fár-
dia para esta valoración, ya que este marcador macos o no lo han demostrado, o hay datos que su-
muestra una gran correlación con el riesgo de pro- gieren un efecto negativo a través de mecanismos
gresión a sida. Sin embargo, para poder ser consi- de acción mal conocidos que contrarrestarían el be-
derada como una variable intermedia válida en la neficio obtenido por la reducción de la presión ar-
evaluación de la eficacia de los tratamientos, terial (Psaty et al, 1997).

298
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS

Una tercera limitación se da cuando el efecto so- tudiados y proporción de la incidencia en un grupo
bre la variable intermedia es de intensidad o dura- o población que puede ser atribuida al factor de
ción insuficiente para afectar a la variable principal. estudio.
Sin embargo, desde un punto de vista práctico, La diferencia de incidencias (DI) o exceso de
cuando un fármaco ha demostrado su efecto sobre riesgo se define como la diferencia entre la inciden-
una variable intermedia, y se ha comprobado que se cia en los expuestos (I1) y la incidencia en los no ex-
corresponde con una mejora en la variable princi- puestos al factor de estudio (I0) (tabla 32.1). La DI
pal, al evaluar el efecto de nuevos fármacos del mis- representa la cantidad de incidencia que puede ser
mo grupo terapéutico, no es imprescindible estudiar atribuida al factor de estudio. A diferencia de la DI,
de nuevo sus efectos sobre la variable principal, sino el riesgo relativo (RR) no tiene en cuenta la magni-
que basta con demostrar que producen un efecto tud de las incidencias que se están comparando.
sobre la variable intermedia igual o superior al del
otro fármaco. Igualmente, si se ha comprobado que
la detección precoz del cáncer de mama reduce la Tabla 32.1. Medidas de impacto
mortalidad por este proceso, cuando se refina el ins-
trumento de detección precoz, no es necesario eva- Diferencia de incidencias (DI) (1)
luar de nuevo su efecto sobre la mortalidad. DI = I1 – I0
De todas formas, el hecho de haber demostrado Riesgo atribuible en los expuestos (RAE):
que un factor de estudio tiene un efecto relevante so-
bre una única variable principal no es suficiente para (I1 – I0) / I1 RR – 1
RAE = =
elaborar una recomendación sin haber evaluado sus I1 RR
efectos sobre otras variables también relevantes. Por
ejemplo, es posible que un tratamiento antineoplási- (1) En un ensayo clínico aleatorio, se denominan
co aumente la supervivencia de los pacientes con reducción absoluta de riesgo (RAR)
determinado tipo de cáncer, pero disminuya su cali-
dad de vida, o que una intervención quirúrgica RAE = (I1 – I0) / I1
aumente la supervivencia a largo plazo de los pacien- RAE = (RR – 1) / RR*
tes, pero aumente la mortalidad peroperatoria, o
Riesgo atribuible poblacional (RAP):
que el tamoxifeno sea capaz de disminuir la inciden-
RAP = (Ip – I0) / Ip
cia de cáncer de mama en mujeres de alto riesgo, RAP = RAE Proporción de exposición entre
pero aumente la de cáncer de endometrio, o que el los enfermos**
ácido acetilsalicílico a determinadas dosis sea capaz
de prevenir el infarto agudo de miocardio, pero Disminución relativa de riesgo que se produce
tenga efectos secundarios importantes (hemorra- con el tratamiento (DRR)
gias, accidentes vasculares cerebrales, etc.). DRR = [Pc – Pt] / Pc

I1: incidencia en el grupo de estudio.


MEDIDAS DE IMPACTO I0: incidencia en el grupo de referencia.
Los estudios analíticos están diseñados para estimar RR: riesgo relativo.
Ip: incidencia en la población.
el efecto de un factor de estudio sobre una variable
Pc: proporción de sujetos que desarrollan la respuesta
de respuesta. Esta estimación suele hacerse a través en el grupo control.
de medidas de asociación, como el riesgo relativo Pt: proporción de sujetos que desarrollan la respuesta
(RR) o la odds ratio (OR) (anexo 2). Estas medidas en el grupo de intervención.
estiman la fuerza de la asociación entre el factor de * Cuando la medida del efecto es la OR, sustituir RR por OR.
estudio y la variable de respuesta, pero no su impac- ** En una tabla típica de 2 ⫻ 2, la proporción de exposición
entre los enfermos es el cociente a/(a + c).
to potencial sobre la salud de la población.
Existe cierta confusión terminológica cuando se
habla de medidas de impacto. Esquemáticamente, Ejemplo 32.5. Cuando se comparan incidencias acu-
se pueden distinguir dos tipos: diferencia de inci- muladas del 90 y del 30%, se obtiene un RR de 3, al
dencias (diferencia de riesgos) entre los grupos es- igual que si fueran del 3 y del 1%. La DI informa so-

299
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

bre el exceso de riesgo en los individuos expuestos, eliminación de un factor de riesgo. De este modo,
comparado con los no expuestos, que sería del 60% permiten conocer la magnitud del daño a la salud
en el primer caso, y sólo del 2% en el segundo. ocasionado por un factor de riesgo determinado.
Estas medidas se han usado en planificación sanita-
La DI y el RR son dos formas diferentes (y com- ria para priorizar posibles intervenciones. Una de
plementarias) de abordar un mismo problema. Ba- sus principales limitaciones es su propia interpreta-
jo el punto de vista de la salud pública, la DI es más ción. Así, por ejemplo, el RAP se interpreta como la
informativa, ya que muestra el exceso de casos que proporción en la que se reduciría la incidencia de
están asociados a la exposición al factor de estudio. la enfermedad si se eliminase totalmente el factor
Por otro lado, desde el punto de vista de la investi- de riesgo. Plantearse la eliminación total de un fac-
gación etiológica, el RR es más informativo, ya que tor de riesgo no suele ser realista, por lo que estas
estima la fuerza de la asociación entre el factor de medidas son una estimación del impacto potencial,
estudio y la respuesta. La DI no sólo depende del pero no del real.
RR, sino también de la frecuencia de la enferme-
dad. Para enfermedades poco frecuentes, aun Ejemplo 32.7. En el estudio de Framingham se esti-
cuando el RR asociado a una exposición sea eleva- maron los RR de padecer enfermedad coronaria
do, la DI puede ser más pequeña que si el RR de esa asociados a la presencia de hipertensión arterial
misma exposición es menor, pero la enfermedad (HTA), obesidad y diabetes, que fueron de 2,2, 1,3
mucho más frecuente. y 2,1, respectivamente. Sin embargo, el RAP fue res-
pectivamente del 16,7, el 7,8 y el 0,7% para cada
Ejemplo 32.6. El ejemplo más clásico es la asocia- uno de los tres factores de riesgo. Estas cifras indi-
ción entre el consumo de tabaco y el cáncer de can que, a pesar de que la diabetes tenga un RR si-
pulmón, por un lado, y la cardiopatía isquémica, milar a la HTA y claramente superior a la obesidad,
por otro. El RR entre el consumo de tabaco y el cán- su RAP es bastante inferior dado que su prevalencia
cer de pulmón es mayor de 10, mientras que su aso- es menor que la de los otros factores. Ello indica
ciación con la cardiopatía isquémica es aproxima- que un programa dirigido a reducir la incidencia
damente de 2, pero al ser esta última enfermedad de la enfermedad coronaria mediante el control de
mucho más frecuente, su DI es mayor. la diabetes tendría menos impacto que otro enfoca-
do al control de la HTA o de la obesidad, siempre
El riesgo atribuible proporcional, o fracción atri- que las condiciones de factibilidad, relevancia so-
buible, representa la DI relativa. Existen dos medi- cial y eficiencia de los programas fueran iguales.
das de riesgo atribuible proporcional, según se re-
fiera a la incidencia del grupo expuesto o a la que Otra situación es cuando se mide el impacto de
se observa en la población de la que procede la co- un mismo factor de riesgo en la incidencia de dis-
horte (ver tabla 32.1). Si en el denominador se uti- tintas enfermedades.
liza la incidencia del grupo formado por las perso-
nas expuestas a un determinado factor de riesgo, se Ejemplo 32.8. En el estudio de Framingham se ha
habla de riesgo atribuible en los expuestos (RAE). Si en estimado que el RR asociado a la HTA en relación
el denominador se usa la incidencia de la pobla- con la enfermedad coronaria es de 2,2, mientras
ción total (Ip), compuesta tanto por los sujetos ex- que el RR asociado a la enfermedad vascular perifé-
puestos como por los no expuestos al factor de ries- rica es de 2,5. Dado que los RR son similares para
go, se habla de riesgo atribuible poblacional (RAP). El ambas enfermedades, el RAE y el RAP serán tam-
RAE y el RAP se suelen expresar en porcentajes y se bién similares, ya que se trata de un solo factor con
interpretan como la proporción de incidencia en el una determinada prevalencia (de hecho, el RAE
grupo en estudio (el utilizado en el denominador) para la enfermedad coronaria es del 57% y para la
que puede ser atribuida al factor de estudio. Tam- enfermedad vascular periférica, del 60%). En esta
bién pueden calcularse a partir del RR y de la OR situación, la incidencia de la enfermedad desem-
(ver tabla 32.1). peña un papel crucial, por lo que es necesario recu-
Estas medidas dan una idea del impacto que rrir a la DI para obtener una visión diferente del
tendría sobre la incidencia de una enfermedad la impacto del factor de riesgo. La DI para la enfer-

300
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS

medad coronaria es del 14,2% a los 10 años, mien- decir, en el grupo tratado la incidencia de ACV en 5
tras que para la enfermedad vascular periférica es años es un 33% menor que la observada en el grupo
sólo del 3,7%. La DI es superior en el caso de la placebo. Obsérvese que el valor 0,33 es el comple-
enfermedad coronaria dada su mayor incidencia. mentario del riesgo relativo del tratamiento, en rela-
ción con el placebo (1 ⫺ 0,67 = 0,33). Por tanto,
M EDIDAS DEL EFECTO RRR puede expresarse como:
DE UN TRATAMIENTO
El ensayo clínico aleatorio (ECA), al implicar el se- RRR = [Pc ⫺ Pt] / Pc = 1 ⫺ (Pt/Pc) = 1 ⫺ RR
guimiento de los sujetos, permite calcular la inci-
dencia del desenlace en cada uno de los grupos. La expresión de los resultados en términos rela-
Existen diferentes formas de expresar sus resulta- tivos, como a menudo se hace al difundir las con-
dos, ya sea con medidas relativas o con medidas ab- clusiones de los ensayos clínicos, puede hacer que se
solutas de riesgo. sobrevalore el efecto beneficioso real del fármaco.

Ejemplo 32.9. Supongamos un ECA que compara Ejemplo 32.10. Cuando una misma reducción rela-
un tratamiento para la hipertensión arterial y un tiva de riesgo del 33% se aplica a una población de
placebo, con el fin de evaluar su eficacia en la reduc- alta incidencia (p. ej., Pc = 40%), esta reducción
ción de la incidencia de accidente cerebrovascular de riesgo supone un descenso de la incidencia en el
(ACV) después de 5 años de tratamiento. En el gru- grupo tratado al 26,8% (diferencia absoluta del
po que ha recibido el placebo, al finalizar el estudio 13,2%), mientras que si la incidencia en la pobla-
un 15% de los sujetos ha presentado ACV, mientras ción es muy baja (p. ej., Pc = 1%), la misma reduc-
que sólo lo ha desarrollado un 10% de los que han ción relativa de riesgo supondrá un descenso de la
recibido el tratamiento. incidencia en el grupo tratado al 0,67% (diferencia
Una forma sencilla de expresar el resultado es absoluta del 0,33%). Por tanto, para valorar la
mediante la diferencia de incidencias acumuladas acción real del fármaco hay que conocer, además
en ambos grupos, que se conoce como reducción ab- de la disminución relativa de riesgo, la incidencia
soluta de riesgo (RAR). En el ejemplo, su valor es de real del proceso que se intenta reducir en la pobla-
un 15 ⫺ 10% = 5%, lo que significa que el trata- ción a la que se va a aplicar el tratamiento farma-
miento ha reducido en un 5% la incidencia acumu- cológico.
lada de ACV en 5 años en sujetos con hipertensión
arterial, en relación con el placebo. La aplicación práctica de los ensayos clínicos pue-
Otra forma de expresar los resultados sería co- de ser difícil para el profesional sanitario, que debe
mo riesgo relativo, que corresponde al cociente en- valorar en un determinado individuo los riesgos y los
tre las incidencias de ACV observadas en cada gru- beneficios de la instauración de un tratamiento far-
po. En el ejemplo, su valor sería 10/15 = 0,67, lo macológico a largo plazo. Otra medida que se puede
que significa que la incidencia de ACV en 5 años en obtener de estos estudios, fácil de calcular a partir de
el grupo tratado es 0,67 veces la observada en el la disminución absoluta de riesgo, comprensible
grupo que ha recibido placebo. También podría para el clínico y extrapolable a la realidad de su la-
calcularse el riesgo relativo de padecer ACV del bor diaria, es el número de casos que es necesario
grupo placebo en relación con el tratado, que sería tratar para prevenir un episodio. Desde el punto de
15/10 = 1,5, lo que significa que el riesgo de pade- vista matemático, esta medida equivale al recíproco
cer ACV a los 5 años es 1,5 veces superior en los su- del valor de la reducción absoluta de riesgo y, por
jetos que han recibido placebo, en relación con los tanto, presenta las mismas ventajas en la expresión
que han recibido el tratamiento. de resultados. Presenta la ventaja adicional de que
Los resultados también pueden presentarse indica el esfuerzo terapéutico que debe realizarse
como la reducción relativa de riesgo que se consigue para poder prevenir un episodio.
con el tratamiento (RRR), es decir, la reducción de
la incidencia en un grupo, expresado en forma Ejemplo 32.11. En el ejemplo 32.9, el número de
de tanto por ciento respecto al otro grupo (ver tabla personas que es necesario tratar (NNT) para preve-
32.1). El valor de la RRR es (15 ⫺ 10)/15 = 0,33, es nir un caso de ACV es:

301
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

NNT = 1 / (0,15 ⫺ 0,10) = 1 / 0,05 = 20 Cuando se desean elaborar recomendaciones a


partir de los resultados de un estudio, hay que tener
Esta cifra indica que es necesario tratar a 20 per- en cuenta las diferencias entre las características de
sonas con el antihipertensivo durante 5 años para los sujetos estudiados y las de aquellos que confor-
prevenir un caso de ACV. man la población diana de la recomendación, ya
que las diferencias entre ellas podrían dar lugar a
Un cálculo similar puede aplicarse para estimar modificaciones en la magnitud de la respuesta. La
el número de personas que es necesario cribar para extrapolación de los resultados, como última fase
detectar un caso de enfermedad o prevenir una de la interpretación, tampoco es una tarea mecáni-
muerte, o incluso el número de personas que es ne- ca que se derive simplemente de un solo estudio o
cesario tratar para que aparezca un efecto secunda- de una prueba estadística, sino que requiere un jui-
rio. El cálculo de estas medidas permite hacer un cio de valor para el que la existencia de mecanis-
balance entre los riesgos y los beneficios esperados mos fisiológicos y patológicos que puedan explicar-
del tratamiento. los son de gran ayuda.

Ejemplo 32.12. El American Physicians Health Stu-


POBLACIÓN DE ESTUDIO dy (1988) es un ensayo clínico aleatorio, doble cie-
Los hallazgos de cualquier estudio sólo son aplica- go y controlado con placebo. Uno de sus objetivos
bles desde un punto de vista estricto a los indivi- era evaluar si 325 mg de ácido acetilsalicílico a días
duos que han participado y a los sujetos que cum- alternos reducía la incidencia de infarto agudo de
plirían los criterios de selección. Sin embargo, la miocardio (IAM). La población potencialmente
extrapolación de los resultados a otros pacientes es candidata eran todos los hombres médicos de eda-
de gran importancia para los clínicos. El primer pa- des comprendidas entre los 40 y 84 años que re-
so para realizar esta inferencia es evaluar si los par- sidían en Estados Unidos al inicio del estudio. Se
ticipantes que responden satisfactoriamente a un enviaron cartas a 261.248 médicos solicitando su
tratamiento o que presentan mayor riesgo de enfer- colaboración, de los cuales 112.528 respondieron,
medad tras una exposición son semejantes a los pa- 59.285 de los cuales aceptaron participar en el estu-
cientes a los que se espera aplicar el tratamiento o dio. Los criterios de exclusión principales fueron los
evitar la exposición. antecedentes personales de enfermedad cardiovas-
Si los criterios de selección de los participantes cular, cáncer, enfermedad renal o hepática, úlcera
en un estudio son muy restrictivos, se consigue una péptica o gota, contraindicaciones al uso de aspirina,
muestra de sujetos muy homogénea, lo que favore- consumo de aspirina u otros agentes antiplaqueta-
ce la validez interna, en los que se espera que el rios y consumo de antiinflamatorios no esteroideos.
efecto sea frecuente, ganando en eficiencia ya que Un total de 33.223 médicos cumplían los criterios
requiere menos individuos y/o menos tiempo de de selección y fueron sometidos a un período de
seguimiento, a la vez que aumenta la posibilidad preinclusión de 18 semanas en el que tomaron as-
de obtener resultados estadísticamente significati- pirina con el propósito de excluir, antes de la asigna-
vos. Sin embargo, la extrapolación a sujetos de ción aleatoria, a los sujetos no cumplidores o que
características diferentes a las estudiadas puede desarrollaran efectos secundarios. Finalmente, un
presentar limitaciones importantes. Por otro lado, total de 22.071 médicos fueron asignados aleatoria-
si se han utilizado criterios poco restrictivos, se tien- mente a los grupos de estudio: 11.037 al grupo que
de a obtener muestras de sujetos de características recibía aspirina y 11.034 al grupo placebo. Después
más similares a las de los sujetos visitados en la prác- de un seguimiento promedio de 5 años, se habían
tica habitual y, por tanto, los resultados son más producido 139 casos de IAM (10 de ellos mortales)
fácilmente extrapolables, pero con el inconveniente en el grupo de tratamiento activo y 239 (26 de ellos
de que la población estudiada es más heterogénea y, mortales) en el grupo placebo. El riesgo relativo
por tanto, es más difícil detectar un efecto, a la vez era de 0,56 (IC 95%: 0,45 a 0,70) para el total de IAM
que requiere un mayor número de sujetos y/o tiem- y de 0,34 (IC 95%: 0,15 a 0,75) para los IAM mortales.
po de seguimiento para contrarrestar esta mayor Supongamos que debemos decidir si estos ha-
variabilidad. llazgos son aplicables a las mujeres no médicos que

302
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS

cumplen el resto de criterios de selección. Para análisis de subgrupos puede resultar de gran utili-
abordar esta cuestión hay que considerar, en pri- dad para determinar, por ejemplo, si el efecto de la
mer lugar, si el mecanismo de acción de la aspirina intervención es similar en diferentes subgrupos de
en la prevención del IAM es aplicable a las mujeres sujetos, o bien si en alguno de ellos es claramente
no médicos, es decir, si existe alguna diferencia en diferente. En muchas ocasiones, los pacientes in-
la fisiopatología de la enfermedad que haga sospe- cluidos en un ensayo clínico presentan característi-
char que los resultados no son extrapolables. Sin cas heterogéneas y pueden diferir, por ejemplo, en
embargo, en muchas ocasiones no es posible llegar la gravedad de la enfermedad al inicio del estudio y,
a una conclusión de esta naturaleza de forma ine- por tanto, en el riesgo absoluto del resultado que se
quívoca, dado que nuestro conocimiento sobre la está evaluando. De este modo, un tratamiento que
patogenia de las enfermedades no es definitivo. produce un efecto beneficioso en el conjunto de
Mientras no exista ningún dato que haga presumi- los individuos estudiados puede ser perjudicial
ble que los no médicos no puedan beneficiarse del en los pacientes con bajo riesgo.
tratamiento, en las mujeres hay que considerar las
diferencias hormonales y otras, que podrían resul- Ejemplo 32.13. Rotwell (1995) reanalizó los resulta-
tar en una extrapolación inexacta. Esta incertidum- dos del European Carotid Surgery Trial (ECST)
bre sería aún mayor si se decidiera generalizar los para ilustrar este punto. En dicho estudio se compa-
datos a hombres y/o mujeres que no cumplen raba el tratamiento quirúrgico (endarterectomía
los criterios de inclusión del estudio, o bien extra- carotídea) frente al no quirúrgico en pacientes con
polar si con una dosis menor se hubiera podido accidentes cerebrales isquémicos transitorios (AIT).
conseguir el mismo beneficio. El reanálisis se circunscribió a los pacientes con
estenosis de carótida grave, que fue en quienes se ob-
Muchos autores han cuestionado hasta qué pun- servó un beneficio del tratamiento quirúrgico. Este
to los resultados de un estudio pueden ser aplicables autor obtuvo, mediante la aplicación de un modelo
a pacientes que no han sido incluidos en él. Se ha de regresión, un índice pronóstico de padecer un
observado, por ejemplo, que pacientes incluidos en AIT de todos los participantes en el estudio. Los indi-
ensayos clínicos tienen mejor supervivencia y res- viduos incluidos en los grupos de intervención y con-
puesta al tratamiento que los no incluidos, con inde- trol fueron clasificados en tres categorías de riesgo:
pendencia de si recibían el tratamiento en estudio o bajo, intermedio y alto. A continuación, calculó los
la intervención del grupo control (Stiller, 1994). Al- riesgos absolutos y relativos del tratamiento en cada
gunas de las posibles razones son que los criterios de una de las tres categorías (tabla 32.2). Los resultados
inclusión restringen la entrada a pacientes con me- muestran que, en global, el tratamiento quirúrgico
nor comorbilidad y mejor pronóstico, que los estu- es beneficioso en toda la muestra, y en particular, en
dios suelen realizarse en centros sanitarios de exce- los de riesgo alto e intermedio. Estos resultados son
lencia con profesionales muy experimentados y con estadísticamente significativos, ya que el intervalo de
mejores equipamientos, los pacientes siguen un confianza de la reducción relativa de riesgo excluye
protocolo más riguroso, probablemente con un me- el valor 1. Sin embargo, en el subgrupo de riesgo
jor cumplimiento de la intervención, que han dado bajo el resultado no es estadísticamente significativo,
su consentimiento para participar, lo que indica que y el intervalo de confianza muestra que la interven-
adquieren cierto grado de compromiso para reali- ción incluso podría ser perjudicial en este grupo.
zar una mejor adherencia a todas las recomendacio- Los resultados de un ensayo clínico son generali-
nes e intervenciones que se les practican, etc. Por zables a pacientes con características similares a los
tanto, no es sorprendente que, en promedio, los pa- incluidos en el estudio. Si no se plantea un análisis
cientes incluidos en un ensayo clínico tengan un de subgrupos, se asume que el efecto del tratamien-
mejor pronóstico. to es el mismo en todos ellos. Si se hubiera aplicado
este criterio al ejemplo anterior, aunque en prome-
S UBGRUPOS DE POBLACIÓN dio la intervención hubiera sido beneficiosa, un sub-
Habitualmente, los resultados se presentan de for- grupo de sujetos hubiera podido recibir una inter-
ma global para todos los sujetos estudiados. Sin em- vención incluso perjudicial. Por esta razón, en los
bargo, cuando las poblaciones son heterogéneas, el estudios en los que se incluye una población muy

303
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla 32.2. Análisis de subgrupos planteado en el ejemplo 32.13

Grupo control Grupo intervención

n ACV (riesgo) n ACV (riesgo)

Riesgo
Bajo 119 10 (8,4%) 183 18 (9,8%)
Intermedio 178 25 (14,0%) 273 19 (7,0%)
Alto 89 18 (20,2%) 132 8 (6,1%)
Total 386 53 (13,7%) 588 45 (7,7%)

Reducción relativa Reducción absoluta


del riesgo (IC 95%) del riesgo

Riesgo
Bajo 1,16 (0,6–2,4) –1,4%
Intermedio 0,53 (0,3–0,9) 7,0%
Alto 0,34 (0,1–0,7) 14,1%
Total 0,51 (0,3–0,8) 6,0%

heterogénea es conveniente que ésta se estratifique de los sujetos a los que se aplica un tratamiento que
en función del riesgo que tiene de padecer el re- produce una reducción relativa de riesgo del 30%.
sultado de interés. Es importante que esta estratifi- Se observa como, a medida que disminuye el riesgo
cación se haga durante la fase de diseño y no en la basal, aumenta el esfuerzo terapéutico necesario
de análisis, ya que si no se tratará de un caso especial para prevenir un episodio.
de análisis de subgrupos a posteriori con la posibi-
lidad que conlleva de resultados engañosos. El problema a la hora de aplicar los resultados a
la práctica es disponer de información sobre el ries-
R IESGO BASAL DE LA POBLACIÓN go basal de los sujetos (estudios de Framingham y
Las medidas de impacto que permiten evaluar la Marrugat).
utilidad práctica de un tratamiento como el NNT Este mismo concepto es aplicable a cualquier
varían en función del riesgo basal de la población a tipo de estudio. Si una investigación tiene por obje-
la que se aplican. tivo obtener una ecuación predictiva del riesgo de
presentar una enfermedad, su aplicabilidad a pobla-
Ejemplo 32.14. En la tabla 32.3 se presentan diversas ciones de características diferentes de la estudiada
estimaciones de NNT en función del riesgo basal debe tener en cuenta el entorno y las características

Tabla 32.3. Número de personas que deben ser tratadas para prevenir un episodio en función
del riesgo basal en el grupo de referencia (ejemplo 32.14)

Riesgo basal (grupo de referencia)


20% 10% 1%

Riesgo en el grupo tratado 14% 7% 0,7%


Reducción relativa de riesgo (RRR) 30% 30% 30%
Reducción absoluta de riesgo (RAR) 6% 3% 0,3%
Número de personas que deben ser
tratadas para prevenir un episodio (NNT) 1/0,06 = 16,7 1/0,03 = 33,3 1/0,003 = 333,3

304
APLICABILIDAD PRÁCTICA DE LOS RESULTADOS

de los sujetos en los que se ha determinado la ecua- B IBLIOGRAFÍA


ción. Esto es lo que ocurre con muchas de las reglas Altman DG, Bland JM. Generalization and extrapolation.
de cálculo de riesgo de padecer un episodio cardio- BMJ 1998; 317: 409-410.
vascular que se han derivado de poblaciones anglo- Argimon JM, Jiménez Villa J. Medidas del efecto de un trata-
sajonas que presentan una incidencia basal y una miento. FMC 1998; 5 (Supl. 7; atención primaria basada
mortalidad muy diferentes a las de la población en la evidencia 1998/3): 45-46.
Bailey KR. Generalizing the results of randomized clinical
española.
trials. Control Clin Trials 1994; 15: 15-23.
De forma similar, en los estudios que evalúan Bakke OM, Carné X, García Alonso F. Ensayos clínicos con
una prueba diagnóstica puede suceder que su sensi- medicamentos: fundamentos básicos, metodología y
bilidad y especificidad puedan ser diferentes en sub- práctica. Barcelona: Doyma, 1994.
grupos determinados de pacientes. Además, los Barratt A, Irwing L, Glasziou P et al, for the Evidence-Based
valores predictivos que miden la utilidad práctica de Medicine Working Group. Users’ guides to the medical
la prueba variarán en función de la prevalencia de la literature XVII. How to use guidelines and recommen-
enfermedad en la población en la que se aplique. dations about screening. JAMA 1999; 281: 2029-2034.
Brotons Cuixart C. Aplicación de los resultados de los mega-
Ejemplo 32.15. En la tabla 32.4 puede observarse ensayos al paciente individual. FMC 1998; 5 (Supl. 8;
cómo varían los valores predictivos de una prueba atención primaria basada en la evidencia 1998/4): 67-68.
Cook RJ, Sackett DL. The number needed to treat: a clini-
diagnóstica, en función de la prevalencia de enfer-
cally useful measure of treatment effect. BMJ 1995; 310:
medad en la población de sujetos a la que se aplica. 452-454.
Puede apreciarse que el valor predictivo positivo des- Davis CE. Generalizing from clinical trials. Control Clin
ciende desde un 95% cuando la prevalencia es del Trials 1994; 15: 11-14.
50% hasta un 16% cuando la prevalencia es del 1%. Fayers PM, Hand DJ. Generalization from phase III clinical
trials: survival, quality of life, and health economics.
Lancet 1997; 350: 1025-1027.
Tabla 32.4. Efecto de la prevalencia sobre Fleming TR, De Mets DL. Surrogate end-points in clinical
los valores predictivos de una trials: are we being misled? Ann Intern Med 1996; 125:
prueba diagnóstica (se asume 605.
una sensibilidad y una especificidad García Alonso F, Guallar E, Bakke OM, Carné X. El placebo
del 95%) (ejemplo 32.15) en ensayos clínicos con medicamentos. Med Clin (Barc)
1997; 109: 797-801.
Glasziou PP, Irwig LM. An evidence-based approach to indi-
Prevalencia % 50 10 1
vidualising treatment. BMJ 1995; 311: 1356-1358.
Valor predictivo
Gray JMA, Haynes RB, Sackett DL, Cook DJ, Guyatt GH.
de una prueba
Transferring evidence from research into practice: 3. De-
positiva % 95 68 16
veloping evidence-based clinical policy. ACP J Club 1997;
Valor predictivo
March/April: A14-A16.
de una prueba Greenhalgh T. Papers that report drug trials. BMJ 1997; 315:
negativa % 95 99,4 99,9 480-483.
Guyatt GH, Cook DJ, Jaeschke R. How should clinicians use
the results of randomized trials? ACP J Club 1995; 122:
B IBLIOGRAFÍA DE LOS EJEMPLOS A12-A13.
Psaty BM, Smith NL, Siscovick DS, Koepsell TD, Weiss NS, Guyatt GH, Juniper EJ, Walter SD, Griffith LE, Goldstein RS.
Heckbert SR et al. Health outcomes associated with an- Interpreting treatment effects in randomised trials. BMJ
tihypertensive therapies used as first-line agents. A syste- 1998; 316: 690-693.
matic review and meta-analysis. JAMA 1997; 277: 739- Guyatt GH, Sackett DL, Cook DJ for the Evidence-Based Me-
745. dicine Working Group. Users’ guides to the medical lite-
Rotwell PM. Can overall results of clinical trials be applied rature II. How to use an article about therapy or preven-
to all patients? Lancet 1995; 345: 161-162. tion. B. What were the results and will they help me in
Steering Committee of the Physicians’ Health Study Re- caring for my patients? JAMA 1994; 271: 59-63.
search Group. Preliminary report: findings form the as- Guyatt GH, Sinclair J, Cook DJ, Glasziou P for the Evidence-
pirin component of the ongoing Physicians’ Health Stu- Based Medicine Working Group and the Cochrane Ap-
dy. N Engl J Med 1988; 318: 262-264. plicability Methods Working Group. User’s guides to the

305
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

medical literature XVI. How to use a treatment recom- McQuay HJ, Moore RA. Using numerical results of systema-
mendation. JAMA 1999; 281: 1836-1843. tic reviews in clinical practice. Ann Intern Med 1997;
Haynes RB, Sackett DL, Gray JMA, Cook DJ, Guyatt GH. 126: 712-720.
Transferring evidence from research into practice: Nieto García FJ, Peruga Urrea A. Riesgo atribuible: sus for-
2. Getting the evidence straight. ACP J Club 1997; mas, usos e interpretación. Gac Sanit 1990; 4: 112-117.
Jan/Feb: A14-A16. Pablos-Méndez A, Barr G, Shea S. Run-in periods in rando-
Haynes RB, Sackett DL, Gray JMA, Cook DJ, Guyatt GH. mized trials: implications for the application of results in
Transferring evidence from research into practice: 2. clinical practice. JAMA 1998; 279: 222-225.
Getting the evidence straight. ACP J Club 1997; Nov/ Ramalle Gómara E. Validez de los análisis de subgrupos.
Dec: A14-A16. FMC 1999; 6 (Supl. 2; atención primaria basada en la evi-
Horwitz RI, Singer BH, Makuch RW, Viscoli CM. Can treat- dencia 1999/1): 1-2.
ment that is helpful on average be harmful for some pa- Rembold CM. Number needed to screen: development of a
tients? A study of the conflicting information needs of statistic for disease screening. BMJ 1998; 317: 307-312.
clinical inquiry and drug regulation. J Clin Epidemiol Rothman KJ, Mitchels KB. The continuing and ethical use of
1996; 49: 395-400. placebo controls. NEJM 1994; 331: 394-398.
Jaeschke R, Guyatt GH, Sackett DL for the Evidence-Based Rotwell PM. Can overall results of clinical trials be applied to
Medicine Working Group. Users’ guides to the medical all patients? Lancet 1995; 345: 161-162.
literature III. How to use an article about a diagnostic Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evi-
test. B. What were the results and will they help me in dence of bias: dimensions of methodological quality as-
caring for my patients? JAMA 1994; 271: 703-707. sociated with estimates of treatment effects in controlled
Knipschild P, Leffers P, Feinstein AR. The qualification pe- trials. JAMA 1995; 273: 408-412.
riod. J Clin Epidemiol 1991; 44: 461-464. Stiller CA. Centralised treatment entry to trials and survival.
Longford NT. Selection bias and treatment heterogeneity in Br J Cancer 1994; 70: 352-362.
clinical trials. Stat Med 1999; 18: 1467-1474. Welch HG, Black WC. Evaluating randomized trials of screen-
Marcus SM. Assessing non-consent bias with parallel rando- ing. J Gen Intern Med 1997; 12: 118-124.
mized and nonrandomized clinical trials. J Clin Epide-
miol 1997; 50: 823-828.

306
Capítulo 33
Comunicación científica

a publicación de artículos en las revistas información, inventar ni omitir datos para dar

L biomédicas es el principal mecanismo que


usan los investigadores para dar a conocer a la
comunidad científica los resultados de los estudios
la sensación de que su trabajo es mejor de lo que
realmente es.
Cuando los móviles para publicar son egoístas,
que realizan y, por ello, es el medio más importante como el afán para aumentar el currículum o el pres-
de difusión de los nuevos progresos de la medicina tigio personal, conseguir una promoción profesio-
y de actualización de los conocimientos de los pro- nal o mantener la rivalidad de grupos de trabajo, el
fesionales. Un estudio no se puede considerar fina- investigador se expone al riesgo de realizar estu-
lizado hasta que no haya sido difundido en el ámbi- dios poco originales y publicarlos de forma rutina-
to que pueda ser de interés. ria. Es prácticamente inevitable que sigan viendo la
Para que la comunicación científica sea real- luz artículos sin originalidad ni interés, ya que con
mente eficaz, es necesario no sólo que los estudios frecuencia se equipara mayor mérito científico con
se hayan efectuado con rigor metodológico, sino mayor número de publicaciones, y se valora la can-
que también los artículos hayan sido redactados y tidad por encima de la calidad.
publicados de forma correcta, para que permitan a Debe evitarse la publicación fragmentada, que
los lectores evaluar tanto la validez de los resultados consiste en descomponer un trabajo y publicar sus
como su aplicabilidad a su propia práctica. fragmentos de forma separada como artículos ori-
En el proceso de la comunicación científica es- ginales y la publicación duplicada o repetida, que
crita son cuatro los actores implicados: los investi- ocurre cuando un artículo presenta esencialmente
gadores o autores de los manuscritos, los editores la misma información o con escasas variaciones
de las revistas, los asesores que revisan los trabajos y que otro ya publicado. Es obligación del autor
los lectores de los artículos que se publican. informar al editor de cualquier situación que
pudiera ser motivo de publicación redundante. La
publicación previa de un resumen o la presenta-
AUTORES ción total o parcial de datos en una reunión cientí-
Los investigadores son responsables de la veracidad fica no se consideran objeto de publicación redun-
y la originalidad de la información que presentan, y dante, aunque se aconseja que este hecho conste al
en caso necesario deben ser capaces de acreditar- pie de la primera página del manuscrito.
las. No sólo deben haber diseñado y ejecutado los También debe evitarse la inflación de autoría,
estudios con el rigor adecuado, sino que han de es- que algunos denominan autoría «fantasma», que
cribir los informes con honestidad, sin manipular la consiste en hacer constar como coautores a perso-

309
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

nas que no han contribuido de forma sustancial al lectores de la revista, así como mejorar la redacción
estudio. Es importante respetar escrupulosamente y la presentación de los datos del artículo.
los criterios de autoría. El proceso de revisión ha recibido diversas críti-
Los autores deberían hacer constar la existencia cas, entre las que destacan que es costoso, que con-
de cualquier relación con empresas o instituciones sume mucho tiempo a los expertos, que éstos pue-
u otro tipo de situación que pudiera suponer un den tener un sesgo en contra o a favor del mensaje
conflicto de intereses y comprometer la interpreta- del artículo, o incluso un conflicto de intereses. El
ción objetiva de los datos. Además, deben redactar revisor puede no tener la competencia técnica o los
los artículos con claridad, pensando en los lectores conocimientos metodológicos suficientes para valo-
potenciales y respetando las recomendaciones in- rar la calidad del diseño de un estudio y/o la rele-
ternacionales para la presentación de manuscritos vancia de la información que se presenta. Además,
a las revistas biomédicas. el proceso de revisión puede introducir un retraso
innecesario en la comunicación de hallazgos im-
portantes, a veces incrementado por la pereza del
EDITORES
revisor que incumple los plazos de tiempo que mar-
Los editores deben determinar la línea editorial de can los directores de las revistas.
la revista. Su función, y la del consejo de redacción, El proceso de revisión científica se basa en la con-
no consiste en poner dificultades a los autores, sino fianza y en la responsabilidad. Los revisores son res-
en ayudarles a publicar artículos de contenido y es- ponsables de evaluar el contenido científico del tra-
tilo correctos. Por ello, es recomendable que las re- bajo, sus méritos o defectos intrínsecos de forma
vistas publiquen periódicamente las instrucciones imparcial, desde una postura de máxima neutrali-
para los autores, así como información sobre el fun- dad, y de acuerdo con los estándares de calidad. El
cionamiento del proceso editorial y de evaluación evaluador no puede cometer abusos de poder, to-
de los trabajos. mando decisiones rápidas y caprichosas, ni menos-
La expansión que ha experimentado el volumen preciar u ofender a los autores. Las críticas al estudio
de revistas periódicas para dar cabida al ingente nú- deben realizarse siempre con corrección y profesio-
mero de publicaciones ha supuesto un enorme nalidad, respetando el pluralismo científico y sin va-
esfuerzo para mantener la calidad, preservar la vali- loraciones peyorativas de los investigadores. Los ase-
dez científica del texto impreso y proteger el dere- sores son colaboradores tanto del director como del
cho del lector a ser correctamente informado. En la autor, jamás sus adversarios.
actualidad se considera clave para garantizar la cali- La competencia científica y técnica es una condi-
dad de una revista que los trabajos que se reciben ción indispensable para ser un buen evaluador. La
sean sometidos a un proceso de evaluación por ex- obligación de competencia incluye el deber de es-
pertos que no formen parte del consejo editorial tudiar a fondo el artículo con el fin de dar un dicta-
(peer-review). Además, los editores han de acoger de men en conciencia. Si el experto no se considera
buen grado la publicación de los errores que han competente para evaluar el trabajo, deberá notifi-
de ser corregidos, de notificaciones de los autores, carlo, sin pérdida de tiempo, al director de la revista.
y de cartas de lectores que llaman la atención sobre La documentación que se entrega a los evalua-
el contenido erróneo o discutible de lo publicado. dores para su revisión es confidencial. El artículo
En caso necesario, se publicarán con el debido re- todavía inédito no puede ser divulgado por el ex-
lieve las retracciones acerca de artículos falsificados perto. No puede hacer copias de él ni pasarlo a sus
o plagiados. colaboradores u otras personas interesadas sin las
autorizaciones y garantías adecuadas.
REVISORES
LECTORES
Los objetivos principales del proceso de revisión
por expertos (peer-review) son evitar la publicación La finalidad de la comunicación científica en medi-
de un trabajo de mala calidad científica, no original cina no es simplemente la publicación de un estu-
o que no contenga información relevante para los dio de investigación u otro tipo de artículo, sino la

310
COMUNICACIÓN CIENTÍFICA

mejora de la atención sanitaria mediante la aplica- B IBLIOGRAFÍA


ción en la práctica clínica de los resultados de di- Altman DG, Cates C. Authors should make their data availa-
chos estudios y de las recomendaciones que de ble. BMJ 2001; 323: 1069-1070.
ellos se derivan. Comité Internacional de Editores de Revistas Médicas.
Requisitos de uniformidad para manuscritos presenta-
dos para publicación en revistas biomédicas. Aten Prima-
Ejemplo 33.1. Es muy ilustrativo el trabajo realizado
ria 1998; 21 (5): 331-339.
por Antman et al (1992) sobre el tratamiento trom- De María AN. Peer review: better than the alternatives. J Am
bolítico en el infarto agudo de miocardio. Estos auto- Coll Cardiol 2002; 40: 1017-1018.
res comprobaron que, si bien la evidencia disponible Dickersin K, Olson CM, Rennie D et al. Association between
en la literatura científica entre 1970 y 1975 ya era time interval to publication and statistical significance.
suficiente para demostrar que la intervención JAMA 2002; 287: 2829-2831.
era efectiva, las revisiones y libros de texto publi- Huwiler-Muntener K, Juni P, Junker C, Egger M. Quality of
cados en esas fechas no mencionaban este trata- reporting of randomized trials as a measure of methodo-
miento, o a lo sumo lo presentaban como experi- logic quality. JAMA 2002; 287: 2801-2804.
mental. No fue hasta 1980 que algún texto realizó Jefferson T, Alderson P, Wager E, Davidoff F. Effects of edito-
una recomendación específica, y sólo posteriormen- rial peer review: a systematic review. JAMA 2002; 287:
2784-2786.
te a 1985 se empezó a recomendar su uso habitual, es
Jefferson T, Wager E, Davidoff F. Measuring the quality of
decir, prácticamente 15 años después de que la evi-
editorial peer review. JAMA 2002; 287: 2786-2790.
dencia publicada fuera suficiente. Jiménez Villa J, Argimon Pallás JM. La comunicación cientí-
fica: autor, editor, revisor y lector. Aten Primaria 1998;
El lector debe ser consciente de que no todos los 22: 186-187.
resultados que se publican son válidos, que no todos Jiménez Villa J. Elaboración de manuscritos [editorial]. Aten
los resultados válidos son relevantes, y que no to- Primaria 1998; 22: 140-141.
dos los resultados válidos y relevantes son aplicables Moher D, Schulz KF, Altman DG, Rennie D. Reflections on
a su propia práctica clínica. Por ello, debe ser capaz medical journals. Ann Intern Med 2002; 137: 1011-1012.
de leer críticamente la literatura y evaluar tanto la Montori VM, Smieja M, Guyatt GH. Publication bias: a brief
validez como la relevancia y la aplicabilidad de los review for clinicians. Mayo Clin Proc 2000; 75: 1284-
1288.
artículos.
Pulido M. Obligaciones éticas de los autores: referencias
Dado el enorme volumen de artículos que se pu-
bibliográficas, criterios de originalidad y publicación
blican, han aparecido algunas revistas que tienen por redundante y derechos de la propiedad intelectual. Med
finalidad ayudar al lector en su tarea de estar al día, Clin (Barc) 1997; 109: 673-676.
seleccionando los artículos que presentan resultados Reidenberg JW. Improving peer review: a guide for revie-
válidos y de mayor relevancia, resumiéndolos en un wers of biomedical research. Clin Pharmacol Ther 2002;
formato uniforme y comentando críticamente los as- 72: 469-473.
pectos relacionados con su aplicación práctica. Rennie D. Freedom and responsability in medical publica-
tion: seting the balance right. JAMA 1998; 280: 300-302.
B IBLIOGRAFÍA DE LOS EJEMPLOS Sheikh A. Publication ethics and the research assessment
Antman EM, Lau J, Kupelnick B, Mosteller F, Chalmers TC. exercise: reflections on the troubled question of au-
A comparison of results of meta-analysis of randomized thorship. J Med Ethics 2000; 26: 422-426.
control trials and recommendations of clinical experts. Smith R. What is a publication? A continuum. BMJ 1999;
Treatments for myocardial infarction. JAMA 1992; 268: 318: 142.
240-248.

311
Capítulo 34
El artículo original

os artículos médicos están sometidos a reglas boración de un artículo original, ya que es el tipo de

L estrictas de redacción y publicación y deben se-


guir las recomendaciones del Comité Inter-
nacional de Editores de Revistas Médicas, conocidas
difusión más habitual de una investigación clínica y
epidemiológica.
Un artículo original es un trabajo publicado por
popularmente como normas de Vancouver, porque primera vez por su autor, a partir de la investigación
fue en este lugar donde un grupo de editores de llevada a cabo en un tema determinado. Su estructu-
algunas de las principales revistas biomédicas se reu- ra habitual se conoce mediante el acrónimo IMRD
nieron para uniformar los requisitos técnicos de los que representa las iniciales de sus apartados: In-
manuscritos presentados para su publicación. Su troducción, Material y métodos, Resultados y Dis-
finalidad principal es conseguir que la comunica- cusión (tabla 34.1). Además, consta del título, el resu-
ción entre el investigador y el lector del trabajo sea men y las referencias bibliográficas.
coherente, clara y precisa. Antes de redactar el artículo, conviene decidir la
Existen diversas formas de comunicación cientí- revista a la que se enviará el manuscrito con el fin de
fica, como la oral o la escrita, y diferentes soportes, que la redacción sea comprensible y atractiva para sus
como el papel o el medio electrónico. No es lo mismo lectores, y poder consultar sus instrucciones para
presentar una comunicación oral en un congreso autores y requisitos específicos.
que un póster, o que participar en una mesa redonda.
Tampoco se escribe igual un editorial, un artículo ori-
Tabla 34.1. Formato IMRD de un artículo
ginal, una revisión, una nota clínica o una carta al original
director. De la misma forma, el enfoque debe ser dis-
tinto si el texto va destinado a una monografía, una
I Introducción ¿Qué se ha estudiado?
revista de medicina general, una publicación espe-
cializada o si se va a difundir por Internet. M Material y métodos ¿Cómo se ha estudiado?
Sin embargo, una norma común a todos ellos es R Resultados ¿Qué se ha observado?
que los autores deben proporcionar la suficiente D Discusión ¿Qué interpretación
información para que los lectores puedan evaluar los tienen los datos?
resultados y las conclusiones del estudio, o repetirlo
en el supuesto de que otros investigadores estén inte-
resados en el tema y lo consideren oportuno.
INTRODUCCIÓN
En el contexto de este libro sería demasiado
extenso analizar detalladamente las reglas que rigen Su propósito general es centrar el tema. Para ello, el
todas estas formas de expresión oral y escrita. Este autor debe indicar claramente las bases en que se
capítulo se limita a presentar las normas para la ela- fundamenta el estudio, la laguna de conocimientos

312
EL ARTÍCULO ORIGINAL

que pretende llenar o, en otras palabras, las razo- Tabla 34.2. Errores frecuentes en la
nes que justifican su realización y su objetivo específico. introducción de un artículo original
La introducción debe redactarse pensando en real-
zar la necesidad del estudio y estimular la curiosidad • Realizar una revisión exhaustiva del tema
del lector. Una característica importante es la breve-
• Excesivo número de referencias bibliográficas
dad en la exposición y se considera que, por regla
general, esta sección no debe superar una página y • Poca actualidad de las referencias bibliográficas
media (45 líneas). Debe centrar el tema, no revisarlo. • Iniciar la introducción definiendo la enfermedad
Hay que utilizar pocas citas bibliográficas, y éstas en estudio
deben ser de actualidad y estar bien seleccionadas. Es • Realizar una revisión histórica de la enfermedad
recomendable que el número de referencias bibliográ-
ficas de este apartado no supere la mitad del total. • Explicar lo que se puede encontrar en cualquier
Hay que evitar realizar una revisión histórica de la texto de consulta
enfermedad y explicar lo que se puede encontrar en • Ausencia de justificación del estudio
cualquier texto de consulta. Si un lector ha decidido • Abrumar al lector con multitud de datos
leer este artículo, es porque está interesado en el pro- irrelevantes sobre la trascendencia del problema
blema y ya conoce sus aspectos más generales. Por esta
• Omitir el objetivo o enunciarlo de forma
razón no debe proporcionársele información genéri-
inadecuada
ca, sino la específica del problema concreto que se ha
estudiado. Si un lector quiere tener una visión general
de una enfermedad, escogerá artículos de revisión o
una monografía. Por este mismo motivo, se reco-
MATERIAL Y MÉTODOS
mienda no citar libros de texto en la bibliografía.
Cuando se concibe una pregunta y se planifica una Su finalidad es describir el diseño de la investigación
investigación, debe asegurarse que la pregunta que y cómo se ha llevado a cabo. Es el apartado evaluado
se formula no ha sido contestada previamente o que lo con mayor detalle en el proceso de revisión por los
ha sido de forma contradictoria. Es frecuente que un asesores de la revista y el más vulnerable para el re-
investigador novel se desilusione cuando, después de chazo de un manuscrito. Aunque habitualmente se
concebir una idea, se dirija a la biblioteca, busque en la denomina Material y métodos, algunos autores consi-
literatura y encuentre que ya se ha investigado antes deran que no es una expresión adecuada cuando la
sobre el tema. Siempre hay que pensar qué aspectos investigación se ha llevado a cabo en seres humanos y
novedosos aportará la investigación. Incluso cuando la sugieren denominarlo Pacientes y métodos, o bien Po-
idea ya ha sido previamente investigada, es útil pre- blación y métodos, si se han estudiado sujetos presunta-
guntarse si el método empleado por los anteriores mente sanos.
investigadores era el más adecuado, o bien si puede Probablemente, el principal problema que se plan-
considerarse útil repetirlo en otras poblaciones. Las tean los autores al redactar este apartado es decidir
razones que han llevado a los investigadores a realizar cuánta información debe incluirse y con qué detalle
el estudio deben ser comentadas de forma concisa en debe presentarse. La respuesta es que debe incluirse
la introducción, sin abrumar a los lectores con multi- la información suficiente para que un lector pueda
tud de datos irrelevantes sobre la trascendencia del comprender adecuadamente todo el proceso de la
problema. Tampoco deben adelantarse acontecimien- investigación, y con el detalle suficiente para que
tos, presentando, en este apartado, datos y conclusio- otros investigadores puedan replicar el estudio. Por lo
nes que se deriven del trabajo realizado. tanto, el texto de este apartado debe incluir los párra-
El último párrafo de la introducción se destina a fos correspondientes al diseño, los sujetos, las fuentes
enunciar el objetivo del estudio. Su definición explí- de información, las intervenciones, los instrumentos,
cita y clara facilita la comprensión del artículo, ya que las variables de respuesta, los procedimientos y la
el lector puede identificar con facilidad sus aspectos estrategia de análisis estadístico. Para facilitar la lectu-
más relevantes. ra, especialmente si es extenso, pueden utilizarse sub-
En la tabla 34.2 se resumen los errores más frecuen- epígrafes para cada uno de los bloques de informa-
tes que aparecen en la introducción de un artículo. ción citados.

313
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

El primer párrafo se reserva a la descripción, en doble ciego, triple ciego, etc.). Además también debe
una o dos frases, del tipo de estudio realizado. A con- especificarse si el estudio ha sido aprobado por el Co-
tinuación se especifican y describen los criterios de mité Ético de Investigación Clínica correspondiente.
inclusión y exclusión seguidos para seleccionar a la La última sección se reserva a la descripción de la
población de estudio. La definición de la enferme- estrategia de análisis y las técnicas estadísticas em-
dad o de la exposición que se estudia es el criterio pleadas. Cuando se utilizan varias pruebas ha de que-
que debe definirse con mayor precisión. Las finalida- dar claro en qué parte del artículo se utiliza cada una
des de esta descripción son evaluar la adecuación de de ellas. Si las pruebas son de uso muy frecuente,
la población, conocer en qué tipo de individuos se ha no es necesario que se describan en el texto. Si su uso
observado la presencia o la ausencia del efecto o de la es más infrecuente, conviene incluir una breve expli-
asociación estudiados, evaluar la posibilidad de extra- cación acompañada de una cita bibliográfica. Es pre-
polar los resultados a otras poblaciones y permitir la ferible que las referencias bibliográficas correspon-
replicabilidad del estudio. dan a un libro de texto o a un artículo de revisión
También debe describirse la procedencia de los sobre la prueba, antes que recurrir al artículo origi-
sujetos, ya que para la interpretación de los resulta- nal. Este último tiene, indudablemente, un gran
dos y su extrapolación no es lo mismo que procedan valor desde el punto de vista histórico y metodológi-
de un centro de atención primaria o de un hospital, co, pero suele ser muy complicado y ofrece pocos
por ejemplo, así como la técnica utilizada para la cap- ejemplos prácticos. Por el contrario, los libros de
tación de sujetos, indicando aquellos detalles que texto o los artículos de revisión suelen ser más didác-
permitan conocer las características de la muestra de ticos, lo cual facilita la comprensión del lector. Es
sujetos incluida (si son pacientes derivados, si se cap- recomendable hacer constar el programa estadístico
tan directamente de la consulta o a partir de algún utilizado. Hay que indicar la naturaleza de la hipóte-
sistema de registro, si existen filtros previos a su inclu- sis evaluada (unilateral o bilateral) y el valor de signi-
sión, etc.). En caso de haberse utilizado alguna técni- ficación aceptado (habitualmente el 0,05).
ca de muestreo, debe describirse adecuadamente. Es Dado que se está relatando lo que sucedió duran-
conveniente especificar el tiempo empleado en reu- te la investigación, lo más adecuado es redactar este
nir a todos los participantes. apartado en tiempo pasado. El estilo debe ser direc-
Hay que indicar qué asunciones se han utilizado to, utilizando frases cortas y sencillas que describan el
para calcular el número de sujetos necesarios para la proceso de la investigación con claridad, concisión y
realización del estudio. en la secuencia lógica. En la tabla 34.3 se presentan
En los estudios experimentales hay que especifi- los principales errores que se cometen al redactar
car el método de asignación de los participantes a los este apartado.
grupos de estudio.
Una vez definidos los aspectos relacionados con la
RESULTADOS
población de estudio y la formación de los grupos, se
describen las variables estudiadas, incluyendo su defi- Su finalidad es presentar los hallazgos que los autores
nición, técnicas de medida y fuentes de información, han encontrado en su investigación y los resultados
y, si fuera necesario, estimaciones o comentarios acer- de su análisis, pero no interpretarlos.
ca de su validez y precisión. Esta sección debe contener sólo la información
También debe describirse la arquitectura general importante, pero sin omitir nada que pueda interesar
del estudio, indicando la pauta de visitas y qué activida- al lector o que sea necesario para la adecuada com-
des se realizan en cada una de ellas, quiénes y cuántos prensión de los hallazgos. A algunos autores les cues-
son los observadores, si ha existido un entrenamiento ta mucho decidir qué información merece la pena
previo, los mecanismos de recaptación de los pacientes, incluir y, ante la duda, facilitan todo lo que ha estado
las técnicas de control de calidad de los datos recogidos, a su alcance. Publicar toda la información disponible
etc. Si el estudio evalúa la eficacia de un tratamiento, no es señal de honestidad científica, sino de falta de
debe señalarse si ha existido un período de lavado o criterio en su selección.
blanqueo previo a la intervención, las técnicas de regis- Es conveniente evitar la exposición excesivamente
tro de la presencia de reacciones adversas, los criterios detallada y exhaustiva de los datos numéricos, y recu-
utilizados para la retirada anticipada de sujetos, las téc- rrir a la síntesis, organización y presentación en tablas
nicas de enmascaramiento utilizadas (simple ciego, y figuras, cuando sea adecuado, teniendo siempre en

314
EL ARTÍCULO ORIGINAL

Tabla 34.3. Principales errores cometidos en la siones, y remitir al lector a las tablas y figuras en las que
redacción del apartado de Material encontrará organizado el resto de los datos relevantes.
y métodos Los resultados se han de presentar siguiendo una
sucesión lógica, de acuerdo con la estrategia de aná-
• No identificación del diseño del estudio lisis que se ha empleado. En primer lugar, se
expondrán los datos descriptivos de las principales
• Identificación de un diseño que no se características de los sujetos estudiados. En los estu-
corresponde con el realmente utilizado
dios analíticos, a continuación, se evalúa la compara-
• Diseño inapropiado para los objetivos bilidad inicial de los grupos de estudio respecto a las
de la investigación variables que pueden influir sobre la respuesta. Esta
• Descripciones innecesarias o superfluas evaluación no debe basarse exclusivamente en crite-
rios de significación estadística, ya que no resulta
• Ausencia de descripción del universo o población
infrecuente observar diferencias estadísticamente sig-
de referencia
nificativas pero clínicamente irrelevantes, especial-
• Ausencia de descripción del proceso mente si los grupos son de gran tamaño, o bien dife-
de captación de los sujetos rencias importantes que pueden condicionar las
• Definición insuficiente de los criterios respuestas, pero que no resultan estadísticamente sig-
de selección de los sujetos nificativas debido a que el número de sujetos es redu-
cido. Por ello, en la evaluación de la comparabilidad
• Ausencia de información sobre el cálculo
debe prestarse mucha atención a la magnitud de las
del tamaño de la muestra o sobre las asunciones
diferencias existentes entre los grupos y a su posible
en que se ha basado
impacto sobre la respuesta.
• Ausencia de datos sobre la asignación A continuación, se presenta el resultado principal,
de los sujetos a los grupos de estudio que corresponde a la estimación del efecto del factor
• Definición de variables que posteriormente de estudio sobre la variable de respuesta, o bien a la es-
no se utilizan en el análisis (frecuente en artículos timación de la asociación entre ambas variables. La
que informan sobre aspectos parciales de una elección de la medida adecuada para presentar este
investigación más amplia) resultado es importante, ya que los lectores pueden
• Explicación detallada de variables o pruebas verse influidos por la forma de presentación utilizada.
complementarias no esenciales dentro Así, un resultado expresado en forma de reducción
del estudio del riesgo relativo suele tener una mayor influencia
sobre las decisiones de los profesionales que el mismo
• Omisión de información necesaria para la resultado expresado en forma de reducción absoluta
interpretación del estudio o utilizar descripciones de riesgo o de número de personas que es necesario
incompletas (p. ej., criterios de selección, tratar. En caso de que existan potenciales factores de
definición de las principales variables del estudio,
confusión, debe presentarse la estimación del efecto o
descripción de la intervención, etc.)
de la asociación ajustada por ellos.
• Inclusión anticipada e innecesaria de resultados A continuación, se presentan los resultados del
• Omisión de las pruebas estadísticas utilizadas análisis de subgrupos, si se ha realizado. Y, finalmen-
te, los relacionados con las preguntas secundarias del
• Especificación de la marca y el tipo de ordenador
estudio.
utilizado
En cualquier estudio hay que informar del núme-
• Ausencia de orden lógico en la descripción ro de no respuestas o de personas perdidas durante
de los procedimientos el seguimiento, así como de los motivos por los que se
han producido.
Debe prestarse especial atención al uso inadecua-
do de determinados términos, tales como «normal»,
cuenta que su función es complementar el texto, no «aleatorio», «significativo» o «correlación», con un
duplicarlo. En el texto deben resaltarse los hallazgos significado estadístico muy concreto, pero que son
principales, es decir, aquellos que se refieren a las utilizados inadecuadamente con un significado
hipótesis de trabajo y en los que se basarán las conclu- menos técnico.

315
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

La información sobre los resultados de las prue- Tabla 34.5. Errores frecuentes en el apartado
bas estadísticas debe incluir la prueba utilizada, el de Resultados
valor del criterio estadístico, los grados de libertad y
el valor de significación estadística, así como los inter- • Incluir información no pertinente
valos de confianza. (no relacionada con los objetivos del estudio)
En las tablas 34.4 y 34.5 se presentan los errores
• Incluir información irrelevante
más frecuentes en la presentación de los datos estadís-
ticos y en el apartado de Resultados, respectivamente. • Omitir información relevante
• Presentar los resultados sin una secuencia lógica
Tabla 34.4. Errores frecuentes en la • Interpretar los resultados que se presentan
presentación de resultados o acompañarlos de opiniones de los autores
estadísticos • Presentación inadecuada de los aspectos
estadísticos (ver tabla 34.4)
• p huérfana (presentar el grado de significación • Duplicar la información presentada en tablas,
estadística sin indicar la prueba utilizada) figuras o texto
• Presentar estimaciones puntuales sin intervalos • No citar todas las tablas y figuras que presentan
de confianza resultados
• Expresar el grado de significación estadística de
forma dicotómica: significativo o no significativo.
Es preferible indicar el valor de p, especialmente ben tener un título breve (habitualmente menos de
cuando no está muy alejado del valor 0,05 diez palabras) que describa su contenido, sin adelan-
• Presentar solamente el grado de significación tar información sobre los resultados, y que, salvo
estadística, sin una estimación de la magnitud casos especiales, no debe incluir abreviaturas.
de la diferencia, efecto o asociación La facilidad y rapidez de comprensión de una
tabla depende en gran medida de la lógica de su
• Precisión excesiva de los resultados (p. ej.,
construcción (tabla 34.6). Las filas y las columnas
p = 0,000000002, o edad media = 34,6785 años)
deben ir precedidas de un encabezamiento corto o
• Expresar los resultados en porcentajes cuando abreviado, que identifique exactamente el material
el número de casos es muy reducido (p. ej., que contienen. El uso de símbolos y/o abreviaturas
en un estudio sobre 8 pacientes, escribir: el 50% puede suponer un deseable ahorro de espacio y una
de los casos...) simplificación de la presentación. En caso de utilizar-
• Acompañar una media aritmética de ± sin indicar se, debe recurrirse a las abreviaciones estándar y los
si corresponde a la desviación estándar, error símbolos convencionales, cuyo significado, si no es
estándar o intervalo de confianza autoexplicativo, debe hacerse explícito mediante el
• Utilizar el error estándar en lugar de la desviación uso de notas a pie de tabla.
estándar cuando se describe la distribución de Una buena tabla debe ser autoexplicativa, en el
una variable sentido de que la información que presenta sea auto-
suficiente para su comprensión, incluso separada-
mente del texto.
TABLAS Cuando se presenta más de una tabla de resultados,
Las tablas son conjuntos ordenados y sistemáticos de es conveniente utilizar un formato similar en todas
números y/o palabras presentados en filas y colum- ellas, de forma que se facilite su comprensión por el
nas. Su finalidad es la ordenación y presentación de lector. Por otro lado, debe comprobarse que todas apa-
información de tipo repetitivo de manera compren- recen mencionadas en el texto, y que los datos que se
sible. Constituyen un complemento muy útil del tex- presentan concuerdan con los que se citan.
to, pero no deben duplicarlo.
Las tablas deben ir numeradas de forma consecu- F IGURAS
tiva, según el orden en que se mencionan en el texto. Una figura es un material de ilustración que incluye
Deben presentarse separadamente del texto del ar- tanto gráficos que presentan datos numéricos en for-
tículo, cada una en una hoja aparte. Así mismo, de- ma visual como diagramas o fotografías.

316
EL ARTÍCULO ORIGINAL

Tabla 34.6. Recomendaciones generales descripción, exploración, tabulación y comparación.


para la elaboración de tablas Sin embargo, en su elaboración debe tenerse un
especial cuidado en no distorsionar lo que se preten-
• No deben elaborarse a menos que deban de mostrar, ya que la presentación visual puede indu-
presentarse datos repetitivos cir al lector a una interpretación errónea.
• No deben duplicar el texto. Los datos se
presentan en texto, en tablas o en figuras, DISCUSIÓN
pero no en más de una forma a la vez
En este apartado se interpretan los resultados, desta-
• Han de ser autoexplicativas cando los aspectos más novedosos y relevantes, ana-
• Han de ser sencillas y de fácil comprensión lizándolos de forma cautelosa, relacionándolos con
las teorías subyacentes, comparándolos de forma obje-
• El título debe ser breve y claro
tiva con los hallazgos de otros estudios, y argumentan-
• Los encabezamientos de las filas y columnas do las conclusiones que de todo ello se derivan. Tam-
deben ser claros e incluir las unidades de medida bién debe evaluarse la validez interna del propio
• La ordenación de los datos debe ser de izquierda estudio, comentando sus limitaciones, así como la vali-
a derecha, y de arriba abajo. Las filas y columnas dez externa, es decir, el grado en que se pueden extra-
deben presentar una ordenación lógica polar o generalizar los resultados, exponiendo sus
implicaciones teóricas y prácticas. Todo ello debe
• Debe evitarse la utilización de un número
excesivo de decimales
hacerse de forma honesta y objetiva, manteniendo un
equilibrio entre la sobrevaloración y la subestimación
• Deben incluirse los valores marginales (totales) de la importancia de los propios hallazgos.
para facilitar la comprensión Es útil comenzar con una recapitulación muy con-
• Si se utilizan abreviaturas, deben hacerse cisa de los hallazgos principales que constituyen la
explícitas respuesta a la pregunta principal del estudio, para
• Utilizar una disposición similar en tablas similares captar de este modo la atención del lector y evitar así
que se convierta en una simple, inútil y pesada repe-
tición de los resultados.
Deben comentarse honestamente las limitaciones
En muchas ocasiones, los autores dudan acerca de del estudio. Nadie conoce mejor sus posibles fuentes
si es más adecuado presentar los datos en forma de ta- de error que quien lo ha realizado. Por lo tanto, los
bla o de figura. Como norma general, en un artículo autores deben hacer una autocrítica honesta de su
es preferible el uso de tablas, ya que son más exactas trabajo, señalando sus puntos fuertes y débiles, reali-
y permiten presentar mucha más información que un zando, cuando sea posible, recomendaciones para
gráfico, a no ser que se desee evidenciar la existencia mejorar el método en estudios posteriores.
de una tendencia en los datos. Lo que no es correcto Los resultados observados deben compararse con
es duplicar la información, presentando los mismos los de otros trabajos que han utilizado un diseño y
datos en ambas formas. una metodología similares. Los estudios citados no se
Las figuras se numeran consecutivamente según han de seleccionar previamente en función de si sus
el orden en que se mencionan en el texto y deben resultados son o no congruentes con los observados
presentarse separadamente del mismo. Al igual que en el propio trabajo. Por otro lado, la alusión a otras
las tablas, deben tener un título breve y explicativo, publicaciones debe hacerse con precisión, sin muti-
que no debe incluirse en la figura, sino en una hoja lar frases ni palabras, y exponiendo lo que el autor
aparte en la que consten los títulos, leyendas y notas referenciado ha querido decir realmente. Deben
que deben acompañar a las figuras del manuscrito. explicarse claramente, si existen, las diferencias entre
Si se incluyen fotografías de personas, éstas no el trabajo original y el de otros autores, tanto en el
deben ser identificables, o, si lo son, deben ir acom- método seguido como en los resultados. No deben
pañadas del correspondiente permiso escrito para su ocultarse las diferencias con los resultados obtenidos
utilización. en otros trabajos, sino que hay que tratar de explicar-
La finalidad de la utilización de figuras en la pre- las y, si no es posible, admitir la incapacidad para
sentación de datos cuantitativos es ayudar a su clara hacerlo.

317
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Los autores han de discutir las implicaciones teó- Tabla 34.7. Errores frecuentes en la
ricas y prácticas del estudio con prudencia e impar- elaboración de la Discusión
cialidad. La discusión debe basarse en la estimación de un artículo original
de la magnitud del efecto y su relevancia clínica, y no
simplemente en el grado de significación estadística. • Realizar una discusión general, no centrada
Finalmente, deben indicarse las líneas futuras de en los resultados de la investigación
investigación e incluir todas aquellas deducciones que
• Convertir la discusión en una revisión del tema
puedan sustentar un futuro estudio, evitando frases
como el manido «es necesario efectuar nuevas investi- • Repetir detallada e innecesariamente
gaciones en este campo», sin especificar los aspectos los resultados sin interpretarlos
concretos que convendría seguir trabajando. • Repetir conceptos ya planteados
En la tabla 34.7 se presentan los errores más fre- en la introducción
cuentes que se cometen en la redacción de este apar-
• Exagerar la importancia de los resultados
tado.
encontrados
• Conceder importancia solamente a la
BIBLIOGRAFÍA
significación estadística, sin evaluar la magnitud
Cuando se selecciona y escribe la bibliografía hay que del efecto observado
tener en cuenta dos normas. La primera, no citar todos • No confrontar los resultados con los de otros
los artículos indiscriminadamente por el mero hecho estudios
de haber tenido acceso a ellos, sino escoger los que se
• No relacionar los resultados con las hipótesis
consideren más adecuados para que los lectores pue-
y objetivos del trabajo
dan evaluar los resultados. La segunda es citar sin error.
Muchos autores piensan que un artículo adornado • Realizar interpretaciones que no son congruentes
con decenas de citas bibliográficas posee más rigor con los resultados
científico. Además, creen que los trabajos originales • Realizar interpretaciones injustificadas
deben ser artículos de revisión. Nada más alejado de de causalidad cuando se trata de simples
la realidad. La tarea del autor es la de seleccionar, asociaciones
entre los centenares de artículos que ha reunido y
• No discutir las limitaciones del diseño del estudio
revisado, las citas más relevantes, que conjuguen la
originalidad con la validez metodológica. Además, es • Hacer extrapolaciones y generalizaciones
más fácil publicar estudios poco voluminosos. A igual- no justificadas
dad de interés, los editores prefieren artículos cortos • Realizar conjeturas y comparaciones teóricas
en los que ha existido un trabajo previo por parte de sin fundamento
los autores de seleccionar las mejores y más novedosas
• Polemizar innecesariamente y de forma trivial
referencias bibliográficas.
Las normas de Vancouver especifican cómo debe • No determinar la probabilidad de cometer un
citarse cualquier tipo de documento, como artículos error β (o la potencia estadística) en estudios
de revistas, libros, prensa o documentos en soporte «negativos» (estudios que no encuentran
electrónico, entre otros. Para evitar los errores en la resultados estadísticamente no significativos)
citación, hay que comprobar siempre las referencias • Escribir una Discusión demasiado extensa
con el original delante para no omitir ninguna parte • No hacer recomendaciones sobre futuras líneas
de la cita. Los errores en la transcripción de una refe- de investigación
rencia dificultan o impiden su localización por los
lectores interesados. Estos errores se producen con • Acabar la Discusión con un resumen del trabajo
más frecuencia cuando los autores copian referencias
incluidas en otros trabajos sin haberlas leído.
Otros errores que se dan con frecuencia son: reali- actualidad, las españolas o las de grupos competidores,
zar afirmaciones sin citar la fuente que las fundamen- o que defienden opiniones contrarias; apoyar un con-
ta; apoyar conceptos ampliamente conocidos y acepta- cepto en una referencia que, o bien no lo desarrolla, o
dos con citas bibliográficas; omitir las citas de mayor no lo hace en el sentido pretendido por los autores.

318
EL ARTÍCULO ORIGINAL

Es preferible evitar, en la medida de lo posible, la nuación, muchos lectores no seguirán adelante.


cita de libros de texto, de resúmenes de congresos y Además, el título puede ser la única información que
reuniones científicas, la autocitación injustificada aparezca en muchas bases de datos e índices, y la difu-
y las observaciones o comunicaciones personales no sión del artículo puede verse alterada si no refleja ade-
publicadas. Si se quiere hacer referencia a trabajos cuadamente su contenido. Por estas razones, debe
aceptados, pero pendientes de publicación, se prestarse especial atención a la elección de las pala-
incluirán en la relación bibliográfica con la cita ade- bras que lo componen y al orden en que se escriben.
cuada, y añadiendo en prensa entre claudátors. Se El título ha de ser explicativo, breve, claro y lo sufi-
recomienda incluir preferentemente artículos de los cientemente atractivo para llamar la atención del lec-
últimos cinco años y, en especial, de los dos últimos tor cuando dé un vistazo al sumario de la revista.
años, y referencias fácilmente localizables. Su longitud no debe sobrepasar las diez palabras, evi-
tando expresiones superfluas como «Un estudio so-
bre...», «Observaciones sobre...», «Consideración acer-
RESUMEN
ca de...», «Reflexión sobre...». Sin embargo, no ha de
El resumen debe permitir a los lectores identificar la ser tan corto que sólo incluya términos muy genéricos
relevancia y el interés que el trabajo puede tener para e imprecisos. Por ejemplo, el título «Dieta y cáncer»,
ellos, y, de este modo, decidir si van a leer el artículo no informa si el autor se ha centrado en un tipo espe-
entero o bien optan por otro más acorde con sus ne- cial de cáncer o de dieta, o si ha explorado la dieta
cesidades. Además, el resumen es, junto con el título, como un factor protector o de riesgo de contraer la
el elemento en el que se basan los distintos sistemas enfermedad.
de búsqueda bibliográfica. El título no debe contener nunca abreviaturas, ya
Un estudio ha de comprenderse en su totalidad a que pueden tener diferentes significados según el
partir del resumen del artículo. Este hecho es muy idioma o la especialidad. Además, si una persona
importante, ya que la mayoría de bases de datos quiere localizar en un índice médico artículos que
bibliográficas incluyen los resúmenes de los trabajos, traten sobre la hipertensión arterial los buscará por
pero no su texto completo. este término, no por HTA.
El resumen debe redactarse cuidadosamente y de-
be incorporar los aspectos más importantes de cada
AUTORES
una de las secciones del artículo: una frase con el obje-
tivo principal del estudio; una descripción del método Paralelamente al aumento de revistas y artículos mé-
utilizado en dos o tres frases; resumir los resultados dicos, se ha observado una tendencia progresiva al
principales en otras dos o tres frases, y resaltar la con- incremento en el número de autores. Es conocido
clusión principal del estudio. La mayoría de publica- que el número y el orden de los autores dependen, a
ciones solicita que el resumen se estructure en diver- menudo, de aspectos distintos a la contribución de
sos apartados para facilitar su redacción, lectura y cada uno de ellos en la propia investigación. La nece-
comprensión. Los epígrafes y la extensión del resu- sidad de mejorar el currículum o de adquirir más
men varían según la revista. El estilo debe ser sencillo, prestigio hace que, en ocasiones, algunos investiga-
las frases cortas y sin desarrollar más de una idea. dores acuerden citarse los unos a los otros en cual-
Ha de repasarse su contenido con minuciosidad y quier trabajo que lleven a cabo, sin considerar el
contrastarlo con el resto del artículo, y hay que evitar grado de implicación de cada profesional.
las incorrecciones y las contradicciones. Ser autor es sinónimo de participación activa en
Debajo del resumen deben identificarse de tres a todas las fases del estudio, incluida su comunicación,
seis palabras clave, que ayudarán a las personas que de tal forma que se pueda discutir y defender públi-
confeccionan índices a realizar referencias cruzadas. camente el contenido del artículo. Las responsabili-
Es conveniente utilizar los términos del Medical dades que definen la autoría se hallan bien delimita-
Subject Headings del Index Medicus. das y son ampliamente conocidas:

– Cada autor tiene que haber participado suficiente-


TÍTULO
mente en el trabajo representado por el artículo
El título es lo primero que se lee y, si no es atractivo o para asumir la responsabilidad pública de su con-
no identifica el problema que se desarrolla a conti- tenido.

319
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

– La participación debe incluir tres aspectos: 1) la B IBLIOGRAFÍA


concepción o el diseño del trabajo y/o el análisis e Argimon Pallas JM, Jiménez Villa J. Artículo original (I):
interpretación de los datos y/o la adquisición de Introducción. Aten Primaria 1998; 22: 256-258.
datos; 2) la escritura del artículo o la revisión crítica Argimon Pallas JM, Jiménez Villa J. Artículo original (II):
Material y métodos. Aten Primaria 1998; 22: 387-390.
de su contenido, y 3) la aprobación de la versión Bekelman JE, Li Y, Gross CP. Scope and impact of financial
final del texto. conflicts of interest in biomedical research: a systematic
– La participación única y exclusivamente en la reco- review. JAMA 2003; 289: 454-465.
gida de datos no justifica la autoría. Chaudhry S, Schroter S, Smith R, Morris J. Does declaration
– Cada parte del contenido del artículo que sea de of competing interests affect readers' perceptions? A ran-
valor para fundamentar las conclusiones principa- domised trial. BMJ 2002; 325: 1391-1392.
les, así como cada fase del trabajo, ha de poder atri- Clarke M, Alderson P, Chalmers I. Discussion sections in
reports of controlled trials published in general medical
buirse como mínimo a un autor. journals. JAMA 2002; 287: 2799-2801.
– Las personas que han contribuido al desarrollo del Davidoff F, De Angelis CD, Drazen JM et al. Sponsorship
trabajo, pero cuya colaboración no justifica la authorship, and accountability. Ann Intern Med 2001;
autoría, deben nombrarse en el apartado de agra- 135: 463-466.
decimientos, decribiéndose el tipo de colabora- Day RA. Cómo escribir y publicar trabajos científicos. Wash-
ción. Dichas personas deben dar su consentimiento ington: Organización Panamericana de la Salud, 1990.
para ser mencionadas. Egger M, Juni P, Bartlett C, CONSORT Group (Consolida-
ted Standards of Reporting of Trials). Value of flow dia-
grams in reports of randomized controlled trials. JAMA
Según las normas de Vancouver, cuando un ar- 2001; 285: 1996-1999.
tículo tiene múltiples autores, recomiendan citar los Flanagin A, Fontanarosa PB, De Angelis CD. Authorship for
seis primeros e incluir al resto bajo la denominación research groups. JAMA 2002; 288 (24): 3166-3168.
et al (del latín et alii, que significa «y otros»), lo que da Huth EJ. Cómo escribir y publicar trabajos en ciencias de la
una idea de lo restrictivo del criterio de autor. salud. Barcelona: Ediciones científicas y técnicas, 1992.
Huwiler-Muntener K, Juni P, Junker C, Egger M. Quality of
En los estudios multicéntricos en los que haya par-
reporting of randomized trials as a measure of method-
ticipado un grupo muy numeroso de investigadores, ologic quality. JAMA 2002; 287: 2801-2804.
el grupo debe identificar a los responsables del ma- International Committee of Medical Journal Editors. Uni-
nuscrito y dar el nombre del grupo. La National Li- form requeriments for manuscripts submitted to bio-
brary of Medicine indizará el nombre del grupo y el medical journals. Octubre 2001. Disponible en: http://
de los autores identificados como responsables de la www.icmje.org
autoría. Las revistas citarán generalmente al resto de Jiménez Villa J, Argimon Pallas JM. Artículo original (III):
Resultados. Aten Primaria 1998; 22: 534-535.
investigadores en el apartado de agradecimientos o
Jiménez Villa J, Argimon Pallas JM. Artículo original (IV):
en un apéndice específico. Tablas y figuras. Aten Primaria 1999; 23: 310-311.
Medicina Clínica. Manual de estilo: publicaciones biomédi-
cas. Barcelona: Doyma, 1993.
AGRADECIMIENTOS
Mowatt G, Shirran L, Grimshaw JM et al. Prevalence of hon-
En una nota al pie de la primera página o en un apén- orary and ghost authorship in Cochrane reviews. JAMA
dice al texto, según los requisitos de la revista, se espe- 2002; 287: 2769-2771.
Ordóñez Gallego A, Espinosa Arranz E. La pervertida
cificarán los agradecimientos, que por regla general, autoría. Med Clin (Barc) 1998; 110: 548-549.
se darán por tres motivos: 1) cualquier colaboración Pulido M. Obligaciones éticas de los autores: referencias bi-
que no justifique la calidad de autor; 2) la ayuda téc- bliográficas, criterios de originalidad y publicación
nica, y 3) la ayuda financiera y material, especificando redundante y derechos de la propiedad intelectual. Med
su naturaleza, mencionando especialmente las rela- Clin (Barc) 1997; 109: 673-676.
ciones financieras que puedan dar lugar a un conflic- Raff H. A suggestion for the multiple author issue. Science
2003; 302: 55-57.
to de intereses. Rennie D, Yank V, Emanuel L. When authorship fails: a pro-
El elemento más importante de esta sección es la posal to make contributors accountable. JAMA 1997;
cortesía, y, por tanto, cualquier persona cuyo nombre 278: 579-585.
aparece en este apartado debe estar informada de Wilcox LJ. Authorship: the coin of the realm, the source of
ello y haber dado su autorización. complaints. JAMA 1998; 280: 216-217.

320
Anexo 1
Medidas de frecuencia

a medida más básica de la frecuencia de una por el centro A. Cuando este número se relaciona con

L enfermedad es el número de personas que la


padecen (p. ej., el pasado mes se atendieron
35 personas diagnosticadas de hipertensión arte-
la población atendida por cada uno de los centros,
resulta que la HTA es más frecuente entre la población
atendida en el centro B que en el A.
rial). Esta medida es de gran utilidad en la planifi-
cación de los servicios sanitarios, ya que conocer
PROPORCIÓN, RAZÓN Y TASA
cuánta gente padece una enfermedad permite dis-
tribuir mejor los recursos y adecuarlos a las necesi- Una proporción es un cociente en el que el numerador
dades de la población. Sin embargo, es de poca uti- está incluido en el denominador.
lidad para la investigación de una problema de
salud, ya que se desconoce el denominador o Ejemplo A1.2. La proporción de hipertensos esencia-
tamaño relativo de la población de donde provie- les controlados con dieta sin sal es de 0,75 (75%). Se
nen los casos. Sin un denominador es imposible trata de una proporción, ya que el numerador está
comparar la frecuencia de una enfermedad en dos o formado por los hipertensos controlados con dieta,
más grupos de individuos. mientras que el denominador incluye a todos los
hipertensos, controlados o no.
Ejemplo A1.1. En la tabla A1.1 se observa que en el
centro A el número de nuevos casos de hipertensión Una proporción no es más que la expresión de la
arterial (HTA) registrados durante un año (50) es probabilidad de que un suceso ocurra. En el ejemplo
superior al del centro B (35). Con sólo esta informa- A1.2, corresponde a la probabilidad de que un hiper-
ción se podría concluir erróneamente que la enferme- tenso esté controlado con dieta sin sal. Su valor pue-
dad es mucho más común entre la población atendida de ir de 0 (el suceso no ocurre nunca) a 1 (todos se

Tabla A1.1. Datos hipotéticos de la frecuencia de hipertensión arterial (HTA) en la población atendida
en dos centros de salud

Nuevos casos de HTA Nuevos casos de HTA


Centro registrados en un año Población registrados por 1.000 habitantes

A 50 23.500 2,13
B 35 12.200 2,87

323
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

controlan con dieta), aunque generalmente se expre- bio del valor de una variable por cada unidad de otra
sa en tanto por ciento. variable de la cual depende la primera. Dado que
Una razón es un cociente en el que el numerador para comprender exactamente el significado de una
no está incluido en el denominador. En el ejemplo tasa instantánea se necesitan algunos conocimientos
A1.2, la razón entre los hipertensos controlados con de cálculo, en investigación clínica y epidemiológica
dieta y los no controlados sería de 75/25 o, lo que es se utilizan tasas promedio.
lo mismo, de 3/1.
Cuando en una razón el numerador representa la Ejemplo A1.5. Para explicar intuitivamente el concep-
probabilidad de que ocurra un suceso y el denomina- to de tasa promedio, puede utilizarse la comparación
dor la probabilidad de que no ocurra, se denomina con la velocidad. Por ejemplo, la velocidad de un
odds. En el ejemplo A1.2, la odds de control con dieta automóvil en un instante dado es una tasa que se
es de 3, o lo que es lo mismo, por cada hipertenso expresa en kilómetros/hora. De todos modos, viajar a
esencial que no se controla con dieta sin sal hay tres 80 km por hora no significa necesariamente que se
que sí lo consiguen. La escala de medida de una odds vayan a recorrer 80 km. En realidad, se puede ir a esta
va desde infinito en el caso de que un suceso siempre velocidad pero no conducir durante una hora. Del
ocurra (100/0) hasta cero cuando no ocurre nunca mismo modo, en el ejemplo anterior sobre la cardio-
(0/100). patía isquémica, la tasa no expresa el número de casos
En realidad, tanto las proporciones como la odds nuevos en un año, sino la «velocidad» con que se pro-
expresan el mismo fenómeno, pero en formas dife- duce el cambio de una situación clínica a otra en una
rentes. La relación entre ellas es la siguiente: población determinada.

proporción = odds/(odds + 1) PREVALENCIA


odds = proporción/(1 – proporción)
Las medidas de frecuencia de una enfermedad más
Ejemplo A1.3. Sabiendo que la odds de los hiperten- comúnmente utilizadas se encuadran en dos grandes
sos controlados con dieta es de 3, se puede averiguar categorías: incidencia y prevalencia. La prevalencia es
que la proporción es: 3/(3 + 1) = 0,75. Igualmen- la proporción de individuos de una población que
te, podemos convertir esta proporción en odds: tiene la enfermedad:
0,75/(1 – 0,75) = 0,75/0,25 = 3.
Número de personas
Una tasa es una forma especial de proporción que con la enfermedad
Prevalencia =
tiene en cuenta el tiempo. Relaciona el cambio de Población total
una magnitud (en medicina, generalmente, es el
cambio de una situación clínica) por unidad de cam- Normalmente se estima a partir de estudios trans-
bio en otra magnitud (por regla general, el tiempo). versales y describe la situación en un momento deter-
minado, no lo que ocurrirá en el futuro.
Ejemplo A1.4. La expresión: «la tasa anual de nuevos
casos de cardiopatía isquémica entre varones de 40 a Ejemplo A1.6. Supongamos que, del registro de los
50 años es de 8 por cada 1.000 personas a riesgo» se pacientes atendidos en la consulta, se extraen aque-
refiere a que, por cada aumento en la unidad de llos en los que consta el diagnóstico de HTA. Si el
tiempo (un año), la tasa de cambio desde la situación total de historias abiertas es de 1.000 y en 150 consta
clínica de «no enfermo» a la de «enfermo», en aque- este diagnóstico, se puede afirmar que la prevalencia
llas personas con riesgo de contraer la enfermedad de HTA conocida entre los pacientes con historia
(varones de 40 a 50 años), es de 8 casos por cada abierta en la consulta es del 15% en el momento de
1.000 personas. realizar el estudio.

Esta dimensionalidad temporal no se refiere a un La prevalencia es por definición una proporción.


período delimitado entre dos puntos temporales, Aunque coloquialmente se utiliza el término tasa de
sino que las tasas son medidas instantáneas del cam- prevalencia, en realidad no lo es.

324
MEDIDAS DE FRECUENCIA

INCIDENCIA za toda la información sobre el seguimiento, es la den-


sidad de incidencia, que se define como el número de
La incidencia se define como el número de casos nue-
nuevos casos que ocurren por unidad de tiempo-
vos de una enfermedad que se desarrollan en una
población (p. ej., años-persona) de riesgo. Se trata de
población de riesgo durante un período determina-
una medida de la aparición de una enfermedad en
do. Se estima a partir de estudios en los que existe un
un punto en el tiempo, aunque, como se ha comen-
seguimiento de sujetos libres de la enfermedad, lo
tado, en epidemiología se usan tasas promedio:
que permite detectar la aparición de nuevos casos.
Hay dos tipos de medidas de incidencia: la incidencia
Número de nuevos casos
acumulada y la densidad de incidencia.
en un período determinado
La incidencia acumulada (IA) es la proporción de Densidad =
individuos sanos que a lo largo de un período deter- de incidencia Personas-tiempo de observación
minado desarrolla la enfermedad:
El numerador es el mismo que en la incidencia
IA = Número de nuevos casos en un período acumulada, pero el denominador no es el total de
determinado/Población de riesgo personas a riesgo sino que incorpora la dimensión
tiempo de observación.
La IA estima el riesgo, o la probabilidad, de que
un individuo desarrolle la enfermedad. Es una pro- Ejemplo A1.7. La forma de cálculo de la densidad de
porción, no una tasa. Es imprescindible que se espe- incidencia se ilustra en la figura A1.1. En ella se obser-
cifique el período de observación, ya que de otro va a 6 personas, con distintos tiempos de seguimiento,
modo es imposible interpretarla. Una IA del 5% de las cuales 3 desarrollan la enfermedad de interés.
puede ser muy pequeña si el período de observación La incidencia acumulada sería de 3/6 o, lo que es lo
ha sido de 10 años, o muy alta si la observación se ha mismo, un riesgo de contraer la enfermedad del 50%
limitado a un año. El tiempo de observación se fija en los seis años de seguimiento. Sin embargo, esta
arbitrariamente, pero lógicamente vendrá determi- afirmación no tiene en cuenta el hecho de que sólo 1
nado por la naturaleza de la enfermedad que se esté de las 6 personas (la que corresponde a la letra B) se
estudiando. ha observado durante el período completo. El resto
La IA mide el riesgo de un individuo de contraer ha sido desigual: un período de 3 años en el caso de la
una enfermedad a condición de que no se desarrolle persona A; 2 años en las personas C y D; 5 años en
ninguna otra enfermedad grave que lleve la perso- la persona E, y 4 años en la persona F. En total suman
na a la muerte. De este modo, que un individuo de 22 personas-año de observación. La densidad de inci-
50 años tenga un 70% de probabilidad de desarrollar dencia sería 3 casos/22 personas-año, o lo que es lo
cardiopatía isquémica en los próximos 25 años se mismo, 13,6/100 personas-año de seguimiento.
interpreta como el riesgo de contraer la enfermedad
siempre y cuando no muera por otra causa. Por esta El concepto de persona-tiempo lleva implícita la
razón, si se utilizan períodos de observación muy lar- idea de que el valor diez personas-año puede proce-
gos, la incidencia acumulada no deja de ser una der de la observación de diez personas durante un
medida hipotética. año cada una, o de cinco personas durante dos años,
Hasta ahora se ha asumido que el tiempo de ob- o en el caso más extremo de una sola persona duran-
servación era el mismo para cada individuo. Sin em- te diez años. Así pues, cada unidad persona-tiempo
bargo, en muchas circunstancias, este tiempo es desi- se considera equivalente e independiente de las otras.
gual ya que las personas pueden entrar en el estudio Esta asunción es razonable, excepto en los casos, muy
en distintas épocas o pueden perderse a lo largo del improbables, de que la suma de todas las unidades
seguimiento por causas conocidas o no. persona-tiempo provengan de pocos individuos (p. ej.,
Una posible solución sería restringir el análisis de si 30 personas-año procedieran exclusivamente de
los datos a un tiempo de observación para el cual uno o dos individuos). El uso del denominador per-
todas las personas del estudio tuvieran información. sona-tiempo es válido sólo bajo tres asunciones:
Con ello se conseguiría igualar la duración del tiem-
po de observación, pero se perdería gran cantidad de 1. El riesgo de contraer la enfermedad es constante a
información. Una estimación más precisa, y que utili- lo largo de todo el período de observación. En oca-

325
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Años de observación

Persona A 3
Persona B 6
Persona C 2
Persona D 2
Persona E 5
Persona F 4

Años 1993 1994 1995 1996 1997 1998 1999

Inicio del seguimiento


Tiempo de seguimiento
Desarrollo de la enfermedad

Figura A1.1. Cálculo del denominador persona-tiempo en la densidad de incidencia.

siones esta condición no se cumple, como es el caso el interés está en predecir el cambio en el estado de
de enfermedades con un largo período de latencia salud de un individuo en función de alguna carac-
y en el que el seguimiento se ha llevado a cabo terística, entonces se deberá estimar el riesgo de que
durante muchos años, en las que la aparición de este cambio ocurra. En este caso la densidad de inci-
nuevos casos tenderá a concentrarse en los últimos dencia será de poca ayuda, ya que no ofrece informa-
años de seguimiento. En esta situación es conve- ción individual.
niente dividir el período de observación en varios Por otro lado, si el objetivo principal consiste en
subperíodos. evaluar una hipótesis etiológica, la elección depen-
2. La tasa de incidencia en los que se pierden duran- derá de la naturaleza de la enfermedad. Si ésta es cró-
te el seguimiento es la misma que en los que con- nica y con un largo período de latencia, la medida
tinúan en observación; si esta condición no se cum- más apropiada será la densidad de incidencia. En
ple, se obtendrá un resultado sesgado. este caso, el tiempo de seguimiento sólo representa
3. El denominador es apropiado según la historia una parte del tiempo en el que la persona tiene el
natural de la enfermedad. Si se quiere estimar la riesgo de contraer la enfermedad.
tasa de incidencia de fallos de un método anticon-
ceptivo y se espera que en un alto porcentaje de Ejemplo A1.8. La figura A1.2 ilustra un ejemplo en el
pacientes ocurra antes de un año, no sería lógico que es preferible usar la densidad de incidencia en lugar
escoger como denominador los años-persona de de la incidencia acumulada. Se observa que en ambos
observación, ya que muchas personas contarían grupos 4 de 5 personas desarrollan la enfermedad, es
como un nuevo caso en el numerador, pero no decir, tienen una incidencia acumulada del 80%. Sin
contribuirían al denominador, por lo que la tasa de embargo, si nos fijamos atentamente veremos que en el
incidencia estaría artificialmente elevada. En este grupo con la exposición A estos 4 casos han aparecido
caso sería mejor escoger como denominador los después de 22 personas-año de observación, mientras
meses-persona. que en el B sólo se han necesitado 9 personas-año de
observación. Así, las tasas de densidad de incidencia
E LECCIÓN DE LA MEDIDA son 0,18 personas-año (4/22) y 0,44 personas-año
DE INCIDENCIA (4/9), respectivamente, lo que indica que la exposición
La elección de la medida de incidencia más adecua- B es mucho más agresiva (o protectora, en el supuesto
da viene condicionada por el objetivo del estudio. Si de que fuera una exposición preventiva) que la A.

326
MEDIDAS DE FRECUENCIA

Años de observación
Exposición A
Persona 1 4
Persona 2 4
Persona 3 5
Persona 4 4
Persona 5 5
Total: 22
Exposición B

Persona 1 2
Persona 2 1
Persona 3 1
Persona 4 3
Persona 5 2
Total: 9

Año 0 1 2 3 4 5

Incidencia acumulada exposición A = 4/5 = 80%


Incidencia acumulada exposición B = 4/5 = 80%
Densidad de incidencia exposición A = 4/22 = 0,18 casos por personas-año
Densidad de incidencia exposición B = 4/9 = 0,44 casos por personas-año

Figura A1.2. Elección de la medida de incidencia.

Si el tiempo de seguimiento incluye todo el perío- OTRAS CONSIDERACIONES


do de riesgo, lo que sucede cuando la enfermedad y la La existencia de un denominador preciso es una con-
exposición tienen períodos de latencia cortos, enton- dición indispensable para poder efectuar compara-
ces también es de utilidad el cálculo de la incidencia ciones. Para el cálculo de la incidencia sólo deben
acumulada para realizar inferencias etiológicas. La constar en el denominador aquellas personas con
razón, como siempre, es mejor explicarla con un riesgo de contraer la enfermedad. Por esta razón, los
ejemplo. Supongamos que se trata de una enferme- casos prevalentes, o bien los que por otras causas no
dad infecciosocontagiosa, en la que el interés primor- pueden padecerla (edad, sexo, inmunización previa,
dial es estimar el riesgo de un individuo de adquirirla, etc.), deben excluirse del denominador. Si en el de-
y si este riesgo varía según la fuente de exposición. nominador se incluyen personas que no están en ries-
Esto se conseguirá mejor a través de la incidencia acu- go, el resultado será una incidencia disminuida. Un
mulada. Hay que tener presente que la densidad de ejemplo claro sería calcular la tasa de incidencia de
incidencia variará sustancialmente según la fase de la cáncer de mama incluyendo en el denominador a los
enfermedad, siendo baja al inicio, acelerando en hombres o mujeres de muy corta edad; en ambos
plena fase de propagación, para volver a disminuir al casos la posibilidad de padecer la enfermedad es muy
final. Una de las condiciones para usar la densidad de baja, por lo que se infraestimaría la incidencia.
incidencia es que el riesgo de contraer la enfermedad Sin embargo, hay que reconocer que, en las enfer-
sea constante a lo largo de todo el período de obser- medades poco frecuentes, incluir casos prevalentes
vación, lo que en esta situación no se cumple. en el denominador no afecta prácticamente al resul-

327
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tado. Así pues, la incidencia de tuberculosis en una Por ello, es preferible el uso de casos incidentes,
comarca se suele calcular usando como denomina- ya que cuando se comparan dos grupos (o dos perío-
dor el censo de población, sin corregir por los casos dos en el tiempo), una mayor prevalencia en uno de
prevalentes. ellos puede ser debida a: a) una mayor duración de
Por otro lado, en las estimaciones de la incidencia se la enfermedad, aún cuando la incidencia pudiera
ha de especificar si el numerador se refiere a casos nue- ser igual o menor; b) una incidencia mayor con una du-
vos o a episodios. En algunas enfermedades esto no es ración similar o menor, y c) una incidencia y una
necesario, como en el caso de la diabetes, ya que no duración mayores.
pueden ocurrir más de una vez. En otras, como el res- Si un factor está asociado con una enfermedad, y
friado común o los ataques agudos de una enfermedad en el estudio se utilizan casos prevalentes, sólo cuan-
crónica (p. ej., el infarto de miocardio en la enferme- do se den la segunda y tercera circunstancias se
dad coronaria), pueden suceder episodios en más de podrá considerar realmente que el factor es causa de
una ocasión, por lo que se tendrá que especificar si el la enfermedad. Por el contrario, si se cumple la pri-
numerador se refiere al número de personas que han mera circunstancia, el uso de casos prevalentes lle-
desarrollado la enfermedad o al número de episodios. vará a la conclusión errónea de que el factor es causa
de la enfermedad, cuando en realidad lo único que
RELACIÓN ENTRE LA INCIDENCIA hace es aumentar su duración. Para evitar este pro-
Y LA PREVALENCIA blema siempre que sea posible es conveniente utilizar
casos incidentes.
Ambas medidas están fuertemente relacionadas. La
prevalencia depende de la incidencia y de la dura-
ción de la enfermedad. Para las enfermedades cuya
B IBLIOGRAFÍA
Rothman KJ, Greenland S. Modern Epidemiology. Washing-
densidad de incidencia es relativamente estable, la ton: Lippincott-Raven, 1996.
prevalencia se puede expresar como el producto de Tapia Granados JA. Incidencia: concepto, terminología y
la incidencia por la duración. análisis dimensional. Med Clin (Barc) 1994; 103: 140-
142.
Prevalencia = densidad de incidencia Tapia Granados JA. On the terminology and dimensions of
⫻ duración media de la enfermedad incidence. J Clin Epidemiol 1997; 50: 891-897.

328
Anexo 2
Medidas de asociación

n los estudios analíticos, no sólo interesa cono- que se utiliza como medida de frecuencia la densidad

E cer si existe una asociación entre el factor de es-


tudio y la variable de respuesta, sino también la
magnitud de dicha asociación. Esto se consigue com-
de incidencia, los datos se presentan en forma algo
distinta (tabla A2.2). Estas tablas se generalizan cuan-
do existen varios niveles de exposición.
parando la frecuencia del suceso de interés en un
grupo expuesto al factor de estudio con la de un gru-
RIESGO RELATIVO
po no expuesto.
Para el cálculo de las medidas de asociación, los El riesgo relativo (RR) estima la magnitud de una
datos suelen presentarse en forma de una tabla de asociación e indica el número de veces que es más
contingencia 2  2 (tabla A2.1). En los estudios en los probable que una enfermedad se desarrolle en el

Tabla A2.1. Presentación de una tabla 2  2 para el cálculo de las medidas de asociación

Enfermedad No enfermedad Total

Exposición a b a+b
No exposición c d c+d
Total a+c b+d a+b+c+d

Las casillas a, b, c y d representan diferentes combinaciones entre la enfermedad y la exposición:


a: número de personas expuestas que tienen la enfermedad.
b: número de personas expuestas que no tienen la enfermedad.
c: número de personas no expuestas que tienen la enfermedad.
d: número de personas no expuestas que no tienen la enfermedad.
Los marginales de las tablas resultan de sumar las correspondientes casillas:
a + b: número total de expuestos.
c + d: número total de no expuestos.
a + c: número total de personas con la enfermedad.
b + d: número total de personas sin la enfermedad.
La suma de las cuatro casillas, a + b + c + d, representa el número total de participantes en el estudio.

329
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla A2.2. Presentación de una tabla Ejemplo A2.1. Una hipotética cohorte de 368 indivi-
para el cálculo de las medidas duos que reciben oxigenoterapia domiciliaria se ha
de asociación cuando el dividido en dos grupos, según si han dejado de fumar
denominador son unidades o no. Se siguen durante un año para evaluar su mor-
de persona-tiempo de talidad (tabla A2.3). La medida de frecuencia que
observación se decide utilizar es la incidencia acumulada. En pri-
mer lugar, se calcula el riesgo, o probabilidad, de que
Enfermedad Persona-tiempo un individuo que no tenga la enfermedad (en este
caso la muerte) la desarrolle durante el año de dura-
Exposición a PTe ción del estudio. El resultado es de 12,3% (19/154)
No exposición c PTo en la cohorte expuesta, mientras que para los exfu-
Total a+c PTe + PTo madores es de 7% (15/214). El riesgo relativo (RR)
de los fumadores respecto a los exfumadores es de
12,3/7,0 = 1,8, lo que significa que, en un año, un
a: número de personas enfermas en el grupo expuesto.
c: número de personas enfermas en el grupo
fumador tiene 1,8 veces más probabilidades de morir
no expuesto. que un exfumador.
PTe: unidades de persona-tiempo de observación
en el grupo expuesto. Cuando la medida de frecuencia es la densidad de
PTo: unidades de persona-tiempo de observación incidencia, el RR se calcula de forma similar:
en el grupo no expuesto.
En consecuencia, los marginales serán:
Ie a/PTe
a + c: total de personas enfermas.
PTe + PTo: total de unidades de persona-tiempo
RR = =
de observación. Io c/PTo

Ejemplo A2.2. Supongamos que la tasa de incidencia


grupo expuesto en relación con el grupo no expues- de cardiopatía isquémica es de 13,0 por 1.000 perso-
to. En otras palabras, es la razón entre la incidencia nas-año en hombres fumadores de 50 a 65 años,
en el grupo expuesto (Ie) y la incidencia entre el mientras que en los no fumadores de este mismo
grupo no expuesto (Io), por lo que también se deno- grupo de edad sólo es de 6,2 por 1.000 personas-año
mina razón de incidencias o de riesgo: de observación. El riesgo relativo es el cociente entre
ambas tasas de incidencia: 13,0/6,2 = 2,1. Este resul-
Ie a/(a + b) tado se interpreta como que la tasa de aparición de
RR = = nuevos casos de cardiopatía isquémica en fumadores
Io c/(c + d) es 2,1 veces la que se observa en no fumadores.

Tabla A2.3. Resultados de un estudio hipotético de una cohorte de 368 individuos que reciben
oxigenoterapia domiciliaria (ejemplo A2.1)

Número de Número de pacientes


defunciones que sobreviven Total

Fumadores 19 135 154


Exfumadores 15 199 214

Total 34 334 368

Incidencia acumulada en el grupo expuesto: Ie = 19/154 = 12,3%.


Incidencia acumulada en el grupo no expuesto: Io = 15/214 = 7,0%.
Riesgo relativo: RR = 12,3/7,0 = 1,8.
Diferencia de incidencias: DI = 12,3 – 7,0 = 5,3%.

330
MEDIDAS DE ASOCIACIÓN

Un RR de 1,0 indica que no existe relación entre Dado que la fórmula anterior permite obtener los
el factor de estudio y la enfermedad. Si es mayor que límites del IC del logaritmo del RR, deberán deter-
1,0 indica que existe una asociación positiva entre el minarse sus antilogaritmos para conocer el IC del RR.
factor de estudio y la enfermedad. Cuando es menor
que 1,0 indica una asociación negativa. Ejemplo A2.3. En un estudio hipotético se ha seguido
El RR obtenido en un estudio es una estimación una cohorte de 500 sujetos expuestos y otra de 500
puntual y, por lo tanto, debe calcularse su intervalo sujetos no expuestos a un factor de riesgo, y se han
de confianza (IC). Si el IC del 95% no incluye el observado los resultados de la tabla A2.4. La estima-
valor RR = 1, existe una asociación estadísticamente ción puntual del RR es 4 y los límites de su IC del 95%
significativa entre el factor de estudio y el desenlace. son 2,1 y 7,4. Dado que el IC excluye el valor 1, existe
Para calcularlo, debe determinarse, en primer lugar, asociación estadísticamente significativa entre la
el error estándar del logaritmo natural (neperiano) exposición y la enfermedad.
del RR:
ODDS RATIO


b d
EE (ln RR) = + En los estudios de cohortes el RR se estima directa-
(a + b)  a (c + d)  c mente, ya que se conoce la incidencia de la enferme-
dad en los individuos expuestos y no expuestos a un
Donde ln RR es el logaritmo natural del RR. El IC factor. Por el contrario, en los estudios de casos y con-
de ln RR se calcula del siguiente modo: troles no se puede calcular la incidencia, porque la
población de estudio se selecciona a partir de indivi-
duos que ya han desarrollado la enfermedad. La
ln RR ± zα/2  EE (ln RR) razón a/(a + b), por ejemplo, no estima el riesgo de

Tabla A2.4. Ejemplo de cálculo del intervalo de confianza (IC) del riesgo relativo (RR)

Enfermos No enfermos Total

Expuestos 48 452 500


No expuestos 12 488 500
Total 60 940 1.000

48/500
Estimación puntual del RR: RR = = 4
12/500

Error estándar del logaritmo del RR:


452 488
EE (In RR) = + = 0,31
500  48 500  12
IC del 95% del In RR:
In 4 ± 1,96  0,31
1,39 ± 0,62
0,77  2,01

Límites del IC del 95% del RR:


Límite inferior: exp (0,77) = 2,15
Límite superior: exp (2,01) = 7,44

331
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

contraer la enfermedad en aquellos expuestos al fac- entre aquellos que no la tienen (b + d). Lógicamente
tor de riesgo, sino que refleja, en parte, decisiones no se estudian todos los individuos, sino una muestra
tales como elegir dos controles por caso. de ellos. Si los casos y los controles se han elegido
La medida de asociación que se utiliza en los estu- independientemente de la historia de exposición
dios de casos y controles es la razón de odds u odds previa, la OR puede considerarse una buena estima-
ratio (OR). Por odds se entiende la razón entre la pro- ción del RR. El ejemplo de la tabla A2.5 ilustra este
babilidad de que un suceso ocurra y la probabilidad concepto.
de que no ocurra. Si la probabilidad de que una per- La OR aventaja al RR en que su resultado es inde-
sona con la enfermedad esté expuesta es del 0,75, la pendiente de si se expresa en términos de riesgo de
odds de exposición se calculará dividiendo este valor contraer la enfermedad, o de no contraerla.
por la probabilidad de no estar expuesto [0,75/(1 –
0,75) = 3]. La OR no es más que la razón entre la odds Ejemplo A2.4. En el estudio hipotético de la tabla
de exposición observada en el grupo de casos (a/c) y A2.6, el RR de enfermar en la comunidad A respecto
la odds de exposición en el grupo control (b/d).

a/c ad Tabla A2.5. Ejemplo que ilustra por qué la odds
OR = = ratio (OR) es una buena estimación
b/d bc del riesgo relativo (RR)

a. Estudio de cohortes hipotético diseñado para


Para explicar intuitivamente de dónde proviene la
evaluar el riesgo de úlcera gástrica asociada a la
fórmula de la OR partiremos del esquema de un estu- ingesta de alcohol
dio de cohortes. Supongamos que toda una pobla-
ción se clasifica según la presencia o no de un factor Enfermos No enfermos Total
de riesgo, y que se sigue durante un tiempo para
observar en cuántos individuos aparece la enferme- Alcohol 80 g/día 175 2.825 3.000
dad y clasificarlos de acuerdo con la combinación Alcohol < 80 g/día 207 6.793 7.000
exposición-enfermedad que presenten. El riesgo rela-
RR = 1,97
tivo sería:
b. Estudio de casos y controles hipotético realizado
a/(a + b) c/(c + d) en la misma población. Los casos son todos los
RR = = individuos que tienen la enfermedad y, como
a/(c + d) c/(a + b) controles, una muestra (10%) de los no enfermos

En la mayoría de las enfermedades, la proporción Casos Controles Total


de individuos clasificados como enfermos será
Alcohol 80 g/día 175 282 457
pequeña, es decir, a será pequeño en comparación
con b, por lo que el total de personas expuestas a + b Alcohol < 80 g/día 207 679 886
será practicamente igual a b, y lo mismo sucede con c OR = 2,03
en comparación con d, por lo que el total de personas
no expuestas c + d será igual a d. Por lo tanto, la ante-
rior ecuación sería aproximadamente: Tabla A2.6. Comparación del riesgo
de enfermar en dos comunidades
a/(a + b) a/b ad (ejemplo A2.4)
RR = = =
c/(c + d) c/d cb Comunidad Enfermos No enfermos Total

A 2 98 100
De este modo, un estudio de casos y controles
puede conceptualizarse como un estudio en el que el B 1 99 100
grupo de casos lo forman todos los individuos que tie- Total 3 197 200
nen la enfermedad (a + c), y los controles se escogen

332
MEDIDAS DE ASOCIACIÓN

al RR en la comunidad B es (2/100)/(1/100) = 2. La ln OR ± Zα/2 EE (ln OR)


OR es (2/98)/(1/99) = 2. Así pues, ambas medidas
dan el mismo resultado. Consideremos la posibili- La fórmula permite obtener los límites del IC del
dad de analizar los datos desde la perspectiva de no logaritmo de la OR. Para conocer los límites del IC de
enfermar. El RR sería (98/100)/(99/100) = 1, es de- la OR se deberán determinar sus respectivos antilo-
cir, no habría ninguna asociación entre vivir en una garitmos.
comunidad y el hecho de no enfermar. La OR sería
(98/2) /(99/1) = 1/2. Con el RR se obtiene un re- Ejemplo A2.5. Supongamos un estudio con 200 casos
sultado distinto, según se exprese en relación con el y 200 controles en los que se evalúa una exposición,
hecho de enfermar o con el de no enfermar. Sin en el que se obtienen los resultados de la tabla A2.7.
embargo, con la OR el riesgo de enfermar en la co- La estimación puntual de la OR es 4,4 y los límites del
munidad A es el doble que en la comunidad B, mien- IC del 95% son 2,6 y 7,4. La asociación entre la expo-
tras que la probabilidad de no enfermar en esta últi- sición y la enfermedad es estadísticamente significati-
ma comunidad es la mitad. Es decir, proporciona el va, ya que el IC del 95% de la OR excluye el valor 1.
mismo resultado independientemente del fenóme-
no que se exprese, lo que siempre es deseable en una La OR se utiliza cada vez con más frecuencia como
medida de asociación. medida de la magnitud de un efecto o asociación,
tanto en los estudios de casos y controles, de cohortes
La estimación puntual de la OR debe acompañar- y ensayos clínicos, como en revisiones sistemáticas y
se de su correspondiente intervalo de confianza (IC). metaanálisis. Habitualmente se interpreta como equi-
Un método sencillo y aproximado para su cálculo valente del RR, aunque en realidad la OR sólo es una
consiste en calcular el error estándar (EE) del loga- buena aproximación del RR bajo determinadas con-
ritmo natural (o neperiano) de la OR: diciones. Cuando el riesgo basal (frecuencia del resul-
tado de interés en la población de estudio) es bajo
EE (ln OR) = √(1/a + 1/b + 1/c + 1/d) (menor del 10%), ambas medidas son muy similares.
Cuanto mayor es el riesgo basal, la OR más exagera la
Donde ln OR es el logaritmo natural de la OR. El magnitud del efecto en relación con el RR, es decir,
IC de ln OR se calcula del siguiente modo: más lo sobrestima cuando es mayor que 1 y más lo

Tabla A2.7. Ejemplo de cálculo del intervalo de confianza (IC) de la odds ratio (OR)

Casos Controles Total

Expuestos 70 22 92
No expuestos 130 178 308
Total 200 200 400

Estimación puntual de la OR: OR = (70  178)/(22  130) = 4,36


Error estándar del logaritmo de la OR:

ES (In OR) = 1/70 + 1/22 + 1/30 + 1/178 = 0,073 = 0,27


IC del 95% del In OR:
In 4,36 ± 1,96  0,27
1,47 ± 0,53
0,94 a 2,00
IC del 95% de la OR:
Límite inferior: exp (0,94) = 2,56
Límite superior: exp (2,00) = 7,39

333
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

infraestima cuando es menor de 1. De hecho, la dife- Las medidas de asociación no miden el impacto
rencia entre la OR y el RR depende tanto del riesgo potencial sobre la salud de la población de la exposi-
basal como de la propia magnitud del efecto, de ción al factor de estudio o de su eliminación. Las
forma que grandes discrepancias sólo se observan en medidas de impacto se presentan en el capítulo 32.
efectos de gran tamaño y riesgos basales elevados. Por
ello, en la gran mayoría de ocasiones, la interpreta- B IBLIOGRAFÍA
ción de la OR como RR no conduce a cambios en la Altman DG. Confidence interval for odds ratio. Physiother
interpretación cualitativa de los resultados, aunque Res Int 2000; 5: 134-135.
debe tenerse en cuenta que puede existir cierta sobres- Bland JM, Altman DG. The odds ratio. BMJ 2000; 320: 1468.
timación de la magnitud del efecto. Davies HTO, Crombie IK, Tavakoli M. When can odds ratio
En los estudios de cohortes, suele utilizarse la mislead? BMJ 1998; 316: 989-991.
regresión logística para controlar múltiples factores Martínez González MA, De Irala Estévez J, Guillén Grima F.
¿Qué es una odds ratio? Med Clin (Barc) 1999; 112: 416-
de confusión, obteniéndose una OR ajustada. Zhang
422.
y Yu (1998) proponen una fórmula para corregir este
Nurminen M. To use or not to use the odds ratio in epide-
valor y obtener una mejor estimación del RR: miologic analyses? Eur J Epidemiol 1995; 11: 365-371.
Pearce N. What does the Odds Ratio estimate in a case-con-
RR = OR / [(1 – Po) + (Po  OR)] trol study? Int J Epidemiol 1993; 22: 1189-1192.
Zhang J, Yu KF. What's the relative risk? A method of correc-
Donde Po es la frecuencia del resultado de interés ting the Odds Ratio in cohort studies of common out-
en el grupo no expuesto (riesgo basal). Esta misma comes. JAMA 1998; 280: 1690-1691.
corrección puede aplicarse a los límites del IC.

334
Anexo 3
Sensibilidad y especificidad

l equipo investigador debe valorar la validez de SENSIBILIDAD Y ESPECIFICIDAD

E las medidas y seleccionar la más adecuada para


su estudio. La sensibilidad, la especifidad y el
valor predictivo son los criterios de validez que cuan-
La validez de una medida se calcula partiendo de la
información contenida en una tabla de 2  2 (tabla
tifican la capacidad de una prueba para clasificar A3.1). La presencia o ausencia del resultado, enfer-
correcta o erróneamente a una persona, según la pre- medad en general, se determina a partir de un crite-
sencia o ausencia de una exposición o una enferme- rio de referencia, que idealmente debe ser siempre
dad. Las pruebas diagnósticas son imperfectas y se positivo en los individuos con la enfermedad y nega-
cometen errores al clasificar a una persona por su tivo en aquellos que no la presentan. Por otro lado, se
resultado. encuentra el resultado de la prueba, o medida en

Tabla A3.1. Presentación de resultados de un estudio de valoración de una prueba diagnóstica

Clasificación de los individuos


según el criterio de referencia
Resultados
de la prueba Enfermos No enfermos Total

Positivo a b n1
Negativo c d n2
Total m1 m2 N

Verdaderos positivos (a): número de individuos con la enfermedad, en los que el resultado de la prueba diagnóstica es positivo.
Falsos positivos (b): número de individuos sin la enfermedad, en los que el resultado de la prueba diagnóstica es positivo.
Falsos negativos (c): número de individuos con la enfermedad, en los que el resultado de la prueba diagnóstica es negativo.
Verdaderos negativos (d): número de individuos sin la enfermedad, en los que el resultado de la prueba diagnóstica es negativo.
De esta información se derivan los siguientes índices:
Sensibilidad (a/m1): probabilidad de obtener un resultado positivo en los individuos que tienen la enfermedad.
Especificidad (d/m2): probabilidad de obtener un resultado negativo en los individuos que no tienen la enfermedad.
Valor predictivo positivo (a/n1): probabilidad de que un individuo que presenta un resultado de la prueba positivo
tenga la enfermedad.
Valor predictivo negativo (a/n2): probabilidad de que un individuo que presenta un resultado de la prueba negativo
no tenga la enfermedad.

335
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

general, que se quiere evaluar. Para simplificar la Tabla A3.2. Resultados de un estudio que
exposición, la mayor parte de las veces se considerará evalúa un nuevo método
que se trata de una medida dicotómica, clasificándo- diagnóstico de infección urinaria
se su resultado en positivo o negativo.
De los resultados obtenidos en cada una de las Cultivo Cultivo
casillas de la tabla A3.1, se derivan, entre otros, dos positivo negativo Total
índices: la sensibilidad y la especificidad. La sensibili-
dad responde a la pregunta: si un individuo tiene una Tinción positiva 285 12 297
enfermedad o factor de riesgo, ¿qué probabilidad Tinción negativa 61 706 767
existe de que el resultado de la medida que se le apli- Total 346 718 1.064
ca sea positivo? En otras palabras, la probabilidad de
que una medida clasifique correctamente a un indi- Sensibilidad: 285/346 = 82,4%.
viduo enfermo. La especificidad responde a la pregun- Especificidad: 706/718 = 98,3%.
ta: si un individuo no tiene la enfermedad o el factor Valor predictivo positivo: 285/297 = 96,0%.
de riesgo, ¿qué probabilidad existe de que el resulta- Valor predictivo negativo: 706/767 = 92,0%.
do obtenido sea negativo? Representa la probabili- Razón de probabilidad positiva: 82,4/(100 – 98,3) = 49.
dad de que una medida clasifique correctamente a Razón de probabilidad negativa: (100 – 82,4)/98,3 = 0,18.
una persona no enferma. Ambos conceptos son
características intrínsecas de la propia medida. Es Variando el criterio de normalidad se modifican
decir, que si ésta se aplica en una población de indivi- los valores de estos parámetros. Si en el ejemplo A3.1,
duos semejante, y los observadores tienen la misma se considerara que un paciente presenta bacteriuria
experiencia, la sensibilidad y la especificidad de una cuando los valores fueran superiores a 104 UFC/ml,
medida no variarán cuando se emplee en distintos se aumentaría la sensibilidad de la medida a costa de
estudios. reducir su especificidad. Del mismo modo, si se fuese
más exigente en el criterio de normalidad, aumen-
Ejemplo A3.1. En un estudio se analizaron 1.064 mues- taría la especificidad y disminuiría la sensibilidad.
tras de orina con el objetivo de evaluar un método,
simple y económico de tinción directa para el diagnós-
VALORES PREDICTIVOS
tico de infección urinaria (García Curiel, 1988). Se uti-
lizó como colorante el azul de metileno, que permite En la práctica clínica, cuando un médico solicita una
teñir las bacterias y el material nuclear de leucocitos. prueba diagnóstica desconoce si el paciente tiene la
Esta prueba se comparó con el método tradicional de enfermedad. Los médicos deben efectuar inferencias
siembra en placa de agar (criterio de referencia). Las sobre la presencia o ausencia de la enfermedad a par-
orinas se clasificaron como positivas si existía un creci- tir de los resultados de la prueba. Existen dos modos
miento de 10–105 UFC/ml (unidades formadoras de de cuantificar esta inferencia: los valores predictivos y
colonias). Si el crecimiento era inferior a 105 UFC/ml los cocientes de probabilidad.
se consideró que no existía bacteriuria significativa. El valor predictivo positivo (VPP) es la probabilidad
Los resultados principales se exponen en la tabla de que un individuo con un resultado positivo tenga la
A3.2. Se encontraron 346 bacteriurias, lo que repre- enfermedad, y el valor predictivo negativo (VPN) es la
senta el 32,5% del total de las muestras estudiadas. La probabilidad de que si el resultado es negativo el
sensibilidad de la tinción para detectar una infección paciente no tenga la enfermedad. Los valores predicti-
urinaria fue de 82,4% (284/346), y la especificidad vos dependen no sólo de la sensibilidad y la especifici-
fue de 92,3% (706/718). Así pues, en el grupo de ori- dad, sino también de la prevalencia de la enfermedad.
nas con bacteriuria significativa se identificaron con
la nueva medida un 82,4%. De igual modo, el resul- Ejemplo A3.2. En el ejemplo A3.1 (ver tabla A3.2),
tado fue negativo en un 98,3% de las muestras consi- el VPP es del 96% (285/297) y el VPN es del 92%
deradas como negativas. La tinción fue falsamente (706/767). El trabajo se llevó a cabo en pacientes
negativa en un 17,6% de los casos (100 – sensibili- ingresados en un hospital o que acudían a las consul-
dad) y sólo fue falsamente positiva en un 1,7% de las tas externas, siendo la prevalencia del 32,5%. Si se
ocasiones (100 – especificidad). aplicara la misma prueba a la población que consulta

336
SENSIBILIDAD Y ESPECIFICIDAD

en un centro de salud, la prevalencia de infección uri- prueba diagnóstica (es decir, la suma de verdaderos y
naria sería, muy probablemente, menor y, por consi- falsos positivos) son derivados a otro nivel de atención,
guiente, el VPP disminuiría. Supongamos que la pre- es de esperar que la especificidad se reduzca.
valencia es del 5% y se aplica la prueba a 1.000
personas, siendo la sensibilidad y la especificidad las Ejemplo A3.3. En una muestra de 2.000 pacientes visi-
mismas que las calculadas en la tabla A3.2. Los resulta- tados en atención primaria con un diagnóstico de
dos de este estudio hipotético se muestran en la tabla sospecha de apendicitis aguda, los que tenían una
A3.3. La predictividad de la prueba positiva ha dismi- elevada probabilidad de padecerla eran derivados al
nuido de un 96% a un 71,9%. hospital de referencia para confirmación y trata-
La predictividad de una medida no se puede eva- miento. Una comparación entre los resultados obser-
luar sin considerar la prevalencia de la enfermedad; vados en ambos niveles de atención mostró que la
si es alta, un resultado positivo tiende a confirmar su prevalencia de la enfermedad fue del 14% en las con-
presencia, mientras que si es negativo, no ayudará a sultas de atención primaria y del 63% entre los
excluirla. Contrariamente, cuando la prevalencia es pacientes derivados a los servicios de urgencia de los
baja, un resultado negativo permitirá descartar la hospitales. Este aumento de prevalencia se acom-
enfermedad con un elevado margen de confianza, pañó también de una distinta prevalencia de los sín-
pero si es positivo, no permitirá afirmar su existencia. tomas y signos diagnósticos. Así, el dolor en el cua-
La prevalencia es el factor más determinante de drante inferior derecho se observó en el 21% de los
los valores predictivos. La sensibilidad y la especifici- pacientes visitados en atención primaria, mientras
dad, al ser características intrínsecas de una medida, que en los derivados al hospital esta prevalencia fue
no sufrirán grandes variaciones según el lugar donde del 82%. La derivación de pacientes con resultados
se apliquen, siempre y cuando se realicen en condi- falsos positivos supuso que la especificidad del signo
ciones similares. Sin embargo, esta asunción no siem- dolor en el cuadrante inferior derecho disminuyera
pre se cumple. El espectro de pacientes también va- desde el 89% hasta el 16%. Como consecuencia, un
ría según el lugar donde se aplica la prueba. Por signo diagnóstico útil en atención primaria (cociente
ejemplo, una misma prueba cuando se emplea en un de probabilidad de una prueba positiva de 8 y cocien-
programa de detección precoz, se aplica a sujetos asin- te de probabilidad de una prueba negativa de 0,2)
tomáticos, mientras que cuando se usa con fines diag- carece de utilidad en los hospitales de referencia
nósticos en un hospital de alta tecnología, muchos de (cociente de probabilidad de una prueba positiva y
los pacientes que la reciben tienen una enfermedad negativa de 1) (Sackett DL, 2002).
avanzada.
Dado que muchos de los pacientes que son vistos La especificidad no siempre se reduce cuando los
en atención primaria con un resultado positivo en una pacientes son derivados al nivel secundario o tercia-
rio de atención, por lo que no existe un «factor» que
sirva para ajustar los resultados en función del nivel
de atención. La única forma de evitar este problema
Tabla A3.3. Resultados de un estudio que
es repitiendo el mismo estudio en distintas poblacio-
evalúa un nuevo método
diagnóstico de infección urinaria
nes y lugares.

Infección No infección RAZONES DE PROBABILIDAD


urinaria urinaria Total
La razón o cociente de probabilidad compara la pro-
Tinción positiva 41 16 57 babilidad de obtener un determinado resultado en
Tinción negativa 9 934 943 un individuo que presente la enfermedad, con la de
obtenerlo en un sujeto en el que se ha descartado su
Total 50 950 1.000 presencia.
La razón de probabilidad de una prueba positiva
Valor predictivo positivo: 41/57 = 71,9%.
(RPP) se calcula dividiendo la proporción de casos
Valor predictivo negativo: 934/943 = 99,0%.
*Los valores de sensibilidad (82,4%) y especificidad (98,3%) son que tiene un resultado de la prueba positivo (sensibi-
los mismos que los calculados en la tabla A3.2. lidad), entre la proporción de personas que no tienen

337
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

la enfermedad, pero en las que la prueba también ha Probabilidad posprueba = odds posprueba
dado un resultado positivo (1 – especificidad): / (odds posprueba + 1)

RPP = sensibilidad / (1 – especificidad) Ejemplo A3.6. En el ejemplo anterior, la prevalencia


era del 32,5%, o lo que es lo mismo, una odds pre-
Ejemplo A3.4. En el ejemplo A3.1 (ver tabla A3.2), la prueba de 1:2, y la RPP era de 49. Por lo tanto, la odds
RPP sería 82,4%/(100% – 98,3%) = 49, lo cual permi- posprueba = 1:2  49 = 49:2 y la probabilidad pos-
tiría interpretar que en el grupo de pacientes diag- prueba = 24,5/(24,5 + 1) = 0,96. Es decir, el valor pre-
nosticados de infección urinaria la probabilidad de dictivo positivo es del 96%, el mismo que el obtenido
encontrar un resultado positivo a la tinción con azul anteriormente.
de metileno es 49 veces mayor que en los individuos
en los que se ha descartado la enfermedad. Una prueba útil desde el punto de vista clínico es
aquella que, una vez aplicada, genera cambios des-
Análogamente, la razón de probabilidad de una de la estimación diagnóstica de la probabilidad
prueba negativa (RPN) se calcula dividiendo los preprueba hasta la estimación de la probabilidad pos-
casos que tienen un resultado negativo (1 – sensibili- prueba. Desde el punto de vista clínico, las pruebas
dad) entre la proporción de sujetos que no tienen la proporcionan una ganancia de información cuando
enfermedad, en los que el resultado de la prueba es la prevalencia de la enfermedad es intermedia, supe-
negativo (especificidad): rior al 10%. Las pruebas con una RPP superior a 10 o
una RPN inferior a 0,1 tienen una gran utilidad clíni-
RPN = (1 – sensibilidad) / especificidad ca; si los valores de las razones de probabilidad están
comprendidos entre 5 y 10 o 0,1 y 0,2, tienen una uti-
Ejemplo A3.5. Siguiendo con el mismo ejemplo ante- lidad moderada.
rior, la RPN sería [(100% – 82,4%)/98,3 = 0,18,
lo que indica que un resultado negativo se encontró
CURVAS ROC
5,5 veces (1/0,18 = 5,5) más frecuentemente en los
individuos sin infección urinaria que entre aquellos Cuando los valores de la prueba diagnóstica siguen
que sí la padecieron (ver tabla A3.2). una escala cuantitativa, la sensibilidad y la especifici-
dad varían según el punto de corte elegido para clasi-
La razón de probabilidad relaciona la sensibilidad ficar a la población como enferma o no enferma. En
y la especificidad en un solo índice, por lo que no esta situación, una forma más global de conocer la
varía con la prevalencia. Pueden obtenerse razones de exactitud de una prueba en el conjunto de puntos de
probabilidad según varios valores de una nueva medi- corte es mediante el uso de curvas ROC (receiver ope-
da y no es necesario expresar la información de forma rating characteristics o curvas de características operati-
dicotómica, como resultado normal o anormal, o vas para el receptor).
positivo y negativo.
A partir de la razón de probabilidad se pueden La curva ROC es un gráfico en el que en el eje de
calcular los valores predictivos (o probabilidad a pos- ordenadas se sitúa la sensibilidad (proporción de ver-
teriori) de una prueba. El primer paso consiste en daderos positivos) y en el eje de abscisas el comple-
expresar la prevalencia en odds de enfermedad. Si, mentario de la especificidad (1 – especificidad o pro-
por ejemplo, la prevalencia es del 25%, la odds será de porción de falsos positivos) (fig. A3.1). Cada punto
1:3 (25%/75%). A continuación se multiplica la odds de la curva representa el valor de la RPP correspon-
de la enfermedad por la RPP, obteniendo así la odds diente a un punto de corte determinado.
posprueba. El área bajo la curva se define como la probabili-
dad de clasificar correctamente a un par de indivi-
Odds posprueba = odds preprueba  RPP duos, uno sano y otro enfermo, seleccionados al azar,
al aplicarles la prueba, y es independiente de la preva-
Esta odds posprueba se puede convertir en probabili- lencia de la enfermedad. Por ejemplo, un área bajo la
dad posprueba, o lo que es lo mismo, en los valores pre- curva de 0,75 significa que un individuo seleccionado
dictivos, de la siguiente forma: aleatoriamente del grupo de enfermos tendrá el 75%

338
SENSIBILIDAD Y ESPECIFICIDAD

punto de corte en la zona plana de la curva, ya que la


sensibilidad se mantiene prácticamente inaltera-
1,0 da mientras que la proporción de falsos positivos
aumenta. Por lo general, si el coste que supone come-
0,8 ter un falso positivo es similar al de cometer un falso
negativo, el mejor punto de corte es el más próximo
Sensibilidad

0,6 al ángulo superior izquierdo del gráfico. Si el coste de


un falso positivo y uno negativo difieren, se deberá
0,4 tener en cuenta este distinto coste para el cálculo del
punto óptimo de corte.
0,2
Los intervalos de confianza del área bajo la curva
0,0
permiten efectuar comparaciones estadísticas entre
0,0 0,2 0,4 0,6 0,8 1,0 distintas pruebas diagnósticas, siempre que se apli-
1 – especificidad quen en la misma población y para responder a una
misma duda diagnóstica. Cuando los resultados de
las pruebas se expresan de forma dicotómica, se pue-
Figura A3.1. Ejemplo de curva ROC. den comparar mediante la odds ratio diagnóstica, que
se calcula del siguiente modo: (sensibilidad  especi-
ficidad)/ [(1 – sensibilidad)  (1 – especificidad)].
de las veces un valor de la prueba mayor que un indi- Se puede demostrar matemáticamente que la odds
viduo sano elegido al azar. No significa que un resul- ratio diagnóstica es independiente de los cambios que
tado positivo se produzca en los individuos enfermos ocurren en la prevalencia y del espectro de enferme-
con una probabilidad de 0,75 ni que esté asocia- dad que presentan los pacientes (Fischer et al, 2003).
do con la enfermedad el 75% de las veces. Los investigadores pueden usar técnicas multivarian-
Para una prueba con una sensibilidad y una espe- tes como la regresión logística para identificar el
cificidad del 100%, la curva ROC estaría representa- punto de corte que optimiza el resultado de la odds
da por los lados izquierdo y superior de la figura ratio. Las puebas útiles suelen tener odds ratio supe-
(área bajo la curva igual a 1). Cuando la prueba no riores a 20 (es decir, una RPP de 7 y una RPN de 0,3).
tiene ningún poder de discriminación, es decir, se
observan los mismos resultados en los individuos B IBLIOGRAFÍA DE LOS EJEMPLOS
enfermos que en los sanos, la curva ROC está repre- García Curiel A. Diagnóstico precoz de las infecciones del
tracto urinario: examen microscópico y cuantitativo de
sentada por la diagonal principal del gráfico (área
orina total teñida con azul de metileno. Enf Infec Mi-
bajo la curva igual a 0,5). Como norma general, si el
crobiol Clin 1988; 6: 303-307.
área bajo la curva es mayor de 0,9, la prueba es muy Sackett DL, Haynes RB. The architecture of diagnostic
exacta, mientras que valores comprendidos entre 0,7 research. BMJ 2002; 324: 539-541.
y 0,9 indican una exactitud moderada. Los valores
comprendidos entre 0,5 y 0,7 se corresponden con B IBLIOGRAFÍA
una exactitud baja. En definitiva, cuanto más próxi- Altman DG. ROC curves and confidence intervals: getting
ma es una curva ROC a la esquina superior izquierda, them right. Heart 2000; 83: 236.
más alta es la exactitud global de la prueba. Barratt A, Irwig L, Glasziou P et al. Users' guides to the me-
La curva ROC facilita la elección del punto de dical literature: XVII. How to use guidelines and recom-
corte. La mayoría de las curvas ROC presentan un mendations about screening. Evidence-Based Medicine
Working Group. JAMA 1999; 281: 2029-2034.
segmento de gran pendiente, en el cual la sensibili-
Bossuyt PM, Reitsma JB, Bruns DE et al. Standards for
dad aumenta mucho, mientras la proporción de fal-
Reporting of Diagnostic Accuracy. The STARD state-
sos positivos prácticamente no varía. No tiene mucho ment for reporting studies of diagnostic accuracy: expla-
sentido elegir el punto de corte en esta zona, porque nation and elaboration. Ann Intern Med 2003; 138 (1):
al desplazarse hacia arriba por la curva aumentará la W1-W12.
sensibilidad sin reducirse sustancialmente la especifi- Grimes DA, Schulz KF. Uses and abuses of screening tests.
cidad. Igualmente, tampoco es aconsejable elegir el Lancet 2002; 359: 881-884.

339
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Desig- Mulherin SA, Miller WC. Spectrum bias or spectrum effect?
ning studies to ensure that estimates of test accuracy are Subgroup variation in diagnostic test evaluation. Ann
transferable. BMJ 2002; 324: 669-671. Intern Med 2002; 137: 598-602.
Jaeschke R, Guyatt GH, Sackett DL, for the Evidence-Based Punglia RS, D'Amico AV, Catalona WJ, Roehl KA, Kuntz KM.
Medicine Working Group. Users' guides to the medical Effect of verification bias on screening for prostate can-
literature: III. How to use an article about a diagnostic cer by measurement of prostate-specific antigen. N Engl
test. B. What were the results and will they help me in J Med 2003; 349: 335-342.
caring for my patients? JAMA 1994; 271: 703-707. Ransohoff DF, Feinstein AR. Problems of spectrum and bias
Langlotz CP. Fundamental measures of diagnostic examina- in evaluating the efficacy of diagnostic tests. N Engl
tion performance: usefulness for clinical decision ma- J Med 1978; 299: 926-930.
king and research. Radiology 2003; 228: 3-9. Tze-Wey L. Understanding sensitivity and specificity with the
Lijmer JG, Mol BW, Heisterkamp S et al. Empirical evidence right side of the brain BMJ 2003; 327: 716-719.
of design-related bias in studies of diagnostic tests. JAMA
1999; 282: 1061-1066.
Lu Y, Heller DN, Zhao S. Receiver operating characteristic
(ROC) analysis for diagnostic examinations with unin-
terpretable cases. Stat Med 2002; 21: 1849-1865.

340
Anexo 4
Análisis de la concordancia

l análisis de la concordancia entre diferentes Siendo Po la proporción total de concordancia

E medidas de una variable permite evaluar tanto


la repetibilidad como la variabilidad intra e in-
terobservadores, así como comparar diversos méto-
observada y Pe la proporción de concordancia espe-
rada por azar.

dos de medida de una misma variable. Las técnicas de Ejemplo A4.1. En un estudio hipotético dos médicos
análisis dependen del tipo de variable. leen 100 radiografías y las clasifican como normales o
anormales. Las evaluaciones se realizan de forma
independiente, es decir, ninguno de los médicos
VARIABLES CUALITATIVAS:
conoce el resultado de su colega. El médico 1 clasifi-
ÍNDICE KAPPA
ca 30 radiografías como anormales, y el médico 2, 35,
Una forma sencilla de expresar la concordancia cuan- coincidiendo ambos en 20 casos. Los resultados se
do la variable es cualitativa es la proporción o porcen- muestran en la tabla A4.2. La proporción total obser-
taje observado de mediciones concordantes. Sin vada de concordancia entre ambos médicos (Po) es:
embargo, dado que una parte de esta concordancia se
debe al azar, es necesario utilizar otros métodos que Po = (a + d) / N = (20 + 55) / 100 = 0,75
tengan en cuenta este hecho. (o bien, el 75%)
El índice Kappa resume la concordancia entre dos
medidas de una variable (p. ej., las obtenidas por Esta proporción observada no tiene en cuenta el
dos observadores), cuando está en una escala cualita- papel del azar y se pueden obtener conclusiones erró-
tiva, eliminando la fracción de la concordancia debi- neas. Supongamos que observar una radiografía
da al azar, es decir, la que se obtendría si las dos medi- anormal fuera muy poco frecuente. El número de
das no estuvieran relacionadas. En la tabla A4.1 se coincidencias negativas d sería probablemente muy
muestra la presentación general de los datos para su elevado, contribuyendo de una manera despropor-
cálculo en el caso de una medida dicotómica. La fór- cionada al porcentaje total de concordancias. Un
mula es: observador, incluso sin mirar las radiografías, simple-
mente diciendo que todas son normales, podría ser
Kappa = (Po – Pe) / (1 – Pe) concordante con el resultado del otro observador en

341
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla A4.1. Presentación de una tabla 2  2 para el cálculo de los índices de concordancia

Número de hallazgos del observador 2


Número de hallazgos
del observador 1 Positivos Negativos Total

Positivos a b n1
Negativos c d n2
Total m1 m2 N

a: número de coincidencias de hallazgos positivos entre ambos observadores.


b: número de veces que el observador 1 califica un hallazgo de positivo y el observador 2 de negativo.
c: número de veces que el observador 1 califica un hallazgo de negativo y el observador 2 de positivo.
d: número de coincidencias de hallazgos negativos entre ambos observadores.
n1: número total de hallazgos positivos del observador 1.
n2: número total de hallazgos negativos del observador 1.
m1: número total de hallazgos positivos del observador 2.
m2; número total de hallazgos negativos del observador 2.
N: número total de observaciones.

Tabla A4.2. Concordancia entre dos observadores que leen 100 radiografías (ejemplo A4.1)

Hallazgos observador 1
Radiografías

Hallazgos observador 2 Anormales Normales Total

Radiografías
Anormales 20 15 35
Normales 10 55 65
Total 30 70 100

un porcentaje elevado de casos. El porcentaje total de (a + b)(a + c) / N = (30  35)/100 = 10,5


concordancia o aciertos no es, pues, un buen índice.
Dado que se calcula a partir de la suma de coinciden- De forma similar, para calcular en cuántas ocasio-
cias sobre la positividad o negatividad de un hallazgo, nes los observadores concordarían por azar en valo-
un índice del 0,75 se puede lograr igualmente a par- rar las radiografías como normales:
tir de una suma del 0,40 más el 0,35, o de sumar 0,70
más 0,05, por ejemplo, un resultado este último (c + d)(b + d) / N = (70  65)/100 = 45,5
mucho más fácil de conseguir.
El grado de concordancia esperable por azar Sumando estos resultados y dividiendo entre el
puede determinarse a partir de los valores marginales total, se obtiene la proporción esperada de concor-
de la tabla de contingencia. Así, para calcular en dancia por azar:
cuántas ocasiones los observadores concordarían por
azar en valorar las radiografías como anormales, se Pe = (10,5 + 45,5) /100 = 0,56
multiplicaría el número de pruebas que cada médico
hubiese clasificado como anormales y se dividiría por Como la proporción total observada Po es 0,75, el
el número total de observaciones: índice Kappa será (0,75 – 0,56) / (1 – 0,56) = 0,43.

342
ANÁLISIS DE LA CONCORDANCIA

El valor máximo de un índice Kappa es 1, que se de una medida. Si la concordancia es elevada, existe
produce cuando existe un acuerdo total entre ambos la posibilidad, aunque no la garantía, de que las
observadores. El valor mínimo no es cero, sino que mediciones reflejen la dimensión que se pretende
puede ser negativo. Si el porcentaje observado es medir (validez). Pero si la concordancia es baja, la
menor que el esperado por azar, el índice Kappa utilidad de las mediciones será muy limitada, ya que
tendrá un valor negativo. Este hecho ha sido critica- no tiene sentido preguntarse si están asociadas con la
do por algunos autores, aunque en realidad tiene variable que se desea medir si uno no se puede fiar ni
poca transcendencia, ya que cuando el porcentaje de las propias mediciones.
observado es menor que el esperado, la concordan-
cia es tan baja que no interesa saber su valor exacto.
VARIABLES CUANTITATIVAS
La concordancia se considera muy débil cuando
los valores del índice Kappa son inferiores a 0,20, En el caso de variables cuantitativas, existe cierta con-
débil si está entre 0,21 y 0,40, moderada entre 0,41 y fusión entre los conceptos de relación, o asociación,
0,60, buena entre 0,61 y 0,80, y muy buena si es supe- y de concordancia, de forma que es frecuente el uso
rior a 0,80. de técnicas estadísticas inadecuadas.
La fórmula permite obtener una estimación pun-
tual del índice Kappa. Un método sencillo de calcu- Ejemplo A4.2. La diferencia entre relación y concor-
lar su intervalo de confianza es el siguiente: dancia se ilustra con los datos presentados en la tabla
A4.3, que corresponden a un estudio hipotético para


Po (1 – Pe) determinar la concordancia entre una técnica están-
IC 95%: Kappa ± 1,96  dar de medición de la presión arterial sistólica (PAS)
N (1 – Pe) y tres nuevos métodos A, B y C. Puede observarse que
todos ellos tienen valores del coeficiente de correla-
El índice Kappa se propuso originalmente como ción de Pearson con el método estándar de 1, indi-
un índice de concordancia entre dos observadores cando una relación lineal perfecta. Sin embargo,
para clasificar variables dicotómicas. Posteriormente, también puede apreciarse que los valores no coinci-
se propuso su uso para variables politómicas. Sin den en todos los casos. Mientras que el método A pre-
embargo, cuando se usa en esta situación, tiene el senta una correlación y una concordancia perfectas
inconveniente de que mide la frecuencia del acuerdo con la técnica estándar, el método B proporciona
exacto, más que la del acuerdo aproximado. Es decir, valores consistentemente superiores en 30 mmHg, lo
no tiene en cuenta el grado de desacuerdo, ya que que se refleja en la diferencia entre las medias de las
todos los desacuerdos son tratados de igual manera. mediciones. En cambio, aunque el método C tiene
Una alternativa es calcular el índice Kappa pondera- una correlación perfecta y la media de sus medicio-
do, en el que se asignan diferentes ponderaciones a nes coincide con la del método estándar, existe una
los desacuerdos, según su magnitud. Cuantas más discordancia evidente en los valores que proporcio-
categorías tenga la variable, más disminuye la proba- nan para cada sujeto. Así pues, si bien una concor-
bilidad de acuerdo. De hecho, cuando se acerca a dancia perfecta implica una correlación perfecta, lo
una escala cuantitativa, el concepto de probabilidad contrario no se cumple necesariamente, incluso aun-
de acuerdo se convierte en un absurdo. En realidad, que los valores medios sean similares.
cuando se trata de variables ordinales muchos auto-
res recomiendan utilizar el coeficiente de correlación Del ejemplo se deduce que el coeficiente de
intraclase, en lugar del índice Kappa ponderado. De correlación de Pearson no es una medida adecuada
todas formas, con variables politómicas puede ser del grado de concordancia entre dos mediciones,
más informativo el uso de varios índices Kappa para sino que mide el grado de relación lineal entre ellas,
diferentes combinaciones entre las categorías de la de forma que, por ejemplo, si una es sistemáticamen-
variable, que un único valor global promedio. te el doble de la otra, la correlación será perfecta.
El índice Kappa no es el mejor índice para resu- Tampoco la regresión lineal es una técnica adecuada,
mir la validez de una medida. Siempre que se posea ya que se obtiene una ecuación que permite predecir
un buen criterio de referencia, es preferible usar la el valor de una variable en función de otra, pero no
sensibilidad y la especificidad para valorar la validez indica el grado de acuerdo entre ellas.

343
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla A4.3. Estudio hipotético que compara la medición de la presión arterial sistólica (PAS)
con la técnica estándar y tres nuevos métodos

Técnica estándar Método A Método B Método C

Sujeto PAS PAS Dif. PAS Dif. PAS Dif.

1 100 100 0 130 + 30 120 + 20


2 110 110 0 140 + 30 125 + 15
3 120 120 0 150 + 30 130 + 10
4 130 130 0 160 + 30 135 +5
5 140 140 0 170 + 30 140 0
6 150 150 0 180 + 30 145 –5
7 160 160 0 190 + 30 150 – 10
8 170 170 0 200 + 30 155 – 15
9 180 180 0 210 + 30 160 – 20
Media 140 140 0 170 + 30 140 0
r=1 r=1 r=1
R=1 R = 0,625 R = 0,818

Dif.: diferencia respecto al valor obtenido por la técnica estándar.


r: coeficiente de correlación de Pearson con el método estándar.
R: coeficiente de correlación intraclase con el método estándar.

Como puede deducirse fácilmente de los datos de dientes. Por ello, se hace necesario un índice estadís-
la tabla A4.3, la comparación de medias tampoco es tico que cuantifique la concordancia corrigiendo por
adecuada para realizar este análisis. Si se utilizara este fenómeno.
como criterio la igualdad de las medias de las medi-
ciones, podría concluirse que tanto el método A como C OEFICIENTE DE CORRELACIÓN
el C tienen una buena concordancia con el método INTRACLASE
estándar, lo que es evidentemente erróneo en lo que El coeficiente de correlación intraclase (R) es un ín-
se refiere al método C. Además, al aplicar una prueba dice que sintetiza el grado de concordancia entre dos
estadística para comparar las medias, se hacen sinóni- variables cuantitativas. Su definición matemática
mos la concordancia y la ausencia de significación deriva del modelo del análisis de la varianza. La varia-
estadística. Por este criterio, cuanto mayor sea el error bilidad total de las mediciones (σ2x) se puede des-
de medida, es decir, la variabilidad de los valores, componer, por un lado, en la debida a los verdade-
menor será la probabilidad de encontrar diferencias ros valores (σ2v), es decir, la de las diferencias entre
estadísticamente significativas, y, por lo tanto, mejor sujetos, y, por otro, a la variabilidad residual de los
será la concordancia, lo que resulta un error evidente. errores de medida (σ2E), es decir, la de las diferencias
Una forma sencilla de cuantificar la concordancia entre las medidas para cada sujeto. Cuanto menor
es determinar el tanto por ciento de sujetos en los sea esta variabilidad residual en relación con la total,
que el nuevo método proporciona un valor cercano mayor será la concordancia entre las mediciones:
al obtenido por el de referencia (p. ej., ± 5 mmHg en
la toma de la presión arterial). Sin embargo, si bien σ2v σ2 v
este porcentaje puede proporcionar una informa- R= =
ción útil, ignora el hecho de que una determinada σ2v + σ2E σ2x
fracción de la concordancia puede deberse simple-
mente a la variabilidad aleatoria, incluso aunque Los valores de R varían entre 0 y 1. El valor 0
ambos métodos de medida sean totalmente indepen- corresponde a la situación en que el componente

344
ANÁLISIS DE LA CONCORDANCIA

residual supone toda la variabilidad. A medida que a la diferencia igual a 0. Este gráfico también permite
constituye una porción menor de la misma, el valor observar si la magnitud de las diferencias entre los
de R aumenta, hasta alcanzar el valor máximo de 1 métodos es similar para todos los valores de la varia-
cuando σ 2E = 0. La concordancia suele considerarse ble (representados por los promedios de ambas
muy buena si R es mayor de 0,90, buena si está entre mediciones), o si las diferencias entre los métodos
0,71 y 0,90, moderada entre 0,51 y 0,70, mediocre son mayores a medida que aumenta el valor de la
entre 0,31 y 0,50, y mala o nula si R es inferior a 0,31. variable.
En la tabla A4.3 puede apreciarse como R refleja Si las diferencias no varían según los valores de la
el grado de concordancia mejor que el coeficiente de variable, pueden analizarse las diferencias individua-
correlación de Pearson. les: su media aritmética estima el sesgo relativo (di-
ferencia sistemática entre ambos métodos) y su des-
A NÁLISIS DE LAS DIFERENCIAS viación estándar, el error aleatorio. Los límites del
INDIVIDUALES intervalo de dos desviaciones estándar alrededor de la
Bland y Altman (1995) proponen un método sencillo media de las diferencias pueden considerarse como
a partir del análisis de las diferencias individuales, los límites de concordancia entre ambas mediciones, ya
que proporciona información complementaria al que este intervalo incluye el 95% de las diferencias
coeficiente de correlación intraclase. observadas.
El primer paso es la representación gráfica de las Este análisis de las diferencias también puede apli-
diferencias entre ambos métodos en relación con su carse a la evaluación de la repetibilidad. Para ello,
media (fig. A4.1). La diferencia de los resultados entre basta con representar las diferencias entre ambas
ambos métodos se representa en el eje de ordenadas, y observaciones en el eje de ordenadas, y su promedio
su promedio, en el de abscisas. Lo ideal sería repre- en el de abscisas, y realizar el análisis como se ha des-
sentar las diferencias observadas en relación con el ver- crito.
dadero valor de la variable de interés, lo que puede El método de Bland y Altman se centra en la valo-
hacerse cuando uno de los métodos puede conside- ración de la magnitud de la diferencia, ya que permite
rarse como el estándar de referencia (se estaría en una determinar los límites de concordancia observados.
situación de evaluación de la validez de una prueba o Estos valores deben compararse con los límites de con-
medida). Sin embargo, cuando se evalúa la concor- cordancia establecidos previamente al inicio del estu-
dancia, se asume que ninguno de los métodos puede dio, que dependerán de la utilidad que se quiera dar a
considerarse de referencia y se utiliza la media de la medida. Este método considera la concordancia
ambos métodos como la mejor estimación disponible. más como un concepto clínico que como uno estadís-
Si la concordancia fuera perfecta, los puntos se tico. De esta forma, la determinación de la magnitud
situarían exactamente sobre la línea correspondiente de las diferencias y su visualización gráfica facilitan su

Diferencia B-A

20

10

-10

-20
Figura A4.1. Diferencias en los
valores de presión arterial 120 130 140 150 160 170 180 190 200 210
sistólica (PAS) entre dos PAS media
métodos de medida A y B
en relación con su promedio.

345
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

interpretación clínica y hacen que este método sea Guggenmoos-Holzmann I. The meaning of kappa: proba-
muy atractivo para los profesionales sanitarios. bilistic concepts of reliability and validity revisited. J Clin
Epidemiol 1996; 49: 775-782.
Jiménez Villa J. Comparación de métodos cuantitativos de
B IBLIOGRAFÍA
medida. FMC 1994; 1: 404-410.
Bland JM, Altman DG. Applying the right statistics: analyses
Kundel HL, Polansky M. Measurement of observer agree-
of measurement studies. Ultrasound Obstet Gynecol
ment. Radiology 2003; 228: 303-308.
2003; 22: 85-93.
Lantz CA, Nebenzahl E. Behavior and interpretation of the
Bland JM, Altman DG. Measurement error. BMJ 1996; 312:
kappa statistic: resolution of the two paradoxes. J Clin
1654.
Epidemiol 1996; 49: 431-434.
Bland JM, Altman DG. Measurement error and correlation
Latour J, Abraira V, Cabello JB, López Sánchez J. Las
coefficients. BMJ 1996; 313: 41-42.
mediciones clínicas en cardiología: validez y errores de
Bland JM, Altman DG. Measurement error proportional to
medición. Rev Esp Cardiol 1997; 50: 117-128.
the mean. BMJ 1996; 313: 106.
Luiz RR, Costa AJ, Kale PL, Werneck GL. Assessment of
Bland JM, Altman DG. Measuring agreement in method com-
agreement of a quantitative variable: a new graphical
parison studies. Stat Methods Med Res 1999; 8: 135-160.
approach. J Clin Epidemiol 2003; 56: 963-967.
Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin
Maclure M, Willett WC. Misinterpretation and misuse of the
Epidemiol 1993; 46: 423-429.
kappa statistic. Am J Epidemiol 1987; 126: 161-169.
Graham P, Jackson R. The analysis of ordinal agreement
data: beyond weighted kappa. J Clin Epidemiol 1993; 46:
1055-1062.

346
Anexo 5
Análisis de una revisión sistemática

continuación se desarrollan con detalle algu- (p. ej., cuando algunos estudios sugieren que una de-

A nos aspectos de la estrategia de análisis de una


revisión sistemática (RS), cuyo esquema básico
se ha presentado en el capítulo 10. La finalidad del
terminada exposición es protectora frente al desarro-
llo de una enfermedad, mientras que otros estudios
sugieren que es un factor de riesgo de la misma), sino
análisis es obtener un estimador combinado del efec- también cuando las estimaciones de cada estudio son
to de un factor de estudio sobre una variable de res- de magnitud muy diferente, aunque no necesaria-
puesta a partir de los resultados obtenidos en dife- mente en direcciones opuestas (p. ej., cuando algu-
rentes estudios. El procedimiento estadístico que se nos estudios sugieren que una exposición aumenta
utiliza se denomina metaanálisis. A continuación se ligeramente el riesgo de una enfermedad, mientras
comentan las principales fases del análisis de una RS. que otros sugieren que el aumento de riesgo es muy
importante).
Dado que los estudios que se analizan son una
ANÁLISIS DE LA HETEROGENEIDAD
muestra de todos los posibles estudios que pueden
La principal condición necesaria para combinar los realizarse sobre un tema, sus resultados pueden di-
resultados de diferentes estudios es que las diferen- ferir simplemente por azar. Por un lado, aun cuan-
cias entre ellos sean debidas exclusivamente al azar, do el efecto fuera el mismo en todos los estudios,
es decir, que se trate de estudios homogéneos. Por los resultados observados variarían alrededor de
ello, la primera fase del análisis es evaluar si se cum- este «efecto común fijo» (variabilidad intraestu-
ple esta condición. dio). Además, dado que los estudios pueden pre-
La calidad de los resultados del análisis depende, sentar ciertas diferencias en la población, en las
por una parte, de la calidad de los datos de los es- características de la enfermedad o en las de la inter-
tudios individuales y, por otra, de las diferencias vención o factor de estudio, es de esperar que pue-
entre ellos (características de la población estudiada, dan existir también ciertas diferencias en la estima-
definiciones de las condiciones clínicas, característi- ción del efecto (variabilidad interestudios).
cas del factor de estudio, variables de respuesta ana- La presencia de esta heterogeneidad puede eva-
lizadas, etc.). Por tanto, el primer paso consiste en luarse mediante pruebas estadísticas. Si se pone de
presentar todos estos datos en una tabla, denomina- manifiesto la existencia de heterogeneidad, es obli-
da tabla de evidencias, para poder evaluar si es razona- gado analizar sus posibles causas y, en ocasiones, abs-
ble combinar los resultados de los estudios. tenerse de combinar los resultados. Sin embargo, si
La heterogeneidad de los resultados de los es- el resultado de la prueba no es estadísticamente sig-
tudios individuales no se refiere exclusivamente a nificativo, no puede descartarse completamente la
la situación en que no van en la misma dirección existencia de heterogeneidad, especialmente si el

347
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

número de estudios es reducido y con muestras de fijos, que sólo considera la variabilidad presente en
pequeño tamaño, ya que en esta situación existe cada estudio (intraestudio), y el modelo de efectos
gran variabilidad y la potencia de la prueba para de- aleatorios, que considera tanto la variabilidad intra-
tectar diferencias es pequeña. Por ello, se sugiere estudio como la interestudios, al suponer que los
que, en lugar de usar el nivel de significación estudios incluidos son una muestra de todos los po-
estadística habitual del 0,05, se use el 0,10, con el fin sibles. Cuando no existe heterogeneidad, ambos
de paliar parcialmente este problema. modelos proporcionan resultados prácticamente
El análisis estadístico debe complementarse con idénticos. Cuando existe heterogeneidad, lo más
una representación gráfica conjunta de los resulta- adecuado es no combinar los resultados, pero, si se
dos de los estudios individuales y sus correspon- decide hacerlo, debe utilizarse el modelo de efectos
dientes intervalos de confianza, lo que permitirá la aleatorios, ya que es más conservador y proporcio-
inspección visual de la magnitud de las diferencias. na IC más amplios para la estimación conjunta, ad-
Además, el análisis de subgrupos también puede virtiendo claramente a los lectores de las limitacio-
facilitar la valoración cualitativa de las diferencias nes de este abordaje y de que deben interpretar los
entre estudios. resultados con mucha precaución.
La combinación estadística de los diferentes es-
tudios implica ponderar los resultados de cada uno
ESTIMACIÓN COMBINADA
de ellos de acuerdo con su precisión. Cuanto más
DEL EFECTO
preciso es el resultado de un estudio, más estrecho
Si se considera razonable combinar los resultados es su IC, por lo que este estudio debe «pesar más»
de los estudios, se realiza un metaanálisis con la fi- en el resultado final que los que proporcionan re-
nalidad de obtener una estimación conjunta del sultados menos precisos. Para realizar esta ponde-
efecto con un intervalo de confianza (IC). Los re- ración, suele utilizarse el inverso de la variancia de
sultados deben expresarse de una forma estandari- la estimación o el tamaño de la muestra de los estu-
zada para permitir su comparación. Si la variable de dios. Con menos frecuencia se utiliza la puntuación
respuesta es dicotómica, suelen utilizarse medidas recibida en el proceso de evaluación de su calidad.
como el riesgo relativo o la odds ratio. Si son cuanti- Las pruebas estadísticas más utilizadas se presentan
tativas, puede utilizarse la diferencia de medias. en la tabla A5.1.
Pueden diferenciarse dos modelos estadísticos Es importante examinar si el resultado global es
básicos para combinar los resultados: el de efectos consistente, es decir, si está muy influido por las de-

Tabla A5.1. Principales pruebas estadísticas utilizadas en un metaanálisis

Tipo de variable Medida del efecto Modelo Método

Dicotómica Odds ratio Efectos fijos Peto


Mantel-Haenszel
Woolf
Efectos aleatorios DerSimonian-Laird
Riesgo relativo Efectos fijos Mantel-Haenszel
Woolf
Efectos aleatorios DerSimonian-Laird
Diferencia de riesgos Efectos fijos Mantel-Haenszel
Woolf
Efectos aleatorios DerSimonian-Laird
Continua Diferencia de medias Efectos fijos Woolf
Efectos aleatorios DerSimonian-Laird
Diferencia estandarizada de medias Efectos fijos Woolf
Efectos aleatorios DerSimonian-Laird

348
ANÁLISIS DE UNA REVISIÓN SISTEMÁTICA

cisiones tomadas durante el proceso de revisión, co- senta la ausencia de efecto (valor uno, cuando se
mo por ejemplo, la exclusión de un determinado utilizan medidas relativas como la odds ratio o el ries-
tipo de estudios, los criterios de selección emplea- go relativo, o valor cero, cuando se utilizan medidas
dos, la utilización de un método de efectos aleato- absolutas como la diferencia de incidencias).
rios o fijos para combinar los datos, etc. Con esta fi- Cuando los estudios se presentan ordenados por
nalidad pueden realizarse análisis de sensibilidad, algún criterio, como el año de su realización, se de-
metaanálisis acumulativos, análisis de subgrupos o nominan metaanálisis acumulativos (parte derecha
una metarregresión. de la fig. A5.1), que muestra la ejecución repetida
del metaanálisis cuando un nuevo estudio está dis-
ponible para su inclusión. Ayuda a determinar la
PRESENTACIÓN GRÁFICA
consistencia de los resultados a lo largo del tiempo
DE LOS RESULTADOS
e identificar retrospectivamente el punto en el
Habitualmente, los resultados de una RS suelen tiempo en que la estimación conjunta del efecto
presentarse gráficamente en un formato relativa- alcanzó un determinado grado de significación. La
mente estándar (fig. A5.1). El resultado principal primera línea coincide en ambas figuras, mientras
de cada uno de los estudios incluidos en la revisión que la segunda línea de la figura de la derecha
se muestra como una línea horizontal que repre- corresponde al análisis acumulado de los dos pri-
senta el IC del 95% de la estimación de la medida meros estudios; la tercera, de tres estudios, y así,
del efecto, y en la que una señal indica la estima- sucesivamente. La amplitud del IC se va reducien-
ción puntual observada en dicho estudio. Una últi- do, ya que cada vez se analiza un mayor número de
ma línea horizontal representa el resultado global sujetos y la estimación es más precisa. Además,
del metaanálisis, cuya estimación puntual suele re- puede evaluarse si la incorporación de nuevos estu-
presentarse por un rombo. Una línea vertical repre- dios produce alguna modificación en la estimación

OR (IC 95%) OR (IC 95%)


0,1 0,2 0,5 1 2 5 10 0,1 0,2 0,5 1 2 5 10
Estudio Año N N
Estudio A 1987 122 122
Estudio B 1990 881 1.003
Estudio C 1990 885 1.888
Estudio D 1990 711 2.599
Estudio E 1991 193 2.792
Estudio F 1992 338 3.130
Estudio G 1993 984 4.114
Estudio H 1994 1.749 5.863
Estudio I 1994 329 6.192
Estudio J 1994 140 6.332

GLOBAL 6.332

A favor del A favor del A favor del A favor del


tratamiento control tratamiento control

Figura A5.1. Presentación gráfica de los resultados de un metaanálisis sobre la eficacia de una intervención
sanitaria. Se representan los valores de odds ratio de cada estudio individual y la global del metaanálisis,
y sus correspondientes intervalos de confianza del 95%.

349
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

del efecto. En la figura puede apreciarse cómo, a gresiva de estudios de menor calidad influye sobre
medida que se añaden nuevos estudios, existe una la estimación combinada del efecto).
ligera tendencia a la disminución de la magnitud
del efecto (se va acercando a la línea de ausencia de
METARREGRESIÓN
efecto).
Se utiliza para evaluar estadísticamente qué factores
influyen sobre la estimación del efecto, como de-
ANÁLISIS DE SENSIBILIDAD
terminadas características de los pacientes, de la
Este procedimiento requiere reanalizar los datos en intervención o del diseño de los estudios. Estas carac-
función de diferentes criterios y comprobar si se terísticas pueden ser comunes a todos los pacientes
modifican los resultados: analizando solamente incluidos en los estudios, como por ejemplo, la vía de
estudios experimentales y añadiendo observaciona- administración de un tratamiento, o un promedio de
les, incluyendo estudios de menor calidad meto- todos los pacientes, como la media de edad. Este últi-
dológica o con un tamaño de la muestra más re- mo tipo de covariables requiere un interpretación
ducido, etc. Si la utilización de diferentes criterios cautelosa, ya que los valores agregados pueden no
conduce a resultados similares, la conclusión de la representar adecuadamente a grupos minoritarios de
RS se ve fortalecida. pacientes. Los resultados de la metarregresión se
Una forma de análisis de sensibilidad es efectuar informan generalmente como coeficientes de regre-
el metaanálisis empleando un método de efectos sión con sus IC, que reflejan la influencia de cada
aleatorios y un método de efectos fijos. La estima- variable evaluada sobre la estimación del efecto.
ción puntual con ambos métodos será muy similar,
pero el IC será más amplio con el método de efec-
ANÁLISIS DE SUBGRUPOS
tos aleatorios. Si el IC varía muy poco, se tiene una
mayor confianza en que los resultados de la RS son Los análisis de subgrupos se realizan cuando interesa
consistentes. evaluar los resultados en algún grupo especial de su-
Otras características de la calidad de los estudios jetos, en función de la edad, sexo u otras variables, y
que pueden servir para efectuar un análisis de sen- solamente se justifican si se han planeado antes de
sibilidad son la forma en que se asignaron los suje- iniciar la RS, a partir de una hipótesis fundamentada.
tos al grupo de intervención o al de control, o cómo Además de los problemas de cualquier análisis
se evaluó la variable de respuesta. Si los resultados de subgrupos, en una RS es importante tener en
de la RS son diferentes al incluir o excluir estudios cuenta si la comparación se realiza entre subgrupos
con menor calidad metodológica, los resultados de- de sujetos que proceden de un mismo estudio o
ben interpretarse con precaución. bien entre subgrupos procedentes de estudios dife-
Algo similar sucede con los estudios no publica- rentes. En esta segunda situación, el resultado tiene
dos, de los que se ha podido obtener información. mayores limitaciones, ya que, al proceder de estu-
Lo más correcto, si cumplen criterios de inclusión, dios diferentes, pueden existir otros muchos facto-
es incluirlos en el análisis. De todos modos, convie- res que influyan sobre los resultados.
ne analizar también la sensibilidad de los resultados Cuando la finalidad no es tanto obtener estima-
globales de la RS cuando se excluyen estos estudios, ciones por subgrupos como ver si los resultados difie-
lo que puede orientar sobre la posible existencia de ren en función de los subgrupos que se consideren,
un sesgo de publicación. Si los resultados difieren se utiliza como otra forma de explorar y explicar la
debe informarse a los lectores del hecho e interpre- heterogeneidad.
tar los resultados con cautela.
El metaanálisis acumulativo, comentado ante-
EVALUACIÓN GRÁFICA DEL SESGO
riormente, corresponde a un análisis de sensibili-
DE PUBLICACIÓN
dad que permite evaluar cómo influye el criterio
por el que se ordenan los estudios, ya sea el año de Una forma de evaluar la posibilidad de un sesgo de
publicación o la puntuación obtenida al evaluar su publicación es el gráfico en embudo (funnel plot), en
calidad metodológica (p. ej., empezando por los de el que las medidas del efecto observadas en los di-
mayor calidad y evaluando cómo la inclusión pro- ferentes estudios se presentan en una gráfica en que

350
ANÁLISIS DE UNA REVISIÓN SISTEMÁTICA

el eje de abscisas corresponde a la magnitud del efec- estudios de pequeño tamaño con resultados en con-
to y el de ordenadas a alguna medida de su variabi- tra del tratamiento, lo que sería sugestivo de la exis-
lidad, generalmente el tamaño muestral (fig. A5.2). tencia de un sesgo de publicación. Éste es un método
Dado que los estudios de menor tamaño tienen una aproximado y difícil de interpretar cuando existen
menor precisión en la estimación del efecto, presen- pocos estudios.
tan una mayor variabilidad en los resultados. En cam- Otra utilidad del gráfico en embudo es que per-
bio, los estudios de mayor tamaño muestran mayor mite identificar algún estudio con comportamiento
precisión, por lo que sus resultados tienen menor va- extraño, como el indicado como outlier en la figu-
riabilidad. Al representar los resultados de los dife- ra A5.2. Se trata de un estudio que conduce a una
rentes estudios identificados, se obtiene un gráfico en estimación muy favorable al tratamiento, pero que
forma de embudo invertido o pirámide, si no existe queda fuera de la variabilidad que sería esperable
sesgo de publicación. Cuando, como ocurre en la fi- simplemente por azar en los estudios de un tamaño
gura, el gráfico no es simétrico (obsérvese que pare- de la muestra similar. Ello obliga a revisar cuidado-
cen faltar estudios en el ángulo inferior derecho), samente las características de este estudio con la fi-
puede sospecharse que no se han localizado los estu- nalidad de identificar algún factor que pueda expli-
dios que deberían ocupar este lugar; en este caso, car este comportamiento inesperado.

Tamaño
de la muestra

10.000

Outlier?

1.000

100
Figura A5.2.
Gráfico en embudo
0,1 0,8 1,0 10
para la evaluación Favorece al tratamiento Favorece al control
del sesgo de
publicación.

B IBLIOGRAFÍA Macaskill P, Walter SD, Irwig L. A comparison of methods to


Egger M, Smith GD, Altman DG (eds). Systematic reviews in detect publication bias in meta-analysis. Stat Med 2001;
health care: meta-analysis in context. 2.a ed. Londres: 20: 641-654.
BMJ Publishing Group, 2001. McAuley L, Pham B, Tugwell P, Moher D. Does the inclu-
Higgins J, Thompson S, Deeks J, Altman D. Statistical hete- sion of grey literature influence estimates of interven-
rogeneity in systematic reviews of clinical trials: a critical tion effectiveness reported in meta-analysis? Lancet
appraisal of guidelines and practice. J Health Serv Res 2000; 356: 1228-1231.
Policy 2002; 7: 51-61. Sutton AJ, Duval SJ, Tweedie RL, Abrams KR, Jones DR. Em-
Lau J, Ioannidis JPA, Schmid CH. Quantitative synthesis in pirical assessment of effect of publication bias on meta-
systematic reviews. Ann Intern Med 1997; 127: 820-826. analysis. BMJ 2000; 320: 1574-1577

351
Anexo 6
Guía para la elaboración
de un protocolo de estudio

n este anexo se presentan, a modo de enuncia- lidad de sujetos, la posibilidad de colaboración de

E dos o preguntas, los aspectos más importantes a


tener en cuenta cuando se elabora un protocolo
de estudio. Los ítems no deben considerarse estricta-
otros profesionales o centros, las instalaciones, los
equipos y los recursos disponibles, y si el equipo
investigador tiene suficiente experiencia.
mente en el orden en que se presentan, ya que son un 6. Valore la pertinencia del estudio. ¿Qué importancia
simple recordatorio de los puntos sobre los que hay puede tener la respuesta correcta a la pregunta?
que reflexionar a medida que se diseña un trabajo. ¿Qué implicaciones pueden tener el resto de res-
puestas posibles? Evalúe si los beneficios poten-
ciales compensan los recursos necesarios para rea-
INTRODUCCIÓN: ANTECEDENTES
lizar el estudio.
Y JUSTIFICACIÓN
7. Justifique la realización del estudio.
1. Formule la pregunta de interés como una frase interro-
gativa sencilla. A medida que desarrolle el proyec- OBJETIVOS ESPECÍFICOS
to, encontrará útil reescribir esta pregunta varias
veces, formulándola cada vez con más precisión. 8. Formule el objetivo principal del estudio en forma opera-
2. Identifique las palabras clave relacionadas con la tiva, especificando el factor de estudio, cuál es la
pregunta. Siempre que sea posible utilice térmi- variable de respuesta y la población que se desea
nos empleados en la lista del Medical Subject estudiar.
Headings (MeSH), del Index Medicus, o del Índi- 9. Formule otros objetivos secundarios o adicionales.
ce Médico Español.
3. Realice una búsqueda bibliográfica utilizando las pala- APLICABILIDAD Y UTILIDAD
bras clave. Identifique las citas más relevantes. Con- DE LOS RESULTADOS
sulte con expertos en el tema. Identifique las teo-
rías relevantes y otras fuentes de información 10. Identifique los beneficios potenciales derivados de la
destacadas. Elabore una ficha de las citas principa- respuesta. ¿Qué aplicabilidad tienen? ¿A quién
les, anotando sus aspectos más importantes y los afectan?
motivos por los que un artículo se considera de
interés para esta investigación.
DISEÑO Y MÉTODOS
4. Formule la hipótesis de trabajo.
5. Valore la factibilidad de la investigación. Evalúe si 11. Describa en una frase el tipo de diseño que utilizará.
podrá medir de forma precisa y exacta las varia- 12. Describa la población a la que desearía generalizar los
bles de interés, el tiempo necesario y la disponibi- resultados (población diana).

352
GUÍA PARA LA ELABORACIÓN DE UN PROTOCOLO DE ESTUDIO

13. Describa las características de las personas que desearía ficar el efecto del factor de estudio sobre la res-
estudiar (población de estudio). Defina con clari- puesta.
dad y precisión los criterios de selección (de 22. Si realiza alguna intervención, descríbala detallada-
inclusión y de exclusión) de los sujetos. Valore mente.
definiciones estándar utilizadas por otros investi- 23. Describa lo que le ocurrirá a cada persona que participe
gadores. Contraste la validez interna con la capa- en el estudio: cómo se comprobará si cumple los cri-
cidad de generalización. terios de selección, cómo se solicitará su consenti-
14. Determine el tamaño de la muestra necesario, especi- miento, qué seguimiento se hará, cómo recibirá la
ficando las asunciones utilizadas para el cálculo. intervención, qué mediciones se realizarán, qué se
Utilice información de estudios similares para hará si se presenta cualquier acontecimiento du-
definir la magnitud esperable del efecto o la aso- rante el estudio, etc.
ciación. 24. Describa quién recogerá los datos y cómo lo hará.
15. Describa cuál será la procedencia de los sujetos, cómo Establezca los circuitos necesarios para la deriva-
se identificarán los candidatos y cómo se seleccio- ción a exploraciones complementarias y el proce-
nará la muestra. Si utiliza alguna técnica de mues- samiento de muestras, así como para el registro
treo, especifique cuál. de sus resultados.
16. Decida si dividirá la muestra en subgrupos. En caso 25. Haga un esquema de los impresos necesarios para la
afirmativo, ¿cómo lo hará? Si desea realizar un recogida de datos. Diseñe los impresos de forma que
ensayo clínico, describa el tipo de asignación y faciliten la recogida de datos y minimicen los
cómo se realizará. Si se utiliza alguna técnica de posibles errores en este proceso.
enmascaramiento, descríbala. 26. Establezca los mecanismos necesarios para el control de
17. Elabore el marco teórico en que se sitúa el estudio y la calidad de los datos recogidos.
confeccione una lista de todas las variables rele- 27. Describa quién realizará el procesamiento informático de
vantes que deberían ser medidas. Identifique las los datos, cómo y cuándo se hará.
relaciones de cada una de ellas con el factor de
estudio y la variable de respuesta, así como su
LIMITACIONES Y POSIBLES
posible papel en la relación entre ellos.
SESGOS DEL ESTUDIO
18. Para cada una de las variables, elabore una definición
operativa e identifique el instrumento de medida o 28. ¿Hay algo en la selección de sujetos o en su distribución
fuente de información de que dispone. En la medi- en subgrupos que pueda hacer que los grupos no sean
da de lo posible, utilice definiciones e instrumentos comparables? En caso afirmativo, describa el pro-
estándar para la medición de las variables. Elabore blema y su posible solución.
definiciones claras y precisas para que todos los 29. ¿Es posible que las personas que se pierdan durante el
investigadores utilicen criterios homogéneos. estudio sean diferentes de las que permanezcan en él? En
Identifique las fuentes de información necesarias. caso afirmativo, describa el problema y su posible
19. Si no dispone de un instrumento adecuado para medir solución. Diseñe estrategias para minimizar el
alguna variable relevante, identifique las características número de pérdidas durante el seguimiento y
necesarias que le permitan buscarlo o desarrollarlo. para recaptarlas si se producen.
20. Para cada instrumento de medida, valore la fiabilidad y 30. ¿Es posible que el instrumental se deteriore o los observa-
la validez, identificando los potenciales proble- dores se aburran? En caso afirmativo, describa el
mas. Establezca las estrategias necesarias para problema y su posible solución. Diseñe estrategias
mejorarlas. Valore la posibilidad y la conveniencia que aseguren que la calidad y la homogeneidad de
de utilizar técnicas tales como la selección de los datos se mantienen a lo largo de todo el estu-
medidas objetivas antes que subjetivas, la forma- dio. Establezca mecanismos de monitorización
ción de los observadores, la utilización de instru- que le permitan identificar fluctuaciones en los
mentos más precisos, la obtención de varias medi- datos que sugieran alguno de estos fenómenos.
ciones de una variable o el empleo de técnicas de 31. ¿Puede anticipar si es posible que durante el estudio ocu-
enmascaramiento. rran cambios de personal u otros sucesos que interfieran
21. Identifique las potenciales variables de confusión que en los resultados? En caso afirmativo, describa el
deberán controlarse y aquellas que puedan modi- problema y su posible solución.

353
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

32. ¿Podría usted, como investigador, influir sobre los resul- ORGANIZACIÓN DEL ESTUDIO
tados? En caso afirmativo, describa el problema y
40. Prepare todos los documentos necesarios para llevar a cabo
su posible solución.
el estudio: formularios para la recogida de datos, car-
33. Identifique otras posibles fuentes de sesgo en su estudio tas de presentación, formularios de consentimien-
y sus posibles soluciones. to informado, solicitudes de colaboración, etc.
34. Identifique otras limitaciones del diseño del estudio que 41. Identifique las tareas administrativas a realizar y las
deban tenerse en cuenta al interpretar los resul- personas que las llevarán a cabo.
tados. 42. Identifique las personas y los servicios con los que deberá
35. Asegure que el diseño del estudio cumple los requisitos contactar. Asegure su colaboración y describa los
éticos. circuitos adecuados para llevarla a cabo.
43. Elabore un cronograma con todas las fases del estu-
ESTRATEGIA DE ANÁLISIS dio. Identifique las responsabilidades de los
miembros del equipo investigador. Fije un calen-
36. Identifique las variables demográficas que utilizará dario de reuniones.
para describir la población estudiada. 44. Realice una prueba piloto.
37. Identifique las principales variables pronósticas que uti-
lizará para valorar la comparabilidad de los grupos.
PRESUPUESTO
38. Identifique los subgrupos de sujetos en los que querrá
realizar el análisis. 45. Realice una estimación del presupuesto necesario. Ase-
39. Identifique las pruebas estadísticas que necesitará aplicar. gure la financiación antes del inicio del estudio.

354
Anexo 7
Cálculo del tamaño de la muestra
en situaciones especiales

EVALUACIÓN DE PRUEBAS forma que el de los casos, pero enfocando la situación


DIAGNÓSTICAS como la estimación de la especificidad esperada.
El análisis de este tipo de estudios se basa fundamen-
Ejemplo A7.2. El investigador del ejemplo A7.1 desea
talmente en el cálculo de la sensibilidad y la especifi- determinar la especificidad de la prueba para descar-
cidad de la prueba diagnóstica, que son dos propor- tar la enfermedad, y espera que el 90% de los indivi-
ciones. Por consiguiente, el cálculo del tamaño de la duos sin la enfermedad tengan la prueba negativa.
muestra corresponde a la situación de estimación de Desea realizar esta estimación con la precisión del
una proporción. 5% y la confianza del 95%. Utilizando la misma fór-
mula, determinará que son necesarios 138 sujetos sin
Ejemplo A7.1. Supongamos que un investigador de- la enfermedad.
sea determinar la sensibilidad de una nueva prueba
diagnóstica. Basándose en un estudio piloto, espera
que el 85% de los pacientes tengan resultados positi- EVALUACIÓN DE LA CONCORDANCIA
vos con esta prueba. Desea estimar este valor con una Cuando el objetivo del estudio es estimar la concor-
precisión del 5% y un nivel de confianza del 95%. dancia entre los observadores en el caso de una varia-
Aplicando la fórmula de la tabla 15.1 (ver pág. 141) ble cualitativa, los datos se analizan mediante el ín-
(estimación de un parámetro), se calcula que se re- dice Kappa. El cálculo del tamaño de la muestra
quieren 196 sujetos con la enfermedad. necesario para estimar este índice con una precisión
determinada conlleva problemas prácticos, ya que
Si el estudio se diseña para seleccionar una sola obliga a prefijar no sólo el porcentaje total de discor-
muestra de individuos, debe conocerse la prevalencia dancia esperado, sino también el esperado por azar.
de enfermedad en la población que cumple los crite- Al depender el cálculo del tamaño de la muestra de
rios de selección, para determinar cuántos sujetos tantas suposiciones, el resultado podría no ser el más
deberán incluirse en el estudio para que existan los adecuado.
196 enfermos necesarios. Por ejemplo, si se supone Desde un punto de vista práctico, se asume que
que entre los sujetos que van a ser estudiados el 40% el parámetro que se estima es el porcentaje de des-
tendrán la enfermedad, será necesario iniciar el estu- acuerdo entre observadores. Se trata, por tanto, de la
dio con una muestra de 490 individuos. estimación de una proporción.
Si el estudio se plantea de forma que se deba selec-
cionar una muestra de pacientes y otra de controles, el Ejemplo A7.3. Supongamos que se desea evaluar el
número de estos últimos se calculará de la misma grado de concordancia entre dos radiólogos en la lec-

355
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tura de mamografías. En un estudio previo se ha una de las cuales será leída en 4 ocasiones: 2 por cada
demostrado que presentan una elevada repetibili- radiólogo.
dad, por lo que sólo interesa evaluar la concordancia
entre observadores. Se espera que el porcentaje de ESTIMACIÓN DE UN COEFICIENTE
desacuerdo entre ellos sea de un 20%, aproximada- DE CORRELACIÓN
mente. Interesa estimar dicho porcentaje con una
precisión del 5% y una confianza del 95%. Aplicando La asociación entre dos variables cuantitativas requie-
la fórmula de la tabla 15.1 (estimación de un pará- re habitualmente la utilización del coeficiente de
metro; pág. 141), se calcula que ambos radiólogos correlación r de Pearson. La tabla A7.1 presenta la
deberán leer 246 mamografías. fórmula para el cálculo del número de sujetos nece-
sarios en esta situación. La tabla J del final del libro
Cuando el objetivo es estimar la concordancia simplifica esta determinación.
intraobservador, los supuestos y el cálculo del tamaño
de la muestra necesario son los mismos que para ana- Tabla A7.1. Fórmula para el cálculo
lizar la repetibilidad de una medida. El cálculo que se del número de sujetos necesarios
presenta corresponde a la situación en que cada en un estudio cuyo objetivo es
observador realizará dos mediciones de cada sujeto y evaluar una asociación entre dos
se desea evaluar el grado de concordancia de ambas variables cuantitativas, utilizando
mediciones. Lo primero que debe determinarse es el el coeficiente de correlación de
porcentaje de error (discordancia) entre ambas Pearson
medidas que se espera encontrar, así como la preci-

[ ]
sión con que interesa realizar la estimación y la con- (Zα + Zβ)
2
fianza con que se quiere expresar el resultado. En la N= +3
tabla H del final del libro se presentan los resultados 0,5 In [(1 + r)/(1 – r)]
de este cálculo para las situaciones más habituales.
N: número de sujetos necesarios.
Ejemplo A7.4. Consideremos que se desea estimar la
Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
concordancia entre dos lecturas de mamografías reali- Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8).
zadas por un mismo radiólogo. Se espera que la discor- In: logaritmo natural o neperiano.
dancia intraobservador se sitúe alrededor del 5% r: valor del coeficiente de correlación que se supone que
(e = 0,05). Se requiere una precisión del 5% (i = 0,05) y existe en la población.
una confianza del 95% (Zα = 1,96). Utilizando la tabla
H, se determina que es necesario que el radiólogo lea, Ejemplo A7.6. El objetivo de un estudio es determi-
en dos ocasiones, 41 mamografías, aproximadamente. nar si existe asociación entre la presión arterial sistó-
lica y la edad. Según la literatura, puede esperarse un
En muchas ocasiones, se diseña el estudio para eva- valor del coeficiente de correlación cercano a 0,7.
luar simultáneamente la concordancia intra e interob- A continuación, se fijan los niveles de error (α = 0,05;
servador. La tabla I del final del libro sirve para deter- β = 0,10). Utilizando la tabla J se obtiene un tamaño
minar el número de sujetos necesarios cuando existen de 17 individuos.
dos observadores que evalúan cada uno de ellos en dos
ocasiones a todos los sujetos de la muestra.
ENSAYOS CRUZADOS
Ejemplo A7.5. En un estudio hipotético se desea eva- Los diseños cruzados precisan un número menor de
luar simultáneamente la concordancia intra e in- sujetos, ya que cada uno de ellos actúa como su propio
terobservador de dos radiólogos en la lectura de control, disminuyendo la variabilidad de las respues-
mamografías. Se asume que el porcentaje de discor- tas. En este tipo de diseños, la variancia tiene dos com-
dancia entre ambos radiólogos se situará alrededor ponentes. Por un lado, la variabilidad intersujetos de
del 0,15, y que la probabilidad de error de cada radió- la respuesta, y por otro, la variabilidad debida al azar y
logo es de 0,05. Interesa que el intervalo de con- a otros factores intrasujetos. El cálculo requiere incor-
fianza del 95% tenga una amplitud total de 0,10 porar esta descomposición de la variancia, para lo cual
(Zi = 0,10). Serán necesarias 252 mamografías, cada puede realizarse como si se tratara de un estudio de

356
CÁLCULO DEL TAMAÑO DE LA MUESTRA EN SITUACIONES ESPECIALES

grupos paralelos, ajustando posteriormente el número en la cohorte no expuesta. A esta razón se denomina
obtenido en función del coeficiente de correlación intra- δ, y es un concepto análogo al de riesgo relativo. El
clase, que indica la proporción de la variabilidad total número de desenlaces δ en cada grupo se puede
que se debe al componente intersujetos. Incluso si este determinar con la siguiente fórmula:
coeficiente es tan sólo de 0,5, es decir, que sólo la
mitad de la variabilidad se debe a factores intersujetos, δ = [2(Zα + Zβ)2] / (ln δ)2
el tamaño de la muestra puede reducirse a una cuarta
parte del necesario en un estudio paralelo. Dado que Donde ln δ indica el logaritmo neperiano de δ.
este coeficiente es de difícil cálculo, una norma segura
es utilizar la mitad del tamaño necesario para un estu- La tabla K del final del libro presenta el resultado
dio paralelo, que asegura una potencia estadística sufi- del cálculo en las situaciones más habituales.
ciente. De todas formas, una fórmula aproximada se
presenta en la tabla A7.2. Ejemplo A7.8. Se quiere realizar un estudio de cohor-
tes en el que existan diferentes tiempos de seguimien-
to para cada sujeto, y en el que interesa detectar un
Tabla A7.2. Fórmula para el cálculo riesgo como mínimo dos veces superior en la cohorte
del tamaño de la muestra en un expuesta en relación con la no expuesta (δ = 2), acep-
ensayo cruzado (variable tando un error α bilateral de 0,05 y β de 0,20 (poten-
cuantitativa) cia: 1 – β = 0,80). La tabla K indica que serán necesa-
rios 33 desenlaces por grupo. Este número indica el
(Zα + Zβ) 2 · sd2 número de desenlaces que deberán observarse, no
N= el de sujetos que deberán iniciar el estudio. Para cal-
d2
cular el número de personas que deberán iniciarlo, es
preciso conocer o asumir el porcentaje de personas
N: número de sujetos necesarios.
Zα: valor de Z correspondiente al riesgo α fijado (tabla 15.7).
que se espera que presenten el desenlace en la cohor-
Zβ: valor de Z correspondiente al riesgo β fijado (tabla 15.8). te no expuesta. Si se espera que el 10% de los sujetos
Sd2: variancia muestral de las diferencias individuales. de la cohorte de referencia desarrollará el desenlace,
d: valor mínimo de la diferencia que se desea detectar. deberán incluirse 33/0,10 = 330 individuos.

Ejemplo A7.7. Supongamos que se diseña un ensayo ESTUDIOS DE CASOS Y CONTROLES


cruzado para comparar dos tratamientos hipogluce- CON MÁS DE UN CONTROL POR CASO
miantes. La diferencia mínima que se desea detectar
es de 3 mg/dl. De estudios anteriores se sabe que la En los estudios de casos y controles, a veces puede ser
variancia muestral de las diferencias es 290. Se acepta interesante utilizar dos, o incluso tres, controles por
un riesgo α bilateral de 0,05 y una potencia estadísti- cada caso. Una forma sencilla para el cálculo en esta
ca del 90% (β = 0,10). Aplicando la fórmula, se obtie- situación es:
ne que son necesarios 338 pacientes. m = [(r + 1) · n] / 2r

Donde n es el número de sujetos necesario si los gru-


ESTUDIOS DE SUPERVIVENCIA
pos fueran de igual tamaño; m corresponde al número
En los estudios en que el período de seguimiento no de casos, y r al número de controles por caso, por lo que
es el mismo en todos los sujetos, ya sea porque entran r · m indica el número de controles necesarios.
en el estudio en fechas diferentes o porque se pier-
den durante el seguimiento, se utilizan técnicas de Ejemplo A7.9. En el ejemplo 15.6 se había calculado
análisis que tienen en cuenta este hecho (análisis que para realizar un estudio de casos y controles
de supervivencia). sobre la asociación entre el infarto agudo de miocar-
Para calcular el tamaño de la muestra en estas dio y el consumo de anticonceptivos orales, eran
situaciones, es necesario fijar la magnitud del efecto necesarios 74 casos y 74 controles. Si se decide utilizar
que interesa detectar, que corresponde al cociente 2 controles por caso, aplicando la fórmula se deter-
entre el riesgo de desarrollar el suceso en un momen- mina que m = 55,5, por lo que serán necesarios
to determinado del tiempo en la cohorte expuesta y 56 casos y 112 controles.

357
Anexo 8
Elección de la prueba estadística

ste anexo pretende proporcionar unas normas de respuesta es cuantitativa, ya que contiene más

E sencillas que faciliten la elección de la prueba


estadística más adecuada para el análisis de los
datos. Los métodos para su cálculo y las asunciones
información que si es cualitativa.
– La escala de medida del factor de estudio. Puede ser cuali-
tativa dicotómica (tratamiento activo/placebo, expo-
en que se basan están disponibles en múltiples textos sición/no exposición), cualitativa con más de dos
de estadística. categorías (tres pautas terapéuticas o diferentes gra-
dos de exposición a un factor de riesgo) o cuantitati-
va (valores de la colesterolemia o la presión arterial).
PRUEBAS ESTADÍSTICAS BIVARIANTES
– El carácter apareado o independiente de los datos. Des-
La elección de la prueba estadística depende de de el punto de vista estadístico, se habla de medidas
(tabla A8.1): repetidas o apareadas cuando han sido realizadas
sobre los mismos sujetos (p. ej., comparación de las
– La escala de medida de la variable de respuesta. Las prue- cifras de presión arterial obtenidas en los individuos
bas estadísticas tienen mayor potencia si la variable de una muestra al inicio y al final de un determina-
do período). Dado que los sujetos son los mismos,
existe una menor variabilidad en las mediciones, lo
Tabla A8.1. Factores de los que depende la
elección de la prueba estadística
que permite utilizar pruebas más potentes que ten-
más adecuada gan en cuenta este fenómeno. En caso de que los
grupos que se comparan estén formados por indivi-
• Escala de medida de la variable de respuesta duos diferentes, se habla de datos independientes.
– Las condiciones de aplicación específicas de cada prue-
• Escala de medida del factor de estudio
ba. Las pruebas estadísticas que utilizan datos cuan-
• Carácter apareado o independiente de los datos titativos suelen realizar determinadas asunciones
• Condiciones de aplicación específicas de cada sobre la distribución de las variables en las pobla-
prueba: ciones que están siendo comparadas. Estas pruebas
– Número de observaciones son conocidas como pruebas paramétricas. La
– Asunciones sobre la distribución poblacional mayoría son robustas, es decir, toleran relativamen-
de las variables te violaciones de estas asunciones, especialmente si
el número de sujetos estudiado es elevado. En

358
ELECCIÓN DE LA PRUEBA ESTADÍSTICA

muchas situaciones, especialmente cuando las determinar si existe asociación entre ellas es la ji al
muestras son de pequeño tamaño, no se puede cuadrado, siempre que exista un número suficiente
determinar si se cumplen dichas asunciones. En de sujetos en cada una de las casillas de la tabla de
estos casos, se recurre a otras pruebas estadísticas contingencia.
menos potentes, que no requieren asunciones para
su aplicabilidad, conocidas como pruebas no paramé- Ejemplo A8.1. Un estudio hipotético pretende com-
tricas. Este mismo tipo de pruebas es aplicable cuan- parar el porcentaje de diabéticos controlados en un
do se trata de analizar datos ordinales. grupo que ha recibido educación sanitaria grupal con
el de otro grupo que ha recibido los cuidados habi-
En la tabla A8.2 se resumen las pruebas estadísti- tuales. Se trata de datos independientes, ya que son
cas que se utilizan en las situaciones más frecuentes. grupos de sujetos diferentes. El factor de estudio
De forma esquemática, cuando tanto el factor de (educación sanitaria) es una variable dicotómica (gru-
estudio como la variable de respuesta son variables pal/habitual), al igual que la variable de respuesta
cualitativas, la prueba estadística más apropiada para (controlado/no controlado). Por lo tanto, los datos se

Tabla A8.2. Pruebas bivariantes de significación estadística utilizadas con mayor frecuencia

Variable de respuesta

Cualitativa Cualitativa
nominal nominal Cualitativa
Factor de estudio (dos categorías) (> 2 categorías) ordinal Cuantitativa*

Cualitativo (dos grupos)


Independientes Z de comparación Ji al cuadrado U de Mann-Whitney t de Student-Fisher
de proporciones
Ji al cuadrado
Prueba exacta de Fisher

Apareados Prueba de McNemar Q de Cochran Prueba de los signos t de Student-Fisher


para datos
apareados
Prueba exacta de Fisher Prueba de los rangos
signados de Wilcoxon

Cualitativo (más de dos grupos)


Independientes Ji al cuadrado Ji al cuadrado Prueba de Kruskal- Análisis
Wallis de la variancia

Apareados Q de Cochran Q de Cochran Prueba de Friedman Análisis


de la variancia
de dos vías

Cuantitativo t de Student-Fisher Análisis de la variancia Correlación Correlación


de Spearman de Pearson
Tau de Kendall Regresión lineal

* Cuando las pruebas estadísticas aplicables a las variables cuantitativas no cumplen las asunciones necesarias para su aplicación, deben
utilizarse las pruebas correspondientes como si la variable de respuesta fuera una variable ordinal (pruebas no paramétricas).

359
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

presentarán en una tabla 2 ⫻ 2 y se utilizará una ji al man. En el caso de que pueda asumirse una relación de
cuadrado (o una Z de comparación de dos propor- dependencia lineal de una de las variables respecto a la
ciones), siempre que el número de sujetos lo permita. otra, se habla de regresión lineal simple.
Si no puede utilizarse, se recurrirá a la prueba exacta
de Fisher. Ejemplo A8.4. Consideremos que se quiere evaluar si
existe asociación entre la edad de un grupo de suje-
Cuando se comparan dos grupos (factor de estu- tos y sus cifras de presión arterial sistólica (PAS).
dio dicotómico) respecto a una variable cuantitativa, Dado que ambas variables están medidas en una esca-
la prueba estadística más adecuada es la t de Student- la cuantitativa, se trata de un análisis de correlación.
Fisher. Si no se cumplen las condiciones necesarias Si se deseara determinar en cuánto se incrementa la
para su aplicación, se recurre a una prueba no PAS a medida que aumenta la edad de los sujetos, se
paramétrica equivalente, como la U de Mann- realizaría un análisis de regresión lineal, en el que la
Whitney. PAS sería la variable dependiente, y la edad, la inde-
pendiente. En cambio, no tendría sentido evaluar en
Ejemplo A8.2. Supongamos que en el ejemplo A8.1 cuánto aumenta la edad de los sujetos al incremen-
interesa comparar la glucemia de ambos grupos de tarse su PAS.
sujetos al finalizar el estudio. En este caso, la variable de
respuesta es cuantitativa (glucemia). Se trata, por tan-
TÉCNICAS ESTADÍSTICAS
to, de la comparación de dos medias en grupos inde-
MULTIVARIANTES
pendientes, y la prueba de elección es la t de Student-
Fisher, si se cumplen las condiciones de aplicación. En investigación clínica y epidemiológica, las técnicas
multivariantes se utilizan habitualmente cuando exis-
Si se comparan más de dos grupos (factor de estu- te una variable dependiente (variable de respuesta) y
dio con más de dos categorías) respecto a una varia- múltiples variables independientes (factor de estudio
ble cuantitativa, debe utilizarse el análisis de la y otras variables a controlar). Estas técnicas se em-
variancia (ANOVA). Si no se cumplen los criterios plean con finalidades de predicción (obtener una
para su aplicación, se recurre a la prueba de Kruskal- ecuación que permita, conociendo los valores de un
Wallis. conjunto de variables independientes, predecir el
valor de la variable dependiente), de descripción de la
Ejemplo A8.3. Supongamos que en el ejemplo A8.1 relación entre variables (identificar, de entre un con-
se han incluido pacientes procedentes de tres centros junto de variables independientes, cuáles están aso-
de salud, y que interesa determinar si la glucemia de ciadas con la variable dependiente), o de estimación
los sujetos difiere según el centro de procedencia. En del efecto del factor de estudio (obtener una estima-
este caso, el factor de estudio (centro de salud de pro- ción del efecto del factor de estudio sobre la variable
cedencia) tiene tres categorías, por lo que no puede de respuesta, controlando la influencia de variables
aplicarse la t de Student-Fisher. Si se cumplen las con- de confusión). La técnica elegida dependerá de las
diciones para su utilización, se aplicará un análisis de escalas de medida de las variables implicadas en el
la variancia. Si se observa una diferencia estadística- análisis (tabla A8.3).
mente significativa, se realizará un análisis posterior Una de las técnicas más utilizada es la regresión
para determinar qué grupo o grupos difieren, utili- lineal múltiple, que se aplica cuando tanto la variable
zando alguna de las técnicas de comparación múlti- dependiente como las independientes son cuantitati-
ple específicamente diseñadas para ello (p. ej., la de vas, aunque en la práctica permite que algunas de las
Scheffé o la de Neuman-Keuls). variables independientes sean cualitativas. El valor de
un coeficiente de regresión lineal múltiple es una
Si se trata de determinar la posible asociación entre estimación del efecto de la variable independiente
un factor de estudio y una variable de respuesta cuanti- correspondiente sobre la variable dependiente, ajus-
tativos, la prueba adecuada es la correlación de tado por el resto de las variables independientes de la
Pearson, o, si no se cumplen las condiciones para su ecuación. Es decir, representa el cambio esperado de
aplicación, la correlación no paramétrica de Spear- la variable dependiente cuando se incrementa en

360
ELECCIÓN DE LA PRUEBA ESTADÍSTICA

Tabla A8.3. Elección de la técnica multivariante adecuada

Técnicas inferenciales*
(pueden diferenciarse variables dependientes e independientes)

Variable Variables
dependiente independientes Técnica multivariante

Cuantitativa Cualitativas Análisis de la variancia


Cuantitativa Cuantitativas (1) Regresión lineal múltiple
Cualitativa Cualitativas Modelo log-lineal
Cualitativa Cuantitativas (1) Regresión logística (2)
Análisis discriminante (3)
Regresión de Cox (4)

Técnicas descriptivas
(todas las variables presentan el mismo estatus)

Finalidad Técnica multivariante

Reducir la dimensionalidad de la matriz Análisis factorial


de datos (identificar los factores Análisis de componentes principales
subyacentes en un conjunto de variables) Análisis de correspondencias

Clasificar a individuos o variables en grupos Análisis de clusters


homogéneos

* Sólo se presentan las principales pruebas aplicables cuando existe una sola variable dependiente.
(1) Algunas variables independientes pueden ser cualitativas.
(2) Suele utilizarse cuando la variable dependiente es dicotómica.
(3) Suele utilizarse cuando la variable dependiente tiene más de dos categorías.
(4) Se utiliza cuando la variable dependiente incluye la dimensión tiempo (análisis de supervivencia).

una unidad el valor de la variable independiente, asu- Cuando la variable dependiente es dicotómica
miendo que el resto de las variables del modelo se (enfermo/no enfermo, curado/no curado, etc.), se
mantiene constante. utiliza la regresión logística. Mientras que en la
regresión lineal los coeficientes representan directa-
Ejemplo A8.5. En un estudio se evalúa la asociación mente el cambio en la variable dependiente, en la
entre la edad, el índice de masa corporal (IMC) y la regresión logística estiman medidas relativas; por
clase social con la presión arterial sistólica (PAS). ejemplo, la odds ratio asociada al factor de estudio y
Dado que la variable dependiente (PAS) es cuantita- ajustada por el resto de variables independientes.
tiva, y que dos de las variables independientes tam- Dado que el modelo logístico no es lineal, sino expo-
bién lo son (edad e IMC), se utiliza una regresión nencial, se utilizan transformaciones logarítmicas
lineal múltiple. Al final del análisis, se obtiene un coe- que hacen que los coeficientes no puedan interpre-
ficiente de regresión de la edad de 0,5, lo cual indica tarse directamente.
que la PAS es, en promedio, 0,5 mmHg más elevada
por cada año más de edad de los sujetos, suponiendo Ejemplo A8.6. Un estudio evalúa la relación entre
constantes la clase social y el IMC; es decir, el efecto diferentes factores de riesgo y el desarrollo de car-
de la edad está ajustado por estas dos variables. diopatía coronaria en una muestra de varones adul-

361
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

tos. Dado que la variable de respuesta es dicotómica Existen técnicas multivariantes útiles cuando no
(desarrollo o no de la enfermedad), se realiza un aná- existe una variable que pueda ser considerada depen-
lisis de regresión logística con esta variable como diente, pero se utilizan poco en investigación clínica
dependiente y el conjunto de factores de riesgo co- y epidemiológica.
mo independientes. En la ecuación resultante, la
variable edad tiene un coeficiente de 0,12. Para poder B IBLIOGRAFÍA
interpretarlo, debe calcularse su antilogaritmo natu- Altman DG. Practical statistics for medical research. Lon-
ral e 0,12 = 1,13, valor que corresponde a la odds ratio dres: Chapman & Hall, 1991.
asociada al aumento de un año de edad de los sujetos, Armitage P, Berry G, Matthews JNS. Statistical methods in
medical research. 4.a ed. Oxford: Blackwell Science,
ajustada por el resto de las variables de la ecuación.
2002.
Jiménez Villa J. Conceptos de estadística. En: Martín Zurro A,
También se utiliza con frecuencia el modelo de Cano Pérez JF. Atención primaria: conceptos, organiza-
regresión de Cox, que es útil cuando la variable ción y práctica clínica. 40.a ed. Madrid: Harcourt Brace,
dependiente es el tiempo de supervivencia o el tiem- 1999; 351-377.
po transcurrido hasta la aparición de un desenlace Norman GR, Streiner DL. Bioestadística. Madrid: Harcourt
determinado. Brace de España, 1998.

362
TABLAS

TABLA A. Número de sujetos necesarios para la estimación de una proporción


(variable cualitativa).
TABLA B. Número de sujetos necesarios para la estimación de una media
(variable cuantitativa).
TABLA C. Número de sujetos necesarios en cada grupo de estudio para la comparación
de dos proporciones.
TABLA D. Número de sujetos necesarios en cada grupo de estudio para estimar un riesgo
relativo (RR).
TABLA E. Número de sujetos necesarios en cada grupo de estudio para estimar una
odds ratio (OR).
TABLA F. Número de sujetos necesarios en cada grupo de estudio para la comparación
de dos medias mediante la prueba de la t de Student-Fisher.
TABLA G. Número de sujetos necesarios en cada grupo en estudios de equivalencia.
TABLA H. Número de sujetos necesarios para la estimación de la concordancia
intraobservador.
TABLA I. Número de sujetos necesarios para la estimación de la concordancia intra
e interobservador.
TABLA J. Número de sujetos necesarios para estimar una asociación entre dos variables
cuantitativas mediante el coeficiente de correlación de Pearson.
TABLA K. Número de sujetos necesarios por grupo para detectar una determinada razón
de riesgos en estudios que utilizan análisis de supervivencia.
TABLA L. Números aleatorios.
TABLAS

Tabla A. Número de sujetos necesarios para la estimación de una proporción


(variable cualitativa)
Proporción Nivel de Precisión (i)
esperada confianza
(P) (1-α) 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10
0,01 0,95 380 – – – – – – – – –
0,99 657 – – – – – – – – –
0,02 0,95 753 188 – – – – – – – –
0,99 1.301 325 – – – – – – – –
0,03 0,95 1.118 279 124 – – – – – – –
0,99 1.931 483 215 – – – – – – –
0,04 0,95 1.475 369 164 92 – – – – – –
0,99 2.548 637 283 159 – – – – – –
0,05 0,95 1.825 456 203 114 73 – – – – –
0,99 3.152 788 350 197 126 – – – – –
0,06 0,95 2.167 542 241 135 87 60 – – – –
0,99 3.743 936 416 234 150 104 – – – –
0,07 0,95 2.501 625 278 156 100 69 51 – – –
0,99 4.320 1.080 480 270 173 120 88 – – –
0,08 0,95 2.827 707 314 177 113 79 58 44 – –
0,99 4.884 1.221 543 305 195 136 100 76 – –
0,09 0,95 3.146 787 350 197 126 87 64 49 39 –
0,99 5.435 1.359 604 340 217 151 111 85 67 –
0,10 0,95 3.457 864 384 216 138 96 71 54 43 35
0,99 5.972 1.493 664 373 239 166 122 93 74 60
0,11 0,95 3.761 940 418 235 150 104 77 59 46 38
0,99 6.496 1.624 722 406 260 180 133 102 80 65
0,12 0,95 4.057 1.014 451 254 162 113 83 63 50 41
0,99 7.007 1.752 779 438 280 195 143 109 87 70
0,13 0,95 4.345 1.086 483 272 174 121 89 68 54 43
0,99 7.505 1.876 834 469 300 208 153 117 93 75
0,14 0,95 4.625 1.156 514 289 185 128 94 72 57 46
0,99 7.989 1.997 888 499 320 222 163 125 99 80
0,15 0,95 4.898 1.225 544 306 196 136 100 77 60 49
0,99 8.461 2.115 940 529 338 235 173 132 104 85
0,16 0,95 5.163 1.291 574 323 207 143 105 81 64 52
0,99 8.918 2.230 991 557 357 248 182 139 110 89
0,17 0,95 5.420 1.355 602 339 217 151 111 85 67 54
0,99 9.363 2.341 1.135 585 375 260 191 146 116 94
0,18 0,95 5.670 1.418 630 354 227 158 116 89 70 57
0,99 9.794 2.449 1.088 612 392 272 200 153 121 98
0,19 0,95 5.912 1.478 657 370 236 164 121 92 73 59
0,99 10.212 2.553 1.135 638 408 284 208 160 126 102
0,20 0,95 6.147 1.537 683 384 246 171 125 96 76 61
0,99 10.617 2.654 1.180 664 425 295 217 166 131 106
0,25 0,95 7.203 1.801 800 450 288 200 147 113 89 72
0,99 12.442 3.111 1.382 778 498 346 254 194 154 124
0,30 0,95 8.067 2.017 896 504 323 224 165 126 100 81
0,99 13.935 3.484 1.548 871 557 837 284 218 172 139
0,35 0,95 8.740 2.185 971 546 350 243 178 137 108 87
0,99 15.096 3.774 1.677 944 604 419 308 236 186 151
0,40 0,95 9.220 2.305 1.024 576 369 256 188 144 114 92
0,99 15.926 3.981 1.770 995 637 442 325 249 197 159
0,45 0,95 9.508 2.377 1.056 594 380 264 194 149 117 95
0,99 16.424 4.106 1.825 1.026 657 456 335 257 203 164
0,50 0,95 9.604 2.401 1.067 600 384 267 196 150 119 96
0,99 16.589 4.147 1.843 1.037 664 461 339 259 205 166
• La fórmula utilizada para confeccionar esta tabla se fundamenta en la aproximación a la distribución normal y sólo es válida cuando n·p y
n·(1-p) son iguales o superiores a 5.
• La tabla presenta los valores de P hasta 0,50, ya que es lo mismo estimar una proporción esperada del 30% de individuos con una
determinada característica, que la del 70% de que no la tengan.
La fórmula para el cálculo del número de sujetos necesarios para estimar una proporción se encuentra en la tabla 15.1. El ejemplo 15.1 ilustra su uso.

365
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla B. Número de sujetos necesarios para la estimación de una media


(variable cuantitativa)
Nivel de confianza (1-α)
i/s* 0,90 0,95 0,99
0,025 4.330 6.147 10.617
0,050 1.082 1.537 2.654
0,075 481 683 1.180
0,100 271 384 664
0,125 173 246 425
0,150 120 171 295
0,175 88 125 217
0,200 68 96 166
0,225 53 76 131
0,250 43 61 106
0,275 36 51 88
0,300 30 43 74
0,325 26 36 63
0,350 22 31 54
0,375 19 27 47
0,400 17 24 41
0,425 15 21 37
0,450 13 19 33
0,475 12 17 29
0,500 11 15 27
0,525 10 14 24
0,550 9 13 22
0,575 8 12 20
0,600 8 11 18
0,625 7 10 17
0,650 6 9 16
0,675 6 8 15
0,700 6 8 14
0,725 5 7 13
0,750 5 7 12
0,775 5 6 11
0,800 4 6 10
0,825 4 6 10
0,850 4 5 9
0,875 4 5 9
0,900 3 5 8
0,925 3 4 8
0,950 3 4 7
0,975 3 4 7
1,000 3 4 7
* La fórmula para el cálculo del número de sujetos necesarios para estimar una media se encuentra en la tabla 11.1. El ejemplo 11.2 ilustra
su uso.

366
TABLAS

Tabla C. Número de sujetos necesarios en cada grupo de estudio para la comparación


de dos proporciones. P1 corresponde a la proporción menor de las dos que se comparan
α Potencia (1-β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,05 0,10 0,050 0,10 342 474 598 871
0,025 0,05 434 581 718 1.015
0,15 0,050 0,10 110 152 192 279
0,025 0,05 140 187 231 326
0,20 0,050 0,10 59 81 103 149
0,025 0,05 75 100 123 174
0,25 0,050 0,10 38 53 66 96
0,025 0,05 49 65 80 112
0,30 0,050 0,10 27 38 47 68
0,025 0,05 35 46 57 80
0,35 0,050 0,10 21 29 36 51
0,025 0,05 27 35 43 60
0,40 0,050 0,10 17 22 28 40
0,025 0,05 21 28 34 47
0,45 0,050 0,10 13 18 23 32
0,025 0,05 17 22 27 38
0,50 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
0,55 0,050 0,10 9 12 15 22
0,025 0,05 12 15 19 26
0,60 0,050 0,10 8 10 13 18
0,025 0,05 10 13 16 21
0,65 0,050 0,10 7 9 11 15
0,025 0,05 9 11 13 18
0,70 0,050 0,10 6 7 9 13
0,025 0,05 7 9 11 15
0,75 0,050 0,10 5 6 8 10
0,025 0,05 6 8 9 13
0,80 0,050 0,10 4 5 6 9
0,025 0,05 5 7 8 10
0,85 0,050 0,10 4 4 5 7
0,025 0,05 5 6 7 9
0,90 0,050 0,10 3 4 4 6
0,025 0,05 4 5 6 7
0,95 0,050 0,10 2 3 3 4
0,025 0,05 3 4 4 5
1,00 0,050 0,10 2 2 3 3
0,025 0,05 3 3 3 4

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99

0,10 0,15 0,050 0,10 539 748 944 1.375


0,025 0,05 685 918 1.134 1.602
0,20 0,050 0,10 156 217 273 397
0,025 0,05 199 266 328 463
0,25 0,050 0,10 78 108 136 198
0,025 0,05 99 133 164 231
(Continúa)

367
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,10 0,30 0,050 0,10 48 67 84 122
0,025 0,05 62 82 101 142
0,35 0,050 0,10 33 46 58 83
0,025 0,05 43 57 70 97
0,40 0,050 0,10 25 34 42 61
0,025 0,05 31 42 51 71
0,45 0,050 0,10 19 26 32 47
0,025 0,05 24 32 39 55
0,50 0,050 0,10 15 21 26 37
0,025 0,05 19 25 31 43
0,55 0,050 0,10 12 17 21 29
0,025 0,05 16 21 25 35
0,60 0,050 0,10 10 14 17 24
0,025 0,05 13 17 21 28
0,65 0,050 0,10 8 11 14 20
0,025 0,05 11 14 17 23
0,70 0,050 0,10 7 9 12 16
0,025 0,05 9 12 14 19
0,75 0,050 0,10 6 8 10 13
0,025 0,05 8 10 12 16
0,80 0,050 0,10 5 7 8 11
0,025 0,05 7 8 10 13
0,85 0,050 0,10 4 6 7 9
0,025 0,05 6 7 8 11
0,90 0,050 0,10 4 5 5 7
0,025 0,05 5 6 7 9
0,95 0,050 0,10 3 4 4 6
0,025 0,05 4 5 6 7
1,00 0,050 0,10 2 3 3 4
0,025 0,05 3 4 4 5

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99

0,15 0,20 0,050 0,10 712 988 1.247 1.817


0,025 0,05 904 1.212 1.498 2.117
0,25 0,050 0,10 197 272 344 500
0,025 0,05 250 334 413 583
0,30 0,050 0,10 95 131 165 240
0,025 0,05 120 161 198 280
0,35 0,050 0,10 57 78 99 143
0,025 0,05 72 96 119 167
0,40 0,050 0,10 38 53 66 96
0,025 0,05 49 65 80 112
0,45 0,050 0,10 28 38 48 69
0,025 0,05 35 47 58 81
0,50 0,050 0,10 21 29 36 52
0,025 0,05 27 36 44 61
(Continúa)

368
TABLAS

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,15 0,55 0,050 0,10 16 22 28 40
0,025 0,05 21 28 34 47
0,60 0,050 0,10 13 18 22 32
0,025 0,05 17 22 27 37
0,65 0,050 0,10 11 14 18 26
0,025 0,05 14 18 22 30
0,70 0,050 0,10 9 12 15 21
0,025 0,05 11 15 18 24
0,75 0,050 0,10 7 10 12 17
0,025 0,05 10 12 14 20
0,80 0,050 0,10 6 8 10 14
0,025 0,05 8 10 12 16
0,85 0,050 0,10 5 7 8 11
0,025 0,05 7 8 10 13
0,90 0,050 0,10 4 6 7 9
0,025 0,05 6 7 8 11
0,95 0,050 0,10 4 4 5 7
0,025 0,05 5 6 7 9
1,00 0,050 0,10 3 4 4 5
0,025 0,05 4 5 5 7

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,20 0,25 0,050 0,10 860 1.193 1.507 2.195
0,025 0,05 1.093 1.464 1.810 2.558
0,30 0,050 0,10 231 319 403 587
0,025 0,05 293 392 484 684
0,35 0,050 0,10 108 150 189 275
0,025 0,05 138 184 227 321
0,40 0,050 0,10 64 88 111 161
0,025 0,05 81 108 133 188
0,45 0,050 0,10 42 58 73 106
0,025 0,05 54 72 88 124
0,50 0,050 0,10 30 41 52 75
0,025 0,05 38 51 63 88
0,55 0,050 0,10 23 31 39 56
0,025 0,05 39 38 47 65
0,60 0,050 0,10 17 24 30 43
0,025 0,05 22 29 36 50
0,65 0,050 0,10 14 19 23 33
0,025 0,05 18 23 28 39
0,70 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
0,75 0,050 0,10 9 12 15 21
0,025 0,05 12 15 18 25
0,80 0,050 0,10 7 10 12 17
0,025 0,05
(Continúa)

369
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,20 0,85 0,050 0,10 10 12 15 20
0,025 0,05 6 8 10 14
0,90 0,050 0,10 8 10 12 16
0,025 0,05 5 7 8 11
0,95 0,050 0,10 7 8 10 13
0,025 0,05 4 5 6 9
1,00 0,050 0,10 5 7 8 10
0,025 0,05 3 4 5 7

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99

0,25 0,30 0,050 0,10 984 1.365 1.724 2.511


0,025 0,05 1.249 1.674 2.070 2.925
0,35 0,050 0,10 258 358 452 658
0,025 0,05 328 439 543 767
0,40 0,050 0,10 119 165 208 303
0,025 0,05 152 203 250 353
0,45 0,050 0,10 69 96 120 175
0,025 0,05 88 117 145 204
0,50 0,050 0,10 45 62 78 114
0,025 0,05 58 77 94 133
0,55 0,050 0,10 32 44 55 79
0,025 0,05 41 54 66 93
0,60 0,050 0,10 24 32 40 58
0,025 0,05 30 40 49 68
0,65 0,050 0,10 18 25 31 44
0,025 0,05 23 30 37 52
0,70 0,050 0,10 14 19 24 34
0,025 0,05 18 24 29 40
0,75 0,050 0,10 11 15 19 27
0,025 0,05 14 19 23 32
0,80 0,050 0,10 9 12 15 21
0,025 0,05 12 15 18 25
0,85 0,050 0,10 7 10 12 17
0,025 0,05 10 12 15 20
0,90 0,050 0,10 6 8 10 13
0,025 0,05 8 10 12 16
0,95 0,050 0,10 5 6 8 10
0,025 0,05 6 8 9 13
1,00 0,050 0,10 4 5 6 8
0,025 0,05 5 6 8 10
(Continúa)

370
TABLAS

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,30 0,35 0,050 0,10 1.083 1.502 1.897 2.763
0,025 0,05 1.375 1.843 2.278 3.219
0,40 0,050 0,10 280 388 490 713
0,025 0,05 356 476 588 831
0,45 0,050 0,10 128 177 223 324
0,025 0,05 162 217 268 278
0,50 0,050 0,10 73 101 127 185
0,025 0,05 93 124 153 215
0,55 0,050 0,10 47 65 82 119
0,025 0,05 60 80 99 139
0,60 0,050 0,10 33 45 57 82
0,025 0,05 42 56 68 96
0,65 0,050 0,10 24 33 41 60
0,025 0,05 31 41 50 70
0,70 0,050 0,10 18 25 31 45
0,025 0,05 23 31 38 52
0,75 0,050 0,10 14 19 24 34
0,025 0,05 18 24 29 40
0,80 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
0,85 0,050 0,10 9 12 15 21
0,025 0,05 11 15 18 24
0,90 0,050 0,10 7 9 12 16
0,025 0,05 9 12 14 19
0,95 0,050 0,10 6 7 9 13
0,025 0,05 7 9 11 15
1,00 0,050 0,10 5 6 7 10
0,025 0,05 6 7 9 12

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,35 0,40 0,050 0,10 1.157 1.604 2.027 2.952
0,025 0,05 1.469 1.969 2.434 3.439
0,45 0,050 0,10 295 409 517 752
0,025 0,05 375 502 621 877
0,50 0,050 0,10 133 184 232 338
0,025 0,05 169 226 279 394
0,55 0,050 0,10 75 104 131 191
0,025 0,05 96 128 158 222
0,60 0,050 0,10 48 66 84 121
0,025 0,05 61 81 101 142
0,65 0,050 0,10 33 46 57 83
0,025 0,05 42 56 69 97
0,70 0,050 0,10 24 33 41 60
0,025 0,05 31 41 50 70
(Continúa)

371
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,35 0,75 0,050 0,10 18 25 31 44
0,025 0,05 23 30 37 52
0,80 0,050 0,10 14 19 23 33
0,025 0,05 18 23 28 39
0,85 0,050 0,10 11 14 18 26
0,025 0,05 14 18 22 30
0,90 0,050 0,10 8 11 14 20
0,025 0,05 11 14 17 23
0,95 0,050 0,10 7 9 11 15
0,025 0,05 9 11 13 18
1,00 0,050 0,10 5 7 8 11
0,025 0,05 7 9 10 14

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99

0,40 0,45 0,050 0,10 1.206 1.673 2.113 3.078


0,025 0,05 1.532 2.053 2.538 3.586
0,50 0,050 0,10 305 422 533 776
0,025 0,05 387 518 640 904
0,55 0,050 0,10 136 188 237 345
0,025 0,05 173 231 285 402
0,60 0,050 0,10 76 105 133 192
0,025 0,05 97 129 159 225
0,65 0,050 0,10 48 66 84 121
0,025 0,05 61 82 101 142
0,70 0,050 0,10 33 45 57 82
0,025 0,05 42 56 68 96
0,75 0,050 0,10 24 32 40 58
0,025 0,05 30 40 49 68
0,80 0,050 0,10 17 24 30 43
0,025 0,05 22 29 36 50
0,85 0,050 0,10 13 18 22 32
0,025 0,05 17 22 27 37
0,90 0,050 0,10 10 14 17 24
0,025 0,05 13 17 21 28
0,95 0,050 0,10 8 10 13 18
0,025 0,05 10 13 16 21
1,00 0,050 0,10 6 8 10 14
0,025 0,05 8 10 12 16
(Continúa)

372
TABLAS

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,45 0,50 0,050 0,10 1.231 1.707 2.157 3.141
0,025 0,05 1.563 2.095 2.590 3.660
0,55 0,050 0,10 308 426 538 784
0,025 0,05 391 523 647 913
0,60 0,050 0,10 136 188 237 345
0,025 0,05 173 231 285 402
0,65 0,050 0,10 75 104 131 191
0,025 0,05 96 128 158 222
0,70 0,050 0,10 47 65 82 119
0,025 0,05 60 80 99 139
0,75 0,050 0,10 32 44 55 79
0,025 0,05 41 54 66 93
0,80 0,050 0,10 23 31 39 56
0,025 0,05 29 38 47 65
0,85 0,050 0,10 16 22 28 40
0,025 0,05 21 28 34 47
0,90 0,050 0,10 12 17 21 29
0,025 0,05 16 21 25 35
0,95 0,050 0,10 9 12 15 22
0,025 0,05 12 15 19 26
1,00 0,050 0,10 7 9 11 16
0,025 0,05 9 12 14 19

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,50 0,55 0,050 0,10 1.231 1.707 2.157 3.141
0,025 0,05 1.563 2.095 2.590 3.660
0,60 0,050 0,10 305 422 533 776
0,025 0,05 387 518 640 904
0,65 0,050 0,10 133 184 232 338
0,025 0,05 169 226 279 394
0,70 0,050 0,10 73 101 127 185
0,025 0,05 93 124 153 215
0,75 0,050 0,10 44 59 74 106
0,025 0,05 56 73 90 125
0,80 0,050 0,10 30 41 52 75
0,025 0,05 38 51 63 88
0,85 0,050 0,10 21 29 36 52
0,025 0,05 27 36 44 61
0,90 0,050 0,10 15 21 26 37
0,025 0,05 19 25 31 43
0,95 0,050 0,10 11 15 19 26
0,025 0,05 14 19 23 31
1,00 0,050 0,10 8 11 13 19
0,025 0,05 11 14 16 22
(Continúa)

373
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,55 0,60 0,050 0,10 1.206 1.673 2.113 3.078
0,025 0,05 1.532 2.053 2.538 3.586
0,65 0,050 0,10 295 409 517 752
0,025 0,05 375 502 621 877
0,70 0,050 0,10 128 177 223 324
0,025 0,05 162 217 268 378
0,75 0,050 0,10 69 96 120 175
0,025 0,05 88 117 145 204
0,80 0,050 0,10 42 58 73 106
0,025 0,05 54 72 88 124
0,85 0,050 0,10 28 38 48 69
0,025 0,05 35 47 58 81
0,90 0,050 0,10 19 26 32 47
0,025 0,05 24 32 39 55
0,95 0,050 0,10 13 18 23 32
0,025 0,05 17 22 27 38
1,00 0,050 0,10 10 13 16 22
0,025 0,05 12 16 19 26

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,60 0,65 0,050 0,10 1.157 1.604 2.027 2.952
0,025 0,05 1.469 1.969 2.434 3.439
0,70 0,050 0,10 280 388 490 713
0,025 0,05 356 476 588 831
0,75 0,050 0,10 119 165 208 303
0,025 0,05 152 203 250 353
0,80 0,050 0,10 64 88 111 161
0,025 0,05 81 108 133 188
0,85 0,050 0,10 38 53 66 96
0,025 0,05 49 65 80 112
0,90 0,050 0,10 25 34 42 61
0,025 0,05 31 42 51 71
0,95 0,050 0,10 17 22 28 40
0,025 0,05 21 28 34 47
1,00 0,050 0,10 11 15 19 27
0,025 0,05 14 19 23 32
(Continúa)

374
TABLAS

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,65 0,70 0,050 0,10 1.083 1.502 1.897 2.763
0,025 0,05 1.375 1.843 2.278 3.219
0,75 0,050 0,10 258 358 452 658
0,025 0,05 328 439 543 767
0,80 0,050 0,10 108 150 189 275
0,025 0,05 138 184 227 321
0,85 0,050 0,10 57 78 99 143
0,025 0,05 72 96 119 167
0,90 0,050 0,10 33 46 58 83
0,025 0,05 43 57 70 97
0,95 0,050 0,10 21 29 36 51
0,025 0,05 27 35 43 60
1,00 0,050 0,10 13 18 23 32
0,025 0,05 17 23 28 38

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,70 0,75 0,050 0,10 984 1.365 1.724 2.511
0,025 0,05 1.249 1.674 2.070 2.925
0,80 0,050 0,10 231 319 403 587
0,025 0,05 293 392 484 684
0,85 0,050 0,10 95 131 165 240
0,025 0,05 120 161 198 280
0,90 0,050 0,10 48 67 84 122
0,025 0,05 62 82 101 142
0,95 0,050 0,10 27 38 47 68
0,025 0,05 35 46 57 80
1,00 0,050 0,10 16 22 28 40
0,025 0,05 21 28 34 47

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,75 0,80 0,050 0,10 860 1.193 1.507 2.195
0,025 0,05 1.093 1.464 1.810 2.558
0,85 0,050 0,10 197 272 344 500
0,025 0,05 250 334 413 583
0,90 0,050 0,10 78 108 136 198
0,025 0,05 99 133 164 231
0,95 0,050 0,10 38 53 66 96
0,025 0,05 49 65 80 112
1,00 0,050 0,10 21 28 35 50
0,025 0,05 26 35 42 59
(Continúa)

375
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,80 0,85 0,050 0,10 712 988 1.247 1.817
0,025 0,05 904 1.212 1.498 2.117
0,90 0,050 0,10 156 217 273 397
0,025 0,05 199 266 328 463
0,95 0,050 0,10 59 81 103 149
0,025 0,05 75 100 123 174
1,00 0,050 0,10 27 37 46 66
0,025 0,05 34 45 55 78

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,85 0,90 0,050 0,10 539 748 944 1.375
0,025 0,05 685 918 1.134 1.602
0,95 0,050 0,10 110 152 192 279
0,025 0,05 140 187 231 326
1,00 0,050 0,10 37 51 64 93
0,025 0,05 47 63 77 108

α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,90 0,91 0,050 0,10 10.617 14.730 18.609 27.110
0,025 0,05 13.480 18.071 22.344 31.582
0,92 0,050 0,10 2.528 3.506 4.430 6.453
0,025 0,05 3.209 4.302 5.319 7.517
0,93 0,050 0,10 1.066 1.479 1.868 2.721
0,025 0,05 1.354 1.814 2.243 3.170
0,94 0,050 0,10 567 786 993 1.446
0,025 0,05 720 965 1.193 1.685
0,95 0,050 0,10 342 474 598 871
0,025 0,05 434 581 718 1.015
1,00 0,050 0,10 58 79 100 145
0,025 0,05 73 98 120 169
(Continúa)

376
TABLAS

Tabla C. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
P1 P2 unilateral bilateral 0,80 0,90 0,95 0,99
0,95 0,96 0,050 0,10 5.307 7.362 9.301 13.549
0,025 0,05 6.737 9.032 11.167 15.784
0,97 0,050 0,10 1.185 1.643 2.076 3.023
0,025 0,05 1.504 2.016 2.492 3.522
0,98 0,050 0,10 462 641 810 1.179
0,025 0,05 587 787 972 1.374
0,99 0,050 0,10 224 310 391 569
0,025 0,05 284 380 470 663
1,00 0,050 0,10 119 165 208 303
0,025 0,05 152 203 250 353
La fórmula para el cálculo del número de sujetos necesarios para comparar dos porciones se encuentra en la tabla 15.6. El ejemplo 15.4
ilustra su uso.

377
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla D. Número de sujetos necesarios en cada grupo de estudio para estimar


un riesgo relativo (RR)
α Potencia 0,80
Hipótesis Hipótesis RR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
0,01 0,050 0,10 6.107 1.827 944 605 434 334
0,025 0,05 7.752 2.319 1.199 768 551 424
0,02 0,050 0,10 3.014 899 463 296 212 162
0,025 0,05 3.826 1.141 588 376 269 206
0,03 0,050 0,10 1.983 590 303 193 137 105
0,025 0,05 2.518 749 385 245 175 133
0,04 0,050 0,10 1.468 435 223 141 100 76
0,025 0,05 1.863 552 283 179 127 97
0,05 0,050 0,10 1.159 342 175 110 78 59
0,025 0,05 1.471 435 222 140 99 75
0,06 0,050 0,10 952 280 142 90 63 48
0,025 0,05 1.209 356 181 114 80 61
0,07 0,050 0,10 805 236 120 75 53 39
0,025 0,05 1.022 300 152 95 67 50
0,08 0,050 0,10 695 203 102 64 45 33
0,025 0,05 882 258 130 81 57 42
0,09 0,050 0,10 609 177 89 55 38 29
0,025 0,05 773 225 113 70 49 36
0,10 0,050 0,10 540 157 78 48 33 25
0,025 0,05 686 199 100 62 43 32
0,15 0,050 0,10 334 95 46 28 19 13
0,025 0,05 424 121 59 35 24 17
0,20 0,050 0,10 231 64 30 17 11 7
0,025 0,05 293 81 38 22 14 10
0,25 0,050 0,10 169 45 21 11 7 4
0,025 0,05 215 58 26 14 9 5
0,30 0,050 0,10 128 33 14 7 4 –
0,025 0,05 162 42 18 9 5 –
0,35 0,050 0,10 98 24 10 4 – –
0,025 0,05 125 31 12 5 – –
0,40 0,050 0,10 76 17 6 – – –
0,025 0,05 97 22 8 – – –
0,45 0,050 0,10 59 12 3 – – –
0,025 0,05 75 16 4 – – –
0,50 0,050 0,10 45 8 – – – –
0,025 0,05 58 11 – – – –

α Potencia 0,80
Hipótesis Hipótesis RR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
0,01 0,050 0,10 8.458 2.530 1.307 838 601 462
0,025 0,05 10.377 3.104 1.604 1.028 738 567
0,02 0,050 0,10 4.175 1.245 641 409 293 224
0,025 0,05 5.122 1.527 787 502 359 275
0,03 0,050 0,10 2.747 816 419 267 190 145
0,025 0,05 3.370 1.002 514 327 233 178
0,04 0,050 0,10 2.033 602 308 195 138 105
0,025 0,05 2.494 739 378 240 170
(Continúa)

378
TABLAS

Tabla D. (cont.)
α Potencia 0,90
Hipótesis Hipótesis RR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0

0,05 0,050 0,10 1.604 474 241 152 108 129


0,025 0,05 1.969 581 296 187 132 81
0,06 0,050 0,10 1.319 388 197 124 87 100
0,025 0,05 1.618 476 242 152 107 66
0,07 0,050 0,10 1.115 327 165 103 72 81
0,025 0,05 1.368 401 203 127 89 54
0,08 0,050 0,10 962 281 141 88 61 67
0,025 0,05 1.180 345 174 108 75 46
0,09 0,050 0,10 843 245 123 76 53 56
0,025 0,05 1.034 301 151 94 65 39
0,10 0,050 0,10 748 217 108 67 46 48
0,025 0,05 918 266 133 82 57 34
0,15 0,050 0,10 462 131 64 38 25 42
0,025 0,05 567 161 78 47 31 18
0,20 0,050 0,10 319 88 41 24 15 22
0,025 0,05 392 108 51 29 19 10
0,25 0,050 0,10 234 62 28 15 9 12
0,025 0,05 287 77 35 19 11 5
0,30 0,050 0,10 177 45 19 9 5 6
0,025 0,05 217 56 24 12 6 –
0,35 0,050 0,10 136 33 13 5 – –
0,025 0,05 167 41 16 7 – –
0,40 0,050 0,10 105 24 8 – – –
0,025 0,05 129 29 10 – – –
0,45 0,050 0,10 81 17 4 – – –
0,025 0,05 100 21 5 – – –
0,50 0,050 0,10 62 11 – – – –
0,025 0,05 77 14 – – – –
P1: riesgo de desarrollar el desenlace en el grupo no expuesto. –
RR: magnitud mínima del riesgo relativo (RR) que se desea ser capaz de detectar.
La fórmula para el cálculo del número de sujetos necesarios para estimar un RR es la misma que la de comparación de dos proporciones
(tabla 15.6) en la que P2 = P1·RR. El ejemplo 15.5 ilustra su uso.

379
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla E. Número de sujetos necesarios en cada grupo de estudio para estimar


una odds ratio (OR)
α Potencia 0,80
Hipótesis Hipótesis OR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
0,01 0,050 0,10 6.275 1.889 982 633 457 353
0,025 0,05 7.965 2.398 1.247 804 580 449
0,02 0,050 0,10 3.183 962 501 324 234 182
0,025 0,05 4.041 1.221 637 411 298 231
0,03 0,050 0,10 2.153 653 341 221 160 125
0,025 0,05 2.733 829 433 281 204 158
0,04 0,050 0,10 1.639 498 261 170 123 96
0,025 0,05 2.080 633 332 216 157 122
0,05 0,050 0,10 1.331 406 214 139 101 79
0,025 0,05 1.689 516 271 177 129 100
0,06 0,050 0,10 1.125 345 182 119 87 68
0,025 0,05 1.429 438 231 151 110 86
0,07 0,050 0,10 979 301 159 104 76 60
0,025 0,05 1.243 382 202 132 97 76
0,08 0,050 0,10 870 268 142 93 68 54
0,025 0,05 1.104 341 181 119 87 68
0,09 0,050 0,10 785 243 129 85 62 49
0,025 0,05 997 308 164 108 79 63
0,10 0,050 0,10 717 223 119 78 58 45
0,025 0,05 911 283 151 100 73 58
0,15 0,050 0,10 517 163 88 59 44 35
0,025 0,05 657 207 112 75 56 44
0,20 0,050 0,10 421 135 74 50 38 30
0,025 0,05 535 172 94 64 48 38
0,25 0,050 0,10 367 120 66 45 34 28
0,025 0,05 466 152 84 58 44 36
0,30 0,050 0,10 335 111 62 43 33 27
0,025 0,05 425 141 79 55 42 34
0,35 0,050 0,10 315 106 60 42 33 27
0,025 0,05 400 135 77 54 41 34
0,40 0,050 0,10 305 104 60 42 33 27
0,025 0,05 387 132 76 54 42 35
0,45 0,050 0,10 302 105 61 43 34 28
0,025 0,05 383 133 78 55 43 36
0,50 0,050 0,10 305 107 63 45 36 30
0,025 0,05 387 136 80 58 46 38

α Potencia 0,90
Hipótesis Hipótesis OR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0
0,01 0,050 0,10 8.691 2.616 1.360 877 632 489
0,025 0,05 10.662 3.210 1.669 1.076 776 600
0,02 0,050 0,10 4.409 1.331 694 448 324 251
0,025 0,05 5.409 1.634 852 550 398 308
0,03 0,050 0,10 2.982 904 472 306 222 172
0,025 0,05 3.659 1.109 580 376 272 211
0,04 0,050 0,10 2.270 690 362 235 171 133
0,025 0,05 2.785 847 444 288 209 163
(Continúa)

380
TABLAS

Tabla E. (cont.)
α Potencia 0,90
Hipótesis Hipótesis OR
P1 unilateral bilateral 1,5 2,0 2,5 3,0 3,5 4,0

0,05 0,050 0,10 1.843 562 295 192 140 109


0,025 0,05 2.261 690 363 236 172 134
0,06 0,050 0,10 1.558 477 251 164 120 93
0,025 0,05 1.912 585 309 201 147 115
0,07 0,050 0,10 1.356 416 220 144 105 82
0,025 0,05 1.664 511 270 177 129 101
0,08 0,050 0,10 1.204 371 197 129 94 74
0,025 0,05 1.478 455 241 158 116 91
0,09 0,050 0,10 1.087 336 179 117 86 68
0,025 0,05 1.334 412 219 144 106 83
0,10 0,050 0,10 993 308 164 108 79 63
0,025 0,05 1.219 378 202 133 98 77
0,15 0,050 0,10 716 226 122 81 60 48
0,025 0,05 879 277 150 100 74 59
0,20 0,050 0,10 583 187 102 69 52 41
0,025 0,05 715 229 125 85 64 51
0,25 0,050 0,10 508 165 92 62 47 38
0,025 0,05 623 203 113 77 58 47
0,30 0,050 0,10 463 153 86 59 45 37
0,025 0,05 568 188 106 73 56 45
0,35 0,050 0,10 436 146 83 58 45 37
0,025 0,05 536 180 102 71 55 45
0,40 0,050 0,10 422 144 83 58 45 37
0,025 0,05 518 177 102 71 56 46
0,45 0,050 0,10 418 144 84 60 47 39
0,025 0,05 513 177 103 73 58 48
0,50 0,050 0,10 422 148 87 62 49 41
0,025 0,05 518 182 107 77 61 51
P1: proporción de exposición esperada entre los controles.
OR:magnitud mínima de la odds ratio (OR) que se desea ser capaz de detectar.
La fórmula para el cálculo del número de sujetos necesarios para estimar una OR es la misma que la de comparación de dos proporciones
(tabla 15.6) en la que:

P2 = (P1·OR) / [1 + P1·(OR – 1)].

El ejemplo 15.6 ilustra su uso.

381
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla F. Número de sujetos necesarios en cada grupo de estudio para la comparación


de dos medias mediante la prueba de la t de Student-Fisher
α Potencia (1-β)
Hipótesis Hipótesis
d/s* unilateral bilateral 0,80 0,90 0,95 0,99
0,025 0,050 0,10 19.761 27.415 34.637 50.460
0,025 0,05 25.088 33.634 41.587 58.783
0,050 0,050 0,10 4.940 6.854 8.659 12.615
0,025 0,05 6.272 8.408 10.397 14.696
0,075 0,050 0,10 2.196 3.046 3.849 5.607
0,025 0,05 2.788 3.737 4.621 6.531
0,100 0,050 0,10 1.235 1.713 2.165 3.154
0,025 0,05 1.568 2.102 2.599 3.674
0,125 0,050 0,10 790 1.097 1.385 2.018
0,025 0,05 1.004 1.345 1.663 2.351
0,150 0,050 0,10 549 762 962 1.402
0,025 0,05 697 934 1.155 1.633
0,175 0,050 0,10 403 559 707 1.030
0,025 0,05 512 686 849 1.200
0,200 0,050 0,10 309 428 541 788
0,025 0,05 392 526 650 918
0,225 0,050 0,10 244 338 428 623
0,025 0,05 310 415 513 726
0,250 0,050 0,10 198 274 346 505
0,025 0,05 251 336 416 588
0,275 0,050 0,10 163 227 286 417
0,025 0,05 207 278 344 486
0,300 0,050 0,10 137 190 241 250
0,025 0,05 174 234 289 408
0,325 0,050 0,10 117 162 205 299
0,025 0,05 148 199 246 248
0,350 0,050 0,10 101 140 177 257
0,025 0,05 128 172 212 300
0,375 0,050 0,10 88 122 154 224
0,025 0,05 112 149 185 261
0,400 0,050 0,10 77 107 135 197
0,025 0,05 98 131 162 230
0,425 0,050 0,10 68 95 120 175
0,025 0,05 87 116 144 203
0,450 0,050 0,10 61 85 107 156
0,025 0,05 77 104 128 181
0,475 0,050 0,10 55 76 96 140
0,025 0,05 69 93 115 163
0,500 0,050 0,10 49 69 87 126
0,025 0,05 63 84 104 147
0,525 0,050 0,10 45 62 79 114
0,025 0,05 57 76 94 133
0,550 0,050 0,10 41 57 72 104
0,025 0,05 52 69 86 121
0,575 0,050 0,10 37 52 65 95
0,025 0,05 47 64 79 111
0,600 0,050 0,10 34 48 60 88
0,025 0,05 44 58 72 102
0,625 0,050 0,10 32 44 55 81
0,025 0,05 40 54 67 94
0,650 0,050 0,10 29 41 51 75
0,025 0,05
(Continúa)

382
TABLAS

Tabla F. (cont.)
α Potencia (1–β)
Hipótesis Hipótesis
d / s* unilateral bilateral 0,80 0,90 0,95 0,99
0,675 0,050 0,100 37 50 62 87
0,025 0,050 27 38 48 69
0,700 0,050 0,100 34 46 57 81
0,025 0,050 25 35 44 64
0,725 0,050 0,100 32 43 53 75
0,025 0,050 23 33 41 60
0,750 0,050 0,100 30 40 49 70
0,025 0,050 22 30 38 56
0,775 0,050 0,100 28 37 46 65
0,025 0,050 21 29 36 53
0,800 0,050 0,100 26 35 43 61
0,025 0,050 19 27 34 49
0,825 0,050 0,100 25 33 41 57
0,025 0,050 18 25 32 46
0,850 0,050 0,100 23 31 38 54
0,025 0,050 17 24 30 44
0,875 0,050 0,100 22 29 36 51
0,025 0,050 16 22 28 41
0,900 0,050 0,100 20 27 34 48
0,025 0,050 15 21 27 39
0,925 0,050 0,100 19 26 32 45
0,025 0,050 14 20 25 37
0,950 0,050 0,100 18 25 30 43
0,025 0,050 14 19 24 35
0,975 0,050 0,100 17 23 29 41
0,025 0,050 13 18 23 33
1,000 0,050 0,100 16 22 27 39
0,025 0,050 12 17 22 32
1,025 0,050 0,100 16 21 26 37
0,025 0,050 12 16 21 30
1,050 0,050 0,100 15 20 25 35
0,025 0,050 11 16 20 29
1,075 0,050 0,100 14 19 24 33
0,025 0,050 11 15 19 27
1,100 0,050 0,100 14 18 22 32
0,025 0,050 10 14 18 26
* d / s es una medida estandarizada de la diferencia mínima que se desea detectar. Se calcula dividiendo la magnitud de la diferencia (d) por
la desviación estándar de la variable en el grupo de referencia (s).
La fórmula para el cálculo del número de sujetos necesarios para comparar dos medias se encuentra en la tabla 15.6. El ejemplo 15.7 ilustra
su uso.

383
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla G. Número de sujetos necesarios en cada grupo en estudios de equivalencia


α Potencia = 0,80 Potencia = 0,90
Hipótesis Hipótesis d d
P unilateral bilateral 0,05 0,10 0,15 0,05 0,10 0,15

0,05 0,050 0,10 235 59 26 326 81 36


0,025 0,05 298 75 33 399 100 44
0,10 0,050 0,10 445 111 49 617 154 69
0,025 0,05 565 141 63 757 189 84
0,15 0,050 0,10 631 158 70 874 218 97
0,025 0,05 801 200 89 1.072 268 119
0,20 0,050 0,10 792 198 88 1.097 274 122
0,025 0,05 1.005 251 112 1.345 336 149
0,25 0,050 0,10 928 232 103 1.285 321 143
0,025 0,05 1.178 294 131 1.577 394 175
0,30 0,050 0,10 1.039 260 115 1.439 360 160
0,025 0,05 1.319 330 147 1.766 441 196
0,35 0,050 0,10 1.126 281 125 1.559 390 173
0,025 0,05 1.429 357 159 1.913 478 213
0,40 0,050 0,10 1.188 297 132 1.645 411 183
0,025 0,05 1.507 377 167 2.018 505 224
0,45 0,050 0,10 1.225 306 136 1.696 424 188
0,025 0,05 1.555 389 173 2.081 520 231
0,50 0,050 0,10 1.237 309 137 1.713 428 190
0,025 0,05 1.570 393 174 2.102 526 234
0,55 0,050 0,10 1.225 306 136 1.696 424 188
0,025 0,05 1.555 389 173 2.081 520 231
0,60 0,050 0,10 1.188 297 132 1.645 411 183
0,025 0,05 1.507 377 167 2.018 505 224
0,65 0,050 0,10 1.126 281 125 1.559 390 173
0,025 0,05 1.429 357 159 1.913 478 213
0,70 0,050 0,10 1.039 260 115 1.439 360 160
0,025 0,05 1.319 330 147 1.766 441 196
0,75 0,050 0,10 928 232 103 1.285 321 143
0,025 0,05 1.178 294 131 1.577 394 175
0,80 0,050 0,10 792 198 88 1.097 274 122
0,025 0,05 1.005 251 112 1.345 336 149
0,85 0,050 0,10 631 158 70 874 218 97
0,025 0,05 801 200 89 1.072 268 119
0,90 0,050 0,10 445 111 49 617 154 69
0,025 0,05 565 141 63 757 189 84
0,95 0,050 0,10 235 59 26 326 81 36
0,025 0,05 298 75 33 399 100 44
P: porcentaje esperado en el grupo de referencia.
d: mínima diferencia entre los grupos a partir de la cual se considerará que existen diferencias clínicamente relevantes.
La fórmula para el cálculo del número de sujetos necesarios en un estudio de equivalencia se encuentra en la tabla 15.9.
El ejemplo 15.8 ilustra su uso.

384
TABLAS

Tabla H. Número de sujetos necesarios para la estimación


de la concordancia intraobservador
Amplitud del intervalo de confianza del 95% (2i)
e 0,025 0,050 0,075 0,100 0,125 0,150

0,025 316 79 – – – –
0,050 653 164 73 41 – –
0,075 1.017 255 113 64 41 29
0,100 1.418 355 158 89 57 40
0,125 1.868 467 208 117 75 52
0,150 2.384 596 265 149 95 67
e: porcentaje de error o discordancia entre ambas mediciones que se espera encontrar. El ejemplo A7.3 ilustra su uso.

Tabla I. Número de sujetos necesarios para la estimación de la concordancia intra e interobservador


Amplitud del intervalo de confianza del 95% (2i)
p (dis) e 0,050 0,100 0,150 0,200 0,250
0,05 0,05 416 104 – – –
0,10 775 194 – – –
0,15 1.686 422 – – –
0,10 0,05 731 183 81 46 –
0,10 1.142 285 127 71 –
0,15 2.078 519 231 130 –
0,15 0,05 1.009 252 112 63 40
0,10 1.465 366 163 92 59
0,15 2.423 606 269 151 97
0,20 0,05 1.250 313 139 78 50
0,10 1.746 436 194 79 70
0,15 2.723 681 303 170 109
0,25 0,05 1.455 364 162 91 58
0,10 1.983 496 220 124 79
0,15 2.976 744 331 186 119
0,30 0,05 1.621 405 180 101 65
0,10 2.177 544 242 136 87
0,15 3.184 796 354 199 127
p (dis): porcentaje de discordancia esperado entre ambos observadores.
e: porcentaje de discordancia esperado dentro de cada observador (se asume que la probabilidad de error intraobservador es la misma
para ambos observadores). El ejemplo A7.4 ilustra su uso.

385
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla J. Número de sujetos necesarios para estimar una asociación entre dos variables cuantitativas
mediante el coeficiente de correlación de Pearson
α Potencia (1-β)
Hipótesis Hipótesis
r* unilateral bilateral 0,80 0,90 0,95 0,99
0,05 0,050 0,10 2.473 3.424 4.325 6.300
0,025 0,05 3.138 4.200 5.193 7.339
0,10 0,050 0,10 617 854 1.078 1.569
0,025 0,05 783 1.047 1.294 1.828
0,15 0,050 0,10 274 378 477 693
0,025 0,05 347 463 572 807
0,20 0,050 0,10 153 211 266 387
0,025 0,05 194 259 319 450
0,25 0,050 0,10 98 134 169 245
0,025 0,05 123 164 202 285
0,30 0,050 0,10 68 92 116 168
0,025 0,05 85 113 139 195
0,35 0,050 0,10 49 67 84 121
0,025 0,05 62 82 100 141
0,40 0,050 0,10 37 51 63 91
0,025 0,05 47 62 75 105
0,45 0,050 0,10 29 39 49 70
0,025 0,05 36 48 58 81
0,50 0,050 0,10 23 31 39 55
0,025 0,05 29 38 46 64
0,55 0,050 0,10 19 25 31 44
0,025 0,05 24 30 37 51
0,60 0,050 0,10 16 21 26 36
0,025 0,05 19 25 30 41
0,65 0,050 0,10 13 17 21 29
0,025 0,05 16 20 25 34
0,70 0,050 0,10 11 14 17 24
0,025 0,05 13 17 20 27
0,75 0,050 0,10 10 12 14 20
0,025 0,05 11 14 17 22
0,80 0,050 0,10 8 10 12 16
0,025 0,05 10 12 14 18
0,85 0,050 0,10 7 8 10 13
0,025 0,05 8 10 11 15
0,90 0,050 0,10 6 7 8 10
0,025 0,05 7 8 9 11
0,95 0,050 0,10 5 6 6 8
0,025 0,05 5 6 7 8
*Valor estimado del coeficiente de correlación de Pearson que se desea detectar.
La fórmula para calcular el número de sujetos necesarios para estimar el coeficiente de correlación entre dos variables cuantitativas se
encuentra en la tabla A7.1 El ejemplo A7.6 ilustra su uso.

386
TABLAS

Tabla K. Número de sujetos necesarios por grupo para detectar una determinada razón de riesgos en
estudios que utilizan análisis de supervivencia
α = 0,05 (bilateral) α = 0,01 (bilateral)
Potencia (1-β) Potencia (1-β)
0,80 0,90 0,95 0,80 0,90 0,95

1,2 472 632 782 704 897 1.075


1,4 139 186 230 207 264 316
1,6 71 96 118 106 135 162
1,8 46 61 76 68 87 104
2,0 33 44 55 49 63 75
2,2 26 34 42 38 48 58
2,4 21 28 34 31 39 47
2,6 18 23 29 26 33 40
2,8 15 20 25 23 29 34
3,0 13 18 22 20 25 30
3,2 12 16 20 18 23 27
3,4 11 15 18 16 20 24
3,6 10 13 16 15 19 22
3,8 9 12 15 14 17 21
4,0 9 11 14 13 16 19
4,2 8 11 13 12 15 18
4,4 8 10 12 11 14 17
4,6 7 10 12 11 13 16
4,8 7 9 11 10 13 15
5,0 7 9 11 10 12 14
: cociente entre los riesgos de desarrollar el desenlace entre los grupos que se desea detectar. El ejemplo A7.8 ilustra su uso.

387
MÉTODOS DE INVESTIGACIÓN CLÍNICA Y EPIDEMIOLÓGICA

Tabla L. Números aleatorios

68 68 80 54 00 16 01 92 58 21 65 12 64 64 70 07 28 66 61 59 48 79 74 73 72 08 64 80 91 38
92 36 48 69 45 89 84 05 34 47 09 12 81 93 63 46 13 95 65 96 88 09 31 54 88 97 96 86 01 69
97 50 71 39 79 51 99 98 44 39 99 35 72 61 22 42 36 31 16 59 12 75 10 60 36 80 66 39 94 97
57 93 08 35 69 08 12 60 39 23 89 96 34 22 37 96 18 69 06 30 61 73 84 89 18 26 02 04 37 95
44 71 38 40 37 69 99 47 26 52 89 85 33 22 80 66 10 71 44 05 48 06 30 00 18 03 30 28 55 59
70 72 51 49 73 88 91 28 79 50 81 83 33 98 29 88 77 90 45 59 71 42 14 96 55 98 59 96 01 36
56 42 78 54 06 59 45 27 08 51 68 82 34 08 83 67 98 36 65 56 85 64 23 85 41 64 72 08 59 44
80 61 68 44 19 84 27 17 30 37 62 42 07 12 63 95 39 06 35 63 48 69 49 02 58 98 02 50 58 11
37 79 95 02 66 65 45 53 41 07 61 02 73 36 85 90 54 33 65 84 14 83 46 74 11 76 66 63 60 08
35 36 82 82 59 48 28 01 83 84 61 38 93 73 68 22 30 95 69 72 09 11 21 91 73 97 28 44 74 06
43 40 13 35 45 93 18 31 83 45 80 58 35 06 88 47 19 63 92 75 54 52 62 29 91 53 58 54 66 05
78 36 26 24 06 18 26 32 96 83 74 93 55 39 26 73 87 96 76 23 50 58 45 27 57 14 96 39 64 85
98 84 48 42 92 45 62 63 40 88 60 42 17 18 48 69 63 21 83 41 35 69 34 10 94 32 22 52 04 74
84 65 43 07 30 26 22 59 28 27 59 62 37 95 42 33 56 90 92 57 38 58 22 14 79 24 32 12 38 42
23 79 80 71 37 33 26 74 03 30 49 54 36 85 14 58 61 52 27 03 74 22 19 13 48 30 28 01 92 49
17 79 96 52 35 05 53 15 26 70 37 03 08 98 64 78 35 22 22 88 04 69 22 64 07 04 73 25 74 82
33 48 32 91 54 98 61 70 48 22 53 26 79 20 38 58 70 61 43 97 68 50 64 55 75 42 70 32 09 60
82 17 18 17 14 85 13 41 38 10 95 28 12 73 23 34 78 77 60 25 16 47 61 43 77 83 27 19 70 41
91 95 43 81 14 04 41 66 09 76 84 31 64 64 08 47 42 80 61 03 20 50 73 40 95 24 77 95 73 20
83 59 89 65 06 03 10 16 82 24 21 46 51 44 77 33 11 49 15 16 39 58 20 12 39 82 77 02 18 88
22 32 61 43 75 54 08 18 07 04 12 53 67 51 54 97 30 53 62 38 92 17 63 36 75 33 14 11 11 78
49 48 55 11 39 68 50 33 31 47 16 28 25 82 98 86 62 93 66 71 15 64 88 75 27 04 51 41 61 96
39 07 30 60 77 39 90 89 86 77 64 21 91 15 82 54 80 67 78 66 46 86 86 88 86 50 09 13 24 91
52 49 41 73 46 56 50 45 94 25 12 77 40 70 14 68 47 37 10 84 48 28 48 30 51 60 73 73 03 87
47 10 62 31 28 59 77 64 59 90 44 37 33 53 17 13 26 98 86 29 58 92 62 50 18 93 09 45 89 06
91 67 48 57 10 52 62 24 19 94 25 47 57 91 13 13 50 63 04 23 62 74 29 92 24 64 94 63 15 07
49 92 05 12 07 55 98 78 10 70 47 46 41 90 08 78 66 28 55 80 44 31 52 43 07 19 83 94 62 94
67 95 07 76 30 44 67 32 23 13 12 72 72 27 77 51 57 32 22 27 28 30 62 58 83 13 08 60 46 28
54 50 06 44 75 46 44 33 63 71 56 59 75 36 75 66 86 65 64 60 35 14 82 56 80 59 78 98 76 14
56 23 27 19 03 30 80 05 19 29 65 00 51 93 51 19 83 52 47 53 18 88 26 95 54 48 00 26 43 85
11 28 94 15 52 89 99 93 39 79 34 87 96 23 95 51 78 57 26 17 94 61 47 03 10 88 84 59 69 14
77 55 33 62 02 62 03 55 86 57 70 39 83 66 56 79 68 96 26 60 13 13 38 69 96 43 83 10 13 24
35 96 29 00 45 17 27 27 51 26 48 21 47 74 63 73 52 93 70 50 91 59 11 38 44 05 30 08 46 32
02 84 48 51 97 19 79 95 07 21 09 04 03 35 78 63 99 25 69 02 22 95 30 19 29 20 25 36 70 69
49 90 21 69 74 93 74 21 86 33 71 30 32 06 47 86 28 30 02 35 20 39 84 95 61 99 78 78 83 82
75 27 28 52 13 17 18 16 90 46 56 33 24 87 36 97 96 47 59 97 87 73 19 38 47 83 43 32 26 26
92 42 85 04 31 42 37 13 81 83 97 50 81 79 59 93 41 69 96 07 69 33 17 03 02 42 69 60 17 42
34 59 43 36 96 35 63 02 31 61 40 33 04 46 24 40 24 74 36 42 56 39 59 89 63 78 22 87 10 88
71 63 94 94 33 26 41 77 63 37 18 78 80 36 85 06 06 16 25 98 64 13 09 37 11 31 66 60 65 64
61 63 00 25 92 98 10 39 33 15 39 46 67 21 17 97 81 26 03 89 98 78 80 63 23 20 96 06 79 80
32 15 99 67 43 56 16 88 87 60 90 14 79 61 55 65 99 59 97 84 18 62 85 28 24 39 65 01 73 91
68 49 20 43 29 31 85 33 69 07 60 22 66 72 17 16 91 21 32 41 85 66 48 38 73 48 78 58 08 88
50 93 19 35 56 78 12 03 09 70 35 26 99 18 25 62 03 89 26 32 43 61 00 66 42 33 86 76 71 66
92 20 32 39 67 98 81 99 37 29 37 11 05 75 16 92 27 73 40 38 68 52 16 83 34 48 32 72 26 95
21 68 40 95 79 95 66 39 01 09 00 84 14 36 37 45 51 94 69 04 97 00 12 91 33 83 97 68 95 65
13 81 20 67 58 03 35 63 05 77 12 08 05 75 26 00 81 06 28 48 01 52 48 69 57 02 41 03 89 33
25 76 01 54 03 72 93 78 04 36 60 60 29 99 93 05 06 42 24 07 96 88 22 46 94 60 73 04 84 98
83 79 68 20 66 70 81 10 94 91 60 09 71 87 89 12 68 46 55 89 91 51 63 27 95 88 29 04 79 84
61 58 87 08 05 85 79 76 48 23 67 85 72 37 41 07 79 26 69 61 98 55 83 46 09 41 49 36 83 43
48 84 60 37 65 32 25 34 03 36 62 95 80 97 63 52 16 16 23 56 01 98 00 89 85 10 10 71 19 45

388
Índice alfabético

A B
Análisis asignación aleatoria (véase también Beneficencia, 19
Análisis por intención de tratar), 226 Búsqueda bibliográfica, 117
– casos válidos (véase también Análisis – – utilidades, 117
por protocolo), 226
– estratificado, 280, 286 C
– multivariante, 259, 280, 287, 360 Causalidad, calidad evidencia, 292
– por intención de tratar, 45, 225, 226 – criterios, 293
– – protocolo, 44, 54 – tipos estudio, 290
– subgrupos, 210, 215 Cochrane Library, 120
Artículo original, 312 Cociente probabilidad (véase también Razón
– – agradecimientos, 320 probabilidad), 337
– – autores, 319 Código Nuremberg, 17
– – bibliografía, 318 Coeficiente correlación intraclase, 344
– – discusión, 317 Comité Ético Investigación Clínica, 22, 241
– – figuras, 316 Comparación proporciones, 147
– – introducción, 312 – – comparación dos medias, 148
– – material métodos, 313 – – – grupos variable respuesta ordinal, 149
– – resultados, 314 – – corrección por no respuestas, pérdidas,
– – resumen, 319 abandonos, 150
– – tablas, 316 – – equivalencia dos intervenciones, 149
– – título, 319 – – estimación odds ratio, 148
Asignación aleatoria, 40, 159, 161, 280 – – – riesgo relativo, 148
– – estratificada, 165 – – estrategias minimizar número sujetos, 150
– – por bloques, 164 Concordancia, 341
– – simple, 163 – entre métodos, 98
– – técnicas adaptativas, 166 – interobservador, 97, 171
– por grupos, 55, 166 – intraobservador, 97, 171
– sistemática, 163 Conflictos intereses, 22
Autonomía, 19 – – investigación clínica, 22
Autor, 25, 309 Consentimiento informado, 19, 39

389
ÍNDICE ALFABÉTICO

Consistencia, 294 Ensayo clínico aleatorio, desventajas, 35


CONSORT, 34, 44, 45 – – – estrategia análisis, 44
Contaminación, 55, 166 – – – estructura básica, 34
Contraste hipótesis, 252 – – – exclusión preasignación, 219, 220
– – pruebas bilaterales, 253 – – – explicativo, 46
– – – unilaterales, 253 – – – finalización anticipada, 45
Control calidad datos, 234 – – – pérdidas, 219, 220, 222
Cuaderno recogida datos, 229 – – – pragmático, 46
Cuestionario, 180, 184 – – – retiradas, 220, 222
– adaptación transcultural, 202 – – – seguimiento, 43
– administrado encuestador, 185 – – – selección población, 38
– autocumplimentado, 184 – – – ventajas, 35
– entrevistas personales, 185 – – cruzado, 58
– escala Guttman, 192 – – – desventajas, 61
– – Likert, 191 – – – efecto período, 60
– – visual analógica, 192 – – – – residual, 60
– orden preguntas, 192 – – – – secuencia, 60
– preguntas abiertas, 187 – – – ventajas, 61
– – cerradas, 186 – – factorial, 57
– redacción preguntas, 188 – – secuencial, 56
– telefónico, 186 Ensayos comunitarios, 62
– tipos preguntas, 186 – controlados no aleatorios, 63
Curvas ROC, 95, 338 – no controlados, 63
Entrevistas, 180
D Error α, 143
Datos secundarios, 181 – aleatorio, 8
Declaración Helsinki, 17 – β, 143, 254
Diferencia incidencias, 68, 299 – diferencial, 174, 275
– riesgos (véase también Diferencia – no diferencial, 173, 274
incidencias), 212 – sistemático (véase también Sesgo), 9, 171
Diseño, 29 – tipo I (véase también Error α), 143, 254
– clasificación, 29, 31 – – II (véase también Error β), 143, 254
Diseños híbridos, 86 Escalas medida, 177
– – características, 180
E Especificidad, 172, 326
Efecto Hawthorne, 11 Estadística, 245
– placebo, 11 – comparaciones múltiples, 258
EMBASE, 119 – descriptiva, 249
Emparejamiento, 82, 280 – elección prueba, 358
– desventajas, 82 – inferencial, 249
– ventajas, 82 – pruebas no paramétricas, 359
Enmascaramiento, 41 Estrategia análisis, 354
– ciego, 41 – búsqueda, 123
– limitaciones, 42 – – valoración resultados, 124
– tipos, 41 Estudio analítico, 29
– ventajas, 41 – – estrategia análisis, 210
Ensayo clínico aleatorio, 33 – asociación cruzada, 90
– – – apartado protocolo, 241 – cohortes, 66
– – – criterios selección, 223 – – cohorte dinámica, 70
– – – cumplimiento, 224 – – – fija, 70

390
ÍNDICE ALFABÉTICO

Estudio cohortes, estrategias reducción pérdidas, 72 Estudios, prevalencia, no respuestas, 93


– – estudios retrospectivos, 74 – – retiradas, 222
– – identificación, 68 – – ventajas, 92
– – limitaciones, 72 – transversales, 205
– – medición desenlace, 71 Ética, 16
– – – exposición, 71 Evaluación, 172
– – pérdidas seguimiento, 138 Evolución natural, 12
– – seguimiento, 72
– – tipos, 66 F
– – ventajas, 72 Factores confusión, 13, 213, 247, 265, 278
– descriptivo, 29 – – ajuste, 265, 279
– – estrategia análisis, 208 – – características, 14
– experimental, 30 – – problemas ajuste, 283
– longitudinal, 29 – – sobreajuste, 265
– observacional, 30 – – técnicas control, 279
– prevalencia, no respuestas, 138, 217 Fiabilidad, 168, 197
– prospectivo, 30 – consistencia interna, 198
– retrospectivo, 30 – evaluación, 170
– transversal, 29 – interobservador, 197
Estudios analíticos, 8 Financiación, 237
– antes-después, 63 – elementos solicitud ayuda proyecto, 238
– bioequivalencia, 53 – evaluación solicitudes ayudas, 239
– casos controles, 76, 161 Formación del personal, 231
– – – anidados cohorte, 87 Fracción atribuible, 68
– – – definición caso, 77
G
– – – identificación casos, 77
Gradiente biológico, 294
– – – limitaciones, 86
Grupo control, 10
– – – medidas preventivas, 85
– – contemporáneo, 159
– – – número controles por caso, 80
– – controles históricos, 159
– – – – grupos control, 80
– – función, 11
– – – procedencia controles, 79
– – – selección casos, 77 H
– – – – controles, 78 Hipótesis alternativa, 252
– – – ventajas, 86 – nula, 252
– cohortes, 160
– concordancia, 97 I
– descriptivos, 8 Incidencia, 68, 325
– ecológicos, 98 – acumulada, 325
– equivalencia, 53 – densidad, 325
– – equivalencia dos intervenciones, 149 – elección medida, 326
– evaluación prueba diagnóstica, 94 Índice Kappa, 341
– – – – selección criterio referencia, 95 Inferencia causal (véase también Causalidad,
– – – – – sujetos, 94 criterios), 289
– experimentales, 33, 49 Informe Belmont, 18
– – desarrollo clínico medicamentos, 49 Intervalo confianza, 54, 209, 215, 245, 250, 255
– – eficacia medidas preventivas, 51 Investigación, 4
– – – prueba diagnóstica, 53 – definición, 4
– no-inferioridad, 54 – finalidades, 6
– prevalencia, 90 – orientación, 7
– – desventajas, 92 – proceso, 6

391
ÍNDICE ALFABÉTICO

M Potencia, 254
Manual procedimientos, 228 – cálculo, 266
MEDLINE, 118 – estadística, 146, 262
MeSH, 122 Prevalencia, 209, 324
Metaanálisis (véase también Revisión Principio comparabilidad, 133, 159
sistemática), 347 – incertidumbre, 34
Método científico, 3 – representatividad, 133
– – ciclo, 4 Principios éticos, 18
Métodos secuenciales, 56 – – justicia, 18
Modificación efecto, 286 – – publicación científica, 23
Muestra, 132 – – requisitos investigación, 20
Muestreo, 151 Proporción, 323
– aleatorio estratificado, 153 Protocolo, 113
– – simple, 153 – esquema general, 114
– marco, 152 Prueba piloto, 194, 235
– múltiples etapas, 155 Pruebas contraste hipótesis, 143
– no probabilístico, 156 – – – bilaterales, 144
– por cuotas, 157 – – – unilaterales, 144
– probabilístico, 152 Publicación científica, 23
– sistemático, 155 – – conflicto intereses, 24
– técnicas, 152 – – ética, 23
– – adaptativas, 157 – – revisión manuscritos, 24
– unidades, análisis, 152 – redundante, 25
– variaciones, 250
– ventajas, 151 R
Razón, 324
N – probabilidad, 337
No maleficencia, 19 Reducción absoluta riesgo (véase también
– respuestas, 210 Diferencia incidencias), 301
Número casos necesidad tratamiento, 301 – relativa riesgo, 301
Registro por propio paciente, 180
O Regresión media, 12
Objetivo, 125 Repetibilidad, 170, 197
– específico, 127, 352 Restricción, 280
– – formulación objetivo, 128 Revisión sistemática, 101, 347
Odds ratio, 211, 293, 299, 331 – – análisis grupos, 350
– – intervalo confianza, 331 – – – heterogeneidad, 347
Outlier, 225, 351 – – – sensibilidad, 350
– – criterios selección, 102
P – – definición objetivo, 101
Pérdidas seguimiento, 210, 273 – – efectos aleatorios, 348
Período preinclusión, 40 – – – fijos, 348
Pertinencia, 126 – – estrategia análisis, 104
Placebo, 35 – – estudios observacionales, 108
Plausabilidad biológica, 293 – – fase, 101
Población diana, 132 – – identificación estudios disponibles, 101
– estudio, 132, 264, 302 – – metaanálisis acumulativos, 349
– – criterios selección, 135 – – metarregresión, 350
Poder estadística (véase también Potencia – – pacientes individuales, 107
estadística), 146, 254 – – presentación gráfica resultados, 349

392
ÍNDICE ALFABÉTICO

Revisión sistemática, valoración crítica estudios, 103 Sumsearch, 121


Riesgo atribuible poblacional, 300 Supervivencia selectiva, 272
– basal, 304
– relativo, 68, 211, 293, 299, 329 T
Tamaño muestra, 140, 264, 355
S – – coeficiente correlación, 356
SCISEARCH, 120 – – corrección poblaciones finitas, 142
Secuencia temporal, 83 – – ensayos cruzados, 356
Seguimiento cohorte, 93 – – estimación media, 142
Sensibilidad, 172, 336 – – – proporción, 141
– cambio, 199 – – estudios casos controles, 357
Series casos, 93 – – – comparación dos grupos, 143
Sesgo, 9, 247, 270, 353 – – – supervivencia, 357
– adelanto diagnóstico, 52 – – evaluación concordancia, 355
– bases datos, 106 – – – pruebas diagnósticas, 355
– citación, 106 – – intervalo confianza, 140
– confirmación, 96 Tasa, 324
– criterio referencia imperfecto, 96 Técnicas enmascaramiento (ciego), 175
– datos ausentes, 107 Tripdatabase, 121
– definición criterios inclusión, 107
– detección, 81, 273 V
– duración enfermedad, 52 Validez, 168, 171, 199
– entrevistador, 84 – constructo, 172, 201
– idioma inglés, 106 – contenido, 172, 200
– incorporación, 96 – convergente, 172
– información, 10, 274 – criterio, 172, 200
– memoria, 84 – externa, 15
– Neyman (véase también Sesgo supervivencia – interna, 15
selectiva), 81 – lógica, 199
– participación, 52 Valor predictivo negativo, 336
– publicación, 105, 350 – – positivo, 336
– – funnel plot, 350 Variabilidad aleatoria, 168
– – múltiple, 107 Variables, 176
– selección, 9, 270 – definición, 177
– supervivencia selectiva, 81 – respuesta, 37, 129, 212, 264, 297
– verificación, 96 – subrogadas, 37
Significación estadística, 255 Viabilidad, 126, 196

393

También podría gustarte