Nothing Special   »   [go: up one dir, main page]

Statgrafhic Centurion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 332

®

STATGRAPHICS Centurion 18

Manual de Usuario
STATGRAPHICS ® CENTURION 18
MANUAL DE USUARIO

 2017 Statgraphics Technologies, Inc.


www.STATGRAPHICS.com

Todos los derechos reservados. Ninguna parte de este documento puede ser reproducida, de
ninguna forma y por ningún medio, sin el consentimiento expreso y por escrito de Statgraphics
Technologies, Inc.

Referencia a: STATGRAPHICS® Centurion 18 Manual de Usuario

STATGRAPHICS y STATLETS son marcas registradas. STATGRAPHICS Centurion 18, Statpoint,


StatFolio, StatGallery, StatReporter, StatPublish, StatWizard, StatLink, StatLog y SnapStats son marcas
registradas. Todos los productos o servicios mencionados en este libro son marcas registradas o
marcas de servicio de sus respectivos propietarios.

Impreso en los Estados Unidos de América.


Tabla de Contenidos
Tabla de Contenidos .......................................................................................................... iii
Introducción ..................................................................................................................... viii
Comenzando........................................................................................................................ 1
1.1 Instalación .......................................................................................................................................... 1
1.2 Ejecutando el programa ................................................................................................................... 7
1.3 Introduciendo datos ....................................................................................................................... 15
1.4 Leyendo un archivo de datos guardado....................................................................................... 19
1.5 Analizando los datos ...................................................................................................................... 21
1.6 Utilizando la barra de herramientas de análisis .......................................................................... 25
1.7 Difundiendo los resultados ........................................................................................................... 30
1.8 Guardando su trabajo .................................................................................................................... 31
1.9 Usando el StatLog .......................................................................................................................... 32
Administración de datos ................................................................................................... 34
2.1 El libro de datos.............................................................................................................................. 35
2.2 Accediendo a los datos .................................................................................................................. 38
2.2.1 Leyendo datos de un archivo de datos de STATGRAPHICS Centurion ....................... 39
2.2.2 Leyendo datos de un archivo Excel, ASCII, XML, u otro archivo externo de datos ... 40
2.2.3 Transfiriendo datos utilizando Copiar y Pegar .................................................................... 41
2.2.4 Consultando una base de datos ODBC ............................................................................... 42
2.3 Manipulando Datos ........................................................................................................................ 43
2.3.1 Copiando y pegando datos ..................................................................................................... 43
2.3.2 Creando nuevas variables de columnas existentes .............................................................. 44
2.3.3 Transformando datos .............................................................................................................. 47
2.3.4 Ordenando datos ..................................................................................................................... 50
2.3.5 Recodificando datos ................................................................................................................ 52
2.3.6 Combinando múltiples columnas .......................................................................................... 53
2.4 Generando datos ............................................................................................................................ 55
2.4.1 Generando datos con patrones.............................................................................................. 55
2.4.2 Generando números aleatorios.............................................................................................. 58
2.5 Propiedades del libro de datos ...................................................................................................... 60
2.6 Visor de datos ................................................................................................................................. 61
Ejecutando análisis estadísticos ....................................................................................... 63
3.1 Cuadro de diálogo de entrada de datos ....................................................................................... 65
3.2 Cuadro de Diálogo Adicional para Entradas .............................................................................. 68
3.3 Ventana de análisis ......................................................................................................................... 69

iii / Tabla de contenidos


3.3.1 Botón Entrada de diálogo ...................................................................................................... 70
3.3.2 Botón Opciones de Análisis................................................................................................... 71
3.3.3 Botón tablas y gráficos ............................................................................................................ 72
3.3.4 Botón guardar resultados........................................................................................................ 74
3.3.5 Botón Opciones de panel ....................................................................................................... 75
3.3.6 Botón Opciones Tabulares .................................................................................................... 77
3.3.7 Botón Opciones Gráficas ....................................................................................................... 78
3.3.8 Botón StatLog .......................................................................................................................... 79
3.3.9 Botones gráficos ...................................................................................................................... 80
3.3.10 Botón Excluir ......................................................................................................................... 81
3.4 Imprimiendo los resultados........................................................................................................... 83
3.5 Publicando los resultados .............................................................................................................. 85
Gráficos.............................................................................................................................. 86
4.1 Modificando gráficos ..................................................................................................................... 87
4.1.1 Opciones de trazado ............................................................................................................... 88
4.1.2 Opciones de rejilla (malla) ...................................................................................................... 90
4.1.3 Opciones de líneas ................................................................................................................... 92
4.1.4 Opciones de puntos ................................................................................................................ 94
4.1.5 Opciones del título superior................................................................................................... 96
4.1.6 Opciones de escalado de ejes ................................................................................................. 98
4.1.7 Opciones de relleno............................................................................................................... 100
4.1.8 Texto, Opciones de etiquetas y leyendas............................................................................ 101
4.1.9 Añadiendo texto nuevo ........................................................................................................ 101
4.2 Separando un gráfico de dispersión ........................................................................................... 103
4.3 Cepillando un gráfico de dispersión .......................................................................................... 105
4.4 Alisando un gráfico de dispersión (tendencia) ......................................................................... 107
4.5 Identificando Puntos .................................................................................................................... 109
4.6 Copiando gráficos a otras aplicaciones...................................................................................... 112
4.7 Guardando gráficos en archivos de Imagen ............................................................................. 113
4.8 Panorámica y Zoom ..................................................................................................................... 114
4.9 Creando Videos ............................................................................................................................ 116
StatFolios .......................................................................................................................... 119
5.1 Guardando su sesión .................................................................................................................... 119
5.2 Código de StatFolio...................................................................................................................... 121
5.3 Apilando orígenes de datos ......................................................................................................... 124
5.4 Publicando datos en formato HTML ........................................................................................ 125
Utilizando StatGallery ...................................................................................................... 128
6.1 Configurando una página de StatGallery .................................................................................. 128
6.2 Copiando gráficos a StatGallery ................................................................................................. 130

iv / Tabla de contenidos
6.3 Solapando gráficos........................................................................................................................ 131
6.4 Modificando un gráfico en StatGallery ..................................................................................... 132
6.4.1 Añadiendo objetos................................................................................................................. 132
6.4.2 Modificando objetos ............................................................................................................. 133
6.4.3 Borrando objetos ................................................................................................................... 133
6.5 Imprimiendo StatGallery ............................................................................................................. 134
Utilizando StatReporter.................................................................................................... 135
7.1 La ventana StatReporter .............................................................................................................. 135
7.2 Copiando Salidas a StatReporter ................................................................................................ 136
7.3 Modificando la salida de StatReporter ....................................................................................... 137
7.4 Guardando StatReporter ............................................................................................................. 137
Utilizando StatWizard ...................................................................................................... 138
8.1 Accediendo a Datos o Creando un nuevo estudio .................................................................. 139
8.2 Seleccionando análisis para sus datos ........................................................................................ 142
8.3 Buscando los estadísticos o test deseados................................................................................. 147
Preferencias del sistema ................................................................................................... 150
9.1 Comportamiento general del sistema ........................................................................................ 150
9.2 Imprimiendo.................................................................................................................................. 153
9.3 Gráficos.......................................................................................................................................... 154
9.4 Compartiendo Preferencias del Sistema .................................................................................... 156
Tutorial #1: Analizando una muestra simple................................................................... 158
10.1 Ejecutando el procedimiento Análisis de una variable ......................................................... 159
10.2 Resumen estadístico ................................................................................................................... 162
10.3 Gráfico de caja y bigotes ........................................................................................................... 165
10.4 Contrastando valores atípicos ................................................................................................... 167
10.5 Histograma .................................................................................................................................. 171
10.6 Gráficos de cuantiles y percentiles ........................................................................................... 176
10.7 Intervalos de confianza .............................................................................................................. 177
10.8 Contrastes de hipótesis .............................................................................................................. 179
10.9 Límites de tolerancia .................................................................................................................. 181
Tutorial #2: Comparando dos muestras .......................................................................... 185
11.1 Ejecutando el procedimiento Comparación de dos muestras ............................................. 185
11.2 Resúmen de Estadísticos ........................................................................................................... 187
11.3 Histograma dual .......................................................................................................................... 188
11.4 Gráfico dual de caja y bigotes ................................................................................................... 189
11.5 Comparando desviaciones típicas ............................................................................................ 191
11.6 Comparando medias .................................................................................................................. 192
11.7 Comparando medianas .............................................................................................................. 193
11.8 Gráfico de cuantiles ................................................................................................................... 194

v / Tabla de contenidos
11.9 Test de Kolmogorov-Smirnov para dos muestras................................................................. 195
11.10 Gráfico cuantil-cuantil ............................................................................................................. 196
Tutorial #3: Comparando más de dos muestras.............................................................. 198
12.1 Ejecutando el procedimiento comparación de varias muestras ........................................... 199
12.2 Análisis de la varianza ................................................................................................................ 203
12.3 Comparando medias .................................................................................................................. 206
12.4 Comparando Medianas .............................................................................................................. 208
12.5 Comparando desviaciones típicas ............................................................................................ 210
12.6 Gráficos de los residuos ............................................................................................................ 210
12.7 Análisis de gráficos de medias (ANOM)................................................................................. 212
Tutorial #4: análisis de la regresión ................................................................................. 213
13.1 Análisis de la correlación ........................................................................................................... 214
13.2 Regresión simple ......................................................................................................................... 219
13.3 Ajustando un modelo no lineal ................................................................................................ 223
13.4 Examinando los residuos .......................................................................................................... 225
13.5 Regresión múltiple ...................................................................................................................... 227
Tutorial #5: Analizando datos de atributos .................................................................... 235
14.1 Resumiendo datos de atributos ................................................................................................ 236
14.2 Análisis de Pareto ....................................................................................................................... 237
14.3 Tabulación cruzada .................................................................................................................... 241
14.4 Comparando dos o más muestras ............................................................................................ 248
14.5 Tablas de contingencia............................................................................................................... 251
Tutorial #6: Análisis de la capacidad de un proceso ...................................................... 253
15.1 Graficando los datos .................................................................................................................. 254
15.2 Procedimiento Análisis de la capacidad .................................................................................. 257
15.3 Tratando con datos no normales ............................................................................................. 261
15.4 Índices de capacidad .................................................................................................................. 268
15.5 Calculadora Seis Sigma .............................................................................................................. 271
Tutorial #7: Diseño de experimentos (DOE) ................................................................. 273
16.1 Creando un diseño ..................................................................................................................... 274
Paso 1: Definir respuestas .............................................................................................................. 275
Paso 2: Definir factores experimentales....................................................................................... 276
Paso 3: Seleccionar diseño ............................................................................................................. 277
Paso 4: Especificar el Modelo ....................................................................................................... 283
Paso 5: Seleccionando ejecuciones ............................................................................................... 285
Paso 6: Evaluar el diseño ............................................................................................................... 285
Paso 7: Guardar experimento ........................................................................................................ 286
16.2 Analizando los resultados .......................................................................................................... 287
Paso 8: Analizar datos..................................................................................................................... 288

vi / Tabla de contenidos
Paso 9: Optimizar respuestas ........................................................................................................ 302
Paso 10: Guardar resultados .......................................................................................................... 307
16.3 Experimentación posterior ....................................................................................................... 307
Paso 11: Aumentar diseño ............................................................................................................. 307
Paso 12: Extrapolar ......................................................................................................................... 309
Tutorial #8: Visualizando Series de Tiempo Multivariables ........................................... 311
17.1 Creando el Statlet........................................................................................................................ 312
17.2 Modificando el Statlet ................................................................................................................ 314
17.3 Animación del Statlet ................................................................................................................. 317
Lecturas sugeridas............................................................................................................ 318
Conjuntos de datos ........................................................................................................... 319
Índice ............................................................................................................................... 320

vii / Tabla de contenidos


Introducción
Este libro está diseñado para introducir a los usuarios en STATGRAPHICS Centurion 18 en lo
referente a las operaciones básicas del programa y su utilización en el análisis de datos. Aporta una
introducción comprensiva al uso del sistema, incluyendo instalación, manejo de datos, creación de
análisis estadísticos e impresión y publicación de resultados. Ya que el libro está concebido para
introducir a los usuarios rápidamente, concentra las características más importantes del programa, en
lugar de intentar la cobertura con todo detalle. El menú Ayuda de STATGRAPHICS Centurion 18 da
acceso a gran cantidad de información adicional, incluyendo archivos PDF para cada uno de los
aproximadamente 260 procedimientos estadísticos.

Los primeros nueve capítulos de este libro cubren el uso básico del programa. Aunque probablemente
deberá utilizar otro material adicional mientras usa el programa, la lectura de estos capítulos le ayudará
a introducirse rápidamente y le asegurará no fallar en las características más importantes.

Los últimos ocho capítulos incluyen tutoriales enfocados a:

1. Introducirle en algunos de los análisis estadísticos más comúnmente utilizados.

2. Ilustrar cómo las características únicas de STATGRAPHICS Centurion 18 facilitan el proceso


de análisis de datos.

Es recomendable que explore los tutoriales, ya que aportarán una buena idea de cómo
STATGRAPHICS Centurion 18 puede utilizarse de la mejor forma cuando se analizan datos reales.

NOTA: una copia de este manual en formato PDF se incluye con el programa y puede accederse a
ella mediante el menú Ayuda. En el documento PDF todos los gráficos están en color. Los archivos
de datos y StatFolios referenciados en el manual se aportan también con el programa.

Statgraphics Technologies, Inc.


Septiembre de 2017

viii / Introducción
1
Capítulo

Comenzando
Instalando STATGRAPHICS Centurion 18, ejecutando el programa y
creando un archivo de datos simple.

1.1 Instalación
STATGRAPHICS Centurion 18 se distribuye de dos formas: a través de Internet en un solo
archivo que se descarga a su ordenador, y como un conjunto de archivos en un CD-ROM. Para
ejecutar el programa, debe ser instalado previamente en el disco duro. Como en la mayoría de los
programas Windows, la instalación es extremadamente simple:

Paso 1: si recibe el programa en un CD, inserte el CD en su unidad de CD-ROM. Después de


unos momentos, el programa de instalación comenzará automáticamente. Si no es así, abra el
Explorador de Windows y ejecute el archivo sgcinstall.exe en el directorio raíz del CD-ROM.

Si ha descargado el programa de Internet, localice el archivo, haga doble clic sobre él y


comenzará el proceso de instalación.

Paso 2: Se mostrarán sucesivos cuadros de diálogo. Si usted está ejecutando el programa desde
un CD, el primer cuadro de diálogo le pregunta por la especificación del idioma o idiomas que
van a ser instalados:

1/ Comenzando
Figura 1-1. Cuadro de diálogo de selección de idioma
Seleccione un idioma principal y uno o más idiomas adicionales. El idioma principal será
utilizado durante la instalación y también como el idioma por defecto cuando el programa se
ejecute por primera vez. Si instala idiomas adicionales, puede cambiar entre ellos desde el
programa seleccionado Editar – Preferencias en el menú principal.

Si ha descargado el programa desde Internet, necesitará ejecutar un programa de instalación por


separado para cada idioma que descargue.

NOTA: La edición 32-bit de Statgraphics Centurion funcionará con cualquier versión


de Windows, tanto la versión 32-bit como la versión 64-bit. La edición 64-bit de
Statgraphics Centurion solo funcionará en ordenadores con la versión 64-bit de
Windows. Si compró una licencia, verifique su número de serie. Si la primera letra del

2/ Comenzando
número de serie es “A”, debe instalar la edición 32-bit. Si la primera letra es “B”, puede
instalar cualquier edición.

NOTA: Durante el periodo de evaluación los usuarios pueden acceder a cualquiera de


los idiomas disponibles en STATGRAPHICS Centurion 18. En la compra se le pedirá
que defina el idioma principal y los adicionales (si hay alguno). Por favor, es necesario
tener en cuenta que sólo estarán disponibles para su uso los idiomas especificados en
STATGRAPHICS Centurion 18.

Paso 3: STATGRAPHICS Centurion 18 utiliza el instalador estándar de Windows para instalar


el programa en su ordenador. El instalador controla la instalación por medio de una serie de
cuadros de diálogo. El primer cuadro de diálogo da la bienvenida a STATGRAPHICS Centurion
18:

Figura 1-2. Cuadro de diálogo de bienvenida


Presione el botón Siguiente.

3/ Comenzando
NOTA: Para poder instalar y activar STATGRAPHICS Centurion 18 debe tener
derechos de administrador en su ordenador. Por si lo necesita, el administrador del
sistema debe estar presente durante el proceso de instalación. Recomendamos
encarecidamente que el administrador esté presente durante el proceso de instalación y
activación del software.

Paso 4: El segundo cuadro de diálogo muestra el contrato de licencia del software:

Figura 1-3. Cuadro de diálogo del contrato de licencia


Lea cuidadosamente el contrato de licencia. Si acepta los términos, haga clic en el botón indicado
y presione Siguiente para continuar. Si no está de acuerdo, presione Cancelar. Si no está de acuerdo
con los términos del contrato, no debe utilizar el programa.

4/ Comenzando
Paso 5: El siguiente recuadro se usa para que introduzca su nombre y organización:

Figura 1-4. Cuadro de diálogo de información del cliente

5/ Comenzando
Paso 6: El siguiente cuadro de diálogo indica el directorio en el cual se instalará el programa:

Figura1-5. Cuadro de diálogo de carpeta de destino


Por defecto, STATGRAPHICS Centurion 18 se instala en el subdirectorio de Archivos de programa
denominado STATGRAPHICS Centurion 18. Si está instalando el programa en un servidor de red,
instálelo en una localización en la que los potenciales usuarios tengan acceso a la red. No se requiere
acceso de escritura para los usuarios.

El recuadro le permite a quién quiera que use su computadora a tener acceso al programa, o usted
puede limitar a que solo usted tenga acceso al mismo.

6/ Comenzando
Paso 7: Siga las instrucciones restantes para ejecutar la instalación. Cuando se termina la
instalación, se mostrará el cuadro de diálogo final:

Figura 1-6. Cuadro de diálogo Final de instalación


Haga clic en Cerrar para completar la instalación.

1.2 Ejecutando el programa


Como parte del proceso de instalación, se añadirá un acceso directo a STATGRAPHICS Centurion
18 en el menú Inicio de Windows y también en su escritorio. Para iniciar el programa:

Paso 1: haga clic en el acceso directo del escritorio, presione el botón Inicio de Windows situado
en la esquina inferior izquierda de su pantalla y haga clic en el icono de Statgraphics. También
puede seleccionar Archivos de programa – Statgraphics - STATGRAPHICS Centurion 18 utilizando el
explorador de Windows y haciendo clic en el icono de la aplicación sgwin para ejecutar el
programa.

Paso 2: Cuando STATGRAPHICS Centurion 18 se inicia, se abrirá una nueva ventana. La


primera vez que se ejecuta el programa, se muestra el cuadro de diálogo de Bienvenida:
7/ Comenzando
Figura1-7. Cuadro de diálogo de Bienvenida
Tiene dos posibilidades:

1. Para comenzar con una versión de entrenamiento de 30 días antes de comprar el


programa, pulse el botón Evaluar.

2. Si ha comprado ya el programa y ha recibido un número de serie, presione el botón


Activar.

Iniciando un periódo de evaluación de 30 días

Para iniciar un periodo de evaluación de 30 días, debe introducir un código de activación único
para su ordenador. Si ha pulsado el botón Evaluar, aparecerá el siguiente cuadro de diálogo:

8/ Comenzando
Figura 1-8. Cuadro de diálogo Activación del período de evaluación
Hay 2 pasos para el proceso de activación:

1. Presione el botón etiquetado “register.statgraphics.com”. Esto le llevará a un sitio web


donde puede configurar una cuenta asociada a su dirección de correo electrónico. Siga
las instrucciones del sitio web. Una vez configurada la cuenta, vuelva al cuadro de
diálogo de arriba e introduzca la dirección de correo electrónico que registró.

2. Presione el botón etiquetado “Comenzar período de prueba” que automáticamente se


pondrá en contacto con el sistema de activación de Statgraphics y comenzará su período
de prueba.

Notas:

Si el sitio web de registro no se inicia durante el paso 1, probablemente se deba a la


forma en que se configura el acceso a Internet en su ordenador. En tal caso, inicie
cualquier navegador y vaya a http://register.statgraphics.com para establecer su cuenta.

Si la activación automática falla en el paso 2, es probable que se deba a que un firewall en


su ordenador o red informática le impide conectarse al sistema de activación
Statgraphics. En tal caso, presione el botón “Activar manualmente”. Esto mostrará el
siguiente cuadro de diálogo:

9/ Comenzando
Figura 1-9.Cuadro de diálogo Activación manual del período de prueba
Presione el botón “Enviar e-mail” para enviar un correo electrónico con su información a
activate@statgraphics.com. Le enviaremos un código de activación por correo electrónico,
que debe copiar y pegar en el campo “Código de Evaluación” y luego presionar el botón
“Comenzar período de prueba”.

Activando una licencia comprada

Si usted o su institución ha comprado una licencia de uso del programa, presione el botón
Activar . Aparecerá un cuadro de diálogo en el que debe introducir el número de serie que le han
dado:

Figura 1-10. Cuadro de diálogo Introducción número de serie

10/ Comenzando
Si se introduce un número de serie válido, aparecerá un segundo cuadro de diálogo:

Figura 1-11. Cuadro de diálogo Activación de copia con licencia

Hay 3 pasos para el proceso de activación:

1. Presione el botón etiquetado “register.statgraphics.com”. Esto le llevará a un sitio web


donde puede configurar una cuenta asociada a su dirección de correo electrónico. Siga
las instrucciones del sitio web. Una vez configurada la cuenta, vuelva al cuadro de
diálogo de arriba e introduzca la dirección de correo electrónico que registró. Nota: Si
configuró previamente una cuenta para activar una copia de prueba, no es necesario que
se registre nuevamente. Simplemente introduzca la misma dirección de correo
electrónico que usó para activar la copia de prueba.

2. Asegúrese de que aparezca el número de serie correcto en el cuadro de diálogo.

3. Presione el botón etiquetado “Activar” que automáticamente se pondrá en contacto con


el sistema de activación Statgraphics y activará su licencia.

11/ Comenzando
Notas:

Si el sitio web de registro no se inicia durante el paso 1, probablemente se deba a la


forma en que se configura el acceso a Internet en su ordenador. En tal caso, inicie
cualquier navegador y vaya a http://register.statgraphics.com para establecer su cuenta.

Si la activación automática falla en el paso 3, es probable que se deba a que un firewall en


su ordenador o red informática le impide conectarse al sistema de activación
Statgraphics. En tal caso, presione el botón “Activar manualmente”. Esto mostrará el
siguiente cuadro de diálogo:

Figura 1-12. Cuadro de diálogo Activación de copia manual

12/ Comenzando
Presione el botón “Enviar e-mail” para enviar un correo electrónico con su información a
activate@statgraphics.com. Le enviaremos un código de activación por correo electrónico,
que debe copiar y pegar en el campo “Código de activación” y luego presionar el botón
“Activar”.

Paso 3: Si el código de activación coincide:

Figura 1-13. Mensaje de activación exitoso

Presione OK para acceder a la sección principal del programa.

Paso 4: Se obtendrá la ventana principal de STATGRAPHICS Centurion 18:

13/ Comenzando
Figura 1-14. Ventana principal de STATGRAPHICS

Las secciones que siguen ilustran cómo se crean archivos de datos conteniendo información del
Censo de Estados Unidos de 2000.

14/ Comenzando
1.3 Introduciendo datos
Para analizar datos en STATGRAPHICS Centurion 18, es necesario situarse en el libro de datos de
STATGRAPHICS. El libro de datos está formado por hasta 26 hojas, indicadas por las letras
desde la A a la Z, que contienen un cuadro rectangular de filas y columnas:

Figura 1-15. El libro de datos de STATGRAPHICS


En una hoja típica, cada fila contiene información sobre un individuo simple, caso u
observación, mientras que cada columna representa una variable.

Por ejemplo, supongamos que queremos utilizar STATGRAPHICS Centurion 18 para analizar
los datos del censo de Estados Unidos de 2000. A continuación se muestra una pequeña sección
de los resultados de este censo:

15/ Comenzando
Estado Población Edad media % Mujeres Ingresos per cápita
Alabama 4,447,100 35.8 51.7 $18,819
Alaska 626,932 32.4 48.3 $22,660
Arizona 5,130,632 34.2 50.1 $20,275
Arkansas 2,673,400 36.0 51.2 $16,904
California 33,871,648 33.3 50.2 $22,711
Colorado 4,301,261 34.3 49.6 $24,049
Figura 1-16. Datos del Censo de E.U.A. de 2000
Cuando introducimos los datos en una hoja de STATGRAPHICS Centurion 18, la información
referente a cada estado se situará en filas diferentes. Se crearán cinco columnas para situar los
nombres de los estados y el contenido de la información del censo.

Para introducir datos tales como los que se ven en la tabla anterior STATGRAPHICS Centurion
18 ofrece dos posibilidades:

1. Teclear directamente los datos en el libro de datos de STATGRAPHICS Centurion 18.

2. Introducir los datos en otro programa como Excel y leerlos o copiarlos al libro de datos
de STATGRAPHICS Centurion 18.

En esta sección, tomaremos la primera opción. Para comenzar, haga doble clic en el
encabezamiento de la primera columna donde aparece el nombre Col_1. Esto mostrará un
cuadro de diálogo que puede utilizar para cambiar propiedades importantes para cada columna:

16/ Comenzando
Figura 1-17. Cuadro de diálogo utilizada para definir columnas
Cada columna en una hoja de STATGRAPHICS Centurion 18 tiene un nombre, comentario y
tipo asociados con ella:

 Nombre– Dar a cada columna un único nombre conteniendo de 1 a 32 caracteres. Estos


nombres los utiliza el programa para identificar las variables a analizar cuando se selecciona
un procedimiento estadístico. También sirven como etiquetas por defecto en la mayoría de
los gráficos. Los nombres pueden contener cualquier tipo de caracteres y no son sensibles a
letras mayúsculas. Se permiten los espacios. El programa presentará un mensaje de error si
intenta utilizar el mismo nombre para más de una columna en una hoja. aunque las
columnas de distintas hojas pueden tener nombres idénticos.

 Comentario– Introducir un comentario que identifique los datos en la columna. Los


comentarios pueden tener hasta 64 caracteres y son opcionales. Si se introducen,
aparecerán en la segunda línea de la cabecera de cada columna.

 Tipo – Especificar el tipo de datos a introducir en la columna. En este caso, la primera


columna contiene los nombres de los estados que deben ser de tipo Carácter. Las otras
columnas pueden establecerse como Numéricas o como Enteras o Decimales de punto fijo si
quiere restringir los tipos de datos que van a ser introducidos. Para información detallada
de la columna Tipos, ver el capítulo 2.

17/ Comenzando
Después de la definición de cada columna, presione Aceptar. Se crean 5 columnas como se
muestra a continuación:

Figura 1-18. Hoja de datos con nombres de columnas de STATGRAPHICS Centurion 18


Ahora se introducen los datos tal y como se haría en una hoja de cálculo, utilizando las teclas de
flechas para moverse de celda en celda. NO introduzca comas en números grandes. Cuando
finalice, la hoja debe tener la siguiente apariencia:

Figura 1-19. Hoja de datos de STATGRAPHICS Centurion 18 después de introducir 6 filas de datos

18/ Comenzando
Finalmente, necesitará guardar los datos en un archivo. Elija Archivo – Guardar – Guardar Datos
en el menú principal. Seleccionar un nombre de archivo en el cual se van a guardar los datos:

Figura 1-20. Cuadro de diálogo Selección de archivos de datos para guardar


Los archivos de datos en STATGRAPHICS Centurion 18 se guardan en disco con la extensión
.sgd por defecto, la cual los almacena en formato XML. Cuando se guarda el archivo, puede
cambiar sus características, si lo desea, a diferente formato de archivo en el campo Guardar como.

1.4 Leyendo un archivo de datos guardado


Una vez introducidos los datos en la hoja, están listos para el análisis. Para tomar un ejemplo
más interesante, recuperaremos los datos del censo para 50 estados y el distrito de Columbia,
que los proporciona STATGRAPHICS Centurion 18 en un archivo de nombre census2000.sgd.
Para abrir el archivo de datos, seleccione Archivo – Abrir – Abrir Datos en el menú principal. En
primer lugar se preguntará por la ruta de localización en el disco duro de los datos a los que
queremos acceder:

19/ Comenzando
Figura 1.21. Cuadro de diálogo Abrir origen de datos
La selección por defecto es correcta en este caso. A continuación, seleccione el nombre del
archivo que contiene los datos:

Figura 1-22. Cuadro de diálogo Abrir archivo de datos


El archivo de ejemplo se localiza en el directorio de datos por defecto (usualmente c:\Archivos de
programa\Statgraphics\STATGRAPHICS Centurion 18\Data). Abriendo el archivo se leen las 51
filas de datos en la hoja:

20/ Comenzando
Figura 1-23. Hoja mostrando el contenido del archivo Census2000.sgd

1.5 Analizando los datos


Una vez leídos los datos en el libro de datos de STATGRAPHICS Centurion 18, se puede
utilizar cualquiera de los más de 220 procedimientos estadísticos de varias formas:

1. Por selección del procedimiento deseado en el menú principal.

2. Presionando uno de los botones de la barra de herramientas.

3. Recurriendo al StatWizard (asistente estadístico) presionando el botón en la barra de


herramientas mostrado como wizard’s cap.

Comenzamos resumiendo la variabilidad en los ingresos per cápita a través de los estados. El
mayor procedimiento para resumir una columna simple de datos numéricos es Análisis de una
variable. Este procedimiento calcula resúmenes estadísticos tales como la media muestral y la
desviación típica. También crea varios gráficos, incluyendo el histograma y el gráfico de caja y
bigotes.

21/ Comenzando
La localización del procedimiento Análisis de una variable depende del menú que se esté
utilizando:

1. Menú clásico: Seleccione Describir – Datos numéricos – Análisis de una variable.

2. Menú Seis Sigma: Seleccione Analizar – Datos de variable – Análisis de una variable.

Como todos los procedimientos estadísticos, Análisis de una variable comienza mostrando los
datos en el cuadro de diálogo de entrada:

Figura 1-24. Cuadro de diálogo de entrada de datos en Análisis de una variable


La lista de la parte izquierda del cuadro muestra los nombres de todas las columnas en la hoja que
contiene los datos. Para analizar los datos en la columna Per Capita Income, haga clic en su nombre y
presione el botón con la flecha negra del campo Datos. Se colocará el nombre de la columna que
contiene los datos de ingresos en el campo Datos. Dejar el campo Selección en blanco (se utiliza sólo
cuando se quiere analizar un subconjunto de la hoja en lugar de todas sus filas).

Cuando se pulse Aceptar, aparece el cuadro de diálogo Tablas y Gráficos. Este cuadro de diálogo muestra
las tablas y gráficos que son posibles en el procedimiento Análisis de una variable. Por ahora,
aceptaremos las características por defecto:

22/ Comenzando
Figura 1-25. Cuadro de diálogo Tablas y Gráficos
Cuando se presiona Aceptar otra vez, se creará una nueva ventana de análisis:

Figura 1-26. Ventana de Análisis de una variable


Esta ventana contiene 4 paneles, divididos por barras móviles. Los dos paneles de la izquierda
muestran salida tabular, mientras que los dos paneles de la parte derecha muestran salida gráfica.
Si se hace doble clic en cualquier zona del panel izquierdo inferior, la tabla de resúmenes
estadísticos se maximizará:

23/ Comenzando
Figura 1-27. Panel de estadísticos resumen maximizado
En la tabla se ofrecen varios estadísticos interesantes. Para los n = 51 estados más D.C., los
ingresos per cápita varían en los márgenes $15,853 a $28,766. Los ingresos medios per cápita son
$20,934.50.

Debajo de la tabla se encuentra la salida del StatAdvisor, que ofrece una interpretación corta de
los resultados. En este caso, el StatAdvisor se concentra en los dos estadísticos que miden la
asimetría y la curtosis en los datos. Como explica el StatAdvisor, los datos que provienen de una
distribución normal o Gaussiana deben tener la asimetría y curtosis estandarizadas entre –2 y +2.
En este caso, ambos estadísticos están dentro del rango, indicando un modelo de ajuste
razonable a la distribución normal para las observaciones, aunque la asimetría es muy cerrada
para ser estadísticamente significativa.

Haciendo doble clic otra vez en la tabla de resumen estadístico se restaurará la división original
de la salida. Un doble clic en el panel inferior derecho maximiza el gráfico de caja y bigotes:

24/ Comenzando
Figura 1-28. Panel Gráfico de caja y bigotes maximizado
El gráfico de caja y bigotes, inventado por John Tukey, aporta 5-números resumen de la muestra
de datos. La caja central cubre la mitad de los datos, extendiéndose desde el cuartil inferior hasta
el cuartil superior. Las líneas extendidas a izquierda y derecha de la caja (los bigotes) muestran la
localización del mayor y menor de los datos. La mediana de los datos está indicada por la línea
vertical en el interior de la caja, mientras que el signo (+) muestra la localización de la media
muestral. El hecho de que el bigote superior es algo más largo que el inferior, a la vez que la
media es algo mayor que la mediana, es indicativo de asimetría positiva en los datos.

1.6 Utilizando la barra de herramientas de análisis


Cuando una ventana de análisis como la de Análisis de una variable se muestra por primera vez,
sólo se incluyen algunas de las tablas y gráficos posibles. Para mostrar una salida adicional, debe
pulsar el botón apropiado en la Barra de herramientas de análisis, que se muestra inmediatamente
encima del título del análisis:

Figura 1-29. La Barra de herramientas de análisis

25/ Comenzando
Los botones de la barra de herramientas de análisis son muy importantes. A continuación se
resumen las acciones de sus primeros ocho botones de la izquierda:

Nombre Función
Entrada de diálogo Muestra el cuadro de diálogo de entrada de datos que permite
cambiar las columnas de datos seleccionadas para el análisis.
Opciones de análisis Selecciona opciones que pueden ser aplicadas a todas las tablas
y gráficos en el análisis actual.

Tablas y Gráficos Muestra una lista de otras tablas y gráficos que pueden crearse.

Guardar resultados Permite guardar estadísticos calculados en columnas de datos.


Opciones de panel Selecciona opciones para aplicar solo a la tabla o gráfico
actualmente maximizado.

Opciones Tabulares Permite cambiar el ancho de sus tablas, el número de dígitos


significativos y otras opciones para sus salidas de texto.

Opciones gráficas Permite cambiar títulos, escalas y otras características del


gráfico actualmente maximizado.
Guardar a un logfile Guarda las tablas visibles y las gráficas en el StatLog.
Figura 1-30. Botones importantes en la barra de herramientas de análisis
Los botones adicionales de la derecha de la barra permiten otras acciones cuando un gráfico está
maximizado, tal y como se explica en el capítulo 5.

Por ejemplo, si se presiona el botón Tablas y Gráficos , un cuadro de diálogo mostrará una lista
de otras opciones gráficas posibles en el procedimiento Análisis de una variable:

26/ Comenzando
Figura 1-31. Lista de opciones para Tablas y Gráficos
Marcando el cuadro relativo a Histograma de frecuencias y presionando Aceptar se añade un tercer
panel en el lado derecho de la ventana de análisis:

Figura 1-32. Ventana de Análisis de una variable con el Histograma de frecuencias añadido
Si hace doble clic en el histograma para maximizarlo y presiona el botón Opciones de panel, se
muestra un cuadro de diálogo con opciones específicas para el histograma:

27/ Comenzando
Figura 1-33. Cuadro de diálogo de Opciones de panel para el histograma de frecuencias
Utilizando este cuadro, pueden cambiarse el número de barras en el histograma, así como el
margen que cubre. Si Número de clases se sitúa en 15 y se presiona Aceptar, el histograma cambiará
para reflejar la nueva selección:

Figura 1-34. Histograma de frecuencias después de cambiar el número de clases

28/ Comenzando
Puede cambiar también el patrón de relleno, el color de las barras en el histograma presionando
el botón Opciones gráficas. Se muestra un cuadro de diálogo que permite cambiar la mayoría de las
características del gráfico. Si hace clic en la pestaña Relleno, se mostrará lo siguiente

Figura 1-35. Cuadro de diálogo de Opciones gráficas


Haciendo clic en el botón #1 y seleccionando un nuevo Tipo de relleno o Color se cambiarán las
barras en el histograma.

NOTA: Se puede acceder a las operaciones de la mayoría de los botones en la barra de


herramientas de análisis haciendo clic con el botón derecho del ratón en el panel que contiene la
tabla o gráfico. Se mostrará un menú emergente conteniendo las opciones disponibles.

29/ Comenzando
1.7 Difundiendo los resultados
Una vez que el análisis ha sido ejecutado, los resultados pueden ser difundidos por varios
caminos. Estos incluyen:

Acción Método
Imprimir la salida. Presione el botón de la impresora en
la barra de herramientas principal
para imprimir todas las tablas y
gráficos, o haga clic en un panel
simple con el botón derecho del
ratón y elija Imprimir en el menú
emergente resultante para imprimir
una tabla o gráfico simple.
Publicando la salida para mostrarla Seleccione StatPublish en el menú
en un navegador. Archivo. Se mostrará un cuadro de
diálogo para especificar la
localización de la salida HTML.
Copiar la salida en otra aplicación. Haga clic en la tabla o gráfico que va
a ser copiado y seleccione Copiar en
el menú Edición. Active otra
aplicación y seleccione Editar– Pegar.
Guardar los resultados en un Presione el botón derecho del ratón y
informe. seleccione Copiar análisis a
StatReporter. El StatReporter, descrito
en el capítulo 7, puede guardarse
como un archivo en formato RTF
que puede ser importado a
programas como Microsoft Word.
Guardar un gráfico en un archivo Maximice el gráfico a guardar y
imagen. seleccione Guardar gráfico en el menú
Archivo.
Figura 1-36. Métodos para difundir los resultados del análisis
Cada una de estas operaciones se describe en capítulos posteriores.

30/ Comenzando
1.8 Guardando su trabajo
Puede guardar los resultados de la sesión actual de STATGRAPHICS Centurion 18 seleccionando
Guardar StatFolio en el menú Archivo e introduciendo el nombre del archivo:

Figura 1-37. Cuadro de diálogo para Guardar StatFolio


Un StatFolio contiene instrucciones sobre cómo crear cada uno de los análisis de la sesión
actual, con indicadores a los archivos o bases de datos que contienen los datos. Si se vuelve a
leer el StatFolio en un momento posterior, automáticamente se volverán a leer los datos y se
ejecutarán los análisis. Se retendrán las opciones seleccionadas para los análisis.

NOTA #1: Si los datos en los orígenes de datos cambian durante el tiempo que el StatFolio está
guardado y éste vuelve a leerse, los análisis cambiarán para reflejar los nuevos valores. Esto
aporta un método simple para ejecutar análisis que necesitan repetirse en un período
determinado sin tener que ser creados de nuevo.
NOTA #2: Los datos y el StatFolio usualmente se almacenan en diferentes archivos. Si necesita
mover un StatFolio de un ordenador a otro, esté seguro de mover también los archivos de datos.
NOTE #3: Si no se guardan los datos antes de guardar el StatFolio, se guardarán en el mismo
archivo del StatFolio.

31/ Comenzando
1.9 Usando el StatLog
STATGRAPHICS Centurion 18 integra una nueva sesión log que se usa para realizar el seguimiento
de un análisis desde que se abren los archivos hasta que se cierran. La salida generada por el análisis
estadístico también puede copiarse automáticamente al log si así lo desea.

El StatLog aparece en una ventana por separado que puede seleccionarse desde la barra de
navegación:

Figura 1-38. Ventana de Salida del StatLog


Muestra información como cuándo se inició la sesión, qué datos fueron cargados, y qué análisis
se llevaron a cabo. El contenido del StatLog se puede guardar en cualquier momento dando clic
derecho y seleccionando Guardar StatLog Como en el menú emergente. El StatLog se guarda en
un archivo con format RTF (Rich Text Format) que puede ser leído por aplicaciones como
Microsoft Word.

32/ Comenzando
Para cambiar la información guardada en el StatLog, seleccionar Editar – Preferencias del menú
principal. La pestaña General del recuadro de Preferencias contiene los botones circulares que
controlan qué se desea grabar en el StatLog:

Figura 1-39. Recuadro para establecer Preferencias en la Sesión Log


Seleccionando Seguimiento Totalmente Auditado guardará todo en la sesión log. Seleccionando
Información a la medida permite seleccionar solo las salidas que desea guardar.

El contenido de cualquier ventana de análisis también se puede anexar en cualquier momento al


final del StatLog enfocándonos en esa ventana y pulsando el ícono en la barra de
herramientas del análisis.

33/ Comenzando
2
Capítulo

Administración de datos
Accediendo a datos de archivos y bases de datos, transformando valores de
datos y generando patrones de datos.

Para analizar datos en STATGRAPHICS Centurion 18, en primer lugar debe situar en memoria
el libro de datos. El libro de datos consiste en una ventana en forma de tabla formada por hasta
26 hojas. Una hoja es una matriz rectangular formada por filas y columnas. Cada columna en una
hoja representa una variable. Cada fila representa una observación o caso. Por ejemplo, la hoja
de datos que se presenta a continuación contiene información de un determinado número de
diferentes marcas y modelos de automóviles.

Figura 2-1. Ejemplo de hoja de datos

34/ Manejo de datos


El capítulo describe todo lo necesario que hay que conocer acerca de STATGRAPHICS
Centurion 18, incluyendo cómo se accede, cómo se manipula y cómo se utiliza en los análisis
estadísticos.

2.1 El libro de datos


Cada columna de una hoja de STATGRAPHICS Centurion 18 representa una variable diferente.
Las variables son habitualmente atributos o mediciones asociadas con los ítems que definen las
filas de una hoja. Por ejemplo, en la hoja 93cars, hay una columna identificando la marca de cada
automóvil, una columna identificando su tipo, columnas conteniendo las millas por galón
consumidas conduciendo en ciudad y en carretera, columnas conteniendo la longitud de los
automóviles, altura y anchura e información similar. Cada columna tiene un nombre y un tipo
asociado a ella. El nombre se utiliza para identificar los datos a utilizar en el análisis estadístico.
El tipo afecta a cómo será analizada la variable. También, asociado con cada columna, puede
introducirse un comentario adicional, que se utilice para aportar información adicional acerca de
los contenidos de la columna. NOTA: los datos fueron obtenidos del Journal of Statistical
Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) y están
utilizados con permiso.

Para mostrar o cambiar las propiedades de una columna en la hoja, haga doble clic en el nombre
de la columna y se mostrará el cuadro de diálogo Modificar Columna:

Figura 2-2. Cuadro de diálogo utilizado para cambiar propiedades de las columnas

35/ Manejo de datos


Puede especificar:

1. Nombre: de 1 a 32 caracteres. Cuando se muestran análisis estadísticos, las columnas se


identifican utilizando estos nombres. Cada columna de una hoja debe tener un único
nombre, sin embargo puede tener diferentes nombres a lo largo de las distintas hojas de
un libro de datos. Los nombres pueden incluir cualquier carácter, incluyendo espacios.
Los nombres de las variables no son sensibles a mayúsculas/minúsculas.

2. Comentario: de 0 a 64 caracteres, aportando información adicional acerca de los


contenidos de las columnas.

3. Tipo: el tipo de datos permitido para la columna. Se pueden especificar los siguientes
tipos:

Tipo Contenido Ejemplo


Numérico Cualquier número válido 3.14
Carácter Una cadena alfanumérica Chevrolet
Entero Un número entero 105
Fecha Mes, día y año 4/30/05
Mes Mes y año 4/05
Trimestre Trimestre y año Q2/05
Hora (HH:MM) Hora y minutos 3:15
Hora (HH:MM:SS) Hora, minutos y segundos 3:15:53
Fecha-Hora Mes, día, año, hora y minuto 4/30/05 3:15
(HH:MM)
Fecha-Hora Mes, día, año, hora, minutos y 4/30/05 3:15:53
(HH:MM:SS) segundos
Decimal fijo Números de 1 a 9 caracteres 34.10
Numérico Números con indicadores de <1
censurado censura opcionales >10
[2,3]
Moneda Número ingresado como $2.99
moneda €5
£5.0
¥5.0
Fórmula Calculada de otras columnas MPG City/MPG Highway
Figura 2-3. Tipos de columna

36/ Manejo de datos


4. Etiquetas de valor: las etiquetas pueden usarse para substituir valores numéricos en las
tablas de salida y en las gráficas. Para evitar errores de teclado al introducir los datos,
valores numéricos (tales como 1, 2, 3, …) pueden ser introducidos en una columna de
datos y posteriormente substituidos por etiquetas en el momento de mostrar los
resultados. Cuando se pulsa el botón Etiquetas, se muestra el recuadro siguiente:

Figura 2-4. Recuadro para Especificar Etiquetas a un Valor

El recuadro de arriba define 5 etiquetas que podrían usarse en la introducción de


resultados de una encuesta. Se introducirían números entre 1 y 5 en la hoja de trabajo,
pero en lugar de esos números aparecerán etiquetas como “Muy en desacuerdo” en las
tablas y gráficas.

Cuando se introducen datos en una hoja, tienen que ser conformes con el tipo de columna en la
cual se insertan. Por ejemplo, si se intenta introducir un nombre en una columna numérica
aparecerá un error. Cuando se introducen datos, su formato debe coincidir con las características
actuales de Windows. En particular, STATGRAPHICS Centurion 18 asume las características
actuales de Windows para:

37/ Manejo de datos


1. Separador decimal para valores numéricos
2. Formato de hora y separador de hora para valores con horas
3. Formato de fecha corta y separador para fechas

Para comprobar las características actuales de su ordenador, acceda al Panel de Control de


Windows. Cuando introduzca una fecha, debe utilizar el formato especificado en el cuadro de
diálogo Editar - Preferencias. Pueden utilizarse 4 dígitos en los años (como en 4/30/2005) o 2
dígitos para los años (como en 4/30/05). Si se utilizan dos dígitos en los años, se asume la
problemática con los años de 1950 hasta 2049.

Se puede encontrar más información acerca de las fórmulas en las columnas en una sección
posterior de este capítulo titulada Manipulando datos.

2.2 Accediendo a los datos


El capítulo 1 muestra cómo pueden introducirse los datos de modo manual en la hoja de datos.
Además, los usuarios accederán a los datos ya existentes de otro archivo o aplicación. Hay tres
caminos básicos para situar datos existentes en una hoja de datos de STATGRAPHICS
Centurion 18:

1. Leer un archivo ya existente: Si los datos han sido introducidos previamente en un


archivo, puede leerlos en la hoja de datos seleccionando Archivo – Abrir – Abrir origen de
datos. Esto le permitirá leer datos almacenados en varios formatos de archivo, incluyendo
archivos Excel, archivos de texto ASCII delimitado, archivos XML, archivos de
STATGRAPHICS, y archivos de otros paquetes estadísticos.

2. Copiar y pegar utilizando el portapapeles de Windows: Si tiene los datos en un


programa tal como Excel, puede fácilmente copiarlos en el portapapeles y pegarlos en
STATGRAPHICS Centurion 18 seleccionando Editar – Pegar.

3. Emitir una consulta SQL para recuperar los datos de una base de datos: Si los
datos residen en una base de datos compatible ODBC, tal como Oracle o Microsoft
Access, pueden ser recuperados seleccionando Archivo – Abrir – Abrir origen de datos y
seleccionando entonces ya sea Consulta ODBC para usar el asistente o Consulta Manual
SQL para capturar una consulta predefinida.

38/ Manejo de datos


2.2.1 Leyendo datos de un archivo de datos de STATGRAPHICS Centurion
Para leer datos que ya han sido guardados en un archivo STATGRAPHICS Centurion,
seleccionar una de las hojas de datos en el libro de datos haciendo clic en su pestaña
correspondiente. Seleccionar entonces Archivo – Abrir – Abrir origen de datos y especificar Archivos
de datos STATGRAPHICS en el cuadro de diálogo que se muestra a continuación:

Figura 2-5. Cuadro de diálogo Abrir origen de datos


Después presionar Aceptar y seleccionar el archivo STATGRAPHICS deseado:

Figura 2-6. Seleccionando un archivo de datos STATGRAPHICS

39/ Manejo de datos


Puede leer datos de STATGRAPHICS Centurion 18 o de una versión anterior de
STATGRAPHICS, incluyendo STATGRAPHICS Plus. Los datos del archivo reemplazarán el
contenido de la hoja de datos actualmente seleccionada.

2.2.2 Leyendo datos de un archivo Excel, ASCII, XML, u otro archivo externo
de datos
Para leer datos que han sido guardados en un archivo de datos creado por otra aplicación,
seleccione una de las hojas de datos en el Libro de Datos haciendo clic sobre su pestaña.
Entonces seleccione Archivo – Abrir – Abrir origen de datos y especifique Archivo de Datos Externo en
el cuadro de diálogo que se muestra a continuación:

Figura 2-7. Caja de diálogo Abrir origen de datos


Después de presionar Aceptar, se mostrará un cuadro de diálogo en el cual se especificará el
archivo que va a ser importado y otra información relevante:

40/ Manejo de datos


Figura 2-8. Seleccionando un archivo de datos externo
Los campos en el cuadro de diálogo incluyen:
1. Tipo de archivo de entrada – Tipo de archivo a importar. STATGRAPHICS
Centurion 18 puede importar datos de muchas otras aplicaciones, incluyendo Excel,
Matlab, Minitab, JMP, SPSS, SAS, y de la mayoría del resto de los paquetes estadísticos.

2. Nombre de archivo – nombre del archivo que va a ser importado. Presione el botón
MOSTRAR para seleccionar el archivo deseado.

3. Hoja de cálculo – nombre de la hoja de cálculo a importar (si procede). Sólo puede ser
leída una hoja a la vez.

4. Anchuras de columnas – anchura de cada columna, separadas por comas (sólo para
archivos ASCII con formato).

5. Delimitador – delimitador de columna (sólo para archivos ASCII delimitados).

6. Filas - el intervalo de filas con el que será leída la hoja de cálculo. Este intervalo incluye los
nombres de las variables, si están presentes.

7. Encabezado - información contenida en las dos primeras filas del intervalo especificado
(para hojas de cálculo de programas tales como Excel). Las dos primeras filas de los
datos se leerán como nombres de columna y/o comentarios. Si los nombres no están
contenidos en el archivo se generarán nombres por defecto.

8. Identificador de valor desaparecido - Algún símbolo especial utilizado en el archivo


externo para indicar valor desaparecido, tal como NA. Las celdas que contengan este
valor especificado se convertirán en celdas vacías cuando se sitúen en una hoja de datos
de STATGRAPHICS Centurion 18.

Cuando se presione ACEPTAR, se leerán los datos del archivo externo en STATGRAPHICS
Centurion 18. Se escaneará cada columna y se le asignará un tipo de columna apropiado. Los
datos están listos para ser analizados.

2.2.3 Transfiriendo datos utilizando Copiar y Pegar


El camino más fácil para transferir datos de otra aplicación a STATGRAPHICS Centurion 18 es
a través del portapapeles de Windows. Por ejemplo, si los datos residen en un archivo Excel, se
puede iniciar Excel y copiar los datos al portapapeles seleccionando los datos en Excel y

41/ Manejo de datos


eligiendo Copiar en el menú Edición de Excel. Volviendo a STATGRAPHICS, los datos pueden
ser pegados directamente en la hoja de datos de STATGRAPHICS Centurion 18 seleccionando
Pegar en el menú Edición de STATGRAPHICS. Cuando los datos se pegan en una columna de la
hoja de datos, STATGRAPHICS Centurion 18 automáticamente los chequea y selecciona un
tipo apropiado para la columna.

Cuando se copian y pegan datos, los nombres de las columnas y los comentarios también
pueden ser transferidos. Incluir los nombres de columna y comentarios en Excel cuando se
copien los datos al portapapeles. En STATGRAPHICS Centurion 18, haga clic en la fila de la
cabecera de la hoja de datos de STATGRAPHICS Centurion 18 antes de seleccionar Pegar. La
información del principio del portapapeles se pegará entonces en la o las filas de la cabecera.

2.2.4 Consultando una base de datos ODBC


STATGRAPHICS Centurion 18 también permite leer datos de Oracle, Access, u otra base de
datos utilizando ODBC. Para acceder a los datos de la base de datos, primero seleccione Archivo
– Abrir – Abrir origen de datos. Luego seleccione Consulta de base de datos en el cuadro de diálogo
inicial (si desea usar el Asistente) o la opción de Consulta SQL Manual en caso de que tenga
predefinida una consulta para capturar. Para usar el asistente, complete el recuadro como se
muestra a continuación:

Figura 2-9. Cuadro de diálogo Abrir origen de datos

Se mostrará una secuencia de cuadros de diálogo adicionales en las cuales es posible:

1. Seleccionar el nombre de la base de datos a leer.

2. Seleccionar los campos que van a ser transferidos.

3. Especificar un filtro para limitar los registros que serán recuperados.

42/ Manejo de datos


4. Especificar un orden de salida de los resultados.

Se construye una consulta SQL y los resultados se situarán en la hoja de datos activa de
STATGRAPHICS Centurion 18. Se puede encontrar información detallada sobre la
construcción de consultas ODBC en el documento PDF titulado Archivos de datos y StatLink.

2.3 Manipulando Datos


Una vez que los datos han sido situados en la hoja de datos de STATGRAPHICS Centurion 18,
pueden ser manipulados por varios caminos distintos:

1. Los datos pueden ser copiados y pegados en otras localizaciones.

2. Pueden crearse columnas adicionales a partir de columnas existentes.

3. Los datos pueden ser transformados mediante expresiones algebraicas o funciones


matemáticas.

4. La hoja de datos puede ser ordenada según una o más columnas.

5. Los valores de los datos pueden ser grabados para formar grupos o por otras razones.

6. Los datos que se extienden a lo largo de múltiples columnas pueden ser recolocados en
una columna simple si se requiere para un procedimiento estadístico.

Estas importantes operaciones se describen a continuación.

2.3.1 Copiando y pegando datos


La hoja de datos de STATGRAPHICS Centurion 18 soporta la mayoría de las operaciones
típicas en las hojas de cálculo, incluyendo cortar, copiar, pegar, insertar y borrar. El único hecho
importante a recordar cuando se usan estas operaciones es que cada columna tiene un tipo
especificado. Si por descuido se pegan datos carácter en columnas numéricas, STATGRAPHICS
Centurion 18 cambiará el tipo de la columna para acomodarla a los nuevos datos. Si hay alguna
duda acerca de los tipos de las columnas, haga clic en la cabecera de la columna para mostrar el
cuadro de diálogo Modificar Columna. Puede cambiar el tipo de la columna utilizando este cuadro
de diálogo.

43/ Manejo de datos


2.3.2 Creando nuevas variables de columnas existentes
STATGRAPHICS Centurion 18 tiene una amplia variedad de operadores para ayudar en los
cálculos y transformaciones matemáticas. Uno de los usos más importantes de estos operadores
de análisis de datos es crear nuevas variables basadas en columnas existentes. En
STATGRAPHICS Centurion 18 pueden crearse nuevas variables:

1. “Sobre la marcha” directamente con los campos de datos en las entradas de datos de los
cuadros de diálogo, sin guardar la variable en la hoja de datos.

2. Creando una nueva columna en una de las 26 hojas de datos en el libro de datos.

Por ejemplo, supongamos que deseamos información acerca de la ratio millas por galón
conduciendo en ciudad frente a millas por galón conduciendo en carretera para cada automóvil
de los 93 del archivo de datos. Este archivo contiene 2 columnas separadas, una llamada MPG
City y otra llamada MPG Highway. Para resumir la distribución de las ratios, puede seleccionar el
procedimiento Análisis de una variable y especificar la ratio directamente en el campo Datos del
cuadro de diálogo de entrada de datos:

Figura 2-10. Creando una transformación “Sobre la marcha”


Cuando se presiona ACEPTAR, se generará un análisis para 100 veces la ratio, sin cambiar los
datos en la hoja de datos:

44/ Manejo de datos


Figura 2-10. Transformando datos en Análisis de una variable
La ratio media es aproximadamente 76.3%, variando desde el 64.0% por abajo hasta el 93.9%
por arriba. La posibilidad de realizar análisis sin modificar las hojas de datos es muy importante
para facilitar la exploración de datos.

Si lo desea, puede crear una nueva columna en la hoja de datos conteniendo los valores
transformados. Por ejemplo, puede volver a la ventana que contiene los datos de los 93coches y
hacer doble clic en la cabecera de la columna etiquetada Col_27. Puede utilizar el cuadro de
diálogo Modificar columna para definir una nueva variable de tipo fórmula con la transformación
deseada:

45/ Manejo de datos


Figura 2-12. Creando una columna mediante fórmula
Esto creará una nueva columna cuyos valores son calculados a partir de las dos columnas
originales que contienen los datos de las millas por galón. Las columnas de Fórmula se muestran
en la hoja de datos utilizando una escala de grises, siempre que se calculen automáticamente a
partir de otras columnas:

Figura 2-13. Apariencia de una columna Fórmula en una hoja de datos

46/ Manejo de datos


Si los valores de las columnas MPG City o MPG Highway cambian, MPG Ratio se recalculará
automáticamente para reflejar los cambios.

NOTA: El recálculo de columnas Fórmula no ocurre normalmente hasta que los datos
de estas columnas se necesiten para un cálculo o se guarden o impriman. Puede
especificar que ocurra inmediatamente un recálculo seleccionando Actualizar fórmulas en
el menú Edición.

2.3.3 Transformando datos


STATGRAPHICS Centurion 18 también contiene un gran número de funciones matemáticas
que pueden utilizarse para transformar datos existentes. Como en la creación de variables, las
transformaciones pueden hacerse directamente en los campos de entrada de datos del cuadro de
diálogo o creando nuevas columnas en la hoja de datos.

Por ejemplo, supongamos que deseamos representar las millas por galón consumidas por un
automóvil frente al logaritmo natural del peso de los vehículos. Seleccionando el procedimiento
Gráfico X-Y del menú principal se muestra el siguiente cuadro de diálogo de entrada de datos:

Figura 2-14. Transformando datos en un cuadro de diálogo de entrada de datos


En lugar de teclear el nombre de una columna en un campo de datos, puede teclear una
expresión STATGRAPHICS Centurion. Las expresiones de STATGRAPHICS Centurion son
fórmulas que operan en los datos utilizando símbolos algebraicos y operadores especiales. Hay
una amplia variedad de operadores disponibles, como se describe en el documento PDF titulado

47/ Manejo de datos


STATGRAPHICS Operators. La tabla siguiente muestra los operadores más utilizados
habitualmente:

Operador Uso Ejemplo


+ Suma X+100
- Resta X-100
/ División X/100
* Multiplicación X*100
^ Exponenciación X^2
ABS Valor absoluto ABS(X)
AVG Media AVG(X)
DIFF Diferencia hacia atrás DIFF(X)
EXP Función exponencial EXP(10)
LAG Paso para k periodos LAG(X,k)
LOG Logaritmo natural LOG(X)
LOG10 Logaritmo en base 10 LOG10(X)
MAX Máximo MAX(X)
MIN Mínimo MIN(X)
SD Desviación típica SD(X)
SQRT Raíz cuadrada SQRT(X)
STANDARDIZE Conversión a STANDARDIZE(X)
puntuaciones Z
Figura 2-15. Operadores de STATGRAPHICS utilizados habitualmente
Cuando se construye una expresión de STATGRAPHICS Centurion, pueden combinarse
múltiples operadores utilizando las reglas formales de precedencia algebraica. Por ejemplo, la
siguiente expresión convierte cada valor de la columna de nombre Weight en una fracción de la
distancia entre el máximo y el mínimo para todos los automóviles:

( Weight – MIN(Weight) ) / ( MAX(Weight) - MIN(Weight) )

El paréntesis es necesario para asegurar que las restas se hacen antes que la división. Las
expresiones no son sensibles a mayúsculas y la inclusión de espacios en blanco no es relevante.

Cada cuadro de diálogo de entrada de datos incluye un botón etiquetado Transformar. Este botón
puede utilizarse para ayudar a crear expresiones STATGRAPHICS Centurion, si no recuerda los
operadores a utilizar. Si sitúa el cursor en un campo de datos y presiona Transformar, se muestra
un cuadro de diálogo similar al siguiente:

48/ Manejo de datos


Figura 2-16. Cuadro de diálogo mostrado por el botón transformar
A la derecha de la pantalla hay una lista con todos los operadores de STATGRAPHICS
Centurion, con una indicación del número de argumentos que deben cumplimentarse. Haciendo
clic en el nombre de un operador, este se sitúa en el campo Expresión. Después de reemplazar los
signos de interrogación con nombres o números de columnas, puede presionar el botón Mostrar
para ver los primeros valores generados por la expresión, o presionar el botón Aceptar para
introducir la expresión en el cuadro de diálogo de entrada de datos.

NOTA: No necesita utilizar el botón Transformar si quiere teclear la expresión


directamente en el cuadro de diálogo de entrada de datos.

Una vez especificada la transformación en el cuadro de diálogo de entrada de datos, se utilizará


cuando se ejecute el procedimiento:

49/ Manejo de datos


Figura 2-17. Procedimiento Gráfico X-Y utilizando valores transformados de Weight
También se pueden utilizar los operadores de STATGRAPHICS Centurion cuando se crean
columnas fórmula, similar a la ilustración en la sección precedente.

2.3.4 Ordenando datos


El contenido de la hoja de datos puede ordenarse realzando la columna o columnas que van a
ser utilizadas para definir el orden y seleccionando Ordenar datos en el menú Edición. Por ejemplo,
para ordenar los datos de los 93coches del archivo de acuerdo con las millas por galón, realzar las
columnas de nombres MPG City y MPG Highway y seleccionar Ordenar datos. Se muestra el
siguiente cuadro de diálogo:

50/ Manejo de datos


Figura 2-18. Cuadro de diálogo Opciones de ordenamiento
Debe especificar cada una de las dos columnas en que se basa la ordenación, así como la
dirección del orden. Ordenado por MPG City y después por MPG Highway se ordena primero
por millas por galón en ciudad y después se ordena por millas por galón en carretera para
automóviles con el mismo valor de MPG City:

Figura 2-19. Archivo 93cars.sgd después de la ordenación

51/ Manejo de datos


NOTA: El procedimiento estadístico no requiere que ordene los datos antes, ya que
dicha ordenación será automática si es necesario. Además, el archivo de datos en disco
no cambia cuando se ejecuta una ordenación hasta que no vuelva a guardar los datos. La
ordenación sólo afecta a las filas de la hoja de datos que se muestra actualmente (y no al
resto de las hojas).

2.3.5 Recodificando datos


En algunas ocasiones es conveniente recodificar los datos, bien sea agrupando en grupos
similares o asignando nuevas etiquetas. Para recodificar una columna de datos, primero haga clic
en la cabecera de la columna que va a ser recodificada. Después seleccione Recodificar datos en el
menú Edición. Se mostrará el siguiente cuadro de diálogo:

Figura 2-20. Cuadro de diálogo para Recodificación de datos


Por ejemplo, la columna de nombre Domestic en el archivo 93cars contiene un 1 para cada coche
fabricado en U.S. y un 0 para el resto de los coches. Para cambiar todos los ceros de la columna
a “Extranjero” y todos los unos a “U.S.”, se utilizará el cuadro de diálogo mostrado arriba. Para
recodificar se pueden especificar hasta 7 intervalos de valores a la vez.

52/ Manejo de datos


El documento PDF titulado Menú Editar incluye una discusión detallada de los dos ejemplos de
recodificación.

2.3.6 Combinando múltiples columnas


Muchos procedimientos estadísticos en STATGRAPHICS Centurion 18 esperan que los datos a
analizar se encuentren en una columna simple. Algunas veces no se dispone de los datos en tal
formato. Como ejemplo simple, supongamos que tenemos una muestra de 12 observaciones,
preparadas en cuatro columnas como sigue:

Figura 2-21. Muestra de datos en múltiples columnas


Para situar los datos en una columna única, deberán ejecutarse múltiples operaciones de cortar y
pegar. Una solución simple es utilizar el procedimiento Combinar columnas, definido en Editar en
el menú principal. Este procedimiento muestra primero el cuadro de diálogo de entrada de datos
que requiere los nombres de las columnas que contienen los datos:

53/ Manejo de datos


Figura 2-22. Cuadro de diálogo de entrada de datos para combinar columnas
Contiene los siguientes campos:

1. Datos – columnas que van a ser combinadas.

2. Selección – subconjunto estándar de campos de selección para elegir un


subconjunto de filas.

3. Hoja de datos – datos de la hoja de destino para la combinación de datos.

4. Orden de columna – cuando se agrupan los datos por columnas (una columna
después de otra) o por filas.

5. Crear una columna con números de fila – cuando se crea una segunda columna
identificando la fila original que contiene cada valor de dato.

6. Crear columnas con identificadores – cuando se crea una segunda columna


identificando la columna original conteniendo cada valor de datos.

54/ Manejo de datos


7. Eliminar valores faltantes – cuando se saltan todas las celdas blancas en vez de
dejarlas con su marcador de posición.

Cuando se presiona ACEPTAR, los datos se combinarán en una columna simple como se
muestra a continuación:

Figura 2-23. Datos combinados en una columna simple

2.4 Generando datos


STATGRAPHICS Centurion 18 tiene la posibilidad de generar datos y situarlos en columnas de
la hoja de datos. Esta sección describe dos ejemplos importantes:

1. Generando datos con patrones simples.

2. Generando números aleatorios.

2.4.1 Generando datos con patrones


Varios procedimientos en STATGRAPHICS Centurion 18, particularmente los que ejecutan un
análisis de la varianza, esperan que los datos a analizar se sitúen en una columna simple de la
hoja de datos, junto con una o más columnas de códigos identificando los factores explicativos.
Por ejemplo, considerar los datos de la siguiente tabla de doble entrada:

55/ Manejo de datos


Blend Treatment 1 Treatment 2 Treatment 3
1 75 82 91
2 78 85 93
3 77 84 92
4 75 85 96

Para analizar los datos utilizando el procedimiento ANOVA Multifactorial, se necesita situarlos
en una hoja de datos con el formato siguiente:

Figura 2-24. Estructura deseada de los datos


Las dos primeras columnas indican los niveles de los factores correspondientes a cada nivel de
datos. La tercera columna contiene todas las observaciones.

Para crear tal fichero, la solución más fácil es a menudo teclear las dos primeras columnas. Sin
embargo, si las columnas siguen patrones simples, puede generarlas utilizando operadores
especiales de STATGRAPHICS Centurion. Por ejemplo, los números de la columna “blend”
pueden ser generados haciendo clic en la cabecera de la columna #1 y seleccionando Generar
Datos en el menú Edición. Se muestra el siguiente cuadro de diálogo, en el cual se ha introducido
una expresión:

56/ Manejo de datos


Figura 2-25. Generando números Blend
La opción Generar datos evalúa una expresión STATGRAPHICS Centurion y sitúa los resultados
en la columna seleccionada. En la expresión que se muestra arriba, se utilizan dos operadores
importantes:

COUNT(desde, hasta, por) – genera valores comenzando en desde y finalizando en hasta, en


intervalos iguales a por. COUNT(1,4,1) genera los enteros 1, 2, 3 y 4.

REP(X, repeticiones) – repite cada valor en X repeticiones veces, en grupos. En este caso,
cada entero entre 1 y 4 se repite 3 veces.

Los números de tratamiento pueden ser generados de una forma similar haciendo clic en la
cabecera de la columna #2, seleccionando Generar Datos del menú Edición e introduciendo lo
siguiente:

57/ Manejo de datos


Figura 2-26. Generando números de tratamiento
Esta expresión utiliza un operador adicional:

RESHAPE(X, tamaño) – repite los valores en X en forma circular hasta que tamaño
valores han sido generados. En este caso, la secuencia 1, 2, 3 se repite 4 veces.

Estos generadores de patrones pueden ayudar cuando los archivos de datos son muy grandes.

2.4.2 Generando números aleatorios


Los números aleatorios pueden ser generados en STATGRAPHICS Centurion 18 por dos
caminos:

1. Si los números provienen de una distribución exponencial, gamma, lognormal, normal,


uniforme, o Weibull, pueden ser generados en una hoja de datos haciendo clic en una
cabecera de columna, seleccionando Generar datos en el menú Edición e introduciendo las
expresiones apropiadas de STATGRAPHICS Centurion.

2. Números Aleatorios pueden generarse desde varias distribuciones seleccionando


Simulación Monte Carlo – Generación de Números Aleatorios desde el menú Herramientas.

3. Números Aleatorios también pueden generarse desde el procedimiento Distribuciones de


Probabilidad.

58/ Manejo de datos


Como ejemplo, supongamos que se necesitan 100 números aleatorios de una distribución
normal de media 20 y desviación típica igual a 2. Hacer clic en la cabecera de una columna vacía
en una hoja de datos para seleccionar la columna. Seleccionar Generar datos en el menú Edición y
completar el cuadro de diálogo como se muestra a continuación:

Figura 2-27. Generando números aleatorios para una distribución normal


La sintaxis del operador RNORMAL es la siguiente:

RNORMAL(n, mu, sigma) – genera n números pseudo-aleatorios de una distribución


normal con media mu y desviación típica sigma.

Presionar Aceptar para generar los números aleatorios y situarlos en la columna seleccionada.

La sintaxis de otros generadores de números aleatorios está contenida en el documento PDF


titulado STATGRAPHICS Centurion Operators.

59/ Manejo de datos


2.5 Propiedades del libro de datos
Este capítulo describe aspectos importantes del manejo de datos con STATGRAPHICS
Centurion 18. En particular, se muestra cómo leer datos de archivos y bases de datos y cómo
manipular los datos una vez que han sido situados en la hoja de datos de STATGRAPHICS
Centurion 18. En un momento dado, puede mostrarse el estado de las hojas de datos activando
la ventana del libro de datos y seleccionando Propiedades del libro de datos en el menú Edición o
seleccionando StatLink en el menú Archivo:

Figura 2-28. Cuadro de diálogo de Propiedades del libro de datos


Este cuadro de diálogo muestra el origen actual de los datos de cada hoja. También puede usarse
para cambiar el número de hojas de datos que se mostrarán en el Libro de Datos. Si se desea, las
hojas de datos pueden hacerse de sólo lectura para no ser cambiadas sin darnos cuenta. También
es posible observar el origen de datos (releerlo) en intervalos regulares y tener actualizados
automáticamente los procedimientos estadísticos. Estas importantes características se describen
en el capítulo 5.

60/ Manejo de datos


2.6 Visor de datos
El menú Herramientas contiene un procedimiento que visualiza los archivos de datos cargados en
el Libro de Datos. A este procedimiento se accede al seleccionar Visor de Datos desde el menú
Herramientas, y permite seleccionar un conjunto de columnas:

Figura 2-29. Recuadro Propiedades del Libro de Datos

Luego produce un resumen del número de valores únicos y no perdidos y los valores mínimos y
máximos de cualquier variable seleccionada:

61/ Manejo de datos


Visor de Datos
Número de columnas: 26
Número de filas: 93
Número de casos completos: 82

Columna Nodesaparecido Unico Columna


Nombre Commentario Tipo Valores Valores Minimo Nombre
Air Bags 0=none, 1=driver only, 2=driver and Numeric 93 3 0 2
passenger
Cylinders Numeric 92 5 3.0 8.0
Domestic 1=U.S. manufacturer Numeric 93 2 0 1
Drive Train Character 93 3
Engine Size Liters Numeric 93 25 1.0 5.7
Fueltank Gallons Numeric 93 38 9.2 27.0
Horsepower Maximum Numeric 93 57 55.0 300.0
Length Inches Numeric 93 51 141.0 219.0
Luggage cu. ft. Numeric 82 16 6.0 22.0
Make Character 93 32
Manual 0=no, 1=yes Numeric 93 2 0 1
Max Price price for a premium version in $1,000 Numeric 93 79 7.9 80.0
Mid Price average of min and max prices in $1,000 Numeric 93 81 7.4 61.9
Min Price price for basic version in $1,000 Numeric 93 79 6.7 45.4
Model Character 93 93
MPG City miles per gallon in city driving Numeric 93 21 15.0 46.0
MPG Highway miles per gallon in highway driving Numeric 93 22 20.0 50.0
Passengers Persons Numeric 93 6 2.0 8.0
Rear seat Inches Numeric 91 24 19.0 36.0
Revs per Mile revs per mile in highest gear Numeric 93 78 1320.0 3755.0
RPM revs per minute at maximum horsepower Numeric 93 24 3800.0 6500.0
Type Character 93 6
U Turn Space Feet Numeric 93 14 32.0 45.0
Weight Pounds Numeric 93 81 1695.0 4205.0
Wheelbase Inches Numeric 93 27 90.0 229.0
Width Inches Numeric 93 16 60.0 78.0

Figura 2-29. Tabla de Salida Propiedades del Libro de Datos

62/ Manejo de datos


3
Capítulo

Ejecutando análisis estadísticos


Generando un análisis, seleccionando tablas y gráficos adicionales,
seleccionando opciones, cambiando la entrada de datos y guardando los
resultados.

Hay alrededor de 220 procedimientos estadísticos en el menú principal de STATGRAPHICS


Centurion 18. Cada selección accede a un procedimiento estadístico. Todos los procedimientos
trabajan según el mismo camino básico:

1. Cuando se selecciona un análisis del menú, se muestra su cuadro de diálogo de entrada de datos. Los
campos en este cuadro de diálogo se utilizan para especificar las variables que van a ser
analizadas.

2. Si el procedimiento seleccionado tiene opciones que afectan a tablas y gráficos, se muestra el


cuadro de diálogo Opciones de análisis para seleccionar las características deseadas.

3. Si el procedimiento seleccionado tiene más de una tabla simple y más de un gráfico simple, se
muestra el cuadro de diálogo Tablas y Gráficos en el cual se puede seleccionar la salida deseada.

4. Se leen y analizan los datos especificados, y se crea una nueva ventana de análisis.

5. Las opciones seleccionadas pueden cambiarse utilizando el botón Opciones de análisis de la barra
de herramientas de análisis y se podrán actualizar todas las tablas y gráficos de la ventana de
análisis.

6. Si lo desea, pueden requerirse tablas y gráficos adicionales con el botón Tablas y Gráficos de la
barra de herramientas de análisis.

63/ Ejecutando Análisis Estadísticos


7. Se pueden modificar tablas y gráficos individuales maximizando el panel correspondiente
seleccionando Opciones de panel en la barra de herramientas de análisis.

8. Para gráficos, el título por defecto, escala, tipos de puntos, fuentes, etc. pueden cambiarse
haciendo doble clic en el gráfico para maximizarlo seleccionando Opciones gráficas en la barra de
herramientas de análisis.

9. Las tablas y gráficos pueden imprimirse, publicarse como archivos HTML, copiarse a otras
aplicaciones tales como Microsoft PowerPoint, o guardarse en StatReporter.

10. Los resultados numéricos pueden guardarse en columnas de una hoja de datos utilizando el
botón Guardar resultados en la barra de herramientas de análisis.

11. El análisis completo puede ser guardado en disco como un StatFolio para recuperarlo después.

En este capítulo se describe en detalle un análisis típico. La finalidad del análisis es construir un
modelo estadístico que explique las millas por galón recorridas en ciudad para n = 93 automóviles del
archivo 93cars.sgd en función de su peso. A continuación se muestra un gráfico de dispersión de los
datos:

Gráfico de MPG City vs Weight

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 3-1. Gráfico X-Y de las millas por galón conduciendo en ciudad contra el peso en Weight en libras

64/ Ejecutando Análisis Estadísticos


Como era de esperar, las millas por galón recorridas están correlacionadas negativamente con el
peso. Son evidentes algunas no linealidades en la relación, y al menos un punto parece ser un
potencial atípico.

El procedimiento primario en STATGRAPHICS Centurion 18 para ajustar un modelo


estadístico que relaciona dos variables es el procedimiento Regresión Simple. Este procedimiento
ajusta modelos lineales y no lineales. Los modelos simples relacionando una variable dependiente
Y con una variable independiente X consisten en una línea recta de la forma

Y=a+bX

donde b es la pendiente de la línea y a es la ordenada en el origen. Los modelos curvilíneos tales


como el modelo exponencial

Y = exp(a + b X)

pueden utilizarse si la relación es no lineal.

3.1 Cuadro de diálogo de entrada de datos


El procedimiento Regresión Simple está localizado en el menú principal:

1. Si utiliza el menú clásico, en Relacionar – Un Factor.

2. Si utiliza el menú Seis Sigma, en Mejorar – Análisis de la regresión – Un Factor.

Se comienza mostrando el cuadro de diálogo de entrada de datos típico:

65/ Ejecutando Análisis Estadísticos


Figura 3-2. Cuadro de diálogo de entrada de datos de Regresión simple
Se requieren los dos primeros campos de entrada:

Y: Variable dependiente o respuesta.

X: Variable independiente o predictora.

En los campos de entrada de datos, puede introducir el nombre de la columna como MPG City o una
expresión de STATGRAPHICS Centurion como LOG(MPG City). Si hay más de una hoja de datos
que contenga una columna con un mismo nombre, será necesario indicar la hoja de datos deseada
para trabajar. Por ejemplo, si las hojas de datos A y B contienen una columna de nombre Weight y se
quiere utilizar la columna en la hoja de datos A, se debe introducir su nombre como A.Weight.

El campo Seleccionar puede utilizarse para seleccionar un subconjunto de filas en la hoja de datos. Por
ejemplo, si se introduce una sentencia tal como FIRST(50) en este campo, sólo se utilizarán las
primeras 50 filas de la hoja de datos. Entradas típicas en el campo Seleccionar son:

66/ Ejecutando Análisis Estadísticos


Entrada Uso Ejemplo
FIRST(k) Selecciona las primeras k filas. FIRST(50)
LAST(k) Selecciona las últimas k filas. LAST(50)
ROWS(inicio,fin) Selecciona filas entre inicio y fin, inclusive. ROWS(21,70)
RANDOM(k) Selecciona un conjunto aleatorio de k filas. RANDOM(50)
column < value Selecciona sólo las filas para las cuales Passengers < 5
column es menor que value.
column <= value Selecciona sólo las filas para las cuales Passengers <= 5
column es menor o igual que value.
column > value Selecciona sólo las filas para las cuales Passengers > 5
column es mayor que value.
column >= value Selecciona sólo las filas para las cuales Passengers >= 5
column es mayor o igual que value.
column = value Selecciona sólo las filas para las cuales Cylinders = 6
column es igual a value.
column <> value Selecciona solo las filas para las cuales Cylinders <> 4
column no es igual a value.
condition1 & condition2 Selecciona solo las filas que cumplen Cylinders = 6 & Make =
ambas condiciones. “Ford”
condition1 | condition2 Selecciona sólo las filas que cumplen al Cylinders = 6 | Make =
menos una de las dos condiciones. “Ford”
binarycolumn Selecciona sólo las filas para las cuales el Domestic
valor en binarycolumn no es igual a 0.
Figura 3-3. Entradas permitidas para el campo seleccionar
Cuando especificamos una condición que contiene una variable no numérica, value debe ser incluida
entre comillas dobles y es sensible a mayúsculas. Pueden combinarse condiciones múltiples combinando
los símbolos AND (&) y OR (|).

Cada una de las entradas permitidas en el campo Seleccionar generan una secuencia de ceros y unos
Booleanos, dónde cero representa FALSO y uno representa VERDADERO. Cuando utilizamos el
campo Seleccionar del cuadro de diálogo de entrada de datos, el resultado es la selección de todas las
filas para las cuales la condición es VERDADERA y la exclusión de todas las filas para las cuales la
condición es FALSA.

67/ Ejecutando Análisis Estadísticos


3.2 Cuadro de Diálogo Adicional para Entradas
Una vez que se hayan especificado los datos, se mostrarán dos recuadros adicionales antes de realizar
cualquier operación. Estos recuadros son:

1. El recuadro Opciones de Análisis, que selecciona opciones básicas para el análisis. Para Regresión
Simple, el recuadro de Opciones de Análisis define el tipo de modelo a ser ajustado y el método
para estimar los coeficientes desconocidos del modelo:

Figura 3-4. Recuadro Opciones de Análisis Regresión Simple


2. El recuadro de Tablas y Gráficas, que selecciona las tablas y gráficas a mostrar:

Figura 3-5. Recuadro Tablas y Gráficas Regresión Simple

68/ Ejecutando Análisis Estadísticos


3.3 Ventana de análisis
Una vez especificados los datos y otras opciones iniciales, se crea una nueva ventana de análisis:

Figura 3-6. Ventana de análisis de Regresión simple


La ventana es una “ventana desgajada”, con múltiples paneles divididos por una barra de separación
móvil. Las tablas se localizan a lo largo del lado izquierdo de la ventana, mientras que los gráficos se
localizan a lo largo del lado derecho.

Puede maximizar la tabla o gráfico en un panel haciendo doble clic sobre él, en cuyo caso ocupará
toda la ventana:

69/ Ejecutando Análisis Estadísticos


Figura 3-7. Ventana de análisis de Regresión simple con el panel maximizado
Haciendo doble clic en el panel una segunda vez, se restaura el panel múltiple.

Cuando se ha elegido una ventana de análisis, se activa directamente una segunda barra de
herramientas bajo la barra de herramientas principal de STATGRAPHICS Centurion 18. La barra de
herramientas de análisis se muestra a continuación:

Cada uno de los botones en esta barra de herramientas ejecuta una operación importante.

3.3.1 Botón Entrada de diálogo


Cuando se presiona este botón, se muestra el cuadro de diálogo de entrada de datos utilizado
originalmente para especificar las variables de datos, tal y como se muestra en la figura 3-2. Si cambia
las variables de datos y presiona ACEPTAR, los análisis cambiarán para reflejar las nuevas
70/ Ejecutando Análisis Estadísticos
selecciones. Esto posibilita intentar diferentes combinaciones de datos sin tener que comenzar un
nuevo análisis.

3.3.2 Botón Opciones de Análisis


Cuando se pulsa este botón, se presenta el recuadro de Opciones de Análisis como se muestra en la
Figura 3.4. En Regresión Simple, se puede acceder para probar un modelo que no sea lineal:

Figura 3-8. Recuadro Opciones de Análisis Regresión Simple seleccionando un Modelo No lineal
Si examina la salida de la figura 3-11, puede observar en la tabla de modelos alternativos que
varios modelos curvilíneos tienen un valor de R-cuadrado más alto que en el modelo lineal. Al
principio de la lista está el modelo Curva-S. Si se selecciona este modelo en el cuadro de diálogo
Opciones de análisis y se presiona ACEPTAR, cambiará el análisis completo para reflejar el nuevo
modelo. Como podemos ver examinando el gráfico del modelo ajustado, una curva S captura la
curvatura en los datos:

71/ Ejecutando Análisis Estadísticos


Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura3-9. Modelo en curva S ajustado

3.3.3 Botón tablas y gráficos


Este botón remuestra la lista de tablas y gráficos adicionales que pueden ser añadidas a la ventana
de análisis.

Figura 3-10. Cuadro de diálogo Tablas y Gráficos en Regresión simple


Por ejemplo, si selecciona añadir una tabla mostrando modelos alternativos, se añadirá un nuevo
panel a la ventana de análisis:

72/ Ejecutando Análisis Estadísticos


Figura 3-11. Ventana de análisis de Regresión simple con tablas añadidas

73/ Ejecutando Análisis Estadísticos


3.3.4 Botón guardar resultados
Este botón permite guardar resultados numéricos calculados por el análisis estadístico en las
columnas de la hoja de datos. Para Regresión simple, se muestran las siguientes posibilidades:

Figura 3-12. Opciones para Guardar Resultados


Para guardar información, marque los ítems de interés en el campo Guardar. Para cada ítem a
guardar, se asigna un nombre de columna en Variables de destino y se indica la hoja de datos
deseada para el almacenamiento. Si quiere guardar un comentario con los datos, marque Guardar
comentarios.

La casilla Autoguardar se utiliza para volver a guardar automáticamente el ítem seleccionado


cuando el análisis se vuelva a ejecutar. Se utiliza si se intenta guardar el análisis en un StatFolio,
análisis que se volverá a ejecutar cuando se lea el StatFolio. Marcando la casilla Autoguardar,
puede configurar un StatFolio para realizar cálculos automáticamente y guardar los estadísticos
deseados. Cuando se combinan los StatFolios con las capacidades de código que se muestran en
el capítulo 5, se posibilita la automatización de tareas.

74/ Ejecutando Análisis Estadísticos


3.3.5 Botón Opciones de panel
Además de las opciones que se aplican a la ventana completa del análisis, muchas tablas y
gráficos individuales tienen opciones que se aplican sólo a ellos. Se accede a estas opciones
maximizando la tabla o gráfico y presionando Opciones de panel. Para un Gráfico de modelo ajustado, las
opciones de panel son:

Figura 3-13. Cuadro de diálogo Opciones de panel para el gráfico del modelo ajustado
Por ejemplo, quitando las marcas correspondientes a los límites de confianza y presionando Aceptar
se redibujará el gráfico sin los límites interiores:

75/ Ejecutando Análisis Estadísticos


Figura 3-14. Grafico del modelo ajustado sin los límites de confianza

76/ Ejecutando Análisis Estadísticos


3.3.6 Botón Opciones Tabulares
Este botón se activa cuando se maximiza un panel tabular. Muestra un recuadro con
opciones que controlan cómo se presentan los datos en la tabla:

Figura 3-15. Cuadro de diálogo Opciones Tabulares


Debe especificar:

 Ancho máximo del desplegado: el ancho máximo en cm. de las tablas y otros textos.
Tablas que excedan el ancho establecido se mostrarán en secciones múltiples.

 Título coloreado: determina el color usado para resaltar el título del análisis (si hay uno).

 Etiquetas de las Filas: columna de datos que debería usarse para agregar etiquetas a las
tablas que listan a su salida, fila por fila.

 Substituir números de filas: en caso de que los números de filas en la tabla deban
reemplazarse por las etiquetas descritas anteriormente. Si no se marcada, las etiquetas
especificadas se agregarán a la tabla junto con los números de filas.

77/ Ejecutando Análisis Estadísticos


 StatAdvisor – Agregar al desplegado: determina si la salida del StatAdvisor se añadirá
a la parte baja del panel de texto, inmediatamente después de la información estadística
de salida.

 StatAdvisor – Referencias resaltadas: determina si las estadísticas mencionadas por el


StatAdvisor están resaltadas con un color especial.

 Nivel Alfa P-Valor: nivel alfa usado por el StatAdvisor en su interpretación del
resultado estadístico. En el caso de una prueba de hipótesis, corresponde al nivel de
significación de la prueba.

 Dígitos Significativos: el número de dígitos significativos usado para mostrar los


resultados numéricos.

 Tablas – Dividir tablas anchas: en caso de que las tablas excedan el ancho máximo
especificado, se dividirán en varias secciones.

 Tablas – No. Max. de filas: el número máximo de filas a mostrar en las tablas.

 Tablas – Reducir fuente: la cantidad con la que se reducirá el tamaño de fuente con
relación al tamaño normal del texto.

La configuración establecida en este recuadro anula los parámetros establecidos por el sistema
originalmente, pero exclusivamente para la tabla maximizada actual. Cambios generalizados en
los parámetros del Sistema deben modificarse seleccionando la opción Editar – Preferencias desde
el menú principal.

3.3.7 Botón Opciones Gráficas


Este botón se activa cuando se maximiza el panel de una gráfica. Muestra un recuadro con
opciones que controlan atributos como colores, etiquetas, líneas, rellenos y la escala de los ejes:

78/ Ejecutando Análisis Estadísticos


Figura 3-16. Recuadro Opciones Gráficas
En el Capítulo 4 se describen las diferentes opciones.

3.3.8 Botón StatLog


Este botón hace que las tablas y los gráficos visibles se copien al StatLog. El StatLog
registra acciones importantes que ocurren durante la sesión y se describe en una sección
posterior.

79/ Ejecutando Análisis Estadísticos


3.3.9 Botones gráficos
Cuando se maximiza un gráfico en la ventana de análisis, se habilitan varios botones adicionales.
Estos botones incluyen:

Añadir texto – se utiliza para añadir texto adicional al gráfico.

Separar – se utiliza para separar puntos en dirección horizontal o vertical, para prevenir su
solapamiento.

Pincel – puntos de colores en un diagrama de dispersión de acuerdo con los valores de una
variable seleccionada.

Alisado/Rotación– alisa gráficos en dos dimensiones, o rota gráficos tridimensionales.

Panorámica o Zoom – estrecha o agranda los gráficos X-, Y-, o Z.

Grabar video – graba como video cualquier interacción del usuario con el gráfico.

Explorar – explora dinámicamente superficies de respuesta o gráficos de contorno.

Identificar– muestra la etiqueta identificativa de un punto cuando se hace clic en él con el ratón.

Añadir objeto – añade un objeto adicional al gráfico presente.

Anular atributos – anula el color y el tipo de relleno del objeto gráfico presente, incluyendo puntos,
líneas y barras. Este botón está activo solamente si se ha marcado un objeto pulsando clic izquierdo
sobre el mismo.

Tamaño fuente de texto – usado para aumentar o reducir el tamaño de todo el texto en
una gráfica.

Marcas Eje X – usado para cambiar la orientación de las marcas en el eje x.

80/ Ejecutando Análisis Estadísticos


Localizar por nombre – resalta los puntos cuyos valores son iguales a los introducidos en el campo
Localizar (usado en conjunción con el botón Identificar).

Localizar por fila – resalta los puntos correspondientes al número de fila introducido en el campo
Fila.

Acercamiento sobre los ejes – usado para acercarnos o alejarnos


iteractivamente a lo largo de un eje determinado.

Cada uno de estos botones se describe más detalladamente en el capítulo 4.

3.3.10 Botón Excluir


Algunos procedimientos estadísticos permiten excluir interactivamente supuestos valores
atípicos de un análisis, haciendo clic en el punto supuesto y presionando el botón Excluir. Por
ejemplo, el gráfico de la figura 3-14 muestra un punto que está fuera de los límites de predicción.
Haciendo clic en este punto y presionando el botón Excluir, el modelo se reajusta sin el punto.
El gráfico del modelo ajustado muestra el nuevo modelo, indicando con una X qué punto (o
puntos) han sido removidos:

81/ Ejecutando Análisis Estadísticos


Figura 3-17. Modelo en curva S ajustado después de excluir un supuesto atípico
El resto de tablas y gráficos en la ventana de análisis también cambiarán para reflejar el nuevo
modelo.

Pueden excluirse múltiples puntos de un modelo haciendo clic en ellos de uno en uno y
presionando el botón Excluir. Haciendo clic en un punto que ha sido removido se reintegrará en
el modelo.

82/ Ejecutando Análisis Estadísticos


3.4 Imprimiendo los resultados
Para imprimir los resultados de un análisis estadístico son posibles dos opciones:

1. Para imprimir todas las tablas y gráficos de la ventana de análisis, presione el botón
Imprimir en la barra de herramientas de análisis o seleccione Imprimir en el menú Archivo.

2. Para imprimir una tabla o gráfico simples, haga clic en su panel con el botón derecho del
ratón y seleccione Imprimir en el menú emergente resultante.

Cuando imprima el análisis completo, se mostrará el siguiente cuadro de diálogo:

Figura 3-18. Cuadro de diálogo para imprimir un análisis


En Rango de impresión, especifique los paneles a imprimir. Puede imprimir simultáneamente la
salida en otra ventana de análisis eligiendo Todos los análisis.

Las opciones adicionales utilizadas para imprimir se encuentran en el cuadro de diálogo al que se
puede acceder seleccionando Configurar página en el menú archivo:

83/ Ejecutando Análisis Estadísticos


Figura 3-19. Cuadro de diálogo Configurar página
En este cuadro de diálogo es posible:

1. Especificar márgenes para imprimir páginas.

2. Indicar información de Encabezado a imprimir al principio de cada página.

3. Indicar cuándo debe mostrarse cada panel (tabla o gráfico) en una página separada, o
cuando deben situarse en una página múltiples paneles si se ajustan.

4. Especificar el tamaño relativo de los gráficos como un porcentaje de las dimensiones de


la página.

5. Elegir graficar la salida en blanco y negro, cuando la impresora tiene capacidades de


color.

6. Imprimir el color del fondo (si existe) o sus gráficos.

7. Graficar líneas anchas usando 2 píxeles en lugar de 1. Esta última opción puede hacer
aparecer los gráficos mejor marcados en una impresora de alta resolución.

84/ Ejecutando Análisis Estadísticos


Otras opciones, como imprimir la salida en modo vertical u horizontal, se configuran seleccionando
Opciones de impresión en el menú Archivo, que accede al cuadro de diálogo suministrado con el
controlador de su impresora.

3.5 Publicando los resultados


La salida de un análisis estadístico se puede publicar en formato HTML para verla con un
navegador Web seleccionando StatPublish en el menú Archivo. Esto le permite poner la salida a
disposición de todos en su organización, tengan o no STATGRAPHICS Centurion 18 en sus
ordenadores. La publicación se describe en el capítulo 5.

También puede copiar el análisis a StatReporter, que le permite anotar la salida y guardarla en un
archivo RTF (formato de texto enriquecido), que puede leerse directamente en programas como
Microsoft Word. El uso de StatReporter se describe en el capítulo 6.

85/ Ejecutando Análisis Estadísticos


4
Capítulo

Gráficos
Modificando gráficos, guardando perfiles gráficos, interactuando con gráficos,
guardando gráficos en archivos imagen y copiando gráficos a otras aplicaciones.

Juntos, los 220 procedimientos estadísticos de STATGRAPHICS Centurion 18 crean cientos de tipos
de gráficos diferentes. Para facilitar el proceso de análisis de datos, los títulos por defecto, escalado y
otros atributos se seleccionan en cualquier momento cuando se crea un nuevo gráfico. Para fines de
análisis, suelen ser suficientes las opciones por defecto. Pero cuando llega el momento de publicar los
resultados finales, es importante crear un gráfico con calidad de publicación.

Este capítulo describe todo lo que necesita conocer para trabajar con gráficos en STATGRAPHICS
Centurion 18. Se muestra cómo preparar los gráficos para una publicación y cómo copiarlos en
aplicaciones como Microsoft Word y PowerPoint. También muestra cómo interactuar con gráficos.
Por ejemplo, es posible que observe un punto interesante y desee saber más al respecto. O bien,
puede girar un gráfico en 3D para obtener una idea de cualquier relación entre las variables
proyectadas sobre los ejes X, Y y Z.

Como ejemplo, consideramos otra vez los datos del archivo 93cars.sgd. Para comenzar, el gráfico del
modelo ajustado relaciona millas por galón en ciudad y el peso de los vehículos y nos servirá para
ilustrar algunas de las operaciones más importantes con gráficos.

86/ Gráficos
4.1 Modificando gráficos
El procedimiento Regresión simple se utiliza habitualmente para ajustar curvas relacionando una variable
respuesta Y con una segunda variable explicatoria X. Como se ilustra posteriormente en este capítulo,
un modelo en curva S proporciona un buen ajuste a la relación entre la columna MPG City y la
columna Weight en el archivo 93cars.sf6.

La primera vez que se crea, se obtiene un gráfico del modelo en Curva S como se muestra a
continuación:

Gráfico del Modelo Ajustado


MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-1. Gráfico del modelo ajustado con título y escalado por defecto
Los títulos, escalado, puntos, tipos de línea, colores y otros atributos gráficos se generarán
automáticamente.

87/ Gráficos
4.1.1 Opciones de trazado
Para modificar un gráfico una vez creado, primero haga doble clic sobre él para que ocupe la
ventana de análisis. Haga clic en el botón Opciones gráficas localizado en la barra de
herramientas de análisis. Se mostrará un cuadro de diálogo con varias pestañas correspondientes
a diferentes elementos gráficos.

La pestaña Diseño del cuadro de diálogo Opciones gráficas se utiliza para cambiar algunas de las
características básicas del gráfico:

Figura 4-2. Pestaña Diseño en el cuadro de diálogo Opciones gráficas


Incluye la orientación y las marcas de los ejes, el grosor de los ejes y el color del fondo y bordes
de los gráficos. Por ejemplo, cambiando el color del Fondo a amarillo y añadiendo Efectos 3D se
modifica el gráfico como se muestra a continuación:

88/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-3. Gráfico después de modificar el color del fondo y seleccionar efectos 3D

NOTA: El proceso de cambio de color puede verse en la documentación de ayuda que


aporta el software haciendo clic en Ayuda – Guía de usuario.

89/ Gráficos
4.1.2 Opciones de rejilla (malla)
La pestaña Malla se utiliza para añadir una rejilla al gráfico:

Figura 4-4. Pestaña Malla en el cuadro de diálogo Opciones gráficas


Añadiendo un gris, los bordes de la malla en Ambas direcciones producen el siguiente gráfico:

90/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-5. Gráfico después de añadir una malla

91/ Gráficos
4.1.3 Opciones de líneas
La pestaña Líneas se utiliza para especificar el tipo, color y grosor de las líneas de un gráfico:

Figura 4-6. Pestaña Líneas en el cuadro de diálogo Opciones gráficas


Un gráfico tal como el del modelo ajustado tiene tres conjuntos de líneas: la línea del mejor ajuste, los
límites de confianza interiores y los límites de predicción exteriores. Para cambiar alguno de estos
tipos, haga clic en los botones #1, #15 o #16 y seleccione los atributos deseados. Aumentando el
grosor de la línea central y cambiando otros tipos de línea se tiene:

92/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-7. Gráfico después de modificar los Tipos de línea

NOTA: Solamente puede cambiar la anchura de líneas sólidas.

93/ Gráficos
4.1.4 Opciones de puntos
La pestaña Puntos se utiliza para especificar el tipo, color y tamaño de los puntos en un gráfico:

Figura 4-8. Pestaña Puntos en el cuadro de diálogo Opciones gráficas


El botón circular #1 controla los atributos del primer conjunto de puntos de un gráfico. En el
ejemplo actual, hay solo un conjunto. Cambiando los puntos a diamantes sólidos se crea el gráfico
siguiente:

94/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-9. Gráfico después de modificar el tipo de puntos

95/ Gráficos
4.1.5 Opciones del título superior
La pestaña Título superior se utiliza para especificar el tipo de texto y fuente para la información
mostrada en la parte superior del gráfico:

Figura 4-10. Pestaña Titulo Superior en el cuadro de diálogo Opciones Gráficas


Los gráficos tienen hasta dos líneas de título. Una entrada como “{3}” en un campo título indica
que el texto se genera automáticamente por el procedimiento de análisis, conteniendo
habitualmente nombres de variables o estadísticos calculados. Puede cambiar cualquier título,
incluyendo los que se han generado automáticamente. También puede arrastrar el título con el
ratón a una nueva localización:

96/ Gráficos
S-Curve Modelo de 93cars Archivo
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-11. Gráfico después de modificar el Título superior

97/ Gráficos
4.1.6 Opciones de escalado de ejes
El cuadro de diálogo Opciones gráficas contiene pestañas que permiten modificar los títulos de los ejes y
su escala:

Figura 4-12. Pestaña Eje X en el cuadro de diálogo Opciones Gráficas


Hay varios campos importantes en este cuadro de diálogo:

1. Título: Título graficado a lo largo de los ejes.

2. Desde, Hasta, Por y Omitir: conjunto de marcas de escalado. El valor de Omitir se utiliza para
prevenir que se muestren ciertas marcas solapándose unas con otras. Por ejemplo, un valor de
1 en el campo Omitir mostrará un salto en cada marca.

3. Etiquetas de los ejes: define la orientación de las marcas en los ejes.

4. Sin Potencias: suprime mostrar números grandes y pequeños utilizando etiquetas como (X
1000).

98/ Gráficos
5. Escalado: dibuja los ejes utilizando escala aritmética o dos escalas logarítmicas en base 10
diferentes.

6. Cuando cambian los datos: especifica cuándo será constante el escalado o cambiará cuando se
grafiquen nuevos datos.

7. Fuente de marcas: presiona este botón para cambiar el color, tamaño o estilo del título y marcas.

8. Marcas inversas: invierte la escala de los ejes de tal manera que el valor máximo se posiciona a la
izquierda y el valor mínimo a la derecha.

La salida generada por el cuadro de diálogo anterior realiza los cambios que se muestran a
continuación:

S-Curve Modelo de 93cars Archivo


MPG City = exp(2.1328 + 2799.07/Weight)

55

45
MPG City

35

25

15
1500 2000 2500 3000 3500 4000 4500
Weight

Figura 4-13. Gráfico después de modificar los títulos de los ejes y escalado

99/ Gráficos
4.1.7 Opciones de relleno
Algunos gráficos, tales como los histogramas, contienen áreas sólidas. La pestaña Relleno en el cuadro
de diálogo Opciones gráficas controla el color y tipo de relleno de barras, polígonos y trozos de los
sectores:

Figura 4-14. Pestaña Relleno en el cuadro de diálogo Opciones Gráficas


El botón circular #1 controla el primer tipo de relleno en un gráfico. En un histograma, todas las
barras utilizan el primer tipo de relleno. En algunos gráficos, tales como gráficos de sectores, se utiliza
más de un tipo de relleno. En estos casos, los botones #2 hasta #20 controlan los otros tipos de
relleno.

Para gráficos tales como histogramas, configurar el tipo de relleno como “no sólido” es una buena
idea cuando se imprimen los resultados en blanco y negro:

100/ Gráficos
Histograma

12

10

8
frecuencia

0
1500 2000 2500 3000 3500 4000 4500
Weight

Figura 4-15. Histograma de frecuencias con tipo de relleno modificado

4.1.8 Texto, Opciones de etiquetas y leyendas


Para gráficos que contienen leyendas adicionales o etiquetas, puede cambiar texto y fuentes por medio
de las pestañas del cuadro de diálogo Opciones gráficas.

4.1.9 Añadiendo texto nuevo


Puede añadirse texto adicional a un gráfico presionando el botón Añadir texto en la barra de
herramientas de análisis. Se generará un cuadro de diálogo en el cual se introduce el nuevo texto:

101/ Gráficos
Figura 4-16. Cuadro de diálogo para añadir Nuevo texto
La cadena de texto se posicionará inicialmente bajo el título superior, sin embargo, puede arrastrarse
con el ratón a cualquier otra localización:

S-Curve Modelo de 93cars Archivo


MPG City = exp(2.1328 + 2799.07/Weight)

55

45
<- outlier
MPG City

35

25

15
1500 2000 2500 3000 3500 4000 4500
Weight

Figura 4-17. Gráfico después de añadir una nueva cadena de texto


Después de añadir el texto, haga clic en él y presione el botón Opciones gráficas si necesita realizar
cambios.

102/ Gráficos
4.2 Separando un gráfico de dispersión
Cuando una o ambas de las variables de un gráfico de dispersión son discretas, puede haber
muchos puntos coincidentes prácticamente en la misma posición que oscurecen el gráfico. La
barra de herramientas tiene el botón Separar que soluciona este problema excluyendo
aleatoriamente puntos en la dirección de los ejes horizontal y vertical. Por ejemplo, considerar el
siguiente gráfico con los datos del archivo 93cars.sgd:

Gráfico de MPG City vs Cylinders

55

45
MPG City

35

25

15
3 4 5 6 7 8
Cylinders

Figura 4-18. Gráfico de dispersión de millas por galón contra cilindros


Aunque hay 93 filas en la hoja de datos, hay menos puntos en el gráfico.

Si se presiona el botón Separar aparece el cuadro de diálogo siguiente para añadir una pequeña
separación (aleatoriamente) en los puntos:

103/ Gráficos
Figura 4-19. Cuadro de diálogo de Separación
En este caso, añadiendo una pequeña cantidad de separación horizontal se ve mejor el gráfico y
la localización de los puntos:

Gráfico de MPG City vs Cylinders

55

45
MPG City

35

25

15
2 3 4 5 6 7 8 9
Cylinders

Figura 4-20. Gráfico de dispersión para Separación horizontal


Cada punto ha sido desplazado un poco a lo largo del eje X. La separación de puntos afecta
solamente al aspecto del gráfico. No afecta a los datos de la hoja de datos ni a ningún cálculo
hecho con ellos.

104/ Gráficos
4.3 Cepillando un gráfico de dispersión
Un método interesante de visualización de relaciones entre variables consiste en colorear los
puntos del gráfico de dispersión según los valores de otra variable. Por ejemplo, considerar el
siguiente Gráfico de Matriz para variables del archivo 93cars.sgd:

MPG City

MPG Highway

Length

Weight

Width

Figura 4-21. Gráfico de Matriz para datos del archivo 93cars


El gráfico de dispersión de cada celda del gráfico de matriz cruza los valores de las variables
correspondientes a su fila y columna.

Supongamos que queremos visualizar cómo está relacionada la potencia de los automóviles con
las 5 variables representadas. Si presiona el botón Pincel en la barra de herramientas de
análisis, se mostrará el cuadro de diálogo siguiente:

105/ Gráficos
Figura 4-22. Cuadro de diálogo para seleccionar la variable de resaltado
Seleccione una variable cuantitativa para utilizar el código de puntos de resaltado. Después de la
selección de la variable de resaltado, aparecerá un cuadro de diálogo flotante:

Figura 4-23. Cuadro de diálogo flotante para la selección del intervalo de resaltado
Las dos barras deslizantes se utilizan para especificar los límites inferior y superior para la
variable de resaltado. Todos los puntos en el gráfico serán coloreados de rojo si caen en el
intervalo especificado. Por ejemplo, en el gráfico siguiente, todos los automóviles con potencia
entre 55.0 y 121.15 se colorean de rojo:

106/ Gráficos
MPG City

MPG Highway

Length

Weight

Width

Figura 4-24. Gráfico de matriz después del resaltado de puntos


Es evidente en el gráfico anterior que la variable Caballos de Fuerza está fuertemente
correlacionada con las otras variables.

4.4 Alisando un gráfico de dispersión (tendencia)


Para ayudar a visualizar las relaciones entre las variables en un gráfico de dispersión, se puede
añadir un alisado o tendencia. Para alisar un gráfico de dispersión, presione el botón
Suavizar/Rotar en la barra de herramientas de análisis. Se mostrará el siguiente cuadro de
diálogo:

107/ Gráficos
Figura 4-25. Cuadro de diálogo Suavizado gráfico de dispersión
El suavizado de un gráfico de dispersión se realiza seleccionando un conjunto de localizaciones a
lo largo del eje X graficando cada localización como una media ponderada de la fracción
especificada de los puntos más cercanos localización. Uno de los mejores métodos de suavizado
es el llamado LOWESS (LOcally WEighted Scatterplot Smoothing), usualmente con una
fracción de suavizado entre el 40% y el 60%. A continuación se muestra el resultado del
suavizado del gráfico de matriz de los datos de automóviles:

MPG City

MPG Highway

Length

Weight

Width

Figura 4-26. Suavizado del gráfico de matriz utilizando fracción de suavizado inferior al 50%

108/ Gráficos
El suavizado ayuda a ilustrar el tipo de relación entre las variables.

4.5 Identificando Puntos


Para mostrar el número de fila y coordenadas correspondientes a un punto del gráfico, debe de
presionar con el botón izquierdo del ratón en el punto. Se mostrará un pequeño cuadro de
diálogo en la esquina superior derecha del gráfico, mostrando el número de fila y coordenadas
del punto:

Figura 4-27. Mostrando información acerca de puntos seleccionados


Al mismo tiempo, el número de fila del punto se situará en el campo Fila de la barra de
herramientas de análisis:

Figura 4-28. Barra de herramientas de análisis mostrando número de fila del punto seleccionado

Puede obtenerse información adicional acerca del punto presionando el botón Identificar y
seleccionando una columna del libro de datos:

109/ Gráficos
Figura 4-29. Cuadro de diálogo de Identificación de puntos
Después de seleccionar una variable, haciendo clic en un punto se añadirá el valor
correspondiente de la variable al campo etiquetado Etiqueta de la barra de herramientas de
análisis:

Figura 4-30. Barra de herramientas de análisis mostrando una selección de punto

El botón de los binoculares situado a la derecha de Etiqueta y Fila se puede utilizar para
localizar puntos en un gráfico. Si introduce un valor en cualquier campo al lado del binocular y
hace clic sobre el citado binocular, se iluminarán todos los puntos del gráfico coincidentes con el
valor introducido en el campo. Por ejemplo, el gráfico siguiente colorea de rojo todos los puntos
correspondientes a la marca de automóvil Honda:

110/ Gráficos
S-Curve Modelo de 93cars Archivo
MPG City = exp(2.1328 + 2799.07/Weight)

55

45
<- outlier
MPG City

35

25

15
1500 2000 2500 3000 3500 4000 4500
Weight

Figura 4-31. Gráfico iluminando todos los puntos de la marca Honda


Esta técnica es también efectiva en los gráficos matriciales. En el gráfico que se muestra a
continuación, se han iluminado todos los puntos correspondientes a la fila #42:

111/ Gráficos
MPG City

MPG Highway

Length

Weight

Width

Figura 4-32. Gráfico de matriz con la fila #42 iluminada


Localizar un punto en un gráfico de matriz puede ayudar a decidir cuándo se trata de un atípico
respecto a más de una variable.

NOTA: el color utilizado para iluminar los puntos se especifica en la pestaña Gráficos del
cuadro de diálogo Preferencias, accesible en el menú Edición.

4.6 Copiando gráficos a otras aplicaciones


Una vez creado un gráfico en STATGRAPHICS Centurion 18, puede copiarse fácilmente a
otros programas como Microsoft Word o PowerPoint mediante los pasos siguientes:

1. Maximizando el panel que contiene el gráfico.

2. Seleccionando Copiar en el menú Edición de STATGRAPHICS Centurion 18.

3. Seleccionando Pegar en la otra aplicación.

112/ Gráficos
Por defecto, los gráficos se pegan en formato “Picture”, correspondiente a Windows metafile.
En raros casos se realiza el pegado en otro formato. Se puede seleccionar Pegado especial en lugar
de Pegar.

Para copiar un análisis completo en otra aplicación, incluyendo todas las tablas y gráficos,
primero se copia el análisis a StatReporter utilizando el menú emergente del botón derecho del
ratón, y después se copia desde StatReporter a la otra aplicación. Esta técnica se ilustra en el
capítulo 7.

Para copiar tanto el gráfico como su ventana adjunta, como en la figura 4-31, se recomienda
utilizar una herramienta externa de captura de pantalla. Para realizar este manual, se ha utilizado
un programa llamado SnagIt, disponible en la dirección www.techsmith.com. Si usa SnagIt, le
recomendamos que configure la opción Entrada en “Ventana” y la opción Salida en
“Portapapeles”. Entonces podrá pegar imágenes directamente en cualquier documento.

4.7 Guardando gráficos en archivos de Imagen


Los gráficos individuales también pueden guardarse en archivos de Imagen maximizando un
gráfico y luego seleccionando Guardar gráfico en el menú archivo. Se mostrará un cuadro de diálogo
en el cual se especificará el nombre del archivo y el formato de imagen:

Figura 4-33. Cuadro de diálogo de selección de archivo para guardar gráficos en archivo imagen

113/ Gráficos
Para guardar gráficos que se leerán en Word o PowerPoint, debe utilizarse el formato Windows
metafile que ofrece la mayor flexibilidad. Si el gráfico debe mostrarse en una página Web, se
recomienda guardarlo en formato JPEG.

4.8 Panorámica y Zoom


Hay varias formas de acercar una parte de un gráfico de Statgraphics. Primero, haga doble clic sobre el
gráfico para maximizar su panel. Luego:

 Método 1: Haga clic en el botón derecho del ratón para mostrar un menú emergente.
Seleccione Acercarse en el menú emergente. Mueva el cursor del ratón hacia la esquina
superior izquierda de la región del gráfico que desea ampliar. Presione el botón izquierdo del
ratón y manténgalo presionado mientras arrastra el cursor hasta la esquina inferior derecha de
la región que desea ampliar. Esto mostrará una banda rectangular elástica como se muestra a
continuación:

Figura 4-34. Banda rectangular con Selección de la Región a Ampliar

Cuando suelte el botón del ratón, se redibujará la gráfica presentando solamente la región
seleccionada.

114/ Gráficos
 Método 2: Coloque el cursor del ratón en la posición del gráfico sobre el que desea hacer
zoom y mueva la rueda del ratón. Esto acercará o alejará la posición actual del cursor.

 Método 3: Presione el botón de Panorámica o Zoom . Esto exhibirá el cuadro de diálogo


flotante mostrado a continuación:

Figura 4-35. Cuadro de Diálogo para Panorámica y Zoom

También colocará barras de desplazamiento a lo largo de los lados del gráfico:

Figura 4-36. Panel gráfico con barras de desplazamiento

Use las barras deslizantes en el cuadro de diálogo para expandir el gráfico a lo largo de
cualquiera de los ejes. Use las barras de desplazamiento para moverse de un lado a otro.
115/ Gráficos
 Método 4: Presione cualquiera de los botones cerca del extremo derecho de la barra de
herramientas de análisis:

Esto expandirá el gráfico alrededor de su centro a lo largo del eje indicado. También
mostrará las barras de desplazamiento.

4.9 Creando Videos


Statgraphics Centurion 18 crea videos que muestran cambios dinámicos en un gráfico. Esto es
especialmente útil cuando se usan los Statlets de visualización dinámica, que muestran dinámicamente
los cambios en los datos a lo largo del tiempo y cuando se utiliza el explorador de superficie de
respuesta, que le permite cambiar los valores en un modelo matemático y ver el impacto en una
superficie o contorno. Los videos se guardan en archivos de formato AVI, que pueden integrarse en
aplicaciones como Microsoft PowerPoint.

Para crear un video, primero maximice el panel que contenga el gráfico que se va a grabar. Luego
presione el botón Grabar Video en la barra de herramientas de análisis. Se presentará el cuadro de
diálogo mostrado a continuación:

Figura 4-38. Cuadro de diálogo Flotante para Grabar Video

116/ Gráficos
Antes de grabar el gráfico, presione el botón Comprimir y seleccione el método a usar para
comprimir el archivo del video:

Figura 4-38. Cuadro de diálogo para Seleccionar la Compresión del Video

Comprimir el video garantiza que el tamaño del archivo se reduzca considerablemente al


grabarse. Seleccione el compresor deseado y presione Aceptar. Después presione el botón Inicio
en el cuadro de diálogo flotante para comenzar con la grabación del gráfico. Todos los cambios
realizados en el gráfico se registrarán hasta que se presione el botón Detener o hasta que el video
alcance la longitud máxima permitida. Después de grabar el video, presione Ver para verlo o
Guardar para guardarlo en el disco.

El número de cuadros por segundo registrados en el video y su máxima duración se pueden


modificar en la pestaña Gráficos del cuadro de diálogo Editar – Preferencias usando los controles de
la parte inferior derecha:

117/ Gráficos
Figura 4-39. Cuadro de Preferencias para definir Cuadros x Segundo y Duración Máxima de los Videos

118/ Gráficos
5
Capítulo

StatFolios
Guardando su sesión, publicando resultados en formato HTML y
automatizando el análisis utilizando código.

Cada vez que selecciona un análisis estadístico del menú de STATGRAPHICS Centurion 18, se
crea una nueva ventana de análisis. Puede guardar todas las ventanas de análisis en cualquier
momento creando un StatFolio. Un StatFolio es un archivo que contiene la definición de todos
los análisis estadísticos que han sido creados, con indicadores a los datos utilizados. Guardando
un StatFolio y reabriéndolo posteriormente, efectivamente se guarda y se recupera la sesión
actual de STATGRAPHICS Centurion 18.

Cuando se guarda una sesión en un StatFolio, lo que se guarda es la definición de los análisis, no
la salida. Cuando se vuelve a abrir un StatFolio, se vuelven a leer los datos de fuentes de datos
asociadas y todos los análisis se vuelven a calcular. Los StatFolios constituyen un método simple
para repetir análisis posteriormente con diferentes datos.

También puede crear un código que se ejecuta cuando se carga un StatFolio. En este capítulo se
describen los detalles de esta y otras características del StatFolio.

5.1 Guardando su sesión


Para guardar el estado actual de su sesión de STATGRAPHICS Centurion 18, seleccione Archivo
– Guardar – Guardar StatFolio del menú principal. Introduzca un nombre para el StatFolio en el
cuadro de diálogo que se muestra a continuación:

119/ StatFolios
Figura 5-1. Cuadro de diálogo de selección de archivo para guardar StatFolio
Los StatFolios se guardan en archivos con extensión .sgp. Contienen:

1. Una definición de todos los análisis que se han creado, incluyendo las variables de
entrada, las tablas y gráficos, configuraciones de todas las opciones, cambios realizados
en los gráficos, etc. Cuando se vuelve a abrir un StatFolio, los análisis se recalculan y se
reactualizan todas las tablas y gráficos.

2. Enlaces a las fuentes de datos contenidas en el libro de datos, que son habitualmente
archivos o bases de datos separadas. Si los datos cambian entre el momento en que se
guarda el StatFolio y se vuelve a abrir, la ventana de análisis reflejará estos cambios. Los
datos que solo usa Statgraphics se pueden almacenar en el StatFolio. Sin embargo, se
recomienda que los datos se guarden en archivos diferentes para que puedan ser
utilizados por más de un StatFolio.

3. Enlaces a un archivo StatGallery y StatReporter, si se ha colocado el material en ellos


antes de que se guardara el StatFolio. El programa le pedirá que proporcione los
nombres de StatGallery y StatReporter cuando se guarde el StatFolio.

120/ StatFolios
5.2 Código de StatFolio
Cuando se carga por primera vez un StatFolio, se restauran todas las ventanas de análisis a sus
condiciones previas. STATGRAPHICS Centurion 18 observa si se ha guardado con el StatFolio
un código de inicio y lo ejecuta. Se puede crear una secuencia de comandos seleccionando Rutina
de Inicio del StatFolio en el menú Edición. Se muestra un cuadro de diálogo con campos para definir
una secuencia de acciones a ejecutar:

Figura 5-2. Código de Rutina de Inicio de un StatFolio simple


Las operaciones deseadas se especifican en el orden en que deben ejecutarse. Las operaciones
disponibles son:

121/ StatFolios
Operation Argument Target Description
Execute Título de análisis Actualiza el análisis indicado.
Assign Expresión de Nombre de evalúa la expresión y le asigna la
STATGRAPHICS Centurion columna columna especificada
Print Para imprimir ventana(s) Imprime los contenidos de las
ventanas indicadas.
Publish Ejecuta StatPublish para
publicar el contenido del
StatFolio en formato HTML.
Shell Comando Windows a ejecutar Argumento Provoca
del comando la ejecución de un comando
Windows.
Delay Número de segundos Realiza una pausa por el tiempo
especificado.
Load Nombre del StatFolio Especifica el StatFolio a leer
después de ejecutar el código.
Esto permite ejecutar StatFolios
en cadena.
Exit Sale de STATGRAPHICS
Centurion 18
Figura 5-3. Operadores de código de Rutina de Inicio
En el ejemplo que se muestra en la figura 5-2, se ejecuta una Regresión Simple. En este análisis se
asume que Guardar resultados se ha configurado automáticamente para guardar los residuos del
modelo ajustado en la columna de nombre RESIDUALS. Los residuos se dividen por los
valores originales de los datos y se multiplican por 100 para crear errores en porcentaje, que se
asignarán a la nueva variable llamada PERROR. Los valores en PERROR se resumen luego
mediante el procedimiento Análisis de una variable y después se imprimen los resultados de ambos
análisis.

Tenga en cuenta que los StatFolios se pueden encadenar utilizando el operador LOAD en un
código para cargar e iniciar el código en otro StatFolio. También se puede salir automáticamente
de STATGRAPHICS Centurion 18 utilizando el operador EXIT.

NOTA: Puede suprimir la ejecución de los códigos seleccionan


do Deshabilitar Rutina de Inicio en la pestaña General del cuadro de diálogo Preferencias, accesible
desde el menú Edición:

122/ StatFolios
Figura 5-4. Deshabilitando Rutina de Inicio

123/ StatFolios
5.3 Apilando orígenes de datos
Una vez creado el StatFolio conteniendo varios análisis, los datos de las fuentes de datos pueden
volver a leerse a intervalos fijos de tiempo y todos los análisis actualizados. Esto se consigue
usando el cuadro de diálogo Propiedades del libro de datos en el menú Edición o seleccionando
StatLink en el menú Archivo:

Figura 5-5. Cuadro de diálogo Propiedades del libro de datos para fuentes de datos apilados
Para consultar las fuentes de datos repetidamente:

1. Coloque una marca de verificación en el cuadro Encuesta para cada fuente de datos que se
volverá a leer.

2. Establezca los botones de opción en el campo Sondeo en Encendido.

3. Especifique la frecuencia para volver a consultar cada fuente de datos.

124/ StatFolios
4. Compruebe Rutina de Ejecución si desea ejecutar la rutina de inicio del StatFolio cada vez
que se lean los datos.

Al incluir un paso de Publicación en la rutina de inicio, puede tener actualizada automáticamente la


salida de STATGRAPHICS Centurion 18 a un servidor de red.

5.4 Publicando datos en formato HTML


La salida de un StatFolio puede publicarse en un formato que es visible utilizando solo un
navegador Web estándar seleccionando StatPublish en el menú Archivo. Se muestra el cuadro de
diálogo para especificar la salida a publicar y dónde va a situarse:

Figura 5-6. Cuadro de diálogo StatPublish para crear salida HTML


Los campos en este cuadro de diálogo se utilizan para especificar:

 Archivo HTML en directorio local: es el nombre del archivo HTML que contendrá la
Tabla de Contenidos para el StatFolio. Enumerará los contenidos del StatFolio y
proporcionará los enlaces a otros archivos HTML correspondientes a cada ventana en el
StatFolio. Por defecto, se sitúa en el mismo directorio que el propio StatFolio, con el mismo
nombre que el StatFolio pero con la extensión .htm en lugar

125/ StatFolios
 de .sgp. Para ver un StatFolio publicado, puede abrirse el archivo con un navegador normal.

 URL del Sitio FTP: Todos los resultados publicados se sitúan en primer lugar en el
directorio local indicado anteriormente. Se incluyen archivos HTML, archivos de imagen que
contienen los gráficos y otros archivos de soporte. Si se hace una entrada en el campo URL
del sitio FTP, todos los archivos también se subirán a la localización de referencia de la
dirección URL, que comúnmente será un directorio de un servidor. Tenga en cuenta que
debe tener acceso de escritura de FTP en la URL indicada, que debe estar configurado por el
administrador de red.

 Nombre de usuario FTP: nombre de usuario para el acceso FTP a la URL indicada.

 Contraseña FTP: contraseña para el acceso FTP a la URL indicada.

 Incluir: Marcar toda la ventana del StatFolio que se va a publicar.

 Anchura y altura del gráfico en píxeles: tamaño de los gráficos cuando están incrustados
en archivos HTML.

 Formato de imagen: Los gráficos pueden incrustarse en archivos HTML en uno de los tres
formatos siguientes:

1. JPEG – imagen estática guardada en formato JPEG. Los archivos se crean con nombres
como pubexample_analysis1_graph1.jpg.

2. PNG – imagen estática guardada en formato PNG. Los archivos se crean con nombres
como pubexample_analysis1_graph1.png.

3. Applets Java – salida dinámica que se puede actualizar mientras lo visualiza el navegador.
Mientras esté en el navegador, el gráfico se actualizará en el incremento especificado
leyendo un archivo auxiliar con un nombre como pubexample_analysis1_graph1.sgz. Esta
opción está diseñada para usarse junto con el sondeo de datos en tiempo real usando la
función StatLink, como se describe en el documento PDF titulado Dynamic Data
Processing and Analysis. Nota: con esta opción no se publicarán correctamente todos los
gráficos. Si uno o más gráficos no se muestran correctamente en la salida publicada,
seleccione una opción diferente.

126/ StatFolios
 Añadir applets interactivamente: Para gráficos publicados como applets, seleccionar las
características permitidas para ver la información acerca de valores de datos haciendo clic en
un punto con el ratón en el navegador Web.

Tras completar los campos de entrada, presione Aceptar para publicar el StatFolio.

Para ver un StatFolio publicado, arranque un navegador Web y utilice su menú Archivo para abrir
el archivo especificado en el campo de la parte superior de la figura 5-6. También puede ver la
salida seleccionando Ver resultados publicados del menú Archivo de STATGRAPHICS Centurion
18.

NOTA: Las tablas y gráficos se incrustan en archivos de salida HTML con nombres que
genera automáticamente StatPublish. Mientras está en el navegador Web, puede ver el
código HTML origen y determinar fácilmente los nombres de los archivos. Estos
archivos, si lo prefiere, pueden incrustarse en su propia página Web.

127/ StatFolios
6
Capítulo

Utilizando StatGallery
Mostrado gráficos juntos y solapados.

StatGallery es una ventana especial en STATGRAPHICS Centurion 18 en la que se pegan gráficos


creados con otros procedimientos uno al lado de otro (juntos) o uno encima del otro (solapados). Las
comparaciones de gráficos juntos son una potente herramienta para comparar dos conjuntos de datos,
dos modelos estadísticos, o dos niveles de un gráfico de contorno. Superponiendo gráficos se crea una
única imagen imposible de conseguir con el sistema.

La salida de StatGallery se guarda en archivos con extensión .sgg. Si sitúa la salida en StatGallery, se
creará un puntero al archivo StatGallery al guardar el StatFolio actual. Cuando se vuelve a abrir el
StatFolio posteriormente, se leerá automáticamente el StatGallery asociado.

6.1 Configurando una página de StatGallery


StatGallery se sitúa en una galería separada que se crea en STATGRAPHICS Centurion 18 la
primera vez que se abre. Consiste en una o más páginas capaces de mostrar hasta 9 gráficos. Por
defecto, cada página de la galería está configurada para 4 gráficos, como se muestra a
continuación:

128/ Utilizando StatGallery


Figura 6-1. Ventana StatGallery
Los botones de la parte superior de la ventana permiten navegar por otras páginas de la galería.
Si quiere cambiar el número de gráficos que se muestran en una página, presione el botón
derecho del ratón y seleccione Organizar Ventanas. Se pueden seleccionarse arreglos que
contengan hasta 9 gráficos para una página simple:

Figura 6-2. Alternativas de configuración de la página de StatGallery


Los siete arreglos de la izquierda corresponden a conjuntos rectangulares de filas y columnas. La
opción Por columnas permite crear un arreglo con diferente número de filas en cada una de las tres
columnas.

129/ Utilizando StatGallery


También puede también utilizar barras deslizantes en la ventana StatGallery para mover los
paneles obteniendo el arreglo que desee.

6.2 Copiando gráficos a StatGallery


Para situar un gráfico en StatGallery, primero debe copiarlo en el portapapeles de Windows
desde la ventana de análisis donde se ha creado. Por ejemplo, supongamos que se quiere mostrar
gráficos de contorno creados con el procedimiento DOE Analizar diseño para dos niveles
diferentes de un factor experimental seleccionado. Los pasos son los siguientes:

1. Configure la página seleccionada de StatGallery para mostrar gráficos en un formato


Izquierda y Derecha.

2. Genere un gráfico de contorno con Analizar diseño para un nivel de un factor


experimental y cópielo en el portapapeles de Windows.

3. Active la ventana StatGallery. Haga clic en el panel situado más a la izquierda con el
botón derecho del ratón y seleccione Pegar en el menú emergente resultante para colocar
el gráfico de contorno en StatGallery.

4. Vuelva a la ventana Analizar diseño y genere un Segundo gráfico de contorno para un


nivel diferente del factor experimental. Cópielo en el portapapeles de Windows.

5. Vuelva a la ventana StatGallery. Haga clic en el panel situado más a la derecha con el
botón derecho del ratón y seleccione Pegar en el menú emergente resultante. El Segundo
gráfico de contorno se situará en StatGallery al lado del primero.

La galería resultante es similar a la que se muestra a continuación.

130/ Utilizando StatGallery


Figura 6-3. Gráficos en StatGallery situados uno al lado del otro (juntos)
En el gráfico anterior, la progresión de colores de un gráfico respecto del siguiente muestra un
decrecimiento en intensidad con el decrecimiento del polietileno.

Cuando se pega un gráfico en StatGallery, debe seleccionar Pegar enlace en el menú emergente en
lugar de Pegar. Cuando pega enlace, el gráfico de la galería se enlaza con la ventana de análisis en
la que se creó originalmente y cuando cambie en la ventana original cambiará en StatGallery.

6.3 Solapando gráficos


Cuando se pega un gráfico en un panel de StatGallery que ya contiene otro, hay que elegir entre
reemplazar el gráfico ya existente o solaparlo con el nuevo gráfico. El solapamiento de gráficos
se suele utilizar cuando se ajustan dos modelos estadísticos diferentes:

131/ Utilizando StatGallery


Figura 6-4. Gráficos solapados en StatGallery
Cuando un gráfico se solapa con otro que ya existe en StatGallery, sólo se añaden los contenidos
del segundo que no coinciden con el primero. No se incluye el texto del segundo gráfico.

NOTA: Si el escalado del Segundo gráfico es diferente del escalado del primero, el
Segundo gráfico ajustará su escala al del primero.

6.4 Modificando un gráfico en StatGallery


Ciertos aspectos de un gráfico pueden cambiarse después de pegarlo en StatGallery.

6.4.1 Añadiendo objetos


Para añadir un objeto a un gráfico:

1. Haga doble clic en el gráfico deseado para maximizarlo en el panel.

132/ Utilizando StatGallery


2. Presione el botón derecho del ratón y seleccione Añadir objeto en el menú emergente resultante.
Aparecerá el siguiente cuadro de diálogo flotante:

Figura 6-5. Cuadro de diálogo para Añadir un objeto


3. Seleccione el tipo de objeto que quiere añadir al gráfico.

Los primeros 5 botones del cuadro de diálogo de la figura 6-5 trabajan presionando el botón del
ratón sobre ellos y estirando la línea o figura hasta cubrir el área deseada sobre la que se
utilizarán. El último botón activa el modo texto, de manera que el texto introducido en el cuadro
de diálogo se muestra cuando se haga clic en el gráfico. El texto añadido puede arrastrarse a la
localización deseada.

6.4.2 Modificando objetos


Para modificar un elemento en StatGallery:

1. Haga doble clic en el gráfico deseado para maximizarlo en su panel.

2. Haga clic con el ratón en el objeto que va a modificarse para cambiarlo. Alrededor del
objeto marcado se situará un pequeño bloque rectangular.

3. Presione el botón derecho del ratón y elija Modificar objeto en el menú emergente
resultante.

Aparecerá un cuadro de diálogo correspondiente al tipo de objeto marcado, en el cual se


realizarán los cambios deseados.

6.4.3 Borrando objetos


Para borrar un objeto en StatGallery:

1. Haga doble clic en el gráfico deseado para maximizarlo en su panel.

2. Haga clic con el ratón en el objeto que va a borrarse para marcarlo.

133/ Utilizando StatGallery


3. Presione el botón derecho del ratón y seleccione Borrar objeto en el menú emergente
resultante.

6.5 Imprimiendo StatGallery


Para imprimir objetos de StatGallery:

1. Active la ventana de StatGallery haciendo clic con el ratón sobre ella.

2. Presione el icono Imprimir en la barra de herramientas principal, o presione el botón


derecho del ratón y seleccione Imprimir en el menú emergente resultante.

Puede imprimir todas las páginas o seleccionar un conjunto de páginas.

134/ Utilizando StatGallery


7
Capítulo

Utilizando StatReporter
Copiando análisis a StatReporter, realizando anotaciones en la salida y
guardando los resultados en un archivo RTF para importarlo a Microsoft
Word.

StatReporter es una ventana en la cual pueden integrarse las salidas de diferentes procedimientos
estadísticos en un informe formal. Es una versión independiente de WordPad, ejecutándose con
STATGRAPHICS Centurion 18. StatReporter le permite:

1. Crear un informe completo en STATGRAPHICS Centurion 18, sin necesidad de utilizar


otra aplicación. Suele utilizarse mucho cuando los recursos son muy limitados, así como
en planta de producción.

2. Guardar el contenido de StatReporter en un archivo RTF (Rich Text Format), que puede
leerse directamente en programas como Microsoft Word.

7.1 La ventana StatReporter


StatReporter está formado por una ventana separada en STATGRAPHICS Centurion 18, creada
automáticamente cuando arranca el programa. Consiste en un editor enriquecido, junto con una
barra de herramientas:

135/ Utilizando StatReporter


Figura 7-1. La ventana de StatReporter
Puede teclear texto en la ventana o pegar la salida creada en otro lugar de STATGRAPHICS
Centurion 18.

7.2 Copiando Salidas a StatReporter


STATGRAPHICS Centurion 18 proporciona tres métodos para copiar la salida a StatReporter:

1. Para copiar una tabla simple o un gráfico a StatReporter, en primer lugar se copia al
portapapeles de Windows maximizando su panel y seleccionando Copiar en el menú
Edición. A continuación nos situamos en la ventana de StatReporter, se coloca el cursor
en la situación deseada, y se selecciona Editar – Pegar.

2. Alternativamente, se maximiza el panel que contiene la tabla o gráfico a mover haciendo


doble clic sobre él. Presione el botón derecho del ratón y seleccione Copiar panel a
StatReporter en el menú emergente resultante. Automáticamente la tabla o gráfico se pega
en StatReporter en el lugar en el que el cursor está localizado actualmente.

3. Para copiar toda la salida de una ventana de análisis, presione el botón derecho del ratón
y seleccione Copiar análisis a StatReporter en el menú emergente resultante. Todas las tablas
y gráficos de la ventana de análisis se pegarán en StatReporter.

136/ Utilizando StatReporter


Cada una de las operaciones anteriores se realiza con un pegado estático (la salida en
StatReporter nunca cambiará). Puede enlazar la tabla o gráfico a su origen, mediante el método
#1 visto anteriormente seleccionando Pegar enlace en lugar de Pegar. La tabla o gráfico pegada en
StatReporter será dinámica, por lo que cambiará automáticamente cuando la salida origen
cambie en la ventana de análisis de cualquier tabla o gráfico copiados.

7.3 Modificando la salida de StatReporter


La barra de herramientas de StatReporter permite modificar la salida una vez que se ha situado
en la ventana. Para cambiar texto, seleccione el texto que va a cambiarse y pulse cualquiera de los
botones de la barra de herramientas de StatReporter. También puede insertar la fecha y hora
actuales presionando el botón Fecha/hora.

7.4 Guardando StatReporter


Para guardar la salida de StatReporter, seleccione Archivo – Guardar – Guardar a StatReporter en el
menú principal e introduzca un nombre para el archivo que va a guardarse. Todos los archivos
guardados en StatReporter tienen extensión .rtf y pueden ser leídos directamente por Microsoft
Word.

Siempre que se abre un StatFolio, automáticamente lee el StatReporter que estaba presente
cuando el StatFolio se guardó por última vez. También puede abrir StatReporter
independientemente utilizando el menú Archivo – Abrir.

137/ Utilizando StatReporter


8
Capítulo

Utilizando StatWizard
Seleccionando un análisis estadístico, buscando estadísticos y test deseados y
generando ventanas múltiples para niveles de factor.

StatWizard es una característica especial de STATGRAPHICS Centurion 18 diseñada para


ayudarle de varias maneras:

1. Puede ayudar a crear una nueva hoja de datos o leer un origen de datos existente.

2. Puede sugerir análisis basados en el tipo de datos que se están analizando.

3. Puede buscar los estadísticos o tests que se deseen y considerar los procedimientos de
análisis que los calculan.

4. Puede ayudar definiendo transformaciones de datos o seleccionando subconjuntos de


datos.

5. Puede repetir los análisis deseados para cada valor único en una columna de datos.

Se puede acceder a StatWizard directamente presionando el botón en la barra de


herramientas principal.

138/ Utilizando StatWizard


8.1 Accediendo a Datos o Creando un nuevo estudio
Si el libro de datos se encuentra vacío cuando se active StatWizard, se muestra un cuadro de
diálogo preguntando por sus necesidades de datos:

Figura 8-1. Cuadro de diálogo de entrada de datos en StatWizard


Existen tres opciones:

1. Capturar Nuevos Datos o Importarlos de una Fuente Externa: Seleccione esta opción si desea
leer los datos de un libro de datos de STATGRAPHICS Centurion 18. El asistente los
obtendrá por medio de una secuencia adicional de cuadros de diálogo en orden a definir
las columnas de las hojas de datos o seleccionar un origen de datos, como se describe en
capítulos posteriores de este manual.

2. Diseñar un Nuevo Experimento, Estudio de Calibración, Gráfico de Control, o Plan de Muestreo:


Seleccione esta opción si desea diseñar un nuevo estudio antes de recopilar datos. En
este caso, el asistente le pedirá que especifique el tipo de estudio a crear y los pasos a
139/ Utilizando StatWizard
través de la secuencia de cuadros de diálogo en los cuales se define el estudio que va a ser
creado.

3. Realizar un Análisis que no requiera datos: Seleccione esta opción si desea realizar un análisis
que no requiera datos. En este caso, el asistente enumerará todos esos análisis, le pedirá
que seleccione uno, y luego lo llevará inmediatamente a ese análisis.

Por ejemplo, supongamos que desea configurar un nuevo estudio de medición para estimar la
repetibilidad y reproductibilidad de un proceso de medida. Seleccionando el segundo botón de la
figura 8-1 y presionando Aceptar se obtienen las opciones que se muestran a continuación:

Figura 8-2. Cuadro de diálogo de Definición del estudio en StatWizard


Seleccione Organizar un Estudio R&R de Calibración y presione Aceptar para mostrar un tercer
cuadro de diálogo que solicita información sobre el estudio:

140/ Utilizando StatWizard


Figura 8-3. Cuadro de diálogo de Definición de estudio de calibración en StatWizard
En el cuadro de diálogo, introduzca el número de operadores que participarán en el estudio, el
número de partes que se medirán, y el número de veces que cada operador medirá cada parte.
También puede especificar un encabezado para el estudio.

El cuadro de diálogo final solicita nombres para los operadores, valoraciones, o laboratorios que
realizarán las mediciones:

Figura 8-4. Cuadro de diálogo para especificar nombres de operadores

141/ Utilizando StatWizard


StatWizard crea el estudio deseado y lo sitúa en la hoja de datos del libro de datos:

Figura 8-5. Estudio de medición creado por StatWizard


Luego se realizaría el estudio y se introducirían las medidas en la hoja de datos. Se podría acceder
nuevamente a StatWizard para seleccionar un procedimiento de análisis (o puede ir directamente
a los análisis relevantes en el menú principal).

8.2 Seleccionando análisis para sus datos


Si los datos ya se han cargado en el libro de datos, tecleando el botón StatWizard se muestra el
cuadro de diálogo del que se seleccionan uno o más análisis a ejecutar:

142/ Utilizando StatWizard


Figura 8-6. Cuadro de diálogo de StatWizard para Seleccionar análisis
Existen 5 opciones:

1. Seleccionar un análisis basado en un tipo de datos: Muestra cuadros de diálogo


adicionales que solicitan información sobre los datos que se analizarán, después de lo
cual se presenta una lista de procedimientos relevantes.

2. Seleccionar análisis por nombre: Muestra todos los análisis en orden alfabético.
Seleccionando un análisis por nombre y presionando Aceptar nos lleva directamente al
cuadro de diálogo de entrada de datos para ese análisis, sin pasar por los menús
habituales.

3. Seleccionando SnapStat: permite seleccionar un SnapStat. Los SnapStats son análisis


optimizados que producen una sola página de salida preformateada. Tienen menos
opciones que en otros análisis, pero son muy fáciles de crear.

4. Búsqueda: Muestra una lista desplegable de estadísticos, pruebas, gráficos y otros


resultados que se pueden crear en STATGRAPHICS Centurion 18. Seleccionar un
143/ Utilizando StatWizard
elemento de la lista cambia la visualización en el campo Seleccionar análisis por nombre para
mostrar sólo los análisis que calculan el elemento seleccionado.

5. Seleccionar entre las siguientes selecciones rápidas: Enumera algunos de los análisis
más utilizados habitualmente. Seleccionando un análisis y presionando Aceptar nos lleva
directamente al cuadro de diálogo de entrada de datos para ese análisis.

Si elige la opción #1, el StatWizard mostrará a continuación un cuadro de diálogo en el que se


indicarán los datos que se analizarán. Por ejemplo, si se carga el archivo 93cars.sgd en el libro de
datos, el cuadro de diálogo toma la siguiente forma:

Figura 8-7. Cuadro de diálogo Selección de datos en StatWizard


Los campos de este cuadro de diálogo son:

 Datos o variables de respuesta (Y): una o más variables respuesta que contienen los valores
que se analizarán. Si solo una columna contiene datos para analizar, debe introducirse
aquí.

144/ Utilizando StatWizard


 Tipo: el tipo de datos contenido en la(s) variable(s) respuesta. Los análisis mostrados en
los cuadros de diálogo siguientes dependen de esta elección.

 Factores explicativos cuantitativos (X): cualquier factor cuantitativo que se utilizará para
predecir las variables de respuesta. En una regresión, aquí irán las variables
independientes.

 Factores Explicativos categóricos (X): cualquier factor no cuantitativo que se utilizará para
predecir la(s) variable(s) de respuesta. En un ANOVA, aquí van los factores explicativos.

 Etiquetas de casos: una columna que contiene etiquetas para cada una de las observaciones
(filas).

Los procedimientos ofrecen los consiguientes cuadros de diálogo basados en los datos
introducidos en la Figura 8-7.

El siguiente cuadro de diálogo pregunta qué filas del archivo se analizan:

145/ Utilizando StatWizard


Figura 8-8. Cuadro de diálogo de Selección de filas en StatWizard
Las primeras seis opciones suponen que desea crear sólo un análisis único. La última opción
creará múltiples ventanas de análisis, una para cada valor único contenido en la columna
indicada. Esta es una manera fácil de especificar una variable “BY” para un conjunto de
análisis.

A continuación se le preguntará si quiere transformar cualquiera de las variables indicadas. Si


responde afirmativamente, se mostrará el siguiente cuadro de diálogo:

Figura 8-9. Cuadro de diálogo de Transformación de variable en StatWizard


Puede seleccionar una transformación para una o más variables. Si se solicita una
transformación, se creará la expresión adecuada. Por ejemplo, si se requiere la raíz cuadrada de
MPG City se crearía la expresión SQRT(MPG City) para que la utilicen los procedimientos de
análisis.

A continuación se mostrará un cuadro de diálogo final que enumera todos los análisis
apropiados para el tipo de datos que ha especificado:

146/ Utilizando StatWizard


Figura 8-10. Cuadro de diálogo de Selección de análisis en StatWizard
Seleccione uno o más análisis de la lista. Cuando presione Aceptar, se creará una ventana de
análisis para cada análisis seleccionado.

8.3 Buscando los estadísticos o test deseados


Si se quiere calcular un estadístico particular o realizar una prueba y no está seguro de cuál de los
análisis lo calcula, puede introducir sus datos en la hoja de datos y presionar el botón StatWizard
en la barra de herramientas principal. En el cuadro de diálogo inicial de StatWizard, seleccione
Buscar y despliegue la lista. Se mostrará una lista de todos los estadísticos, pruebas y otros
cálculos realizados por STATGRAPHICS Centurion 18:

147/ Utilizando StatWizard


Figura 8-11. Utilizando la opción Buscar en StatWizard
Si selecciona un elemento de la lista, todos los análisis que calculen el elemento seleccionado se
mostrarán en el campo Seleccionar análisis por nombre:

148/ Utilizando StatWizard


Figura 8-12. Lista de todos los análisis coincidentes con la opción buscada
Para ejecutar un análisis seleccionado:

1. Haga clic en el botón Seleccione análisis por nombre.

2. Seleccione un análisis.

3. Presione Aceptar.

Le llevará directamente al cuadro de diálogo de entrada de datos para el análisis seleccionado,


sin pasar por los menús habituales.

149/ Utilizando StatWizard


9
Capítulo

Preferencias del sistema


Situando las preferencias para el comportamiento del sistema.

STATGRAPHICS Centurion 18 contiene cientos de opciones, cada una de las cuales tiene un
valor por defecto que ha sido seleccionado para cubrir las necesidades de la mayoría de los
usuarios. Si lo desea, puede establecer nuevos valores por defecto para la mayoría de estas
opciones. Hay 3 lugares en el programa para hacerlo:

1. Comportamiento general del sistema: configure en el cuadro de diálogo Preferencias


accesible desde el menú Edición.

2. Opciones de impresión: configure en el cuadro de diálogo Configurar página accesible


en el menú Archivo.

3. Gráficos: configure al seleccionar Opciones gráficas mientras se visualiza cualquier gráfico.


La pestaña Perfil del cuadro de diálogo Opciones gráficas le permite guardar varios
conjuntos de atributos gráficos.

9.1 Comportamiento general del sistema


Los valores por defecto para el comportamiento general del sistema y los procedimientos
estadísticos seleccionados pueden modificarse seleccionando Preferencias en el menú Edición. Se
muestra un cuadro de diálogo con varias pestañas con una pestaña General para el
comportamiento general del sistema y otras pestañas para los valores por defecto del análisis
estadístico:

150/ System Preferences


Figura 9-1. Cuadro de diálogo Preferencias
Algunas de las opciones más importantes que pueden configurarse son:

 Nivel de confianza: porcentaje por defecto utilizado para los límites de confianza, los
límites de predicción, las pruebas de hipótesis y la interpretación de los P-valores por el
StatAdvisor.

 Dígitos significativos: número de dígitos significativos utilizado cuando se muestran


resultados numéricos. Se mostrará el número indicado de dígitos, excepto los ceros finales
que se descartarán. Se dispone de una entrada separada para guardar los resultados
numéricos en la hoja de datos.

 Opciones del sistema: opciones que se aplican a todo el sistema.

o Utilizar menú Seis Sigma: muestra las selecciones del menú bajo los títulos
correspondientes a las fases de la metodología Seis Sigma DMAIC (Definir, Medir,
Analizar, Mejorar, Controlar). Con el menú clásico son posibles las mismas selecciones,
salvo que están organizadas bajo diferentes títulos de menú.

151/ System Preferences


o Ordenar nombres de variables: cuando se listan nombres de columnas en orden
alfabético en los cuadros de diálogo de entrada de datos. De lo contrario, los nombres
de las columnas se listarán en el mismo orden que en las hojas de datos.

o 4-Dígitos para los años: cuando las fechas deben mostrar 4 dígitos en los años en lugar
de dos. Por defecto, se asumen dos dígitos para los años (2/1/05) para representar
fechas entre 1950 y 2049. los cambios en esta opción no tendrán efecto hasta que se
reinicie el sistema.

o Habilitar autoguardar: cuando hay que guardar automáticamente en segundo plano los
archivos StatFolio y de datos actuales y la duración del tiempo entre guardados. Si se
habilita esta opción y hay un mal funcionamiento del ordenador, será posible restaurar el
estado actual del StatFolio y de las hojas de datos cuando se reinicie el programa.

o Actualizar enlaces en cada valor: cuando se recalculan todos los estadísticos cada vez
que cambie un valor de los datos en una de las hojas de datos. Normalmente, los
estadísticos no se recalculan hasta que no se enfoca el análisis, se imprime o publica, o se
guarda el StatFolio.

 StatAdvisor: establece el comportamiento por defecto del StatAdvisor.

o Añadir a paneles de texto: cuando la salida del StatAdvisor se debe añadir


automáticamente al final de los paneles de texto. La salida del StatAdvisor está siempre
disponible al presionar el botón en la barra de herramientas principal mostrando el
límite de graduación.

o Resaltando referencias en …: cuando quiere resaltar con colores especiales valores


destacados en los paneles de texto que se refieren al StatAdvisor.

 StatFolios: define las opciones para los Statfolios.

o Marque la opción Deshabilitar Código de Inicio para evitar que las secuencias del código de
inicio se ejecuten al cargar los StatFolios.

152/ System Preferences


o Marque Guardar copia de datos externos para guardar una copia de todos los datos en el
StatFolio. Si esta opción está habilitada, un Statfolio recién cargado que no pueda
encontrar el origen de los datos a los que está ligado llenará el Libro de Datos con los
datos que estaban presentes cuando el Statfolio se guardó por última vez.

 Cuando se Inician Procedimientos: si el cuadro de Opciones de Análisis y/o el de Tablas y


Gráficas debe mostrarse cuando se inicia un nuevo procedimiento de análisis. Si no está
marcado, se usarán los valores por defecto.

 Registro de Sesión: la información que debe guardarse automáticamente en el StatLog.

 Directorio de archivos de ayuda: si se especifica, el programa buscará el archivo de ayuda


sgwin.chm en el directorio indicado. Por defecto, el archivo de ayuda se coloca en la misma
ubicación que los otros archivos de programa ejecutables. Sin embargo, las restricciones de
seguridad en algunas versiones de Windows pueden impedir que el archivo de ayuda se
cargue correctamente cuando se accede al programa a través de una red. En tales casos, el
archivo de ayuda debe copiarse en cada máquina cliente en la ubicación indicada.

 Directorio de archivos temporales: Si se especifica, StatFolios, archivos de datos y otros


archivos se escribirán en este directorio antes de ser copiados en su localización final.
Especificando una unidad local, se puede acelerar en gran medida el tiempo requerido para
guardar un archivo en algunas redes, ya que reduce el número de requerimientos de la red.

Para una descripción detallada de las opciones de las otras pestañas, consulte el documento
PDF titulado Preferencias.

9.2 Imprimiendo
La salida de impresión es controlada por dos opciones en el menú Archivo:

1. Configurar impresión: accede al cuadro de diálogo de opciones estándares de impresión


suministrado con el controlador de la impresora. Este cuadro de diálogo normalmente
establece el tamaño del papel y elige entre el modo apaisado y normal para la salida.

2. Configurar página: un cuadro de diálogo específico de STATGRAPHICS Centurion 18


permite configurar márgenes, encabezados y otras opciones. Este cuadro de diálogo se
trató en la sección 3.4 .

153/ System Preferences


9.3 Gráficos
Maximizando un panel que contiene un gráfico dentro de cualquier ventana de análisis se activa
el botón Opciones gráficas en la barra de herramientas de análisis. Este botón muestra un cuadro de
diálogo con pestañas que le permite cambiar la apariencia de un gráfico, como se describe en
detalle en el capítulo 4. También se incluye en ese cuadro de diálogo una pestaña denominada
Perfil, que le permite guardar conjuntos de atributos gráficos en los perfiles de usuario y cambiar
el perfil por defecto que se utiliza cuando se crea un nuevo gráfico:

Figura 9-2. Pestaña Perfil en el cuadro de diálogo Opciones Gráficas


Para cambiar las opciones del sistema por defecto:

1. Modifique las características de un gráfico en cualquier ventana de análisis. Establezca los


colores, las fuentes y otras opciones que quiera reflejar en gráficos futuros.

2. Seleccione Opciones gráficas de la barra de herramientas de análisis y vaya a la pestaña Perfil.

154/ System Preferences


3. Marque Establecer predeterminado.

4. Seleccione cualquiera de los 12 perfiles de usuario y presione el botón Guardar como (los
perfiles del sistema son de sólo lectura).

5. Introducir un nombre para el perfil que va a guardarse:

Figura 9-3. Cuadro de diálogo Guardar perfil


6. Presione Aceptar para guardar el conjunto actual de atributos gráficos (colores, fuentes,
estilos de líneas y puntos, etc.) en un nuevo perfil.

El siguiente gráfico creado usará el perfil guardado recientemente.

También puede aplicar otros perfiles guardados a un nuevo gráfico creando el gráfico con la
configuración por defecto y a continuación:

1. Seleccione opciones gráficas de la barra de herramientas de análisis y vaya a la pestaña Perfil.

2. Seleccione cualquiera de los 15 perfiles y presione el botón Cargar.

El gráfico actual se actualizará inmediatamente para reflejar la configuración en el perfil


seleccionado.

Nota: El menú Herramientas contiene una opción titulada como Diseñador del
Perfil de las Gráficas que crea gráficas que muestran todas las características que
pueden actualizarse. Es un lugar muy conveniente para desarrollar y guardar
todas sus preferencias.

155/ System Preferences


9.4 Compartiendo Preferencias del Sistema
Las preferencias del Sistema pueden compartirse entre ordenadores usando cualquiera de las
siguientes opciones Configuración para Exportar y Configuración para Importar en el menú principal
Archivo. Para guardar las preferencias que se van a transferir de un ordenador a otro, seleccione
Configuración para Exportar y mostrará el siguiente cuadro de diálogo:

Figura 9-4. Cuadro de diálogo para Exportar Preferencias del Sistema


Seleccionar las preferencias que se van a transferir y presione Aceptar. A continuación se
presentará un segundo cuadro de diálogo:

Figura 9-5. Selección de un Archivo XML para Guardar Preferencias

156/ Preferencias del sistema


Las preferencias se guardan en el archivo XML indicado.

Para importar preferencias guardadas en un ordenador diferente, seleccione Configuración para


Importar del menú Archivo. Seleccione el archivo a importar con las preferencias guardadas:

Figuae 9-6. Selección de un Archivo XML con las Preferencias Guardadas

Las preferencias importadas toman efecto inmediatamente.

Puede restaurar la configuración original seleccionando Restaurar Configuración Original del menú
Archivo.

157/ Preferencias del sistema


Capítulo

10
Tutorial #1: Analizando una
muestra simple
Resumen de estadísticos, histogramas, gráficos de caja y bigotes, intervalos de
confianza y contrastes de hipótesis.

Un problema común en estadística es el análisis de una muestra de n observaciones tomadas de


una sola población. Por ejemplo, considere las siguientes temperaturas corporales tomadas para
n = 130 individuos:

98.4 98.4 98.2 97.8 98 97.9 99 98.5 98.8 98


97.4 98.8 99.5 98 100.8 97.1 98 98.7 98.9 99
98.6 97.7 96.7 98.8 98.2 97.5 97.2 97.4 97.1 96.7
99.2 97.9 98.8 97.6 98.6 98.8 98.5 98.7 97.5 97.9
97.1 98.4 97.4 98.6 97.8 98.2 98 98 98.3 98.6
98.8 98.7 98.8 98.1 96.4 98.8 98.7 97.9 98.6 99.2
98.6 98 99.1 97.8 97.2 98.2 98.7 98.4 98.2 97.7
98.3 98.7 96.8 98 97.2 97.9 96.9 98.3 97.8 97
98.6 98.4 98.2 98 98 98.2 97.8 99 98.1 97.7
97.4 98.8 99.3 98.9 96.3 97.8 99.9 98.4 99.4 98.7
98.4 98.2 99.3 98.5 98.3 99 99.2 97.6 99.1 97.6
98.4 97.6 98.4 98 98.8 97.3 98.7 98.6 99.4 100
98.6 98.3 98.6 97.4 98.1 97.8 98.2 99 99.1 98.2

Los datos fueron obtenidos del archivo de datos del Journal of Statistical Education
(www.amstat.org/publications/jse/jse_data_archive.html) y se usan con permiso. Se han

158/ Analizando una Muestra Simple


colocado en un archivo llamado bodytemp.sgd, en una columna llamada Temperatura que contiene
130 filas, una fila para cada individuo en el estudio.

El procedimiento primario en STATGRAPHICS Centurion 18 para resumir una muestra


tomada de la población es el procedimiento Análisis de una variable. El procedimiento Análisis de
una variable resume los datos tanto numéricos como gráficos y realiza contrastes de hipótesis
sobre la media, mediana y desviación típica de la población.

10.1 Ejecutando el procedimiento Análisis de una variable


Para analizar los datos de la temperatura corporal, primero cargue el archivo bodytemp.sgd en una
hoja de datos. Para realizarlo:

1. Seleccione Archivo – Abrir – Abrir origen de datos desde el menú principal.


2. En el cuadro de diálogo Abrir origen de datos, indique que quiere abrir un archivo de datos
de STATGRAPHICS.
3. Seleccione bodytemp.sgd de la lista de archivos en el cuadro de diálogo Abrir archivo de datos.

Los datos deben aparecer como se muestra a continuación:

Figura 10-1. Hoja de datos con los datos de temperatura corporal


Las temperaturas corporales están en la columna de la izquierda, medidas en grados Fahrenheit.

159/ Analizando una Muestra Simple


Se accede al procedimiento Análisis de una variable del menú principal como sigue:

1. Si usa el menú clásico, seleccione Describir – Datos numéricos – Análisis de una variable.

2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de variables – Análisis de una variable.

En el cuadro de diálogo de entrada de datos, indique la columna a analizar:

Figura 10-2. Cuadro de diálogo de entrada de datos de Análisis de una variable


Deje en blanco el campo Selecció
n para analizar las 130 filas. Presione Aceptar.

Cuando se presiona Aceptar, aparecerá la ventana Tablas y Gráficos que muestra las tablas y gráficos
disponibles. Por ahora, se aceptarán las características por defecto.

Figura 10-3. Cuadro de diálogo Tablas y Gráficos

160/ Analizando una Muestra Simple


Aparecerá la ventana de análisis con cuatro paneles:

Figura 10-4. Ventana Análisis de una variable


El panel superior izquierdo indica que la muestra tiene n = 130 valores que oscilan entre 96.3 y
100.8 grados. El panel superior derecho muestra un gráfico de dispersión de los datos, con los
puntos aleatoriamente dispersos en la dirección vertical. Tenga en cuenta que los puntos son más
densos entre 98 y 99 grados, disminuyendo en cualquier extremo. Este tipo de comportamiento
es típico de los datos que se muestrean de una población cuya distribución tiene un pico central
bien definido.

Los paneles inferiores muestran un resumen estadístico y un gráfico de caja y bigotes, descrito en
las siguientes secciones.

161/ Analizando una Muestra Simple


10.2 Resumen estadístico
La tabla en el panel inferior izquierdo muestra varios estadísticos de la muestra. Se pueden
agregar estadísticos adicionales maximizando el panel (doble clic en él con el ratón) y
seleccionando Opciones de ventana:

Figura 10-5. Cuadro de diálogo Opciones de resumen estadístico


Incluyendo la mediana de la muestra, cuartiles y el intervalo intercuartílico resulta:
Resumen Estadístico para Temperature
Recuento 130
Promedio 98.2492
Mediana 98.3
Desviación Estándar 0.733183
Coeficiente de Variación 0.746248%
Mínimo 96.3
Máximo 100.8
Rango 4.5
Cuartil Inferior 97.8
Cuartil Superior 98.7
Rango Intercuartílico 0.9
Sesgo Estandarizado -0.0205699
Curtosis Estandarizada 1.81642

Figura 10-6. Tabla de resúmenes estadísticos


Una asunción común para los datos de medición es que provienen de una distribución normal o
gaussiana, es decir de una curva en forma de campana. Los datos de una distribución normal
están completamente descritos por dos estadísticos:

162/ Analizando una Muestra Simple


n

x i
1. La media o promedio de la muestra x  i 1
 98.25 , que estima el centro de la
n
distribución.
n

 x  x  i
2

2. La desviación estándar de la muestra s  i 1


 0.733 , que está relacionada con la
n 1
variabilidad de la distribución.

Para una distribución normal, aproximadamente el 68% de todos los valores se encontrarán
dentro de una desviación típica de la media poblacional de valor uno, aproximadamente el 95%
dentro de una desviación típica de valor dos y aproximadamente el 99.73% dentro de una
desviación típica de valor tres.

La media muestral y la desviación típica describen completamente la muestra sólo si provienen


de una distribución normal. Para chequear la asunción de normalidad se pueden usar dos
estadísticos, la asimetría y la curtosis estandarizada. Estos estadísticos miden la forma:

1. Asimetría mide la simetría o la ausencia de la misma. Una distribución simétrica, como la


normal, tiene asimetría cero. Las distribuciones en las que los valores tienden a estar por
encima de cero presentan asimetría positiva. Distribuciones en las que los valores de su
asimetría estén por debajo de cero presentan asimetría negativa.

2. Curtosis mide el apuntamiento de la distribución. Una distribución normal tiene curtosis


nula. Una distribución más apuntada que la normal tiene curtosis positiva. Una
distribución menos apuntada que la normal tiene curtosis negativa.

Si los datos provienen de una distribución normal, los coeficientes de asimetría y curtosis
estandarizados deben de estar entre -2 y +2. En este caso, la distribución normal parece ser un
modelo razonable para los datos.

Otro resumen útil de los datos lo aportan el resumen de los 5 números de John Tukey:

Mínimo (valor más pequeño de los datos) = 96.3


Cuartil inferior (percentil 25) = 97.8
Mediana (percentil 50) = 98.3
Cuartil superior (percentil 75) = 98.7
Máximo (valor más alto de los datos) = 100.8

163/ Analizando una Muestra Simple


Estos cinco números dividen la muestra en cuartos y forman la base del gráfico de caja y bigotes,
que se describe en la siguiente sección.

NOTA: Seleccionando estadísticos de resumen adicionales utilizando Opciones de panel


cambia sólo la selección de los análisis actuales. Para cambiar los estadísticos por defecto
para futuros análisis, vaya al menú Edición y seleccione Preferencias. La pestaña Estadísticos
del cuadro de diálogo permite cambiar los estadísticos a calcular por defecto cuando se
ejecuta Análisis de una variable (así como para otros procedimientos que muestran
resúmenes estadísticos):

Figura 10-7. Cuadro de diálogo Preferencias utilizada para seleccionar estadísticos por defecto

164/ Analizando una Muestra Simple


10.3 Gráfico de caja y bigotes
Un gráfico útil para resumir datos, inventado por John Tukey, es el gráfico de caja y bigotes que
se muestra en la esquina inferior derecha de la figura 10-4 y se amplía a continuación:

Figura 10-8. Gráfico de caja y bigotes para temperaturas corporales


El gráfico de caja y bigotes se construye como sigue:

1. Se dibuja una caja cuyos extremos se extienden desde el cuartil inferior al cuartil superior
de la variable. El 50% de los valores de datos están dentro de esta caja.

2. Se dibuja una línea vertical en el interior de la caja en la localización de la mediana de la


muestra, que divide los datos por la mitad. Si los datos provienen de una distribución
simétrica, esta línea vertical debe pasar cerca del centro de la caja.

3. Se dibuja un signo más en la ubicación de la media de la muestra. Cualquier diferencia


sustancial entre la media y la mediana indica generalmente la presencia de un valore
atípico (un valor de los datos que no proviene de la misma población que el resto) o una

165/ Analizando una Muestra Simple


distribución asimétrica. En el caso de una distribución asimétrica, la media se situará en
la dirección de la cola más larga.

4. Los bigotes se extienden desde los cuartiles hasta el máximo y el mínimo de las
observaciones en la muestra, a no ser que algunos valores estén lo suficientemente lejos
de la caja para clasificarse como “valores atípicos”, en cuyo caso los bigotes se extienden
hasta el más extremo de los puntos no calificado como “atípico”. STATGRAPHICS
Centurion 18 sigue a Tukey tomando dos tipos de valores atípicos:

a. “Atípicos lejanos” – puntos situados a más de 3 veces el intervalo intercuartílico


por arriba o por debajo de los límites de la caja. (Nota: el intervalo intercuartílico
es la distancia entre los cuartiles primero y tercero y coincide con la anchura de la
caja.) Los valores fuera de estos límites se indican con un símbolo de punto
(generalmente un pequeño cuadrado) con un signo más superpuesto. Si los datos
provienen de una distribución normal, la posibilidad de que un punto esté lo
suficientemente lejos de la caja para clasificarlo como un punto atípico es de
aproximadamente 1 entre 300 en una muestra del tamaño actual. A menos que
haya miles de observaciones en la muestra, los puntos fuera de estos límites son
indicativos de valores atípicos (o de una distribución no normal).

b. “Atípicos dudosos” - puntos situados a más de 1.5 veces el intervalo


intercuartílico por encima o por debajo de los límites de la caja. Estos valores se
indican con un símbolo de punto, pero no se le superpone el signo más. Incluso
cuando los datos provienen de una distribución normal, la posibilidad de
observar 1 o 2 puntos atípicos en una muestra de n = 100 observaciones es
aproximadamente del 50% y no indica necesariamente la presencia de un valor
atípico verdadero. Estos puntos deben considerarse simplemente dignos de
mayor investigación.

El gráfico de caja y bigotes de la figura 10-8 es razonablemente simétrico. Los bigotes tienen
aproximadamente misma longitud y la media y la mediana de la muestra son similares y se
encuentran cerca del centro de la caja. Se han marcado tres puntos atípicos dudosos, pero no hay
atípicos lejanos. Haciendo clic con el ratón en el atípico dudoso situado más a la derecha se
observa que corresponde a la fila #15 en el archivo.

Si selecciona Opciones de panel en la barra de herramientas de análisis, puede añadir una muesca a
la mediana en el gráfico:

166/ Analizando una Muestra Simple


Figura 10-9. Gráfico de caja y bigotes con muesca en la mediana al 95%
Esto agrega una muesca al gráfico que cubre un intervalo de confianza aproximado para la
mediana de la población, al nivel de confianza por defecto del sistema (generalmente 95%).
Muestra el margen de error con que se estima la temperatura mediana de la población de la que
se tomó la muestra. En este caso, el error de muestreo es de aproximadamente 0.15 grados en
cualquier dirección. Una muestra más grande daría como resultado un margen de error menor.

10.4 Contrastando valores atípicos


Antes de estimar cualquier estadístico adicional, vale la pena tomarse un momento para
investigar si la fila #15 debe considerarse un valor atípico verdadero a eliminar potencialmente
del archivo de datos. STATGRAPHICS Centurion 18 incluye un procedimiento que realiza un
contraste formal para determinar si una observación podría proceder razonablemente de una
distribución normal. El contraste está disponible en el menú principal seleccionando:

1. Si usa el menú clásico, seleccione Describir – Datos numéricos – Identificación de Valores


atípicos.

167/ Analizando una Muestra Simple


2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de variable – Identificación de Valores
atípicos.

Especificando Temperatura en el campo Datos de la ventana Opciones se genera la ventana Tablas y


Gráficos. Después de seleccionar todas las opciones deseadas, se genera una amplia tabla de
estadísticos que se muestran en la mitad inferior del panel izquierdo. De particular interés es la
tabla que muestra los cinco valores mayores y los cinco valores menores en la muestra:

Valores Ordenados
Valores Studentizados Valores Studentizados Modificados
Fila Valor Sin Supresión Con Supresión Valor-Z DAM
95 96.3 -2.65859 -2.74567 -2.698
55 96.4 -2.52219 -2.59723 -2.5631
23 96.7 -2.11302 -2.15912 -2.1584
30 96.7 -2.11302 -2.15912 -2.1584
73 96.8 -1.97663 -2.01521 -2.0235
...
99 99.4 1.56955 1.59096 1.4839
13 99.5 1.70594 1.7323 1.6188
97 99.9 2.25151 2.30628 2.1584
120 100.0 2.3879 2.45231 2.2933
15 100.8 3.47903 3.67021 3.3725

Prueba de Grubbs (asume normalidad)


Estadístico de prueba = 3.47903
Valor-P = 0.0484379
Figura 10-10. Salida seleccionada del procedimiento Identificación de valores atípicos

El valor más atípico está en la fila #15, que se destaca en rojo. Tiene un valor estudentizado sin
supresión (Studentized Value Without Deletion) de 3.479. Los valores estudentizados se calculan
mediante:

xi  x
zi 
s

Un valor de 3.479 indica que la observación está a 3.479 desviaciones típicas sobre la media
muestral, cuando la observación se incluye en el cálculo de x y s. Los valores estudentizados con
supresión (Studentized Values With Deletion) indican cuántas desviaciones típicas tiene cada
observación de la media de la muestra cuando esa observación no se utiliza en los cálculos. Si no
se incluye en el cálculo, la fila #15 tiene 3,67 desviaciones típicas.

168/ Analizando una Muestra Simple


Las observaciones a más de 3 desviaciones típicas de la media se consideran atípicas, a menos
que el tamaño de la muestra n sea muy grande o la distribución no sea normal. Se puede hacer
una prueba formal bajo las siguientes hipótesis:

Hipótesis nula: El valor más extremo proviene de la misma distribución normal que las
otras observaciones.

Hipótesis alternativa: El valor más extremo no proviene de la misma distribución


normal que las otras observaciones.

Una prueba ampliamente utilizada de estas hipótesis es el test de Grubbs, también llamada
prueba de Desviación extrema estudentizada. STATGRAPHICS Centurion 18 realiza esta prueba y
muestra un P-valor. En general, un P-valor cuantifica la probabilidad de obtener un estadístico
como inusual o más inusual que el observado en la muestra, si la hipótesis nula fuera verdadera.
Si el P-valor es lo suficientemente pequeño, la hipótesis nula puede rechazarse, ya que la muestra
habría sido un evento extremadamente raro. “Lo suficientemente pequeño” generalmente se
define como menor que 0.05, valor que se denomina “nivel de significación” o “riesgo alfa” del
procedimiento de la prueba. Si hay menos de un 5% de posibilidades de que la muestra haya
surgido dado que la hipótesis nula era verdadera, entonces la hipótesis nula se rechaza.

En este ejemplo, el test estadístico es igual al valor estudentizado sin supresión absoluto más grande,
3.479. Tiene un P-valor igual a 0.0484. Como el P-valor es menor que 0.05, rechazamos la
hipótesis nula, concluyendo de este modo que la fila #15 es un valor atípico comparado con el
resto de los valores de la muestra.

Puede eliminar la fila #15 presionando el botón Cuadro de diálogo de entrada en la barra de
herramientas de análisis e introduciendo una expresión en el campo Seleccionar como la que se
muestra a continuación:

169/ Analizando una Muestra Simple


Figura10-11. Cuadro de diálogo de identificación de atípicos eliminando valores atípicos
Como la fila #15 es la única observación que excede los 100 grados, la entrada del campo
Seleccionar anterior seleccionará sólo las otras n = 129 filas. La salida modificada de Identificación de
valores atípicos se muestra a continuación:

Valores ordenados
Valores estudentizados Valores estudentizados Modificado
Fila Valor Sin supresión Con supresión MAD Z-Score
95 96.3 -2.75487 -2.85205 -2.698
55 96.4 -2.61209 -2.6956 -2.5631
23 96.7 -2.18375 -2.23455 -2.1584
30 96.7 -2.18375 -2.23455 -2.1584
73 96.8 -2.04097 -2.08332 -2.0235
...
119 99.4 1.6713 1.69652 1.4839
99 99.4 1.6713 1.69652 1.4839
13 99.5 1.81408 1.84516 1.6188
97 99.9 2.3852 2.44992 2.1584
120 100.0 2.52798 2.60411 2.2933

Test de Grubbs (asume normalidad)


Test estadístico = 2.75487
P-Valor = 0.676064
Figura 10-12. Salida de identificación de valores atípicos después de quitar la fila #15
El valor más extremo entre las observaciones restantes es la fila #95. Como el P-valor del test de
Grubbs es ahora mayor que 0.05, todas las observaciones restantes parecen provenir de la misma
población.

Idealmente, se debe volver al estudio original y encontrar una causa asignable para el valor
anormal de la fila #15. Como esto es imposible hacerlo ahora, aceptaremos el resultado del test

170/ Analizando una Muestra Simple


de Grubbs y eliminaremos la fila #15 para todos los cálculos posteriores. Modificando el cuadro
de diálogo de entrada de datos de Análisis de una variable como se muestra en la figura 10-11, los
estadísticos resumen modificados son los que se muestran a continuación:
Resumen Estadístico para Temperature
Recuento 129
Promedio 98.2295
Mediana 98.3
Desviación estándar 0.70038
Coef. de variación 0.713004%
Mínimo 96.3
Máximo 100.0
Rango 3.7
Cuartil inferior 97.8
Cuartil superior 98.7
Rango inercuartílico 0.9
Sesgo estandarizado -1.40217
Curtosis estandarizada 0.257075

Figura 10-13. Resumen de estadísticos después de eliminar la fila #15

10.5 Histograma
Otro gráfico común que ilustra una muestra de datos de medición es el histograma de
frecuencia. Volviendo al procedimiento Análisis de una variable, se puede crear un histograma
presionando el botón Tablas y Gráficos en la barra de herramientas de análisis y seleccionando
Histograma de frecuencias. El histograma por defecto se muestra a continuación:

171/ Analizando una Muestra Simple


Figura 10-14. Histograma de frecuencias con clases por defecto
La altura de cada barra en el histograma representa el número de observaciones que caen en el
intervalo de temperatura correspondiente a la barra. El número de barras y su intervalo se
establece por defecto en función del tamaño de muestra n, utilizando la regla seleccionada en la
pestaña AED (Análisis de Datos Exploratorio) del cuadro de dialogo Editar - Preferencias:

172/ Analizando una Muestra Simple


Figura 10-15. Pestaña AED del cuadro de diálogo Preferencias
Utilizando la regla 10log10(n), establece el número por defecto de barras a 10 veces el logaritmo
en base 10 del tamaño de muestra n.

Se dispone de una modificación temporal para un histograma creado haciendo clic sobre él para
maximizar su panel y seleccionando Opciones de panel:

173/ Analizando una Muestra Simple


Figura 10-16. Cuadro de diálogo de Opciones de panel para Histograma de frecuencias
Al establecer las clases, hay que tener en cuenta el número de cifras significativas en los datos.
Por ejemplo, las temperaturas corporales se midieron sólo al más cercano 0.1 de un grado. La
anchura de los intervalos correspondientes a las barras debe ser un múltiplo entero de 0.1. De
esta forma, cada barra cubrirá el mismo número de mediciones posibles. El gráfico siguiente
muestra 25 intervalos entre 96 y 101 grados, cubriendo cada uno un intervalo de 0.2 grados:

174/ Analizando una Muestra Simple


Figura 10-17. Histograma de frecuencias con clases redefinidas
Con un mayor número de clases se observan más detalles. La forma general de la distribución es
similar a la de una curva normal en forma de campana.

Los datos expuestos en el histograma se pueden mostrar en forma de tabla presionando el botón
Tablas y Gráficos en la barra de herramientas de análisis y seleccionando Tabulación de frecuencia:

Tabla de Frecuencias para Temperatura


Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 96 0 0.0000 0 0.0000
1 96 96.2 96.1 0 0.0000 0 0.0000
2 96.2 96.4 96.3 2 0.0154 2 0.0154
3 96.4 96.6 96.5 0 0.0000 2 0.0154
4 96.6 96.8 96.7 3 0.0231 5 0.0385
5 96.8 97.0 96.9 2 0.0154 7 0.0538
6 97 97.2 97.1 6 0.0462 13 0.1000
7 97.2 97.4 97.3 6 0.0462 19 0.1462
8 97.4 97.6 97.5 6 0.0462 25 0.1923
9 97.6 97.8 97.7 10 0.0769 35 0.2692
10 97.8 98.0 97.9 16 0.1231 51 0.3923
11 98 98.2 98.1 13 0.1000 64 0.4923
12 98.2 98.4 98.3 14 0.1077 78 0.6000
13 98.4 98.6 98.5 13 0.1000 91 0.7000
14 98.6 98.8 98.7 18 0.1385 109 0.8385
15 98.8 99.0 98.9 7 0.0538 116 0.8923
16 99 99.2 99.1 6 0.0462 122 0.9385
17 99.2 99.4 99.3 4 0.0308 126 0.9692
18 99.4 99.6 99.5 1 0.0077 127 0.9769
19 99.6 99.8 99.7 0 0.0000 127 0.9769
20 99.8 100.0 99.9 2 0.0154 129 0.9923
21 100 100.2 100.1 0 0.0000 129 0.9923
22 100.2 100.4 100.3 0 0.0000 129 0.9923
23 100.4 100.6 100.5 0 0.0000 129 0.9923
24 100.6 100.8 100.7 1 0.0077 130 1.0000
25 100.8 101.0 100.9 0 0.0000 130 1.0000
mayor de 101 0 0.0000 130 1.0000
Media = 98.2492 Desviación Estándar = 0.733183
Figura 10-18. Tabla de tabulación de frecuencias
Tenga en cuenta que las observaciones se cuentan dentro de un intervalo si son mayores que el
límite inferior del intervalo y menores o iguales que el límite superior.

175/ Analizando una Muestra Simple


La columna del extremo derecho también es de considerable interés, ya que muestra la
probabilidad acumulada de que un individuo caiga en la clase seleccionada o en clases anteriores.
por ejemplo, el 89.23% de los valores de datos son menores o iguales que 99.0 grados.

10.6 Gráficos de cuantiles y percentiles


Otra forma de mostrar las probabilidades acumuladas es seleccionando Gráfico de cuantiles de la
lista de Gráficos en el procedimiento análisis de una variable:

Figura 10-19. Gráfico de cuantiles


En este gráfico, los datos se ordenan primero de menor a mayor. El j-ésimo mayor de los valores
de datos se grafica como Y = (j+0.5)/n. Esto estima la proporción de la población por debajo de
la temperatura observada. Al igual que la columna más a la derecha en la tabla de frecuencias, la
curva representa la probabilidad acumulada de un individuo que tiene una temperatura menor o
igual que la que se muestra en el eje horizontal. Dado que los datos de temperatura solo se
midieron al 0.1 grado más cercano, hay saltos verticales en la pantalla anterior.

176/ Analizando una Muestra Simple


La figura 10-19 también muestra un conjunto de cursores en cruz. Estos se crean presionando el
botón derecho del ratón en un punto mientras se visualiza el gráfico y se selecciona Localizar en
el menú emergente. A continuación puede utilizar el ratón para arrastrar las cruces a cualquier
localización. Los números pequeños cerca de cruz indican su posición. En el gráfico anterior, se
han usado las líneas cruzadas para localizar la mediana o percentil 50, que es el valor de la
temperatura para el que la proporción mostrada en el eje vertical es igual a 0.5.

Puede crearse también una tabla de percentiles seleccionando Percentiles en la lista Tablas:
Percentiles para Temperature
Percentiles Límite Inferior Límite Superior
1.0% 96.4 96.2713 96.7643
5.0% 97.0 96.829 97.2211
10.0% 97.25 97.1232 97.4677
25.0% 97.8 97.6062 97.8882
50.0% 98.3 98.1222 98.3762
75.0% 98.7 98.6102 98.8922
90.0% 99.1 99.0308 99.3753
95.0% 99.3 99.2774 99.6695
99.0% 100.0 99.7342 100.227

El informe incluye 95.0% de límites de confianza Normal.

Figura 10-20. Tabla de percentiles


El percentil de orden p estima el valor de la temperatura por debajo del cual se encuentran el p%
de los valores de datos. Se ha utilizado Opciones de panel añadiendo límites de confianza al 95% a
estos percentiles, basados en la asunción de que la muestra proviene de una distribución normal.

Por ejemplo, el percentil 90 es el valor de la temperatura excedida por sólo el 10% de los
individuos en la población. El mejor estimador del percentil basado en la muestra de datos es
99.1 grados. Sin embargo, dado el tamaño limitado de la muestra, el percentil 90 debe estar entre
98.98 y 99.31 grados, con un 95% confianza.

10.7 Intervalos de confianza


Eliminados los valores atípicos de la muestra, podemos proceder a establecer los estimadores
finales para los parámetros de la distribución de la que provienen los datos. Al seleccionar
Intervalos de confianza del cuadro de diálogo de Tablas y Gráficos tenemos:

Intervalos de Confianza para Temperature


Intervalos de confianza del 95.0% para la media: 98.2492 +/- 0.127228 [98.122, 98.3765]
Intervalos de confianza del 95.0% para la desviación estándar: [0.653586, 0.835043]

177/ Analizando una Muestra Simple


Figura 10-21. Intervalos de confianza al 95% para la media y la desviación típica
Los intervalos de confianza proporcionan un límite en el error potencial al estimar la media y la
desviación típica de la población. Dadas las restantes n = 129 observaciones, podemos concluir
con el 95% de confianza que la temperatura media de la población está entre 98.11 y 98.35
grados. Del mismo modo, la desviación típica de la población está entre 0.624 y 0.798 grados.

Seleccionando Opciones de panel, se pueden solicitar intervalos de confianza adicionales utilizando


el método bootstrap:

Figura 10-22. Cuadro de diálogo de opciones de intervalos de confianza


Los intervalos Bootstrap, a diferencia de los intervalos de la figura 10-21, no se basan en la
asunción de que la población sigue una distribución normal. En cambio, se toman muestras
aleatorias de n = 129 observaciones de los datos, muestreando con replicación (las mismas
observaciones pueden seleccionarse más de una vez). Este muestreo se repite 500 veces, se
calculan los estadísticos de muestra y el 95% de los resultados más centrales se utilizan para
calcular los intervalos de confianza. La siguiente tabla muestra los intervalos bootstrap para la
media, la desviación típica y la mediana de la población:

Intervalos de Confianza para Temperatura


Intervalos de confianza del 95.0% para la media: 98.2492 +/- 0.127228 [98.122, 98.3765]
Intervalos de confianza del 95.0% para la desviación estándar: [0.653586, 0.835043]

Intervalos Bootstrap
Media: [98.1269, 98.3623]
Desviación Estándar: [0.628288, 0.834342]
Mediana: [98.1, 98.4]
Figura 10-23. Intervalos de confianza Bootstrap al 95% de confianza

NOTA: Sus resultados pueden variar ligeramente de los obtenidos aquí.

178/ Analizando una Muestra Simple


Los intervalos anteriores, calculados utilizando la distribución t de Student y la distribución chi-
cuadrado, son muy parecidos a los intervalos bootstrap. Esto no es inesperado, ya que los datos
no muestran asimetría o curtosis significativa.

10.8 Contrastes de hipótesis


Es posible ejecutar también los contrastes de hipótesis formales habituales. Por ejemplo, se
asegura que habitualmente la temperatura humana es de 98.6 grados Fahrenheit. Para contrastar
si los datos proceden de una distribución normal con una media dada, se puede considerar el
siguiente contraste de hipótesis:

Hipótesis nula:  = 98.6 grados

Hipótesis alternativa: ≠ 98.6 grados

Para ejecutar este contraste con el procedimiento Análisis de una variable, seleccione Contraste de
hipótesis de la lista de Tablas y Gráficos. Antes de examinar los resultados, seleccione opciones de panel
y especifique los atributos deseados para el contraste:

Figura 10-24. Opciones de panel para Contraste de hipótesis

179/ Analizando una Muestra Simple


El valor introducido para Media representa la hipótesis nula. Como Hipótesis Alternativa, puede
seleccionar cualquiera de las hipótesis alternativas siguientes:

1. Distinto: ≠ 98.6


2. Menor que: < 98.6
3. Mayor que: > 98.6

Aunque la muestra sugiere una temperatura media más baja, hemos seleccionado una hipótesis
alternativa de dos lados. Creando un contraste unilateral con una hipótesis alternativa < 98.6
puede considerarse “indagación de datos” en este punto, ya que estaríamos formulando la
hipótesis después de haber analizado los datos.

Los resultados del test se muestran a continuación:

Prueba de Hipótesis para Temperatura


Media Muestral = 98.2492
Mediana Muestral = 98.3
Desviación Estándar de la Muestra = 0.733183

Prueba t
Hipótesis Nula: media = 98.6
Alternativa: no igual

Estadístico t = -5.45482
Valor-P = 4.37123E-7
Se rechaza la hipótesis nula para alfa = 0.05.

Prueba de rangos con signo


Hipótesis Nula: mediana = 98.6
Alternativa: no igual

Rango medio de valores menores a la mediana hipotética: 69.1975


Rango medio de valores mayores a la mediana hipotética: 42.4359

Estadístico para Grandes Muestras = 5.17695 (aplicada la corrección por continuidad)


Valor-P = 2.25961E-7
Se rechaza la hipótesis nula para alfa = 0.05.
Figura 10-25. Resultados del contraste de hipótesis
Los resultados de dos tests son los siguientes:

1. Un test estándar de la t, que asume que los datos proceden de una distribución normal
(aunque no es demasiado sensible a esta asunción).

180/ Analizando una Muestra Simple


2. Un test no paramétrico de los rangos de signos, basado en los rangos de las distancias de
cada observación a la mediana supuesta. Este test no asume normalidad y es menos
sensible a valores atípicos que el test de la t.

En ambos casos, el P-valor es menor que 0.05, rechazándose la hipótesis de que la muestra
procede de una población con media 98.6 grados.

NOTA: La notación E-8 después de un número significa que el número está


multiplicado por 10-8. El P-valor se muestra como 1.81264E-8 que por consiguiente es
igual a 0.0000000181264.

Se debe hacer hincapié en que el intervalo de confianza para la media, dado en la sección 10.8,
no incluyó el valor 98.6. Cualquier valor que no estuviese dentro del intervalo de confianza para
la media habría sido rechazado por el test t considerado. Se puede decir que el intervalo de
confianza contiene todos los valores posibles para la población que son compatibles con la
muestra de datos.

10.9 Límites de tolerancia


Se suele utilizar un análisis adicional para los datos de la temperatura corporal. Crea límites de
tolerancia normal, que son límites dentro de los cuales se estima que caiga un porcentaje
seleccionado de la población para un nivel de confianza dado. Los límites de tolerancias están
disponibles en el menú principal seleccionando:

1. Si usa el menú clásico, seleccione Describir –Datos numéricos – Límites estadísticos de tolerancia
– Desde Observaciones
2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de variable – Análisis de Capabilidad -
Límites estadísticos de tolerancia – Desde Observaciones

El procedimiento comienza mostrando un cuadro de diálogo en el cual se introduce el nombre


de la variable que contenga los datos:

181/ Analizando una Muestra Simple


Figura 10-26. Cuadro de diálogo para Límites estadísticos de tolerancia
Cuando se presiona Aceptar, aparece el recuadro Opciones de Análisis:

Figura 10-27. Cuadro Opciones de Análisis para Límites Estadísticos de Tolerancia


Seleccione:

 La distribución normal. Se asumirá que los datos proceden de una distribución normal
en forma de campana.
 Límites Bilaterales.
 Un nivel de confianza del 95%.

182/ Analizando una Muestra Simple


 Una proporción poblacional del 99%.

Presione Aceptar y acepte la salida por defecto cuando aparezca el cuadro de diálogo Tablas y
Gráficas. La salida resultante es la siguiente:

Límites de Tolerancia Estadística - Temperature (Temperature <= 100)


Datos/Variable: Temperature (degrees)
Selección de la Variable: Temperature <= 100

Distribución: Normal
tamaño de muestra = 129
media = 98.2295
desv. est. = 0.70038

Intervalos de tolerancia del 95.0% para 99.0% de la población


Xbarra +/- 2.88542 sigma
Superior: 100.25
Inferior: 96.2086

The StatAdvisor
Asumiendo que Temperature proviene de una distribución normal, los límites de tolerancia establecen que
se puede estar 95.0% confiados en que 99.0% de la distribución cae entre 96.2086 y 100.25. Este intervalo
se calcula tomando la media de los datos +/-2.88542 veces la desviación estándar.
Figura 10-28. Resumen de análisis para Límites estadísticos de tolerancia
La interpretación del StatAdvisor resume los resultados de manera sucinta.

El procedimiento Límites de Tolerancia Estadística también crea el Gráfico de tolerancia, que muestra
los límites de tolerancia superpuestos en un histograma de frecuencia:

183/ Analizando una Muestra Simple


Figura 10-29. Gráfico de tolerancia
No más de un individuo por cada 100 es probable que se encuentre fuera de los límites
calculados.

184/ Analizando una Muestra Simple


Capítulo

11
Tutorial #2: Comparando dos
muestras
Comparaciones gráficas y contrastes de hipótesis.

A menudo , los datos que se analizarán consisten en dos muestras, posiblemente de poblaciones
diferentes. En tales casos es usual:

1. Mostrar los datos para realizar comparaciones visuales.

2. Contrastar hipótesis para determinar si existen o no diferencias significativas entre las


muestras.

El tutorial #1 del último capítulo analizaba un conjunto de temperaturas corporales tomadas de


130 sujetos. De entre estos sujetos 65 eran mujeres y 65 eran hombres. En este tutorial,
compararemos los datos de las mujeres y los hombres.

Para analizar las temperaturas corporales, se abre el archivo de datos bodytemp.sgd utilizando Abrir
origen de datos en el menú Archivo – Abrir.

11.1 Ejecutando el procedimiento Comparación de dos


muestras
El procedimiento principal para comparar datos de dos muestras es el procedimiento
Comparación de dos muestras, accesible desde el menú principal como sigue:

185/ Comparando dos muestras


1. Si usa el menú clásico, seleccione Comparar – Dos muestras– Muestras independientes.

2. Si usa el menú Seis Sigma, seleccionar Analizar – Datos de variable – Comparación de dos
muestras – Muestras independientes.

El cuadro de diálogo de entrada de datos para el procedimiento es el siguiente:

Figura 11-1. Cuadro de diálogo Comparación de dos muestras


La caja Entrada indica la forma en que se introducirán los datos para las dos muestras:

1. Datos en dos columnas – los datos para cada muestra están en columnas diferentes.

2. Columnas de datos y códigos – los datos para ambas muestras están en la misma columna, y
una segunda columna contiene códigos que diferencian los datos de las dos muestras.

El archivo bodytemp.sgd tiene el segundo tipo de estructura, con las n = 130 observaciones en una
misma columna de nombre Temperatura, mientras una segunda columna de nombre Género
contiene las etiquetas “Mujer” u “Hombre”. En el campo Seleccionar, se elegirán solo las filas para
las cuales la Temperatura es menor o igual que 100. Así se excluye la fila #15 del análisis, cuya
observación había sido identificada en el capítulo 10 como atípica.

186/ Comparando dos muestras


Después del cuadro Tablas y Gráficos se presenta una ventana que contiene 4 paneles: un resumen
de los datos, un histograma dual, un resumen estadístico de cada grupo y un gráfico de caja y
bigotes dual, como se muestra a continuación.

Figura 11-2. Ventana de análisis de Comparación de dos muestras


Después de eliminar el valor atípico, hay n1 = 64 observaciones para mujeres, con rangos de
temperaturas entre 96.4 y 100.0 grados, y n2 = 65 observaciones para hombres, con rangos de
temperaturas entre 96.3 y 99.5 grados.

11.2 Resúmen de Estadísticos


La tabla Resúmen de Estadísticos muestra los estadísticos calculados para cada muestra:

187/ Comparando dos muestras


Resumen Estadístico para Temperature
Gender=Female Gender=Male
Recuento 64 65
Promedio 98.3562 98.1046
Mediana 98.4 98.1
Desviación Estándar 0.684262 0.698756
Coeficiente de Variación 0.695697% 0.712256%
Mínimo 96.4 96.3
Máximo 100.0 99.5
Rango 3.6 3.2
Cuartil Inferior 98.0 97.6
Cuartil Superior 98.8 98.6
Rango Intercuartílico 0.8 1.0
Sesgo Estandarizado -1.35246 -0.702297
Curtosis Estandarizada 1.49635 -0.610877

Figura 11-3. Estadísticos resumen para la muestra


Varios hechos son de particular interés:

1. La temperatura media de las mujeres es aproximadamente 0.25 grados más alta que la de
los hombres. La diferencia entre las medianas es 0.30 grados.

2. La desviación típica de las mujeres es ligeramente menor que la de los hombres,


indicando que las temperaturas corporales de las mujeres pueden ser menos variables que
las de los hombres.

3. Ambas muestras tienen valores de asimetría y curtosis estandarizadas en el intervalo


entre -2 y 2. Como se ha explicado en el capítulo 10, valores en dicho intervalo son
consistentes con la hipótesis de que los datos proceden de distribuciones normales.

Queda por determinar si la diferencia aparente entre las temperaturas corporales entre los
hombres y las mujeres es estadísticamente significativa.

11.3 Histograma dual


El histograma de frecuencia proporciona una comparación consecutiva de las dos muestras. El
uso de las Opciones de panel para reescalar los intervalos de clase de tal modo que haya 18
intervalos entre 96 y 101 grados, genera el gráfico siguiente:

188/ Comparando dos muestras


Figura 11-4. Histograma de frecuencias dual
El histograma para las mujeres se muestra por encima de la línea horizontal. El histograma para
los hombres se muestra invertido por debajo de la línea horizontal. Las formas de las
distribuciones son similares, con un posible desplazamiento de distribución de las mujeres a la
derecha de la de los hombres.

11.4 Gráfico dual de caja y bigotes


La ventana de análisis también muestra el gráfico de caja y bigotes para las dos muestras. Como
se ha explicado en el capítulo 10, la caja central cubre la mitad de las observaciones de cada
muestra. Los bigotes se extienden entre los valores máximo y mínimo de cada muestra, excepto
para algunos puntos que se sitúan inusualmente lejanos a las cajas. Se dibuja una línea vertical en
cada caja a la altura de la mediana, mientras que los pequeños signos más situados en el interior
de las cajas indican las localizaciones de las medias muestrales.

En este caso, es usual añadir muescas al gráfico accediendo al Panel de Opciones. Los resultados se
muestran a continuación:

189/ Comparando dos muestras


Figura 11-5. Gráfico dual de caja y bigotes con muescas para las medianas
En el gráfico se observa lo siguiente:

1. Un aparente desvío del centro de la distribución de las mujeres hacia la derecha respecto
del centro de la distribución de los hombres. Medias y medianas muestran una diferencia
similar.

2. El intervalo cubierto por las mujeres es más ancho que el intervalo cubierto por los
hombres, pero solamente si se incluye el punto más pequeño.

3. La muesca de la mediana de las mujeres coincide parcialmente con la de los hombres (es
un poco más estrecha). Si las muescas de las medianas no son coincidentes parcialmente,
las medianas de hombres y mujeres serán significativamente diferentes al nivel por
defecto del sistema (actualmente del 5%). En la sección siguiente se describe una
comparación más formal.

Basándose en este gráfico, parece haber una diferencia en el centro de las dos muestras, aunque
la significación estadística de la diferencia está indeterminada.

190/ Comparando dos muestras


11.5 Comparando desviaciones típicas
La primera comparación formal entre las dos muestras debe de ser el contraste de hipótesis de
que la desviación típica () de la población de la cual proceden los datos es igual para las dos
muestras frente a la hipótesis alternativa de que son diferentes:

Hipótesis nula: 1 = 2
Hipótesis alternativa: 1 ≠ 2

Este contraste nos permitirá determinar si la diferencia aparente entre las variabilidades de las
temperaturas corporales de hombres y mujeres es estadísticamente significativa, o si está dentro
del intervalo de la variabilidad aleatoria normal para muestras del tamaño actual.

Para ejecutar este contraste, presione el botón Tablas y Gráficos en la barra de herramientas
de análisis y seleccione Comparación de desviaciones típicas. Los resultados se muestran a
continuación:
Comparación de Desviaciones Estándar para Temperature
Gender=Female Gender=Male
Desviación Estándar 0.684262 0.698756
Varianza 0.468214 0.48826
Gl 63 64
Razón de Varianzas= 0.958945

Intervalos de confianza del 95.0%


Desviación Estándar de Gender=Female: [0.582853,
0.828723]
Desviación Estándar de Gender=Male: [0.595887, 0.844885]
Razones de Varianzas: [0.584028, 1.57609]

Prueba-F para comparar Desviaciones Estándar


Hipótesis Nula: sigma1 = sigma2
Hipótesis Alt.: sigma1 <> sigma2
F = 0.958945 valor-P = 0.8684
No se rechaza la hipótesis nula para alfa = 0.05.
Figura 11-6. Comparación de desviaciones típicas de dos muestras
Lo más importante de la salida de esta tabla está marcado en rojo:

1. Razones de Varianzas: muestra un intervalo de confianza al 95% para la razón de varianzas


(varianza de la población de mujeres 12 dividida por la varianza de la población de
hombres 22). La Varianza es una medida de la variabilidad calculada como el cuadrado
de la desviación típica. (NOTA: comparaciones de variabilidad entre más de una muestra
191/ Comparando dos muestras
están basadas habitualmente en las varianzas en lugar de en las desviaciones típicas, ya
que tienen propiedades matemáticas más atractivas.) El intervalo para 12 / 22 está entre
0.58 y 1.58. Esto indica que la varianza de las mujeres puede estar entre
aproximadamente el 58% y el 158% de la varianza de los hombres. Esta falta de
precisión es típica cuando se intentan las comparaciones de variabilidades con muestras
pequeñas.

2. El P-valor asociado con el estadístico de la F se observa arriba. Un P-valor menor que


0.05 indicará diferencia estadísticamente significativa entre la varianza de las
temperaturas corporales de las mujeres y los hombres al 5% de nivel de significación. Ya
que P no es menor que 0.05, no hay evidencia suficiente para rechazar la hipótesis de
igualdad de varianzas (o lo que es lo mismo, igualdad de desviaciones típicas).

Por consiguiente no hay evidencia estadísticamente significativa para concluir que la variabilidad
de la temperatura corporal de las mujeres es diferente que la de los hombres.

Se debe hacer notar que este contraste es bastante sensible a la asunción de que las muestras
proceden de poblaciones normales, una asunción que ya mostró ser razonable observando los
valores de las asimetrías y las curtosis de las dos muestras (ambas entre -2 y 2).

11.6 Comparando medias


La segunda comparación entre las dos muestras contrasta la hipótesis de que la media () de las
dos poblaciones es la misma:

Hipótesis nula: 1 = 2
Hipótesis alternativa: 1 ≠ 2

Para realizar esta prueba, presione nuevamente el botón Tablas y seleccione Comparación de medias.
Los resultados son los siguientes:
Comparación de Medias para Temperature
Intervalos de confianza del 95.0% para la media de Gender=Female: 98.3562 +/- 0.170924 [98.1853, 98.5272]
Intervalos de confianza del 95.0% para la media de Gender=Male: 98.1046 +/- 0.173144 [97.9315, 98.2778]
Intervalos de confianza del 95.0% intervalo de confianza para la diferencia de medias
suponiendo varianzas iguales: 0.251635 +/- 0.240998 [0.0106371, 0.492632]

Prueba t para comparar medias


Hipótesis nula: media1 = media2
Hipótesis Alt.: media1 <> media2
suponiendo varianzas iguales: t = 2.06616 valor-P = 0.040846
Se rechaza la hipótesis nula para alfa = 0.05.

192/ Comparando dos muestras


Figura 11-7. Comparación de medias para dos muestras
Lo más importante de la salida está marcado en rojo en la tabla:

1. diferencia entre las medias (asumiendo varianzas iguales): muestra un intervalo de confianza al
95% para la media de temperaturas corporales de la población de mujeres menos la
media de la población de los hombres. El intervalo para 1 - 2 varía desde 0.01 a 0.49,
que indica que la temperatura corporal media de las mujeres está entre 0.01 y 0.49 más
alta que la temperatura corporal media de los hombres.

2. El P-valor asociado con el test-t de las hipótesis indicadas anteriormente. Dado que el P-
valor es menor que 0.05, hay evidencia significativa para rechazar la hipótesis de igualdad
de medias y declarar que las medias de las dos poblaciones son estadísticamente
diferentes al 5% de nivel de significación.

Tenga en cuenta que esta prueba se realizó suponiendo que las varianzas de las dos poblaciones
son iguales, que ya fue validado con el estadístico F en la sección anterior. Si las varianzas
hubiesen sido significativamente diferentes, se podría haber solicitado un test-t aproximado
accediendo a las Opciones del panel y eliminando la marca de verificación de la casilla Asumir sigmas
iguales.

Parece que las mujeres proceden de una población con una temperatura corporal media más alta
que la de los hombres.

11.7 Comparando medianas


Si se sospecha que los datos contienen valores atípicos, se puede realizar una prueba no
paramétrica para comparar las medianas en lugar de las medias. Las pruebas no paramétricas no
asumen que los datos procedan de distribuciones normales y tienden a verse menos afectadas
por la presencia de valores atípicos.

Al seleccionar Comparación de medianas del cuadro de diálogo Tablas y Gráficos se genera el test del
estadístico W de Mann-Whitney (Wilcoxon). En este test, las dos muestras han sido primero
combinadas. Los datos combinados se clasifican de 1 hasta n1+n2, y los valores de los datos
originales se han reemplazado por sus respectivos rangos. A continuación se construye el
estadístico W que compara los rangos promedio de las observaciones en las dos muestras:

193/ Comparando dos muestras


Comparación de Medianas para Temperature
Mediana de muestra 1: 98.4
Mediana de muestra 2: 98.1

Prueba W de Mann-Whitney (Wilcoxon) para comparar medianas


Hipótesis Nula: mediana1 = mediana2
Hipótesis Alt.: mediana1 <> mediana2

Rango Promedio de muestra 1: 71.9219


Rango Promedio de muestra 2: 58.1846

W = 1637.0 valor-P = 0.0368312


Se rechaza la hipótesis nula para alfa = 0.05.
Figura 11-8. Comparación de medianas de dos muestras
La interpretación del test de Mann-Whitney (Wilcoxon) es paralela a la del test-t descrito en la
última sección, con un P-valor pequeño que permite concluir que las medianas de las dos
poblaciones son significativamente diferentes.

11.8 Gráfico de cuantiles


Para ilustrar la diferencia entre las dos distribuciones, se pueden realizar gráficos de cuantiles
lado a lado para cada muestra seleccionando Gráfico de cuantiles del cuadro de diálogo Gráficos:

194/ Comparando dos muestras


Figura 11-9. Gráficos de cuantiles simultáneos
El gráfico de cuantiles ilustra la proporción de datos en cada muestra que queda por debajo de
un valor dado de X, como una función de X. Si las muestras proceden de la misma población,
los gráficos de cuantiles deben superponerse. Cualquier desplazamiento de un gráfico a la
derecha o a la izquierda del otro indican diferencia entre las dos medias muestrales. Una
diferencia en la pendiente de las curvas indica una diferencia entre las desviaciones típicas.

En el gráfico anterior, es bastante evidente que la distribución de las mujeres se desplaza hacia la
derecha de la de los hombres. Las pendientes generales, sin embargo, son similares.

11.9 Test de Kolmogorov-Smirnov para dos muestras


Una prueba no paramétrica adicional que puede realizarse si la asunción de la normalidad de las
distribuciones no es sostenible es el test de Kolmogorov-Smirnov para dos muestras. Este test se
basa en el cálculo de la distancia vertical máxima entre las funciones de distribución acumuladas
de las dos muestras, que es aproximadamente la distancia máxima entre los dos gráficos de
cuantiles de la figura 11-9. Si la distancia máxima es lo suficientemente grande, se puede declarar
que las dos muestras proceden de poblaciones significativamente diferentes.

195/ Comparando dos muestras


Seleccionando Prueba de Kolmogorov-Smirnov en el cuadro de diálogo de Tablas y Gráficos se muestra
lo siguiente:

Prueba de Kolmogorov-Smirnov para Temperature


Estadístico DN estimado = 0.242548
Estadístico K-S bilateral para muestras grandes = 1.37737
Valor P aproximado = 0.0449985
Figura 11-10. Salida del test de Kolmogorov-Smirnov
La distancia vertical máxima, indicada por DN, es igual aproximadamente a 0.24 para los datos
de las temperaturas corporales.

El P-valor se usa para determinar si las distribuciones son significativamente diferentes entre sí.
Un P-valor pequeño nos lleva a la conclusión de que hay una diferencia significativa. Dado
que el P-valor para esta muestra de datos es menor o igual que 0.05, existe una diferencia
significativa entre las distribuciones de los hombres y las mujeres al 5% de nivel de significación.

Advertencia: Si los datos se redondean, el test puede no ser fiable ya que la función de
distribución acumulativa (FDA) empírica puede tener saltos en grandes pasos. Cuando
sea posible, lo mejor es confiar en una comparación de los parámetros de distribución
seleccionados, como la media, la desviación típica o la mediana.

11.10 Gráfico cuantil-cuantil


Un gráfico final, disponible seleccionando Gráfico cuantil-cuantil de la caja de diálogo Gráficos,
representa los cuantiles estimados en una muestra frente a los cuantiles de la otra muestra:

196/ Comparando dos muestras


Figura 11-11. Gráfico Q-Q para los datos de las temperaturas corporales
Hay un punto en este gráfico correspondiente a cada observación en la menor de las dos
muestras. En el otro eje se representa el cuantil estimado de la muestra mayor. Si las muestras
provienen de poblaciones idénticas, los puntos del gráfico Q-Q deben estar cerca de la línea
diagonal. Una desviación constante hacia la izquierda o hacia la derecha indica que hay una
diferencia significativa entre los centros de las dos distribuciones. Los puntos que divergen de la
línea en una pendiente diferente a la de la línea diagonal indican una diferencia significativa en la
variabilidad. En este caso, la diferencia entre las poblaciones puede ser un poco más complicada
de observar que un simple cambio en la media, ya que los puntos están más cerca de la línea a
temperaturas altas y bajas que a temperaturas centrales. Parece que la distribución de las
temperaturas para las mujeres está más concentrada en el centro que la distribución para los
hombres.

197/ Comparando dos muestras


Capítulo

12
Tutorial #3: Comparando más de
dos muestras
Comparando medias y desviaciones típicas, ANOVA de un factor, ANOM,
y métodos gráficos.

Cuando los datos se dividen en más de dos grupos, es necesario emplear un conjunto de técnicas
diferentes a las del capítulo anterior. Por ejemplo, suponga que desea comparar la resistencia de
diferentes aparatos fabricados con 4 materiales distintos. En un experimento típico, puede
construir 12 aparatos de cada uno de los 4 materiales para compararlos. Los siguientes datos
representan los resultados del experimento:

Material A Material B Material C Material D


64.7 60.4 58.3 60.8
64.8 61.8 62.1 60.2
66.8 63.3 62.4 59.8
67.0 61.6 60.3 58.3
64.9 61.0 60.6 56.4
63.7 63.8 60.0 61.6
61.8 60.9 60.3 59.5
64.3 65.1 62.4 62.0
64.3 61.5 61.9 61.4
65.9 60.0 63.1 58.6
63.6 62.9 60.2 59.5
64.6 60.6 58.6 60.0

198/ Comparando más de dos muestras


Es de considerable interés determinar cuál de los materiales produce los aparatos más resistentes,
así como qué materiales son estadísticamente diferentes entre sí.

Hay dos formas de introducir datos para muestras múltiples en una hoja de datos:

1. Usar una columna separada para cada muestra.

2. Usar una sola columna para todos los datos y crear una segunda columna con
códigos que identifiquen de qué muestra proviene cada observación.

Para este ejemplo se ha seleccionado el primero de los caminos. Los datos para los aparatos se
han colocado en cuatro columnas de un archivo llamado widgets.sgd, que se puede abrir
seleccionando Abrir – Abrir origen de datos en el menú Archivo.

12.1 Ejecutando el procedimiento comparación de varias


muestras
El procedimiento Comparación de varias muestras está disponible en el menú principal de dos
formas:

1. Si usa el menú clásico seleccione: Comparar – Varias muestras – Comparación de varias


muestras.

2. Si usa el menú Seis Sigma seleccione: Analizar – Datos de variables – Comparación de varias
muestras – Comparación de varias muestras.

El cuadro de diálogo inicial se usa para indicar cómo se han estructurado los datos:

Figura 12-1. Cuadro de diálogo inicial para comparación de varias muestras


En este caso, los datos se han colocado en varias columnas de la hoja de datos.

199/ Comparando más de dos muestras


El segundo cuadro de diálogo solicita los nombres de las columnas que contienen los datos:

Figura 12-2. Cuadro de diálogo de entrada de datos de Comparación de varias muestras


En el archivo de datos de la muestra, las observaciones se han colocado en cuatro columnas
llamadas A, B, C y D.

Cuando se presiona Aceptar, aparece el cuadro de diálogo Tablas y Gráficos. En este tutorial se
acepta la configuración por defecto.

Cuando se abre la ventana de análisis, aparecerán cuatro paneles:

200/ Comparando más de dos muestras


Figura 12-3. Ventana de análisis de Comparación de varias muestras
El panel superior izquierdo resume el tamaño de cada muestra y su intervalo. El panel superior
derecho muestra un gráfico de dispersión de los datos, ampliado a continuación:

201/ Comparando más de dos muestras


Figura 12-4. Gráfico de dispersión de Resistencia contra material
Tenga en cuenta que muchas de las observaciones aparecen una encima de otra en líneas
verticales. Para aliviar este problema, haga doble clic en el panel gráfico para maximizarlo y luego
presione el botón Separar de la barra de herramientas de análisis y agregue una pequeña
cantidad de separación horizontal moviendo el control deslizante superior ligeramente hacia la
derecha:

Figura 12-5. Cuadro de diálogo de Separación de puntos


Esto desplaza leve y aleatoriamente cada punto en la dirección horizontal, haciendo que los
puntos individuales se observen más fácilmente:

202/ Comparando más de dos muestras


Figura 12-6. Diagrama de dispersión después de la separación de puntos
La separación afecta solo a la pantalla, no a los datos ni a los cálculos que se realicen a partir de
ella.

12.2 Análisis de la varianza


El primer paso cuando se comparan varias muestras suele ser realizar un análisis de la varianza
simple (ANOVA). El ANOVA se utiliza para contrastar la hipótesis de igualdad de medias
poblacionales eligiendo entre las dos hipótesis siguientes:

Hipótesis nula: A = B = C = D

Hipótesis alternativa: Las medias no son iguales

donde j representa la media de la población de la cual se tomó la muestra j-ésima. El rechazo de


la hipótesis nula indica que las muestras provienen de poblaciones con medias diferentes.

203/ Comparando más de dos muestras


La salida del ANOVA está contenida en la tabla ANOVA, que se muestra inicialmente en el
panel inferior izquierdo de la ventana de análisis:

Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 157.882 3 52.6272 22.76 0.0000
Intra grupos 101.728 44 2.31201
Total (Corr.) 259.61 47

Figura 12-7. Tabla del análisis de la varianza

El análisis de la varianza descompone la variabilidad de los datos observados en dos


componentes: una componente entre grupos, que cuantifica las diferencias entre aparatos hechos
de diferentes materiales, y una componente dentro de grupos, que cuantifica las diferencias de
los aparatos hechos con el mismo material. Si la variabilidad estimada entre grupos es
significativamente mayor que la variabilidad estimada dentro de grupos, es evidente que las
medias de los grupos no son iguales.

El valor clave en la figura 12-7 es el P-valor. P-valores pequeños (menores que 0.05 si se opera al
5% de nivel de significación) conducen a un rechazo de la hipótesis de igualdad de medias. En el
ejemplo actual, hay pocas dudas de que las medias sean significativamente diferentes.

En la última edición de Estadística para Investigadores de Box, Hunter y Hunter (John Wiley
and Sons, 2005), los autores presentan una nueva pantalla diseñada para mostrar los resultados
de un ANOVA en formato gráfico. Este Gráfico ANOVA se muestra por defecto en el panel
inferior derecho:

204/ Comparando más de dos muestras


Figura 12-8. Gráfico ANOVA
A lo largo de la parte inferior del gráfico hay un diagrama de puntos de los residuos del modelo.
En un ANOVA simple, los residuos son iguales a las diferencias entre cada observación y la
media de todas las observaciones de ese grupo. En el ejemplo actual, la variabilidad observada en
los residuos es indicativa de la variabilidad natural entre los aparatos hechos del mismo material.
Representados por encima de la línea central están escaladas las desviaciones de las medias de los
grupos respecto de la media total de las n = 48 observaciones. Estas desviaciones de grupo se
escalan de modo que su variabilidad se pueda comparar con la de los residuos. Todos los grupos
cuyos puntos están demasiado alejados probablemente provengan de una distribución con
extensión similar a la de los residuos como corresponde a poblaciones diferentes.

En la figura 12-8, el grupo A parece estar bastante separado de los otros grupos. La separación de
las otras tres medias es menos clara. En la sección siguiente se describe una comparación más
formal de las medias de las cuatro muestras.

205/ Comparando más de dos muestras


12.3 Comparando medias
Si el P-valor en la tabla ANOVA es pequeño, entonces deben ser examinadas las medias de la
muestra, para determinar cuáles medias son significativamente diferentes unas de otras. Un
gráfico útil para este propósito es el Gráfico de medias, disponible en el cuadro de diálogo Tablas y
Gráficos:

Figura 12-9. Gráfico de medias


El gráfico de medias muestra cada media de la muestra, junto con un intervalo de incertidumbre
a su alrededor. La interpretación de los intervalos depende del tipo de intervalo representado,
que puede modificarse utilizando Opciones de ventana. Los dos intervalos más comúnmente
utilizados son:

1. Intervalos LSD de Fisher LSD (Least Significant Difference o Mínima Diferencia Significativa):
Estos intervalos están escalados de modo que un par de muestras tiene medias
significativamente diferentes si los intervalos no se solapan en la dirección vertical. Si
bien la posibilidad de declarar incorrectamente que dos muestras son diferentes con este

206/ Comparando más de dos muestras


método se fija en el 5%, haciendo comparaciones de más de dos pares de muestras la
probabilidad de error es considerablemente superior.

2. Intervalos HSD de Tukey (Honestly Significant Difference o Diferencia Honestamente Significativa).


Estos intervalos se escalan para controlar la tasa de error de todo el experimento al 5%.
Usando el método de Tukey, no se declarará incorrectamente que ningún par de medias
sea significativamente diferente cuando realmente no los son en más de 5% de los
análisis que se hagan.

Los intervalos de la figura 12-9 utilizan el método de Tukey. Dado que el intervalo para la
muestra A no solapa ningún otro intervalo, la media de la muestra A es significativamente
diferente de la de las otras tres muestras. La muestra B también es significativamente diferente
de la muestra D, ya que sus intervalos no se solapan. La muestra C, sin embargo, no es
significativamente diferente de B o D.

El mismo análisis se puede mostrar en forma de tabla seleccionando Pruebas de Múltiples Rangos
del cuadro de diálogo Tablas y Gráficos:

Pruebas de Múltiple Rangos

Método: 95.0 porcentaje Tukey HSD


Casos Media Grupos Homogéneos
D 12 59.8417 X
C 12 60.85 XX
B 12 61.9083 X
A 12 64.7 X

Contraste Sig. Diferencia +/- Límites


A-B * 2.79167 1.65755
A-C * 3.85 1.65755
A-D * 4.85833 1.65755
B-C 1.05833 1.65755
B-D * 2.06667 1.65755
C-D 1.00833 1.65755
* indica una diferencia significativa.
Figura 12-10. Test de Rangos Múltiples
La sección inferior de la salida muestra cada par de medias. La columna Diferencia muestra la
media muestral del primer grupo menos la del segundo. La columna +/- Límites muestra un
intervalo de incertidumbre para la diferencia. Cualquier par de medias para el cual el valor
absoluto de la diferencia exceda el límite presenta diferencia estadísticamente significativa al nivel
de significación seleccionado y se indica con un * en la columna Sig. En el ejemplo actual, cuatro
de los seis pares de medias muestran diferencias significativas.
207/ Comparando más de dos muestras
La sección superior de la pantalla organiza las muestras en grupos homogéneos, que se muestran
con la letra X en columnas. Un grupo homogéneo es un grupo dentro del cual no hay diferencias
significativas. En este caso, la muestra A es un grupo homogéneo en sí mismo, ya que es
significativamente diferente de todos los demás (sólo hay una X en su columna). La muestra C se
divide en dos grupos, uno con B (hay una X en la misma columna para C y B) y el otro con D
(hay una X en la misma columna para C y D). Se necesitarían más datos para distinguir a qué
muestra del grupo C pertenece realmente.

12.4 Comparando Medianas


Si se sospecha que pueden existir valores atípicos, se puede utilizar un procedimiento no
paramétrico como alternativa al análisis de varianza estándar seleccionando los test de Kruskal-
Wallis y Friedman en el cuadro de diálogo Tablas. Estas pruebas comparan las medianas de las
muestras en lugar de las medias:

Hipótesis nula: las medianas son todas iguales


Hipótesis alternativa: las medianas no son todas iguales

Este tipo de test puede ser utilizado seleccionando Opciones de ventana. Hay dos tipos de test:

1. Test de Kruskal-Wallis– apropiado cuando cada columna contiene una muestra aleatoria de
su población. En tal caso, las filas no tienen significado intrínseco.
2. Test de Friedman– apropiado cuando cada fila representa un bloque. Variables de bloque
típicas son día de la semana, turnos, o localización de la producción.

En este ejemplo, las filas no tienen significado, por lo que es apropiado el test de Kruskal-Wallis:

Prueba de Kruskal-Wallis
Tamaño de Muestra Rango Promedio
A 12 40.7917
B 12 25.7917
C 12 19.25
D 12 12.1667
Estadístico = 27.3735 Valor-P = 0.00000491592
Figura 12-11. Test de Rangos Múltiples
La entrada importante de la tabla anterior es el P-valor. Dado que el P-valor es pequeño (menor
que 0.05), la hipótesis de igualdad de medianas se rechaza).

208/ Comparando más de dos muestras


Se pueden comparar también los pares de medianas seleccionando Gráfico de caja y bigotes del
cuadro de diálogo Tablas y Gráficos y utilizando Opciones de ventana para añadir muescas:

Figura 12-12. Gráfico de caja y bigotes con muescas en la mediana


El intervalo cubierto por cada muesca muestra la incertidumbre asociada con la estimación de la
mediana de ese grupo. Las muescas se escalan de modo que dos muestras con las muescas no
solapadas tienen medianas significativamente diferentes al nivel de significación por defecto
(generalmente 5%). En el gráfico anterior, las muescas para las muestras B, C y D se solapan
todas, sin embargo, la mediana para la muestra A es significativamente superior que la de las
otras tres muestras.

NOTA: El comportamiento de plegado hacia atrás observado en la figura 12-12 ocurre


cuando una muesca se extiende más allá del borde de la caja.

209/ Comparando más de dos muestras


12.5 Comparando desviaciones típicas
También es posible contrastar la hipótesis de igualdad de desviaciones típicas:

Hipótesis nula: A = B = C = D

Hipótesis alternativa: las desviaciones estándar no son iguales

Esto se hace seleccionando Verificación de la varianza en el cuadro de diálogo Tablas y Gráficos:

Verificación de Varianza
Prueba Valor-P
Levene's 0.252043 0.859451

Figura 12-13. Comparación de varianzas de muestras


Se mostrará una de las cuatro pruebas, según la configuración de Opciones de ventana. Tres de las
pruebas disponibles, incluyendo el test de Levene, muestran P-valores. Un P-valor menor que
0.05 conduce al rechazo de la hipótesis nula de igualdad de desviaciones típicas al 5% de nivel de
significación. En este caso, las desviaciones típicas no son significativamente diferentes la una de
la otra, ya que el P-valor está muy por encima de 0.05.

En resumen, parece que la Resistencia media es diferente para distintos materiales. Sin embargo, la
variabilidad entre aparatos hechos del mismo material es casi la misma en los cuatro materiales.

12.6 Gráficos de los residuos


Siempre que un modelo estadístico se ajuste a los datos, es importante examinar los residuos del
modelo ajustado. En este análisis, hay un residuo correspondiente a cada uno de los n = 48
aparatos, definidos como la diferencia entre la resistencia de un aparato y la resistencia media de
todos los aparatos fabricados del mismo material.

El cuadro de diálogo Gráficos contiene una entrada para generar automáticamente gráficos de los
residuos. En la sección Opciones de ventana, se pueden representar residuos por grupos, frente a
valores pronosticados, o en orden de fila como se encuentra en la hoja de datos. El gráfico
siguiente muestra los residuos frente a los valores pronosticados de resistencia:

210/ Comparando más de dos muestras


Figura 12-14. Gráfico de residuos frente a resistencias pronosticadas
En este tipo de gráficos, debe observar lo siguiente:

1. Valores atípicos – residuos aislados muy alejados de los demás. Tales puntos necesitarían
una mayor investigación para determinar si existe una causa asignable que explique su
comportamiento inusual.

2. Heterocedasticidad – un cambio sistemático en la varianza a medida que los valores


pronosticados aumentan o disminuyen. Esta condición aparece típicamente mediante
una apariencia en forma de embudo en el gráfico y puede ser necesaria una
transformación de las observaciones originales tomando los logaritmos de los datos antes
de realizar el análisis. Procedimientos tales como Test de los rangos múltiples no funcionarán
correctamente cuando la variabilidad dentro del grupo difiera significativamente entre los
grupos.

Si se desea, los residuos pueden guardarse en una columna de cualquier hoja de datos
presionando el botón Guardar resultados en la barra de herramientas de análisis.

211/ Comparando más de dos muestras


12.7 Análisis de gráficos de medias (ANOM)
Un camino diferente para comparar varias muestras consiste en utilizar Análisis del gráfico de
medias, también disponible en el cuadro de diálogo Tablas y Gráficos:

Figura 12-15. Análisis del gráfico de medias


Diseñado para ser similar a un gráfico de control, este gráfico muestra cada media muestral junto
con una línea vertical dibujada en la gran media de todas las observaciones. Los límites de
decisión se incluyen por encima y por debajo de la gran media. Cualquier media de muestra que
caiga fuera de los límites puede declararse como significativamente diferente de la gran media.

En este caso, la interpretación es que los aparatos de la muestra A son significativamente más
resistentes que la media, mientras que los aparatos de las muestras C y D son significativamente
más débiles que la media. Este tipo de interpretación a veces puede ser bastante útil.

212/ Comparando más de dos muestras


Capítulo

13
Tutorial #4: análisis de la
regresión
Ajustando modelos lineales y no lineales, seleccionando el mejor modelo,
representando residuos y mostrando resultados.

Una de las secciones más utilizadas de STATGRAPHICS Centurion 18 es el conjunto de


procedimientos que ajustan modelos de regresión estadística. En un modelo de regresión, una
variable respuesta Y se expresa en función de una o más variables predictoras X, más ruido (o
error). En muchos los casos (pero no en todos), la forma funcional es lineal en los coeficientes
desconocidos, por lo que el modelo se puede expresar como:

Yi = 0 + 1X1,i + 2x2,i + 3X3,i + … + kXk,i + i

donde el subíndice i representa la i-ésima observación en la muestra de datos, los  son los
coeficientes desconocidos del modelo y  es una desviación aleatoria, habitualmente con
distribución normal de media 0 y desviación típica .

Dado un conjunto de datos con una variable respuesta Y y una o más posibles variables
predictoras, el objetivo del análisis de regresión es construir un modelo que:

1. describa las relaciones que existen entre las variables de tal manera que sea posible
predecir Y para valores conocidos de X.

2. no contenga más variables X de las necesarias para generar una buena predicción.

213/ Análisis de la Regresión


La última consideración a veces se conoce como parsimonia. Por lo general, los modelos que
involucran un pequeño conjunto de buenos predictores son los mejores en la práctica.

Este capítulo considera varios tipos de modelos de regresión. Como ejemplo, las millas por
galón que recorre un automóvil en ciudad para los automóviles del archivo 93cars.sgd servirán
como variable respuesta Y. El objetivo es construir un modelo a partir de las otras columnas en
ese archivo que pueda predecir con éxito las millas por galón de un automóvil.

13.1 Análisis de la correlación


Una herramienta habitual para comenzar el análisis de la regresión es el procedimiento Análisis de
variables múltiple. Este procedimiento se obtiene del menú principal de dos formas:

1. Si usa el menú clásico, seleccione Describir – Datos numéricos – Análisis de variables múltiples.

2. Si usa el menú Seis Sigma, seleccione Analizar– Datos de variable – Métodos multivariantes –
Análisis de variables múltiples.

El análisis comienza mostrando el siguiente cuadro de diálogo de entrada de datos:

Figura 13-1. Cuadro de diálogo de entrada de datos de Análisis de variables múltiple

214/ Análisis de la Regresión


Se han seleccionado seis posibles variables predictoras, además de MPG City. Los predictores
potenciales son:

X1: Tamaño del motor (litros)


X2: Potencia (máxima)
X3: Longitud (pulgadas)
X4: Peso (libras)
X5: Distancia entre ejes (pulgadas)
X6: Anchura (pulgadas)

Presionando Aceptar se muestra el menú Opciones de Análisis, que se usa para indicar cómo van a
ser tratados los datos faltantes:

Figura 13-2. Recuadro Opciones de Análisis Múltiples Variables


Seleccionando Solo Casos Completos indica que el procedimiento solo debe analizar las filas que
estén completas, es decir, que tienen valores para todas las variables especificadas en el cuadro
de diálogo de entrada de datos. Seleccionando Todos los Datos indica que deben incluirse en el
análisis incluso las filas con valores faltantes para algunas de las variables. El cuadro de diálogo
Tablas y Gráficas solicita 3 tablas y 1 gráfico:

Figura 13-3. Análisis de Múltiples Variables Cuadro de Tablas y Gráficas


Las opciones por defecto del sistema generan la siguiente salida:
215/ Análisis de la Regresión
Figura 13-4. Ventana de Análisis de variables múltiples
El panel superior izquierdo lista las variables de entrada, mientras que el panel central izquierdo
muestra el resumen de estadísticos. Hay un total de 93 filas en el archivo de datos que tienen
información completa sobre todas las variables que se van a analizar.

El gráfico de matriz de la derecha muestra los gráficos X-Y para cada par de variables:

216/ Análisis de la Regresión


MPG City

Engine Size

Horsepower

Length

Weight

Wheelbase

Width

Figura 13-5. Gráfico de matriz con alisado añadido


Para interpretar el gráfico, observe la etiqueta de una variable, como MPG City. La variable
indicada se muestra en el eje vertical de cada gráfico en esa fila y en el eje horizontal de cada
gráfico en esa columna. Cada par de variables se muestra dos veces, una vez por encima de la
diagonal y otra vez por debajo.

En el gráfico anterior se han añadido alisados robustos LOWESS maximizando el panel y


seleccionando el botón Alisado/Rotación de la barra de herramientas de análisis. De mayor interés
es la fila superior de gráficos, que muestra MPG City trazada frente a cada una de las 6 posibles
variables predictoras. Todas las variables están claramente correlacionadas con millas por galón,
algunas de forma no lineal. Hay también mucha correlación entre las variables predictoras y, por
lo tanto, presencia de multicolinealidad, lo cual sugiere que algunas combinaciones diferentes de
variables pueden ser igualmente buenas para predecir Y.

La tabla en la parte inferior izquierda muestra una matriz de coeficientes de correlación


estimados para cada par de variables en el análisis:

217/ Análisis de la Regresión


Correlaciones
MPG City Engine Size Horsepower Length Weight Wheelbase Width
MPG City -0.7100 -0.6726 -0.6662 -0.8431 -0.6671 -0.7205
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Engine Size -0.7100 0.7321 0.7803 0.8451 0.7325 0.8671
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Horsepower -0.6726 0.7321 0.5509 0.7388 0.4869 0.6444
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Length -0.6662 0.7803 0.5509 0.8063 0.8237 0.8221
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Weight -0.8431 0.8451 0.7388 0.8063 0.8719 0.8750
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Wheelbase -0.6671 0.7325 0.4869 0.8237 0.8719 0.8072
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Width -0.7205 0.8671 0.6444 0.8221 0.8750 0.8072
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Correlación
(Tamaño de Muestra)
Valor-P
Figura 13-6. Matriz de correlaciones
La tabla muestra el coeficiente de correlación para cada par de variables, el número de
observaciones utilizadas para obtener la estimación y un P-valor. Un coeficiente de correlación r
es un número entre -1 y +1, que mide la intensidad de la relación lineal entre dos variables.
Cuanto más cerca esté la correlación de -1 (correlación negativa) ó +1 (correlación positiva), más
intensa será la relación. El signo de la correlación indica la dirección de la relación. Un valor
positivo significa que Y aumenta a medida que X aumenta. Un valor negativo significa que Y
disminuye cuando X aumenta.

Para determinar si dos variables están relacionadas significativamente entre sí, se calcula el P-
valor para cada coeficiente de correlación (test del coeficiente de correlación). Cualquier par de
variables para las cuales el P-valor es menor que 0.05 muestra una correlación lineal
estadísticamente significativa al 5% de nivel de significación.

218/ Análisis de la Regresión


La fila superior muestra las correlaciones entre MPG City y los 6 predictores. La correlación más
fuerte se produce con Peso y resulta -0.8431. El signo negativo implica que a medida que
aumenta el peso, las millas por galón disminuyen, lo cual no sorprende.
13.2 Regresión simple
El primer modelo estadístico que se ajustará será la línea recta de forma:

MPG City = 0 + 1Peso + 



En la ecuación anterior, 1 es la pendiente de la línea en unidades de millas por galón por libra,
mientras o es la ordenada en el origen de Y. Para ajustar el modelo:

1. Si usa el menú clásico, seleccione Relacionar – Un Factor – Regresión simple.

2. Si usa el menú Seis Sigma, seleccione Mejorar – Análisis de regresión – Un Factor – Regresión
simple.

El cuadro de diálogo de entrada de datos debe completarse de la siguiente manera:

Figura 13-7 Cuadro de diálogo de entrada de datos de Regresión simple


Usando el modelo lineal por defecto en el cuadro de diálogo Opciones de análisis y del cuadro de
diálogo Tablas y Gráficos, la ventana de análisis inicial muestra cuatro paneles que proporcionan
información sobre el modelo ajustado y los residuos:

219/ Análisis de la Regresión


Figura 13-8. Ventana de análisis de Regresión simple
El Resumen de análisis en el panel superior izquierdo resume el ajuste:

220/ Análisis de la Regresión


Regresión Simple - MPG City vs. Weight
Variable dependiente: MPG City (miles per gallon in city driving)
Variable independiente: Weight (pounds)
Lineal: Y = a + b*X
Número de observaciones: 93

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 47.0484 1.67991 28.0064 0.0000
Pendiente -0.00803239 0.000536985 -14.9583 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 2065.52 1 2065.52 223.75 0.0000
Residuo 840.051 91 9.23133
Total (Corr.) 2905.57 92

Coeficiente de Correlación = -0.843139


R-cuadrada = 71.0883 porciento
R-cuadrado (ajustado para g.l.) = 70.7705 porciento
Error estándar del est. = 3.03831
Error absoluto medio = 1.99274
Estadístico Durbin-Watson = 1.64586 (P=0.0405)
Autocorrelación de residuos en retraso 1 = 0.176433
Figura 13-9. Resumen de análisis de Regresión simple
Entre los muchos estadísticos de la tabla anterior, los más importantes son los siguientes:

1. Coeficientes: coeficientes estimados del modelo. El modelo ajustado que se utilizará


para la predicción es:

MPG City = 47.0484 - 0.00803239peso

2. R-cuadrado: el porcentaje de la variabilidad en Y que ha sido explicado por el modelo.


En este caso, la regresión lineal contra Peso explica cerca del 71.1% de la variabilidad en
MPG City.

3. P-Valor del modelo : Prueba la hipótesis nula de que el modelo ajustado no es mejor
que un modelo que no incluye el peso. Un P-valor inferior a 0.05, como en el ejemplo
actual, indica que Peso es un buen predictor para MPG City.

En el gráfico del panel superior derecho muestra el modelo ajustado:

221/ Análisis de la Regresión


Gráfico del Modelo Ajustado
MPG City = 47.0484 - 0.00803239*Weight

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 13-10 Gráfico del modelo lineal ajustado


El gráfico muestra la línea de regresión de mínimos cuadrados y dos conjuntos de límites. Los
límites interiores son intervalos de confianza al 95% para el valor medio de Y dado cualquier
valor de X. Esto indica la calidad de la estimación de los puntos de la línea de regresión, dado
que la relación es lineal. A mayor tamaño de muestra, más ajustados son los límites. Las líneas
exteriores son límites de predicción al 95% para nuevas observaciones. Se estima que el 95% de
las observaciones adicionales, similares a las de la muestra, caerían dentro de esos límites.

Vale la pena señalar que 3 observaciones con valores de Peso bajos caen bastante más allá de los
límites de predicción del 95%. Esto puede ser indicativo de la presencia de valores atípicos o de
un fallo en el modelo para tener en cuenta la no linealidad de la relación real entre MPG City y
Peso.

222/ Análisis de la Regresión


13.3 Ajustando un modelo no lineal
El procedimiento Regresión simple incluye la posibilidad de ajustar una amplia variedad de modelos
no lineales. Para evaluar la mejora relativa que pueden aportar varios modelos, seleccione
Comparación de modelos alternativos del cuadro de diálogo Tablas y Gráficos. Esto ajustará a todos los
modelos posibles y los listará en orden decreciente de R cuadrado:

Comparación de Modelos Alternos


Modelo Correlación R-Cuadrada
Curva S 0.9016 81.29%
Inversa-Y Raíz Cuadrada-X 0.8995 80.92%
Inversa-Y Log-X 0.8995 80.90%
Raíz Cuadrada-Y Inversa de X 0.8988 80.78%
Multiplicativa -0.8981 80.65%
Inversa de Y 0.8969 80.44%
Logarítmico-Y Raíz Cuadrada-X -0.8919 79.54%
Doble Inverso -0.8896 79.14%
Inversa de X 0.8888 79.00%
Raíz Cuadrada-Y Log-X -0.8879 78.83%
Inversa-Y Cuadrado-X 0.8852 78.35%
Exponencial -0.8833 78.03%
Raíz Cuadrada Doble -0.8784 77.16%
Logaritmo de X -0.8705 75.78%
Raíz Cuadrada de Y -0.8668 75.14%
Log-Y Cuadrado-X -0.8611 74.15%
Raíz Cuadrada deX -0.8577 73.56%
Cuadrado-Y Inversa de X 0.8472 71.77%
Lineal -0.8431 71.09%
Raíz Cuadrada-X Cuadrado-X -0.8393 70.44%
Cuadrado-Y Log-X -0.8146 66.35%
Cuadrado de X -0.8106 65.71%
Cuadrado-Y Raíz Cuadrada-X -0.7957 63.31%
Cuadrado de Y -0.7758 60.18%
Cuadrado Doble -0.7346 53.96%
Logístico <sin ajuste>
Log probit <sin ajuste>
Figura 13-11 Modelos no lineales alternativos
Los modelos al principio de la lista explican el mayor porcentaje de la variación en la variable
respuesta. R-cuadrado es sólo un criterio que puede usarse para ayudar a elegir un modelo. Se
pueden preferir modelos con valores de R-cuadrado más bajos que el modelo de la parte
superior de la lista si tienen más sentido en el contexto de los datos.

En el ejemplo actual, un modelo atractivo cercano al principio de la lista es el modelo Inversa de


Y. Este modelo toma la forma:

223/ Análisis de la Regresión


1
= 0 + 1Peso + 
MPGCity

En él, el recíproco de millas por galón (galones por milla) se expresa como una función lineal del
peso. Es frecuente que las transformaciones de Y, X, o ambas puedan conducir a mejores
modelos.
Para ajustar un modelo Inversa de Y, presione el botón Opciones de análisis y seleccione Y-Inversa en
el cuadro de diálogo. El ajuste resultante se muestra a continuación:

Gráfico del Modelo Ajustado


MPG City = 1/(0.00193667 + 0.0000146623*Weight)

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 13-12. Modelo Inversa de Y ajustado


Aunque el modelo es lineal en el recíproco de MPG City, el modelo no es lineal en la métrica
original. Tenga en cuenta también que los límites de predicción para el Peso se vuelven más
grandes a medida que los valores pronosticados se vuelven más grandes. Esto tiene sentido en el
contexto de los datos, ya que implica que hay más variabilidad entre los coches más ligeros que
entre los coches más pesados.

224/ Análisis de la Regresión


13.4 Examinando los residuos
Una vez que se ha ajustado un modelo razonable, hay que examinar los residuos del ajuste. En
general, se puede considerar un residuo como la diferencia entre el valor observado de Y y el
valor pronosticado por el modelo:

residuo = Y observado – Y pronosticado

El análisis de Regresión Simple traza automáticamente los residuos frente a la variable X:

Gráfico de Residuos
MPG City = 1/(0.00193667 + 0.0000146623*Weight)

4
Rediduo Estudentizado

-2

-4
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 13-13. Gráfico de los residuos estudentizados


Usando Opciones de ventana, puede elegir trazar residuos simples o residuos estudentizados. Los
residuos estudentizados se obtienen dividiendo los residuos ordinarios por sus errores estándar
estimados. Por lo tanto, un residuo estudentizado indica qué cantidad de error estándar de los
datos proviene del modelo ajustado.

STATGRAPHICS Centurion 18 en realidad calcula los residuos estudentizados borrados. Los


residuos borrados se calculan eliminando una observación, reajustando el modelo, y determinando

225/ Análisis de la Regresión


el número de errores estándar que se separa del nuevo modelo ajustado. Esto evita que los
valores atípicos tengan un gran impacto en el modelo cuando se calculan los residuos.

La selección de Residuos atípicos en el cuadro de diálogo Tablas y Gráficos lista todos los residuos
estudentizados que son mayores que 2 en valor absoluto:

Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
5 3640.0 22.0 18.0808 3.91924 -2.38
36 3735.0 15.0 17.6366 -2.63658 2.41
42 2350.0 42.0 27.4778 14.5222 -3.11
57 2895.0 17.0 22.5306 -5.53064 3.60
91 2810.0 18.0 23.1816 -5.18157 3.04

Figura 13-12. Tabla de residuos atípicos


Residuos estudentizados mayores que 3, como el de la fila #57, son posibles valores atípicos que
no parecen pertenecer al resto de los datos. La fila #57 corresponde a un Mazda RX-7 que se
registra en el archivo con sólo 17 millas por galón en conducción urbana, aunque el modelo
predice 22.5 mpg. En la sección siguiente se añaden variables adicionales al modelo, lo que debe
ayudar a su capacidad predictiva para tales coches deportivos, la fila #57 no se excluirá del
ajuste, aunque se debe prestar especial atención.

226/ Análisis de la Regresión


13.5 Regresión múltiple
Para mejorar el modelo, se deben agregar otras variables predictoras. Esto se logra más
fácilmente utilizando el análisis de Regresión múltiple, que se puede encontrar en el menú principal
en:

1. Si usa el menú clásico, seleccione Relacionar – Varios Factores – Regresión Múltiple.

2. Si usa el menú Seis Sigma, seleccione Mejorar – Análisis de la regresión – Varios Factores –
Regresión Múltiple.

El cuadro de diálogo de entrada de datos tiene la siguiente forma:

Figura 13-15. Cuadro de diálogo de entrada de datos de Regresión múltiple


Para comenzar, los 6 predictores considerados en el procedimiento Análisis de múltiples variables
discutidos anteriormente se introducirán como variables independientes. La variable dependiente
es el recíproco de MPG City, que equivale a galones por milla. A continuación se utiliza el menú
Opciones y se muestra el cuadro de diálogo de Tablas y Gráficos. El resumen de análisis resultante
para las selecciones por defecto se muestra a continuación:

227/ Análisis de la Regresión


Regresión Múltiple - 1/MPG City
Variable dependiente: 1/MPG City
Variables independientes:
Engine Size (liters)
Horsepower (maximum)
Length (inches)
Weight (pounds)
Wheelbase (inches)
Width (inches)
Número de observaciones: 93

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 0.0155897 0.0177088 0.880334 0.3811
Engine Size 0.00072849 0.000980504 0.742974 0.4595
Horsepower 0.0000132632 0.000014911 0.889485 0.3762
Length -0.000101355 0.0000608857 -1.66468 0.0996
Weight 0.0000149727 0.00000242804 6.1666 0.0000
Wheelbase -0.000148122 0.000163073 -0.908321 0.3662
Width 0.000223526 0.00028967 0.771658 0.4424

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.00705967 6 0.00117661 67.64 0.0000
Residuo 0.001496 86 0.0000173954
Total (Corr.) 0.00855567 92

R-cuadrada = 82.5145 porciento


R-cuadrado (ajustado para g.l.) = 81.2946 porciento
Error estándar del est. = 0.00417077
Error absoluto medio = 0.00304978
Estadístico Durbin-Watson = 1.6264 (P=0.0306)
Autocorrelación de residuos en retraso 1 = 0.186005

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG
City y 6 variables independientes. La ecuación del modelo ajustado es

1/MPG City = 0.0155897 + 0.00072849*Engine Size + 0.0000132632*Horsepower - 0.000101355*Length +


0.0000149727*Weight - 0.000148122*Wheelbase + 0.000223526*Width

Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa entre las
variables con un nivel de confianza del 95.0%.
Figura 13-14. Resumen de análisis de regresión múltiple con 6 variables predictoras
Tenga en cuenta que el estadístico R cuadrado ha aumentado a 82.5%. Sin embargo, el modelo
se ha complicado innecesariamente. Cerca de la parte superior de la salida hay una columna de P-

228/ Análisis de la Regresión


valores. Estos P-valores contrastan la hipótesis de que el coeficiente correspondiente a una
variable seleccionada es igual a 0 (coeficiente no significativo), dado que el resto de variables
permanecen en el modelo. P-valores mayores que 0.05 indican que una variable no contribuye
significativamente al ajuste, en presencia del resto de las variables.

Excepto Peso, todos los predictores tienen P-valores superiores a 0.05. Esto implica que al menos
una de esas variables predictoras podría eliminarse sin dañar significativamente el modelo.

NOTA: sería erróneo en este punto asumir que las 5 variables predictoras con P-valor
superiores a 0.05 podrían eliminarse. Debido a la alta multicolinealidad en los datos,
todos los P-valores pueden cambiar drásticamente si alguna de las variables se elimina
del modelo.

Un método útil para simplificar el modelo es realizar una regresión por pasos. En una regresión
por pasos las variables se agregan o eliminan de un modelo de regresión de una en una, con el
objetivo de obtener un modelo que contenga sólo predictores significativos pero que no excluya
ninguna variable útil. La regresión por pasos está disponible en el cuadro de diálogo Opciones de
análisis:

Figura 13-17. Cuadro de diálogo de Opciones de análisis de regresión múltiple


Hay dos opciones paso a paso:

229/ Análisis de la Regresión


1. Selección hacia adelante – comienza con un modelo que contiene sólo una constante e
introduce variables de una en una si mejoran significativamente el ajuste.

2. Selección hacia atrás – comienza con un modelo que contiene todas las variables y las va
eliminando de una en una hasta que todas las demás variables sean estadísticamente
significativas.

En ambos métodos, las variables eliminadas pueden ser reintroducidas en un paso posterior si si
luego parecen ser predictores útiles, o las variables introducidas de antemano pueden ser
eliminadas posteriormente si no aportan suficiente significatividad al modelo.

Realizar una selección hacia atrás da como resultado el siguiente modelo:

Regresión Múltiple - 1/MPG City


Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 0.0034427 0.00243602 1.41325 0.1610
Horsepower 0.0000260839 0.0000124356 2.09752 0.0388
Weight 0.0000129513 0.0000011041 11.7302 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.00696044 2 0.00348022 196.35 0.0000
Residuo 0.00159524 90 0.0000177249
Total (Corr.) 0.00855567 92

R-cuadrada = 81.3546 porciento


R-cuadrado (ajustado para g.l.) = 80.9403 porciento
Error estándar del est. = 0.00421009
Error absoluto medio = 0.00313061
Estadístico Durbin-Watson = 1.62892 (P=0.0338)
Autocorrelación de residuos en retraso 1 = 0.184113

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG
City y 6 variables independientes. La ecuación del modelo ajustado es

1/MPG City = 0.0034427 + 0.0000260839*Horsepower + 0.0000129513*Weight

Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa entre las
variables con un nivel de confianza del 95.0%.
Figura 13-18. Resumen de análisis de Regresión múltiple después de la Selección hacia atrás

230/ Análisis de la Regresión


Sólo se han mantenido dos variables en el modelo: Potencia y Peso. Ambas variables tienen P-
valores menores que 0.05.

Una vez que se ha encontrado una ecuación matemática, se utiliza para graficar la ecuación.
Cuando el modelo contiene 2 variables predictoras, la ecuación representa una superficie en tres
dimensiones, generalmente denominada superficie de respuesta. En este caso, la ecuación ajustada
corresponde a un plano, ya que Potencia y Peso se introducen en el modelo de forma lineal.

Para graficar el modelo, puede:

Utilizar el procedimiento Gráficos de superficie y contorno copiando la función a graficar y


definiendo sus propios títulos y escalas:

1. Si usa el menú clásico, seleccione Gráficos – Gráficos de superficie y contorno.

2. Si usa el menú Seis Sigma, seleccione Herramientas – Gráficos de superficie y contorno.

En el cuadro de diálogo de entrada de datos, introduzca el modelo, expresando las dos variables
predictoras como X e Y. La manera más fácil de hacerlo es pegar la ecuación generada por el
procedimiento regresión múltiple, cambiando Potencia por X y Peso por Y:

Figura 13-19 Cuadro de diálogo de entrada de datos para Superficie de respuesta y Gráfico de contorno

231/ Análisis de la Regresión


La escala de X e Y también se debe cambiar para que sea representativa de los datos utilizados
para ajustarse al modelo.

Cuando presione Aceptar, aparecerá el cuadro de diálogo Tablas y Gráficos y a continuación se


genera la superficie de respuesta. El gráfico inicial toma la forma de una superficie entramada:

0.0034427+0.0000260839*X+0.0000129513*Y

(X 0.001)
72

62
Función

52

42

32
4500
22 4000
3500
3000
0 50 2500
100 150 200 2000 Y
250 300 1500
X

Figura 13-20. Gráfico de superficie con etiquetas y escala por defecto


Puede mejorar el gráfico como sigue:

Seleccionando Opciones gráficas de la barra de herramientas de análisis y cambiando las


etiquetas y escalas en las pestañas Título superior, Eje-X, Eje-Y y Eje-Z. En particular:

 Cambie el título del eje X a Potencia.

 Cambie el título del eje Y a Peso.

 Cambie la escala del eje Y de 1500 a 4500 por 1000.

232/ Análisis de la Regresión


 Cambie el título del eje Z a 1/MPG City.

Seleccione Opciones de ventana y cambie el tipo de gráfico mostrado:

Figura 13-21. Opciones de ventana de superficie de respuesta


En el cuadro de diálogo anterior, Tipo se ha situado en Contornos y el campo Contornos en
Continuas. El gráfico final se muestra a continuación:

233/ Análisis de la Regresión


0.0034427+0.0000260839*X+0.0000129513*Y

Función
0.02
0.03
(X 0.001) 0.04
72 0.05
0.06
62 0.07
Función

52

42

32
4500
22 4000
3500
3000
0 50 2500
100 150 200 2000 Y
250 300 1500
X

Figura 13-22. Gráfico del modelo ajustado


Los coches que usan más combustible se encuentran en la esquina posterior derecha del gráfico:
coches grandes con motores grandes.

234/ Análisis de la Regresión


Capítulo

14
Tutorial #5: Analizando datos de
atributos
Tablas de frecuencias, tablas de contingencia y análisis de Pareto

Cada uno de los primeros cuatro tutoriales trabajan con datos de variables, donde las
observaciones se representan como números a lo largo de una escala continua. Este tutorial
examina un conjunto de datos de atributos, en los cuales cada observación representa una
categoría en la que se ha clasificado un atributo, en lugar de una medición.

Como ejemplo, consideramos los datos contenidos en el archivo defects.sgd. Una parte de ese
archivo se muestra a continuación:

Defecto Instalación
Desalineado Virginia
Contaminado Texas
Contaminado Virginia
Contaminado Texas
Partes desaparecidas Texas
Desalineado Virginia
Contaminado Texas
Filtrando Texas
Dañado Virginia
Contaminado Texas

235/ Analizando datos de atributos


Los datos tienen n = 120 filas, correspondientes cada una a un defecto que fue observado en un
artículo fabricado. El archivo también indica el tipo de defecto producido y la instalación en la
que se produjo el artículo.

14.1 Resumiendo datos de atributos


Ignorando por un momento la instalación en la que se produjo cada artículo, los datos sobre el
tipo de defecto pueden ser resumidos mediante:

1. Si usa el menú clásico, seleccione Describir – Datos categóricos – Tabulación.

2. Si usa menú Seis Sigma, seleccione Analizar – Datos de atributos – Un Factor - Tabulación.

El cuadro de diálogo de entrada de datos espera una sola columna que contenga los datos del
atributo:

Figura 14-1. Cuadro de diálogo de entrada de datos de tabulación


El procedimiento escanea la columna, identificando cada valor único. Aparecerá el cuadro de
diálogo Tablas y Gráficos y se generará una ventana de análisis similar a la siguiente:

236/ Analizando datos de atributos


Figura 14-2. Ventana de tabulación de análisis
El panel superior izquierdo muestra que se encontraron 9 valores únicos en las n = 120 filas. El
gráfico de barras y el gráfico de sectores de la derecha ilustran la frecuencia observada de cada
tipo de defecto, que también se tabula en el panel inferior izquierdo. El tipo más común de
defecto es “Contaminado”, que representa aproximadamente el 44% de todos los defectos.

14.2 Análisis de Pareto


El procedimiento Tabulación de frecuencias ordena los tipos de defectos en orden alfabético. Para
ordenarlos de más a menos frecuentes, use el procedimiento Análisis de Pareto. Este
procedimiento es accesible mediante:

1. Si usa el menú clásico, seleccione CEP – Evaluación de la calidad – Análisis de Pareto.

2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de atributos – Un Factor – Análisis de
Pareto.

El cuadro de diálogo de entrada de datos debe completarse como se muestra a continuación:

237/ Analizando datos de atributos


Figura 14-3. Cuadro de diálogo de entrada de datos de Análisis de Pareto
El procedimiento Análisis de Pareto acepta datos en dos formatos:

1. Datos no tabulados que necesitan ser contados, como en el ejemplo actual.

2. Datos que han sido agrupados por tipos de defectos. Aplicable si se tienen dos
columnas, una identificando los tipos de defectos y otra conteniendo el número de veces
que ocurre cada tipo de defecto.

La ventana de análisis muestra una tabla resumen y el gráfico de Pareto:

238/ Analizando datos de atributos


Figura 14-4. Ventana de Análisis de Pareto
De particular interés es el gráfico de Pareto de la derecha, que representa las frecuencias de cada
tipo de defecto desde el más común al menos común. Inicialmente, las etiquetas de las barras se
solapan mal debido a su número y longitud. Este puede resolverse mediante:

1. Doble clic en el gráfico con el ratón para maximizar el panel en la ventana de análisis.

2. Presionando el botón Opciones gráficas en la barra de herramientas de análisis, haciendo


clic en la pestaña Eje-X, y configurando las Etiquetas de ejes como Vertical.

3. Después de salir del cuadro de diálogo Opciones gráficas, las etiquetas pueden no ajustarse
completamente a la pantalla. De lo contrario, puede mantener presionado el botón del
ratón dentro de la parte principal del gráfico y arrastrarlo hacia arriba, o puede arrastrar
el eje X hacia arriba para reducir el tamaño del eje vertical.

Cuando finalice, el gráfico de Pareto debería mostrarse como se indica a continuación:

239/ Analizando datos de atributos


Gráfica de Pareto para Defect
100.00%
96.67%99.17%
120 91.67%94.17%
87.50%
80.83%
100
67.50%
80
frecuencia

60 44.17%

40

20

0
Contaminated

Misaligned

Misshapen
Damaged

Leaking
Rusted

Missing parts

Wrong size
Poor color

Figura 14-5. Gráfico de Pareto alargado


Las barras verticales en el gráfico de Pareto se dibujan con una altura proporcional al número de
veces que se produjo cada tipo de defecto. La línea por encima de las barras es la frecuencia
acumulada de izquierda a derecha. Encima de cada barra se muestra el porcentaje de defectos
ocurridos en una determinada clase o clases particulares más hacia la izquierda.

El principio básico de Pareto establece que una gran mayoría de los defectos se deben
generalmente a un número pequeño de causas posibles. En este caso, los 3 tipos de defectos más
frecuentes representan más del 80% de todos los defectos.

240/ Analizando datos de atributos


14.3 Tabulación cruzada
El archivo de datos defects.sgd también contiene una identificación de qué instalación produjo
cada artículo defectuoso. Para resumir los datos para tipos de defecto e instalación:

1. Si usa el menú clásico, seleccione Describir – Datos categóricos – Tabulación cruzada.

2. Si usa el menú seis Sigma, seleccione Analizar – Datos de atributos – Factores múltiples -
Tabulación cruzada.

El cuadro de diálogo de entrada de datos espera dos columnas, una que defina las filas de una
frecuencia de doble entrada o una tabla de contingencia y la otra definiendo las columnas:

Figura 14-6. Cuadro de dialogo de entrada de datos de tabulación cruzada


Después de los cuadros de diálogo de Opciones de análisis y de Tablas y Gráficos, se genera la
siguiente ventana de análisis:

241/ Analizando datos de atributos


Figura 14-7. Ventana de análisis de tabulación cruzada
La tabla del panel inferior izquierdo tabula los datos por tipo de defecto e instalación:

242/ Analizando datos de atributos


Tabla de Frecuencias para Defect por Facility
Texas Virginia Total por Fila
Contaminated 36 17 53
30.00% 14.17% 44.17%
Damaged 10 6 16
8.33% 5.00% 13.33%
Leaking 2 1 3
1.67% 0.83% 2.50%
Misaligned 8 20 28
6.67% 16.67% 23.33%
Misshapen 0 3 3
0.00% 2.50% 2.50%
Missing parts 2 1 3
1.67% 0.83% 2.50%
Poor color 6 2 8
5.00% 1.67% 6.67%
Rusted 2 3 5
1.67% 2.50% 4.17%
Wrong size 1 0 1
0.83% 0.00% 0.83%
Total por Columna 67 53 120
55.83% 44.17% 100.00%
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la Tabla
Figura 14-8 Tabla de doble entrada con porcentajes de tabla
Como se muestra inicialmente, cada celda de la tabla muestra el número de filas en el archivo de
datos correspondiente a una combinación particular de fila-columna. También indica el
porcentaje de toda la tabla representado por esa celda. Por ejemplo, se produjeron 36 artículos
contaminados en las instalaciones de Texas, que representan el 30 por ciento de todos los
artículos defectuosos en la muestra.

Opciones de ventana permite seleccionar otros elementos para mostrar en cada celda:

243/ Analizando datos de atributos


Figura 14-9 Cuadro de diálogo de Opciones de ventana para tabulación cruzada
Una interesante elección para los datos actuales es mostrar Porcentajes por fila en vez de Porcentajes
de la tabla:

Tabla de Frecuencias para Defect por Facility


Texas Virginia Total por Fila
Contaminated 36 17 53
67.92% 32.08% 44.17%
Damaged 10 6 16
62.50% 37.50% 13.33%
Leaking 2 1 3
66.67% 33.33% 2.50%
Misaligned 8 20 28
28.57% 71.43% 23.33%
Misshapen 0 3 3
0.00% 100.00% 2.50%
Missing parts 2 1 3
66.67% 33.33% 2.50%
Poor color 6 2 8
75.00% 25.00% 6.67%
Rusted 2 3 5
40.00% 60.00% 4.17%
Wrong size 1 0 1
100.00% 0.00% 0.83%
Total por Columna 67 53 120
55.83% 44.17% 100.00%
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la Fila
Figura 14-10 Tabla de doble entrada con porcentajes por fila
El porcentaje representado ahora indica el porcentaje que cada celda representa en su fila. Por
ejemplo, el 67.92% de todos los artículos contaminados fueron producidos en Texas, mientras

244/ Analizando datos de atributos


que el 71.43% de todos los artículos mal alineados fueron producidos en Virginia. Esto sugiere
que algunos tipos de defectos pueden ocurrir con mayor frecuencia en una instalación que en
otra, una hipótesis que se contrastará formalmente en la siguiente sección.

Se muestran varios gráficos que también son útiles. Por ejemplo, el gráfico de barras siguiente
muestra los datos por defecto e instalación:

Diagrama de Barras para Defect según Facility

Facility
Contaminated Texas
Virginia
Damaged
Leaking
Misaligned
Defect

Misshapen
Missing parts
Poor color
Rusted
Wrong size

0 10 20 30 40
frecuencia

Figura 14-11. Gráfico de barras agrupado


La diferencia entre las dos instalaciones es bastante evidente. Un gráfico relacionado,
denominado Gráfico de mosaico, también es bastante informativo:

245/ Analizando datos de atributos


Gráfico de Mosaico para Defect según Facility

Facility
Texas
Virginia
Contaminated

Damaged
Leaking

Misaligned

Misshapen
Missing parts
Poor color
Rusted
Wrong size

Figura 14-12. Gráfico de mosaico


En este gráfico, la altura de cada barra es proporcional al número total de defectos de cada tipo.
La anchura de las barras es proporcional al porcentaje relativo de cada tipo de defecto en cada
ubicación. En consecuencia, el área total de cada rectángulo es proporcional a la frecuencia de la
celda correspondiente en la tabla de doble entrada.

Si lo desea, las frecuencias de las celdas también se pueden mostrar en tres dimensiones
seleccionando Gráfico de rascacielos (Skychart)en el cuadro de diálogo de Tablas y Gráficos:

246/ Analizando datos de atributos


Gráfico Rascacielos para Defect según Facility

40

30
frecuencia

20

10
Virginia
0
m d

Texas
Le ge d

Facility
a ing
Da at e

M is s ed
ng pen
or rt s

Ru lor
ng d
ze
M lign
M ak
a

ro s te
in

Po pa
co

si
is ha
m
ta

is
n

si
Co

Defect

Figura 14-13. Skychart tridimensional


En un Skychart, la altura de cada barra representa la frecuencia de una celda en la tabla de
contingencia.

247/ Analizando datos de atributos


14.4 Comparando dos o más muestras
Para determinar si las diferencias aparentes entre las instalaciones de Texas y Virginia son o no
estadísticamente significativas, seleccione Pruebas de Independencia en el cuadro de diálogo Tablas y
Gráficos. Para una tabla de este tamaño, el procedimiento muestra los resultados del contraste de
chi-cuadrado:

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 18.438 8 0.0182
Advertencia: algunas celdas contienen menos de 5 casos.
Figura 14-14. Test de Chi-cuadrado de independencia
El test de chi-cuadrado de independencia se usa para decidir entre dos hipótesis:

Hipótesis nula: las clasificaciones de filas y columnas son independientes.

Hipótesis alternativa: clasificaciones de filas y columnas no son independientes.


La independencia implicaría que el tipo de defecto encontrado en un artículo no tiene nada que
ver con la instalación en la cual se fabricó ese artículo.

Para el test de chi-cuadrado, un P-valor pequeño indica que las clasificaciones de filas y
columnas no son independientes. En este caso, el P-valor es menor que 0.05, lo que indica que la
distribución de los tipos de defectos es, a un nivel de significación del 5%, diferente en la
instalación de Texas que en la instalación de Virginia. Sin embargo, también se muestra una
advertencia, ya que algunos recuentos de celdas en la tabla de doble entrada son menores que 5.
(Técnicamente, la advertencia ocurre si el recuento esperado en cualquier celda es inferior a 5
asumiendo que la hipótesis nula es verdadera). Con pequeños recuentos de celdas, el P-valor
puede ser poco fiable. Una solución a este problema es agrupar todos los tipos de defectos
infrecuentes en una clase única y volver a ejecutar el test. Esto se hace fácilmente en
STATGRAPHICS Centurion 18 de la siguiente forma:

1. Volver a la hoja de datos y hacer clic en el encabezado de la columna Defectos para


seleccionarla.

2. Presionar el botón derecho del ratón y seleccionar Recodificar datos en el menú emergente.

3. Completar el cuadro de diálogo Recodificar datos como se muestra a continuación para


combinar los tipos de defectos menos comunes en una clase única etiquetada “Otros”:

248/ Analizando datos de atributos


Figuraa 14-15. Recodificando los tipos de defectos menos frecuentes
Las entradas en el cuadro de diálogo Recodificar datos indican al programa que busque valores en la
columna Defectos que se encuentra dentro de cada intervalo definido. Cualquier etiqueta que caiga
alfabéticamente entre los límites que se muestran en una fila determinada se vuelve a codificar
con el valor especificado en la columna Nuevos valores.

Después de realizar la operación de recodificación, vuelva a la ventana de análisis Tabulación


cruzada. En respuesta al cambio en la hoja de datos, el análisis se habrá actualizado
automáticamente. La nueva clase Otros tiene ahora una frecuencia razonable, como se muestra en
el Gráfico de mosaico revisado:

249/ Analizando datos de atributos


Gráfico de Mosaico para Defect según Facility

Facility
Texas
Virginia
Contaminated

Damaged

Misaligned

Other

Figura 14-16. Gráfico de mosaico para datos recodificados


Después de la recodificación, el test de chi-cuadrado todavía muestra una diferencia
estadísticamente significativa entre las instalaciones de Texas y Virginia:

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 11.874 3 0.0078

El StatAdvisor
Esta tabla muestra los resultados de la prueba de hipótesis ejecutada para determinar si se rechaza, o no, la idea de que las
clasificaciones de fila y columna son independientes. Puesto que el valor-P es menor que 0.05, se puede rechazar la
hipótesis de que filas y columnas son independientes con un nivel de confianza del 95.0%. Por lo tanto, el valor observado
de Defect para un caso en particular, está relacionado con su valor en Facility.
Figura 14-17. Test de chi- cuadrado después de la recodificación de datos
Por lo tanto parece que el tipo de defecto está realmente relacionado con la instalación en la cual
se produjo un artículo.

Cabe señalar que la prueba anterior compara las distribuciones de tipos de defectos entre las dos
instalaciones. No compara los números o porcentajes de artículos defectuosos en cada

250/ Analizando datos de atributos


ubicación. Tal comparación requiere un contraste diferente, como se explica en la siguiente
sección.

14.5 Tablas de contingencia


Para determinar si una instalación produce más artículos defectuosos que otra, necesitamos
conocer la producción total en cada instalación. Supongamos que la siguiente tabla describe la
producción de un mes:

Establecimiento Número de Número de ítems


defectos producidos
Texas 67 6,237
Virginia 53 7,343

Sea 1 la proporción de artículos defectuosos producidos en Texas. Sea 2 la proporción de


artículos defectuosos producidos en Virginia. Las proporciones estimadas vienen dadas por:

67 53
ˆ1   0.0107 ˆ2   0.0072
6237 7343

Según estos datos, parece que el porcentaje de artículos defectuosos producidos en Texas puede
ser mayor que el porcentaje de artículos defectuosos producidos en Virginia. Para determinar si
esta diferencia aparente es estadísticamente significativa, se crea una hoja de datos como la
siguiente:

Figura 14-18. Hoja de datos para comparación de dos proporciones

251/ Analizando datos de atributos


Las filas contienen recuentos de artículos defectuosos y no defectuosos. Luego seleccione Tablas
de contingencia desde el mismo menú que Tabulación cruzada. Introducir:

Figura 14-19. Cuadro de diálogo de entrada de datos de tablas de contingencia


El análisis mostrará un test de chi-cuadrado de la tabla 2 por 2:

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 4.783 1 0.0287
Figura 14-20. Test de la chi-cuadrado de tablas 2 por 2
Recordar que este contraste de chi-cuadrado determina si las clasificaciones de filas y columnas
son independientes o no. En este caso, la independencia implicaría que si un artículo era
defectuoso o no tenía nada que ver con la instalación en la cual se produjo.

Como el P-valor en la tabla anterior es inferior a 0.05, la hipótesis de independencia se rechaza al


5% de nivel de significación. Podemos concluir que las proporciones de defectos en las dos
instalaciones son significativamente diferentes.

252/ Analizando datos de atributos


Capítulo

15
Tutorial #6: Análisis de la
capacidad de un proceso
Determinando los defectos por millón o porcentaje más allá de los límites de
especificación.

STATGRAPHICS Centurion 18 es muy utilizado por personas cuyo trabajo es garantizar que los
productos y servicios que ofrecen sean de la más alta calidad. Una tarea común en este tipo de
trabajo es recopilar datos del proceso y compararlos con los límites de especificación
establecidos. La salida de este tipo de análisis de la capacidad es una estimación de cuán capaz es el
proceso cumplir esas especificaciones. Seis Sigma es una metodología ampliamente practicada
para lograr una calidad de clase mundial, apunta a una tasa de 3.4 defectos por millón de
oportunidades.

Como ejemplo, consideremos un producto cuya resistencia se requiere que caiga entre 190 y 230
psi. Supongamos que se toman n = 100 muestras del proceso de producción y se mide su
resistencia, como se muestra en la tabla siguiente:
213.5 203.3 191.3 197.1 205.7 215.6 193.7 201.7 201.5 207.1
207.0 200.4 197.2 202.4 205.2 211.0 214.5 201.5 200.9 206.8
205.8 200.3 196.1 205.9 195.1 203.9 192.9 199.0 195.5 203.1
197.4 194.8 201.0 202.5 199.0 200.7 197.6 198.5 205.3 197.1
202.8 201.6 197.4 200.9 203.3 209.4 201.4 199.5 207.8 204.9
205.5 203.0 208.1 200.2 218.2 202.0 209.3 201.2 200.4 201.0
195.7 229.5 199.9 208.1 210.3 202.0 202.6 213.6 198.0 197.8
196.7 216.0 211.6 208.7 199.4 200.8 201.1 195.3 206.8 211.3
201.5 200.0 211.8 195.6 201.9 199.0 200.3 197.8 200.8 194.8

253/ Análisis de la Capacidad de un Proceso


199.5 195.5 201.0 206.0 215.3 202.6 199.9 200.6 197.6 207.4
Este capítulo describe cómo realizar un análisis de la capacidad típico para este tipo de datos
variables.

15.1 Graficando los datos


El primer paso examinar cualquier nuevo conjunto de datos es representarlo gráficamente. Para
un conjunto de datos como el anterior, el análisis de una variable descrito en el capítulo 10
proporciona varias herramientas útiles. Para analizar esta información:

1. Abra el archivo llamado items.sgd.

2. Ejecute el procedimiento Análisis de una variable usando la columna llamada resistencia


(Strength).

La ventana de análisis inicial se muestra a continuación:

Figura 15-1. Ventana de Análisis de una variable


Varios factores interesantes son evidentes inmediatamente:
254/ Análisis de la Capacidad de un Proceso
1. Los datos están dentro de los límites de especificación, pero por poco, entre 191.3 y
229.5.

2. El gráfico de caja y bigotes muestra un punto extremo lejano (un cuadrado pequeño con
un signo más rojo dentro de él). Tales puntos se consideran habitualmente como
atípicos, si el resto de los datos provienen de una distribución normal. En este caso, sin
embargo, incluso descontando ese aparente valor atípico, la forma de la caja no es muy
simétrica. El bigote superior es más largo que el bigote inferior y la caja se extiende más
por encima de la mediana (la línea vertical dentro de la caja) que por debajo.

3. Si expande el panel Estadísticos resumen, verá que la asimetría estandarizada es igual a 4.94.
Si los datos provienen de una distribución normal, este valor debe encontrarse entre -2 y
+2. Incluso eliminando el mayor valor sólo se reduce la asimetría estandarizada a 2.81.

También se puede presentar un histograma de frecuencias presionando en el botón Tablas y


Gráficos en la barra de herramientas de análisis y seleccionando Histograma de frecuencias en el
cuadro de diálogo Gráficos:

255/ Análisis de la Capacidad de un Proceso


Histograma

24

20

16
frecuencia

12

0
180 190 200 210 220 230 240
Strength

Figura 15-2. Histograma de frecuencias


Los datos presentan claramente asimetría positiva, extendiéndose más a la derecha del pico que a
la izquierda.

Datos no normales como los que acabamos de mostrar son comunes. Una típica aproximación
para trabajar con tales datos, desafortunadamente, es simplificar ignorando la no normalidad y
calcular índices como Cpk usando fórmulas diseñadas para datos de una distribución normal.
Como se verá en este tutorial, ignorar la no normalidad puede llevar a resultados incorrectos, a
menudo sobreestimando o subestimando significativamente el porcentaje de productos que
queda fuera de los límites de especificación.

256/ Análisis de la Capacidad de un Proceso


15.2 Procedimiento Análisis de la capacidad
STATGRAPHICS Centurion 18 contiene procedimientos para realizar un análisis de capacidad
en datos recopilados uno a uno (datos individuales) o en subgrupos (como 5 observaciones cada
hora). Suponiendo que los datos de muestra son individuales, puede realizarse un análisis de
capacidad del proceso según:

1. Si se usa menú clásico, seleccione CEP – análisis de la capacidad – Variables – Individuales.

2. Si se usa el menú Seis Sigma, seleccione Analizar – Datos de variables – Análisis de la


capacidad – Individuales.

El cuadro de diálogo de entrada de datos requiere el nombre de una sola columna que contiene
los datos. Los datos de la muestra se pueden encontrar en una columna llamada Resistencia
(Strength) en el archivo items.sgd:

Figura 15-3. Cuadro de diálogo de Análisis de la capacidad de un proceso


Los límites superiores e inferiores de especificación también se han indicado, como el valor
nominal o valor objetivo.

Cuando se presiona Aceptar aparecerá el menú Opciones, a continuación el cuadro de diálogo


Tablas y Gráficos. Use los valores por defecto para ambos menús para el beneficio de este tutorial.

257/ Análisis de la Capacidad de un Proceso


La ventana de análisis inicial muestra un resumen de los datos, una tabla de índices de capacidad
y un gráfico de capacidad:

Figura 15-4. Ventana de Análisis de la capacidad de un proceso


Cuando se ejecuta por primera vez un análisis de capacidad, los datos se ajustan a una
distribución normal. El Gráfico de capacidad muestra un histograma de los datos, junto con el
mejor ajuste a la distribución normal:

258/ Análisis de la Capacidad de un Proceso


Capacidad de Proceso para Strength
LIE = 190.0, Nominal = 210.0, LSE = 230.0

24 Normal
Media=202.809
20 Desv. Est.=6.23781

Cp = 1.16
16 Pp = 1.07
frecuencia

Cpk = 0.74
Ppk = 0.68
12 K = -0.36
DPM a Corto Plazo = 13020.86
DPM a Largo Plazo = 20021.19
8

0
180 190 200 210 220 230 240
Strength

Figura 15-5. Gráfico de capacidad con distribución normal


La altura de las líneas verticales en el gráfico muestra dónde se encuentran los límites de
especificación y el valor nominal. Las líneas verticales más bajas se encuentran en la media
muestral más y menos 3 desviaciones típicas. En el gráfico anterior son particularmente
destacables:

1. La distribución normal ajustada no coincide muy bien con los datos. Aunque la forma de
campana de la curva normal tenga la misma media y desviación típica que los datos, la
asimetría de los datos causa que la curva coincida poco con las barras del histograma.

2. La media de la muestra se encuentra en 202.8, que es considerablemente menor que el


valor nominal de 210.

3. Aunque ninguna de las observaciones es inferior al límite inferior de especificación, una


pequeña cantidad de la cola inferior de la distribución normal está por debajo de ese
límite.

259/ Análisis de la Capacidad de un Proceso


4. Las líneas de más y menos 3 sigma están ajustadas suficientemente con las
especificaciones. Sin embargo están desplazadas hacia la izquierda.

El Resumen de análisis en el panel superior izquierdo cuantifica el ajuste:

Análisis de Capacidad de Proceso (Individuales) - Strength


Datos/Variable: Strength (specs are 190-230)

Transformación: ninguna

Distribución: Normal
tamaño de muestra = 100
media = 202.809
desv. est. = 6.23781

6.0 Límites Sigma


+3.0 sigma = 221.522
media = 202.809
-3.0 sigma = 184.096

Observados Estimados Defectos


Especificaciones Fuera Especs. Valor-Z Fuera Especs. Por Millón
LSE = 230.0 0.000000% 4.36 0.000654% 6.54
Nominal = 210.0 1.15
LIE = 190.0 0.000000% -2.05 2.001465% 20014.65
Total 0.000000% 2.002119% 20021.19
Figura 15-6. Resumen de análisis de la capacidad
La tabla inferior es de sumo interés, estima el porcentaje del producto que probablemente esté
fuera de especificaciones. Según la distribución normal ajustada, el porcentaje estimado de
producto fuera de los límites de especificación es aproximadamente el 2%, lo que equivale a
20,021 defectos por millón (DPM).

260/ Análisis de la Capacidad de un Proceso


15.3 Tratando con datos no normales
El DPM estimado calculado anteriormente se basa en gran medida en la suposición de que los
datos provienen de una distribución normal. Se puede realizar un contraste formal de esa
hipótesis seleccionando Pruebas de Normalidad en el cuadro de diálogo Tablas y Gráficos:
Pruebas de Normalidad para Strength
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.931784 0.0000321356

Figura 15-7. Pruebas de normalidad


Dependiendo de las preferencias de su sistema, se mostrarán una o más pruebas de normalidad.
Cada una de las pruebas disponibles se basa en el siguiente conjunto de hipótesis:

Hipótesis nula: los datos provienen de una distribución normal.

Hipótesis alternativa: los datos no provienen de una distribución normal.

Un P-valor por debajo de 0.05 conduce al rechazo de la hipótesis de normalidad al 5% de nivel


de significación.

En la tabla anterior, la prueba de Shapiro-Wilks rechaza firmemente la hipótesis de que los datos
provienen de una distribución normal. Por lo tanto, cualquier valor estimado de DPM o índices
de capacidad basados en la asunción de normalidad no son válidos.

Cuando los datos son no normales, pueden tenerse en cuenta uno de los dos siguientes
enfoques:

1. Seleccionar una distribución distinta de la normal a la cual se ajusten los datos.

2. Transformar los datos para que sigan una distribución normal en la métrica
transformada.

Para ayudar en la selección de diferentes distribuciones, STATGRAPHICS Centurion 18 aporta


una opción llamada Comparación de distribuciones alternativas en el cuadro de diálogo Tablas y Gráficos.
Esta opción se ajusta a otras distribuciones y las lista por orden de bondad de ajuste. Utilizando
la selección de distribuciones por defecto tenemos la siguiente salida:

261/ Análisis de la Capacidad de un Proceso


Comparación de Distribuciones Alternas
Distribución Parámetros Est. Log Verosimilitud KS D
Valor Extremo Más Grande 2 -314.65 0.0675422
Laplace 2 -320.055 0.0920985
Loglogística 2 -320.271 0.0913779
Logística 2 -321.236 0.0941708
Lognormal 2 -322.763 0.13213
Gamma 2 -323.306 0.134136
Normal 2 -324.457 0.138628
Weibull 2 -348.002 0.177886
Valor Extremo Más Chico 2 -351.782 0.189989
Exponencial 1 -631.226 0.61064
Pareto 1 -798.174 0.628084

Figura 15-8. Distribuciones ajustadas en orden de bondad de ajuste


Las distribuciones han sido listadas según el valor de la función de verosimilitud de registro, que mide
la probabilidad de obtener la muestra observada de cada distribución. En este caso la mejor
distribución ajustada es la del mayor valor extremo.

Es posible cambiar a la distribución del mayor valor extremo mediante Opciones de análisis:

Figura 15-9. Cuadro de diálogo de opciones de la capacidad de un proceso

262/ Análisis de la Capacidad de un Proceso


El resultado del nuevo ajuste se muestra a continuación:

Capacidad de Proceso para Strength


LIE = 190.0, Nominal = 210.0, LSE = 230.0

24 Valor Extremo Más Grande


Moda=200.036
20 Escala=4.80179

Cp = 1.08
16 Pp = 1.05
frecuencia

Cpk = 0.99
Ppk = 0.96
12 K = -0.26
DPM a Corto Plazo = 1769.08
DPM a Largo Plazo = 2255.63
8

0
180 190 200 210 220 230 240
Strength

Figura 15-10. Ajuste a la distribución del mayor valor extremo


Observe que la distribución es asimétrica la derecha, haciendo coincidir los datos observados mucho
mejor que la distribución normal. Las líneas cortas verticales se han colocado en los límites 3 sigma
“equivalentes”, es decir, los límites dentro de los cuales se localiza el 99.73% de la distribución
ajustada (media más menos 3 sigma para una distribución normal). Tenga en cuenta que estos límites
no están simétricamente espaciados alrededor del máximo de la distribución, debido a su asimetría
positiva.

El Resumen de análisis muestra una diferencia dramática en el porcentaje estimado del producto
que probablemente esté fuera de las especificaciones, en comparación con la distribución normal
ajustada anterior:

263/ Análisis de la Capacidad de un Proceso


Análisis de Capacidad de Proceso (Individuales) - Strength
Datos/Variable: Strength (specs are 190-230)

Transformación: ninguna

Distribución: Valor Extremo Más Grande


tamaño de muestra = 100
moda = 200.036
escala = 4.80179
(media = 202.808)
(sigma = 6.15853)

Equivalente 6.0 Límites Sigma


99.865 percentil = 231.761
mediana = 201.796
0.134996 percentil =190.969

Observados Estimados Defectos


Especificaciones Fuera Especs. Valor-Z Fuera Especs. Por Millón
LSE = 230.0 0.000000% 2.89 0.194758% 1947.58
Nominal = 210.0 1.19
LIE = 190.0 0.000000% -3.42 0.030805% 308.05
Total 0.000000% 0.225563% 2255.63

Figura 15-11. Resumen de análisis después de ajustar los datos a la distribución del mayor valor extremo
El porcentaje estimado fuera de las especificaciones es ahora sólo del 0.23 por ciento, o 2,256 DPM,
una décima parte del resultado de la distribución normal. En este caso, la asunción incorrecta de una
distribución normal hace que el proceso parezca mucho peor que lo que realmente es.

NOTA: Dependiendo de los límites de especificación y la distribución real, asumir


incorrectamente la normalidad puede hacer que el proceso parezca significativamente
peor o significativamente mejor que cuando se usa la distribución adecuada.

Una alternativa para seleccionar una distribución diferente es transformar los datos. El cuadro de
diálogo Opciones de análisis permite seleccionar varias Transformaciones de datos:

264/ Análisis de la Capacidad de un Proceso


Figura 15-12. Cuadro de diálogo Opciones de análisis para selección de transformación
Las opciones incluyen un logaritmo natural, elevar cada valor a una potencia especifica, o
seleccionar una transformación según los métodos de Box y Cox. La última aproximación
considera una variedad de transformaciones de la forma Yp utilizando los métodos de Box y Cox
y seleccionando un valor óptimo para p.

Si se selecciona una transformación, se ajusta una distribución normal a los datos transformados.
El gráfico siguiente muestra los resultados de tomar la transformación de Box-Cox:

265/ Análisis de la Capacidad de un Proceso


Capacidad de Proceso para Strength
LIE = 190.0, Nominal = 210.0, LSE = 230.0

24
Normal (después de transformar)
Media=2.75169E-14
20 Desv. Est.=4.52152E-15

Cp = 1.02
16
Pp = 0.99
frecuencia

Cpk = 0.93
12 Ppk = 0.90
K = -0.60
DPM a Corto Plazo = 3077.01
8 DPM a Largo Plazo = 4169.58

0
180 190 200 210 220 230 240
Strength

Figura 15-13. Gráfico de capacidad después de una transformación Box Cox


Para el gráfico, se ha aplicado una transformación inversa mostrando el ajuste en la métrica
original. La transformación ha tenido un efecto similar en la forma de la distribución, aunque no
es tan fuerte como asumiendo la distribución del mayor valor extremo. El DPM estimado es
4,353, que es aproximadamente el doble que cuando se usa la distribución del mayor valor
extremo, y aún mucho más pequeño que cuando se supone una distribución normal.

NOTA: la media y la desviación típica mostradas en el gráfico corresponden a los datos


transformados y, en general, no son muy útiles. STATGRAPHICS Centurion 18
convierte automáticamente cada valor a las unidades originales.

Para comparar las dos aproximaciones, se selecciona Gráfico de probabilidad desde el cuadro de
diálogo de Tablas y Gráficos para cada aproximación y pegar uno al lado del otro en StatGallery:

266/ Análisis de la Capacidad de un Proceso


Figura 15-14. Gráficos de probabilidad en StatGallery
Si se asume que la distribución es correcta, los puntos deben situarse a lo largo de la línea
diagonal cuando se muestran en el gráfico. Ambos métodos parecen tratar bien la no
normalidad, presentando dificultades de elección entre ellos. Sea cual sea el método que se use,
es importante establecer un protocolo sobre cómo manejar una variable en particular (como la
Resistencia) y aplicar el mismo protocolo cada vez que se analizan los datos. Es un error realizar el
tipo de análisis exploratorios de datos descrito en este capítulo cada vez que se recopilara un
conjunto similar de datos. En cambio, este tipo de análisis se debe hacer una vez para determinar
cómo se debe manejar una variable seleccionada, y luego se debe aplicar la aproximación
seleccionada a esa variable siempre que se analice.

267/ Análisis de la Capacidad de un Proceso


15.4 Índices de capacidad
La esencia de un análisis de capacidad radica en estimar el porcentaje de la producción que queda
fuera de los límites de especificación (o DPM equivalentes, los defectos por millón). Para
resumir la capacidad del proceso, los investigadores han habilitado varios índices de capacidad.
El índice más utilizado generalmente es Cpk, definido como:

 ˆ  LSL USL  ˆ 
C pk  min  , 
 3ˆ 3ˆ 

En pocas palabras, Cpk es la distancia de la media del proceso estimado al límite de especificación
más cercano, dividida por 3 veces el valor de sigma estimado para el proceso.

El procedimiento Análisis de la capacidad de un proceso en STATGRAPHICS Centurion 18 muestra


los índices de capacidad en el Gráfico de capacidad y también en la tabla de Índices de capacidad. Si se
asume distribución normal, se calculan dos tipos de índices a corto y largo plazo (Short-Term o de
capacidad y Long-Term o de rendimiento):
Índices de Capacidad para Strength
Especificaciones
LSE = 230.0
Nom = 210.0
LIE = 190.0

Capacidad Desempeño
Corto Plazo Largo Plazo
Sigma 5.75525 6.23781
Cp/Pp 1.15836 1.06875
Cpk/Ppk 0.741874 0.684481
Cpk/Ppk (superior) 1.57485 1.45302
Cpk/Ppk (inferior) 0.741874 0.684481
K -0.35955
DPM 13020.9 20021.2
Nivel de Calidad Sigma 3.73 3.55
Con base en límites 6.0 sigma. La sigma de corto plazo se estimó a partir del rango móvil promedio. El Nivel de Calidad
Sigma incluye un drift de 1.5
sigma en la media.

Intervalos de confianza del 95.0%


Índice Límite Inferior Límite Superior
Cp 0.997149 1.31931
Pp 0.920008 1.21725
Cpk 0.619618 0.864129
Ppk 0.568904 0.800059

Figura 15-15. Tabla de índices de capacidad


268/ Análisis de la Capacidad de un Proceso
Los índices a corto plazo, que se calculan utilizando una estimación de sigma obtenida de
observaciones muy cercanas en el tiempo, describen lo que el proceso es capaz de hacer si la
media se mantiene constante. Los índices a largo plazo, que se calculan utilizando una estimación
de sigma obtenida a partir de la variabilidad total entre las observaciones en todo el periodo de
muestreo, describen cómo se ha realizado realmente el proceso. Un proceso fuera de control en
el cual la media ha cambiado significativamente en el transcurso de la recopilación de datos
puede mostrar un rendimiento considerablemente peor de lo que es capaz si se puede controlar.
Por defecto, STATGRAPHICS Centurion 18 etiqueta los índices de capacidad utilizando la letra
“C” y los índices de rendimiento utilizando la letra “P”.

La pestaña Capacidad del cuadro de diálogo Preferencias, accesible en Editar desde el menú
principal de STATGRAPHICS Centurion 18, especifica los índices que van a ser calculados por
defecto, así como otras opciones importantes:

Figura 15-16. Índices de capacidad en Preferencias del sistema


El lado izquierdo del cuadro de diálogo enumera los índices que se pueden calcular. Además de
Cpk, los índices disponibles incluyen:

269/ Análisis de la Capacidad de un Proceso


1. Cp – índice de capacidad de dos lados calculado como

USL  LSL
Cp 
6̂

Este índice mide la distancia entre los límites de especificación relativos a la distancia
cubierta por seis desviaciones típicas. Cp es siempre mayor o igual que Cpk. Una diferencia
sustancial entre los dos índices indica que el proceso no está bien centrado.

2. K – es una medida del alejamiento del centro del proceso. K se calcula mediante

ˆ  NOM
K
(USL  LSL) / 2

donde NOM es el valor nominal u objetivo. Un valor de K cercano a 0 es indicativo de


un proceso bien centrado.

3. Nivel de calidad Sigma – un índice utilizado en Seis Sigma para indicar el nivel de calidad
asociado con un proceso. Un nivel de calidad Sigma de 6 es generalmente asociado con una
tasa de defectos de 3.4 por millón.

El cuadro de diálogo Preferencias también afecta a los índices que se muestran en el Gráfico de
capacidad y cómo están etiquetados. Puede encontrar una discusión detallada de los diversos
índices en el documento PDF titulado Análisis de la capacidad – Variables de datos.

Además de los índices de capacidad, la tabla de la figura 15.15 incluye intervalos de confianza que
muestran el margen de error en la estimación de esos índices. Por ejemplo, la tabla anterior
muestra un Cpk de 0.74. El intervalo de confianza del 95% se extiende desde 0.62 a 0.86. Esto
indica que el verdadero Cpk en el proceso del cual se tomaron muestras de los datos puede estar
entre 0.62 y 0.86.

Cuando los datos no siguen una distribución normal, los índices de capacidad deben
modificarse. La opción por defecto en el cuadro de diálogo Preferencias calcula los índices no
normales calculando primero las puntuaciones Z equivalentes para la distribución no normal
ajustada. Para una distribución normal, la puntuación Z mide el número de desviaciones estándar
de la media del proceso a un límite de especificación y está directamente relacionado con la
probabilidad de que una observación caiga fuera de ese límite. Para una distribución no normal,
se calcula una puntuación Z equivalente determinando primero la probabilidad de exceder el
límite y luego encontrando la puntuación Z que equivale a esa probabilidad. Después de calcular
270/ Análisis de la Capacidad de un Proceso
las puntuaciones Z equivalentes para los límites superior e inferior de especificación, Cpk puede
calcularse a partir de

C pk  min Z lsl , Z usl /3

NOTA: Aunque el cuadro de diálogo Preferencias ofrece la opción de calcular índices de


capacidad a partir de percentiles en lugar de puntuaciones Z equivalentes, al hacerlo se
destruye la relación habitual entre los índices de capacidad y DPM.

15.5 Calculadora Seis Sigma


Como índice, Cpk es un resumen útil de la capacidad de un proceso. Si se calcula correctamente
puede estar relacionado con DPM. El menú Herramientas de STATGRAPHICS Centurion 18
contiene una calculadora Seis Sigma que hará conversiones entre las dos, siempre que:

1. Los datos provienen de una distribución normal.

2. Las puntuaciones Z equivalentes se utilizan para calcular los índices.

El cuadro de diálogo de entrada de datos para la Calculadora Seis Sigma se muestra a continuación:

Figura 15-17. Calculadora Seis Sigma

271/ Análisis de la Capacidad de un Proceso


Para utilizar el procedimiento:

1. Seleccione cualquiera de los botones de opción de entrada e introduzca un valor para el


estadístico correspondiente.

2. Si desea calcular valores según el límite de especificación más cercano solamente,


seleccione el botón de opción límite inferior sólo o límite superior sólo.

3. Indique el valor que quiere asumir para el cambio a largo plazo en la media del proceso.
En Seis Sigma, se asume a veces que la media del proceso oscilará alrededor de su valor a
largo plazo en 1.5 sigma.

4. Presione el botón Calcular para mostrar los valores asociados de los otros estadísticos.

Calculadora Seis Sigma


Entrada: Cpk = 1.33
Cambio en sigma = 1.5

Valores equivalentes:
Índice Valor
Valor-Z 3.99
DPM 33.0518
Defectos 0.00330518
rendimiento 99.9967
Cpk 1.33
SQL 5.49

Figura 15-18. Valores equivalentes de índices de calidad

Asumiendo que la media del proceso no cambia, un Cpk de 1.33 equivale a alrededor de 33
defectos por millón fuera de la especificación más cercana.

272/ Análisis de la Capacidad de un Proceso


Capítulo

16
Tutorial #7: Diseño de
experimentos (DOE)
Diseñando experimentos para ayudar a la mejora de los procesos.

No todos los datos se crean igual. A menudo, un estudio pequeño pero bien planificado aporta más
información que un estudio grande y mal diseñado. Este tutorial examina algunas de las capacidades
de STATGRAPHICS Centurion 18 para crear y analizar diseños de experimentos.

Considere el caso de un ingeniero que desea determinar cuál de las muchas variables de un proceso
tiene mayor impacto en el producto final. Intenta investigar el impacto cambiando 5 factores:
temperatura de entrada, tasa de flujo, concentración, tasa de agitación y porcentaje de catalizador. En
la práctica, este problema podría abordarse de varias maneras, incluyendo:

1. Prueba y error: se seleccionan arbitrariamente combinaciones diferentes de los factores cada vez
que ejecuta el experimento. Tal aproximación raramente produce información útil.

2. Un factor en el momento de la experimentación: manteniendo todos los factores menos uno para
determinar el efecto de ese factor. Esta aproximación es extremadamente ineficiente y puede
ser errónea si alguno de los factores presenta interacción.

3. Utilizando un diseño estadístico de experimentos: configurando una secuencia de experimentos a


realizar que proporcionará la mayor información sobre los factores y sus interacciones en el
menor número de experimentos posible.

Este tutorial describirá cómo se puede construir un diseño de experimentos utilizando la tercera
aproximación y cómo se analizarían los datos resultantes.

273/ Diseño de Experimentos


16.1 Creando un diseño
STATGRAPHICS Centurion 18 contiene un Asistente de diseño de experimentos que guía a los
usuarios a través de la construcción y el análisis de un diseño de experimentos. Para accede al
asistente DOE:

1. Si usa el menú clásico, seleccione DOE – Asistente de diseño de experimentos.

2. Si usa el menú Seis Sigma, seleccione Mejorar – Asistente de diseño de experimentos.

Se creará una nueva ventana que contiene una barra de herramientas que nos guiará a través de una
secuencia de 12 pasos:

Figura 16-1. Ventana principal de Asistente de diseño de experimentos con una barra de herramientas de 12 pasos

Los primeros 7 pasos de la secuencia construyen el diseño experimental y se ejecutan antes de que se
realice el experimento. Los últimos 5 pasos se ejecutan después de completar el experimento y se
ocupan del análisis de los datos resultantes.

274/ Diseño de Experimentos


Paso 1: Definir respuestas

El primer paso para crear un diseño de experimentos es especificar las variables respuesta que se
medirán durante la ejecución del experimento. Presionando el botón Paso 1 se muestra el siguiente
cuadro de diálogo:

Figura 16.2. Definición de variables respuesta


En este ejemplo, hay dos variables respuesta: rendimiento en gramos y resistencia en libras por pulgada
cuadrada. El objetivo del experimento es maximizar el rendimiento manteniendo la resistencia lo más
cerca posible de 250. Las cuatro columnas de la derecha es utilizan para equilibrar los requisitos de las
dos respuestas, que podrían entrar en conflicto. Impacto especifica la importancia de cada respuesta en
una escala de 1 a 5, siendo el 5 el más importante. Los valores mínimo y máximo especifican el intervalo
deseable para cada respuesta, con sensibilidad que indica lo importante que puede ser estar cerca de la
mejor posición en el intervalo. En el ejemplo actual, resistencia es más importante que rendimiento y por
lo tanto se le asigna un mayor impacto. La sensibilidad de ambas respuestas se establece en “Media”,

275/ Diseño de Experimentos


lo cual significa que la deseabilidad de cada respuesta aumenta de forma lineal en todo el intervalo
especificado.

Paso 2: Definir factores experimentales


El botón Paso 2 se utiliza para introducir información sobre los factores experimentales que se
modificarán durante el transcurso del experimento. Muestra el cuadro de diálogo que se presenta a
continuación:

Figura 16-3. Definición de los factores experimentales


En el ejemplo, se cambian 5 factores de proceso controlables. Introducir el nombre de cada factor,
sus unidades y el intervalo sobre el cual variarán. Todos los factores son continuos, ya que pueden ser
configurados con un valor entre los niveles más bajo y más alto indicados.

276/ Diseño de Experimentos


Paso 3: Seleccionar diseño
El tercer paso en la creación de un experimento es seleccionar el tipo de diseño que se va a realizar.
Cuando se presiona el botón del paso 3, se muestra el primer cuadro de diálogo:

Figura 16-4. Seleccionar el cuadro de diálogo del diseño


Para crear un diseño para los 5 factores del proceso, presione el botón Opciones. Muestra una lista de
tipos de diseños que puede ser apropiada para 5 factores continuos:

277/ Diseño de Experimentos


Figura 16-5. Cuadro de diálogo mostrando los tipos disponibles de diseños

Como queremos crear un diseño de pantalla, presionamos Aceptar.

El siguiente cuadro de diálogo se utiliza para seleccionar el diseño deseado de un catálogo de diseños
de pantalla apropiados para 5 factores:

Figura 16-6. Selección de diseño


Para ver la lista de diseños de pantalla disponibles para 5 factores, haga clic en la flecha que
muestra la lista. En la lista tenemos:

1. Nombre: el nombre de cada diseño disponible.

278/ Diseño de Experimentos


2. Ejecuciones: el número de ejecuciones en el diseño base, antes de agregar puntos
centrales o repeticiones.

3. Resolución: la resolución del diseño. Los diseños de resolución V pueden estimar todos
los efectos principales y todas las interacciones de dos factores. Los diseños de
resolución IV pueden estimar todos los efectos principales, pero las interacciones de dos
factores se confunden entre sí o con efectos de bloque. Los diseños de resolución III
confunden las interacciones de dos factores con los efectos principales.

4. Error d.f.: el número de grados de libertad disponibles para estimar el error


experimental. La potencia de este test estadístico está relacionada con el número de
grados de libertad, así como con el número total de ejecuciones en el experimento.
Normalmente, deberían estar disponibles al menos 3 grados de libertad, aunque se
prefiere más.

5. Tamaño de bloque: el número de ejecuciones en el bloque más grande.

En este caso, el ingeniero seleccionó una media fracción en dos bloques de 8 ejecuciones cada
uno.

El cuadro de diálogo final se utiliza para añadir puntos centrales o replicar ejecuciones:

Figura 16-7. Opciones de diseño de pantalla bloqueado


Los campos de entrada especifican:

279/ Diseño de Experimentos


1. Puntos centrales: el número de ejecuciones que se realizarán en el centro de la región
experimental. Añadir puntos centrales es una buena idea para aumentar los grados de libertad
para el error experimental.

2. Ubicación: La ubicación de los puntos centrales. Las elecciones más comunes son Aleatoria, en
la cual los puntos centrales se extienden aleatoriamente a lo largo de otras ejecuciones, y
Espaciada, que espacia los puntos centrales de manera uniforme en todo el diseño.

3. Diseño replicado: el número de veces adicionales que se debe ejecutar cada conjunto de
condiciones experimentales. Replicando el diseño completo se puede aumentar el número de
ejecuciones rápidamente.

4. Aleatorizar: cuando las ejecuciones se listan en orden aleatorio. La aleatorización debe hacerse
siempre que sea posible para prevenir variables externas acechantes (tales como cambios en el
proceso a lo largo del tiempo) que sesgan los resultados.

Para el experimento actual, se han solicitado cuatro puntos centrales, lo que lleva el diseño final a 20
ejecuciones. También se ha solicitado que el diseño se realice en orden aleatorio, lo que significa que el
orden de las 10 ejecuciones dentro de cada bloque se generará aleatoriamente.

Después del cuadro de diálogo final, la ventana Seleccionar diseño se rellena con las ejecuciones a realizar
del experimento:

280/ Diseño de Experimentos


Figura 16-8. Seleccionar ventana del diseño con las ejecuciones a realizar
Si está satisfecho con el diseño, presione Aceptar una vez más para volver a la ventana del
Asistente de diseño de experimentos en la ventana que resumirá las selecciones hechas hasta el
momento:

281/ Diseño de Experimentos


Figura 16-9. Ventana del asistente de diseño de experimentos después de seleccionar un diseño

Al mismo tiempo, el diseño se ha cargado en la hoja de datos A en el libro de datos de


STATGRAPHICS Centurion 18:

282/ Diseño de Experimentos


Figura 16-10. Diseño final
La hoja de datos contiene una columna con números de bloque, 5 columnas con la
configuración de los factores experimentales y 2 columnas para introducir las respuestas una vez
que se han realizado las ejecuciones del diseño experimental.

Paso 4: Especificar el Modelo


El Asistente de Diseño de Experimentos evaluará el diseño que ha creado con respecto a un
modelo estadístico específico. Si presiona el botón Paso 4, se mostrará el siguiente cuadro de
diálogo:

283/ Diseño de Experimentos


Figura 16-11. Cuadro Selección de Modelo
Debe seleccionar el modelo más complicado que desee considerar para sus datos. En el caso de
un diseño de cribado, el modelo más complicado que puede ajustarse es el Modelo de
Interacciones de dos factores definido por la siguiente ecuación:

 0  1 x1   2 x2   3 x3   4 x4   5 x5  12 x1 x2  13 x1 x3  14 x1 x4


Y=
 15 x1 x5   23 x 2 x3   24 x 2 x4   25 x2 x5   34 x3 x4   35 x3 x5   45 x4 x5

Consiste en cada factor experimental en sí mismo (los efectos principales) y los términos que
involucran a cada par de factores (interacciones de dos factores). Los términos individuales se
pueden excluir del modelo seleccionado haciendo doble clic en los mismos con el ratón, que los
mueve al campo de excluidos en el cuadro de diálogo. En este caso, seleccionaremos el modelo
completo de interacción de 2 factores.

284/ Diseño de Experimentos


Paso 5: Seleccionando ejecuciones
Para diseños más complicados, puede ser conveniente ejecutar solo un subconjunto de las
ejecuciones que se crearon en el paso 4. Si se presiona el botón Paso 5, se puede acceder a un
algoritmo de selección de ejecución para crear un subconjunto de las ejecuciones que es D-
optimo. En este caso, se realizarán todas las ejecuciones, por lo que se puede omitir el paso 5.

Paso 6: Evaluar el diseño


Si presionamos el botón etiquetado Paso 6, se mostrará un cuadro de diálogo con una lista de
tablas y gráficos que pueden agregarse a la ventana del Asistente de diseño de experimentos:

Figura 16-12. Tablas y Gráficos para evaluar el diseño de experimentos seleccionado


Una opción útil para proyectar diseños es la Matriz de correlación, que muestra si existe alguna
confusión entre los términos del modelo que va a ser ajustado:

285/ Diseño de Experimentos


Matriz de Correlación

bloque A B C D E AB AC AD AE BC BD BE CD CE DE
bloque 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.8944 0.0000 0.0000
A 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
B 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
C 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
D 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
E 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AB 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
BC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000
BD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000
BE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000
CD 0.8944 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000
CE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000
DE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000

Figura 16-13. Matriz de correlación para el diseño seleccionado


Un valor distinto de cero en cualquier celda fuera de la diagonal de la tabla indica que los efectos
de esa fila y columna están confundidos y no se pueden separar claramente. En el diseño actual,
la interacción CD tiene una gran correlación con los bloques. Tenga en cuenta que el diseño ha
sacrificado arbitrariamente la capacidad de estimar la interacción entre los factores C y D, que
son concentración y tasas de agitación. Si esta es una interacción que el ingeniero cree importante
debe cambiar el orden de las variables para que C y D correspondan a dos variables que
probablemente no interactúen.

Paso 7: Guardar experimento


Presionando el botón etiquetado Paso 7, se puede guardar el experimento en un archivo. Utiliza
el cuadro de diálogo que se muestra a continuación:

286/ Diseño de Experimentos


Figura 16-14. Cuadro de diálogo para Guardar experimento
El diseño de experimentos creado por el Asistente DOE se guardará en un archivo con la
extensión .sgx. Es similar a los archivos de datos estándar, con la excepción de que contiene
información adicional sobre el diseño del experimento y el modelo estadístico seleccionado.

16.2 Analizando los resultados


Después de diseñar el experimento, el ingeniero realiza las 20 ejecuciones indicadas. Reinicia el
programa, abre el archivo de diseño de experimentos e introduce los valores medidos de
rendimiento y resistencia en la hoja de datos del experimento. Para replica el análisis, puede cargar el
archivo tutorial7.sgx de la misma manera que lo haría con cualquier archivo de datos de
STATGRAPHICS, seleccionando Abrir origen de datos en el menú archivo. Abriendo un archivo de
diseño de experimentos se abre automáticamente la ventana principal del Asistente DOE.

287/ Diseño de Experimentos


Paso 8: Analizar datos
Para analizar los datos del experimento, presione el botón etiquetado Paso 8. El análisis comienza
mostrando el siguiente cuadro de diálogo:

Figura 16-15. Cuadro de diálogo de entrada de Analizar datos


Si es necesario, se puede especificar una transformación para una o más variables. Dado que estamos
analizando variables respuesta continuas, serán necesarias las transformaciones si la varianza de la
respuesta aumenta con la media. En el ejemplo actual, no se necesitan transformaciones.

Cuando se presiona el botón Aceptar, se abre una nueva ventana de análisis para cada respuesta.
La ventana de análisis para Rendimiento muestra inicialmente la siguiente salida:

288/ Diseño de Experimentos


Figura 16-16. Ventana de análisis Analizar diseño para rendimiento
La ventana muestra cuatro paneles:

1. Resumen de análisis: enumera los efectos principales estimados y sus interacciones.

2. Tabla ANOVA : contiene P-valores que pueden ser utilizados para contrastar la
significación estadística de cada efecto.

3. Gráfico de Pareto estandarizado: muestra los efectos en orden decreciente de importancia,


con una línea para determinar qué efectos son estadísticamente significativos.

4. Gráfico de efectos principales: representa el cambio estimado en la respuesta cuando cada uno
de los factores se mueve de su nivel bajo a su nivel alto.

El gráfico de Pareto estandarizado en la esquina superior derecha se puede usar para determinar
rápidamente qué efectos son los más importantes:

289/ Diseño de Experimentos


Diagrama de Pareto Estandarizada para yield

A:temperature
+
AB
-
C:concentration
E:catalyst
AC
AE
D:agitation rate
B:flow rate
DE
AD
BD
BE
BC
CE
CD+bloque
0 4 8 12 16
Efecto estandarizado

Figura16-17. Gráfico de Pareto estandarizado


La longitud de cada barra es proporcional al valor del estadístico t calculado para el efecto
correspondiente. Cualquier barras fuera de la línea vertical es estadísticamente significativa al
nivel de significación seleccionado, situado por defecto al 5%. En este caso, hay 3 hay tres
efectos principales importantes: temperatura, concentración, y catalizador. También hay una
interacción significativa entre temperatura y tasa de flujo.

El Gráfico de efectos principales en el panel inferior derecho muestra cómo afecta a rendimiento cada
factor:

290/ Diseño de Experimentos


Gráfica de Efectos Principales para yield

86

85
yield

84

83

82
temperature concentration catalyst
flow rate agitation rate

Figura 16-18. Gráfico de efectos principales


Las líneas indican el cambio estimado en rendimiento a medida que cada factor se mueve de su
nivel bajo a su nivel alto, y todos los demás factores se mantienen constantes en un valor
intermedio entre sus valores bajos y altos. Tenga en cuenta que los tres factores con efectos
principales significativos tienen un mayor impacto en la respuesta que los demás. Por ejemplo, el
rendimiento medio a baja temperatura es aproximadamente 82, mientras que el rendimiento
medio a alta temperatura es aproximadamente 85.4. La diferencia de 3.4 se llama “efecto
principal” de la temperatura.

Para trazar la interacción entre temperatura y tasa de flujo, seleccione primero Gráfico de interacción en
el cuadro de diálogo Gráficos. Luego use Opciones de panel para seleccionar sólo esos dos factores:

291/ Diseño de Experimentos


Figura 16-19. Cuadro de diálogo Opciones de panel para gráfico de interacción
El gráfico resultante muestra el rendimiento medio a medida que cambia la temperatura, para cada
nivel de tasa de flujo:

292/ Diseño de Experimentos


Gráfica de Interacción para yield

88
flow rate=12.0

86
yield

84
flow rate=10.0 flow rate=10.0

82

flow rate=12.0
80
150.0 180.0
temperature

Figura 16-20. Gráfico de interacción par tasa de flujo y temperatura


Tenga en cuenta que a una tasa de flujo baja, la temperatura tiene poco o ningún efecto. A una tasa
de flujo alta, la temperatura es un factor muy importante.

Antes de utilizar el modelo estadístico subyacente a este análisis, es importante eliminar los
efectos no significativos. Para eliminar efectos:

1. Presione el botón Opciones de análisis en la barra de herramientas de análisis.

2. Presione el botón Excluir en el cuadro de diálogo Opciones de análisis.

3. En el cuadro de diálogo Opciones de excluir efectos, haga doble clic en cualquier efecto que
quiera excluir, el cual se moverá de la columna Incluir a la columna Excluir:

293/ Diseño de Experimentos


Figura 16-21. Cuadro de diálogo para excluir efectos
La regla a seguir para excluir los efectos es:

1. Excluir interacciones no significativas de dos factores.

2. Excluir cualquier efecto principal no significativo que no esté involucrado en


interacciones significativas.

En este caso, eso significa eliminar todo lo que no es significativo en el gráfico de Pareto,
excepto el efecto principal de B. Ese efecto principal se retiene porque está involucrado en una
interacción significativa con el factor A.

Una vez eliminados los efectos, aparecerá el gráfico de Pareto como se muestra a continuación:

294/ Diseño de Experimentos


Diagrama de Pareto Estandarizada para yield

+
A:temperature
-

AB

C:concentration

E:catalyst

B:flow rate

0 3 6 9 12 15
Efecto estandarizado

Figura 16-22. Gráfico de Pareto estandarizado para efectos removidos


Excepto para el efecto principal del factor B, todos los efectos restantes son estadísticamente
significativos. El modelo final se puede ver seleccionando Coeficientes de regresión en el cuadro de
diálogo Tablas:
Coef. de regresión para yield
Coeficiente Estimado
constante 250.074
A:temperature -1.0595
B:flow rate -17.4475
C:concentration 0.555417
E:catalyst 2.6175
AB 0.106625

El StatAdvisor
Esta ventana despliega la ecuación de regresión que se ha ajustado a los datos. La ecuación del modelo ajustado es

yield = 250.074 - 1.0595*temperature - 17.4475*flow rate + 0.555417*concentration + 2.6175*catalyst +


0.106625*temperature*flow rate
Figura16-23. Modelo de regresión ajustado para rendimiento

295/ Diseño de Experimentos


Tenga en cuenta que el modelo subyacente toma la forma de un modelo de regresión lineal
múltiple. Cada efecto principal retenido se incluye en el modelo por sí mismo, mientras que la
interacción de dos factores se representa mediante un producto cruzado de temperatura y tasa de
flujo.

Para comprender completamente el modelo ajustado, lo mejor es representarlo gráficamente.


Pueden crearse varios tipos de gráficos seleccionando gráficos de respuesta del cuadro de diálogo
Tablas y Gráficos. Por defecto, se muestra un gráfico de superficie entramado:

Superficie de Respuesta Estimada


concentration=6.5,agitation rate=137.5,catalyst=1.25

89

87

85
yield

83

81
12
79 11.6
11.2
150 10.8
155 160 165 10.4
170 175 180 10 flow rate
temperature

Figura 16-24. Gráfico de superficie de respuesta


En este gráfico, la altura de la superficie representa el valor pronosticado de rendimiento en el
espacio de temperatura y tasa de flujo, con los otros tres factores mantenidos constantes en sus
valores medios. Los rendimientos más altos se obtienen a temperatura y tasa de flujo altas.

El tipo de gráfico y los factores sobre los que se representa la respuesta pueden modificarse
utilizando Opciones de panel:
296/ Diseño de Experimentos
Figura 16-25. Opciones de panel para gráficos de respuesta
Los tipos de gráficos que pueden crearse son:

1. Superficie: gráficos que ajustan una ecuación como una superficie 3-D con respecto a
cualquiera de los dos factores experimentales. La superficie puede estar entramada, tener
color sólido, o mostrar niveles de contorno para las respuestas. Contornos inferiores incluye
contornos en la cara inferior del gráfico.

2. Contorno: crea un gráfico de contorno 2-D con respecto cualquiera de los dos factores
experimentales. Los contornos pueden mostrarse como líneas, como en un mapa
topográfico, como regiones pintadas, o usando una rampa de color continuo.

3. Cuadrado: grafica la región experimental para cualesquiera dos factores experimentales y


muestra la respuesta pronosticada en cada esquina del cuadrado.

297/ Diseño de Experimentos


4. Cubo: grafica la región experimental para 3 factores experimentales y muestra la respuesta
pronosticada en cada esquina del cubo. Para crear este gráfico, primero debe presionar el
botón Factores y seleccionar un tercer factor.

5. Contornos 3-D: dibuja contornos para la respuesta con respecto a 3 factores


experimentales simultáneamente.

6. Malla 3-D: crea un gráfico de mallas mostrando el valor de la variable respuesta en una
región experimental tridimensional.

El botón Factores se usa para seleccionar los factores que definen los ejes de los gráficos y los
valores a los que se mantendrán otros factores:

Figura 16-26. Cuadro de diálogo de opciones de factor en gráficos de respuesta

298/ Diseño de Experimentos


Para crear el gráfico siguiente, el campo Contornos ha sido configurado como Pintado, el campo
Superficie como Sólido con Contornos inferiores y los contornos han sido escalados para que oscilen
entre 81 y 86 con paso 1:

Superficie de Respuesta Estimada


concentration=6.5,agitation rate=137.5,catalyst=1.25

yield
81.0
82.0
83.0
89 84.0
85.0
87 86.0
85
yield

83

81
12
79 11.6
11.2
150 10.8
155 160 165 10.4
170 175 180 10 flow rate
temperature

Figura 16-27. Gráfico de superficie de respuesta con contornos inferiores


El mismo gráfico puede mostrarse como un gráfico de contorno en lugar de un gráfico de
superficie:

299/ Diseño de Experimentos


Contornos de la Superficie de Respuesta Estimada
concentration=6.5,agitation rate=137.5,catalyst=1.25

12 yield
81.0
82.0
11.6 83.0
84.0
85.0
flow rate

11.2 86.0

10.8

10.4

10
150 155 160 165 170 175 180
temperature

Figura 16-28. Gráfico de contorno de superficie de respuesta para Rendimiento


Se obtienen valores altos de rendimiento en la esquina superior derecha.

La segunda variable respuesta medida durante el experimento fue resistencia. La ventana de


análisis para Resistencia muestra el siguiente gráfico de Pareto:

300/ Diseño de Experimentos


Diagrama de Pareto Estandarizada para strength

D:agitation rate
+
A:temperature
-
B:flow rate
AD
CD+bloque
CE
BE
BD
DE
BC
AC
E:catalyst
C:concentration
AE
AB
0 30 60 90 120 150
Efecto estandarizado

Figura 16-29. Gráfico de Pareto estandarizado para Resistencia


Después de eliminar los efectos no significativos, el modelo ajustado es:

resistencia = -317.288 + 1.02083*temperatura - 1.3125*tasa de flujo + 3.005*tasa de agitación

Tenga en cuenta que la tasa de agitación impacta en resistencia, aunque no tenga un efecto
significativo en rendimiento. A continuación se muestra el gráfico de contorno para los dos
factores más fuertes:

301/ Diseño de Experimentos


Contornos de la Superficie de Respuesta Estimada
flow rate=11.0,concentration=6.5,catalyst=1.25

150 strength
190.0
202.0
145
214.0
226.0
agitation rate

140 238.0
250.0
262.0
135
274.0
286.0
130 298.0
310.0
125

120
150 155 160 165 170 175 180
temperature

Figura 16-30. Gráfico de contorno para las superficies de respuesta de resistencia

Paso 9: Optimizar respuestas


Después de haber construido modelos estadísticos para ambas respuestas, ahora se puede
determinar la configuración óptima de los factores. Recuerde que la finalidad del experimento
era maximizar rendimiento manteniendo resistencia tan cerca de 250 p.s.i. como sea posible. Si se
presiona el botón etiquetado paso 9, se muestra el siguiente cuadro de diálogo:

302/ Diseño de Experimentos


Figura 16-31. Cuadro de diálogo Optimización de Respuestas
Seleccione ambas respuestas para encontrar un conjunto de condiciones que ofrezca buenos
resultados para ambas variables. Presione Aceptar para mostrar un segundo cuadro de diálogo:

Figura 16-32. Recuadro Opciones de Optimización

Como el programa utiliza una búsqueda numérica para encontrar la mejor localización dentro de
la región experimental, es una buena idea comenzar la búsqueda desde varios puntos para evitar
encontrar un óptimo local.

Presione Aceptar para comenzar la búsqueda. Después de unos momentos, se mostrará el


siguiente mensaje:

303/ Diseño de Experimentos


Figura 16-33. Mensaje mostrado después de que la optimización ha sido completada
Al mismo tiempo, la siguiente salida se añadirá a la ventana principal del Asistente DOE:

Paso 9: Optimizar las respuestas


Valores de respuesta y Óptimo
Respuesta Optimizado Predicción Inferior 95.0% Limite Superior 95.0% Límite Deseabilidad
yield si 88.6736 78.5662 98.781 0.867359
strength si 250.0 212.559 287.441 0.999999
Deseabilidad optimizada = 0.948035

Factores establecidos y Óptimo


Factor Establecimiento
temperature 180.0
flow rate 12.0
concentration 8.0
agitation rate 132.874
catalyst 1.49999

Figura 16-34. Resumen de optimización añadido a la ventana principal del Asistente DOE
En los ajustes indicados de los factores, se estima que rendimiento será igual a 88.67 gramos
mientras resistencia será igual a 250 p.s.i. El rendimiento resultante tiene un cociente de
“deseabilidad” igual a 0.867, ya que es un 86.7% del intervalo especificado de 80 a 90 gramos.
Resistencia tiene un cociente de deseabilidad igual a 1, ya que está exactamente en el objetivo. La
deseabilidad general es igual a 0.948, que se calcula tomando la deseabilidad de cada respuesta,
elevándola a la potencia especificada por su impacto, multiplicando los resultados entre sí y luego
elevando el producto a una potencia igual a 1 dividida por la suma de los impactos. El resultado
es un número entre 0 y 1, con más peso en la respuesta con mayor impacto.

Si se presiona el botón Tablas y Gráficos en la barra de herramientas de análisis, puede crear dos
gráficos adicionales. El Gráfico de contorno revestido muestra los contornos de las dos variables
respuesta solapadas entre sí:

304/ Diseño de Experimentos


Gráfico Sobrepuesto
concentration=8.0,agitation rate=132.874,catalyst=1.49999

12 83.0
225.0 84.0 85.0 240.0
yield
88.0 strength
11.6
flow rate

11.2
87.0

10.8

86.0
10.4

10
150 155 160 165 170 175 180
temperature

Figura 16-35. Gráfico de contorno solapado para las dos respuestas


El punto óptimo se encuentra en la esquina superior derecha, donde rendimiento se maximiza a lo
largo de la línea de resistencia = 250. El Gráfico de deseabilidad se puede utilizar para mostrar la
deseabilidad total frente a dos o tres factores a la vez. Seleccionando un gráfico de malla 3-D se
crea el gráfico siguiente:

305/ Diseño de Experimentos


Grafico de deseabilidad
concentration=8.0,catalyst=1.49999

Deseabilidad
0.0
0.1
0.2
150 0.3
145 0.4
0.5
agitation rate

140 0.6
0.7
135 0.8
130 0.9
1.0
125
12
120 11.6
11.2
150 10.8
155 160 165 10.4
170 175 180 10 flow rate
temperature

Figura 16-35. Gráfico de malla 3-D para la deseabilidad total


La mejor ubicación se muestra en rojo, donde tanto temperatura como tasa de flujo son altas,
mientras tasa de agitación se mantiene en un valor medio.

306/ Diseño de Experimentos


Paso 10: Guardar resultados
Para guardar los resultados del análisis y la optimización, presione el botón etiquetado paso 10
para guardar los resultados en un StatFolio:

Figura 16-37. Cuadro de diálogo Guardar resultados

16.3 Experimentación posterior


Si se desea una experimentación posterior, STATGRAPHICS Centurion 18 puede ayudar bien
aumentando el diseño existente o generando puntos a lo largo del camino de ascenso más
pronunciado.

Paso 11: Aumentar diseño


Si presiona el botón etiquetado Paso 11, puede añadir ejecuciones adicionales al experimento
actual. Comienza presentando el cuadro de diálogo que se muestra a continuación:
307/ Diseño de Experimentos
Figura 16-38. Cuadro de diálogo aumentar diseño
Hay tres opciones disponibles:

1. Añadir réplicas: añade otras 20 ejecuciones al diseño idénticas a las primeras 20. Esto
permite añadir más grados de libertad para estimar el error experimental.

2. Colapso del diseño: elimina un factor experimental especificado del diseño y los análisis
resultantes.

3. Añadir una fracción: añade 20 ejecuciones más para hacer que el diseño sea un factorial
completo.

308/ Diseño de Experimentos


Paso 12: Extrapolar
Puede también generar puntos a lo largo del camino de paso ascendente en un intento de moverse
rápidamente a regiones de mayor rendimiento. En un punto específico en la región experimental
nos movemos en la dirección que presenta el mayor cambio en la respuesta estimada para los
cambios más pequeños en los factores experimentales. Seguir ese camino puede ser muy efectivo
para la obtención de mejoras importantes muy rápidamente.

Cuando se presiona el botón etiquetado Paso 12, se muestra el siguiente cuadro de diálogo:

Figura 16-39. Cuadro de diálogo Extrapolar


La configuración del anterior cuadro de diálogo indica al programa que comience en la derivada
óptima y permite que los 5 factores varíen entre los valores bajo y alto que duplican el ancho de la
309/ Diseño de Experimentos
región experimental en cada dimensión. Se le indica que muestre combinaciones de los factores
cuando la deseabilidad estimada cambie al menos 0.5%. Después de presionar Aceptar, se añade
la tabla siguiente a la ventana de análisis del Asistente DOE:

Paso 12: Extrapolar el modelo


Valores de respuesta extrapolados
Paso Deseabilidad yield strength
0 0.948022 88.6736 249.999
1 0.953451 88.8107 249.985
2 0.958935 88.9483 249.979
3 0.96487 89.094 250.012
4 0.97038 89.2326 250.01
5 0.975828 89.376 250.025
6 0.981255 89.519 250.035
7 0.987743 89.6839 250.023
8 0.993077 89.8332 250.051
9 0.99884 89.9783 249.972
10 0.999491 90.0045 249.959

Factores establecidos para la interpolación


paso temperature flow rate concentration agitation rate catalyst
0 180.0 12.0 8.0 132.874 1.49999
1 180.051 12.05 8.04282 132.874 1.5056
2 180.109 12.1 8.0836 132.874 1.51093
3 180.206 12.15 8.12264 132.874 1.51605
4 180.268 12.2 8.16179 132.874 1.52117
5 180.347 12.25 8.20118 132.874 1.52633
6 180.421 12.3 8.24027 132.874 1.53145
7 180.486 12.36 8.28549 132.874 1.53737
8 180.578 12.41 8.32475 132.874 1.5425
9 180.578 12.47 8.36554 132.874 1.54784
10 180.578 12.48 8.37467 132.874 1.54904
Figura 16-40. Resumen de extrapolación añadido a la ventana principal del Asistente DOE
Se estima que el rendimiento puede ser elevado a su valor objetivo de 90 gramos mientras se
mantiene una resistencia igual a 250 aumentando la temperatura a 180.6 grados, aumentando la
tasa de flujo a 12.48 litros por minuto, aumentando la concentración a 8.37% y aumentando el
catalizador a 1.55%. Como se trata de una extrapolación del modelo estadístico ajustado fuera de
la región experimental original, se deberían realizar ejecuciones confirmatorias para verificar este
resultado.

310/ Diseño de Experimentos


Tutorial #8: Visualizando Series
de Tiempo Multivariables
Visualización Dinámica usando un Statlet.

Cuando se recopilan datos a lo largo del tiempo, es importante poder visualizar cómo cambian los
datos a medida que evoluciona el tiempo. Añadiendo un componente dinámico a un gráfico ayuda al
analista a entender las relaciones presentes en los datos de tal forma que ninguna pantalla estática
puede lograrlo. Statgraphics Centurion incluye una colección de Statlets interactivos que pueden
revelar información que de otra forma podría permanecer oculta.

El archivo de datos worldbank.sgd contiene información económica y demográfica de 188 países


durante el periodo comprendido entre 1961 y 2010. De particular interés son las siguientes
variables:

 País – nombre de país.

 Código País – código de 3 letras por país.

 Año – año entre 1961 y 2010.

 Densidad Poblacional – densidad poblacional en personas por kilómetro cuadrado de


superficie.

 Ratio Dependencia de Edad– porcentaje de la población clasificada en edad laboral.

 Esperanza de Vida (Total) – esperanza de vida al nacer, en años.

 PIB por persona – Producto Interior Bruto por individuo.

311/ Visualizando Series de Tiempo Multivariables


 Tasa de Mortalidad Infantil – muertes por cada 1,000 nacimientos vivos.

17.1 Creando el Statlet


Para presentar los datos, seleccione Statlets – Visualizador Dinámico 3D en el menú principal.
Complete el cuadro de diálogo de entrada de datos como se muestra a continuación:

Figura 17-1. Cuadro de Captura del Visualizador Dinámico de 3D


Este Statlet crea un gráfico de burbujas de tres dimensiones. Las coordenadas de las burbujas
serán definidas por las variables X, Y, y Z. Rebanador es la columna cuyos valores serán usados
para establecer las diferentes vistas de los datos. El Identificador se usará para etiquetar las

312/ Visualizando Series de Tiempo Multivariables


burbujas. Tamaño y Color especifican las variables usadas para controlar los atributos de cada
burbuja.

Cuando se presiona el botón Aceptar, se abre una nueva ventana de análisis presentando los
datos para 1961:

Figura 17-2. Serie de Tiempo para Datos de 1961


La forma general del gráfico muestra una fuerte relación entre la esperanza de vida y el PIB per
cápita. Varios países tienen una tasa de mortalidad infantil muy altas, que también tienen un
bajo PIB y una menor esperanza de vida.

313/ Visualizando Series de Tiempo Multivariables


17.2 Modificando el Statlet
Seleccionando Opciones de Análisis se muestra el cuadro de diálogo siguiente:

Figura 17-3. Cuadro Opciones de Análisis para el Visualizador en 3D


Se pueden hacer varios cambios en la pantalla. Por ejemplo, cambiar la configuración de
Etiquetas a Todas las burbujas añade los códigos de país al gráfico:

314/ Visualizando Series de Tiempo Multivariables


Figura 17-4. Gráfica Modificado con los Códigos de País
Los controles localizados inmediatamente por encima del gráfico le permiten cambiar el año
para el cual se muestran los datos. Por ejemplo, moviendo el deslizador hacia el extremo
derecho, se muestran los datos de 2009 (el último año con datos para todas las variables):

315/ Visualizando Series de Tiempo Multivariables


Figura 17-5. Serie de Tiempo para datos del 2009
Tanto la Mortalidad Infantil como la esperanza de vida y el PIB han mejorado a lo largo de los
años.

316/ Visualizando Series de Tiempo Multivariables


17.3 Animación del Statlet

Presionando el botón , inicia la presentación de los datos en el gráfico para cada año,

empezando en 1961. Presionando hace que la presentación se realice de manera contínua


a lo largo de los años. Observando las burbujas moverse a través del tiempo, muestra cómo
han cambiado los datos, y arrojando una información que revelarían las pantallas estáticas.

317/ Visualizando Series de Tiempo Multivariables


Lecturas sugeridas
Los siguientes libros son fuentes de información excelentes acerca de las técnicas que se describen en
esta guía:

Basic statistics: Applied Statistics and Probability for Engineers, 5th edition, by Douglas C.
Montgomery and George C. Runger (2010). John Wiley and Sons, New York.

Analysis of variance: Applied Linear Statistical Models, 5th edition, by Michael H. Kutner,
Christopher J. Nachtsheim, and John Neter (2004). McGraw Hill.

Regression analysis: Applied Linear Regression, 3rd edition, by Sanford Weisberg (2005). John Wiley
and Sons, New York.

Statistical process control: Introduction to Statistical Quality Control, 7th edition, by Douglas C.
Montgomery (2012). John Wiley and Sons, New York.

Design of experiments: Statistics for Experimenters: Design, Innovation and Discovery, 2nd edition
by George E. P. Box, William G. Hunter, and J. Stuart Hunter (2005). John Wiley and Sons, New
York.

318/ Lecturas sugeridas


Conjuntos de datos
93cars.sgd

Esta información se descargó del Archivo de Datos de Journal of Statistical Education (JSE).
Fue compilado por Robin Lock del Mathematics Department de St. Lawrence University y se
usa con su permiso. Un artículo asociado a este conjunto de datos aparece en el Journal of
Statistics Education, Volume 1, Number 1 (July 1993).

bodytemp.sgd

Esta información también se descargó del Archivo de Datos del Journal of Statistical Education
(JSE). Fue compilado por Allen Shoemaker del Psychology Department en el Calvin College y se
usa con su permiso. Los datos fueron extraídos de un artículo del Journal of the American
Medical Association (1992, vol. 268, pp. 1578-1580) titulado "A Critical Appraisal of 98.6
Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl
Reinhold August Wunderlich" por P. A. Mackowiak, S. S. Wasserman, and M. M. Levine. Un
artículo asociado con este conjunto de datos aparece en el Journal of Statistics Education,
Volume 4, Number 2 (July 1996).

Journal of Statistical Education (JSE) Data Archive web site:

http://www.amstat.org/publications/jse/jse_data_archive.htm

319/ Conjuntos de Datos


Índice
ABS, 48 columna de datos
actualizar enlaces, 152 comentario, 17, 36
Actualizar fórmulas, 47 nombre, 17, 36
aleatorizar, 280 tipo, 17, 36
alisando un gráfico de dispersión, 108 Comparación de dos muestras, 185
análisis, 212 Comparación de varias muestras, 199
análisis de correlación, 214 Configurar impresión, 153
análisis de la capacidad, 253 Configurar página, 83
análisis de la regresión, 213 contrato de licencia, 4
análisis de la varianza, 203 COUNT, 57
Análisis de Pareto, 237 Cp, 270
Análisis de una variable, 21, 160, 254 Cpk, 268
AND, 67 cuartil, 163
animación, 317 curtosis, 163
animaciones, 80, 116 datos
ANOM, 212 accediendo, 38
ANOVA, 203 borrar, 43
archivos, 19 combinando columnas, 53
archivos de datos con patrones, 55
lectura, 39 copiar, 43
archivos HTML, 126 cortar, 43
ASCII, 40 generando, 55
asimetría, 163 hoja, 15
Asistente de diseño de experimentos, 273 insertar, 43
atípicos lejanos, 166 introduciendo, 15
aumentar diseño, 307 nuevas variables, 44
Autoguardar, 74, 152 pegar, 43
AVG, 48 recodificar, 248
barra de herramientas, 70 releerlo, 60
barra de herramientas de análisis, 25 transformaciones, 47
bondad de ajuste, 261 datos de atributos, 235
buscando los estadístico, 147 desviación típica, 163
Calculadora Seis Sigma, 271 diálogo de entrada de datos, 65, 70
camino de paso ascendente, 309 DIFF, 48
capacidad de un proceso, 253 digitos, 152
coeficientes de regresión, 295 dígitos significativos
320/ Índice
defecto, 151 gráfico ANOVA, 204
directorio de archivos gráfico cuantil-cuantil, 196
temporales, 153 gráfico de barras, 237, 245
diseños de, 278 gráfico de caja y bigotes, 25, 165, 189, 209
diseños de experimentos, 273 gráfico de capacidad, 258, 266
distribución mayor valor extremo, 262 gráfico de contorno, 297
distribución normal, 163, 259 gráfico de contorno revestido, 305
DPM, 264, 268 gráfico de cuantiles, 176, 194
eliminar efectos, 293 gráfico de efectos principales, 290
estudio de Medición R&R, 140 gráfico de interacción, 291
etiqueta de valores, 37 gráfico de malla, 306
Excel, 40, 41 gráfico de medias, 206
Excluir, 81 gráfico de mosaico, 245
EXP, 48 gráfico de Pareto, 289
Expresiones Boolenaos, 67 gráfico de Pareto estandarizado, 289
extrapolar, 309 gráfico de probabilidad, 266
FIRST, 67 gráfico de rascacielos, 246
fórmulas gráfico de sectores, 237
conversión a puntuaciones Z, 48 gráfico de superficie, 297
desviación típica, 48 gráfico de superficie, 297
diferencia hacia atrás, 48 gráfico de tolerancia, 183
función exponencial, 48 gráfico del cuadrado, 297
logaritmo en base 10, 48 gráfico del cubo, 297
logaritmo natural, 48 gráficos
máximo, 48 añadir objeto, 80
media, 48 anular atributos, 80
mínimo, 48 apariencia del defecto, 154
paso para k periodos, 48 escalado logarítmicas, 99
raiz cuadrada, 48 excluya los puntos, 81
valor absoluto value, 48 fondo, 88
FTP, 126 fuente de marca, 99
Generar Datos, 49, 56 graduaciones X, 80
grafica los residuos, 225 guardar en el archivo de imagen, 114, 116
gráfico modificando, 87
añadirse texto adicional, 101 panorámica o zoom, 114
botones, 80 rotar, 107
copiando, 112 rotar etiquetas de los ejes, 98
guardando en archivos de imagen, 113 tamaño fuente de texto, 80
identificando puntos, 109 títulos de los ejes, 98

321/ Índice
zoom a lo largo de ejes, 81 MAX, 48
gráficos de residuos, 210 máximo, 163
Gráficos de superficie y contorno, 231 media, 163
gráficos matriciales, 111, 216 mediana, 163
Guardar Resultados, 74 menú Seis Sigma, 151
heteroscedasticidad, 211 métodos del nonparametirc
histograma, 258 prueba de rangos con signos, 179
histograma de frecuencias, 171 prueba Friedman, 208
histograma dual de frecuencias, 188 prueba Kolmogorov-Smirnov, 195, 262
imprimiendo prueba Kruskal-Wallis, 208
análisis, 83 prueba Mann-Whitney (Wilcoxon), 193
cabecera, 84 MIN, 48
fondo, 84 mínimo, 163
márgenes, 84 modelo no lineal, 223
índices de capacidad, 268 Modificar Columna, 35
iniciar el programa, 7 muesca a la mediana, 166
instalación, 1 nivel de calidad Sigma, 270
intervalos bootstrap, 178 nivel de confianza
intervalos de confianza defecto, 151
deviación típica, 177 números aleatorios, 58
media, 177 ODBC, 42
mediana, 178 opciones de análisis, 68
intervalos HSD, 207 Opciones de panel, 27, 75
intervalos LSD, 206 Opciones Gráficas
K, 270 perfil, 154
Kolmogorov-Smirnov prueba, 262 Opciones Gráficas, 29
LAG, 48 diseño, 88
LAST, 67 Efectos 3D, 88
lecturas sugeridas, 318 ejes, 98
libro de datos, 15, 34 etiquetas y leyendas, 101
Límites de tolerancia, 181 líneas, 92
Límites estadísticos de tolerancia, 181 malla, 90
línea de regresión, 222 puntos, 94
LOG, 48 relleno, 100
LOG10, 48 título superior, 96
logfile, 26 opciones tabulares, 26
LOWESS, 108, 217 Opciones tabulares, 77
matriz de coeficientes de correlación, 218 operadores
matriz de correlación, 285 división, 48

322/ Índice
exponenciación, 48 comparando varias medianas, 208
multiplicación, 48 comparando varias muestras, 203
resta, 48 distribución normal, 261
suma, 48 media, 179
optimización, 302 mediana, 179
OR, 67 regresión, 221
Ordenar datos, 50 tabla de este tamaño, 248
ordenar nombres de variables, 152 valores atípicos, 169
orígenes de datos pruebas de múltiples rangos, 207
registro, 124 puntuación Z, 271
paneles, 69 P-valor, 169
parsimonia, 214 RANDOM, 67
percentiles, 177 R-cuadrado, 221, 223
POR variables, 146 Recodificar datos, 52
Preferencias, 122, 150, 156 recodificar los datos, 52
AED, 172 regla de Sturges, 173
Capacidad, 269 Regresión múltiple, 227
Estadísticas, 164 regresión paso a paso, 229
probabilidad acumulada, 176 Regresión Simple, 65, 219
promedio, 163 REP, 57
Propiedades del libro de datos, 60 resaltando un gráfico de dispersión, 105
prueba de rangos con signos, 179 RESHAPE, 58
prueba F, 191 residuos, 210, 225
prueba Friedman, 208 residuos estudentizados, 225
prueba Kolmogorov-Smirnov, 195 Resumen Estadístico, 24, 162, 187
prueba Kruskal-Wallis, 208 RNORMAL, 59
prueba Levene, 210 ROWS, 67
prueba Mann-Whitney (Wilcoxon), 193 SD, 48
prueba Shapiro-Wilks, 261 Seguimiento de auditoría, 33
prueba t, 179, 192 Seis Sigma, 253
pruebas de hipótesis seleccionando análisis, 142
coeficiente de correlación, 218 Seleccionar, 66
comparando desviaciones típicas, 191 separando un gráfico de dispersión, 103,
comparando distribuciones, 195 202
comparando medianas, 193 sgcinstall.exe, 1
comparando medias, 192 SQRT, 48
comparando proporciones, 252 STANDARDIZE, 48
comparando varias desviaciones típicas, StatAdvisor
210 defecto, 152

323/ Índice
StatFolios tabla ANOVA, 289
guardando, 119 tabla de doble entrada, 243
guardar, 31 tablas de contingencia, 251
publicando, 125 Tablas y Gráficas, 68
rutina de inicio, 121, 125, 152 Tablas y Gráficos, 72
StatGallery, 266 Tabulación, 236
configurando, 128 Tabulación cruzada, 241
copiando gráficos, 130 Tabulación de frecuencias, 175
imprimiendo, 134 test de Desviaciones extremas
modificando gráficos, 132 estudentizadas, 169
solapando gráficos, 131 test de Grubbs, 169
Statistics for Experimenters, 204 test de la chi-cuadrado, 248, 250
Statlets, 311 transformación Box-Cox, 265
StatLink, 60, 124 transformaciónes, 146
StatLog, 26, 32, 79 ubicación, 280
StatPublish, 125 valor estudentizado, 168
StatReporter, 135 valores atípicos, 167
copiando salidas a, 136 ventana de análisis, 23
guardando, 137 visualizador, 311
modificando, 137 visualizador 3D, 311
StatWizard, 138 XML, 40

324/ Índice

También podría gustarte