Statgrafhic Centurion
Statgrafhic Centurion
Statgrafhic Centurion
STATGRAPHICS Centurion 18
Manual de Usuario
STATGRAPHICS ® CENTURION 18
MANUAL DE USUARIO
Todos los derechos reservados. Ninguna parte de este documento puede ser reproducida, de
ninguna forma y por ningún medio, sin el consentimiento expreso y por escrito de Statgraphics
Technologies, Inc.
iv / Tabla de contenidos
6.3 Solapando gráficos........................................................................................................................ 131
6.4 Modificando un gráfico en StatGallery ..................................................................................... 132
6.4.1 Añadiendo objetos................................................................................................................. 132
6.4.2 Modificando objetos ............................................................................................................. 133
6.4.3 Borrando objetos ................................................................................................................... 133
6.5 Imprimiendo StatGallery ............................................................................................................. 134
Utilizando StatReporter.................................................................................................... 135
7.1 La ventana StatReporter .............................................................................................................. 135
7.2 Copiando Salidas a StatReporter ................................................................................................ 136
7.3 Modificando la salida de StatReporter ....................................................................................... 137
7.4 Guardando StatReporter ............................................................................................................. 137
Utilizando StatWizard ...................................................................................................... 138
8.1 Accediendo a Datos o Creando un nuevo estudio .................................................................. 139
8.2 Seleccionando análisis para sus datos ........................................................................................ 142
8.3 Buscando los estadísticos o test deseados................................................................................. 147
Preferencias del sistema ................................................................................................... 150
9.1 Comportamiento general del sistema ........................................................................................ 150
9.2 Imprimiendo.................................................................................................................................. 153
9.3 Gráficos.......................................................................................................................................... 154
9.4 Compartiendo Preferencias del Sistema .................................................................................... 156
Tutorial #1: Analizando una muestra simple................................................................... 158
10.1 Ejecutando el procedimiento Análisis de una variable ......................................................... 159
10.2 Resumen estadístico ................................................................................................................... 162
10.3 Gráfico de caja y bigotes ........................................................................................................... 165
10.4 Contrastando valores atípicos ................................................................................................... 167
10.5 Histograma .................................................................................................................................. 171
10.6 Gráficos de cuantiles y percentiles ........................................................................................... 176
10.7 Intervalos de confianza .............................................................................................................. 177
10.8 Contrastes de hipótesis .............................................................................................................. 179
10.9 Límites de tolerancia .................................................................................................................. 181
Tutorial #2: Comparando dos muestras .......................................................................... 185
11.1 Ejecutando el procedimiento Comparación de dos muestras ............................................. 185
11.2 Resúmen de Estadísticos ........................................................................................................... 187
11.3 Histograma dual .......................................................................................................................... 188
11.4 Gráfico dual de caja y bigotes ................................................................................................... 189
11.5 Comparando desviaciones típicas ............................................................................................ 191
11.6 Comparando medias .................................................................................................................. 192
11.7 Comparando medianas .............................................................................................................. 193
11.8 Gráfico de cuantiles ................................................................................................................... 194
v / Tabla de contenidos
11.9 Test de Kolmogorov-Smirnov para dos muestras................................................................. 195
11.10 Gráfico cuantil-cuantil ............................................................................................................. 196
Tutorial #3: Comparando más de dos muestras.............................................................. 198
12.1 Ejecutando el procedimiento comparación de varias muestras ........................................... 199
12.2 Análisis de la varianza ................................................................................................................ 203
12.3 Comparando medias .................................................................................................................. 206
12.4 Comparando Medianas .............................................................................................................. 208
12.5 Comparando desviaciones típicas ............................................................................................ 210
12.6 Gráficos de los residuos ............................................................................................................ 210
12.7 Análisis de gráficos de medias (ANOM)................................................................................. 212
Tutorial #4: análisis de la regresión ................................................................................. 213
13.1 Análisis de la correlación ........................................................................................................... 214
13.2 Regresión simple ......................................................................................................................... 219
13.3 Ajustando un modelo no lineal ................................................................................................ 223
13.4 Examinando los residuos .......................................................................................................... 225
13.5 Regresión múltiple ...................................................................................................................... 227
Tutorial #5: Analizando datos de atributos .................................................................... 235
14.1 Resumiendo datos de atributos ................................................................................................ 236
14.2 Análisis de Pareto ....................................................................................................................... 237
14.3 Tabulación cruzada .................................................................................................................... 241
14.4 Comparando dos o más muestras ............................................................................................ 248
14.5 Tablas de contingencia............................................................................................................... 251
Tutorial #6: Análisis de la capacidad de un proceso ...................................................... 253
15.1 Graficando los datos .................................................................................................................. 254
15.2 Procedimiento Análisis de la capacidad .................................................................................. 257
15.3 Tratando con datos no normales ............................................................................................. 261
15.4 Índices de capacidad .................................................................................................................. 268
15.5 Calculadora Seis Sigma .............................................................................................................. 271
Tutorial #7: Diseño de experimentos (DOE) ................................................................. 273
16.1 Creando un diseño ..................................................................................................................... 274
Paso 1: Definir respuestas .............................................................................................................. 275
Paso 2: Definir factores experimentales....................................................................................... 276
Paso 3: Seleccionar diseño ............................................................................................................. 277
Paso 4: Especificar el Modelo ....................................................................................................... 283
Paso 5: Seleccionando ejecuciones ............................................................................................... 285
Paso 6: Evaluar el diseño ............................................................................................................... 285
Paso 7: Guardar experimento ........................................................................................................ 286
16.2 Analizando los resultados .......................................................................................................... 287
Paso 8: Analizar datos..................................................................................................................... 288
vi / Tabla de contenidos
Paso 9: Optimizar respuestas ........................................................................................................ 302
Paso 10: Guardar resultados .......................................................................................................... 307
16.3 Experimentación posterior ....................................................................................................... 307
Paso 11: Aumentar diseño ............................................................................................................. 307
Paso 12: Extrapolar ......................................................................................................................... 309
Tutorial #8: Visualizando Series de Tiempo Multivariables ........................................... 311
17.1 Creando el Statlet........................................................................................................................ 312
17.2 Modificando el Statlet ................................................................................................................ 314
17.3 Animación del Statlet ................................................................................................................. 317
Lecturas sugeridas............................................................................................................ 318
Conjuntos de datos ........................................................................................................... 319
Índice ............................................................................................................................... 320
Los primeros nueve capítulos de este libro cubren el uso básico del programa. Aunque probablemente
deberá utilizar otro material adicional mientras usa el programa, la lectura de estos capítulos le ayudará
a introducirse rápidamente y le asegurará no fallar en las características más importantes.
Es recomendable que explore los tutoriales, ya que aportarán una buena idea de cómo
STATGRAPHICS Centurion 18 puede utilizarse de la mejor forma cuando se analizan datos reales.
NOTA: una copia de este manual en formato PDF se incluye con el programa y puede accederse a
ella mediante el menú Ayuda. En el documento PDF todos los gráficos están en color. Los archivos
de datos y StatFolios referenciados en el manual se aportan también con el programa.
viii / Introducción
1
Capítulo
Comenzando
Instalando STATGRAPHICS Centurion 18, ejecutando el programa y
creando un archivo de datos simple.
1.1 Instalación
STATGRAPHICS Centurion 18 se distribuye de dos formas: a través de Internet en un solo
archivo que se descarga a su ordenador, y como un conjunto de archivos en un CD-ROM. Para
ejecutar el programa, debe ser instalado previamente en el disco duro. Como en la mayoría de los
programas Windows, la instalación es extremadamente simple:
Paso 2: Se mostrarán sucesivos cuadros de diálogo. Si usted está ejecutando el programa desde
un CD, el primer cuadro de diálogo le pregunta por la especificación del idioma o idiomas que
van a ser instalados:
1/ Comenzando
Figura 1-1. Cuadro de diálogo de selección de idioma
Seleccione un idioma principal y uno o más idiomas adicionales. El idioma principal será
utilizado durante la instalación y también como el idioma por defecto cuando el programa se
ejecute por primera vez. Si instala idiomas adicionales, puede cambiar entre ellos desde el
programa seleccionado Editar – Preferencias en el menú principal.
2/ Comenzando
número de serie es “A”, debe instalar la edición 32-bit. Si la primera letra es “B”, puede
instalar cualquier edición.
3/ Comenzando
NOTA: Para poder instalar y activar STATGRAPHICS Centurion 18 debe tener
derechos de administrador en su ordenador. Por si lo necesita, el administrador del
sistema debe estar presente durante el proceso de instalación. Recomendamos
encarecidamente que el administrador esté presente durante el proceso de instalación y
activación del software.
4/ Comenzando
Paso 5: El siguiente recuadro se usa para que introduzca su nombre y organización:
5/ Comenzando
Paso 6: El siguiente cuadro de diálogo indica el directorio en el cual se instalará el programa:
El recuadro le permite a quién quiera que use su computadora a tener acceso al programa, o usted
puede limitar a que solo usted tenga acceso al mismo.
6/ Comenzando
Paso 7: Siga las instrucciones restantes para ejecutar la instalación. Cuando se termina la
instalación, se mostrará el cuadro de diálogo final:
Paso 1: haga clic en el acceso directo del escritorio, presione el botón Inicio de Windows situado
en la esquina inferior izquierda de su pantalla y haga clic en el icono de Statgraphics. También
puede seleccionar Archivos de programa – Statgraphics - STATGRAPHICS Centurion 18 utilizando el
explorador de Windows y haciendo clic en el icono de la aplicación sgwin para ejecutar el
programa.
Para iniciar un periodo de evaluación de 30 días, debe introducir un código de activación único
para su ordenador. Si ha pulsado el botón Evaluar, aparecerá el siguiente cuadro de diálogo:
8/ Comenzando
Figura 1-8. Cuadro de diálogo Activación del período de evaluación
Hay 2 pasos para el proceso de activación:
Notas:
9/ Comenzando
Figura 1-9.Cuadro de diálogo Activación manual del período de prueba
Presione el botón “Enviar e-mail” para enviar un correo electrónico con su información a
activate@statgraphics.com. Le enviaremos un código de activación por correo electrónico,
que debe copiar y pegar en el campo “Código de Evaluación” y luego presionar el botón
“Comenzar período de prueba”.
Si usted o su institución ha comprado una licencia de uso del programa, presione el botón
Activar . Aparecerá un cuadro de diálogo en el que debe introducir el número de serie que le han
dado:
10/ Comenzando
Si se introduce un número de serie válido, aparecerá un segundo cuadro de diálogo:
11/ Comenzando
Notas:
12/ Comenzando
Presione el botón “Enviar e-mail” para enviar un correo electrónico con su información a
activate@statgraphics.com. Le enviaremos un código de activación por correo electrónico,
que debe copiar y pegar en el campo “Código de activación” y luego presionar el botón
“Activar”.
13/ Comenzando
Figura 1-14. Ventana principal de STATGRAPHICS
Las secciones que siguen ilustran cómo se crean archivos de datos conteniendo información del
Censo de Estados Unidos de 2000.
14/ Comenzando
1.3 Introduciendo datos
Para analizar datos en STATGRAPHICS Centurion 18, es necesario situarse en el libro de datos de
STATGRAPHICS. El libro de datos está formado por hasta 26 hojas, indicadas por las letras
desde la A a la Z, que contienen un cuadro rectangular de filas y columnas:
Por ejemplo, supongamos que queremos utilizar STATGRAPHICS Centurion 18 para analizar
los datos del censo de Estados Unidos de 2000. A continuación se muestra una pequeña sección
de los resultados de este censo:
15/ Comenzando
Estado Población Edad media % Mujeres Ingresos per cápita
Alabama 4,447,100 35.8 51.7 $18,819
Alaska 626,932 32.4 48.3 $22,660
Arizona 5,130,632 34.2 50.1 $20,275
Arkansas 2,673,400 36.0 51.2 $16,904
California 33,871,648 33.3 50.2 $22,711
Colorado 4,301,261 34.3 49.6 $24,049
Figura 1-16. Datos del Censo de E.U.A. de 2000
Cuando introducimos los datos en una hoja de STATGRAPHICS Centurion 18, la información
referente a cada estado se situará en filas diferentes. Se crearán cinco columnas para situar los
nombres de los estados y el contenido de la información del censo.
Para introducir datos tales como los que se ven en la tabla anterior STATGRAPHICS Centurion
18 ofrece dos posibilidades:
2. Introducir los datos en otro programa como Excel y leerlos o copiarlos al libro de datos
de STATGRAPHICS Centurion 18.
En esta sección, tomaremos la primera opción. Para comenzar, haga doble clic en el
encabezamiento de la primera columna donde aparece el nombre Col_1. Esto mostrará un
cuadro de diálogo que puede utilizar para cambiar propiedades importantes para cada columna:
16/ Comenzando
Figura 1-17. Cuadro de diálogo utilizada para definir columnas
Cada columna en una hoja de STATGRAPHICS Centurion 18 tiene un nombre, comentario y
tipo asociados con ella:
17/ Comenzando
Después de la definición de cada columna, presione Aceptar. Se crean 5 columnas como se
muestra a continuación:
Figura 1-19. Hoja de datos de STATGRAPHICS Centurion 18 después de introducir 6 filas de datos
18/ Comenzando
Finalmente, necesitará guardar los datos en un archivo. Elija Archivo – Guardar – Guardar Datos
en el menú principal. Seleccionar un nombre de archivo en el cual se van a guardar los datos:
19/ Comenzando
Figura 1.21. Cuadro de diálogo Abrir origen de datos
La selección por defecto es correcta en este caso. A continuación, seleccione el nombre del
archivo que contiene los datos:
20/ Comenzando
Figura 1-23. Hoja mostrando el contenido del archivo Census2000.sgd
Comenzamos resumiendo la variabilidad en los ingresos per cápita a través de los estados. El
mayor procedimiento para resumir una columna simple de datos numéricos es Análisis de una
variable. Este procedimiento calcula resúmenes estadísticos tales como la media muestral y la
desviación típica. También crea varios gráficos, incluyendo el histograma y el gráfico de caja y
bigotes.
21/ Comenzando
La localización del procedimiento Análisis de una variable depende del menú que se esté
utilizando:
2. Menú Seis Sigma: Seleccione Analizar – Datos de variable – Análisis de una variable.
Como todos los procedimientos estadísticos, Análisis de una variable comienza mostrando los
datos en el cuadro de diálogo de entrada:
Cuando se pulse Aceptar, aparece el cuadro de diálogo Tablas y Gráficos. Este cuadro de diálogo muestra
las tablas y gráficos que son posibles en el procedimiento Análisis de una variable. Por ahora,
aceptaremos las características por defecto:
22/ Comenzando
Figura 1-25. Cuadro de diálogo Tablas y Gráficos
Cuando se presiona Aceptar otra vez, se creará una nueva ventana de análisis:
23/ Comenzando
Figura 1-27. Panel de estadísticos resumen maximizado
En la tabla se ofrecen varios estadísticos interesantes. Para los n = 51 estados más D.C., los
ingresos per cápita varían en los márgenes $15,853 a $28,766. Los ingresos medios per cápita son
$20,934.50.
Debajo de la tabla se encuentra la salida del StatAdvisor, que ofrece una interpretación corta de
los resultados. En este caso, el StatAdvisor se concentra en los dos estadísticos que miden la
asimetría y la curtosis en los datos. Como explica el StatAdvisor, los datos que provienen de una
distribución normal o Gaussiana deben tener la asimetría y curtosis estandarizadas entre –2 y +2.
En este caso, ambos estadísticos están dentro del rango, indicando un modelo de ajuste
razonable a la distribución normal para las observaciones, aunque la asimetría es muy cerrada
para ser estadísticamente significativa.
Haciendo doble clic otra vez en la tabla de resumen estadístico se restaurará la división original
de la salida. Un doble clic en el panel inferior derecho maximiza el gráfico de caja y bigotes:
24/ Comenzando
Figura 1-28. Panel Gráfico de caja y bigotes maximizado
El gráfico de caja y bigotes, inventado por John Tukey, aporta 5-números resumen de la muestra
de datos. La caja central cubre la mitad de los datos, extendiéndose desde el cuartil inferior hasta
el cuartil superior. Las líneas extendidas a izquierda y derecha de la caja (los bigotes) muestran la
localización del mayor y menor de los datos. La mediana de los datos está indicada por la línea
vertical en el interior de la caja, mientras que el signo (+) muestra la localización de la media
muestral. El hecho de que el bigote superior es algo más largo que el inferior, a la vez que la
media es algo mayor que la mediana, es indicativo de asimetría positiva en los datos.
25/ Comenzando
Los botones de la barra de herramientas de análisis son muy importantes. A continuación se
resumen las acciones de sus primeros ocho botones de la izquierda:
Nombre Función
Entrada de diálogo Muestra el cuadro de diálogo de entrada de datos que permite
cambiar las columnas de datos seleccionadas para el análisis.
Opciones de análisis Selecciona opciones que pueden ser aplicadas a todas las tablas
y gráficos en el análisis actual.
Tablas y Gráficos Muestra una lista de otras tablas y gráficos que pueden crearse.
Por ejemplo, si se presiona el botón Tablas y Gráficos , un cuadro de diálogo mostrará una lista
de otras opciones gráficas posibles en el procedimiento Análisis de una variable:
26/ Comenzando
Figura 1-31. Lista de opciones para Tablas y Gráficos
Marcando el cuadro relativo a Histograma de frecuencias y presionando Aceptar se añade un tercer
panel en el lado derecho de la ventana de análisis:
Figura 1-32. Ventana de Análisis de una variable con el Histograma de frecuencias añadido
Si hace doble clic en el histograma para maximizarlo y presiona el botón Opciones de panel, se
muestra un cuadro de diálogo con opciones específicas para el histograma:
27/ Comenzando
Figura 1-33. Cuadro de diálogo de Opciones de panel para el histograma de frecuencias
Utilizando este cuadro, pueden cambiarse el número de barras en el histograma, así como el
margen que cubre. Si Número de clases se sitúa en 15 y se presiona Aceptar, el histograma cambiará
para reflejar la nueva selección:
28/ Comenzando
Puede cambiar también el patrón de relleno, el color de las barras en el histograma presionando
el botón Opciones gráficas. Se muestra un cuadro de diálogo que permite cambiar la mayoría de las
características del gráfico. Si hace clic en la pestaña Relleno, se mostrará lo siguiente
29/ Comenzando
1.7 Difundiendo los resultados
Una vez que el análisis ha sido ejecutado, los resultados pueden ser difundidos por varios
caminos. Estos incluyen:
Acción Método
Imprimir la salida. Presione el botón de la impresora en
la barra de herramientas principal
para imprimir todas las tablas y
gráficos, o haga clic en un panel
simple con el botón derecho del
ratón y elija Imprimir en el menú
emergente resultante para imprimir
una tabla o gráfico simple.
Publicando la salida para mostrarla Seleccione StatPublish en el menú
en un navegador. Archivo. Se mostrará un cuadro de
diálogo para especificar la
localización de la salida HTML.
Copiar la salida en otra aplicación. Haga clic en la tabla o gráfico que va
a ser copiado y seleccione Copiar en
el menú Edición. Active otra
aplicación y seleccione Editar– Pegar.
Guardar los resultados en un Presione el botón derecho del ratón y
informe. seleccione Copiar análisis a
StatReporter. El StatReporter, descrito
en el capítulo 7, puede guardarse
como un archivo en formato RTF
que puede ser importado a
programas como Microsoft Word.
Guardar un gráfico en un archivo Maximice el gráfico a guardar y
imagen. seleccione Guardar gráfico en el menú
Archivo.
Figura 1-36. Métodos para difundir los resultados del análisis
Cada una de estas operaciones se describe en capítulos posteriores.
30/ Comenzando
1.8 Guardando su trabajo
Puede guardar los resultados de la sesión actual de STATGRAPHICS Centurion 18 seleccionando
Guardar StatFolio en el menú Archivo e introduciendo el nombre del archivo:
NOTA #1: Si los datos en los orígenes de datos cambian durante el tiempo que el StatFolio está
guardado y éste vuelve a leerse, los análisis cambiarán para reflejar los nuevos valores. Esto
aporta un método simple para ejecutar análisis que necesitan repetirse en un período
determinado sin tener que ser creados de nuevo.
NOTA #2: Los datos y el StatFolio usualmente se almacenan en diferentes archivos. Si necesita
mover un StatFolio de un ordenador a otro, esté seguro de mover también los archivos de datos.
NOTE #3: Si no se guardan los datos antes de guardar el StatFolio, se guardarán en el mismo
archivo del StatFolio.
31/ Comenzando
1.9 Usando el StatLog
STATGRAPHICS Centurion 18 integra una nueva sesión log que se usa para realizar el seguimiento
de un análisis desde que se abren los archivos hasta que se cierran. La salida generada por el análisis
estadístico también puede copiarse automáticamente al log si así lo desea.
El StatLog aparece en una ventana por separado que puede seleccionarse desde la barra de
navegación:
32/ Comenzando
Para cambiar la información guardada en el StatLog, seleccionar Editar – Preferencias del menú
principal. La pestaña General del recuadro de Preferencias contiene los botones circulares que
controlan qué se desea grabar en el StatLog:
33/ Comenzando
2
Capítulo
Administración de datos
Accediendo a datos de archivos y bases de datos, transformando valores de
datos y generando patrones de datos.
Para analizar datos en STATGRAPHICS Centurion 18, en primer lugar debe situar en memoria
el libro de datos. El libro de datos consiste en una ventana en forma de tabla formada por hasta
26 hojas. Una hoja es una matriz rectangular formada por filas y columnas. Cada columna en una
hoja representa una variable. Cada fila representa una observación o caso. Por ejemplo, la hoja
de datos que se presenta a continuación contiene información de un determinado número de
diferentes marcas y modelos de automóviles.
Para mostrar o cambiar las propiedades de una columna en la hoja, haga doble clic en el nombre
de la columna y se mostrará el cuadro de diálogo Modificar Columna:
Figura 2-2. Cuadro de diálogo utilizado para cambiar propiedades de las columnas
3. Tipo: el tipo de datos permitido para la columna. Se pueden especificar los siguientes
tipos:
Cuando se introducen datos en una hoja, tienen que ser conformes con el tipo de columna en la
cual se insertan. Por ejemplo, si se intenta introducir un nombre en una columna numérica
aparecerá un error. Cuando se introducen datos, su formato debe coincidir con las características
actuales de Windows. En particular, STATGRAPHICS Centurion 18 asume las características
actuales de Windows para:
Se puede encontrar más información acerca de las fórmulas en las columnas en una sección
posterior de este capítulo titulada Manipulando datos.
3. Emitir una consulta SQL para recuperar los datos de una base de datos: Si los
datos residen en una base de datos compatible ODBC, tal como Oracle o Microsoft
Access, pueden ser recuperados seleccionando Archivo – Abrir – Abrir origen de datos y
seleccionando entonces ya sea Consulta ODBC para usar el asistente o Consulta Manual
SQL para capturar una consulta predefinida.
2.2.2 Leyendo datos de un archivo Excel, ASCII, XML, u otro archivo externo
de datos
Para leer datos que han sido guardados en un archivo de datos creado por otra aplicación,
seleccione una de las hojas de datos en el Libro de Datos haciendo clic sobre su pestaña.
Entonces seleccione Archivo – Abrir – Abrir origen de datos y especifique Archivo de Datos Externo en
el cuadro de diálogo que se muestra a continuación:
2. Nombre de archivo – nombre del archivo que va a ser importado. Presione el botón
MOSTRAR para seleccionar el archivo deseado.
3. Hoja de cálculo – nombre de la hoja de cálculo a importar (si procede). Sólo puede ser
leída una hoja a la vez.
4. Anchuras de columnas – anchura de cada columna, separadas por comas (sólo para
archivos ASCII con formato).
6. Filas - el intervalo de filas con el que será leída la hoja de cálculo. Este intervalo incluye los
nombres de las variables, si están presentes.
7. Encabezado - información contenida en las dos primeras filas del intervalo especificado
(para hojas de cálculo de programas tales como Excel). Las dos primeras filas de los
datos se leerán como nombres de columna y/o comentarios. Si los nombres no están
contenidos en el archivo se generarán nombres por defecto.
Cuando se presione ACEPTAR, se leerán los datos del archivo externo en STATGRAPHICS
Centurion 18. Se escaneará cada columna y se le asignará un tipo de columna apropiado. Los
datos están listos para ser analizados.
Cuando se copian y pegan datos, los nombres de las columnas y los comentarios también
pueden ser transferidos. Incluir los nombres de columna y comentarios en Excel cuando se
copien los datos al portapapeles. En STATGRAPHICS Centurion 18, haga clic en la fila de la
cabecera de la hoja de datos de STATGRAPHICS Centurion 18 antes de seleccionar Pegar. La
información del principio del portapapeles se pegará entonces en la o las filas de la cabecera.
Se construye una consulta SQL y los resultados se situarán en la hoja de datos activa de
STATGRAPHICS Centurion 18. Se puede encontrar información detallada sobre la
construcción de consultas ODBC en el documento PDF titulado Archivos de datos y StatLink.
5. Los valores de los datos pueden ser grabados para formar grupos o por otras razones.
6. Los datos que se extienden a lo largo de múltiples columnas pueden ser recolocados en
una columna simple si se requiere para un procedimiento estadístico.
1. “Sobre la marcha” directamente con los campos de datos en las entradas de datos de los
cuadros de diálogo, sin guardar la variable en la hoja de datos.
2. Creando una nueva columna en una de las 26 hojas de datos en el libro de datos.
Por ejemplo, supongamos que deseamos información acerca de la ratio millas por galón
conduciendo en ciudad frente a millas por galón conduciendo en carretera para cada automóvil
de los 93 del archivo de datos. Este archivo contiene 2 columnas separadas, una llamada MPG
City y otra llamada MPG Highway. Para resumir la distribución de las ratios, puede seleccionar el
procedimiento Análisis de una variable y especificar la ratio directamente en el campo Datos del
cuadro de diálogo de entrada de datos:
Si lo desea, puede crear una nueva columna en la hoja de datos conteniendo los valores
transformados. Por ejemplo, puede volver a la ventana que contiene los datos de los 93coches y
hacer doble clic en la cabecera de la columna etiquetada Col_27. Puede utilizar el cuadro de
diálogo Modificar columna para definir una nueva variable de tipo fórmula con la transformación
deseada:
NOTA: El recálculo de columnas Fórmula no ocurre normalmente hasta que los datos
de estas columnas se necesiten para un cálculo o se guarden o impriman. Puede
especificar que ocurra inmediatamente un recálculo seleccionando Actualizar fórmulas en
el menú Edición.
Por ejemplo, supongamos que deseamos representar las millas por galón consumidas por un
automóvil frente al logaritmo natural del peso de los vehículos. Seleccionando el procedimiento
Gráfico X-Y del menú principal se muestra el siguiente cuadro de diálogo de entrada de datos:
El paréntesis es necesario para asegurar que las restas se hacen antes que la división. Las
expresiones no son sensibles a mayúsculas y la inclusión de espacios en blanco no es relevante.
Cada cuadro de diálogo de entrada de datos incluye un botón etiquetado Transformar. Este botón
puede utilizarse para ayudar a crear expresiones STATGRAPHICS Centurion, si no recuerda los
operadores a utilizar. Si sitúa el cursor en un campo de datos y presiona Transformar, se muestra
un cuadro de diálogo similar al siguiente:
4. Orden de columna – cuando se agrupan los datos por columnas (una columna
después de otra) o por filas.
5. Crear una columna con números de fila – cuando se crea una segunda columna
identificando la fila original que contiene cada valor de dato.
Cuando se presiona ACEPTAR, los datos se combinarán en una columna simple como se
muestra a continuación:
Para analizar los datos utilizando el procedimiento ANOVA Multifactorial, se necesita situarlos
en una hoja de datos con el formato siguiente:
Para crear tal fichero, la solución más fácil es a menudo teclear las dos primeras columnas. Sin
embargo, si las columnas siguen patrones simples, puede generarlas utilizando operadores
especiales de STATGRAPHICS Centurion. Por ejemplo, los números de la columna “blend”
pueden ser generados haciendo clic en la cabecera de la columna #1 y seleccionando Generar
Datos en el menú Edición. Se muestra el siguiente cuadro de diálogo, en el cual se ha introducido
una expresión:
REP(X, repeticiones) – repite cada valor en X repeticiones veces, en grupos. En este caso,
cada entero entre 1 y 4 se repite 3 veces.
Los números de tratamiento pueden ser generados de una forma similar haciendo clic en la
cabecera de la columna #2, seleccionando Generar Datos del menú Edición e introduciendo lo
siguiente:
RESHAPE(X, tamaño) – repite los valores en X en forma circular hasta que tamaño
valores han sido generados. En este caso, la secuencia 1, 2, 3 se repite 4 veces.
Estos generadores de patrones pueden ayudar cuando los archivos de datos son muy grandes.
Presionar Aceptar para generar los números aleatorios y situarlos en la columna seleccionada.
Luego produce un resumen del número de valores únicos y no perdidos y los valores mínimos y
máximos de cualquier variable seleccionada:
1. Cuando se selecciona un análisis del menú, se muestra su cuadro de diálogo de entrada de datos. Los
campos en este cuadro de diálogo se utilizan para especificar las variables que van a ser
analizadas.
3. Si el procedimiento seleccionado tiene más de una tabla simple y más de un gráfico simple, se
muestra el cuadro de diálogo Tablas y Gráficos en el cual se puede seleccionar la salida deseada.
4. Se leen y analizan los datos especificados, y se crea una nueva ventana de análisis.
5. Las opciones seleccionadas pueden cambiarse utilizando el botón Opciones de análisis de la barra
de herramientas de análisis y se podrán actualizar todas las tablas y gráficos de la ventana de
análisis.
6. Si lo desea, pueden requerirse tablas y gráficos adicionales con el botón Tablas y Gráficos de la
barra de herramientas de análisis.
8. Para gráficos, el título por defecto, escala, tipos de puntos, fuentes, etc. pueden cambiarse
haciendo doble clic en el gráfico para maximizarlo seleccionando Opciones gráficas en la barra de
herramientas de análisis.
9. Las tablas y gráficos pueden imprimirse, publicarse como archivos HTML, copiarse a otras
aplicaciones tales como Microsoft PowerPoint, o guardarse en StatReporter.
10. Los resultados numéricos pueden guardarse en columnas de una hoja de datos utilizando el
botón Guardar resultados en la barra de herramientas de análisis.
11. El análisis completo puede ser guardado en disco como un StatFolio para recuperarlo después.
En este capítulo se describe en detalle un análisis típico. La finalidad del análisis es construir un
modelo estadístico que explique las millas por galón recorridas en ciudad para n = 93 automóviles del
archivo 93cars.sgd en función de su peso. A continuación se muestra un gráfico de dispersión de los
datos:
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Figura 3-1. Gráfico X-Y de las millas por galón conduciendo en ciudad contra el peso en Weight en libras
Y=a+bX
Y = exp(a + b X)
En los campos de entrada de datos, puede introducir el nombre de la columna como MPG City o una
expresión de STATGRAPHICS Centurion como LOG(MPG City). Si hay más de una hoja de datos
que contenga una columna con un mismo nombre, será necesario indicar la hoja de datos deseada
para trabajar. Por ejemplo, si las hojas de datos A y B contienen una columna de nombre Weight y se
quiere utilizar la columna en la hoja de datos A, se debe introducir su nombre como A.Weight.
El campo Seleccionar puede utilizarse para seleccionar un subconjunto de filas en la hoja de datos. Por
ejemplo, si se introduce una sentencia tal como FIRST(50) en este campo, sólo se utilizarán las
primeras 50 filas de la hoja de datos. Entradas típicas en el campo Seleccionar son:
Cada una de las entradas permitidas en el campo Seleccionar generan una secuencia de ceros y unos
Booleanos, dónde cero representa FALSO y uno representa VERDADERO. Cuando utilizamos el
campo Seleccionar del cuadro de diálogo de entrada de datos, el resultado es la selección de todas las
filas para las cuales la condición es VERDADERA y la exclusión de todas las filas para las cuales la
condición es FALSA.
1. El recuadro Opciones de Análisis, que selecciona opciones básicas para el análisis. Para Regresión
Simple, el recuadro de Opciones de Análisis define el tipo de modelo a ser ajustado y el método
para estimar los coeficientes desconocidos del modelo:
Puede maximizar la tabla o gráfico en un panel haciendo doble clic sobre él, en cuyo caso ocupará
toda la ventana:
Cuando se ha elegido una ventana de análisis, se activa directamente una segunda barra de
herramientas bajo la barra de herramientas principal de STATGRAPHICS Centurion 18. La barra de
herramientas de análisis se muestra a continuación:
Cada uno de los botones en esta barra de herramientas ejecuta una operación importante.
Figura 3-8. Recuadro Opciones de Análisis Regresión Simple seleccionando un Modelo No lineal
Si examina la salida de la figura 3-11, puede observar en la tabla de modelos alternativos que
varios modelos curvilíneos tienen un valor de R-cuadrado más alto que en el modelo lineal. Al
principio de la lista está el modelo Curva-S. Si se selecciona este modelo en el cuadro de diálogo
Opciones de análisis y se presiona ACEPTAR, cambiará el análisis completo para reflejar el nuevo
modelo. Como podemos ver examinando el gráfico del modelo ajustado, una curva S captura la
curvatura en los datos:
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Figura 3-13. Cuadro de diálogo Opciones de panel para el gráfico del modelo ajustado
Por ejemplo, quitando las marcas correspondientes a los límites de confianza y presionando Aceptar
se redibujará el gráfico sin los límites interiores:
Ancho máximo del desplegado: el ancho máximo en cm. de las tablas y otros textos.
Tablas que excedan el ancho establecido se mostrarán en secciones múltiples.
Título coloreado: determina el color usado para resaltar el título del análisis (si hay uno).
Etiquetas de las Filas: columna de datos que debería usarse para agregar etiquetas a las
tablas que listan a su salida, fila por fila.
Substituir números de filas: en caso de que los números de filas en la tabla deban
reemplazarse por las etiquetas descritas anteriormente. Si no se marcada, las etiquetas
especificadas se agregarán a la tabla junto con los números de filas.
Nivel Alfa P-Valor: nivel alfa usado por el StatAdvisor en su interpretación del
resultado estadístico. En el caso de una prueba de hipótesis, corresponde al nivel de
significación de la prueba.
Tablas – Dividir tablas anchas: en caso de que las tablas excedan el ancho máximo
especificado, se dividirán en varias secciones.
Tablas – No. Max. de filas: el número máximo de filas a mostrar en las tablas.
Tablas – Reducir fuente: la cantidad con la que se reducirá el tamaño de fuente con
relación al tamaño normal del texto.
La configuración establecida en este recuadro anula los parámetros establecidos por el sistema
originalmente, pero exclusivamente para la tabla maximizada actual. Cambios generalizados en
los parámetros del Sistema deben modificarse seleccionando la opción Editar – Preferencias desde
el menú principal.
Separar – se utiliza para separar puntos en dirección horizontal o vertical, para prevenir su
solapamiento.
Pincel – puntos de colores en un diagrama de dispersión de acuerdo con los valores de una
variable seleccionada.
Grabar video – graba como video cualquier interacción del usuario con el gráfico.
Identificar– muestra la etiqueta identificativa de un punto cuando se hace clic en él con el ratón.
Anular atributos – anula el color y el tipo de relleno del objeto gráfico presente, incluyendo puntos,
líneas y barras. Este botón está activo solamente si se ha marcado un objeto pulsando clic izquierdo
sobre el mismo.
Tamaño fuente de texto – usado para aumentar o reducir el tamaño de todo el texto en
una gráfica.
Localizar por fila – resalta los puntos correspondientes al número de fila introducido en el campo
Fila.
Pueden excluirse múltiples puntos de un modelo haciendo clic en ellos de uno en uno y
presionando el botón Excluir. Haciendo clic en un punto que ha sido removido se reintegrará en
el modelo.
1. Para imprimir todas las tablas y gráficos de la ventana de análisis, presione el botón
Imprimir en la barra de herramientas de análisis o seleccione Imprimir en el menú Archivo.
2. Para imprimir una tabla o gráfico simples, haga clic en su panel con el botón derecho del
ratón y seleccione Imprimir en el menú emergente resultante.
Las opciones adicionales utilizadas para imprimir se encuentran en el cuadro de diálogo al que se
puede acceder seleccionando Configurar página en el menú archivo:
3. Indicar cuándo debe mostrarse cada panel (tabla o gráfico) en una página separada, o
cuando deben situarse en una página múltiples paneles si se ajustan.
7. Graficar líneas anchas usando 2 píxeles en lugar de 1. Esta última opción puede hacer
aparecer los gráficos mejor marcados en una impresora de alta resolución.
También puede copiar el análisis a StatReporter, que le permite anotar la salida y guardarla en un
archivo RTF (formato de texto enriquecido), que puede leerse directamente en programas como
Microsoft Word. El uso de StatReporter se describe en el capítulo 6.
Gráficos
Modificando gráficos, guardando perfiles gráficos, interactuando con gráficos,
guardando gráficos en archivos imagen y copiando gráficos a otras aplicaciones.
Juntos, los 220 procedimientos estadísticos de STATGRAPHICS Centurion 18 crean cientos de tipos
de gráficos diferentes. Para facilitar el proceso de análisis de datos, los títulos por defecto, escalado y
otros atributos se seleccionan en cualquier momento cuando se crea un nuevo gráfico. Para fines de
análisis, suelen ser suficientes las opciones por defecto. Pero cuando llega el momento de publicar los
resultados finales, es importante crear un gráfico con calidad de publicación.
Este capítulo describe todo lo que necesita conocer para trabajar con gráficos en STATGRAPHICS
Centurion 18. Se muestra cómo preparar los gráficos para una publicación y cómo copiarlos en
aplicaciones como Microsoft Word y PowerPoint. También muestra cómo interactuar con gráficos.
Por ejemplo, es posible que observe un punto interesante y desee saber más al respecto. O bien,
puede girar un gráfico en 3D para obtener una idea de cualquier relación entre las variables
proyectadas sobre los ejes X, Y y Z.
Como ejemplo, consideramos otra vez los datos del archivo 93cars.sgd. Para comenzar, el gráfico del
modelo ajustado relaciona millas por galón en ciudad y el peso de los vehículos y nos servirá para
ilustrar algunas de las operaciones más importantes con gráficos.
86/ Gráficos
4.1 Modificando gráficos
El procedimiento Regresión simple se utiliza habitualmente para ajustar curvas relacionando una variable
respuesta Y con una segunda variable explicatoria X. Como se ilustra posteriormente en este capítulo,
un modelo en curva S proporciona un buen ajuste a la relación entre la columna MPG City y la
columna Weight en el archivo 93cars.sf6.
La primera vez que se crea, se obtiene un gráfico del modelo en Curva S como se muestra a
continuación:
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Figura 4-1. Gráfico del modelo ajustado con título y escalado por defecto
Los títulos, escalado, puntos, tipos de línea, colores y otros atributos gráficos se generarán
automáticamente.
87/ Gráficos
4.1.1 Opciones de trazado
Para modificar un gráfico una vez creado, primero haga doble clic sobre él para que ocupe la
ventana de análisis. Haga clic en el botón Opciones gráficas localizado en la barra de
herramientas de análisis. Se mostrará un cuadro de diálogo con varias pestañas correspondientes
a diferentes elementos gráficos.
La pestaña Diseño del cuadro de diálogo Opciones gráficas se utiliza para cambiar algunas de las
características básicas del gráfico:
88/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Figura 4-3. Gráfico después de modificar el color del fondo y seleccionar efectos 3D
89/ Gráficos
4.1.2 Opciones de rejilla (malla)
La pestaña Malla se utiliza para añadir una rejilla al gráfico:
90/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
91/ Gráficos
4.1.3 Opciones de líneas
La pestaña Líneas se utiliza para especificar el tipo, color y grosor de las líneas de un gráfico:
92/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
93/ Gráficos
4.1.4 Opciones de puntos
La pestaña Puntos se utiliza para especificar el tipo, color y tamaño de los puntos en un gráfico:
94/ Gráficos
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
95/ Gráficos
4.1.5 Opciones del título superior
La pestaña Título superior se utiliza para especificar el tipo de texto y fuente para la información
mostrada en la parte superior del gráfico:
96/ Gráficos
S-Curve Modelo de 93cars Archivo
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
97/ Gráficos
4.1.6 Opciones de escalado de ejes
El cuadro de diálogo Opciones gráficas contiene pestañas que permiten modificar los títulos de los ejes y
su escala:
2. Desde, Hasta, Por y Omitir: conjunto de marcas de escalado. El valor de Omitir se utiliza para
prevenir que se muestren ciertas marcas solapándose unas con otras. Por ejemplo, un valor de
1 en el campo Omitir mostrará un salto en cada marca.
4. Sin Potencias: suprime mostrar números grandes y pequeños utilizando etiquetas como (X
1000).
98/ Gráficos
5. Escalado: dibuja los ejes utilizando escala aritmética o dos escalas logarítmicas en base 10
diferentes.
6. Cuando cambian los datos: especifica cuándo será constante el escalado o cambiará cuando se
grafiquen nuevos datos.
7. Fuente de marcas: presiona este botón para cambiar el color, tamaño o estilo del título y marcas.
8. Marcas inversas: invierte la escala de los ejes de tal manera que el valor máximo se posiciona a la
izquierda y el valor mínimo a la derecha.
La salida generada por el cuadro de diálogo anterior realiza los cambios que se muestran a
continuación:
55
45
MPG City
35
25
15
1500 2000 2500 3000 3500 4000 4500
Weight
Figura 4-13. Gráfico después de modificar los títulos de los ejes y escalado
99/ Gráficos
4.1.7 Opciones de relleno
Algunos gráficos, tales como los histogramas, contienen áreas sólidas. La pestaña Relleno en el cuadro
de diálogo Opciones gráficas controla el color y tipo de relleno de barras, polígonos y trozos de los
sectores:
Para gráficos tales como histogramas, configurar el tipo de relleno como “no sólido” es una buena
idea cuando se imprimen los resultados en blanco y negro:
100/ Gráficos
Histograma
12
10
8
frecuencia
0
1500 2000 2500 3000 3500 4000 4500
Weight
101/ Gráficos
Figura 4-16. Cuadro de diálogo para añadir Nuevo texto
La cadena de texto se posicionará inicialmente bajo el título superior, sin embargo, puede arrastrarse
con el ratón a cualquier otra localización:
55
45
<- outlier
MPG City
35
25
15
1500 2000 2500 3000 3500 4000 4500
Weight
102/ Gráficos
4.2 Separando un gráfico de dispersión
Cuando una o ambas de las variables de un gráfico de dispersión son discretas, puede haber
muchos puntos coincidentes prácticamente en la misma posición que oscurecen el gráfico. La
barra de herramientas tiene el botón Separar que soluciona este problema excluyendo
aleatoriamente puntos en la dirección de los ejes horizontal y vertical. Por ejemplo, considerar el
siguiente gráfico con los datos del archivo 93cars.sgd:
55
45
MPG City
35
25
15
3 4 5 6 7 8
Cylinders
Si se presiona el botón Separar aparece el cuadro de diálogo siguiente para añadir una pequeña
separación (aleatoriamente) en los puntos:
103/ Gráficos
Figura 4-19. Cuadro de diálogo de Separación
En este caso, añadiendo una pequeña cantidad de separación horizontal se ve mejor el gráfico y
la localización de los puntos:
55
45
MPG City
35
25
15
2 3 4 5 6 7 8 9
Cylinders
104/ Gráficos
4.3 Cepillando un gráfico de dispersión
Un método interesante de visualización de relaciones entre variables consiste en colorear los
puntos del gráfico de dispersión según los valores de otra variable. Por ejemplo, considerar el
siguiente Gráfico de Matriz para variables del archivo 93cars.sgd:
MPG City
MPG Highway
Length
Weight
Width
Supongamos que queremos visualizar cómo está relacionada la potencia de los automóviles con
las 5 variables representadas. Si presiona el botón Pincel en la barra de herramientas de
análisis, se mostrará el cuadro de diálogo siguiente:
105/ Gráficos
Figura 4-22. Cuadro de diálogo para seleccionar la variable de resaltado
Seleccione una variable cuantitativa para utilizar el código de puntos de resaltado. Después de la
selección de la variable de resaltado, aparecerá un cuadro de diálogo flotante:
Figura 4-23. Cuadro de diálogo flotante para la selección del intervalo de resaltado
Las dos barras deslizantes se utilizan para especificar los límites inferior y superior para la
variable de resaltado. Todos los puntos en el gráfico serán coloreados de rojo si caen en el
intervalo especificado. Por ejemplo, en el gráfico siguiente, todos los automóviles con potencia
entre 55.0 y 121.15 se colorean de rojo:
106/ Gráficos
MPG City
MPG Highway
Length
Weight
Width
107/ Gráficos
Figura 4-25. Cuadro de diálogo Suavizado gráfico de dispersión
El suavizado de un gráfico de dispersión se realiza seleccionando un conjunto de localizaciones a
lo largo del eje X graficando cada localización como una media ponderada de la fracción
especificada de los puntos más cercanos localización. Uno de los mejores métodos de suavizado
es el llamado LOWESS (LOcally WEighted Scatterplot Smoothing), usualmente con una
fracción de suavizado entre el 40% y el 60%. A continuación se muestra el resultado del
suavizado del gráfico de matriz de los datos de automóviles:
MPG City
MPG Highway
Length
Weight
Width
Figura 4-26. Suavizado del gráfico de matriz utilizando fracción de suavizado inferior al 50%
108/ Gráficos
El suavizado ayuda a ilustrar el tipo de relación entre las variables.
Figura 4-28. Barra de herramientas de análisis mostrando número de fila del punto seleccionado
Puede obtenerse información adicional acerca del punto presionando el botón Identificar y
seleccionando una columna del libro de datos:
109/ Gráficos
Figura 4-29. Cuadro de diálogo de Identificación de puntos
Después de seleccionar una variable, haciendo clic en un punto se añadirá el valor
correspondiente de la variable al campo etiquetado Etiqueta de la barra de herramientas de
análisis:
El botón de los binoculares situado a la derecha de Etiqueta y Fila se puede utilizar para
localizar puntos en un gráfico. Si introduce un valor en cualquier campo al lado del binocular y
hace clic sobre el citado binocular, se iluminarán todos los puntos del gráfico coincidentes con el
valor introducido en el campo. Por ejemplo, el gráfico siguiente colorea de rojo todos los puntos
correspondientes a la marca de automóvil Honda:
110/ Gráficos
S-Curve Modelo de 93cars Archivo
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
<- outlier
MPG City
35
25
15
1500 2000 2500 3000 3500 4000 4500
Weight
111/ Gráficos
MPG City
MPG Highway
Length
Weight
Width
NOTA: el color utilizado para iluminar los puntos se especifica en la pestaña Gráficos del
cuadro de diálogo Preferencias, accesible en el menú Edición.
112/ Gráficos
Por defecto, los gráficos se pegan en formato “Picture”, correspondiente a Windows metafile.
En raros casos se realiza el pegado en otro formato. Se puede seleccionar Pegado especial en lugar
de Pegar.
Para copiar un análisis completo en otra aplicación, incluyendo todas las tablas y gráficos,
primero se copia el análisis a StatReporter utilizando el menú emergente del botón derecho del
ratón, y después se copia desde StatReporter a la otra aplicación. Esta técnica se ilustra en el
capítulo 7.
Para copiar tanto el gráfico como su ventana adjunta, como en la figura 4-31, se recomienda
utilizar una herramienta externa de captura de pantalla. Para realizar este manual, se ha utilizado
un programa llamado SnagIt, disponible en la dirección www.techsmith.com. Si usa SnagIt, le
recomendamos que configure la opción Entrada en “Ventana” y la opción Salida en
“Portapapeles”. Entonces podrá pegar imágenes directamente en cualquier documento.
Figura 4-33. Cuadro de diálogo de selección de archivo para guardar gráficos en archivo imagen
113/ Gráficos
Para guardar gráficos que se leerán en Word o PowerPoint, debe utilizarse el formato Windows
metafile que ofrece la mayor flexibilidad. Si el gráfico debe mostrarse en una página Web, se
recomienda guardarlo en formato JPEG.
Método 1: Haga clic en el botón derecho del ratón para mostrar un menú emergente.
Seleccione Acercarse en el menú emergente. Mueva el cursor del ratón hacia la esquina
superior izquierda de la región del gráfico que desea ampliar. Presione el botón izquierdo del
ratón y manténgalo presionado mientras arrastra el cursor hasta la esquina inferior derecha de
la región que desea ampliar. Esto mostrará una banda rectangular elástica como se muestra a
continuación:
Cuando suelte el botón del ratón, se redibujará la gráfica presentando solamente la región
seleccionada.
114/ Gráficos
Método 2: Coloque el cursor del ratón en la posición del gráfico sobre el que desea hacer
zoom y mueva la rueda del ratón. Esto acercará o alejará la posición actual del cursor.
Use las barras deslizantes en el cuadro de diálogo para expandir el gráfico a lo largo de
cualquiera de los ejes. Use las barras de desplazamiento para moverse de un lado a otro.
115/ Gráficos
Método 4: Presione cualquiera de los botones cerca del extremo derecho de la barra de
herramientas de análisis:
Esto expandirá el gráfico alrededor de su centro a lo largo del eje indicado. También
mostrará las barras de desplazamiento.
Para crear un video, primero maximice el panel que contenga el gráfico que se va a grabar. Luego
presione el botón Grabar Video en la barra de herramientas de análisis. Se presentará el cuadro de
diálogo mostrado a continuación:
116/ Gráficos
Antes de grabar el gráfico, presione el botón Comprimir y seleccione el método a usar para
comprimir el archivo del video:
117/ Gráficos
Figura 4-39. Cuadro de Preferencias para definir Cuadros x Segundo y Duración Máxima de los Videos
118/ Gráficos
5
Capítulo
StatFolios
Guardando su sesión, publicando resultados en formato HTML y
automatizando el análisis utilizando código.
Cada vez que selecciona un análisis estadístico del menú de STATGRAPHICS Centurion 18, se
crea una nueva ventana de análisis. Puede guardar todas las ventanas de análisis en cualquier
momento creando un StatFolio. Un StatFolio es un archivo que contiene la definición de todos
los análisis estadísticos que han sido creados, con indicadores a los datos utilizados. Guardando
un StatFolio y reabriéndolo posteriormente, efectivamente se guarda y se recupera la sesión
actual de STATGRAPHICS Centurion 18.
Cuando se guarda una sesión en un StatFolio, lo que se guarda es la definición de los análisis, no
la salida. Cuando se vuelve a abrir un StatFolio, se vuelven a leer los datos de fuentes de datos
asociadas y todos los análisis se vuelven a calcular. Los StatFolios constituyen un método simple
para repetir análisis posteriormente con diferentes datos.
También puede crear un código que se ejecuta cuando se carga un StatFolio. En este capítulo se
describen los detalles de esta y otras características del StatFolio.
119/ StatFolios
Figura 5-1. Cuadro de diálogo de selección de archivo para guardar StatFolio
Los StatFolios se guardan en archivos con extensión .sgp. Contienen:
1. Una definición de todos los análisis que se han creado, incluyendo las variables de
entrada, las tablas y gráficos, configuraciones de todas las opciones, cambios realizados
en los gráficos, etc. Cuando se vuelve a abrir un StatFolio, los análisis se recalculan y se
reactualizan todas las tablas y gráficos.
2. Enlaces a las fuentes de datos contenidas en el libro de datos, que son habitualmente
archivos o bases de datos separadas. Si los datos cambian entre el momento en que se
guarda el StatFolio y se vuelve a abrir, la ventana de análisis reflejará estos cambios. Los
datos que solo usa Statgraphics se pueden almacenar en el StatFolio. Sin embargo, se
recomienda que los datos se guarden en archivos diferentes para que puedan ser
utilizados por más de un StatFolio.
120/ StatFolios
5.2 Código de StatFolio
Cuando se carga por primera vez un StatFolio, se restauran todas las ventanas de análisis a sus
condiciones previas. STATGRAPHICS Centurion 18 observa si se ha guardado con el StatFolio
un código de inicio y lo ejecuta. Se puede crear una secuencia de comandos seleccionando Rutina
de Inicio del StatFolio en el menú Edición. Se muestra un cuadro de diálogo con campos para definir
una secuencia de acciones a ejecutar:
121/ StatFolios
Operation Argument Target Description
Execute Título de análisis Actualiza el análisis indicado.
Assign Expresión de Nombre de evalúa la expresión y le asigna la
STATGRAPHICS Centurion columna columna especificada
Print Para imprimir ventana(s) Imprime los contenidos de las
ventanas indicadas.
Publish Ejecuta StatPublish para
publicar el contenido del
StatFolio en formato HTML.
Shell Comando Windows a ejecutar Argumento Provoca
del comando la ejecución de un comando
Windows.
Delay Número de segundos Realiza una pausa por el tiempo
especificado.
Load Nombre del StatFolio Especifica el StatFolio a leer
después de ejecutar el código.
Esto permite ejecutar StatFolios
en cadena.
Exit Sale de STATGRAPHICS
Centurion 18
Figura 5-3. Operadores de código de Rutina de Inicio
En el ejemplo que se muestra en la figura 5-2, se ejecuta una Regresión Simple. En este análisis se
asume que Guardar resultados se ha configurado automáticamente para guardar los residuos del
modelo ajustado en la columna de nombre RESIDUALS. Los residuos se dividen por los
valores originales de los datos y se multiplican por 100 para crear errores en porcentaje, que se
asignarán a la nueva variable llamada PERROR. Los valores en PERROR se resumen luego
mediante el procedimiento Análisis de una variable y después se imprimen los resultados de ambos
análisis.
Tenga en cuenta que los StatFolios se pueden encadenar utilizando el operador LOAD en un
código para cargar e iniciar el código en otro StatFolio. También se puede salir automáticamente
de STATGRAPHICS Centurion 18 utilizando el operador EXIT.
122/ StatFolios
Figura 5-4. Deshabilitando Rutina de Inicio
123/ StatFolios
5.3 Apilando orígenes de datos
Una vez creado el StatFolio conteniendo varios análisis, los datos de las fuentes de datos pueden
volver a leerse a intervalos fijos de tiempo y todos los análisis actualizados. Esto se consigue
usando el cuadro de diálogo Propiedades del libro de datos en el menú Edición o seleccionando
StatLink en el menú Archivo:
Figura 5-5. Cuadro de diálogo Propiedades del libro de datos para fuentes de datos apilados
Para consultar las fuentes de datos repetidamente:
1. Coloque una marca de verificación en el cuadro Encuesta para cada fuente de datos que se
volverá a leer.
124/ StatFolios
4. Compruebe Rutina de Ejecución si desea ejecutar la rutina de inicio del StatFolio cada vez
que se lean los datos.
Archivo HTML en directorio local: es el nombre del archivo HTML que contendrá la
Tabla de Contenidos para el StatFolio. Enumerará los contenidos del StatFolio y
proporcionará los enlaces a otros archivos HTML correspondientes a cada ventana en el
StatFolio. Por defecto, se sitúa en el mismo directorio que el propio StatFolio, con el mismo
nombre que el StatFolio pero con la extensión .htm en lugar
125/ StatFolios
de .sgp. Para ver un StatFolio publicado, puede abrirse el archivo con un navegador normal.
URL del Sitio FTP: Todos los resultados publicados se sitúan en primer lugar en el
directorio local indicado anteriormente. Se incluyen archivos HTML, archivos de imagen que
contienen los gráficos y otros archivos de soporte. Si se hace una entrada en el campo URL
del sitio FTP, todos los archivos también se subirán a la localización de referencia de la
dirección URL, que comúnmente será un directorio de un servidor. Tenga en cuenta que
debe tener acceso de escritura de FTP en la URL indicada, que debe estar configurado por el
administrador de red.
Nombre de usuario FTP: nombre de usuario para el acceso FTP a la URL indicada.
Anchura y altura del gráfico en píxeles: tamaño de los gráficos cuando están incrustados
en archivos HTML.
Formato de imagen: Los gráficos pueden incrustarse en archivos HTML en uno de los tres
formatos siguientes:
1. JPEG – imagen estática guardada en formato JPEG. Los archivos se crean con nombres
como pubexample_analysis1_graph1.jpg.
2. PNG – imagen estática guardada en formato PNG. Los archivos se crean con nombres
como pubexample_analysis1_graph1.png.
3. Applets Java – salida dinámica que se puede actualizar mientras lo visualiza el navegador.
Mientras esté en el navegador, el gráfico se actualizará en el incremento especificado
leyendo un archivo auxiliar con un nombre como pubexample_analysis1_graph1.sgz. Esta
opción está diseñada para usarse junto con el sondeo de datos en tiempo real usando la
función StatLink, como se describe en el documento PDF titulado Dynamic Data
Processing and Analysis. Nota: con esta opción no se publicarán correctamente todos los
gráficos. Si uno o más gráficos no se muestran correctamente en la salida publicada,
seleccione una opción diferente.
126/ StatFolios
Añadir applets interactivamente: Para gráficos publicados como applets, seleccionar las
características permitidas para ver la información acerca de valores de datos haciendo clic en
un punto con el ratón en el navegador Web.
Tras completar los campos de entrada, presione Aceptar para publicar el StatFolio.
Para ver un StatFolio publicado, arranque un navegador Web y utilice su menú Archivo para abrir
el archivo especificado en el campo de la parte superior de la figura 5-6. También puede ver la
salida seleccionando Ver resultados publicados del menú Archivo de STATGRAPHICS Centurion
18.
NOTA: Las tablas y gráficos se incrustan en archivos de salida HTML con nombres que
genera automáticamente StatPublish. Mientras está en el navegador Web, puede ver el
código HTML origen y determinar fácilmente los nombres de los archivos. Estos
archivos, si lo prefiere, pueden incrustarse en su propia página Web.
127/ StatFolios
6
Capítulo
Utilizando StatGallery
Mostrado gráficos juntos y solapados.
La salida de StatGallery se guarda en archivos con extensión .sgg. Si sitúa la salida en StatGallery, se
creará un puntero al archivo StatGallery al guardar el StatFolio actual. Cuando se vuelve a abrir el
StatFolio posteriormente, se leerá automáticamente el StatGallery asociado.
3. Active la ventana StatGallery. Haga clic en el panel situado más a la izquierda con el
botón derecho del ratón y seleccione Pegar en el menú emergente resultante para colocar
el gráfico de contorno en StatGallery.
5. Vuelva a la ventana StatGallery. Haga clic en el panel situado más a la derecha con el
botón derecho del ratón y seleccione Pegar en el menú emergente resultante. El Segundo
gráfico de contorno se situará en StatGallery al lado del primero.
Cuando se pega un gráfico en StatGallery, debe seleccionar Pegar enlace en el menú emergente en
lugar de Pegar. Cuando pega enlace, el gráfico de la galería se enlaza con la ventana de análisis en
la que se creó originalmente y cuando cambie en la ventana original cambiará en StatGallery.
NOTA: Si el escalado del Segundo gráfico es diferente del escalado del primero, el
Segundo gráfico ajustará su escala al del primero.
Los primeros 5 botones del cuadro de diálogo de la figura 6-5 trabajan presionando el botón del
ratón sobre ellos y estirando la línea o figura hasta cubrir el área deseada sobre la que se
utilizarán. El último botón activa el modo texto, de manera que el texto introducido en el cuadro
de diálogo se muestra cuando se haga clic en el gráfico. El texto añadido puede arrastrarse a la
localización deseada.
2. Haga clic con el ratón en el objeto que va a modificarse para cambiarlo. Alrededor del
objeto marcado se situará un pequeño bloque rectangular.
3. Presione el botón derecho del ratón y elija Modificar objeto en el menú emergente
resultante.
Utilizando StatReporter
Copiando análisis a StatReporter, realizando anotaciones en la salida y
guardando los resultados en un archivo RTF para importarlo a Microsoft
Word.
StatReporter es una ventana en la cual pueden integrarse las salidas de diferentes procedimientos
estadísticos en un informe formal. Es una versión independiente de WordPad, ejecutándose con
STATGRAPHICS Centurion 18. StatReporter le permite:
2. Guardar el contenido de StatReporter en un archivo RTF (Rich Text Format), que puede
leerse directamente en programas como Microsoft Word.
1. Para copiar una tabla simple o un gráfico a StatReporter, en primer lugar se copia al
portapapeles de Windows maximizando su panel y seleccionando Copiar en el menú
Edición. A continuación nos situamos en la ventana de StatReporter, se coloca el cursor
en la situación deseada, y se selecciona Editar – Pegar.
3. Para copiar toda la salida de una ventana de análisis, presione el botón derecho del ratón
y seleccione Copiar análisis a StatReporter en el menú emergente resultante. Todas las tablas
y gráficos de la ventana de análisis se pegarán en StatReporter.
Siempre que se abre un StatFolio, automáticamente lee el StatReporter que estaba presente
cuando el StatFolio se guardó por última vez. También puede abrir StatReporter
independientemente utilizando el menú Archivo – Abrir.
Utilizando StatWizard
Seleccionando un análisis estadístico, buscando estadísticos y test deseados y
generando ventanas múltiples para niveles de factor.
1. Puede ayudar a crear una nueva hoja de datos o leer un origen de datos existente.
3. Puede buscar los estadísticos o tests que se deseen y considerar los procedimientos de
análisis que los calculan.
5. Puede repetir los análisis deseados para cada valor único en una columna de datos.
1. Capturar Nuevos Datos o Importarlos de una Fuente Externa: Seleccione esta opción si desea
leer los datos de un libro de datos de STATGRAPHICS Centurion 18. El asistente los
obtendrá por medio de una secuencia adicional de cuadros de diálogo en orden a definir
las columnas de las hojas de datos o seleccionar un origen de datos, como se describe en
capítulos posteriores de este manual.
3. Realizar un Análisis que no requiera datos: Seleccione esta opción si desea realizar un análisis
que no requiera datos. En este caso, el asistente enumerará todos esos análisis, le pedirá
que seleccione uno, y luego lo llevará inmediatamente a ese análisis.
Por ejemplo, supongamos que desea configurar un nuevo estudio de medición para estimar la
repetibilidad y reproductibilidad de un proceso de medida. Seleccionando el segundo botón de la
figura 8-1 y presionando Aceptar se obtienen las opciones que se muestran a continuación:
El cuadro de diálogo final solicita nombres para los operadores, valoraciones, o laboratorios que
realizarán las mediciones:
2. Seleccionar análisis por nombre: Muestra todos los análisis en orden alfabético.
Seleccionando un análisis por nombre y presionando Aceptar nos lleva directamente al
cuadro de diálogo de entrada de datos para ese análisis, sin pasar por los menús
habituales.
5. Seleccionar entre las siguientes selecciones rápidas: Enumera algunos de los análisis
más utilizados habitualmente. Seleccionando un análisis y presionando Aceptar nos lleva
directamente al cuadro de diálogo de entrada de datos para ese análisis.
Datos o variables de respuesta (Y): una o más variables respuesta que contienen los valores
que se analizarán. Si solo una columna contiene datos para analizar, debe introducirse
aquí.
Factores explicativos cuantitativos (X): cualquier factor cuantitativo que se utilizará para
predecir las variables de respuesta. En una regresión, aquí irán las variables
independientes.
Factores Explicativos categóricos (X): cualquier factor no cuantitativo que se utilizará para
predecir la(s) variable(s) de respuesta. En un ANOVA, aquí van los factores explicativos.
Etiquetas de casos: una columna que contiene etiquetas para cada una de las observaciones
(filas).
Los procedimientos ofrecen los consiguientes cuadros de diálogo basados en los datos
introducidos en la Figura 8-7.
A continuación se mostrará un cuadro de diálogo final que enumera todos los análisis
apropiados para el tipo de datos que ha especificado:
2. Seleccione un análisis.
3. Presione Aceptar.
STATGRAPHICS Centurion 18 contiene cientos de opciones, cada una de las cuales tiene un
valor por defecto que ha sido seleccionado para cubrir las necesidades de la mayoría de los
usuarios. Si lo desea, puede establecer nuevos valores por defecto para la mayoría de estas
opciones. Hay 3 lugares en el programa para hacerlo:
Nivel de confianza: porcentaje por defecto utilizado para los límites de confianza, los
límites de predicción, las pruebas de hipótesis y la interpretación de los P-valores por el
StatAdvisor.
o Utilizar menú Seis Sigma: muestra las selecciones del menú bajo los títulos
correspondientes a las fases de la metodología Seis Sigma DMAIC (Definir, Medir,
Analizar, Mejorar, Controlar). Con el menú clásico son posibles las mismas selecciones,
salvo que están organizadas bajo diferentes títulos de menú.
o 4-Dígitos para los años: cuando las fechas deben mostrar 4 dígitos en los años en lugar
de dos. Por defecto, se asumen dos dígitos para los años (2/1/05) para representar
fechas entre 1950 y 2049. los cambios en esta opción no tendrán efecto hasta que se
reinicie el sistema.
o Habilitar autoguardar: cuando hay que guardar automáticamente en segundo plano los
archivos StatFolio y de datos actuales y la duración del tiempo entre guardados. Si se
habilita esta opción y hay un mal funcionamiento del ordenador, será posible restaurar el
estado actual del StatFolio y de las hojas de datos cuando se reinicie el programa.
o Actualizar enlaces en cada valor: cuando se recalculan todos los estadísticos cada vez
que cambie un valor de los datos en una de las hojas de datos. Normalmente, los
estadísticos no se recalculan hasta que no se enfoca el análisis, se imprime o publica, o se
guarda el StatFolio.
o Marque la opción Deshabilitar Código de Inicio para evitar que las secuencias del código de
inicio se ejecuten al cargar los StatFolios.
Para una descripción detallada de las opciones de las otras pestañas, consulte el documento
PDF titulado Preferencias.
9.2 Imprimiendo
La salida de impresión es controlada por dos opciones en el menú Archivo:
4. Seleccione cualquiera de los 12 perfiles de usuario y presione el botón Guardar como (los
perfiles del sistema son de sólo lectura).
También puede aplicar otros perfiles guardados a un nuevo gráfico creando el gráfico con la
configuración por defecto y a continuación:
Nota: El menú Herramientas contiene una opción titulada como Diseñador del
Perfil de las Gráficas que crea gráficas que muestran todas las características que
pueden actualizarse. Es un lugar muy conveniente para desarrollar y guardar
todas sus preferencias.
Puede restaurar la configuración original seleccionando Restaurar Configuración Original del menú
Archivo.
10
Tutorial #1: Analizando una
muestra simple
Resumen de estadísticos, histogramas, gráficos de caja y bigotes, intervalos de
confianza y contrastes de hipótesis.
Los datos fueron obtenidos del archivo de datos del Journal of Statistical Education
(www.amstat.org/publications/jse/jse_data_archive.html) y se usan con permiso. Se han
1. Si usa el menú clásico, seleccione Describir – Datos numéricos – Análisis de una variable.
2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de variables – Análisis de una variable.
Cuando se presiona Aceptar, aparecerá la ventana Tablas y Gráficos que muestra las tablas y gráficos
disponibles. Por ahora, se aceptarán las características por defecto.
Los paneles inferiores muestran un resumen estadístico y un gráfico de caja y bigotes, descrito en
las siguientes secciones.
x i
1. La media o promedio de la muestra x i 1
98.25 , que estima el centro de la
n
distribución.
n
x x i
2
Para una distribución normal, aproximadamente el 68% de todos los valores se encontrarán
dentro de una desviación típica de la media poblacional de valor uno, aproximadamente el 95%
dentro de una desviación típica de valor dos y aproximadamente el 99.73% dentro de una
desviación típica de valor tres.
Si los datos provienen de una distribución normal, los coeficientes de asimetría y curtosis
estandarizados deben de estar entre -2 y +2. En este caso, la distribución normal parece ser un
modelo razonable para los datos.
Otro resumen útil de los datos lo aportan el resumen de los 5 números de John Tukey:
Figura 10-7. Cuadro de diálogo Preferencias utilizada para seleccionar estadísticos por defecto
1. Se dibuja una caja cuyos extremos se extienden desde el cuartil inferior al cuartil superior
de la variable. El 50% de los valores de datos están dentro de esta caja.
4. Los bigotes se extienden desde los cuartiles hasta el máximo y el mínimo de las
observaciones en la muestra, a no ser que algunos valores estén lo suficientemente lejos
de la caja para clasificarse como “valores atípicos”, en cuyo caso los bigotes se extienden
hasta el más extremo de los puntos no calificado como “atípico”. STATGRAPHICS
Centurion 18 sigue a Tukey tomando dos tipos de valores atípicos:
El gráfico de caja y bigotes de la figura 10-8 es razonablemente simétrico. Los bigotes tienen
aproximadamente misma longitud y la media y la mediana de la muestra son similares y se
encuentran cerca del centro de la caja. Se han marcado tres puntos atípicos dudosos, pero no hay
atípicos lejanos. Haciendo clic con el ratón en el atípico dudoso situado más a la derecha se
observa que corresponde a la fila #15 en el archivo.
Si selecciona Opciones de panel en la barra de herramientas de análisis, puede añadir una muesca a
la mediana en el gráfico:
Valores Ordenados
Valores Studentizados Valores Studentizados Modificados
Fila Valor Sin Supresión Con Supresión Valor-Z DAM
95 96.3 -2.65859 -2.74567 -2.698
55 96.4 -2.52219 -2.59723 -2.5631
23 96.7 -2.11302 -2.15912 -2.1584
30 96.7 -2.11302 -2.15912 -2.1584
73 96.8 -1.97663 -2.01521 -2.0235
...
99 99.4 1.56955 1.59096 1.4839
13 99.5 1.70594 1.7323 1.6188
97 99.9 2.25151 2.30628 2.1584
120 100.0 2.3879 2.45231 2.2933
15 100.8 3.47903 3.67021 3.3725
El valor más atípico está en la fila #15, que se destaca en rojo. Tiene un valor estudentizado sin
supresión (Studentized Value Without Deletion) de 3.479. Los valores estudentizados se calculan
mediante:
xi x
zi
s
Un valor de 3.479 indica que la observación está a 3.479 desviaciones típicas sobre la media
muestral, cuando la observación se incluye en el cálculo de x y s. Los valores estudentizados con
supresión (Studentized Values With Deletion) indican cuántas desviaciones típicas tiene cada
observación de la media de la muestra cuando esa observación no se utiliza en los cálculos. Si no
se incluye en el cálculo, la fila #15 tiene 3,67 desviaciones típicas.
Hipótesis nula: El valor más extremo proviene de la misma distribución normal que las
otras observaciones.
Una prueba ampliamente utilizada de estas hipótesis es el test de Grubbs, también llamada
prueba de Desviación extrema estudentizada. STATGRAPHICS Centurion 18 realiza esta prueba y
muestra un P-valor. En general, un P-valor cuantifica la probabilidad de obtener un estadístico
como inusual o más inusual que el observado en la muestra, si la hipótesis nula fuera verdadera.
Si el P-valor es lo suficientemente pequeño, la hipótesis nula puede rechazarse, ya que la muestra
habría sido un evento extremadamente raro. “Lo suficientemente pequeño” generalmente se
define como menor que 0.05, valor que se denomina “nivel de significación” o “riesgo alfa” del
procedimiento de la prueba. Si hay menos de un 5% de posibilidades de que la muestra haya
surgido dado que la hipótesis nula era verdadera, entonces la hipótesis nula se rechaza.
En este ejemplo, el test estadístico es igual al valor estudentizado sin supresión absoluto más grande,
3.479. Tiene un P-valor igual a 0.0484. Como el P-valor es menor que 0.05, rechazamos la
hipótesis nula, concluyendo de este modo que la fila #15 es un valor atípico comparado con el
resto de los valores de la muestra.
Puede eliminar la fila #15 presionando el botón Cuadro de diálogo de entrada en la barra de
herramientas de análisis e introduciendo una expresión en el campo Seleccionar como la que se
muestra a continuación:
Valores ordenados
Valores estudentizados Valores estudentizados Modificado
Fila Valor Sin supresión Con supresión MAD Z-Score
95 96.3 -2.75487 -2.85205 -2.698
55 96.4 -2.61209 -2.6956 -2.5631
23 96.7 -2.18375 -2.23455 -2.1584
30 96.7 -2.18375 -2.23455 -2.1584
73 96.8 -2.04097 -2.08332 -2.0235
...
119 99.4 1.6713 1.69652 1.4839
99 99.4 1.6713 1.69652 1.4839
13 99.5 1.81408 1.84516 1.6188
97 99.9 2.3852 2.44992 2.1584
120 100.0 2.52798 2.60411 2.2933
Idealmente, se debe volver al estudio original y encontrar una causa asignable para el valor
anormal de la fila #15. Como esto es imposible hacerlo ahora, aceptaremos el resultado del test
10.5 Histograma
Otro gráfico común que ilustra una muestra de datos de medición es el histograma de
frecuencia. Volviendo al procedimiento Análisis de una variable, se puede crear un histograma
presionando el botón Tablas y Gráficos en la barra de herramientas de análisis y seleccionando
Histograma de frecuencias. El histograma por defecto se muestra a continuación:
Se dispone de una modificación temporal para un histograma creado haciendo clic sobre él para
maximizar su panel y seleccionando Opciones de panel:
Los datos expuestos en el histograma se pueden mostrar en forma de tabla presionando el botón
Tablas y Gráficos en la barra de herramientas de análisis y seleccionando Tabulación de frecuencia:
Puede crearse también una tabla de percentiles seleccionando Percentiles en la lista Tablas:
Percentiles para Temperature
Percentiles Límite Inferior Límite Superior
1.0% 96.4 96.2713 96.7643
5.0% 97.0 96.829 97.2211
10.0% 97.25 97.1232 97.4677
25.0% 97.8 97.6062 97.8882
50.0% 98.3 98.1222 98.3762
75.0% 98.7 98.6102 98.8922
90.0% 99.1 99.0308 99.3753
95.0% 99.3 99.2774 99.6695
99.0% 100.0 99.7342 100.227
Por ejemplo, el percentil 90 es el valor de la temperatura excedida por sólo el 10% de los
individuos en la población. El mejor estimador del percentil basado en la muestra de datos es
99.1 grados. Sin embargo, dado el tamaño limitado de la muestra, el percentil 90 debe estar entre
98.98 y 99.31 grados, con un 95% confianza.
Intervalos Bootstrap
Media: [98.1269, 98.3623]
Desviación Estándar: [0.628288, 0.834342]
Mediana: [98.1, 98.4]
Figura 10-23. Intervalos de confianza Bootstrap al 95% de confianza
Para ejecutar este contraste con el procedimiento Análisis de una variable, seleccione Contraste de
hipótesis de la lista de Tablas y Gráficos. Antes de examinar los resultados, seleccione opciones de panel
y especifique los atributos deseados para el contraste:
Aunque la muestra sugiere una temperatura media más baja, hemos seleccionado una hipótesis
alternativa de dos lados. Creando un contraste unilateral con una hipótesis alternativa < 98.6
puede considerarse “indagación de datos” en este punto, ya que estaríamos formulando la
hipótesis después de haber analizado los datos.
Prueba t
Hipótesis Nula: media = 98.6
Alternativa: no igual
Estadístico t = -5.45482
Valor-P = 4.37123E-7
Se rechaza la hipótesis nula para alfa = 0.05.
1. Un test estándar de la t, que asume que los datos proceden de una distribución normal
(aunque no es demasiado sensible a esta asunción).
En ambos casos, el P-valor es menor que 0.05, rechazándose la hipótesis de que la muestra
procede de una población con media 98.6 grados.
Se debe hacer hincapié en que el intervalo de confianza para la media, dado en la sección 10.8,
no incluyó el valor 98.6. Cualquier valor que no estuviese dentro del intervalo de confianza para
la media habría sido rechazado por el test t considerado. Se puede decir que el intervalo de
confianza contiene todos los valores posibles para la población que son compatibles con la
muestra de datos.
1. Si usa el menú clásico, seleccione Describir –Datos numéricos – Límites estadísticos de tolerancia
– Desde Observaciones
2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de variable – Análisis de Capabilidad -
Límites estadísticos de tolerancia – Desde Observaciones
La distribución normal. Se asumirá que los datos proceden de una distribución normal
en forma de campana.
Límites Bilaterales.
Un nivel de confianza del 95%.
Presione Aceptar y acepte la salida por defecto cuando aparezca el cuadro de diálogo Tablas y
Gráficas. La salida resultante es la siguiente:
Distribución: Normal
tamaño de muestra = 129
media = 98.2295
desv. est. = 0.70038
The StatAdvisor
Asumiendo que Temperature proviene de una distribución normal, los límites de tolerancia establecen que
se puede estar 95.0% confiados en que 99.0% de la distribución cae entre 96.2086 y 100.25. Este intervalo
se calcula tomando la media de los datos +/-2.88542 veces la desviación estándar.
Figura 10-28. Resumen de análisis para Límites estadísticos de tolerancia
La interpretación del StatAdvisor resume los resultados de manera sucinta.
El procedimiento Límites de Tolerancia Estadística también crea el Gráfico de tolerancia, que muestra
los límites de tolerancia superpuestos en un histograma de frecuencia:
11
Tutorial #2: Comparando dos
muestras
Comparaciones gráficas y contrastes de hipótesis.
A menudo , los datos que se analizarán consisten en dos muestras, posiblemente de poblaciones
diferentes. En tales casos es usual:
Para analizar las temperaturas corporales, se abre el archivo de datos bodytemp.sgd utilizando Abrir
origen de datos en el menú Archivo – Abrir.
2. Si usa el menú Seis Sigma, seleccionar Analizar – Datos de variable – Comparación de dos
muestras – Muestras independientes.
1. Datos en dos columnas – los datos para cada muestra están en columnas diferentes.
2. Columnas de datos y códigos – los datos para ambas muestras están en la misma columna, y
una segunda columna contiene códigos que diferencian los datos de las dos muestras.
El archivo bodytemp.sgd tiene el segundo tipo de estructura, con las n = 130 observaciones en una
misma columna de nombre Temperatura, mientras una segunda columna de nombre Género
contiene las etiquetas “Mujer” u “Hombre”. En el campo Seleccionar, se elegirán solo las filas para
las cuales la Temperatura es menor o igual que 100. Así se excluye la fila #15 del análisis, cuya
observación había sido identificada en el capítulo 10 como atípica.
1. La temperatura media de las mujeres es aproximadamente 0.25 grados más alta que la de
los hombres. La diferencia entre las medianas es 0.30 grados.
Queda por determinar si la diferencia aparente entre las temperaturas corporales entre los
hombres y las mujeres es estadísticamente significativa.
En este caso, es usual añadir muescas al gráfico accediendo al Panel de Opciones. Los resultados se
muestran a continuación:
1. Un aparente desvío del centro de la distribución de las mujeres hacia la derecha respecto
del centro de la distribución de los hombres. Medias y medianas muestran una diferencia
similar.
2. El intervalo cubierto por las mujeres es más ancho que el intervalo cubierto por los
hombres, pero solamente si se incluye el punto más pequeño.
3. La muesca de la mediana de las mujeres coincide parcialmente con la de los hombres (es
un poco más estrecha). Si las muescas de las medianas no son coincidentes parcialmente,
las medianas de hombres y mujeres serán significativamente diferentes al nivel por
defecto del sistema (actualmente del 5%). En la sección siguiente se describe una
comparación más formal.
Basándose en este gráfico, parece haber una diferencia en el centro de las dos muestras, aunque
la significación estadística de la diferencia está indeterminada.
Hipótesis nula: 1 = 2
Hipótesis alternativa: 1 ≠ 2
Este contraste nos permitirá determinar si la diferencia aparente entre las variabilidades de las
temperaturas corporales de hombres y mujeres es estadísticamente significativa, o si está dentro
del intervalo de la variabilidad aleatoria normal para muestras del tamaño actual.
Para ejecutar este contraste, presione el botón Tablas y Gráficos en la barra de herramientas
de análisis y seleccione Comparación de desviaciones típicas. Los resultados se muestran a
continuación:
Comparación de Desviaciones Estándar para Temperature
Gender=Female Gender=Male
Desviación Estándar 0.684262 0.698756
Varianza 0.468214 0.48826
Gl 63 64
Razón de Varianzas= 0.958945
Por consiguiente no hay evidencia estadísticamente significativa para concluir que la variabilidad
de la temperatura corporal de las mujeres es diferente que la de los hombres.
Se debe hacer notar que este contraste es bastante sensible a la asunción de que las muestras
proceden de poblaciones normales, una asunción que ya mostró ser razonable observando los
valores de las asimetrías y las curtosis de las dos muestras (ambas entre -2 y 2).
Hipótesis nula: 1 = 2
Hipótesis alternativa: 1 ≠ 2
Para realizar esta prueba, presione nuevamente el botón Tablas y seleccione Comparación de medias.
Los resultados son los siguientes:
Comparación de Medias para Temperature
Intervalos de confianza del 95.0% para la media de Gender=Female: 98.3562 +/- 0.170924 [98.1853, 98.5272]
Intervalos de confianza del 95.0% para la media de Gender=Male: 98.1046 +/- 0.173144 [97.9315, 98.2778]
Intervalos de confianza del 95.0% intervalo de confianza para la diferencia de medias
suponiendo varianzas iguales: 0.251635 +/- 0.240998 [0.0106371, 0.492632]
1. diferencia entre las medias (asumiendo varianzas iguales): muestra un intervalo de confianza al
95% para la media de temperaturas corporales de la población de mujeres menos la
media de la población de los hombres. El intervalo para 1 - 2 varía desde 0.01 a 0.49,
que indica que la temperatura corporal media de las mujeres está entre 0.01 y 0.49 más
alta que la temperatura corporal media de los hombres.
2. El P-valor asociado con el test-t de las hipótesis indicadas anteriormente. Dado que el P-
valor es menor que 0.05, hay evidencia significativa para rechazar la hipótesis de igualdad
de medias y declarar que las medias de las dos poblaciones son estadísticamente
diferentes al 5% de nivel de significación.
Tenga en cuenta que esta prueba se realizó suponiendo que las varianzas de las dos poblaciones
son iguales, que ya fue validado con el estadístico F en la sección anterior. Si las varianzas
hubiesen sido significativamente diferentes, se podría haber solicitado un test-t aproximado
accediendo a las Opciones del panel y eliminando la marca de verificación de la casilla Asumir sigmas
iguales.
Parece que las mujeres proceden de una población con una temperatura corporal media más alta
que la de los hombres.
Al seleccionar Comparación de medianas del cuadro de diálogo Tablas y Gráficos se genera el test del
estadístico W de Mann-Whitney (Wilcoxon). En este test, las dos muestras han sido primero
combinadas. Los datos combinados se clasifican de 1 hasta n1+n2, y los valores de los datos
originales se han reemplazado por sus respectivos rangos. A continuación se construye el
estadístico W que compara los rangos promedio de las observaciones en las dos muestras:
En el gráfico anterior, es bastante evidente que la distribución de las mujeres se desplaza hacia la
derecha de la de los hombres. Las pendientes generales, sin embargo, son similares.
El P-valor se usa para determinar si las distribuciones son significativamente diferentes entre sí.
Un P-valor pequeño nos lleva a la conclusión de que hay una diferencia significativa. Dado
que el P-valor para esta muestra de datos es menor o igual que 0.05, existe una diferencia
significativa entre las distribuciones de los hombres y las mujeres al 5% de nivel de significación.
Advertencia: Si los datos se redondean, el test puede no ser fiable ya que la función de
distribución acumulativa (FDA) empírica puede tener saltos en grandes pasos. Cuando
sea posible, lo mejor es confiar en una comparación de los parámetros de distribución
seleccionados, como la media, la desviación típica o la mediana.
12
Tutorial #3: Comparando más de
dos muestras
Comparando medias y desviaciones típicas, ANOVA de un factor, ANOM,
y métodos gráficos.
Cuando los datos se dividen en más de dos grupos, es necesario emplear un conjunto de técnicas
diferentes a las del capítulo anterior. Por ejemplo, suponga que desea comparar la resistencia de
diferentes aparatos fabricados con 4 materiales distintos. En un experimento típico, puede
construir 12 aparatos de cada uno de los 4 materiales para compararlos. Los siguientes datos
representan los resultados del experimento:
Hay dos formas de introducir datos para muestras múltiples en una hoja de datos:
2. Usar una sola columna para todos los datos y crear una segunda columna con
códigos que identifiquen de qué muestra proviene cada observación.
Para este ejemplo se ha seleccionado el primero de los caminos. Los datos para los aparatos se
han colocado en cuatro columnas de un archivo llamado widgets.sgd, que se puede abrir
seleccionando Abrir – Abrir origen de datos en el menú Archivo.
2. Si usa el menú Seis Sigma seleccione: Analizar – Datos de variables – Comparación de varias
muestras – Comparación de varias muestras.
El cuadro de diálogo inicial se usa para indicar cómo se han estructurado los datos:
Cuando se presiona Aceptar, aparece el cuadro de diálogo Tablas y Gráficos. En este tutorial se
acepta la configuración por defecto.
Hipótesis nula: A = B = C = D
Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 157.882 3 52.6272 22.76 0.0000
Intra grupos 101.728 44 2.31201
Total (Corr.) 259.61 47
El valor clave en la figura 12-7 es el P-valor. P-valores pequeños (menores que 0.05 si se opera al
5% de nivel de significación) conducen a un rechazo de la hipótesis de igualdad de medias. En el
ejemplo actual, hay pocas dudas de que las medias sean significativamente diferentes.
En la última edición de Estadística para Investigadores de Box, Hunter y Hunter (John Wiley
and Sons, 2005), los autores presentan una nueva pantalla diseñada para mostrar los resultados
de un ANOVA en formato gráfico. Este Gráfico ANOVA se muestra por defecto en el panel
inferior derecho:
En la figura 12-8, el grupo A parece estar bastante separado de los otros grupos. La separación de
las otras tres medias es menos clara. En la sección siguiente se describe una comparación más
formal de las medias de las cuatro muestras.
1. Intervalos LSD de Fisher LSD (Least Significant Difference o Mínima Diferencia Significativa):
Estos intervalos están escalados de modo que un par de muestras tiene medias
significativamente diferentes si los intervalos no se solapan en la dirección vertical. Si
bien la posibilidad de declarar incorrectamente que dos muestras son diferentes con este
Los intervalos de la figura 12-9 utilizan el método de Tukey. Dado que el intervalo para la
muestra A no solapa ningún otro intervalo, la media de la muestra A es significativamente
diferente de la de las otras tres muestras. La muestra B también es significativamente diferente
de la muestra D, ya que sus intervalos no se solapan. La muestra C, sin embargo, no es
significativamente diferente de B o D.
El mismo análisis se puede mostrar en forma de tabla seleccionando Pruebas de Múltiples Rangos
del cuadro de diálogo Tablas y Gráficos:
Este tipo de test puede ser utilizado seleccionando Opciones de ventana. Hay dos tipos de test:
1. Test de Kruskal-Wallis– apropiado cuando cada columna contiene una muestra aleatoria de
su población. En tal caso, las filas no tienen significado intrínseco.
2. Test de Friedman– apropiado cuando cada fila representa un bloque. Variables de bloque
típicas son día de la semana, turnos, o localización de la producción.
En este ejemplo, las filas no tienen significado, por lo que es apropiado el test de Kruskal-Wallis:
Prueba de Kruskal-Wallis
Tamaño de Muestra Rango Promedio
A 12 40.7917
B 12 25.7917
C 12 19.25
D 12 12.1667
Estadístico = 27.3735 Valor-P = 0.00000491592
Figura 12-11. Test de Rangos Múltiples
La entrada importante de la tabla anterior es el P-valor. Dado que el P-valor es pequeño (menor
que 0.05), la hipótesis de igualdad de medianas se rechaza).
Hipótesis nula: A = B = C = D
Verificación de Varianza
Prueba Valor-P
Levene's 0.252043 0.859451
En resumen, parece que la Resistencia media es diferente para distintos materiales. Sin embargo, la
variabilidad entre aparatos hechos del mismo material es casi la misma en los cuatro materiales.
El cuadro de diálogo Gráficos contiene una entrada para generar automáticamente gráficos de los
residuos. En la sección Opciones de ventana, se pueden representar residuos por grupos, frente a
valores pronosticados, o en orden de fila como se encuentra en la hoja de datos. El gráfico
siguiente muestra los residuos frente a los valores pronosticados de resistencia:
1. Valores atípicos – residuos aislados muy alejados de los demás. Tales puntos necesitarían
una mayor investigación para determinar si existe una causa asignable que explique su
comportamiento inusual.
Si se desea, los residuos pueden guardarse en una columna de cualquier hoja de datos
presionando el botón Guardar resultados en la barra de herramientas de análisis.
En este caso, la interpretación es que los aparatos de la muestra A son significativamente más
resistentes que la media, mientras que los aparatos de las muestras C y D son significativamente
más débiles que la media. Este tipo de interpretación a veces puede ser bastante útil.
13
Tutorial #4: análisis de la
regresión
Ajustando modelos lineales y no lineales, seleccionando el mejor modelo,
representando residuos y mostrando resultados.
donde el subíndice i representa la i-ésima observación en la muestra de datos, los son los
coeficientes desconocidos del modelo y es una desviación aleatoria, habitualmente con
distribución normal de media 0 y desviación típica .
Dado un conjunto de datos con una variable respuesta Y y una o más posibles variables
predictoras, el objetivo del análisis de regresión es construir un modelo que:
1. describa las relaciones que existen entre las variables de tal manera que sea posible
predecir Y para valores conocidos de X.
2. no contenga más variables X de las necesarias para generar una buena predicción.
Este capítulo considera varios tipos de modelos de regresión. Como ejemplo, las millas por
galón que recorre un automóvil en ciudad para los automóviles del archivo 93cars.sgd servirán
como variable respuesta Y. El objetivo es construir un modelo a partir de las otras columnas en
ese archivo que pueda predecir con éxito las millas por galón de un automóvil.
1. Si usa el menú clásico, seleccione Describir – Datos numéricos – Análisis de variables múltiples.
2. Si usa el menú Seis Sigma, seleccione Analizar– Datos de variable – Métodos multivariantes –
Análisis de variables múltiples.
Presionando Aceptar se muestra el menú Opciones de Análisis, que se usa para indicar cómo van a
ser tratados los datos faltantes:
El gráfico de matriz de la derecha muestra los gráficos X-Y para cada par de variables:
Engine Size
Horsepower
Length
Weight
Wheelbase
Width
Para determinar si dos variables están relacionadas significativamente entre sí, se calcula el P-
valor para cada coeficiente de correlación (test del coeficiente de correlación). Cualquier par de
variables para las cuales el P-valor es menor que 0.05 muestra una correlación lineal
estadísticamente significativa al 5% de nivel de significación.
2. Si usa el menú Seis Sigma, seleccione Mejorar – Análisis de regresión – Un Factor – Regresión
simple.
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 47.0484 1.67991 28.0064 0.0000
Pendiente -0.00803239 0.000536985 -14.9583 0.0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 2065.52 1 2065.52 223.75 0.0000
Residuo 840.051 91 9.23133
Total (Corr.) 2905.57 92
3. P-Valor del modelo : Prueba la hipótesis nula de que el modelo ajustado no es mejor
que un modelo que no incluye el peso. Un P-valor inferior a 0.05, como en el ejemplo
actual, indica que Peso es un buen predictor para MPG City.
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Vale la pena señalar que 3 observaciones con valores de Peso bajos caen bastante más allá de los
límites de predicción del 95%. Esto puede ser indicativo de la presencia de valores atípicos o de
un fallo en el modelo para tener en cuenta la no linealidad de la relación real entre MPG City y
Peso.
En él, el recíproco de millas por galón (galones por milla) se expresa como una función lineal del
peso. Es frecuente que las transformaciones de Y, X, o ambas puedan conducir a mejores
modelos.
Para ajustar un modelo Inversa de Y, presione el botón Opciones de análisis y seleccione Y-Inversa en
el cuadro de diálogo. El ajuste resultante se muestra a continuación:
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Gráfico de Residuos
MPG City = 1/(0.00193667 + 0.0000146623*Weight)
4
Rediduo Estudentizado
-2
-4
1600 2100 2600 3100 3600 4100 4600
Weight
La selección de Residuos atípicos en el cuadro de diálogo Tablas y Gráficos lista todos los residuos
estudentizados que son mayores que 2 en valor absoluto:
Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
5 3640.0 22.0 18.0808 3.91924 -2.38
36 3735.0 15.0 17.6366 -2.63658 2.41
42 2350.0 42.0 27.4778 14.5222 -3.11
57 2895.0 17.0 22.5306 -5.53064 3.60
91 2810.0 18.0 23.1816 -5.18157 3.04
2. Si usa el menú Seis Sigma, seleccione Mejorar – Análisis de la regresión – Varios Factores –
Regresión Múltiple.
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 0.0155897 0.0177088 0.880334 0.3811
Engine Size 0.00072849 0.000980504 0.742974 0.4595
Horsepower 0.0000132632 0.000014911 0.889485 0.3762
Length -0.000101355 0.0000608857 -1.66468 0.0996
Weight 0.0000149727 0.00000242804 6.1666 0.0000
Wheelbase -0.000148122 0.000163073 -0.908321 0.3662
Width 0.000223526 0.00028967 0.771658 0.4424
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.00705967 6 0.00117661 67.64 0.0000
Residuo 0.001496 86 0.0000173954
Total (Corr.) 0.00855567 92
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG
City y 6 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa entre las
variables con un nivel de confianza del 95.0%.
Figura 13-14. Resumen de análisis de regresión múltiple con 6 variables predictoras
Tenga en cuenta que el estadístico R cuadrado ha aumentado a 82.5%. Sin embargo, el modelo
se ha complicado innecesariamente. Cerca de la parte superior de la salida hay una columna de P-
Excepto Peso, todos los predictores tienen P-valores superiores a 0.05. Esto implica que al menos
una de esas variables predictoras podría eliminarse sin dañar significativamente el modelo.
NOTA: sería erróneo en este punto asumir que las 5 variables predictoras con P-valor
superiores a 0.05 podrían eliminarse. Debido a la alta multicolinealidad en los datos,
todos los P-valores pueden cambiar drásticamente si alguna de las variables se elimina
del modelo.
Un método útil para simplificar el modelo es realizar una regresión por pasos. En una regresión
por pasos las variables se agregan o eliminan de un modelo de regresión de una en una, con el
objetivo de obtener un modelo que contenga sólo predictores significativos pero que no excluya
ninguna variable útil. La regresión por pasos está disponible en el cuadro de diálogo Opciones de
análisis:
2. Selección hacia atrás – comienza con un modelo que contiene todas las variables y las va
eliminando de una en una hasta que todas las demás variables sean estadísticamente
significativas.
En ambos métodos, las variables eliminadas pueden ser reintroducidas en un paso posterior si si
luego parecen ser predictores útiles, o las variables introducidas de antemano pueden ser
eliminadas posteriormente si no aportan suficiente significatividad al modelo.
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.00696044 2 0.00348022 196.35 0.0000
Residuo 0.00159524 90 0.0000177249
Total (Corr.) 0.00855567 92
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG
City y 6 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa entre las
variables con un nivel de confianza del 95.0%.
Figura 13-18. Resumen de análisis de Regresión múltiple después de la Selección hacia atrás
Una vez que se ha encontrado una ecuación matemática, se utiliza para graficar la ecuación.
Cuando el modelo contiene 2 variables predictoras, la ecuación representa una superficie en tres
dimensiones, generalmente denominada superficie de respuesta. En este caso, la ecuación ajustada
corresponde a un plano, ya que Potencia y Peso se introducen en el modelo de forma lineal.
En el cuadro de diálogo de entrada de datos, introduzca el modelo, expresando las dos variables
predictoras como X e Y. La manera más fácil de hacerlo es pegar la ecuación generada por el
procedimiento regresión múltiple, cambiando Potencia por X y Peso por Y:
Figura 13-19 Cuadro de diálogo de entrada de datos para Superficie de respuesta y Gráfico de contorno
0.0034427+0.0000260839*X+0.0000129513*Y
(X 0.001)
72
62
Función
52
42
32
4500
22 4000
3500
3000
0 50 2500
100 150 200 2000 Y
250 300 1500
X
Función
0.02
0.03
(X 0.001) 0.04
72 0.05
0.06
62 0.07
Función
52
42
32
4500
22 4000
3500
3000
0 50 2500
100 150 200 2000 Y
250 300 1500
X
14
Tutorial #5: Analizando datos de
atributos
Tablas de frecuencias, tablas de contingencia y análisis de Pareto
Cada uno de los primeros cuatro tutoriales trabajan con datos de variables, donde las
observaciones se representan como números a lo largo de una escala continua. Este tutorial
examina un conjunto de datos de atributos, en los cuales cada observación representa una
categoría en la que se ha clasificado un atributo, en lugar de una medición.
Como ejemplo, consideramos los datos contenidos en el archivo defects.sgd. Una parte de ese
archivo se muestra a continuación:
Defecto Instalación
Desalineado Virginia
Contaminado Texas
Contaminado Virginia
Contaminado Texas
Partes desaparecidas Texas
Desalineado Virginia
Contaminado Texas
Filtrando Texas
Dañado Virginia
Contaminado Texas
2. Si usa menú Seis Sigma, seleccione Analizar – Datos de atributos – Un Factor - Tabulación.
El cuadro de diálogo de entrada de datos espera una sola columna que contenga los datos del
atributo:
2. Si usa el menú Seis Sigma, seleccione Analizar – Datos de atributos – Un Factor – Análisis de
Pareto.
2. Datos que han sido agrupados por tipos de defectos. Aplicable si se tienen dos
columnas, una identificando los tipos de defectos y otra conteniendo el número de veces
que ocurre cada tipo de defecto.
1. Doble clic en el gráfico con el ratón para maximizar el panel en la ventana de análisis.
3. Después de salir del cuadro de diálogo Opciones gráficas, las etiquetas pueden no ajustarse
completamente a la pantalla. De lo contrario, puede mantener presionado el botón del
ratón dentro de la parte principal del gráfico y arrastrarlo hacia arriba, o puede arrastrar
el eje X hacia arriba para reducir el tamaño del eje vertical.
60 44.17%
40
20
0
Contaminated
Misaligned
Misshapen
Damaged
Leaking
Rusted
Missing parts
Wrong size
Poor color
El principio básico de Pareto establece que una gran mayoría de los defectos se deben
generalmente a un número pequeño de causas posibles. En este caso, los 3 tipos de defectos más
frecuentes representan más del 80% de todos los defectos.
2. Si usa el menú seis Sigma, seleccione Analizar – Datos de atributos – Factores múltiples -
Tabulación cruzada.
El cuadro de diálogo de entrada de datos espera dos columnas, una que defina las filas de una
frecuencia de doble entrada o una tabla de contingencia y la otra definiendo las columnas:
Opciones de ventana permite seleccionar otros elementos para mostrar en cada celda:
Se muestran varios gráficos que también son útiles. Por ejemplo, el gráfico de barras siguiente
muestra los datos por defecto e instalación:
Facility
Contaminated Texas
Virginia
Damaged
Leaking
Misaligned
Defect
Misshapen
Missing parts
Poor color
Rusted
Wrong size
0 10 20 30 40
frecuencia
Facility
Texas
Virginia
Contaminated
Damaged
Leaking
Misaligned
Misshapen
Missing parts
Poor color
Rusted
Wrong size
Si lo desea, las frecuencias de las celdas también se pueden mostrar en tres dimensiones
seleccionando Gráfico de rascacielos (Skychart)en el cuadro de diálogo de Tablas y Gráficos:
40
30
frecuencia
20
10
Virginia
0
m d
Texas
Le ge d
Facility
a ing
Da at e
M is s ed
ng pen
or rt s
Ru lor
ng d
ze
M lign
M ak
a
ro s te
in
Po pa
co
si
is ha
m
ta
is
n
si
Co
Defect
Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 18.438 8 0.0182
Advertencia: algunas celdas contienen menos de 5 casos.
Figura 14-14. Test de Chi-cuadrado de independencia
El test de chi-cuadrado de independencia se usa para decidir entre dos hipótesis:
Para el test de chi-cuadrado, un P-valor pequeño indica que las clasificaciones de filas y
columnas no son independientes. En este caso, el P-valor es menor que 0.05, lo que indica que la
distribución de los tipos de defectos es, a un nivel de significación del 5%, diferente en la
instalación de Texas que en la instalación de Virginia. Sin embargo, también se muestra una
advertencia, ya que algunos recuentos de celdas en la tabla de doble entrada son menores que 5.
(Técnicamente, la advertencia ocurre si el recuento esperado en cualquier celda es inferior a 5
asumiendo que la hipótesis nula es verdadera). Con pequeños recuentos de celdas, el P-valor
puede ser poco fiable. Una solución a este problema es agrupar todos los tipos de defectos
infrecuentes en una clase única y volver a ejecutar el test. Esto se hace fácilmente en
STATGRAPHICS Centurion 18 de la siguiente forma:
2. Presionar el botón derecho del ratón y seleccionar Recodificar datos en el menú emergente.
Facility
Texas
Virginia
Contaminated
Damaged
Misaligned
Other
Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 11.874 3 0.0078
El StatAdvisor
Esta tabla muestra los resultados de la prueba de hipótesis ejecutada para determinar si se rechaza, o no, la idea de que las
clasificaciones de fila y columna son independientes. Puesto que el valor-P es menor que 0.05, se puede rechazar la
hipótesis de que filas y columnas son independientes con un nivel de confianza del 95.0%. Por lo tanto, el valor observado
de Defect para un caso en particular, está relacionado con su valor en Facility.
Figura 14-17. Test de chi- cuadrado después de la recodificación de datos
Por lo tanto parece que el tipo de defecto está realmente relacionado con la instalación en la cual
se produjo un artículo.
Cabe señalar que la prueba anterior compara las distribuciones de tipos de defectos entre las dos
instalaciones. No compara los números o porcentajes de artículos defectuosos en cada
67 53
ˆ1 0.0107 ˆ2 0.0072
6237 7343
Según estos datos, parece que el porcentaje de artículos defectuosos producidos en Texas puede
ser mayor que el porcentaje de artículos defectuosos producidos en Virginia. Para determinar si
esta diferencia aparente es estadísticamente significativa, se crea una hoja de datos como la
siguiente:
Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 4.783 1 0.0287
Figura 14-20. Test de la chi-cuadrado de tablas 2 por 2
Recordar que este contraste de chi-cuadrado determina si las clasificaciones de filas y columnas
son independientes o no. En este caso, la independencia implicaría que si un artículo era
defectuoso o no tenía nada que ver con la instalación en la cual se produjo.
15
Tutorial #6: Análisis de la
capacidad de un proceso
Determinando los defectos por millón o porcentaje más allá de los límites de
especificación.
STATGRAPHICS Centurion 18 es muy utilizado por personas cuyo trabajo es garantizar que los
productos y servicios que ofrecen sean de la más alta calidad. Una tarea común en este tipo de
trabajo es recopilar datos del proceso y compararlos con los límites de especificación
establecidos. La salida de este tipo de análisis de la capacidad es una estimación de cuán capaz es el
proceso cumplir esas especificaciones. Seis Sigma es una metodología ampliamente practicada
para lograr una calidad de clase mundial, apunta a una tasa de 3.4 defectos por millón de
oportunidades.
Como ejemplo, consideremos un producto cuya resistencia se requiere que caiga entre 190 y 230
psi. Supongamos que se toman n = 100 muestras del proceso de producción y se mide su
resistencia, como se muestra en la tabla siguiente:
213.5 203.3 191.3 197.1 205.7 215.6 193.7 201.7 201.5 207.1
207.0 200.4 197.2 202.4 205.2 211.0 214.5 201.5 200.9 206.8
205.8 200.3 196.1 205.9 195.1 203.9 192.9 199.0 195.5 203.1
197.4 194.8 201.0 202.5 199.0 200.7 197.6 198.5 205.3 197.1
202.8 201.6 197.4 200.9 203.3 209.4 201.4 199.5 207.8 204.9
205.5 203.0 208.1 200.2 218.2 202.0 209.3 201.2 200.4 201.0
195.7 229.5 199.9 208.1 210.3 202.0 202.6 213.6 198.0 197.8
196.7 216.0 211.6 208.7 199.4 200.8 201.1 195.3 206.8 211.3
201.5 200.0 211.8 195.6 201.9 199.0 200.3 197.8 200.8 194.8
2. El gráfico de caja y bigotes muestra un punto extremo lejano (un cuadrado pequeño con
un signo más rojo dentro de él). Tales puntos se consideran habitualmente como
atípicos, si el resto de los datos provienen de una distribución normal. En este caso, sin
embargo, incluso descontando ese aparente valor atípico, la forma de la caja no es muy
simétrica. El bigote superior es más largo que el bigote inferior y la caja se extiende más
por encima de la mediana (la línea vertical dentro de la caja) que por debajo.
3. Si expande el panel Estadísticos resumen, verá que la asimetría estandarizada es igual a 4.94.
Si los datos provienen de una distribución normal, este valor debe encontrarse entre -2 y
+2. Incluso eliminando el mayor valor sólo se reduce la asimetría estandarizada a 2.81.
24
20
16
frecuencia
12
0
180 190 200 210 220 230 240
Strength
Datos no normales como los que acabamos de mostrar son comunes. Una típica aproximación
para trabajar con tales datos, desafortunadamente, es simplificar ignorando la no normalidad y
calcular índices como Cpk usando fórmulas diseñadas para datos de una distribución normal.
Como se verá en este tutorial, ignorar la no normalidad puede llevar a resultados incorrectos, a
menudo sobreestimando o subestimando significativamente el porcentaje de productos que
queda fuera de los límites de especificación.
El cuadro de diálogo de entrada de datos requiere el nombre de una sola columna que contiene
los datos. Los datos de la muestra se pueden encontrar en una columna llamada Resistencia
(Strength) en el archivo items.sgd:
24 Normal
Media=202.809
20 Desv. Est.=6.23781
Cp = 1.16
16 Pp = 1.07
frecuencia
Cpk = 0.74
Ppk = 0.68
12 K = -0.36
DPM a Corto Plazo = 13020.86
DPM a Largo Plazo = 20021.19
8
0
180 190 200 210 220 230 240
Strength
1. La distribución normal ajustada no coincide muy bien con los datos. Aunque la forma de
campana de la curva normal tenga la misma media y desviación típica que los datos, la
asimetría de los datos causa que la curva coincida poco con las barras del histograma.
Transformación: ninguna
Distribución: Normal
tamaño de muestra = 100
media = 202.809
desv. est. = 6.23781
En la tabla anterior, la prueba de Shapiro-Wilks rechaza firmemente la hipótesis de que los datos
provienen de una distribución normal. Por lo tanto, cualquier valor estimado de DPM o índices
de capacidad basados en la asunción de normalidad no son válidos.
Cuando los datos son no normales, pueden tenerse en cuenta uno de los dos siguientes
enfoques:
2. Transformar los datos para que sigan una distribución normal en la métrica
transformada.
Es posible cambiar a la distribución del mayor valor extremo mediante Opciones de análisis:
Cp = 1.08
16 Pp = 1.05
frecuencia
Cpk = 0.99
Ppk = 0.96
12 K = -0.26
DPM a Corto Plazo = 1769.08
DPM a Largo Plazo = 2255.63
8
0
180 190 200 210 220 230 240
Strength
El Resumen de análisis muestra una diferencia dramática en el porcentaje estimado del producto
que probablemente esté fuera de las especificaciones, en comparación con la distribución normal
ajustada anterior:
Transformación: ninguna
Figura 15-11. Resumen de análisis después de ajustar los datos a la distribución del mayor valor extremo
El porcentaje estimado fuera de las especificaciones es ahora sólo del 0.23 por ciento, o 2,256 DPM,
una décima parte del resultado de la distribución normal. En este caso, la asunción incorrecta de una
distribución normal hace que el proceso parezca mucho peor que lo que realmente es.
Una alternativa para seleccionar una distribución diferente es transformar los datos. El cuadro de
diálogo Opciones de análisis permite seleccionar varias Transformaciones de datos:
Si se selecciona una transformación, se ajusta una distribución normal a los datos transformados.
El gráfico siguiente muestra los resultados de tomar la transformación de Box-Cox:
24
Normal (después de transformar)
Media=2.75169E-14
20 Desv. Est.=4.52152E-15
Cp = 1.02
16
Pp = 0.99
frecuencia
Cpk = 0.93
12 Ppk = 0.90
K = -0.60
DPM a Corto Plazo = 3077.01
8 DPM a Largo Plazo = 4169.58
0
180 190 200 210 220 230 240
Strength
Para comparar las dos aproximaciones, se selecciona Gráfico de probabilidad desde el cuadro de
diálogo de Tablas y Gráficos para cada aproximación y pegar uno al lado del otro en StatGallery:
ˆ LSL USL ˆ
C pk min ,
3ˆ 3ˆ
En pocas palabras, Cpk es la distancia de la media del proceso estimado al límite de especificación
más cercano, dividida por 3 veces el valor de sigma estimado para el proceso.
Capacidad Desempeño
Corto Plazo Largo Plazo
Sigma 5.75525 6.23781
Cp/Pp 1.15836 1.06875
Cpk/Ppk 0.741874 0.684481
Cpk/Ppk (superior) 1.57485 1.45302
Cpk/Ppk (inferior) 0.741874 0.684481
K -0.35955
DPM 13020.9 20021.2
Nivel de Calidad Sigma 3.73 3.55
Con base en límites 6.0 sigma. La sigma de corto plazo se estimó a partir del rango móvil promedio. El Nivel de Calidad
Sigma incluye un drift de 1.5
sigma en la media.
La pestaña Capacidad del cuadro de diálogo Preferencias, accesible en Editar desde el menú
principal de STATGRAPHICS Centurion 18, especifica los índices que van a ser calculados por
defecto, así como otras opciones importantes:
USL LSL
Cp
6̂
Este índice mide la distancia entre los límites de especificación relativos a la distancia
cubierta por seis desviaciones típicas. Cp es siempre mayor o igual que Cpk. Una diferencia
sustancial entre los dos índices indica que el proceso no está bien centrado.
2. K – es una medida del alejamiento del centro del proceso. K se calcula mediante
ˆ NOM
K
(USL LSL) / 2
3. Nivel de calidad Sigma – un índice utilizado en Seis Sigma para indicar el nivel de calidad
asociado con un proceso. Un nivel de calidad Sigma de 6 es generalmente asociado con una
tasa de defectos de 3.4 por millón.
El cuadro de diálogo Preferencias también afecta a los índices que se muestran en el Gráfico de
capacidad y cómo están etiquetados. Puede encontrar una discusión detallada de los diversos
índices en el documento PDF titulado Análisis de la capacidad – Variables de datos.
Además de los índices de capacidad, la tabla de la figura 15.15 incluye intervalos de confianza que
muestran el margen de error en la estimación de esos índices. Por ejemplo, la tabla anterior
muestra un Cpk de 0.74. El intervalo de confianza del 95% se extiende desde 0.62 a 0.86. Esto
indica que el verdadero Cpk en el proceso del cual se tomaron muestras de los datos puede estar
entre 0.62 y 0.86.
Cuando los datos no siguen una distribución normal, los índices de capacidad deben
modificarse. La opción por defecto en el cuadro de diálogo Preferencias calcula los índices no
normales calculando primero las puntuaciones Z equivalentes para la distribución no normal
ajustada. Para una distribución normal, la puntuación Z mide el número de desviaciones estándar
de la media del proceso a un límite de especificación y está directamente relacionado con la
probabilidad de que una observación caiga fuera de ese límite. Para una distribución no normal,
se calcula una puntuación Z equivalente determinando primero la probabilidad de exceder el
límite y luego encontrando la puntuación Z que equivale a esa probabilidad. Después de calcular
270/ Análisis de la Capacidad de un Proceso
las puntuaciones Z equivalentes para los límites superior e inferior de especificación, Cpk puede
calcularse a partir de
El cuadro de diálogo de entrada de datos para la Calculadora Seis Sigma se muestra a continuación:
3. Indique el valor que quiere asumir para el cambio a largo plazo en la media del proceso.
En Seis Sigma, se asume a veces que la media del proceso oscilará alrededor de su valor a
largo plazo en 1.5 sigma.
4. Presione el botón Calcular para mostrar los valores asociados de los otros estadísticos.
Valores equivalentes:
Índice Valor
Valor-Z 3.99
DPM 33.0518
Defectos 0.00330518
rendimiento 99.9967
Cpk 1.33
SQL 5.49
Asumiendo que la media del proceso no cambia, un Cpk de 1.33 equivale a alrededor de 33
defectos por millón fuera de la especificación más cercana.
16
Tutorial #7: Diseño de
experimentos (DOE)
Diseñando experimentos para ayudar a la mejora de los procesos.
No todos los datos se crean igual. A menudo, un estudio pequeño pero bien planificado aporta más
información que un estudio grande y mal diseñado. Este tutorial examina algunas de las capacidades
de STATGRAPHICS Centurion 18 para crear y analizar diseños de experimentos.
Considere el caso de un ingeniero que desea determinar cuál de las muchas variables de un proceso
tiene mayor impacto en el producto final. Intenta investigar el impacto cambiando 5 factores:
temperatura de entrada, tasa de flujo, concentración, tasa de agitación y porcentaje de catalizador. En
la práctica, este problema podría abordarse de varias maneras, incluyendo:
1. Prueba y error: se seleccionan arbitrariamente combinaciones diferentes de los factores cada vez
que ejecuta el experimento. Tal aproximación raramente produce información útil.
2. Un factor en el momento de la experimentación: manteniendo todos los factores menos uno para
determinar el efecto de ese factor. Esta aproximación es extremadamente ineficiente y puede
ser errónea si alguno de los factores presenta interacción.
Este tutorial describirá cómo se puede construir un diseño de experimentos utilizando la tercera
aproximación y cómo se analizarían los datos resultantes.
Se creará una nueva ventana que contiene una barra de herramientas que nos guiará a través de una
secuencia de 12 pasos:
Figura 16-1. Ventana principal de Asistente de diseño de experimentos con una barra de herramientas de 12 pasos
Los primeros 7 pasos de la secuencia construyen el diseño experimental y se ejecutan antes de que se
realice el experimento. Los últimos 5 pasos se ejecutan después de completar el experimento y se
ocupan del análisis de los datos resultantes.
El primer paso para crear un diseño de experimentos es especificar las variables respuesta que se
medirán durante la ejecución del experimento. Presionando el botón Paso 1 se muestra el siguiente
cuadro de diálogo:
El siguiente cuadro de diálogo se utiliza para seleccionar el diseño deseado de un catálogo de diseños
de pantalla apropiados para 5 factores:
3. Resolución: la resolución del diseño. Los diseños de resolución V pueden estimar todos
los efectos principales y todas las interacciones de dos factores. Los diseños de
resolución IV pueden estimar todos los efectos principales, pero las interacciones de dos
factores se confunden entre sí o con efectos de bloque. Los diseños de resolución III
confunden las interacciones de dos factores con los efectos principales.
En este caso, el ingeniero seleccionó una media fracción en dos bloques de 8 ejecuciones cada
uno.
El cuadro de diálogo final se utiliza para añadir puntos centrales o replicar ejecuciones:
2. Ubicación: La ubicación de los puntos centrales. Las elecciones más comunes son Aleatoria, en
la cual los puntos centrales se extienden aleatoriamente a lo largo de otras ejecuciones, y
Espaciada, que espacia los puntos centrales de manera uniforme en todo el diseño.
3. Diseño replicado: el número de veces adicionales que se debe ejecutar cada conjunto de
condiciones experimentales. Replicando el diseño completo se puede aumentar el número de
ejecuciones rápidamente.
4. Aleatorizar: cuando las ejecuciones se listan en orden aleatorio. La aleatorización debe hacerse
siempre que sea posible para prevenir variables externas acechantes (tales como cambios en el
proceso a lo largo del tiempo) que sesgan los resultados.
Para el experimento actual, se han solicitado cuatro puntos centrales, lo que lleva el diseño final a 20
ejecuciones. También se ha solicitado que el diseño se realice en orden aleatorio, lo que significa que el
orden de las 10 ejecuciones dentro de cada bloque se generará aleatoriamente.
Después del cuadro de diálogo final, la ventana Seleccionar diseño se rellena con las ejecuciones a realizar
del experimento:
Consiste en cada factor experimental en sí mismo (los efectos principales) y los términos que
involucran a cada par de factores (interacciones de dos factores). Los términos individuales se
pueden excluir del modelo seleccionado haciendo doble clic en los mismos con el ratón, que los
mueve al campo de excluidos en el cuadro de diálogo. En este caso, seleccionaremos el modelo
completo de interacción de 2 factores.
bloque A B C D E AB AC AD AE BC BD BE CD CE DE
bloque 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.8944 0.0000 0.0000
A 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
B 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
C 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
D 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
E 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AB 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
AE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
BC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000
BD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000
BE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000
CD 0.8944 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000
CE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000
DE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000
Cuando se presiona el botón Aceptar, se abre una nueva ventana de análisis para cada respuesta.
La ventana de análisis para Rendimiento muestra inicialmente la siguiente salida:
2. Tabla ANOVA : contiene P-valores que pueden ser utilizados para contrastar la
significación estadística de cada efecto.
4. Gráfico de efectos principales: representa el cambio estimado en la respuesta cuando cada uno
de los factores se mueve de su nivel bajo a su nivel alto.
El gráfico de Pareto estandarizado en la esquina superior derecha se puede usar para determinar
rápidamente qué efectos son los más importantes:
A:temperature
+
AB
-
C:concentration
E:catalyst
AC
AE
D:agitation rate
B:flow rate
DE
AD
BD
BE
BC
CE
CD+bloque
0 4 8 12 16
Efecto estandarizado
El Gráfico de efectos principales en el panel inferior derecho muestra cómo afecta a rendimiento cada
factor:
86
85
yield
84
83
82
temperature concentration catalyst
flow rate agitation rate
Para trazar la interacción entre temperatura y tasa de flujo, seleccione primero Gráfico de interacción en
el cuadro de diálogo Gráficos. Luego use Opciones de panel para seleccionar sólo esos dos factores:
88
flow rate=12.0
86
yield
84
flow rate=10.0 flow rate=10.0
82
flow rate=12.0
80
150.0 180.0
temperature
Antes de utilizar el modelo estadístico subyacente a este análisis, es importante eliminar los
efectos no significativos. Para eliminar efectos:
3. En el cuadro de diálogo Opciones de excluir efectos, haga doble clic en cualquier efecto que
quiera excluir, el cual se moverá de la columna Incluir a la columna Excluir:
En este caso, eso significa eliminar todo lo que no es significativo en el gráfico de Pareto,
excepto el efecto principal de B. Ese efecto principal se retiene porque está involucrado en una
interacción significativa con el factor A.
Una vez eliminados los efectos, aparecerá el gráfico de Pareto como se muestra a continuación:
+
A:temperature
-
AB
C:concentration
E:catalyst
B:flow rate
0 3 6 9 12 15
Efecto estandarizado
El StatAdvisor
Esta ventana despliega la ecuación de regresión que se ha ajustado a los datos. La ecuación del modelo ajustado es
89
87
85
yield
83
81
12
79 11.6
11.2
150 10.8
155 160 165 10.4
170 175 180 10 flow rate
temperature
El tipo de gráfico y los factores sobre los que se representa la respuesta pueden modificarse
utilizando Opciones de panel:
296/ Diseño de Experimentos
Figura 16-25. Opciones de panel para gráficos de respuesta
Los tipos de gráficos que pueden crearse son:
1. Superficie: gráficos que ajustan una ecuación como una superficie 3-D con respecto a
cualquiera de los dos factores experimentales. La superficie puede estar entramada, tener
color sólido, o mostrar niveles de contorno para las respuestas. Contornos inferiores incluye
contornos en la cara inferior del gráfico.
2. Contorno: crea un gráfico de contorno 2-D con respecto cualquiera de los dos factores
experimentales. Los contornos pueden mostrarse como líneas, como en un mapa
topográfico, como regiones pintadas, o usando una rampa de color continuo.
6. Malla 3-D: crea un gráfico de mallas mostrando el valor de la variable respuesta en una
región experimental tridimensional.
El botón Factores se usa para seleccionar los factores que definen los ejes de los gráficos y los
valores a los que se mantendrán otros factores:
yield
81.0
82.0
83.0
89 84.0
85.0
87 86.0
85
yield
83
81
12
79 11.6
11.2
150 10.8
155 160 165 10.4
170 175 180 10 flow rate
temperature
12 yield
81.0
82.0
11.6 83.0
84.0
85.0
flow rate
11.2 86.0
10.8
10.4
10
150 155 160 165 170 175 180
temperature
D:agitation rate
+
A:temperature
-
B:flow rate
AD
CD+bloque
CE
BE
BD
DE
BC
AC
E:catalyst
C:concentration
AE
AB
0 30 60 90 120 150
Efecto estandarizado
Tenga en cuenta que la tasa de agitación impacta en resistencia, aunque no tenga un efecto
significativo en rendimiento. A continuación se muestra el gráfico de contorno para los dos
factores más fuertes:
150 strength
190.0
202.0
145
214.0
226.0
agitation rate
140 238.0
250.0
262.0
135
274.0
286.0
130 298.0
310.0
125
120
150 155 160 165 170 175 180
temperature
Como el programa utiliza una búsqueda numérica para encontrar la mejor localización dentro de
la región experimental, es una buena idea comenzar la búsqueda desde varios puntos para evitar
encontrar un óptimo local.
Figura 16-34. Resumen de optimización añadido a la ventana principal del Asistente DOE
En los ajustes indicados de los factores, se estima que rendimiento será igual a 88.67 gramos
mientras resistencia será igual a 250 p.s.i. El rendimiento resultante tiene un cociente de
“deseabilidad” igual a 0.867, ya que es un 86.7% del intervalo especificado de 80 a 90 gramos.
Resistencia tiene un cociente de deseabilidad igual a 1, ya que está exactamente en el objetivo. La
deseabilidad general es igual a 0.948, que se calcula tomando la deseabilidad de cada respuesta,
elevándola a la potencia especificada por su impacto, multiplicando los resultados entre sí y luego
elevando el producto a una potencia igual a 1 dividida por la suma de los impactos. El resultado
es un número entre 0 y 1, con más peso en la respuesta con mayor impacto.
Si se presiona el botón Tablas y Gráficos en la barra de herramientas de análisis, puede crear dos
gráficos adicionales. El Gráfico de contorno revestido muestra los contornos de las dos variables
respuesta solapadas entre sí:
12 83.0
225.0 84.0 85.0 240.0
yield
88.0 strength
11.6
flow rate
11.2
87.0
10.8
86.0
10.4
10
150 155 160 165 170 175 180
temperature
Deseabilidad
0.0
0.1
0.2
150 0.3
145 0.4
0.5
agitation rate
140 0.6
0.7
135 0.8
130 0.9
1.0
125
12
120 11.6
11.2
150 10.8
155 160 165 10.4
170 175 180 10 flow rate
temperature
1. Añadir réplicas: añade otras 20 ejecuciones al diseño idénticas a las primeras 20. Esto
permite añadir más grados de libertad para estimar el error experimental.
2. Colapso del diseño: elimina un factor experimental especificado del diseño y los análisis
resultantes.
3. Añadir una fracción: añade 20 ejecuciones más para hacer que el diseño sea un factorial
completo.
Cuando se presiona el botón etiquetado Paso 12, se muestra el siguiente cuadro de diálogo:
Cuando se recopilan datos a lo largo del tiempo, es importante poder visualizar cómo cambian los
datos a medida que evoluciona el tiempo. Añadiendo un componente dinámico a un gráfico ayuda al
analista a entender las relaciones presentes en los datos de tal forma que ninguna pantalla estática
puede lograrlo. Statgraphics Centurion incluye una colección de Statlets interactivos que pueden
revelar información que de otra forma podría permanecer oculta.
Cuando se presiona el botón Aceptar, se abre una nueva ventana de análisis presentando los
datos para 1961:
Presionando el botón , inicia la presentación de los datos en el gráfico para cada año,
Basic statistics: Applied Statistics and Probability for Engineers, 5th edition, by Douglas C.
Montgomery and George C. Runger (2010). John Wiley and Sons, New York.
Analysis of variance: Applied Linear Statistical Models, 5th edition, by Michael H. Kutner,
Christopher J. Nachtsheim, and John Neter (2004). McGraw Hill.
Regression analysis: Applied Linear Regression, 3rd edition, by Sanford Weisberg (2005). John Wiley
and Sons, New York.
Statistical process control: Introduction to Statistical Quality Control, 7th edition, by Douglas C.
Montgomery (2012). John Wiley and Sons, New York.
Design of experiments: Statistics for Experimenters: Design, Innovation and Discovery, 2nd edition
by George E. P. Box, William G. Hunter, and J. Stuart Hunter (2005). John Wiley and Sons, New
York.
Esta información se descargó del Archivo de Datos de Journal of Statistical Education (JSE).
Fue compilado por Robin Lock del Mathematics Department de St. Lawrence University y se
usa con su permiso. Un artículo asociado a este conjunto de datos aparece en el Journal of
Statistics Education, Volume 1, Number 1 (July 1993).
bodytemp.sgd
Esta información también se descargó del Archivo de Datos del Journal of Statistical Education
(JSE). Fue compilado por Allen Shoemaker del Psychology Department en el Calvin College y se
usa con su permiso. Los datos fueron extraídos de un artículo del Journal of the American
Medical Association (1992, vol. 268, pp. 1578-1580) titulado "A Critical Appraisal of 98.6
Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl
Reinhold August Wunderlich" por P. A. Mackowiak, S. S. Wasserman, and M. M. Levine. Un
artículo asociado con este conjunto de datos aparece en el Journal of Statistics Education,
Volume 4, Number 2 (July 1996).
http://www.amstat.org/publications/jse/jse_data_archive.htm
321/ Índice
zoom a lo largo de ejes, 81 MAX, 48
gráficos de residuos, 210 máximo, 163
Gráficos de superficie y contorno, 231 media, 163
gráficos matriciales, 111, 216 mediana, 163
Guardar Resultados, 74 menú Seis Sigma, 151
heteroscedasticidad, 211 métodos del nonparametirc
histograma, 258 prueba de rangos con signos, 179
histograma de frecuencias, 171 prueba Friedman, 208
histograma dual de frecuencias, 188 prueba Kolmogorov-Smirnov, 195, 262
imprimiendo prueba Kruskal-Wallis, 208
análisis, 83 prueba Mann-Whitney (Wilcoxon), 193
cabecera, 84 MIN, 48
fondo, 84 mínimo, 163
márgenes, 84 modelo no lineal, 223
índices de capacidad, 268 Modificar Columna, 35
iniciar el programa, 7 muesca a la mediana, 166
instalación, 1 nivel de calidad Sigma, 270
intervalos bootstrap, 178 nivel de confianza
intervalos de confianza defecto, 151
deviación típica, 177 números aleatorios, 58
media, 177 ODBC, 42
mediana, 178 opciones de análisis, 68
intervalos HSD, 207 Opciones de panel, 27, 75
intervalos LSD, 206 Opciones Gráficas
K, 270 perfil, 154
Kolmogorov-Smirnov prueba, 262 Opciones Gráficas, 29
LAG, 48 diseño, 88
LAST, 67 Efectos 3D, 88
lecturas sugeridas, 318 ejes, 98
libro de datos, 15, 34 etiquetas y leyendas, 101
Límites de tolerancia, 181 líneas, 92
Límites estadísticos de tolerancia, 181 malla, 90
línea de regresión, 222 puntos, 94
LOG, 48 relleno, 100
LOG10, 48 título superior, 96
logfile, 26 opciones tabulares, 26
LOWESS, 108, 217 Opciones tabulares, 77
matriz de coeficientes de correlación, 218 operadores
matriz de correlación, 285 división, 48
322/ Índice
exponenciación, 48 comparando varias medianas, 208
multiplicación, 48 comparando varias muestras, 203
resta, 48 distribución normal, 261
suma, 48 media, 179
optimización, 302 mediana, 179
OR, 67 regresión, 221
Ordenar datos, 50 tabla de este tamaño, 248
ordenar nombres de variables, 152 valores atípicos, 169
orígenes de datos pruebas de múltiples rangos, 207
registro, 124 puntuación Z, 271
paneles, 69 P-valor, 169
parsimonia, 214 RANDOM, 67
percentiles, 177 R-cuadrado, 221, 223
POR variables, 146 Recodificar datos, 52
Preferencias, 122, 150, 156 recodificar los datos, 52
AED, 172 regla de Sturges, 173
Capacidad, 269 Regresión múltiple, 227
Estadísticas, 164 regresión paso a paso, 229
probabilidad acumulada, 176 Regresión Simple, 65, 219
promedio, 163 REP, 57
Propiedades del libro de datos, 60 resaltando un gráfico de dispersión, 105
prueba de rangos con signos, 179 RESHAPE, 58
prueba F, 191 residuos, 210, 225
prueba Friedman, 208 residuos estudentizados, 225
prueba Kolmogorov-Smirnov, 195 Resumen Estadístico, 24, 162, 187
prueba Kruskal-Wallis, 208 RNORMAL, 59
prueba Levene, 210 ROWS, 67
prueba Mann-Whitney (Wilcoxon), 193 SD, 48
prueba Shapiro-Wilks, 261 Seguimiento de auditoría, 33
prueba t, 179, 192 Seis Sigma, 253
pruebas de hipótesis seleccionando análisis, 142
coeficiente de correlación, 218 Seleccionar, 66
comparando desviaciones típicas, 191 separando un gráfico de dispersión, 103,
comparando distribuciones, 195 202
comparando medianas, 193 sgcinstall.exe, 1
comparando medias, 192 SQRT, 48
comparando proporciones, 252 STANDARDIZE, 48
comparando varias desviaciones típicas, StatAdvisor
210 defecto, 152
323/ Índice
StatFolios tabla ANOVA, 289
guardando, 119 tabla de doble entrada, 243
guardar, 31 tablas de contingencia, 251
publicando, 125 Tablas y Gráficas, 68
rutina de inicio, 121, 125, 152 Tablas y Gráficos, 72
StatGallery, 266 Tabulación, 236
configurando, 128 Tabulación cruzada, 241
copiando gráficos, 130 Tabulación de frecuencias, 175
imprimiendo, 134 test de Desviaciones extremas
modificando gráficos, 132 estudentizadas, 169
solapando gráficos, 131 test de Grubbs, 169
Statistics for Experimenters, 204 test de la chi-cuadrado, 248, 250
Statlets, 311 transformación Box-Cox, 265
StatLink, 60, 124 transformaciónes, 146
StatLog, 26, 32, 79 ubicación, 280
StatPublish, 125 valor estudentizado, 168
StatReporter, 135 valores atípicos, 167
copiando salidas a, 136 ventana de análisis, 23
guardando, 137 visualizador, 311
modificando, 137 visualizador 3D, 311
StatWizard, 138 XML, 40
324/ Índice