Opciones adicionales en Rcmdr usando RcmdrPlugin.UCA

Introducción

El paquete RcmdrPlugin.UCA añade algunas opciones al menú de Rcmdr que son útiles para los usuarios noveles en R. A saber:

  • Constraste de hipótesis e intervalo de confianza para la varianza
  • Test de aleatoriedad para variables numéricas y dicotómicas
  • Predicción de valores usando el modelo activo

En las siguientes secciones se describirán detalladamente cada una de estas opciones.

Test de hipótesis e intervalo de confianza para la varianza de una población normal

Dentro del menú “Estadísticos” -> “Varianzas”, se proporcionan una nueva entrada para calcular intervalos de confianza y hacer contrastes sobre la varianza en una población normal. Esta opción usa la función sigma.test del paquete TeachingDemos.

Ejemplo de uso del menú “Test de varianza para una muestra…”

En primer lugar cargaremos el paquete randtest del cual vamos a cargar los datos. Para ello:

  1. Del menú de Rcmdr elegir la opción “Herramientas” -> “Cargar paquete(s)…”
  2. Buscar en el cuadro de diálogo randtest y seleccionarlo
  3. Pulsar aceptar

En la ventana de mensajes debe aparecer [x] NOTA: Paquetes cargados: randtest. Si randtest no aparece en la lista deberá previamente instalar el paquete.

A continuación cargaremos un conjunto de datos, por ejemplo, “sweetpotato” mediante los pasos siguientes:

  1. Elegir del menú de Rcmdr: “Datos” -> “Conjuntos de datos en paquetes” -> “Leer conjunto de datos desde paquete adjunto…”
  2. Pulsar dos veces sobre “randtests”
  3. Pulsar sobre “sweetpotato” y sobre “Aceptar”.

Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

data(sweetpotato, package="randtests")
sweetpotato <- as.data.frame(sweetpotato)

En la ventana de mensajes aparecerá [x] NOTA: El conjunto de datos sweetpotato tiene 70 filas y 4 columnas. y en el cuadro de diálogo anexo a la etiqueta “Conjunto de datos:” aparecerá “sweetpotato”.

Para construir el intervalo de confianza para sigma para la variable “yield” (rendimiento), seleccione del menú de Rcmdr: “Estadísticos” -> “Varianzas” -> “Test de varianza para una muestra…” seleccione “yield” y “OK”. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

with(sweetpotato, sigma.test(yield[!is.na(yield)], alternative='two.sided', sigmasq=1.0, conf.level=0.95))

y en el cuadro de salida

with(sweetpotato, sigma.test(yield[!is.na(yield)], alternative='two.sided', sigmasq=1.0, conf.level=0.95))
#> 
#>  One sample Chi-squared test for variance
#> 
#> data:  yield[!is.na(yield)]
#> X-squared = 6514.8, df = 69, p-value < 2.2e-16
#> alternative hypothesis: true variance is not equal to 1
#> 95 percent confidence interval:
#>   69.41231 135.93966
#> sample estimates:
#> var of yield[!is.na(yield)] 
#>                    94.41731

Se ha rechazado la hipótesis nula σ = 1 a un nivel de confianza del 95%, obeniéndose un intervalo de confianza a dicho nivel para σ de (69.41231, 135.93966).

Si se desea en el cuadro de diálogo anterior se puede especificar:

  1. la hipótesis alternativa
  2. el valor de sigma bajo la hipótesis nula
  3. el nivel de confianza.

Test de aleatoriedad

Se proporcionan dos opciones dentro del menú “Test no paramétricos” para realizar el test de aleatoriedad según el tipo de variable.

Test de aleatoriedad para una variable dicotómica

Dentro del menú “Estadísticos” -> “Test no paramétricos” -> “Test de aleatoriedad para un factor de dos niveles…”, se proporcionan una nueva entrada para contrastar la aleatoriedad de una variable de tipo factor con dos niveles. Esta opción usa la función runs.test del paquete tseries, si bien para evitar conflictos ha sido renombrada a twolevelfactor.runs.test.

Ejemplo de uso del menú “Test de aleatoriedad para un factor de dos niveles…”

En primer lugar cargaremos un conjunto de datos, por ejemplo, “AMSsurvey” mediante los pasos siguientes:

  1. Elegir del menú de Rcmdr: “Datos” -> “Conjuntos de datos en paquetes” -> “Leer conjunto de datos desde paquete adjunto…”
  2. Pulsar dos veces sobre “carData”
  3. Pulsar sobre “AMSsurvey” y sobre “Aceptar”.

Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

data(AMSsurvey, package="carData")

En la ventana de mensajes aparecerá [x] NOTA: El conjunto de datos AMSsurvey tiene 24 filas y 5 columnas. y en el cuadro de diálogo anexo a la etiqueta “Conjunto de datos:” aparecerá “AMSsurvey”.

Para hacer el test de aleatoriedad a la variable “sex”, seleccionamos del menú de Rcmdr: “Estadísticos” -> “Test no paramétricos” -> “Test de aleatoriedad para un factor con dos niveles…”, seleccionamos “sex” y “OK”. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

with(AMSsurvey, twolevelfactor.runs.test(sex))

y en el cuadro de salida

with(AMSsurvey, twolevelfactor.runs.test(sex))
#> 
#>  Runs Test
#> 
#> data:  sex
#> Standard Normal = 4.5917, p-value = 4.397e-06
#> alternative hypothesis: two.sided

Se ha rechazado la hipótesis nula de aleatoriedad con un p-valor de 4.3973622^{-6}, antes de proseguir con el estudio habría que investigar la causa de esta falta de aleatoriedad.

Test de aleatoriedad para una variable numérica

Dentro del menú “Estadísticos” -> “Test no paramétricos” -> “Test de aleatoriedad para una variable numérica…”, se proporcionan una nueva entrada para contrastar la aleatoriedad de una variable de tipo numérico. Esta opción usa la función runs.test del paquete randtest, si bien para evitar conflictos ha sido renombrada a numeric.runs.test.

Ejemplo de uso del menú “Test de aleatoriedad para una variable numérica…”

En primer lugar, si aún no lo hemos hecho, cargaremos el conjunto de datos sweetpotato. Si el conjunto de datos está cargado pero no está activo, se pulsa el botón anexo al texto “Conjunto de datos:”, se selecciona sweetpotato y se pulsa “Aceptar”. El texto del botón cambia a “sweetpotato”.

Para hacer el test de aleatoriedad a la variable “yield” (rendimiento), seleccionamos del menú de Rcmdr: “Estadísticos” -> “Test no paramétricos” -> “Test de aleatoriedad para una variable numérica…” seleccionamos “yield” y “OK”. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

with(sweetpotato, numeric.runs.test(yield))

y en el cuadro de salida

with(sweetpotato, numeric.runs.test(yield))
#> 
#>  Runs Test
#> 
#> data:  yield
#> statistic = -4.5751, runs = 17, n1 = 35, n2 = 35, n = 70, p-value =
#> 4.759e-06
#> alternative hypothesis: nonrandomness

La hipótesis de aleatoriedad se rechaza con un p-valor de 4.7589499^{-6}, antes de proseguir con el estudio habría que investigar la causa de esta falta de aleatoriedad.

Predicciones usando el modelo activo

La entrada de menú “Predecir usando el modelo activo”, en el menú modelos, tiene dos opciones para predecir datos usando el modelo activo dependiendo de cómo se proporcionen los valores para las variables predictoras.

Introducir datos y predecir

Si selecciona “Modelos” -> “Predecir usando el modelo activo” -> “Introducir datos y predecir”, se creará un nuevo conjunto de datos, como un data.frame y se abrirá el editor automáticamente. A continuación, se pueden introducir los valores de la variable predictora que se desea utilizar para la predicción, no es necesario introducir los valores de las variables no predictoras. Al cerrar el editor de datos se muestran los valores predichos.

Ejemplo de uso del menú “Introducir datos y predecir…”

Cargar los datos “Chile” eligiendo del menu de Rcmdr: “Datos” -> “Conjuntos de datos en paquetes” -> “Leer conjunto de datos desde paquete adjunto…” pulsar dos veces sobre “carData”, pulsar sobre “Chile” y sobre “Aceptar”. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

data(Chile, package="carData")

En la ventana de mensajes aparecerá [x] NOTA: El conjunto de datos car tiene 2700 filas y 8 columnas. y en el cuadro de diálogo anexo a la etiqueta “Conjunto de datos:” aparecerá “Chile”.

Para construir un modelo seleccione del menú de Rcmdr: “Estadisticos” -> “Ajuste de modelos” -> “Regresion lineal…”. Como “Variable explicada” seleccione income y age como “Variables explicativas” y pulse “Aceptar”. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

RegModel.1 <- lm(income~age, data=Chile)
summary(RegModel.1)

y en el cuadro de salida

RegModel.1 <- lm(income~age, data=Chile)
summary(RegModel.1)
#> 
#> Call:
#> lm(formula = income ~ age, data = Chile)
#> 
#> Residuals:
#>    Min     1Q Median     3Q    Max 
#> -33175 -23653 -17457   1673 168847 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) 37240.54    2176.34  17.112   <2e-16 ***
#> age           -86.96      52.68  -1.651   0.0989 .  
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 39500 on 2599 degrees of freedom
#>   (99 observations deleted due to missingness)
#> Multiple R-squared:  0.001047,   Adjusted R-squared:  0.000663 
#> F-statistic: 2.725 on 1 and 2599 DF,  p-value: 0.09891

Obsérvese que el modelo se ha establecido a RegModel.1. Si quiere predecir el ingreso (income) para personas de 35 y 40 años de edad (age). Del menú de Rcmdr seleccione: “Modelos” -> “Predecir usando el modelo activo” -> “Introducir datos y predecir”. En la columna edad (age) introduzca 35 y 40 y cierre el editor. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

.data <- edit(Chile[0,])
.data
predict(RegModel.1, .data)
remove(.data)

y en el cuadro de salida, suponiendo que se han introducido 35 y 45 en la columna age

.data <- edit(Chile[0,])
.data
#>   region population  sex age education income statusquo vote
#> 1   <NA>         NA <NA>  34      <NA>     NA        NA <NA>
#> 2   <NA>         NA <NA>  45      <NA>     NA        NA <NA>
predict(RegModel.1, .data)
#>        1        2 
#> 34283.74 33327.13
remove(.data)

Se muestra el valor predicho de ingresos para esas edades usando el modelo activo (RegModel.1).

Opción “Agregar predicciones a un conjunto de datos existente …”

Si se selecciona “Modelos” -> “Predecir usando el modelo activo” -> Agregar predicciones a un conjunto de datos existente …” se agregan las predicciones usando el modelo activo al conjunto de datos seleccionado, usando para las variables predictoras los valores de dicho conjunto de datos. Después de seleccionar esta opción, el usuario o usuaria puede seleccionar un conjunto de datos existente utilizando el cuadro de diálogo correspondiente.

Si el conjunto de datos no proporciona los valores para todas las variables predictoras, se producirá un error y no se proporcionarán valores predichos.

A diferencia de la opción del menú “Añadir las estadísticas de las observaciones a los datos…”, esta opción puede ser usada con un conjunto de datos distinto al que se ha utilizado para construir el modelo, siempre que dicho conjunto de datos proporcione los valores para todas las variables predictoras.

Ejemplo de uso del menú “Añadir predicciones a un conjunto de datos existente…”

Cargar los datos “Chile” como se describió anteriormente.

Para construir un modelo seleccione del menu de Rcmdr: “Estadisticos” -> “Ajuste de modelos” -> “Regresion lineal…” como “Variable explicada” seleccione income y age como “Variables explicativas” y pulse “Aceptar”.

Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

RegModel.1 <- lm(income~age, data=Chile)
summary(RegModel.1)

y en la ventana de salida

RegModel.1 <- lm(income~age, data=Chile)
summary(RegModel.1)
#> 
#> Call:
#> lm(formula = income ~ age, data = Chile)
#> 
#> Residuals:
#>    Min     1Q Median     3Q    Max 
#> -33175 -23653 -17457   1673 168847 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) 37240.54    2176.34  17.112   <2e-16 ***
#> age           -86.96      52.68  -1.651   0.0989 .  
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 39500 on 2599 degrees of freedom
#>   (99 observations deleted due to missingness)
#> Multiple R-squared:  0.001047,   Adjusted R-squared:  0.000663 
#> F-statistic: 2.725 on 1 and 2599 DF,  p-value: 0.09891

Obsérvese que el modelo se ha establecido a RegModel.1. Si se quiere predecir los valores para los ingresos (income) para los valores de edad (age) en el conjunto de datos Chile del menu “Modelos” de Rcmdr seleccione: “Predicir usando el modelo activo” -> “Anadir predicciones a un conjunto de datos existente…”. En el diálogo seleccione un conjunto de datos compatible con el modelo. En este caso seleccione Chile. Rcmdr responde con la siguiente instrucción en el cuadro de instrucciones (R Script)

Chile$fitted.RegModel.1 <- predict(RegModel.1, Chile)

y en la ventana de salida

Chile$fitted.RegModel.1 <- predict(RegModel.1, Chile)

Las predicciones para ingreso (income) se han guardado como fitted.RegModel.1 en el conjunto de datos (Chile). Se pueden ver los valores añadidos usando el boton “Visualizar datos”.