{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Práctica 3: Estadística descriptiva con R" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Datos de partida\n", "\n", "Se han recogido en una tabla datos relativos a unos **6000 partos** atendidos en el **Hospital del Mar** de Barcelona entre los años 1991 y 1999.\n", "\n", "La tabla ha sido anonimizada para poder trabajar sobre ella sin infringir ninguna norma ética ni vulnerar los derechos de privacidad de los pacientes.\n", "\n", "La tabla recoge las siguientes variables:\n", "\n", "* ANYPART: Año de parto, la tabla recoge datos entre 1991 y 1999\n", "* MESPART: Mes del parto\n", "* DIAPART: Día del parto\n", "* TRIMESTR: Trimestre del año en el cual se produjo el parto\n", "* GESTACIO: Tipo de gestación (prematura o “a término”)\n", "* PESNADO: Peso del neonato \n", "* EDATMARE: Edad de la madre en el momento del parto" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Objetivos de la práctica.\n", "\n", "Obtención de estadísticos descriptivos a partir de la tabla completa de datos. En concreto, estamos interesados en conocer cuál es el peso de los niños y las edades de las madres." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Protocolo\n", "\n", "Descarga el fichero partos1.xls, que puedes encontrar en la carpeta practicas del Tema 3. Abre eldocumento con Excel para inspeccionar los datos. Anota el número objetos y de variables, así como el nombre y tipo de las variables. Cierra Excel antes de continuar.\n", "\n", "Vamos a importar la tabla en el programa SPSS. Usa la opción Archivo>>>Abrir y selecciona en el recuadro “Archivos de Tipo”, la opción “Excel”. En el cuadro de diálogo, asegúrate de marcar la opción “Leer los nombres de las variables”.\n", "\n", "Para analizar los pesos de los niños selecciona Analizar>>Estadísticos descriptivos>>Frecuencias. En el cuadro de diálogo selecciona la variables “PESNADO” y haz clic en la flecha para añadirla a la lista de variables a analizar. Deselecciona la opción de “Mostrar Tabla”. Pulsa el botón “Estadísticos” para seleccionar obtener estadísticos de tendencia central yde dispersión. Pulsa el botón “Gráficos” para seleccionar el mostrar un histograma. Pulsa “Aceptar”. Anota los resultados.\n", "\n", "Si te fijas en el histograma algunos individuos tienen peso 0. Elimina estos casos usando el comando Datos>>>Seleccionar Casos... y repite el análisis descriptivo. Anota los resultados.\n", "\n", "Analiza ahora la edad de las madres obteniendo los mismos estadísticos de tendencia central y dispersión. Anota los resultados.\n", "\n", "Repetiremos ahora el análisis utilizando el programa R. Comienza por abrir el fichero con Excel y exportarlo en formato CSV a una carpeta que tenga una dirección sencilla (por ejemplo \"C:\\temp\"). Sigue el procedimiento que se describe en la “Breve introducción a R” para importarlo y obtener un objetollamado “partos”de tipo data.frame. El comando final tendrá un formato similar a: \n", "\n", "```\n", "partos <-read.csv(\"partos1.csv\",sep=\";\",header=TRUE)\n", "```\n" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "partos<-read.csv(\"partos1.csv\",sep=\";\",header=TRUE,stringsAsFactors = TRUE)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Para obtener los principales estadísticos descriptivos usa la función summary() con el objeto partos como único argumento. La función summary() también calcula estadísticos descriptivos sobre vectores de valores. " ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ " ANYPART MESPART DIAPART TRIMESTR \n", " Min. :1991 Min. : 1.000 Min. : 1.00 Min. :1.000 \n", " 1st Qu.:1993 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.:2.000 \n", " Median :1996 Median : 7.000 Median :16.00 Median :3.000 \n", " Mean :1995 Mean : 6.658 Mean :15.68 Mean :2.548 \n", " 3rd Qu.:1998 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:4.000 \n", " Max. :1999 Max. :12.000 Max. :31.00 Max. :4.000 \n", " GESTACIO PESNADO EDATMARE \n", " :1911 Min. : 0 Min. :12.00 \n", " A terme :3578 1st Qu.:2870 1st Qu.:24.00 \n", " Gestacio prolongad: 233 Median :3190 Median :28.00 \n", " Gestacion prolonga: 11 Mean :3170 Mean :27.87 \n", " Prematur : 309 3rd Qu.:3505 3rd Qu.:32.00 \n", " Max. :6530 Max. :53.00 " ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "summary(partos)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Calcula estadísticos descriptivos mediante summary() para las columnas PESNADO y GESTACIO por separado. Consulta el final de la sección sobre manipulación de objetos de la “Breve introducción a R”." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Respecto a los estadísticos descriptivos obtenidos de la variable PESNADO, ¿podrías indicar por debajo de quéumbral de peso han nacido la mitad (el 50%) de los bebés?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Respecto a los estadísticos descriptivos obtenidos de la variable GESTACIO, habrás observado que al tratarse de una variable categórica (factor), estos estadísticos se reducen a una tabla del número de ocurrencias de cada valor distinto (nivel) observado en la variable. Si examinas detenidamente cuales son los niveles que toma la variable GESTACIO apreciarás que dos de ellos denotan el mismo caso, Gestacio prolongad y Gestacion prolonga, y que existen 1911 observaciones cuyo nivel no aparece especificado. Esta situación no es excepcional dado que a menudo los datos contienen errores o inconsistencias que debemos corregir antes de proceder a su análisis. Para llevar a cabo esta tarea primero examinaremos más detenidamente los niveles de la variable GESTACIO con la función levels()de esta forma:\n", "\n", "```\n", "levels(partos$GESTACIO)\n", "```" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "