Paste
Copy
Cut
Options
  • Pregunta: Los datos de Loblolly en R tienen varias variables relacionadas con los registros de crecimiento de los pinos Loblolly, un tipo de pino nativo del sureste de los Estados Unidos. Cargue estos datos en R y examine el archivo de ayuda con los siguientes comandos:datos("Loblolly") ?Loblolly ¿Cuáles son las variables en este conjunto de datos? ¿Son numéricos o

    Los datos de Loblolly en R tienen varias variables relacionadas con los registros de crecimiento de los pinos Loblolly, un tipo de pino nativo del sureste de los Estados Unidos. Cargue estos datos en R y examine el archivo de ayuda con los siguientes comandos:

    datos("Loblolly")
    ?Loblolly
    1. ¿Cuáles son las variables en este conjunto de datos? ¿Son numéricos o categóricos? (6 puntos)

    Diagramas de caja

    Para sentirnos más cómodos examinando los supuestos del modelo, nos gustaría familiarizarnos con las capacidades de trazado de R. Comenzaremos examinando cómo varía la altura entre los diferentes niveles de semilla. Dado que la variable semilla tiene 14 niveles, le pediremos a R un subconjunto de datos que incluya solo las semillas 329, 315 y 305.

    El siguiente comando crea este subconjunto tomando Loblolly de manera que Seed sea 329 o Seed sea 315 o Seed sea 305. El comando droplevels limpia los datos del subconjunto para que se tracen bien.

    subconjunto <- Loblolly[Loblolly$Semilla == 329 | Loblolly$Semilla == 315 | Loblolly$Semilla == 305,]
    subconjunto <- niveles de caída (subconjunto)

    Para examinar gráficamente cómo varía la altura entre diferentes niveles de semillas (en nuestro subconjunto de datos), comenzaremos con un diagrama de caja. Recuerda que podemos usar ~ como “por”. Es decir, queremos un diagrama de caja de altura por niveles de semilla. Recuerde también que usamos el signo de dólar $ para decirle a R que queremos una variable particular de un conjunto de datos, es decir, conjunto de datos$variable.

    diagrama de caja(subconjunto$altura ~ subconjunto$Semilla)

    Esta trama es un buen comienzo, pero puede parecer algo incompleta. Le falta un título y podría tener etiquetas de eje más limpias. El siguiente comando agrega un título principal y etiquetas de eje xlab e ylab:

    diagrama de caja(subconjunto$altura ~ subconjunto$Semilla, 
            main = "Gráfico de caja de la altura del árbol por semilla en datos subconjuntos",
            xlab = "Semilla", ylab="Altura (pies)")
    1. ¿Crees que la altura difiere entre diferentes valores de semilla? (2 puntos)
    1. ¿Los tres grupos de altura parecen distribuidos normalmente? (2 puntos)

    Histogramas

    Si bien los diagramas de caja son una forma conveniente de hacer comparaciones lado a lado, puede resultar difícil responder de manera concluyente preguntas como la planteada en el ejercicio 3. Los histogramas proporcionan una forma mucho más sencilla de examinar la forma de una distribución. El siguiente comando crea un histograma básico para la variable de altura de Loblolly:

    hist(Loblolly$altura)

    Nuevamente nos gustaría incluir un título mejor y nuevas etiquetas de ejes. ¡Afortunadamente, todas las funciones de R para trazar utilizan el mismo enfoque!

    hist(Loblolly$altura,
         main = "Histograma de Loblolly Pine Heights",
         xlab = "Altura (pies)", ylab="Frecuencia")
    1. ¿Las alturas del pino piñonero parecen estar distribuidas normalmente? (2 puntos)

    Anteriormente, queríamos información sobre la normalidad para un subconjunto de datos, usando solo las semillas 329, 315 y 305. Podemos construir histogramas individuales para estos datos. Recuerde que los corchetes pueden leerse como “tal que”.

    hist(Loblolly$altura[Loblolly$Semilla == 329],
         main = "Histograma de alturas de pino para Seed 329",
         xlab = "Altura (pies)", ylab="Frecuencia")
    1. Crea histogramas de las alturas de los pinos para las otras dos semillas, 315 y 305. Para cada semilla, decide si es razonable suponer que las alturas se distribuyen normalmente. (4 puntos)

    Diagramas de dispersión y líneas de regresión

    ¡Es posible que tengamos algunos problemas con estos datos porque solo hay 6 observaciones por semilla! Puede ser más razonable comparar la edad y la altura de los árboles en los datos completos.

    1. ¿Cuántas observaciones hay para la altura? (2pts) ¿Cuantos valores diferentes hay para la edad? (2 puntos) Muestra tu código R para encontrar la respuesta a las dos preguntas anteriores. (4 puntos)

    Si queremos examinar la relación entre edad y altura, es razonable pensar que estaríamos interesados en utilizar la altura para predecir la edad. (¡Si caminamos por un bosque de pinos taesta, será mucho más fácil calcular la altura de un árbol que su edad!)

    1. En este contexto, ¿cuál es la variable explicativa (predictora)? ¿Cuál es la respuesta? (2 puntos)

    Usando esta configuración de variable predictora/respuesta, queremos observar un diagrama de dispersión de los datos para tener una idea de si podría haber alguna correlación entre los dos. El siguiente comando crea este diagrama de dispersión, completo con un título y etiquetas de eje razonables.

    trama(x = Loblolly$altura, y = Loblolly$edad,
         main = "Diagrama de dispersión de edad versus altura",
         xlab = "Altura (pies)", ylab = "Edad (Años)")
    abline(a = 0,7574, b = 0,3783, col='rojo')
    1. ¿Existe evidencia de una relación lineal entre la edad y la altura de los árboles? (2 puntos) Sin hacer ningún cálculo ni usar la computadora, adivine cuál podría ser la correlación para estas dos variables. (2 puntos)

    La próxima semana dedicaremos algo de tiempo a la regresión, pero por ahora la línea de regresión es

    ŷ =0,7574+0,3783xy^=0,7574+0,3783x

    Podemos incluir esto en nuestro gráfico usando la función abline. Esta función agrega una línea a un gráfico existente en R. El nombre "abline" se refiere a la forma en que se escriben las líneas en muchas clases de álgebra: y=a+bxy=a+bx. Incluya la línea de regresión en su diagrama de dispersión agregando la siguiente línea de código justo debajo de la función de trazado anterior:

    1. Predice la edad de un árbol que mide 20 pies de altura. (3 puntos)

    Por favor muestre 6-9 específicamente.

  • Chegg Logo
    Esta pregunta aún no se resolvió!
    ¿No es lo que buscas?
    Envía tu pregunta a un experto en la materia.