¡Tu solución está lista!
Nuestra ayuda de expertos desglosó tu problema en una solución confiable y fácil de entender.
Mira la respuestaMira la respuesta done loadingPregunta: Descenso de gradiente Sea l n ( β ) la función de verosimilitud en función de β para un X,Y dado. Recuerde de la Lección 9 el gradiente de una función de valor real f(x), x ∈ R d . Podemos utilizar el descenso de gradiente para encontrar un mínimo local del negativo de la función de verosimilitud logarítmica. El algoritmo de optimización de descenso de
Descenso de gradiente
Sea l n ( β ) la función de verosimilitud en función de β para un X,Y dado. Recuerde de la Lección 9 el gradiente de una función de valor real f(x), x ∈ R d .
Podemos utilizar el descenso de gradiente para encontrar un mínimo local del negativo de la función de verosimilitud logarítmica. El algoritmo de optimización de descenso de gradiente, en general, se utiliza para encontrar el mínimo local de una función dada alrededor de un punto inicial de partida.
Sea l n,1 ( β ) = - l n ( β ).
Dado un punto de partida β , repita
1. Δ β = -∇ l n,1 ( β )
2. Elija el tamaño del paso t .
3. Actualizar β:= β + t Δ β .
hasta que se cumpla un criterio de detención.
El criterio de detención para el descenso de gradiente suele tener la forma || ∇ l n ( β ) || ≤ ∈ para algunos muy pequeños ∈.
El análisis del descenso de gradiente y la elección del tamaño del paso t en cada iteración están más allá del alcance de esta clase, pero la implementación de este algoritmo requiere que se calculen los gradientes de la función l n ( β ) en varios puntos como se indica en el Paso 1 del algoritmo. Por lo tanto, la complejidad computacional del descenso de gradiente se reduce a la complejidad de evaluar el gradiente de la función l n ( β ).
Nota: El algoritmo anterior es un algoritmo de descenso para minimizar y encontrar un mínimo local de una función dada. Esta es la razón por la que usamos la conversión l n,1 ( β ) = - l n ( β ). Si uno fuera a reescribir el algoritmo sin esta conversión, habríamos maximizado l n ( β ) y el Paso 1 del algoritmo sería Δ β = ∇ l n ( β ). Este algoritmo se llama algoritmo de ascenso de gradiente . Es más común en la literatura en optimización usar la versión de descenso en lugar de la versión de ascenso.
Predicción
La siguiente figura muestra
* diagrama de dispersión de ,
* un modelo lineal generalizado asumiendo que es Poisson y utilizando la función de enlace canónica para la familia exponencial de Poisson.
El vector estimado β^ =[1,1723 0,0939], donde asumimos g(u(x))= β 1 + β 2 .
¿Cuál es el valor previsto u^ para un nuevo x=22? Proporcione una respuesta con al menos 3 decimales.
Respuesta:
3.238 es incorrecto
¿Por qué elegir el enlace canónico?
Cada opción es una afirmación optimista sobre la función de enlace canónica en el contexto de los modelos lineales generales y la estimación de parámetros. ¿Cuáles de las siguientes afirmaciones son correctas ? Seleccione todas las que correspondan.
a) Dada una familia exponencial, siempre existe una parametrización que da un enlace canónico que es creciente e invertible.
b) La función de log-verosimilitud es cóncava si Φ > 0.
c) Si la familia es gaussiana, entonces el MLE para β es el LSE para regresión lineal, (X T X) -1 X T Y.
f) Siempre existe una fórmula útil para el estimador de máxima verosimilitud de β .
Sólo c) es incorrecto
- Hay 3 pasos para resolver este problema.SoluciónPaso 1Mira la respuesta completaPaso 2
Descenso de gradiente:
El descenso de gradiente es un algoritmo de optimización que se utiliza para e...
DesbloqueaPaso 3DesbloqueaRespuestaDesbloquea
Estudia mejor, ¡ahora en español!
Entiende todos los problemas con explicaciones al instante y pasos fáciles de aprender de la mano de expertos reales.