Saturday 19 August 2017

Zero Inflated Binary Options


Bem-vindo ao Instituto de Pesquisas Digitais e Educação Stata Annotated Output Zero-Inflated Negrogen Binomial Regression Esta página mostra um exemplo de análise de regressão binomial negativa zero-inflado com notas de rodapé explicando o resultado em Stata. Os dados coletados foram informações acadêmicas sobre 316 alunos em duas escolas diferentes. A variável de resposta é dias ausentes durante o ano letivo (daysabs). Nós exploramos seu relacionamento com pontuações de testes padronizados em matemática (mathnce), escores de teste padronizados por linguagem (langnce) e gênero (feminino). Como assumido para um modelo binomial negativo, nossa variável de resposta é uma variável de contagem e a variância da variável de resposta é maior que a média da variável de resposta. Às vezes, ao analisar uma variável de resposta que é uma variável de contagem, o número de zero pode parecer excessivo. Com o exemplo de conjunto de dados em mente, considere os processos que podem levar a um valor de variável de resposta de zero. Um estudante pode estar ausente zero dias durante o ano letivo, se ele nunca adoecer e nunca esquece a escola. Outro estudante pode estar ausente zero dias durante o ano letivo porque seus pais insistem que ela vai à escola todos os dias, independentemente da doença ou desejo de ignorar a escola. Esses dois alunos ficarão idênticos na variável de resposta, mas chegaram ao mesmo resultado através de dois processos diferentes. O primeiro aluno poderia estar ausente durante o ano letivo (se ele se tornou doente ou optou por ignorar a escola), mas não era. O segundo aluno estava certo de estar ausente zero dias. O segundo aluno será referido a partir deste ponto como um zeroquot quotcertain. Assim, o número de zeros pode ser inflado e o número de alunos ausentes por zero dias não pode ser explicado da mesma maneira que o número de estudantes que estavam ausentes por mais de zero dias. Alguns estudantes ficaram ausentes zero dias pelas mesmas razões em que outros estudantes estavam ausentes um, dois ou três dias (saúde e ausência escolar) e, enquanto alguns estudantes estavam ausentes zero dias por um conjunto diferente de razões. Um modelo binomial negativo padrão não distingue entre esses dois processos, mas um modelo inflado instantaneamente permite e acomoda essa complicação. Ao analisar um conjunto de dados com um número excessivo de zeros de resultado e dois processos possíveis que chegam a um resultado zero, um modelo inflado deve ser considerado. Podemos observar estatísticas resumidas para tentar avaliar se os dados estão sobre-dispersos e um histograma da variável de resposta para ver se o número de zeros é excessivo. (Se dois processos geraram os zeros na variável de resposta, mas não há um número excessivo de zeros, um modelo de inflação zero pode ou não ser usado.) A partir daqui, podemos ver que a variância de nosso resultado (o padrão Desvio quadrado) é maior do que a média. Enquanto zero é o número de dias mais comum ausente, é difícil ver esse histograma se o número de zeros exceder o que esperamos de um modelo binomial negativo. Assim, podemos executar um modelo binomial negativo inflado e testar se é melhor predizer nossa variável de resposta do que um modelo binomial negativo padrão. A regressão binomial negativa com inflação zero gera dois modelos separados e depois os combina. Primeiro, um modelo de logit é gerado para os casos cerâmicos certos descritos acima, prevendo se um aluno seria ou não nesse grupo. Então, um modelo binomial negativo é gerado prevendo as contagens para os alunos que não são certos zeros. Finalmente, os dois modelos são combinados. Ao executar o binômio negativo inflado no Stata, você deve especificar ambos os modelos: primeiro o modelo de contagem, então o modelo que prevê certos zeros. Neste exemplo, estamos prevendo contar com mathnce, langnce e feminino. E prevendo certos zeros com matemática e langnce. O teste vuong irá comparar o binômio negativo inflado zero com o modelo binomial negativo padrão. Histórico de iterações a. Ajustando o modelo de constante somente - Esta é uma listagem das probabilidades de log em cada iteração para o modelo logístico que prevê se um aluno é ou não certo. Lembre-se de que a regressão logística usa estimativa de máxima verossimilhança, que é um procedimento iterativo. A primeira iteração (chamada Iteração 0) é a probabilidade do log do modelo quotnullquot ou quotemptyquot que é, um modelo sem preditores. Na próxima iteração (chamada Iteração 1), as variáveis ​​especificadas para prever certos zeros estão incluídas no modelo. Neste exemplo, os preditores para o modelo de constante apenas são mathnce e langnce. Em cada iteração, a probabilidade do log cresce porque o objetivo é maximizar a probabilidade do log. Quando a diferença entre as iterações sucessivas é muito pequena, o modelo diz ter quotconvergedquot e a iteração pára. Para obter mais informações sobre este processo para resultados binários, consulte Modelos de regressão para variáveis ​​categóricas e dependentes limitadas por J. Scott Long (página 52-61). B. Modelo completo ajustável - Esta é uma lista das probabilidades de log em cada iteração para o modelo completo, combinando o modelo de constante somente com o modelo de contagem. Novamente, o ajuste deste modelo é um procedimento iterativo. Observe que a probabilidade de log da Iteração 0 para o modelo completo é igual à probabilidade de log em que o modelo de constante somente havia convergido. Isso ilustra que o modelo completo começa com o modelo de constante constante ajustado parado e melhora com o modelo de contagem. Resumo do modelo c. Modelo de inflação - Isso indica que o modelo inflacionado é um modelo de logit, prevendo um resultado binário latente: seja ou não um aluno um certo zero. Isso também informa a interpretação das estimativas dos parâmetros. D. Probabilidade do Log - Esta é a probabilidade do log do modelo completo ajustado. Ele é usado no teste Qui-Quadrado Ratio de Probabilidade de se todos os coeficientes de regressão preditores no modelo são simultaneamente zero. E. Número de obs - Este é o número de observações no conjunto de dados para o qual todas as variáveis ​​de resposta e preditor não estão faltando. F. Obs. Não-zero - Este é o número de observações no conjunto de dados para o qual a variável de resposta não é igual a zero. G. Zero obs - Este é o número de observações no conjunto de dados para o qual a variável de resposta é igual a zero. H. LR chi2 (3) - Este é o teste Qui-Quadrado da Razão de Probabilidade (LR) que pelo menos um dos coeficientes de regressão dos preditores não é igual a zero. O número entre parênteses indica os graus de liberdade da distribuição Qui-Quadrado usado para testar a estatística LR Chi-Quadrado e é definido pelo número de preditores no modelo (3). A estatística LR Chi-Square pode ser calculada em -2 (L (modelo nulo do modelo completo) - L (modelo ajustado do modelo completo)) -2 ((- 890.07088) - (-880.77656)) 18.59. Eu. Prob gt chi2 - Esta é a probabilidade de obter uma estatística de teste LR tão extrema quanto mais, do que a estatística observada sob a hipótese nula, a hipótese nula é que todos os coeficientes de regressão em ambos os modelos são simultaneamente iguais a zero. Em outras palavras, esta é a probabilidade de obter essa estatística do qui-quadrado (18,59) ou uma mais extrema se, de fato, não houver efeito nas variáveis ​​preditoras. Este valor de p é comparado a um nível alfa especificado, nossa disposição para aceitar um erro de tipo I, que normalmente é definido como 0,05 ou 0,01. O pequeno valor de p do teste LR, 0.0003, levaria a concluir que pelo menos um dos coeficientes de regressão no modelo não é igual a zero. O parâmetro da distribuição do qui-quadrado usado para testar a hipótese nula é definido pelos graus de liberdade na linha anterior, chi2 (3). Parâmetro Estimativas j. Daysabs - Esta é a variável de resposta prevista pelo modelo completo. K. Inflar - Esta parte da saída refere-se ao modelo logístico que prevê se um aluno é ou não certo. eu. Coef. - Estes são os coeficientes de regressão. Os coeficientes na seção daysabs da saída são interpretados como você interpretaria coeficientes de um modelo binomial negativo padrão: o número esperado de dias de mudanças ausentes por exp (Coef.) Para cada aumento de unidade no preditor correspondente. Dias de Previsão Ausentes para Estudantes Não no quotCertain Zeroquot Group mathnce - Se um sujeito aumentasse seu score de mathnce em um ponto, o número esperado de dias ausentes em um ano diminuiria por um fator de exp (-. 0011483) 0,99885236 enquanto aguentava Todas as outras variáveis ​​na constante do modelo. Assim, quanto maior o grau de matemática dos estudantes, menos dias previstos estão ausentes. Langnce - Se um sujeito aumentasse seu escore de langnce em um ponto, o número esperado de dias ausentes em um ano diminuirá por um fator de exp (-. 014174) 0.98592598 enquanto mantém todas as outras variáveis ​​constantes do modelo. Assim, quanto maior o escore de linguagem dos alunos, menos dias prévios estão ausentes. Feminino - O número esperado de dias ausentes em um ano para uma aluna é exp (0.423556) 1.5273833 vezes o número esperado de dias em um ano para um estudante masculino enquanto mantém todas as outras variáveis ​​constantes do modelo. Se uma aluna e estudante do sexo masculino não são certezas ceras e têm notas idênticas de matemática e langnce, o número esperado de dias ausentes para a estudante seria 1.5273833 vezes o número esperado de dias ausentes para o aluno do sexo masculino. Contras - Se todas as variáveis ​​preditoras no modelo forem avaliadas em zero, o número previsto de dias ausentes seria calculado como exp (contras) exp (2.274443). Para os homens (a variável feminina avaliada em zero) com zero pontuação de matemática e langnce, o número previsto de dias ausentes seria 9.7225021. Isso pode parecer muito alto, considerando o número médio de dias ausentes é inferior a 6, mas note que a avaliação de matemática e langnce em zero está fora do alcance de pontuação plausível. Predizer a associação no quotCertain Zeroquot Group mathnce - Se um sujeito aumentasse seu score de mathnce em um ponto, as chances de que ele estaria no grupo quotCertain Zeroquot aumentariam por um fator de exp (0.0371789) 1.0378787. Em outras palavras, quanto maior o grau de matemática dos estudantes, mais provável é que o aluno seja um certo zero. Langnce - Se um sujeito aumentasse sua pontuação de langnce em um ponto, as chances de que ele estaria no grupo quotCertain Zeroquot aumentariam por um fator de exp (0.0078224) 1.0078531. Em outras palavras, quanto maior o escore de linguagem dos estudantes, mais provável é que o aluno seja um certo zero. Contras - Se todas as variáveis ​​preditoras no modelo forem avaliadas em zero, a probabilidade de estar no grupo QuotCertain Zeroquot é exp (-6.588474) .00137614. Isso significa que as chances previstas de um aluno com matemática e linguagem zero de zero serem zero são .00137614 (embora lembre-se de que avaliar matemática e langnce em zero está fora do alcance de pontuações plausíveis). M. Std. Errar. - Estes são os erros padrão dos coeficientes de regressão individuais para os dois modelos. Eles são usados ​​tanto no cálculo da estatística do teste z, quanto no sobrescrito n, quanto no intervalo de confiança do coeficiente de regressão, sobrescrito p. N. Z - Esta é a estatística de teste z é a proporção do Coef. Para o Std. Errar. Do respectivo preditor. O valor z segue uma distribuição normal padrão que é usada para testar contra uma hipótese alternativa de dois lados que o Coef. Não é igual a zero. O. Pgtz - Esta é a probabilidade de a estatística de teste z (ou uma estatística de teste mais extrema) ser observada sob a hipótese nula de que um coeficiente de regressão de preditores particular é zero, dado que o resto dos preditores estão no modelo. Para um determinado nível alfa, Pgtz determina se a hipótese nula pode ou não ser rejeitada. Se Pgtz é menor que o alfa, então a hipótese nula pode ser rejeitada e a estimativa do parâmetro é considerada significativa nesse nível alfa. Dias de Previsão Ausentes para Estudantes Não no quotCertain Zeroquot Group mathnce - A estatística de teste z para o predictor mathnce é (-0.0011483 0.0050248) -0.23 com um p-valor associado de 0.819. Se configurarmos o nosso nível alfa para 0,05, não conseguimos rejeitar a hipótese nula e concluímos que o coeficiente de regressão para matemática não foi encontrado de forma estatisticamente diferente da linguagem dada por zero e as mulheres estão no modelo. Langnce - A estatística de teste z para a linguagem preditor é (-0.014174 0.0058023) -2.44 com um p-valor associado de 0.015. Se configuramos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para langnce foi encontrado para ser estatisticamente diferente de zero dado mathnce e feminino estão no modelo. Feminino - A estatística de teste z para a fêmea preditora é (0,423556 0,1403317) 3,02 com um p-valor associado de 0,003. Se voltarmos a definir o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que a diferença entre machos e fêmeas foi estatisticamente diferente, dado que matemática e linguagem estão no modelo. Contras - A estatística de teste z para a interceptação, cons, é (2.274443 0.2113109) 10.76 com um valor p associado de lt 0.001. Se configurarmos o nosso nível alfa em 0,05, rejeitaremos a hipótese nula e concluiremos que os contras foram encontrados de forma estatisticamente diferente da matemática zero. O langnce e a fêmea estão no modelo e são avaliados em zero. Previsão de associação no quotCertain Zeroquot Group mathnce - A estatística de teste z para o predictor mathnce é (0.0371789 0.0598117) 0.62 com um p-valor associado de 0.534. Se voltarmos a definir o nosso nível alfa para 0,05, não conseguimos rejeitar a hipótese nula e concluímos que o coeficiente de regressão para mathnce não foi encontrado para ser estatisticamente diferente de zero dado langnce está no modelo. Langnce - A estatística de teste z para o código preditor é (0.0078224 0.0900147) 0.09 com um p-valor associado de 0.931. Se configurarmos o nosso nível alfa para 0,05, não conseguimos rejeitar a hipótese nula e concluímos que o coeficiente de regressão para o langnce não foi encontrado para ser estatisticamente diferente do zero, dado que o mathnce está no modelo. Contras - A estatística de teste z para a interceptação, contras, é (-6.588474 4.472095) -1.47 com um p-valor associado de 0.141. Com um nível alfa de 0,05, não conseguimos rejeitar a hipótese nula e concluímos que os contras não foram encontrados de forma estatisticamente diferente da matemática dada por zero e o langnce está no modelo e avaliado em zero. P. 95 Conf. Intervalo - Este é o Intervalo de Confiança (CI) para um coeficiente individual dado que os outros preditores estão no modelo. Para um determinado preditor com um nível de confiança 95, wed diz que temos confiança de que o coeficiente quottruequot se situa entre os limites inferior e superior do intervalo. É calculado como o Coef. (Z 945 2) (Std. Err.), Onde z 945 2 é um valor crítico na distribuição normal padrão. O CI é equivalente à estatística de teste z: se o IC inclui zero, não pode rejeitar a hipótese nula de que um coeficiente de regressão particular é zero, dado que os outros preditores estão no modelo. A vantagem de um CI é que é ilustrativo que fornece um intervalo em que o parâmetro quottruequot pode ser encontrado. Q. Lnalpha - Este é o log natural de alfa (o parâmetro de dispersão). Se o parâmetro de dispersão for zero, log (parâmetro de dispersão) - infinity. Se isso for verdade, então um modelo de Poisson seria apropriado. Podemos ver o intervalo de confiança 95 para lnalpha que o valor não é - infinido. Isso é confirmado pelo intervalo de confiança 95 sobre a estimativa de alfa que não contém zero. R. Alpha - Este é o parâmetro de dispersão do modelo de contagem. S. Teste de Vuong - Este teste compara o modelo binomial negativo com inflação zero com um modelo binomial negativo padrão. Como o valor z não é significativo, o teste de Vuong mostra que o binômio negativo inflado zero não é um ajuste melhor do que o binômio padrão negativo. Nos casos em que há uma questão de qual modelo de contagem usar, o comando countfit é útil para comparar o intervalo de modelos de contagem. Você pode fazer o download do countfit dentro do Stata digitando findit countfit (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Exemplos de Análise de Dados SAS Regressão Binomial Negativa Zero-Inflado Zero A regressão binomial negativa inflada é para modelar variáveis ​​de contagem com zeros excessivos e geralmente é para variáveis ​​de resultados de contagem sobre-dispersas. Além disso, a teoria sugere que o excesso de zeros é gerado por um processo separado a partir dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange limpeza e verificação de dados, verificação de pressupostos, diagnósticos de modelos ou possíveis análises de acompanhamento. Esta página foi atualizada usando o SAS 9.2.3. Exemplos de Regressão Binomial Negativa Inflada de Zero Exemplo 1. Os administradores escolares estudam o comportamento de atendimento dos jovens do ensino médio em duas escolas. Os preditores do número de dias de ausência incluem o gênero do aluno e os resultados de testes padronizados em matemática e artes do idioma. Exemplo 2. Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo pegos por pescadores em um parque estadual. Os visitantes são perguntados quanto tempo eles ficaram, quantas pessoas estavam no grupo, havia crianças no grupo e quantos peixes foram pegos. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescada ou não. Alguns visitantes que fizeram peixes não pegaram peixe, portanto, há excesso de zero nos dados por causa das pessoas que não pescaram. Descrição dos Dados Permite prosseguir com o Exemplo 2 acima, usando o conjunto de dados fish. sas7bdat. Temos dados sobre 250 grupos que foram para um parque. Cada grupo foi questionado sobre quantos peixes capturaram (contagem), quantas crianças estavam no grupo (criança), quantas pessoas estavam no grupo (pessoas) e se eles trouxeram ou não um campista para o parque (campista) . Além de prever o número de peixes capturados, há interesse em prever a existência de zeros em excesso, ou seja, a probabilidade de um grupo pegar peixe zero. Usaremos as variáveis ​​filho. pessoas . E campista em nosso modelo. Vamos ver os dados. Podemos ver a partir da tabela de estatísticas descritivas acima que a variância da variável de resultado é bastante grande em relação aos meios. Isso pode ser uma indicação de excesso de dispersão. Métodos de análise que você pode considerar Antes de mostrar como você pode analisar isso com uma análise binomial negativa de inflação zero, vamos considerar alguns outros métodos que você pode usar. Regressão OLS - Você poderia tentar analisar esses dados usando a regressão OLS. No entanto, os dados de contagem são altamente não-normais e não são bem estimados pela regressão OLS. Regressão Poisson Zero-Inflada - A regressão Zero-Inflada de Poisson melhora quando os dados não estão sobredispersos, ou seja, quando a variação não é muito maior do que a média. Modelos de contagem ordinária - Poisson ou modelos binomiais negativos podem ser mais apropriados se não existirem zeros. Análise binomial negativa do zero de SAS com genoma de proc. Um modelo de inflação zero pressupõe que zero resultado é devido a dois processos diferentes. Por exemplo, no exemplo da pesca apresentado aqui, os dois processos são que um sujeito passou a pescar versus não ter ido pescar. Se não foi pescar, o único resultado possível é zero. Se for pescar, é então um processo de contagem. As duas partes do modelo zero-inflacionado são um modelo binário, geralmente um modelo logit para modelar quais dos dois processos com os quais o resultado zero está associado e um modelo de contagem, neste caso, um modelo binomial negativo, para modelar a contagem processo. A contagem esperada é expressa como uma combinação dos dois processos. Tomando o exemplo de pescar de novo, E (de peixe capturado) prob (não foi pescar) 0 prob (pesca subida) E (pesca com ykgone). Agora vamos construir nosso modelo. Vamos usar as variáveis ​​criança e campista para modelar a contagem na parte do modelo binomial negativo e as pessoas variáveis ​​na parte logit do modelo. Os comandos SAS são mostrados abaixo. Tratamos o camper variável como uma variável categórica ao incluí-lo na instrução da classe. Isso também facilitará as estimativas de postagem. Neste exemplo particular, também explicitamente queremos usar camper 0 como o grupo de referência. Para este fim, classificamos os dados em ordem decrescente e usamos a opção de ordem no proc genmod para forçá-lo a levar o campista 0 como o grupo de referência. A saída tem alguns componentes que são explicados abaixo. Informações sobre o modelo: informações gerais sobre o conjunto de dados, a variável de resultados, a distribuição e o número de observações utilizadas no modelo. Informações de nível de classe: para cada variável categórica, o número de níveis e a forma como os níveis são codificados. O último nível exibido será o grupo de referência no modelo. Neste exemplo, será 0. Critérios para avaliar a bondade do ajuste: essas medidas geralmente são usadas para comparar modelos. Análise de estimativas de parâmetros de máxima verossimilhança: parte binomial negativa do modelo, estimada usando a máxima verossimilhança. Análise das estimativas de parâmetros de inflação zero de máxima verossimilhança: parte de regressão logística do modelo, para estimar a probabilidade de ser um zero excessivo. Olhando através dos resultados dos parâmetros de regressão, vemos o seguinte: os preditores de criança e campista na parte do modelo de regressão binomial negativo que prevêem o número de peixes capturados (contagem) são ambos preditores significativos. A pessoa predictora na parte do modelo logit que prevê zeros excessivos é estatisticamente significante. Para esses dados, a alteração esperada no log (contagem) para um aumento de uma unidade na criança é -1.515255. Isso equivale a uma redução de 78 (1 - e -1.515255 .78) na contagem esperada para cada filho adicional no grupo que mantém outras variáveis ​​constantes. Grupos com campistas (campista 1) tiveram um log esperado (contagem) 0.879051 maior que os grupos sem campistas (campista 0), ou seja, a contagem esperada de peixe para um campista é de aproximadamente 2,41 (e 0,879051 2,41) vezes maior que para um campista . As chances de registro de ser um zero excessivo diminuirão em 1,67 para cada pessoa adicional do grupo. Em outras palavras, quanto mais pessoas no grupo, menos provável que o zero seria devido a não ter ido a pescar. Coloque-o claramente, quanto maior o grupo em que a pessoa estava, mais provável que a pessoa fosse pescar. A estimativa do parâmetro de dispersão é exibida com seu intervalo de confiança. Parece indicação suficiente sobre a dispersão, o que significa que o modelo binomial negativo pode ser mais apropriado. Podemos querer comparar o modelo binomial negativo atual zero-inflado com o modelo binomial negativo normal, o que pode ser feito através, por exemplo, do teste de Vuong. Atualmente, o teste de Vuong não é uma parte padrão do proc genmod. Mas um macro progra m está disponível no SAS que faz o teste de Vuong. Você pode baixar este programa de macro após o link e armazená-lo em seu disco rígido. Neste exemplo, salvamos o programa de macro em d: trabalho do diretório dae e renomeie-o como vuong. sas. Para usar o programa de macro, usamos a declaração de inclusão. Este programa de macro leva alguns argumentos abaixo. Reencaminhamos os modelos para obter produzir esses argumentos de entrada necessários. Nós também usamos a loja de declarações para armazenar as estimativas para que possamos fazer pós-estimativa usando o mesmo modelo via proc plm sem ter que reertificar o modelo. Com o modelo binomial negativo inflacionado zero, existem no total seis parâmetros de regressão que incluem a intercepção, os coeficientes de regressão para criança e campista e o parâmetro de dispersão para a porção binomial negativa do modelo, bem como o coeficiente de intercepção e regressão para pessoas . O modelo de regressão binomial negativa simples tem um total de quatro parâmetros de regressão. Os parâmetros de escala (scale1 e scale2) são os parâmetros de dispersão de cada modelo correspondente. A saída acima mostra o teste de Vuong seguido do teste do Signo Clarke. Os valores positivos das estatísticas Z para o teste de Vuong indicam que é o primeiro modelo, o modelo binomial negativo inflado zero, que está mais próximo do modelo verdadeiro. Ambos os testes têm a mesma hipótese nula e acontece que os dois testes não são consistentes entre si, levando um suporte fraco para o modelo binomial negativo com inflação zero. Agora, vamos tentar entender melhor o modelo usando alguns dos comandos de avaliação pós-publicação. Primeiro, examinamos a distribuição da probabilidade prevista de ser um zero excessivo pelo número de pessoas no grupo. Podemos ver que, quanto maior o grupo, menor será a probabilidade, o que é mais provável que a pessoa tenha ido pescar. Uma vez que salvamos nosso modelo anterior como m1 anteriormente, usamos proc plm para obter o número previsto de peixe capturado, comparando os campistas com os não campistas com diferentes números de crianças. Para obter as contagens de previsão, utilizamos a opção ilink (para link inverso). Aviso por padrão, o SAS corrige o valor das pessoas variáveis ​​preditoras em seu valor médio. Em seguida, também podemos pedir proc plm para plotar os valores ajustados por variável campista. Coisas a considerar Aqui estão algumas questões que você pode querer considerar no curso de sua análise de pesquisa. A questão sobre o parâmetro de sobre dispersão é, em geral, complicada. Um grande parâmetro de dispersão excessiva pode ser devido a um modelo de falta de especificação ou pode ser devido a um processo real com sobre-dispersão. Adicionar um problema de sobre-dispersão não necessariamente melhora um modelo de falta de especificação. O modelo zinb possui duas partes, um modelo de contagem binomial negativa e o modelo logit para prever o excesso de zeros, então você pode querer rever essas páginas de exemplo de Análise de Dados, Regressão Binomial Negativa e Regressão Logit. Como o zinb possui um modelo de contagem e um modelo logit, cada um dos dois modelos deve ter bons preditores. Os dois modelos não precisam necessariamente usar os mesmos preditores. Problemas de previsão perfeita, separação ou separação parcial podem ocorrer na parte logística do modelo inflável zero. Os dados de contagem geralmente usam variável de exposição para indicar o número de vezes que o evento poderia ter acontecido. Você pode incorporar a exposição em seu modelo usando a opção de exposição (). Não é recomendado que os modelos binários binários negativos sejam aplicados em pequenas amostras. O que constitui uma pequena amostra não parece estar claramente definido na literatura. Os valores Pseudo-R-quadrado diferem dos OLs R-squareds, por favor veja FAQ: O que são pseudo R-squareds para uma discussão sobre este assunto. Referências Cameron, A. Colin e Trivedi, P. K. (2009) Microeconometria usando stata. College Station, TX: Stata Press. Long, J. Scott, amp Freese, Jeremy (2006). Modelos de regressão para variáveis ​​categóricas dependentes usando o Stata (segunda edição). College Station, TX: Stata Press. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment