Wednesday 28 June 2017

Truncated Regression In Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente. Análise de dados da Stata Exemplos Informação da versão da Regressão Truncada: o código para esta página foi testado em Stata 12. A regressão truncada é usada para modelar variáveis ​​dependentes para as quais alguns dos As observações não estão incluídas na análise devido ao valor da variável dependente. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de pressupostos, o diagnóstico de modelos ou as possíveis análises de acompanhamento. Exemplos de regressão truncada Exemplo 1. Um estudo de alunos em um programa especial GATE (educação dotada e talentosa) deseja modelar a realização como uma função das habilidades linguísticas e do tipo de programa no qual o aluno está atualmente matriculado. Uma grande preocupação é que os alunos devem ter uma pontuação de realização mínima de 40 para entrar no programa especial. Assim, a amostra é truncada com uma pontuação de realização de 40. Exemplo 2. Um pesquisador tem dados para uma amostra de americanos cuja renda está acima da linha de pobreza. Assim, a parte mais baixa da distribuição de renda é truncada. Se o pesquisador tivesse uma amostra de americanos cuja renda estava em ou abaixo da linha de pobreza, a parte superior da distribuição de renda seria truncada. Em outras palavras, o truncamento é resultado da amostragem apenas parte da distribuição da variável de resultado. Descrição dos dados Vamos prosseguir com o exemplo 1 acima. Temos um arquivo de dados hipotético, truncreg. dta. Com 178 observações. A variável de resultado é chamada de achiv. E a variável de pontuação do teste de linguagem é chamada de langscore. A variável prog é uma variável categórica preditor com três níveis indicando o tipo de programa no qual os alunos foram matriculados. Vamos ver os dados. É sempre uma boa idéia começar com estatística descritiva. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão OLS - Você poderia analisar esses dados usando a regressão OLS. A regressão OLS não ajustará as estimativas dos coeficientes para levar em conta o efeito de truncar a amostra em 40 e os coeficientes podem ser severamente tendenciosos. Isso pode ser conceituado como um erro de especificação do modelo (Heckman, 1979). Regressão truncada - A regressão truncada aborda o viés introduzido ao usar a regressão OLS com dados truncados. Note-se que com regressão truncada, a variância da variável de resultado é reduzida em comparação com a distribuição que não está truncada. Além disso, se a parte inferior da distribuição for truncada, a média da variável truncada será maior que a média da variável não truncada se a truncagem for superior, a média da variável truncada será menor que a variável não truncada. Estes tipos de modelos também podem ser conceitualizados como modelos de seleção Heckman, que são usados ​​para corrigir o viés de seleção de amostragem. Regressão censurada - Às vezes, os conceitos de trunção e censura são confusos. Com dados censurados, temos todas as observações, mas não conhecemos os valores verdadeiros de alguns deles. Com o truncamento, algumas das observações não estão incluídas na análise devido ao valor da variável de resultado. Seria inadequado analisar os dados em nosso exemplo usando um modelo de regressão censurado. Regressão truncada Abaixo, usamos o comando truncreg para estimar um modelo de regressão truncada. O eu. Antes de prog indica que é uma variável de fatores (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis ​​de indicadores. A opção ll () no comando truncreg indica o valor no qual o truncamento esquerdo ocorre. Há também uma opção ul () para indicar o valor do truncamento certo, que não era necessário neste exemplo. A saída começa com uma nota indicando que zero observações foram truncadas. Isso ocorre porque nossa amostra não continha dados com valores inferiores a 40 para realização. A nota é seguida pelo registro de iteração, que dá os valores das probabilidades de log começando com um modelo que não possui preditores. O último valor no log é o valor final da probabilidade do log e é repetido abaixo. A seguir, as informações do cabeçalho são fornecidas. No lado esquerdo estão os limites inferior e superior do truncamento e uma repetição da probabilidade de log final. À direita, é dado o número de observações utilizadas (178), juntamente com o qui-quadrado de Wald com três graus de liberdade. O qui-quadrado de Wald é o que você obtém se você usasse o comando de teste, depois de estimar o modelo, para testar que todos os coeficientes são zero. Finalmente, existe um valor de p para o teste do qui-quadrado. Como um todo, esse modelo é estatisticamente significativo. Na tabela de coeficientes, temos os coeficientes de regressão truncada, o erro padrão dos coeficientes, os testes Wald z (coeficiente) e o valor p associado a cada teste z. Por padrão, também obtemos um intervalo de confiança 95 para os coeficientes. Com a opção level (), você pode solicitar um intervalo de confiança diferente. O sigma estatístico auxiliar é equivalente ao erro padrão de estimativa na regressão OLS. O valor de 8.76 pode ser comparado ao desvio padrão de realização, que foi de 8,96. Isso mostra uma redução moderada. A saída também contém uma estimativa do erro padrão do sigma, bem como um intervalo de confiança 95 para esse valor. O modelo de regressão truncada que prevê a realização dos escores da linguagem e do tipo de programa foi estatisticamente significante (quadrado de quias 54,76, df 3, pIf você gostaria de comparar modelos de regressão truncada, você pode emitir o comando estatístico para obter a probabilidade de log, AIC e BIC A saída de truncreg inclui nem um R 2 nem um pseudo-R 2. Você pode calcular uma estimativa aproximada do grau de associação ao correlacionar achiv com o valor previsto e ao quadrado do resultado. O valor calculado de .31 é uma estimativa aproximada de O R 2 que você encontraria em uma regressão OLS. A correlação quadrática entre os valores de aptidão acadêmica observados e previstos é de aproximadamente 0,31, indicando que esses preditores representavam mais de 30 da variabilidade na variável de resultado. As coisas para considerar o comando Statas truncreg são projetadas Para trabalhar quando o truncamento está na variável de resultado no modelo. É possível ter amostras que são truncadas com base em um ou mais preditores. Por exemplo, o modo O GPA da faculdade em função das notas do GPA (HSGPA) e do SAT do ensino médio envolve uma amostra que é truncada com base nos preditores, ou seja, apenas os alunos com maiores valores de HSGPA e SAT são admitidos na faculdade. Você precisa ter cuidado com o valor usado como valor de truncamento, pois afeta a estimativa dos coeficientes e erros padrão. No exemplo acima, se tivéssemos usado ll (39) em vez de ll (40). Os resultados teriam sido um pouco diferentes. Não importa que não existissem valores de 40 em nossa amostra. Referências Greene, W. H. (2003). Análise econométrica, Quinta edição. Upper Saddle River, NJ: Prentice Hall. Heckman, J. J. (1979). Compartilhamento de seleção de exemplo como um erro de especificação. Econometrica. Volume 47, Número 1, páginas 153 - 161. Long, J. S. (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. A regressão OLS é uma técnica amplamente aplicada, e existem muitas variantes da regressão clássica. Entre eles, estão as regressões trituradas e totais. O uso deles é recomendado quando a variável dependente (Y) é restrita de algumas maneiras. Ambos têm uma característica comum. A variável Y é tratada como variável latente (denotada Y) em vez de variável observada. Isso aumenta várias complicações em relação ao OLS clássico. Eu decidi abordar este tópico porque apliquei esse tipo de análise no meu artigo sobre as mudanças de pontuação preto-branco na prova de GSS Wordsum. Essas técnicas não estão disponíveis no SPSS. Uma das razões é que essas técnicas são aplicadas principalmente por economistas (que usam principalmente Stata), e não por psicólogos (que usam principalmente o SPSS e podem não estar conscientes dessas técnicas). No entanto, o problema levantado pela censura de dados e truncamento de dados também é relevante no campo da psicologia. A regressão do cofre (ou censurado) é proposta para uma variável dependente censurada na parte inferior ou na extremidade superior da sua distribuição. Ou ambos. Censar é essencialmente um problema de efeitos de chão e teto. Por exemplo, alguns indivíduos são empilhados em um determinado valor de limiar () porque eles não podem ter uma pontuação maior ou menor na variável. Isso pode ser devido à diferença porque o teste pode ser muito fácil ou muito difícil. Mas a censura pode assumir outra forma. Uma variável de renda pode ter sido codificada em categorias, e. 10.000-20.0000, etc. 8230, mas, no final, nossa última categoria pode ser algo como 8220100,000 e acima8221. Neste caso, a variável é censurada na parte superior. Como mencionado anteriormente, é possível ter uma informação censurada no final e neste caso, estamos especificando uma regressão de dois limites de tops (ao definir o valor para valores censurados inferiores e superiores) veja Long (1997, pp. 212 -213) para um desenvolvimento. Por exemplo, na cobertura de seguro, existe uma cobertura mínima, uma cobertura máxima e valores intermediários. A regressão truncada é proposta para uma variável dependente para a qual sua distribuição não é representativa de toda a população. O truncamento é essencialmente um problema de restrição de alcance (embora seja impreciso para equalizar o truncamento com restrição de alcance). Por exemplo, os dados podem ter sido coletados para pessoas que compraram bens duráveis. Mas as pessoas que não adquiriram esses bens devido, p. Os seus níveis de preço, portanto, são ditos truncados a partir de baixo (em vez de acima). Isso não quer dizer que o OLS seja necessariamente tendencioso. Depende do objetivo da análise. Se estamos interessados ​​no valor de Y para toda a população, o OLS está tendencioso. Mas se estamos meramente interessados ​​em nossa sub-amostra, o OLS é suficiente (veja o manual da Stata). No entanto, devemos estar cientes de que, quando omitimos uma parte dos dados dessa maneira, os pontos de dados truncados também não faltam aleatoriamente (porque o valor de Y para observações truncadas e não truncadas é diferente). Uma representação gráfica da censura e do truncamento é dada por Long (1997): no painel A é a variável 8220latent8221 Y que toca e as regressões truncadas estão tentando estimar (com base no conjunto de variáveis ​​independentes). Na censura, as observações são censuradas e empilhadas em zero quando 1. Mas, para truncamento, as observações desaparecem literalmente quando estão abaixo (ou iguais) ao valor de limiar 1. Ambas as técnicas utilizam a máxima verossimilhança (ML) para estimar o efeito de As alterações nas variáveis ​​independentes (Xs) no valor esperado (ou seja, 8220potential8221) da variável dependente (Y), dada uma distribuição gaussiana (ou seja, normal). Como o valor esperado da variável dependente está latente (ou seja, não observado), não é possível obter coeficientes padronizados, a menos que apliquemos um procedimento especial (Long, 1997, pp. 207-208). Quanto à batente, a técnica permite uma decomposição do efeito de X no Y latente (isto é, o coeficiente de toca) em duas partes. A mudança na probabilidade de estar acima do valor censurado multiplicado pelo valor esperado de Y se acima, além da mudança no esperado Y para os casos acima do valor censurado multiplicado pela probabilidade de estar acima do valor censurado (McDonald amp Moffitt, 1980 ). Matematicamente, a variável Y latente no modelo de toca é dada por: EyXi F (z) x (EyXi) Ey x (F (z) Xi) onde F (z) é a proporção de casos (ou seja, a probabilidade) acima do limite, EyXi é a alteração no valor esperado de Y para casos acima do limite associado a uma variável independente, F (z) Xi é a mudança na probabilidade de estar acima do limite associado a uma variável independente. Long (1997, p. 196) apresenta a fórmula de uma maneira mais intuitiva: E (y) Pr (Sem censura) x E (yygt) Pr (Censurado) x E (yy y) Pr para probabilidade, E (y) para esperado Y e ygt para condicional em y acima, e y é o valor de y se y é censurado (no livro Long8217s (ver p.197) pelo menos). Se estamos apenas interessados ​​nas mudanças dos Xs no Y latente, os coeficientes obtidos da regressão do toco podem ser interpretados da mesma forma que os obtidos da regressão OLS (Roncek, 1992). A fórmula para regressão truncada pode ser encontrada em Long (1997, p. 194) e no manual Stata para a função truncreg. Nós não fornecemos uma resposta detalhada sobre porque o OLS é inconsistente com dados truncados quando nosso interesse se concentra nas estimativas da população. Um pressuposto crucial da regressão OLS é a independência dos erros (resíduos). Os resíduos devem ter zero médio e não estar correlacionados com todas as variáveis ​​explicativas. O problema aqui é que os dados truncados fazem com que a (s) seleção (s) da amostra sejam correlacionadas com o termo de erro (u). Wooldridge (2012, pp. 616-617) fornece um exemplo com um indicador de seleção s, ou seja, s1 se observarmos todos os dados ou s0 caso contrário, onde s1 se o chapéu Y for menor ou igual ao limiar (considerando que os dados É truncado de cima). Equivalentemente, s1 se u-X, onde X é uma abreviatura para 0 1X1 2X2, 8230. Isso significa que o valor de s covaries com u. Long (1997) ilustra as conseqüências da censura e truncamento para estimativa de OLS com a Figura 7.2. A linha sólida é dada pela estimativa OLS de Y que não é censurada. A linha de traço longo, OLS com dados censurados, tem uma intercepção mais baixa e uma inclinação mais acentuada devido aos muitos valores definidos em zero (mostrados como triângulos), logo abaixo do limite linha horizontal 1, que puxam para baixo o lado esquerdo do traço longo linha. A linha de traço curto é dada por uma estimativa de OLS com pontos de dados abaixo de 1 sendo truncados (ou seja, removidos) em vez de serem censurados e mostram uma maior intercepção e menor inclinação. A Figura 7.7 (página 202) também mostra de maneira muito simples os efeitos da censura e truncamento. A diferença aqui é que os pontos de dados de censura são iguais ao limite em vez de estar abaixo dele. Os pontos abaixo do limiar 2 são pontos de dados truncados. E (yx) na linha sólida é a estimativa correta. E (yygt2x) é dado pela linha tracejada longa. Nós vemos que a longa linha tracejada é indistinguível da linha contínua enquanto nos movemos para o lado direito, mas a linha tracejada longa está acima da linha contínua enquanto nos movemos para o lado esquerdo. Isso ocorre porque existem poucos (muitos) pontos de dados truncados no lado direito (esquerdo). A linha tracejada longa fica cada vez mais próxima à medida que nos movemos para a esquerda. Também vemos que existem círculos ao longo da linha horizontal 2. Estes são pontos de dados censurados. A linha tracejada curta representada por E (yx) está ligeiramente abaixo da linha tracejada longa no lado esquerdo do eixo x, porque os casos censurados não foram eliminados. Ambos os tipos de regressão exigem normalidade e homoscedasidade de resíduos, mesmo no caso de uma balança que sempre considera uma distribuição censurada não normal. Mas uma vez que a variável Y não é observável, não podemos obter nossa variável residual ao fazer Y menos Y porque nós temos que usar Y ao invés de Y. Na regressão da órbita, um procedimento complexo deve ser aplicado para obter os resíduos e a conduta generalizada O teste de normalidade (Cameron amp Trivedi, 2009, pp. 535-538). Uma característica particular desses tipos de regressões é que um coeficiente padronizado geralmente não é relatado em softwares estatísticos porque seu cálculo não é direto. Normalmente, os coeficientes totalmente padronizados são obtidos com a coeficiente de operação (X) SD (Y) SD (X). No caso da regressão do cofre, Roncek (1992, pág. 506) mostra que o coeficiente de balanço padronizado pode ser obtido pela coeficiência (X) f (z) sigma. F (z) é a densidade normal da unidade, isto é (na minha opinião) uma maneira complicada de apresentar a fórmula, porque poderia ter substituído o f (z) ambíguo pela notação mais intuitiva SD (X). 8220Sigma8221 é o erro padrão estimado do modelo de regressão do tórax (geralmente reportado pelo software) e é comparável com o erro quadrático médio estimado na regressão OLS. Mas como o sigma é a variância de Y condicional no conjunto de variáveis ​​X e que não precisa ser igual ao Y incondicional que é o que precisamos, Long (1997, pp. 207-208) argumenta que a variância incondicional de Y deve Ser calculado com a forma quadrática: onde Var (x) é a matriz de covariância estimada entre os x8217 e é a estimativa ML da variância de. Assim, Long sugere que usemos a fórmula coeash (X) SD (X) y. Mesmo que os coeficientes padronizados parecem geralmente preferidos pelos psicólogos, os economistas (e particularmente os econométricos) não gostam de coeficientes padronizados e, provavelmente, não recomendam seu uso. Finalmente, deve notar-se que o OLS nem sempre é inconsistente com dados com seleção de amostra (Wooldridge, 2012, pp. 615-616). Vamos reutilizar seu exemplo do indicador s da seleção da amostra. Se a (s) seleção (s) da amostra for aleatória no sentido de que s é independente de X e u, o OLS é imparcial. Mas OLS permanece imparcial, mesmo que s dependa de variáveis ​​X explicativas e termos aleatórios adicionais que sejam independentes de X e u. Se o QI é um preditor importante, mas falta para algumas pessoas, tal que s1 se IQv e s0 se IQltv, onde v é uma variável aleatória não observada que é independente do QI, você e as outras variáveis ​​X, então, s ainda é independente de você. Não é um requisito de que s não esteja correlacionado com variáveis ​​independentes de X, na condição de as variáveis ​​X não estarem correlacionadas com você porque implica que o produto de s e X também não deve estar correlacionado com os resíduos u. NOTICE: Grupo de consultoria estatística IDRE Estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas e Educação Digital Ajude o Grupo de Consultoria Estatal, dando um presente Regressão Truncada de Saída Anotada Stata Esta página mostra um exemplo de análise de regressão truncada com notas de rodapé explicando o resultado. Um modelo de regressão truncada prediz uma variável de resultado restrita a uma amostra truncada de sua distribuição. Por exemplo, se pretendemos prever a idade dos motoristas licenciados de hábitos de condução, nossa variável de resultado é truncada em 16 (a idade de condução legal nos EUA). Enquanto a população de idades se estende abaixo de 16, nossa amostra da população não. É importante notar a diferença entre dados truncados e censurados. No caso de dados censurados, existem limitações para a escala de medição que nos impedem de conhecer o valor verdadeiro da variável dependente, apesar de ter alguma medida do mesmo. Considere o velocímetro em um carro. O velocímetro pode medir velocidades até 120 milhas por hora, mas todas as velocidades iguais ou superiores a 120 mph serão lidas como 120 mph. Assim, se o velocímetro medir a velocidade para 120 mph, o carro pode viajar 120 mph ou qualquer velocidade maior - não temos como saber. Os dados censurados sugerem limites na escala de medição da variável de resultado, enquanto os dados truncados sugerem limites na variável de resultado na amostra de interesse. Neste exemplo, analisaremos o estudo de estudantes em um programa especial GATE (talentoso e educacional). Desejamos modelar a realização (achiv) como uma função de gênero, competências linguísticas e habilidades matemáticas (feminino. Langscore e matemática no conjunto de dados). Uma grande preocupação é que os alunos exigem uma pontuação de realização mínima de 40 para entrar no programa especial. Assim, a amostra é truncada com uma pontuação de realização de 39. Primeiro, podemos examinar os dados. Agora, podemos gerar um modelo de regressão truncada em Stata usando o comando truncreg. Nós listamos a variável de resultados, então os preditores e o limite superior e inferior. Nossos dados são apenas truncados à esquerda, portanto, indicaremos apenas um limite inferior, ll (40). Saída de Regressão Truncada a. (Nota: 0 obs. Truncado) - Isso indica quantas observações no modelo apresentaram valores de variáveis ​​de resultado abaixo do limite inferior ou acima do limite superior indicado na chamada de função. Neste exemplo, é o número de observações onde achiv lt 40. O valor mínimo de achiv listado no resumo de dados foi 41, então houve zero observações truncadas. B. Modelo completo de montagem - Este é o histórico de iteração do modelo de regressão truncada. Ele lista as probabilidades de log em cada iteração. A regressão truncada usa a estimativa da máxima verossimilhança, que é um procedimento iterativo. A primeira iteração (chamada Iteração 0) é a probabilidade do log do modelo quotnullquot ou quotemptyquot que é, um modelo sem preditores. Na próxima iteração (chamada Iteração 1), os preditores especificados estão incluídos no modelo. Neste exemplo, os preditores são femininos, linguísticos e matemáticos. Em cada iteração, a probabilidade do log cresce porque o objetivo é maximizar a probabilidade do log. Quando a diferença entre as iterações sucessivas é muito pequena, o modelo é dito ter quotconvergedquot e a iteração pára. Para obter mais informações sobre este processo para resultados binários, consulte Modelos de regressão para variáveis ​​categóricas e dependentes limitadas por J. Scott Long (página 52-61). C. Menor - Isso indica o limite inferior especificado para a variável de resultado. Neste exemplo, o limite inferior é 40. d. Superior - indica o limite superior especificado para a variável de resultado. Neste exemplo, não especificamos um limite superior, então é assumido como sendo o infinito. E. Probabilidade de registro - Esta é a probabilidade do log do modelo ajustado. É usado no teste Qui-Quadrado de Razão de Probabilidade de se todos os coeficientes de regressão dos preditores no modelo são simultaneamente zero. F. Número de obs - Este é o número de observações no conjunto de dados onde o resultado e as variáveis ​​preditoras possuem valores não-faltantes. G. Wald chi2 (3) - Esta é a estatística de Wald Chi-Square. Ele é usado para testar a hipótese de que pelo menos um dos coeficientes de regressão preditores não é igual a zero. O número entre parênteses indica os graus de liberdade da distribuição Qui-Quadrado usado para testar a estatística de Wald Chi-Square e é definido pelo número de preditores no modelo (3). H. Prob gt chi2 - Esta é a probabilidade de obter uma estatística de teste Wald tão extrema quanto mais do que a estatística observada sob a hipótese nula, a hipótese nula é que todos os coeficientes de regressão em ambos os modelos são simultaneamente iguais a zero. Em outras palavras, esta é a probabilidade de obter essa estatística do qui-quadrado (89.85) ou outra mais se não houver efeito das variáveis ​​preditoras. Esse valor de p é comparado a um nível alfa especificado, nossa vontade de aceitar um erro de tipo I, que normalmente é definido como 0,05 ou 0,01. O pequeno valor de p do teste, lt0.0001, nos levaria a concluir que pelo menos um dos coeficientes de regressão no modelo não é igual a zero. O parâmetro da distribuição do qui-quadrado usado para testar a hipótese nula é definido pelos graus de liberdade na linha anterior, chi2 (3). Eu. Achiv - Esta é a variável de resultado prevista pelo modelo. J. Coef. - Estes são os coeficientes de regressão. Eles são interpretados da mesma forma que os coeficientes de regressão OLS: para um aumento de uma unidade na variável preditor, o valor esperado da variável de resultado varia pelo coeficiente de regressão, dado que as demais variáveis ​​preditoras no modelo são mantidas constantes. Feminino - A pontuação de realização esperada para uma aluna é de 2.290933 unidades abaixo da pontuação de realização esperada para um aluno masculino, mantendo todas as outras variáveis ​​constantes do modelo. Em outras palavras, se dois estudantes, um feminino e um masculino, tivessem pontuação de linguagem e matemática idênticas, o escore de realização previsto do masculino seria 2,290933 unidades acima da pontuação de realização prevista da estudante. Langscore - Esta é a estimativa de regressão estimada para um aumento de uma unidade em langscore. Uma vez que as outras variáveis ​​são mantidas constantes no modelo. Se um estudante aumentasse seu langscore em um ponto, seu resultado de realização previsto aumentaria em 5.064698 unidades, mantendo as demais variáveis ​​constantes do modelo. Assim, os alunos com maior pontuação de linguagem terão maiores resultados de realização previstos do que os alunos com escores de linguagem mais baixos, mantendo as demais variáveis ​​constantes. Mathscore - Esta é a estimativa de estimativa de regressão para um aumento de uma unidade em matemática. Uma vez que as outras variáveis ​​são mantidas constantes no modelo. Se um estudante aumentasse seu número de matemática em um ponto, sua pontuação de realização prevista aumentaria em 5,004054 unidades, mantendo as demais variáveis ​​na constante do modelo. Assim, os alunos com pontuação de matemática mais elevada terão maiores resultados de realização previstos do que os alunos com menores escores de matemática, mantendo as demais variáveis ​​constantes. Contras - Esta é a estimativa de regressão quando todas as variáveis ​​no modelo são avaliadas em zero. Para um aluno masculino (a variável feminina avaliada em zero) com langscore e mathscore de zero, o resultado previsto é -0.2940047. Note-se que a avaliação de langscore e mathscore em zero está fora do intervalo de pontuação de teste plausível. K. Std. Errar. - Estes são os erros padrão dos coeficientes de regressão individuais. Eles são usados ​​tanto no cálculo da estatística do teste z, quanto no superlativo l, quanto no intervalo de confiança do coeficiente de regressão, sobrescrito n. eu. Z - A estatística de teste z é a proporção do Coef. Para o Std. Errar. Do respectivo preditor. O valor z segue uma distribuição normal padrão que é usada para testar contra uma hipótese alternativa de dois lados que o Coef. Não é igual a zero. M. Pgtz - Esta é a probabilidade de a estatística de teste z (ou uma estatística de teste mais extrema) ser observada sob a hipótese nula de que um coeficiente de regressão de preditores particular é zero, dado que o resto dos preditores estão no modelo. Para um determinado nível alfa, Pgtz determina se a hipótese nula pode ou não ser rejeitada. Se Pgtz é menor que o alfa, então a hipótese nula pode ser rejeitada e a estimativa do parâmetro é considerada estatisticamente significativa nesse nível alfa. Feminino - A estatística de teste z para a fêmea preditor é (-2.2909331.490333) -1.54 com um valor p associado de 0.124. Se configuramos o nosso nível alfa para 0,05, não conseguimos rejeitar a hipótese nula e concluímos que o coeficiente de regressão para a mulher não foi encontrado para ser estatisticamente diferente de zero dado langscore e mathscore estão no modelo. Langscore - A estatística de teste z para o predictive langscore é (5.0646981.037769) 4.88 com um valor p associado de lt0.001. Se configurarmos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para langscore foi encontrado para ser estatisticamente diferente de zero dado feminino e matemático estão no modelo. Mathscore - A estatística de teste z para o prontuário mathscore é (5.0040540.9555717) 5.24 com um valor p associado de lt0.001. Se configurarmos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para o rótulo matemático foi encontrado de forma estatisticamente diferente do zero dado feminino e o langscore está no modelo. Contras - A estatística de teste z para a interceptação, contra. É (-0.29400476.204858) -0.05 com um p-valor associado de 0.962. Se configurarmos o nosso nível alfa em 0,05, não conseguimos rejeitar a hipótese nula e concluímos que os contras não foram encontrados de forma estatisticamente diferente de zero dada a fêmea. Langscore e mathscore estão no modelo e são avaliados em zero. N. 95 Conf. Intervalo - Este é o Intervalo de Confiança (CI) para um coeficiente individual dado que os outros preditores estão no modelo. Para um determinado preditor com um nível de confiança 95, diz que estamos seguros de que o coeficiente quottruequot está entre o limite inferior e o limite superior do intervalo. É calculado como o Coef. (Z 9452) (Std. Err.), Onde z 9452 é um valor crítico na distribuição normal padrão. O CI é equivalente à estatística de teste z: se o CI inclui zero, não é possível rejeitar a hipótese nula de que um coeficiente de regressão particular é zero dado que os outros preditores estão no modelo. Uma vantagem de um CI é que é ilustrativo que fornece um intervalo onde o parâmetro quottruequot pode ser encontrado. O. Sigma - Este é o erro padrão estimado da regressão. Neste exemplo, o valor, 7.739053, é comparável ao erro quadrático médio quadrático que seria obtido em uma regressão OLS. Se corremos uma regressão OLS com o mesmo resultado e preditores, nosso RMSE seria 6.8549. Isso é indicativo de quanto o resultado varia do valor previsto. Sigma aproxima esta quantidade para regressão truncada. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. A regressão OLS é uma técnica amplamente aplicada, e existem muitas variantes da regressão clássica. Entre eles, estão as regressões trituradas e totais. O uso deles é recomendado quando a variável dependente (Y) é restrita de algumas maneiras. Ambos têm uma característica comum. A variável Y é tratada como variável latente (denotada Y) em vez de variável observada. Isso aumenta várias complicações em relação ao OLS clássico. Eu decidi abordar este tópico porque apliquei esse tipo de análise no meu artigo sobre as mudanças de pontuação preto-branco na prova de GSS Wordsum. Essas técnicas não estão disponíveis no SPSS. Uma das razões é que essas técnicas são aplicadas principalmente por economistas (que usam principalmente Stata), e não por psicólogos (que usam principalmente o SPSS e podem não estar conscientes dessas técnicas). No entanto, o problema levantado pela censura de dados e truncamento de dados também é relevante no campo da psicologia. A regressão do cofre (ou censurado) é proposta para uma variável dependente censurada na parte inferior ou na extremidade superior da sua distribuição. Ou ambos. Censar é essencialmente um problema de efeitos de chão e teto. Por exemplo, alguns indivíduos são empilhados em um determinado valor de limiar () porque eles não podem ter uma pontuação maior ou menor na variável. Isso pode ser devido à diferença porque o teste pode ser muito fácil ou muito difícil. Mas a censura pode assumir outra forma. Uma variável de renda pode ter sido codificada em categorias, e. 10.000-20.0000, etc. 8230, mas, no final, nossa última categoria pode ser algo como 8220100,000 e acima8221. Neste caso, a variável é censurada na parte superior. As mentioned earlier, it is possible to have a data censored at both end, and in this case, we are specifying a two-limit tobit regression (by setting the value for lower and upper censored values) see Long (1997, pp. 212-213) for a development. For instance, in insurance coverage, there is a minimum coverage, a maximum coverage, and values in between. The truncated regression is proposed for a dependent variable for which its distribution is not representative of the entire population. Truncation is essentially a problem of range restriction (although it is inaccurate to equalize truncation with range restriction). For instance, the data may have been collected for people having purchased durable goods. But people who did not purchase these goods due to, e. g. their price levels, are thus said to be truncated from below (instead of above). This is not to say that OLS is necessarily biased. It depends on the goal of the analysis. If we are interested in the value of Y for the entire population, OLS is biased. But if we are merely interested in our subsample, the OLS is sufficient (see the Stata manual ). However, we must be aware that when we omit a portion of the data in this manner, the truncated data points are also missing not at random (because the value of Y for truncated and untruncated observations is different). A graphical representation of censoring and truncation is given by Long (1997) : In Panel A is the 8220latent8221 variable Y that tobit and truncated regressions are trying to estimate (based on the set of independent variables). In censoring, the observations are censored and stacked at zero when 1. But, for truncation, the obervations literally disappear when they are below (or equal to) the threshold value 1. Both techniques use maximum likelihood (ML) to estimate the effect of the changes in independent variables (Xs) on the expected (i. e. 8220potential8221) value of the dependent variable (Y) given a gaussian (i. e. normal) distribution. Because the expected value of the dependent variable is latent (i. e. not observed), it is not possible to obtain standardized coefficients, unless we apply a special procedure (Long, 1997, pp. 207-208). As for tobit, the technique allows a decomposition of the effect of X on the latent Y (i. e. the tobit coefficient) into two parts. the change in the probability of being above the censored value multiplied by the expected value of Y if above plus the change in the expected Y for the cases above the censored value multiplied by the probability of being above the censored value (McDonald amp Moffitt, 1980). Mathematically, the latent Y variable in tobit model is given by : EyXi F(z) x (EyXi) Ey x (F(z)Xi) where F(z) is the proportion of cases (i. e. probability) being above the threshold, EyXi is the change in the expected value of Y for cases above the threshold associated with an independent variable, F(z)Xi is the change in the probability of being above the threshold associated with an independent variable. Long (1997, p. 196) presents the formula in a more intuitive way : E(y) Pr(Uncensored) x E(yygt) Pr(Censored) x E(yy y ) Pr for probability, E(y) for expected y, and ygt for conditional on y above , and y is the value of y if y is censored (in Long8217s book (see p.197) at least). If we are only interested in the changes of the Xs on the latent Y, the coefficients obtained from tobit regression can be interpreted in the same way as those obtained from OLS regression (Roncek, 1992). The formula for truncated regression can be found in Long (1997, p. 194) and in the Stata manual for truncreg function. We haven8217t provided a detailed answer of why OLS is inconsistent with truncated data when our interest focuses on the population estimates. One crucial assumption of OLS regression is the independence of the errors (residuals). The residuals must have mean zero and be uncorrelated with all explanatory variables. The problem here is that truncated data causes the sample selection (s) to be correlated with the error term (u). Wooldridge (2012, pp. 616-617) provides an example with a selection indicator s, i. e. s1 if we observe all of the data or s0 otherwise, where s1 if the Y hat is lower or equal to the threshold (considering that the data is truncated from above). Equivalently, s1 if u-X, where X is a shorthand for 0 1X1 2X2, 8230. This means that the value of s covaries with u. Long (1997) illustrates the consequences of censoring and truncation for OLS estimation with Figure 7.2. The solid line is given by the OLS estimate of Y that is not censored. The long dashed line, OLS with censored data, has a lower intercept and a steeper slope because of the many values set at zero (shown as triangles), just below the threshold horizontal line 1, that pull down the left side of the long dashed line. The short dashed line is given by an OLS estimate with data points below 1 being truncated (i. e. removed) instead of being censored and shows a higher intercept and smaller slope. Figure 7.7 (page 202) also shows in a very simple manner the effects of censoring and truncation. The difference here is that the censoring data points are equal to the threshold rather than being below it. The dots below the threshold 2 are truncated data points. E(yx) in the solid line is the correct estimate. E(yygt2x) is given by the long dashed line. We see that the long dashed line is indistinguishable from the solid line as we move toward the right side, but the long dashed line is above the solid line as we move to the left side. This is because there are few (many) data points truncated at the right (left) side. The long dashed line becomes closer and closer to as we move to the left. We also see there are circles along the horizontal line 2. These are censored data points. The short dashed line represented by E(yx) is slightly below the long dashed line at the left side of the x axis, because the censored cases were not eliminated. Both types of regression require normality and homoscedastic of residuals, even in the case of tobit which always considers a censored distribution to be non-normal. But since the Y variable is not an observable one, we cannot get our residual variable by doing Y minus Y hat because we have to use Y instead of Y. In tobit regression, a complex procedure must be applied to get the generalized residuals and conduct the test of normality (Cameron amp Trivedi, 2009, pp. 535-538). A particular feature of these kinds of regressions is that a standardized coefficient is usually not reported in statistical softwares because its calculation is not straightforward. Normally, the fully standardized coefficients are obtained with the operation coeff(X)SD(Y)SD(X). In the case of tobit regression, Roncek (1992, p. 506) shows that the standardized tobit coefficient can be obtained by coeff(X)f(z)sigma. f(z) is the unit normal density this is (in my opinion) a complicated way of presenting the formula because one could have replaced the ambiguous f(z) by the more intuitive notation SD(X). 8220Sigma8221 is the estimated standard error of the tobit regression model (usually reported by the software) and is comparable with the estimated root mean squared error in OLS regression. But since sigma is the variance of Y conditional on the set of X variables and that it needs not be equal to the unconditional Y which is what we need, Long (1997, pp. 207-208) argues that the unconditional variance of Y should be computed with the quadratic form : where Var(x) is the estimated covariance matrix among the x8217s and is the ML estimate of the variance of . Thus, Long suggests we use the formula coeff(X)SD(X) y . Even though the standardized coefficients seem usually preferred by psychologists, the economists (and particularly econometricians) dislike standardized coefficients and probably won8217t recommend its use. Finally, it should be noted that OLS is not always inconsistent with data having sample selection (Wooldridge, 2012, pp. 615-616). We will re-use his example of the s indicator of sample selection. If sample selection (s) is random in the sense that s is independent of X and u, the OLS is unbiased. But OLS remains unbiased even if s depends on explanatory X variables and additional random terms that are independent of X and u. If IQ is an important predictor but is missing for some people, such that s1 if IQv and s0 if IQltv, where v is an unobserved random variable that is independent of IQ, u and the other X variables, then, s is still independent of u. It is not a requirement that s is uncorrelated with X independent variables, on the condition that X variables are uncorrelated with u because it implies that the product of s and X must also be uncorrelated with the residuals u.

No comments:

Post a Comment