Censura Direta Em Stata Forex
Quando nem todas as unidades em teste falham, temos dados censurados. Considere uma situação em que somos testes de confiabilidade (n) unidades (não reparáveis) tomadas aleatoriamente de uma população. Estamos investigando a população para determinar se a taxa de falha é aceitável. No cenário de teste típico, temos um tempo fixo (T) para executar as unidades para ver se eles sobrevivem ou falham. Os dados obtidos são chamados de dados de Tipo I Censurados. Dados Censurados de Tipo I Durante as (T) horas de teste, observamos (r) falhas (onde (r) pode ser qualquer número de 0 a (n)). Os tempos de falha (exatos) são (t1, t2, ldots,, tr), e existem ((n - r)) unidades que sobreviveram ao teste inteiro (T) sem falhar. Observe que (T) é fixado antecipadamente e (r) é aleatório, uma vez que não sabemos quantas falhas ocorrerão até o teste ser executado. Observe também que nós assumimos que os tempos exatos de falha são registrados quando há falhas. Este tipo de censura também é chamado de dados censurados corretos, uma vez que faltam os tempos de falha na direita (ou seja, maiores do que (T)). Outra maneira (muito menos comum) de testar é decidir com antecedência que você deseja ver exatamente (r) tempos de falha e depois testar até ocorrerem. Por exemplo, você pode colocar 100 unidades em teste e decidir que deseja ver pelo menos metade delas falhar. Então (r 50), mas (T) é desconhecido até a 50ª falha ocorrer. Isso é chamado de dados Censored Type II. Dados Censored Tipo II Observamos (t1,, t2, ldots,, tr), onde (r) é previamente especificado. O teste termina no tempo (T tr) e ((n-r)) as unidades sobreviveram. Novamente, assumimos que é possível observar o tempo exato da falha para as unidades com falha. A censura de Tipo II tem a vantagem significativa de que você conhece antecipadamente quantos tempos de falhas seu teste irá renderizar - isso ajuda enormemente ao planejar testes adequados. No entanto, um tempo de teste aleatório de tempo aberto geralmente é impraticável do ponto de vista de gerenciamento e esse tipo de teste raramente é visto. Às vezes, nem sabemos o momento exato de falha Informação de leitura ou Intervalo Às vezes, tempos exatos de falha não são conhecidos apenas um intervalo de tempo no qual a falha ocorreu foi gravada. Este tipo de dados é chamado de dados de Leitura ou Intervalo e a situação é mostrada na figura abaixo: no caso mais geral, todas as unidades observadas produzem exatamente um dos seguintes três tipos de informação: um tempo de execução se a unidade não falhar Enquanto observa um tempo de falha exato num intervalo de tempo durante o qual a unidade falhou. As unidades podem ter diferentes tempos de execução e intervalos de leitura. Muitos métodos especiais foram desenvolvidos para lidar com dados censurados. Como lidar com dados censurados. Muitos métodos estatísticos podem ser usados para ajustar os modelos e estimar taxas de falha, mesmo com dados censurados. Nas seções posteriores, discutiremos a abordagem de Kaplan-Meier, Probability Plotting. Ploting de perigo. Estimativa gráfica. E estimativa de máxima probabilidade. Separando os Modos de Falha Observe que quando um conjunto de dados consiste em tempos de falha que podem ser classificados em vários modos de falha diferentes, é possível (e muitas vezes necessário) analisar e modelar cada modo separadamente. Considere todas as falhas devido a modos diferentes do que é analisado como tempos de censura, com o tempo de execução censurado igual ao tempo que falhou devido ao modo de falha (independente) diferente. Isso é discutido mais adiante na seção de risco concorrente e seções de análise mais recentes. Bem-vindo ao Instituto de Pesquisas e Educação Digital Stata Data Análise Exemplos Tobit Analysis Versão info: O código para esta página foi testado em Stata 12. O modelo de cofragem, também chamado de censurado Modelo de regressão, é projetado para estimar relações lineares entre variáveis quando há censura à esquerda ou à direita na variável dependente (também conhecida como censura de abaixo e acima, respectivamente). O Censar de cima ocorre em casos com um valor igual ou superior a um limite, assumindo o valor desse limite, de modo que o valor real possa ser igual ao limiar, mas também pode ser maior. No caso de censura de baixo, os valores que caem em ou abaixo de algum limite são censurados. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de premissas, o diagnóstico de modelo e as possíveis análises de acompanhamento. Exemplos de regressão do cofre Exemplo 1. Na década de 1980, havia uma lei federal que restringia as leituras do velocímetro a não mais de 85 mph. Então, se você quisesse tentar prever uma velocidade máxima de veículos de uma combinação de potência de cavalo e tamanho do motor, você obteria uma leitura não superior a 85, independentemente de quão rápido o veículo realmente viajasse. Este é um caso clássico de censura à direita (censura de cima) dos dados. A única coisa a que estamos certos é que esses veículos estavam viajando pelo menos 85 mph. Exemplo 2. Um projeto de pesquisa está estudando o nível de liderança em água potável doméstica em função da idade de uma renda familiar e familiar. O kit de teste de água não pode detectar concentrações de chumbo abaixo de 5 partes por bilhão (ppb). A EPA considera que os níveis acima de 15 ppb são perigosos. Esses dados são um exemplo de censura à esquerda (censura de baixo). Exemplo 3. Considere a situação em que temos uma medida de aptidão acadêmica (escalada 200-800) que queremos modelar usando pontuação de leitura e de teste de matemática, bem como, o tipo de programa em que o aluno está matriculado (acadêmico, geral , Ou vocacional). O problema aqui é que os alunos que respondem todas as perguntas no teste de aptidão acadêmica recebem corretamente uma pontuação de 800, embora seja provável que esses alunos não sejam verdadeiramente iguais em aptidão. O mesmo é verdade para os alunos que respondem incorretamente a todas as perguntas. Todos esses estudantes teriam uma pontuação de 200, embora eles não sejam todos de mesma aptidão. Descrição dos dados Leve o exemplo 3 acima. Temos um arquivo de dados hipotético, tob. dta com 200 observações. A variável de aptidão acadêmica é apt, os resultados dos testes de leitura e matemática são lidos e matemática, respectivamente. A variável prog é o tipo de programa no qual o aluno está, é uma variável categórica (nominal) que assume três valores, acadêmico (prog 1), geral (prog 2) e vocacional (prog 3). Vamos ver os dados. Note-se que neste conjunto de dados, o valor mais baixo do apt é 352. Nenhum aluno recebeu uma pontuação de 200 (ou seja, a pontuação mais baixa possível), o que significa que mesmo que a censura de baixo fosse possível, não ocorre no conjunto de dados. Olhando para o histograma acima, mostrando a distribuição do apt. Podemos ver a censura nos dados, ou seja, há muito mais casos com pontuações de 750 a 800 do que se esperaria olhar para o resto da distribuição. Abaixo está um histograma alternativo que destaca o excesso de casos em que 800 apt. No histograma abaixo, a opção discreta produz um histograma onde cada valor exclusivo de apt possui sua própria barra. A opção freq faz com que o eixo y seja marcado com a frequência para cada valor, em vez da densidade. Como o apt é contínuo, a maioria dos valores de apt são únicos no conjunto de dados, embora próximo ao centro da distribuição existam alguns valores de apt que tenham dois ou três casos. O pico na extrema direita do histograma é a barra para casos em que 800, a altura desta barra em relação a todos os outros mostra claramente o número excessivo de casos com esse valor. Em seguida, explore as relações bivariadas em nosso conjunto de dados. Na última linha da matriz de dispersão mostrada acima, vemos os diagramas de dispersão mostrando leitura e apt. Bem como matemática e apt. Observe a coleta de casos no topo de cada ponto de dispersão devido à censura na distribuição do apt. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão de Tobit, o foco desta página. Regressão OLS - Você poderia analisar esses dados usando a regressão OLS. A regressão OLS tratará os 800 como os valores reais e não como o limite superior da aptidão acadêmica superior. Uma limitação desta abordagem é que quando a variável é censurada, o OLS fornece estimativas inconsistentes dos parâmetros, o que significa que os coeficientes da análise não abordarão necessariamente os parâmetros da população quottruequot à medida que o tamanho da amostra aumenta. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de utilização da regressão OLS com dados censurados. Regressão Truncada - Às vezes, há confusão sobre a diferença entre dados truncados e dados censurados. Com variáveis censuradas, todas as observações estão no conjunto de dados, mas não conhecemos os valores quottruequot de alguns deles. Com o truncamento, algumas das observações não estão incluídas na análise por causa do valor da variável. Quando uma variável é censurada, modelos de regressão para dados truncados fornecem estimativas inconsistentes dos parâmetros. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de usar modelos de regressão para dados truncados para analisar dados censurados. Regressão de Tobit Abaixo, executamos o modelo de bala, usando a leitura. Matemática. E prog para prever apt. A opção ul () no comando tobita indica o valor no qual a censura direita começa (ou seja, o limite superior). Há também uma opção ll () para indicar o valor da censura à esquerda (o limite inferior) que não era necessário neste exemplo. O eu. Antes de prog indicar que prog é uma variável de fatores (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis falsas. Note que esta sintaxe foi introduzida no Stata 11. A probabilidade de log final (-1041.0629) é mostrada no topo da saída, ela pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 200 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis tivesse valores faltantes). O coeficiente de verossimilhança do qui-quadrado de 188.97 (df4) com um valor p de 0.0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística t, os p-valores associados e o intervalo de confiança 95 dos coeficientes. Os coeficientes de leitura e matemática são estatisticamente significativos, assim como o coeficiente para o prog. 3. Os coeficientes de regressão de Tobit são interpretados de forma semelhante aos coeficientes de regressão OLS no entanto, o efeito linear é a variável latente não censurada e não o resultado observado. Veja McDonald e Moffitt (1980) para mais detalhes. Para um aumento de uma unidade na leitura. Há um aumento de 2,7 pontos no valor previsto do apt. Um aumento de uma unidade em matemática está associado a um aumento de unidade de 5,91 no valor previsto de apt. Os termos para prog têm uma interpretação ligeiramente diferente. O valor previsto de apt é 46.14 pontos menor para estudantes em um programa vocacional (prog 3) do que para estudantes em um programa acadêmico (prog 1). O sigma estatístico auxiliar é análogo à raiz quadrada da variância residual na regressão OLS. O valor de 65,67 pode ser comparado ao desvio padrão da aptidão acadêmica, que foi de 99,21, uma redução substancial. A saída também contém uma estimativa do erro padrão do sigma, bem como o intervalo de confiança 95. Finalmente, a saída fornece um resumo do número de valores censurados à esquerda, sem censura e censurados à direita. Podemos testar um efeito geral de prog usando o comando de teste. Abaixo, vemos que o efeito geral do prog é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de prog. Abaixo, nós testamos que o coeficiente para prog 2 é igual ao coeficiente para prog 3. Na saída abaixo, vemos que o coeficiente para prog 2 é significativamente diferente do coeficiente para prog 3. Podemos também querer ver medidas de quão bem Nosso modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. Um método para fazer isso é comparar os valores previstos com base no modelo tobito para os valores observados no conjunto de dados. Abaixo, usamos prever para gerar valores preditos de apt com base no modelo. Em seguida, correlacionamos os valores observados de apt com os valores previstos (yhat). A correlação entre os valores preditos e observados de apt é 0.7825. Se dimensionarmos esse valor, obtemos a correlação quadrada múltipla, isso indica que valores preditos compartilham cerca de 61 (0.78252 0.6123) de sua variância com o apt. Além disso, podemos usar o comando de comando escrito pelo usuário para produzir uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre como usar findit). O Manual de Stata Online toca os Comandos de Stata relacionados cnreg - censura normal censurada, na qual os valores de censura podem mudar de observação para observação. Regressão intra-intervalo, em que as observações podem ser dados pontuais, dados de intervalo, dados censurados à esquerda ou dados censurados à direita. Referências longas, J. S. (1997). Modelos de regressão para variáveis categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. McDonald, J. F. e Moffitt, R. A. 1980. Os usos da análise de Tobit. The Review of Economics and Statistics Vol. 62 (2): 318-321. Tobin, J. (1958). Estimativa de relacionamentos para variáveis dependentes limitadas. Econometrica 26: 24-36. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
Comments
Post a Comment