Resumo: Apresenta fórmulas, para dados univariados, de detecção de outliers que levem em conta a assimetria dos dados, tanto positiva como negativa. A nova formulação, proveniente da Análise Exploratória de Dados, é simulada comparando os resultados com a proposta oriunda da Análise Exploratória de Dados, presente na maioria dos livros-textos de estatística e softwares estatísticos, mas que se aplica somente para distribuições normais ou gaussianas, ou seja, simétricas ou com leve assimetria. Para a simulação, são utilizados dados reais publicados por dois trabalhos na área de métricas científicas. Para assimetrias positivas (negativas) moderadas ou fortes, a nova formulação detecta menor (maior) quantidade de outliers superiores que a proposta clássica. É importante levar em conta a existência de outliers nos dados bibliométricos, pois recomendase quantificar a influência dos mesmos nos cálculos estatísticos, tais como média e desvio padrão. Palavras-chave:Outliers. Análise Exploratória de Dados. Assimetria. Bibliometria. Univariado. IntroduçãoO termo outliers já é de uso corrente na Estatística e representa valor(es) discrepante(s) no próprio conjunto de dados coletados, ou seja, valor(es) que
Resumo Este artigo objetiva ilustrar a análise de outlier(s) aplicada aos cálculos bibliométricos. O Outlier é uma observação, elevada ou reduzida, em relação ao conjunto de dados. São três as causas possíveis para ocorrência de outlier: registro errado, o outlier provir de outra população, ou a medição do outlier ser correta, mas representar um evento raro. Assim, o outlier pode potencialmente produzir impacto nas abordagens de estudos bibliométricos. É importante identificar o outlier para a condução de análises alternativas, com ou sem a presença do outlier.Palavras-chaves Outlier, Bibliometria, Estatística, Cientometria, Métrica científica. Outlier(s) in bibliometric calculations: preliminary approachAbstract This article aims to illustrate the outlier analyses applied to bibliometrics analysis. Outlier is an observation that is unusually large or small relative to the data set. There are three possible causes to outlier: incorrect value; the outlier comes from another population, or that the measurement is correct, but represents a rare event. So, outlier can potentially have a deeper impact on the bibliometric study. It is important to identify outlier to at least to perform alternative analysis with or without the outlier.
Este artigo apresenta uma nova fórmula de detecção de outliers via Análise Exploratória de Dados, levando em conta a assimetria dos dados, e também estuda o efeito da remoção dos outliers dos dados originais. Aplica-se a fórmula para três conjuntos de dados publicados na literatura de estudos métricos da informação. O primeiro conjunto de dados apresenta cinco outliers inferiores. A média, dos dados agregados, conduz à falsa impressão de que 40 universidades, de um total de 49, estão acima da média. A remoção dos cinco outliers inferiores conduz a uma nova média em que somente 22 universidades estão acima da média. No segundo conjunto de dados há a presença de cinco outliers inferiores e um outlier superior. Neste caso, o outlier superior ameniza o efeito dos outliers inferiores. No terceiro conjunto de dados, detectam-se cinco outliers superiores e um outlier inferior. A média, dos dados agregados, aponta que dez universidades estão acima da média. Removendo-se os seis outliers dos dados originais, encontra-se que 28 universidades estão acima do novo valor da média. Para os três conjuntos de dados analisados o trabalho também demonstra o efeito dos outliers na estimativa intervalar (inferência estatística): a remoção dos outliers gera valores mais representativos tanto para a média como para o desvio padrão da amostra analisada. Portanto, evidencia-se como outliers podem afetar resultados e conclusões nos estudos métricos da informação. Todavia, a fórmula para a detecção de outliers apresenta-se aberta para futuras pesquisas.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.