Resumo Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010); Linguística Computacional (KEDIA; RASU, 2020; SRINIVASA-DESIKAN, 2018; MANNING, 2008; MANNING; SCHUTZE, 1999; CHOMSKY, 1965); Dialetologia (CARDOSO, 2010; RADTKE; THUN, 1996; CHAMBERS; TRUDGILL, 1994) e Lexicografia (TARP, 2008, 2011, 2015; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015; LEROYER, 2011). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.
Este artigo situa-se na interface entre a Lexicografia (PORTO DAPENA, 2002; HARTMANN, 2016), a Dialetologia (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) e a Linguística Computacional (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). Objetiva-se discutir a proposta de construção de um banco de dados em XML (Extensible Markup Language), explorando os resultados obtidos com o PLN (Processamento Automático de Linguagem Natural). O arquivo XML também se fundamenta em parâmetros da Lexicografia Dialetal (EZQUERRA, 1997; NAVARRO CARRASCO, 1993) e está sendo alimentado com dados dialetais oriundos do Projeto Atlas Linguístico do Brasil (ALiB) documentados na região Norte do país. Para tanto, utilizou-se como editor de texto o software jEdit e, para gerenciar o banco de dados, o programa BaseX. A extração das informações linguísticas foi realizada, no BaseX, a partir de uma amostra de dados e com o auxílio de expressões X-Query. Assim, foram executadas as seguintes manipulações de dados: i) localização de uma unidade lexical específica; ii) visualização de qualquer dado da microestrutura filtrada pelas variáveis sexo, idade, escolaridade e localidade; iii) seleção de informações a partir de uma das 14 áreas semânticas em que as questões do questionário semântico-lexical do ALiB foram organizadas. Em síntese, entende-se que a construção do banco de dados em XML confere agilidade em relação à extração de informações e compatibilidade dos dados para executar interfaces com outras aplicações como, por exemplo, a elaboração de um produto lexicográfico a ser publicado em suporte on-line.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.