Ferramentas e métodos computacionais são, cada vez mais, importantes aliados para a realização de pesquisas no âmbito das humanidades. Em particular, o uso dessas ferramentas é relevante para a análise linguística diacrônica. Neste estudo, é apresentada uma discussão sobre o uso de corpora e datasets na linguística, destacando algumas potencialidades e limitações desses recursos. Para ilustrar as possibilidades de uso de um dataset para pesquisa linguística, apresenta-se, também, uma análise preliminar da Base de Normas Jurídicas Brasileiras.
En aquest article presentem un subconjunt de corpus orals de la família C-ORAL, concretament, el corpus C-ORAL-BRASIL de portuguès brasiler espontani (PB). Derivat de la branca no-europea del projecte C-ORAL-ROM (Cresti i Moneglia 2005), el projecte C-ORAL-BRASIL ha aplegat uns corpus orals de PB de tercera generació, el qual destaca no sols com a corpus de PB, sinó també com una bona eina per a l’estudi de la llengua parlada en general, gràcies a algunes millores metodològiques i tecnològiques. A més dels recursos per a l’estudi del PB oral, presentem un conjunt de minicorpus creats per a l’estudi específic de l’estructura informativa (també en altres llengües a més del PB); així mateix, també tractem altres processos de compilació que estem desenvolupant actualment en el grup de recerca C-ORAL-BRASIL. Tots els recursos publicats estan disponibles a www.c-oral-brasil.org i es poden descarregar.
In this paper we present different resources for the study of spoken Brazilian Portuguese, developed within the C-ORAL-BRASIL project. The C-ORAL-BRASIL stemmed from the European C-ORAL-ROM project (Cresti & Moneglia, 2005), which has compiled spoken corpora of Italian, French, Spanish, and European Portuguese. The corpora of the C-ORAL family represent adequate tools for the analysis of spoken language, for they are provided not only with the transcripts of the recorded sessions (with prosodic breaks’ annotation), but also with their audio files and the text-to-speech alignment. So far, the C-ORAL-BRASIL project has published the C-ORAL-BRASIL I (Informal corpus: Raso & Mello, 2012), while the C-ORAL-BRASIL II (to be published by 2019) comprises a Formal corpus (Natural context), a Media corpus, and a Telephonic corpus. Besides these resources, a set of informationally tagged comparable minicorpora (representative samples of the aforementioned corpora) are already available or in preparation, enabling (cross-linguistic) studies focussed on information structure.
O artigo trata da questão da suposta perda de clíticos sujeito no vernáculo florentino através de um estudo baseado em corpus. Os trabalhos sobre este assunto (GALLI DE’ PARATESI, 1984; SOBRERO, 1997; BERRUTO, 1997, 2005; BINAZZI, 1997, 1998, 2007; CARDINALETTI & MUNARO, 2009) afirmam que a pressão do italiano padrão, a partir dos anos do segundo pósguerra, contribuiu para a perda, por parte do vernáculo florentino, de muitas de suas características. Contudo, até o presente momento não havia sido feita qualquer investigação de tipo quantitativo e qualitativo sobre o sistema pronominal baseada em dados. A oportunidade para tal tipo de trabalho foi possível graças à publicação remasterizada do Corpus Stammerjohann (1970) e do Corpus per il Confronto Diacronico (SCARANO, 2005), ambos corpora de língua falada espontânea gravados em Florença com cerca de quarenta anos de distância. O trabalho que aqui apresentamos analisou a expressão dos clíticos sujeito de terceira pessoa do singular gl’, l’, la, e em concomitância com o verbo essere (ser) no presente do indicativo. Os resultados obtidos nesta primeira etapa do trabalho apontam para uma redução no uso dos clíticos sujeito no tempo, mas também fazem vislumbrar a retrodatação do período de início de tal perda, devido à idade dos informantes. As análises deverão continuar no futuro com um maior número de dados a fim de poder compreender melhor o fenômeno
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.