O processamento automático de línguas naturais enquanto engenharia do conhecimento linguísticoNatural language processing as human language engineering RESUMO -Neste trabalho, busca-se fornecer uma breve apresentação do domínio de pesquisa multidisciplinar denominado Processamento Automático de Línguas Naturais (PLN), que visa a capacitar um computador para lidar com a língua. Por meio dessa apresentação, traça-se uma determinada concepção de PLN, segundo a qual essa área é uma espécie de "engenharia do conhecimento linguístico". Dessa forma, o PLN requer a descrição e formalização de dados linguísticos nas dimensões morfológica, sintática, semântico-conceitual e até mesmo pragmático-discursiva. Além da concepção linguisticamente motivada do PLN, destacam-se, ao longo deste texto, as motivações para o surgimento do domínio de pesquisa do PLN, o lugar que ele ocupa em meio a suas disciplinas correlatas e os objetivos e desafi os que movem os pesquisadores do PLN. Ao fi nal, alguns comentários sobre o processamento computacional do português do Brasil são fornecidos.Palavras-chave: processamento automático de línguas naturais, engenharia da linguagem humana, linguística computacional, linguística, língua natural.
IntroduçãoÉ notório que os computadores estão cada vez mais presentes no cotidiano, como na declaração do imposto de renda ou mesmo nos caixas eletrônicos dos bancos. Essa presença massiva leva qualquer um, hoje em dia, a vincular a pesquisa científi ca e o desenvolvimento da tecnologia à Informática. Tal vinculação, no entanto, é menos reconhecida quando se trata de áreas consideradas menos tecnológicas, como as Ciências Humanas e Letras, como bem salienta Berber Sardinha (2005). Como consequência, não se pensa que em muitas atividades do cotidiano estão presentes tecnologias que advêm, em particular, da pesquisa sobre a linguagem com vistas ao seu processamento computacional. Tais pesquisas já haviam sido anunciadas no âmbito da Linguística, por exemplo, pela saudosa Maria Teresa Biderman, em seu texto intitulado Teoria Linguís-tica (linguística quantitativa e computacional) de 1978. Atualmente, a Linguística e a Informática encontram-se unidas em uma área de pesquisa cada vez mais promissora, denominada Processamento Automático de Línguas Naturais (PLN). As pesquisas nessa área, ao mesmo tempo em que se benefi ciam com os estudos provenientes da Linguística, têm propiciado não só desenvolvimento de tecnologias ou recursos aplicáveis a várias atividades, mas também o próprio desenvolvimento da Linguística e da Ciência da Computação, duas das várias disciplinas matrizes do PLN.Este texto pretende introduzir o leitor a essa área de pesquisa, enfatizando sua ligação com o estudo da linguagem. De acordo com uma concepção linguisticamente motivada do PLN, este trabalho divide-se em sete seções. Na segunda, busca-se tratar as origens dessa área. Na terceira, discorre-se sobre a natureza heterogênea do PLN, ABSTRACT -In this paper, we provide a brief description of the multidisciplinary domain of research call...