AgradecimentosAgradeço ao meu orientador, pelo ensinamento e pelas palavras de apoio; aos meus pais, pelo apoio constante e indispensável; aos meus amigos, que muito ouviram e me ajudaram; à Renata, pela parceria em duas anotações de córpus; ao Roque, pela ajuda com o desenvolvimento das abordagens propostas neste trabalho; aos colegas de laboratório e a todos que me ajudaram de alguma forma a concluir este trabalho de mestrado.VI VII "...before tomorrow comes, you could change everything…"
VIII
IX
ResumoCom o excesso de informação disponível online, a Sumarização Automática tornou-se uma área de bastante interesse na grande área da Inteligência Artificial.Alguns autores tentaram caracterizar o processo de sumarização para compreender melhor como sumarizadores o realizam. O alinhamento de um sumário e seus textos fonte pode ser encarado como uma caracterização desse processo. Com relação à sumarização automática, a técnica de alinhamento consiste em obter relações entre segmentos de um ou vários textos e seu sumário e, da forma que o conteúdo de um segmento esteja contido no outro. Uma vez obtidas essas relações, torna-se possível (i) aprender como sumarizadores profissionais realizam a sumarização, (ii) explicitar regras e modelos para a sumarização, e (iii) criar métodos automatizados utilizando as regras e modelos explicitados, o que traz uma contribuição à Sumarização Automática.Neste trabalho, foram propostas três abordagens dentro das abordagens superficiais e profundas do Processamento de Língua Natural para realizar os alinhamentos de forma automática. A primeira utiliza três métodos superficiais, sendo eles Word overlap, tamanho relativo e posição relativa. A segunda caracteriza-se em uma técnica de alinhamento com mais conhecimento linguístico, pois nela foi utilizada uma teoria discursiva, a CST (Cross-Document Structure Theory). A terceira utiliza Aprendizado de Máquina, caracterizando uma abordagem híbrida dada a característica de seus atributos superficiais e profundos, relativo à primeira e à segunda abordagem. Uma avaliação comparativa entre elas, e também entre um trabalho da literatura, foi realizada. Quando os dados do aprendizado de máquina eram balanceados, foi atingido o valor de 97,2% de medida-F, maior valor encontrado. O método superficial Word overlap também obteve um bom resultado, sendo ele 66,2% de medida-F. A atividade de produzir sumários (resumos) é uma atividade comum que as pessoas realizam diariamente, por exemplo, quando alguém deseja narrar uma história para outra pessoa. A sumarização é útil também quando alguém procura saber do que se trata um livro, um filme ou mesmo um artigo ou uma dissertação, lendo, dessa forma, um sumário sobre o conteúdo dos mesmos.Além disso, sumários são bastante úteis, pois é sabido que nem toda parcela de informação é relevante a quem procura, e muito do que os meios de comunicação provêm são informações repetidas e até contraditórias. Nesse contexto, torna-se útil a produção automática de sumários provenientes de mais de um texto. A sumarização ...