U S P -S ã o C a r l o s J u n h o d e 2 0 0 7Data da Defesa: 21/05/2007 Visto do Orientador: Agradecimentos Aos meus pais pelo grande amor que têm por mim e por serem meus grandes amigos. Ao meu irmão, minha outra metade, pela amizade e o exemplo de vida. Ao Leo, o amor da minha vida, por ser tudo aquilo o que sempre sonhei para um companheiro. As minhas grandes amigas que mesmoà distância continuam sempre presentes: Paula, Cadô, Patrícia, Lecy, Aninha e Karina. A Graça pelos anos de dedicação e orientação e por ter me guiado pela vida de pesquisadora. Ao Mikel pela orientação na Espanha. Aos colegas do NILC presentes e distantes que nestes 6 anos me ajudaram profissionalmente, em especial a Mônica, Carmen eÉlen. Aos amigos do NILC e, principalmente, ao trio AniAni, Thiago e Lê. Aos colegas da Espanha eàs minhas companheiras de piso Susana e Maloles. As professoras Carolina, Lúcia Rino, Sandra, Solange e Gladis pela atenção dispensada e pelos momentos de descontração. Aos professores da graduação Sérgio Schneider e Márcia Fernandes, grandes mestres e amigos. A FAPESP eà CAPES pelo apoio financeiro, ao NILC eà USP pelas instalações. As secretárias, aos porteiros,às faxineiras e aos amigos da cantina pela atenção e descontração do dia a dia. Enfim, a cada pessoa que nestes quatro anos cruzou o meu caminho me apoiando, me incentivando ou simplesmente me ouvindo ... muito obrigada!
AbstractMachine Translation (MT) -the translation of a natural (source) language into another (target) by means of computer programs -is a hard task, mainly due to the need of deep linguistic knowledge about the two (or more) languages required to build resources such as translation grammars, bilingual dictionaries, etc. The scarcity of linguistic resources or even the difficulty to build them often limits the use of MT systems, for example, to certain application domains. In this context, several methods have been proposed aiming at generating linguistic knowledge automatically from multilingual resources, so that building translation tools becomes less hard. The ReTraTos project presented in this document is one of these proposals and aims at inducing translation lexicons and transfer rules automatically from PoS-tagged and lexically aligned translation examples for Portuguese-Spanish and Portuguese-English language pairs. The rule induction system brings forth a new approach, in which translation examples are split into alignment blocks and induction is performed for each type of block separately. Another new feature of this system is a more elaborate strategy for filtering the induced rules. Besides the translation lexicon and the transfer rule induction systems, we also implemented a MT module for validating the induced resources. The induced translation lexicons were evaluated intrinsically and the results obtained agree with those reported on the literature. The induced translation rules were evaluated directly and indirectly by the MT module, and improved the word-by-word translation in both directions (source-target and target-so...