Este artigo visa a apresentar uma reflexão sobre a importância da Linguística de Corpus (LC) como aporte metodológico para a seleção lexical do corpus oral do Projeto de Assentamento São Francisco, com o auxílio do programa computacional Sketch Engine. Nesse viés, destaca-se a LC como uma metodologia que possibilita a análise de dados da língua de forma probabilística e que permite analisar padrões ou tendências de um fenômeno linguístico. Além disso, está ligada à criação de corpora eletrônicos e a utilização de softwares de análise para a leitura de corpus oral ou escrito. O Sketch Engine, por exemplo, permite a comparação entre um corpus de estudo e um corpus de referência, de modo a destacar as palavras-chave por meio da análise de frequências em diferentes contextos. Ressalta-se, portanto, a proposta metodológica de constituição de um corpus oral e o processamento de dados para futuras análises de cunho lexical, que visam explorar dados linguísticos de uma língua, especialmente em contextos específicos de pesquisa linguística.