RESuMENAunque en los últimos años la lingüística de corpus ha experimentado una gran evolución y en la actualidad cuenta con una creciente presencia en proyectos de investigación en torno a estudios de Lingüística y Traducción (por ejemplo: Kübler y Foucou, 2003; Laroche y Langlais, 2010), los procedimientos técnicos más avanzados enfocados a la compilación y explotación de corpus siguen siendo un escollo. El principal propósito de este trabajo es, por tanto, hacer accesible este tipo de información a toda la comunidad investigadora poco experta en la materia. En concreto, presenta la experiencia de creación de un corpus paralelo alineado con Déjà Vu, etiquetado lingüísticamente con TreeTagger, documentado con Notepad++ e indexado con IMS Open Corpus Workbench. Además, incluye una breve introducción a la exploración y el análisis de corpus con Corpus Query Processor, la principal herramienta de IMS Open Corpus Workbench.Palabras clave: Lingüística de corpus; Déjà Vu; TreeTagger; IMS Open Corpus Workbench.
RLA. Revista de Lingüística Teórica y AplicadaConcepción (Chile), 54 (1), I Sem. 2016, pp. 149-174. CL ISSN 0033 -698X * Este trabajo ha sido posible gracias a los proyectos "Refinamiento y sistematización del aná-lisis del corpus COVALT a través de su preprocesamiento y ampliación mediante la inclusión de traducciones al castellano" (FFI2012-35239/FILO) del Ministerio de Educación de España y "Los corpus en la enseñanza de la traducción. Ampliación y explotación didáctica del corpus COVALT" (P1.1B2013-44) de la Universitat Jaume I (España) y a una ayuda para movilidad del personal investigador de la Fundació Caixa Castelló-Bancaixa ("Acción 2 del Plan de promoción a la investigación de la Universitat Jaume I para el curso 2012/2013") en la Universität Leipzig (Alemania). Quiero agradecerles a Ulrike Oster, Víctor González, Daniel Renau, Francisco Nevado y a los dos evaluadores anónimos sus consejos y comentarios.
150RLA. Revista de Lingüística Teórica y Aplicada, 54 (1), I Sem. 2016
ABSTRACTAlthough Corpus linguistics has advanced a great deal in recent years and is now being increasingly more frequently included within research projects regarding Linguistics and Translation (for instance: Kübler & Foucou, 2003;Laroche & Langlais, 2010), the most advanced technical procedures focused on the creation and exploitation of corpora are still a pitfall. The main aim of this paper is, then, to make this kind of information more widely available to the research community with little experience in the field. In particular, it presents the experience of creating a parallel corpus that was aligned with
INTRODuCCIÓNExiste un amplio consenso en cuanto a que la lingüística de corpus constituye una herramienta óptima para el estudio de fenómenos lingüísticos y traductológicos (véase, por ejemplo: Bernardini, 2004;Aston, 2009;Kübler, 2011). Cuando un investigador dispone del corpus adecuado para sus fines y una interfaz de bús-queda que le permita extraer de él la información específica que busca, los corpus electrónicos ...