Aplicar técnicas que ayuden a reducir el espacio de búsqueda en tareas de consultas a corpus jurídicos documentales es sumamente importante debido al volumen y diversidad de datos involucrados. Utilizando medidas de similitud léxica, en particular, aquellas basadas en cadenas de caracteres, es posible encontrar el umbral que determine el límite inferior aceptable del porcentaje de coincidencia de los términos que representan el mismo concepto. De este modo se minimiza la tarea manual de los expertos de dominio, ayudándolos a focalizarse en la revisión/validación de la similitud de aquellos términos que estén dentro de ese umbral de coincidencia. Seleccionando el término más representativo de cada concepto es posible reducir la matriz término-documento, punto de entrada para la búsqueda de información dentro del corpus.http://reddi.unlam.edu.ar Pág: 2 En este artículo se explica el procedimiento para encontrar el umbral de coincidencia que surge al aplicar medidas de similitud léxica a ciertos grupos de términos que representan distintos escenarios jurídicos. Estas medidas son las distancias de edición de Hamming y de Levenshtein.Los resultados muestran que el umbral puede variar según cada escenario o medida, ayudando a los expertos a centrarse en el análisis de aquellos términos cuyo porcentaje de similitud esté dentro del umbral propuesto.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.