2014
DOI: 10.13053/rcs-74-1-1
|View full text |Cite
|
Sign up to set email alerts
|

Análisis empírico de la dispersión del español mexicano

Abstract: Resumen. En este artículo se presenta un sistema que pretende facilitar el análisis de la dispersión del español mexicano. Se presentan gráficas resultantes, así como los modelos del sistema. El objetivo es mostrar el avance del sistema y su posible aplicación en el cálculo de la dispersión del lenguaje para otros idiomas. Los experimentos fueron realizados sobre dos tipos de corpora: noticias y tweets.Palabras clave: Dispersión del idioma, noticias, tweets. IntroducciónEn el idioma español existen rasgos y ca… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1

Citation Types

0
0
0
3

Year Published

2015
2015
2017
2017

Publication Types

Select...
2

Relationship

2
0

Authors

Journals

citations
Cited by 2 publications
(3 citation statements)
references
References 4 publications
0
0
0
3
Order By: Relevance
“…La primera actividad, el preprocesado del corpus, contempla la eliminación de signos de puntuación y de palabras cerradas, mediante la utilización de un lexicón deéstos [8]. Además, se eliminan los caracteres especiales, poniendo atención a los caracteres relacionados con los eventos indicadores ( %); estos caracteres a eliminar, se consideran irrelevantes para la extracción de los e entos indicadores debido a que ocasionarán conflicto al momento de recuperar la información que se está extrayendo y podrían incrementar el tiempo de respuesta.…”
Section: Etapa De Procesamientounclassified
“…La primera actividad, el preprocesado del corpus, contempla la eliminación de signos de puntuación y de palabras cerradas, mediante la utilización de un lexicón deéstos [8]. Además, se eliminan los caracteres especiales, poniendo atención a los caracteres relacionados con los eventos indicadores ( %); estos caracteres a eliminar, se consideran irrelevantes para la extracción de los e entos indicadores debido a que ocasionarán conflicto al momento de recuperar la información que se está extrayendo y podrían incrementar el tiempo de respuesta.…”
Section: Etapa De Procesamientounclassified
“…En [1] se realizó un análisis de la dispersión del idioma español en México con respecto a la frecuencia n-gramas de letras que fueron calculados por regiones geográficas de la República Mexicana y comparados con la media nacional para obtener la frecuencia por entidad federativa, donde se usaron corpus de noticias periodísticas y de tweets. En general, se calcula la frecuencia de cada n-grama (unigrama, bigrama o trigrama) y se ordenan los n-gramas en forma descendente.…”
Section: Trabajo Relacionadounclassified
“…Se utilizó [3] para complementar los diccionarios de palabras obscenas y vulgares usados en [1], sin embargo, algunas frases que aparecen ya no son utilizadas de manera frecuente en la actualidad por usuarios de la red social de Twitter. En este trabajo se hizo uso de herramientas que permitieron la extracción masiva de tweets y poder analizar una mayor cantidad de perfiles y poder analizar información específica y de relevancia en el procesamiento de lenguaje natural.…”
Section: Trabajo Relacionadounclassified