The Effect of Binary Data Transformation in Categorical Data Clustering

Cibulková, Jana; Šulc, Zdeněk; Sirota, S. M.; Řezanková, Hana

doi:10.21307/stattrans-2019-013

Cited by 5 publications

(3 citation statements)

References 14 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…In a clustering method, by default, the distance measures like Euclidean distance and Hamming distance are used in clustering methods such as hierarchical clustering. They perform well in most of the homogenous categorical data [18]. In heterogeneous data, the capability of entropy distances is offered.…”

Section: Entropy Distance Measurementioning

confidence: 99%

Clustering heterogeneous categorical data using enhanced mini batch K-means with entropy distance measure

Mahfuz

Yusoff²,

Idrus³

2023

IJECE

View full text Add to dashboard Cite

Clustering methods in data mining aim to group a set of patterns based on their similarity. In a data survey, heterogeneous information is established with various types of data scales like nominal, ordinal, binary, and Likert scales. A lack of treatment of heterogeneous data and information leads to loss of information and scanty decision-making. Although many similarity measures have been established, solutions for heterogeneous data in clustering are still lacking. The recent entropy distance measure seems to provide good results for the heterogeneous categorical data. However, it requires many experiments and evaluations. This article presents a proposed framework for heterogeneous categorical data solution using a mini batch k-means with entropy measure (MBKEM) which is to investigate the effectiveness of similarity measure in clustering method using heterogeneous categorical data. Secondary data from a public survey was used. The findings demonstrate the proposed framework has improved the clustering’s quality. MBKEM outperformed other clustering algorithms with the accuracy at 0.88, v-measure (VM) at 0.82, adjusted rand index (ARI) at 0.87, and Fowlkes-Mallow’s index (FMI) at 0.94. It is observed that the average minimum elapsed time-varying for cluster generation, k at 0.26 s. In the future, the proposed solution would be beneficial for improving the quality of clustering for heterogeneous categorical data problems in many domains.

show abstract

Section: Entropy Distance Measurementioning

confidence: 99%

Clustering heterogeneous categorical data using enhanced mini batch K-means with entropy distance measure

Mahfuz

Yusoff²,

Idrus³

2023

IJECE

View full text Add to dashboard Cite

show abstract

“…Transformation: After preprocessing, the data is adjusted to an appropriate form that allows the implementation of the selected data mining technique, for this, different strategies are applied, such as the binarization of states in a variable or the methods of reducing dimensions that allow optimizing the data extraction algorithms that will be used on later stage, thus reducing the number of variables under consideration (Cibulková, Šulc, Sirota, & Řezanková, 2019).…”

Section: Kdd Processmentioning

confidence: 99%

Proposal for a KDD-based procedure to obtain a set of intelligent systems training applied to the identification of failures in hydroelectric power plants

Valencia

Chaux

Caicedo

et al. 2020

JART

View full text Add to dashboard Cite

This paper presents a procedure based on KDD (Knowledge Discovery Data), which allows the analysis of a data set to obtain structured information from the behavior of the system under specific conditions, such as system failure conditions at a hydroelectric power plant. By applying this procedure, the information obtained, it is structured in such a mode so that it can be used on the training of intelligent systems focused on fault diagnosis. The former procedure is necessary in the intelligent systems development stage because obtaining an effective training set requires extreme time and effort. The procedure was applied in the historical records of the Amaime hydroelectric power plant, located in Palmira, Valle del Cauca, Colombia, aiming to obtain patterns of behavior of the protection system which can be translated to different failures. This was possible by integrating a data mining technique such as hierarchical clustering and the statistical technique called the interpolation function. The main achievement of this work is to present a structured procedure that reduces the time to obtain a training set. In this specific case, the training set for mechanical failure of a hydroelectric power station was obtained, which can be used in the development of an intelligent system for failures diagnosis.

show abstract

“…La estructura general de la función similaridad S(X , Y ) se describe como (Boriah et al, 2008): Para efectos de este procedimiento, se consideró el conjunto de similaridades, diseñadas especialmente para datos categóricos, propuesto por Boriah et al (2008). Este tipo de medidas es muy ventajoso ya que conduce a mejores agrupamientos en comparación con otras medidas de similitud como las medidas de agrupación binaria (Cibulková et al, 2019). Luego de aplicar el proceso de selección se optó por utilizar dos medidas de similitud, una para cada objeto de interés o UTO recabada mediante CAQDAS.…”

Section: Selección De Una Medida De Similaridadunclassified

Marco de referencia para la planificación y desarrollo continuo de la comunicación de riesgos y crisis frente a amenazas en Sudamérica

Marcillo Delgado

View full text Add to dashboard Cite

(English) Research on risk communication and crisis communication (RC&C) is a crucial aspect to foster population resilience in the face of major hazards, especially in developing economies where there are greater social vulnerabilities. The objective of this doctoral thesis is to propose a framework to guide the planning and ongoing development of CR&C strategies in South America. The methodological framework, based on data mining, involves the use of different textual mining techniques, according to the structure of each of the data, which make it possible to visualize the relationships between textual objects; classify the objects of interest; carry out comparative analyses at the country level; and study CR&C trends. The units of analysis focus on different types of textual data such as documents associated with risk and crisis management planning, scientific publications, communiqués issued via tweets, and information from the Regional Logistics Center for Humanitarian Assistance that is located in Panama in the period 2017-2021. It identifies the main CR&C and Risk and Crisis Management (RC&C) strategies that South American RC&C Services should consider in order to make their communications more effective throughout the crisis cycle. Strengths and weaknesses of the analyzed countries' planning on these strategies are identified. The influence of economic, political, social, demographic, technical and disaster risk factors on the development of CR&C and GR&C strategies is identified. The analysis of different GR&C documents allows differentiating five minimum components of CR&C in South America: i) early communication planning; ii) information and communication system planning; iii) quality management of communication and communicators; iv) risk and crisis awareness; and v) stakeholder consolidation. The bibliometric mapping of 330 scientific publications differentiates five clusters for CR&C in South America: i) factors for risk communication in vulnerable areas; ii) factors for health and crisis communication; iii) elements for communication of human and environmental exposure to contaminants; iv) management of the continuity and quality of communication, v) factors that enhance communication. It is identified that most of the factors revealed through the bibliometric analysis are aimed at strengthening communication systems and increasing risk awareness of vulnerable people. The analysis of 40,082 official tweets from the Ministries of Health of eight South American countries during COVID-19 identified 18 communication topics associated with: i) communication of the impact and monitoring of the threat; ii) communication of measures to reduce the risk of the threat; iii) visibility of the multidimensional nature of the problem; iv) communication of the capacity of the health system to deal with threats; and v) communication of mechanisms to strengthen vulnerable groups in the face of threats. The above results allow proposing a framework of strategies for disaster risk and humanitarian crisis communication in South America. This doctoral thesis contributes to: i) understand the factors affecting the development of CR&C; ii) recognize the efforts envisaged by regional policy; iii) analyze the advantages and disadvantages of CR&C planning at the country level; iv) verify the conformity of planning with contemporary international frameworks such as the Sendai Framework for Risk and Disaster Reduction 2015-2030; v) generate knowledge for decision making; and vi) serve as input to accelerate the implementation of strategies in the context of risk and crisis management (R&CM). (Català) La recerca relativa a la comunicació de riscos i comunicació de crisis (CR&C) és un aspecte fonamental per potenciar la resiliència de la població enfront grans amenaces, especialment en economies en desenvolupament on existeixen majors vulnerabilitats socials. L’objectiu d’aquesta tesi doctoral és proposar un marc de referència per orientar la planificació i el desenvolupament continu de les estratègies de CR&C a Sud-Amèrica. El marc metodològic, basat en mineria de dades, implica l’ús de diferents tècniques de mineria textual, d’acord a l’estructura de cada grup de dades, que permeten visibilitzar les relacions entre objectes textuals; classificar els objectes d’interès; realitzar anàlisis comparatius a nivell de país i estudiar les tendències de la CR&C. Les unitats d’anàlisi es centren en diferents tipologies de dades textuals com documents associats a la planificació de la gestió de riscos i de crisis, publicacions científiques, comunicats emesos via tuïts, i informació del Centro Logístico Regional de Asistencia Humanitaria ubicat a Panamà en el període 2017-2021. S’identifiquen les principals estratègies de CR&C i de Gestió de Riscos i de Crisis (GR&C) que els Serveis de GR&C de Sud-Amèrica han de considerar perquè les seves comunicacions siguin més efectives al llarg del cicle d’una crisi. S’identifiquen fortaleses i debilitats de la planificació dels països analitzats sobre aquestes estratègies. S’identifica la influència que exerceixen els factors econòmics, polítics, socials, demogràfics, tècnics i del risc de desastre en el desenvolupament de les estratègies de CR&C i GR&C. L’anàlisi de diferents documents de GR&C permet diferenciar cinc components mínims de la CR&C a Sud-Amèrica: i) planificació de la comunicació primerenca; ii) planificació del sistema d’informació i comunicació; iii) gestió de qualitat de la comunicació i dels comunicadors; iv) sensibilització de riscos i de crisis, i v) consolidació de les parts interessades. En el mapeig bibliomètric de 330 publicacions científiques es diferencien cinc clústers per la CR&C a Sud-Amèrica: i) factors per la comunicació de riscos a zones vulnerables; ii) factors per la comunicació de la salut i les crisis; iii) elements per la comunicació de l’exposició humana i ambiental a contaminants; iv) gestió de la continuïtat i qualitat de la comunicació, v) factors potenciadors de la comunicació. S’identifica que la majoria dels factors revelats en l’anàlisi bibliomètric estan orientats a enfortir els sistemes de comunicació i a augmentar el coneixement del risc de les persones vulnerables. L’anàlisi de 40 082 tuïts oficials, dels Ministeris de Salut de vuit països sud-americans, durant la COVID-19 permet identificar 18 temes comunicacionals associats a: i) la comunicació de l’impacte i monitoratge de l’amenaça; ii) la comunicació de mesures per la disminució del risc de l’amenaça; iii) la visibilitat del caràcter multidimensional de la problemàtica; iv) la comunicació de la capacitat del sistema sanitari per afrontar les amenaces; i v) la comunicació de mecanismes per l’enfortiment de grups vulnerables vers amenaces. Els resultats previs permeten proposar un marc d’estratègies per la comunicació del risc del desastre i les crisis humanitàries a Sud-Amèrica. Aquesta tesi doctoral contribueix a: i) comprendre els factors que incideixen en el desenvolupament de la CR&C; ii) reconèixer els esforços previstos per la política regional; iii) analitzar els avantatges i inconvenients de la planificació amb marcs internacionals contemporanis com el Marc de Sendai per la Reducció de Riscos i Desastres 2015-2030; v) generar coneixement per la presa de decisions, i vi) aportar en l’acceleració de la implementació d’estratègies en el context de la gestió de riscos i crisis (GR&C). (Español) La investigación sobre comunicación de riesgos y comunicación de crisis (CR&C) es un aspecto crucial para fomentar la resiliencia poblacional frente a grandes amenazas, especialmente en economías en desarrollo donde existen mayores vulnerabilidades sociales. El objetivo de la presente tesis doctoral es proponer un marco de referencia para orientar la planificación y el desarrollo continuo de las estrategias de CR&C en Sudamérica. El marco metodológico, basado en minería de datos, implica el uso diferentes técnicas de minería textual, acordes a la estructura de cada uno de los datos, que permiten visibilizar las relaciones entre objetos textuales; clasificar los objetos de interés; realizar análisis comparativos a nivel país, y estudiar las tendencias de la CR&C. Las unidades de análisis se centran en diferentes tipos de datos textuales como documentos asociados a la planificación de la gestión de riesgos y de crisis, publicaciones científicas, comunicados emitidos vía tuits, e información del Centro Logístico Regional de Asistencia Humanitaria que está ubicado en Panamá en el periodo 2017-2021. Se identifican las principales estrategias de CR&C y de Gestión de Riesgos y de Crisis (GR&C) que los Servicios de GR&C de Sudamérica deben considerar para que sus comunicaciones sean más efectivas a lo largo del ciclo de una crisis. Se identifican fortalezas y debilidades de la planificación de los países analizados sobre estas estrategias. Se identifica la influencia que ejercen los factores económicos, políticos, sociales, demográficos, técnicos y del riesgo de desastre en el desarrollo de las estrategias de CR&C y GR&C. El análisis de diferentes documentos de GR&C permite diferenciar cinco componentes mínimos de la CR&C en Sudamérica: i) planificación de la comunicación temprana; ii) planificación del sistema de información y comunicación; iii) gestión de calidad de la comunicación y los comunicadores; iv) sensibilización de riesgos y de crisis, y v) consolidación de las partes interesadas. En el mapeo bibliométrico de 330 publicaciones científicas se diferencian cinco clústeres para la CR&C en Sudamérica: i) factores para la comunicación de riesgos en zonas vulnerables; ii) factores para la comunicación de la salud y crisis; iii) elementos para la comunicación de la exposición humana y ambiental a contaminantes; iv) gestión de la continuidad y calidad de la comunicación, v) factores potenciadores de la comunicación. Se identifica que la mayoría de los factores revelados mediante el análisis bibliométrico están orientados a fortalecer los sistemas de comunicación y a aumentar el conocimiento del riesgo de las personas vulnerables. El análisis de 40 082 tuits oficiales, de los Ministerios de Salud de ocho países sudamericanos, durante la COVID-19 permite identificar 18 temas comunicacionales asociados a: i) la comunicación del impacto y monitoreo de la amenaza; ii) la comunicación de medidas para la disminución del riesgo de la amenaza; iii) la visibilidad del carácter multidimensional de la problemática; iv) la comunicación de la capacidad del sistema sanitario para enfrentar las amenazas, y v) la comunicación de mecanismos para el fortalecimiento de grupos vulnerables frente a amenazas. Los anteriores resultados permiten proponer un marco de estrategias para la comunicación del riesgo de desastre y crisis humanitarias en Sudamérica. La presente tesis doctoral contribuye a: i) comprender los factores que inciden en el desarrollo de la CR&C; ii) reconocer los esfuerzos previstos por la política regional; iii) analizar las ventajas y desventajas de la planificación de la CR&C a nivel país; iv) verificar la conformidad de la planificación con marcos internacionales contemporáneos como el Marco de Sendai para la Reducción de Riesgos y Desastres 2015-2030; v) generar conocimiento para la toma de decisiones, y vi) servir de insumo para acelerar la implementación de estrategias en el contexto de la gestión de riesgos y de crisis (GR&C).

show abstract

The Effect of Binary Data Transformation in Categorical Data Clustering

Cited by 5 publications

References 14 publications

Clustering heterogeneous categorical data using enhanced mini batch K-means with entropy distance measure

Clustering heterogeneous categorical data using enhanced mini batch K-means with entropy distance measure

Proposal for a KDD-based procedure to obtain a set of intelligent systems training applied to the identification of failures in hydroelectric power plants

Marco de referencia para la planificación y desarrollo continuo de la comunicación de riesgos y crisis frente a amenazas en Sudamérica

Contact Info

Product

Resources

About