Abstract. The change detection problem is aimed at identifying common and different strings and usually has non-unique solutions. The identification of the best alignment is canonically based on finding a longest common subsequence (LCS) and is widely used for various purposes. However, many recent version control systems prefer alternative heuristic algorithms which not only are faster but also usually produce better alignment than finding an LCS.Two basic shortcomings of known alignment algorithms are outlined in the paper:(1) even when the length of the longest common substring is close to that of the LCS, the latter may consist of a great number of short uninformative substrings; (2) known alternative algorithms start with identifying the most informative common string, which sometimes omits from consideration common subsequence containing arbitrarily many aligned substrings of similar quality. The sequence alignment problem is considered to be an abstract model for change detection in collaborative text editing designed to minimize the probability of merge conflict. A new cost function is defined as the probability of overlap between detected changes and a random string. This optimization avoids both shortcomings mentioned above. The simple cubic algorithm is proposed.
Модель и аксиомы метрик сходстваАннотация. В современных приложения метрики сходства обычно комби-нируются с учётом сложности алгоритмов, особенностей восприятия челове-ка, ресурсов и выборок данных. Для оптимизации требуется унифицирован-ное формальное описание основных показателей подобия. Для оптимизации требуется выделить формально и строго описанное абстрактное понимание сходства между объектами.Расширена система аксиом метрики сходства и для неё построена уни-версальная модель, обощающая известные модели сходства, не сводящиеся к евклидовой метрике. Модель базируется на взвешенном частично упоря-доченном множестве.Ключевые слова и фразы: сходство строк, выравнивание последовательностей, аксиомы сходства, LCS, метрика Левенштейна.Различные метрики и меры сходства широко используются в пси-хологии, химии, биоинформатике и при обработке текстов. Иногда в этом качестве используются метрики расстояния, представленные в математике понятиями метрического пространства, псевдометри-ки [1], квазиметрики [1,2], псевдометрики [1], праметрики [3], се-ми метрики [4] и частичной метрики [5]. Общеизвестно [6], что мет-рик расстояния недостаточно для описания метрик и мер сходства. Известные формализации метрик [7][8][9] и мер [10] сходства прояснили важные аспекты сходства. Прикладные исследования [8,[11][12][13] убеди-тельно показали необходимость комбинирования различных метрик.Поиск оптимальных комбинаций метрик нуждается в прозрачной общей картине используемых понятий сходства.Множество объектов, сопоставимых по сходству, обозначим . Буквами , , , , , будем обозначать произвольные его элементы. Будем опускать все внешние кванторы ∀ ∈ . . . ∀ ∈ во всех формулах, акцентируя в ближайшем контексте редко присутствующие внешние переменные. Таким образом, любая метрика сходства предстаёт функцией на0}, а для меры сходства -единичный отрезок = [0, 1], к которому рассмотрение как-нибудь сводится. Зача-стую 0 считается минимально возможным значением, показывающим отсутствие какого бы то ни было сходства, но иногда 0 лежит внутри и означает отсутствие выразительного сходства или различия. Различная семантика нуля сигнализирует о путанице. Чтобы достичь прозрачности и строгости, вспомним о практике нормализации метрик. Исходные метрики часто приводятся к требуе-мому диапазону значений различными преобразованиями. Возникает задача разделить качества метрик, которые могут быть получены раз-личными преобразованиями при нормализации и те качества, которые должны характеризовать фундаментальное понятие сходства.Требуется не ограничивая приложений предельно упростить базо-вую модель, основываясь на разнообразии преобразований нормали-зации, каждое из которых влияет сразу на несколько качеств иногда по-разному в разных практических ситуациях.Для решения этой задачи воспользуемся системой аксиом [14], органично совмещающая различные понимания сходства и расстояния. Проанализируем её основные аксиомы и возможные ограничения на область значений .1. Система аксиом сходства 1.1. Аксиомы направленности и отделимости В соответствии с [14] буде...
How to normalise similarity metric to a metric space for a clusterization? A new system of axioms describes the known generalizations of distance metrics and similarity metrics, the Pearson correlation coefficient and the cosine metrics. Equivalent definitions of order-preserving transformations of metrics (both monotonic and pivot-monotonic) are given in various terms. The metric definiteness of convex metric subspaces R n and Z among the pivot-monotonic transformations is proved. Faster formulas for the monotonic normalization of metrics are discussed.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.