Programming Taskbook

Электронный задачник по программированию

Главная

PT for Bio

Группы заданий

Align

Примеры выполнения заданий

Наивный алгоритм поиска

Поиск методом Кнута–Морриса–Пратта

Препроцессинг для метода Кнута–Морриса–Пратта

Вычисление дактилограмм в методе Карпа–Рабина

Вычисление сходства строк

Обратный ход в алгоритме оптимального выравнивания

Полный вариант алгоритма оптимального выравнивания

Поиск подпоследовательности в строке

PT for Bio | Группы заданий | Align

Неточное сопоставление строк

Все исходные числовые данные в заданиях являются целыми и неотрицательными. Если числовые данные могут принимать нулевые значения, то об этом явно говорится в формулировке задания.

Все исходные строковые данные являются непустыми. Позиции символов в строках нумеруются от 1. Длина строки S обозначается через |S|; длина исходных строк в заданиях не превосходит 100. Через S[i..j] обозначается подстрока S, начинающаяся в позиции i и оканчивающаяся в позиции j (если i > j, то S[i..j] считается пустой строкой). Через S[i], i = 1, …, |S|, обозначается символ строки S, расположенный в позиции i.

Под алфавитом Σ понимается множество символов, в которое входят все символы рассматриваемых строк. Если алфавит Σ в задании не уточняется, то предполагается, что строка может содержать любые символы, отличные от управляющих.

Матричные строки (англ. row) называются в формулировках заданий строчками, чтобы отличать их от текстовых строк (англ. string).

Описания алгоритмов приводятся по книге Д. Гасфилда «Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология» (СПб.: БХВ-Петербург, 2003), часть III.

Редакционное расстояние и оптимальное редакционное предписание

В данной подгруппе рассматривается классическая задача неточного сопоставления строк — задача о редакционном расстоянии. Редакционное расстояние (англ. edit distance) определяет меру различия строк; оно равно минимальному числу операций редактирования, выполняемых над отдельными символами и позволяющих преобразовать одну строку в другую. В задаче о редакционном расстоянии требуется не только определить редакционное расстояние, но и найти последовательность операций редактирования, связанную с данным расстоянием и называемую оптимальным редакционным предписанием. Алгоритмы нахождения редакционного расстояния и оптимального редакционного предписания основаны на динамическом программировании.

Align1°. Определены следующие операции редактирования для строк S₁ и S₂: I — вставка перед текущим символом S₁ текущего символа из S₂ и переход к следующему символу S₂ (текущий символ S₁ не изменяется); D — удаление текущего символа S₁ и переход к следующему символу S₁ (текущий символ S₂ не изменяется), R — замена текущего символа S₁ на текущий символ S₂, M — «пустая операция», при которой текущие символы S₁ и S₂ не изменяются (после выполнения операций R и M происходит переход к следующему символу в каждой строке). В начальный момент текущими символами считаются первые символы строк. Строка над алфавитом {I, D, R, M}, обеспечивающая преобразование строки S₁ в строку S₂, называется редакционным предписанием (или просто предписанием) для данных строк. Дана строка S₁, предписание T и два символа: C₁ и C₂. Получить строку S₂, если известно, что при выполнении операции I текущим символом строки S₂ всегда оказывается символ C₁, а при выполнении операции R — символ C₂.

Align2°. Даны строки S₁, S₂ и T. Строка T содержит только символы I, D, R, M. Проверить, является ли строка T предписанием для строк S₁ и S₂ (определение предписания приведено в Align1); для этого выполнить операции редактирования из T для строки S₁, получив строку S'₁. Если T является предписанием, т. е. S'₁ = S₂, то вывести 0, если не является, то вывести номер первого символа S'₁, отличающегося от символа S₂ с тем же номером (символы нумеруются от 1), или −1, если символы S'₁ и S₂ с одинаковыми номерами совпадают, но длины строк S'₁ и S₂ различны. Проверку выполнять в процессе построения строки S'₁.

Align3°. Оптимальным предписанием T для строк S₁ и S₂ называется предписание (см. Align1), содержащее минимальное количество операций I, D, R (операции M не учитываются). Количество операций I, D, R, входящих в оптимальное предписание, называется редакционным расстоянием между S₁ и S₂. Даны строки S₁, S₂ и четыре строки, содержащие только символы I, D, R, M. Известно, что одна из этих четырех строк является оптимальным предписанием для S₁ и S₂. Вывести редакционное расстояние между S₁ и S₂ и порядковый номер той строки, которая является оптимальным предписанием.

Align4°. Даны строки S₁, S₂ и числа k₁, k₂ (0 ≤ k₁ ≤ |S₁|, 0 ≤ k₂ ≤ |S₂|). Через D(i, j), обозначается редакционное расстояние между строками S₁[1..i] и S₂[1..j] (см. Align3). Справедливы следующие соотношения:

• для любого i D(i, 0) = i;
• для любого j D(0, j) = j;
• если i > 0 и j > 0, то D(i, j) = min{D(i − 1, j) + 1, D(i, j − 1) + 1, D(i − 1, j − 1) + t(i, j)}, где t(i, j) = 1, если S₁[i] ≠ S₂[j], и t(i, j) = 0, если S₁[i] = S₂[j].

Найти D(k₁, k₂), используя рекурсивную функцию, выполняющую вычисления по приведенным формулам (так называемая нисходящая рекурсия). Вывести значение D(k₁, k₂) и количество рекурсивных вызовов функции, которое потребовалось для его вычисления.

Примечание. Алгоритм решения задачи оптимизации (в нашем случае вычисления редакционного расстояния D(k₁, k₂)) путем сведения этой задачи к аналогичной задаче (или набору задач) «меньшего» размера называется алгоритмом динамического программирования.

Align5°. Даны строки S₁ и S₂. Для эффективного вычисления редакционного расстояния D(|S₁|, |S₂|) между данными строками по формулам из Align4 можно использовать следующий метод восходящей рекурсии. Вводится в рассмотрение матрица D размера (|S₁| + 1) × (|S₂| + 1), строчки и столбцы которой нумеруются от 0. Вначале заполняются элементы нулевой строчки и нулевого столбца: D_0,j = j, D_i,0 = i. Затем выполняется последовательное заполнение по строчкам остальных элементов матрицы; при этом для вычисления очередного элемента D_i,j используются уже найденные элементы, расположенные левее (элемент D_i,j−1), выше (элемент D_i−1,j) и левее и выше (элемент D_i−1,j−1) вычисляемого элемента. Элемент, расположенный в последней строчке и последнем столбце, равен редакционному расстоянию. Используя метод восходящей рекурсии, найти матрицу D и вывести элементы ее двух последних строчек: D_n−1,j, j = 0,…, |S₂|, D_n,j, j = 0, …, |S₂|, где n = |S₁|.

Align6°. Даны строки S₁ и S₂. Дополнить метод восходящей рекурсии (см. Align5) так, чтобы он позволял найти не только редакционное расстояние, но и количество различных оптимальных предписаний. Для этого дополнительно ввести в рассмотрение матрицу K того же размера, что и матрица D, и заполнять эту матрицу синхронно с D по следующим правилам: K_0,j = 1, K_i,0 = 1, значение K_i,j при i > 0 и j > 0 равно сумме значений тех элементов K_i,j−1, K_i−1,j, K_i−1,j−1, которые соответствуют элементам матрицы D, дающим минимум в формуле для D(i, j). Элемент, расположенный в последней строчке и последнем столбце матрицы K, равен количеству возможных оптимальных предписаний. Вывести последние строчки матриц D и K.

Align7°. Даны строки S₁ и S₂ и матрица D, полученная методом восходящей рекурсии (см. Align5). Известно, что имеется единственное оптимальное предписание для S₁ и S₂. Найти это предписание, выполняя обратный проход по матрице D, начиная с ее правого нижнего элемента и заканчивая левым верхним элементом; при этом для каждого элемента D_i,j при i > 0 и j > 0 перемещение выполняется в тот из элементов D_i,j−1, D_i−1,j, D_i−1,j−1, на котором достигается минимум в формуле для D(i, j) (см. Align4), для элементов D_0,j перемещение всегда выполняется влево, а для элементов D_i,0 — вверх. Перемещение влево соответствует операции I, перемещение вверх — операции D, а перемещение по диагонали влево и вверх — операции R, если S₁[i] ≠ S₂[j], и операции M, если S₁[i] = S₂[j] (операции добавляются в предписание справа налево). Вывести найденное оптимальное предписание.

Align8°. Даны строки S₁ и S₂ и матрица D, полученная методом восходящей рекурсии (см. Align5). Найти один из вариантов оптимального предписания для S₁ и S₂, выполняя обратный проход по матрице D (см. Align7). Если для некоторого элемента D_i,j возможны перемещения более чем в один из его соседних элементов D_i,j−1, D_i−1,j, D_i−1,j−1, то предпочтение отдается перемещению влево (соответствующему операции I), а при его невозможности — перемещению вверх (соответствующему операции D). Вывести найденное оптимальное предписание.

Align9°. Даны строки S₁ и S₂ и матрица D, полученная методом восходящей рекурсии (см. Align5). Найти все оптимальные предписания для S₁ и S₂, выполняя обратный проход по матрице D (см. Align7). Если для некоторого элемента D_i,j возможны перемещения более чем в один из его соседних элементов D_i,j−1, D_i-1,j, D_i-1,j-1, то использовать следующий порядок перебора допустимых в данной позиции операций: I (перемещение влево), D (перемещение вверх), R или M (перемещение по диагонали). Реализовать один шаг обратного хода в виде рекурсивной функции, количество собственных вызовов которой зависит от числа возможных перемещений в соседние элементы. Вывести все найденные оптимальные предписания (порядок вывода предписаний должен соответствовать порядку их нахождения).

Align10°. Даны строки S₁ и S₂. Найти редакционное расстояние и один из вариантов оптимального предписания для S₁ и S₂, используя метод восходящей рекурсии для построения матрицы D (см. Align5) и выполняя обратный проход по матрице D (см. Align7). Выбор варианта оптимального предписания выполнять в соответствии с указаниями Align8.

Align11°. Даны строки S₁ и S₂. Найти редакционное расстояние и все варианты оптимального предписания для S₁ и S₂, используя метод восходящей рекурсии для построения матрицы D (см. Align5) и выполняя обратный проход по матрице D (см. Align7 и Align9).

Модификации редакционного расстояния

В данной подгруппе рассматриваются две модификации задачи о редакционном расстоянии: задача о редакционном расстоянии при наличии джокеров — символов, заменяющих любые символы строки, и задача о взвешенном редакционном расстоянии, в которой различные операции редактирования могут иметь разный вес.

Align12°. Даны строки S₁ и S₂. Строки могут содержать особый символ-джокер «?», который считается совпадающим с любым символом. При построении редакционного предписания для строк с джокерами «пустая» операция M может применяться не только при совпадении текущих символов строк, но и в случае, когда один или оба текущих символа являются джокерами. Модифицировать формулы для D(i, j), приведенные в Align4, с учетом дополнительного правила для джокеров и найти редакционное расстояние для S₁ и S₂, используя метод восходящей рекурсии, описанный в Align5. Вывести элементы двух последних строчек матрицы D: D_n−1,j, j = 0, …, |S₂|, D_n,j, j = 0, …, |S₂|, где n = |S₁| (последний элемент будет равен редакционному расстоянию).

Align13°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12). Дополнить метод восходящей рекурсии (см. Align5) так, чтобы он позволял найти не только редакционное расстояние (с учетом наличия джокеров), но и количество различных оптимальных предписаний. Для этого дополнительно ввести в рассмотрение матрицу K того же размера, что и матрица D, и заполнять эту матрицу синхронно с D по правилам, аналогичным приведенным в Align6. Вывести последние строчки матриц D и K.

Align14°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12), и матрица D, построенная методом восходящей рекурсии (см. Align5) с учетом джокеров. Найти один из вариантов оптимального предписания для S₁ и S₂, модифицировав алгоритм обратного прохода по матрице D (см. Align7) с учетом наличия джокеров. Выбор варианта оптимального предписания выполнять в соответствии с указаниями Align8.

Align15°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12), и матрица D, построенная методом восходящей рекурсии (см. Align5) с учетом джокеров. Найти все оптимальные предписания для S₁ и S₂, модифицировав алгоритм обратного прохода, описанный в Align7 и Align9, с учетом наличия джокеров.

Align16°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12). Найти редакционное расстояние и один из вариантов оптимального предписания для S₁ и S₂, используя модифицированный метод восходящей рекурсии для построения матрицы D (см. Align5) с учетом наличия джокеров и выполняя обратный проход по матрице D (см. Align7). Выбор варианта оптимального предписания выполнять в соответствии с указаниями Align8.

Align17°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12). Найти редакционное расстояние и все варианты оптимального предписания для S₁ и S₂, используя модифицированный метод восходящей рекурсии для построения матрицы D (см. Align5) с учетом наличия джокеров и выполняя обратный проход по матрице D (см. Align7 и Align9).

Align18°. Даны строки S₁ и S₂ и положительные числа d и r. Число d определяет вес («стоимость») операций вставки и удаления (I и D), число r — вес операции замены R (вес «пустой» операции M считается равным 0). Оптимальным взвешенным предписанием T для строк S₁ и S₂ называется предписание, суммарный вес операций в котором является минимальным. Суммарный вес операций, входящих в оптимальное взвешенное предписание, называется редакционно-взвешенным расстоянием между S₁ и S₂. Через D'(i, j) обозначается редакционно-взвешенное расстояние между строками S₁[1..i] и S₂[1..j]. Получить рекуррентные формулы для D'(i, j), модифицировав формулы для D(i, j), приведенные в Align4, и найти редакционно-взвешенное расстояние для S₁ и S₂, применив к матрице D' метод восходящей рекурсии (ср. с Align5). Вывести элементы двух последних строчек матрицы D': D'_n−1,j, j = 0, …, |S₂|, D'_n,j, j = 0, …, |S₂|, где n = |S₁| (последний элемент будет равен редакционно-взвешенному расстоянию).

Примечание. Поскольку операция замены R может быть сведена к последовательному выполнению операций вставки I и удаления D, вес r должен быть меньше удвоенного веса d; в противном случае либо все оптимальные взвешенные предписания не будут содержать операцию R (при r > 2d), либо любое оптимальное взвешенное предписание можно будет преобразовать к виду, не содержащему R (при r = 2d).

Align19°. Даны строки S₁ и S₂ и положительные числа d и r. Дополнить метод восходящей рекурсии (см. Align18) так, чтобы он позволял найти не только редакционно-взвешенное расстояние, но и количество различных оптимальных взвешенных предписаний. Для этого дополнительно ввести в рассмотрение матрицу K' того же размера, что и матрица D', и заполнять эту матрицу синхронно с D' по правилам, аналогичным приведенным в Align6. Вывести последние строчки матриц D' и K'.

Align20°. Даны строки S₁ и S₂, положительные числа d, r и матрица D', построенная методом восходящей рекурсии (см. Align18). Найти одно из оптимальных взвешенных предписаний для S₁ и S₂, используя алгоритм обратного прохода по матрице D' (ср. с Align7). Выбор варианта оптимального предписания выполнять в соответствии с указаниями Align8.

Align21°. Даны строки S₁ и S₂, положительные числа d, r и матрица D', построенная методом восходящей рекурсии (см. Align18). Найти все оптимальные взвешенные предписания для S₁ и S₂, применив к матрице D' алгоритм обратного прохода, описанный в Align7 и Align9.

Align22°. Даны строки S₁ и S₂ и положительные числа d и r. Найти редакционно-взвешенное расстояние и один из вариантов оптимального взвешенного предписания для S₁ и S₂, используя модифицированный метод восходящей рекурсии для построения матрицы D' (см. Align18) и выполняя обратный проход по матрице D' (см. Align7). Выбор варианта оптимального взвешенного предписания выполнять в соответствии с указаниями Align8.

Align23°. Даны строки S₁ и S₂ и положительные числа d и r. Найти редакционно-взвешенное расстояние и все варианты оптимального взвешенного предписания для S₁ и S₂, используя модифицированный метод восходящей рекурсии для построения матрицы D' (см. Align18) и выполняя обратный проход по матрице D' (см. Align7 и Align9).

Глобальное выравнивание строк

Данная подгруппа заданий посвящена способу неточного сопоставления строк, основанному на глобальном выравнивании (англ. alignment) этих строк посредством вставки в них пробелов. Рассматривается простейший вариант нахождения оптимального выравнивания, базирующийся на непосредственном применении оптимального редакционного предписания, а также выравнивание, использующее матрицу оценок. Элементы матрицы оценок представляют собой целочисленные веса (оценки) различных пар символов, причем совпадающие символы имеют неотрицательный вес, а несовпадающие — отрицательный. Оценка выравнивания определяется как сумма оценок соответствующих символов выровненных строк; максимальная из таких оценок называется значением сходства данных строк, а связанное в ней выравнивание — оптимальным оценочным выравниванием. Для нахождения сходства строк и оптимального оценочного выравнивания используется алгоритм динамического программирования.

Align24°. Глобальным выравниванием двух строк называется результат их преобразования, которое заключается во вставке в них пробелов (возможно, и на концах) и размещении получившихся строк друг над другом таким образом, чтобы каждый символ или пробел одной строки располагался напротив символа или пробела другой строки. Выравнивание, содержащее минимальное число пар несовпадающих символов (в том числе пар «символ–пробел»), называется оптимальным редакционным выравниванием. Даны строки S₁, S₂ и строка T — один из вариантов оптимального предписания (см. Align3). Построить строки A₁ и A₂, реализующие оптимальное редакционное выравнивание строк S₁ и S₂ на основе предписания T, выполняя следующие преобразования: если очередной операцией предписания T является вставка (I), то к A₁ добавляется пробел, а к A₂ — текущий символ S₂; если очередной операцией является удаление (D), то пробел добавляется к A₂, а к A₁ — текущий символ S₁; в случае операции замены (R) и «пустой» операции (M) к A₁ и A₂ добавляются текущие символы S₁ и S₂ соответственно (таким образом, операция замены соответствует размещению на одном уровне различных символов строк S₁ и S₂, а «пустая» операция — размещению на одном уровне одинаковых символов). После вставки текущего символа какой-либо строки текущим становится следующий символ этой строки. Вывести полученные строки A₁ и A₂.

Align25°. Даны строки S₁ и S₂. Найти один из вариантов оптимального предписания для данных строк, используя метод восходящей рекурсии для построения матрицы D (см. Align5) и выполняя обратный проход по матрице D (см. Align7). Выбор варианта оптимального предписания выполнять в соответствии с указаниями Align8. Построить на основе найденного предписания оптимальное редакционное выравнивание (A₁, A₂) (см. Align24) и вывести найденное выравнивание.

Align26°. Даны строки S₁ и S₂. Найти все варианты оптимального предписания для данных строк, используя метод восходящей рекурсии для построения матрицы D (см. Align5) и выполняя обратный проход по матрице D (см. Align7 и Align9). Построить на основе каждого найденного предписания оптимальное редакционное выравнивание (A₁, A₂) (см. Align24). Вывести все найденные выравнивания (A₁, A₂) в порядке, соответствующем порядку нахождения оптимальных предписаний.

Align27°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12). Найти один из вариантов оптимального предписания для данных строк, используя модифицированный метод восходящей рекурсии для построения матрицы D (см. Align5) с учетом наличия джокеров и выполняя обратный проход по матрице D (см. Align7). Выбор варианта оптимального предписания выполнять в соответствии с указаниями Align8. Построить на основе найденного предписания оптимальное редакционное выравнивание (A₁, A₂) (см. Align24) и вывести найденное выравнивание.

Align28°. Даны строки S₁ и S₂, которые могут содержать символ-джокер «?» (см. Align12). Найти все варианты оптимального предписания для данных строк, используя метод восходящей рекурсии для построения матрицы D (см. Align5) с учетом наличия джокеров и выполняя обратный проход по матрице D (см. Align7 и Align9). Построить на основе каждого найденного предписания оптимальное редакционное выравнивание (A₁, A₂) (см. Align24). Вывести все найденные выравнивания (A₁, A₂) в порядке, соответствующем порядку нахождения оптимальных предписаний.

Align29°. Пусть Σ — алфавит, используемый для строк S₁ и S₂, Σ' — алфавит Σ, дополненный пробелом. Для x, y из Σ' через s(x, y) (= s(y, x)) обозначается оценка x и y — целочисленный вес пары символов x и y при их выравнивании друг напротив друга. Симметричная матрица, элементами которой являются значения s(x, y), называется матрицей оценок. Если (A₁, A₂) — некоторое выравнивание строк S₁ и S₂ (см. Align24), то полная оценка выравнивания определяется как сумма всех оценок s(A₁[i], A₂[i]), i = 1, …, |A₁|. Дано выравнивание (A₁, A₂) и число m (< 10); алфавит представляет собой m первых строчных латинских букв. Также дана матрица оценок (порядка m + 1), в которой строчки и столбцы соответствуют латинским буквам, расположенным в алфавитном порядке, а пробел соответствует последней строчке и столбцу (в силу симметричности матрицы оценок приводится только ее верхняя треугольная часть, т. е. элементы, лежащие на главной диагонали и выше нее). Найти полную оценку данного выравнивания.

Примечание. В матрице оценок элементы, лежащие на главной диагонали, как правило, неотрицательны, а остальные элементы отрицательны; таким образом, наличие пробелов или несовпадающих символов в выравнивании приводит к уменьшению полной оценки выравнивания за счет «штрафов», связанных с пробелами и несовпадениями. При этом оценка для непробельных символов x, y обычно больше суммарной оценки за два пробела, расположенных напротив этих символов: s(x, y) > s(x, _) + s(_, y) (символ «_» обозначает пробел); иными словами, штраф за выравнивание различных символов меньше штрафа за добавление пробелов напротив этих символов).

Align30°. Оптимальным оценочным выравниванием строк S₁ и S₂ (или просто оптимальным выравниванием) называется любое выравнивание, имеющее максимальную полную оценку (определение оценки приведено в Align29). При этом сама максимальная полная оценка называется сходством строк S₁ и S₂. Даны строки S₁, S₂ и числа k₁, k₂ (0 ≤ k₁ ≤ |S₁|, 0 ≤ k₂ ≤ |S₂|). Кроме того, дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Через V(i, j) обозначается сходство строк S₁[1..i] и S₂[1..j]. Справедливы следующие соотношения (символ подчеркивания «_» обозначает пробел):

• для любого i V(i, 0) = Σ_k=1,…,is(S₁[k], _);
• для любого j V(0, j) = Σ_k=1,…,js(_, S₂[k]);
• если i > 0 и j > 0, то V(i, j) = max{V(i − 1, j) + s(S₁[i], _), V(i, j − 1) + s(_, S₂[j]), V(i − 1, j − 1) + s(S₁[i], S₂[j])}.

Найти V(k₁, k₂), используя рекурсивную функцию, выполняющую вычисления по приведенным формулам (так называемая нисходящая рекурсия). Вывести значение V(k₁, k₂) и количество рекурсивных вызовов функции, которое потребовалось для его вычисления.

Примечание. Редакционное расстояние для двух строк (см. Align3) служит мерой различия этих строк (более «близкие» строки имеют меньшее редакционное расстояние). В противоположность этой характеристике, значение сходства строк будет тем больше, чем более «близкими» будут строки. В ряде алгоритмов (в частности, при локальном выравнивании строк) оказывается более удобным использовать меру сходства, чем меру различия. Приведенный алгоритм, как и алгоритм нахождения редакционного расстояния (см. Align4), является алгоритмом динамического программирования.

Align31°. Даны строки S₁ и S₂. Кроме того, дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Для эффективного вычисления сходства строк V(|S₁|, |S₂|) по формулам из Align30 можно использовать метод восходящей рекурсии, основанный на последовательном вычислении элементов вспомогательной матрицы V размера (|S₁| + 1) × (|S₂| + 1) (действия при заполнении матрицы V аналогичны действиям при заполнении матрицы D, описанным в Align5). Элемент, расположенный в последней строчке и последнем столбце матрицы V, определяет значение сходства данных строк. Используя метод восходящей рекурсии, найти матрицу V и вывести элементы ее двух последних строчек: V_n−1, j, j = 0, …, |S₂|, V_n, j, j = 0, …, |S₂|, где n = |S₁|.

Align32°. Даны строки S₁ и S₂. Кроме того, дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Дополнить метод восходящей рекурсии (см. Align31) так, чтобы он позволял найти не только значение сходства строк, но и количество различных вариантов оптимального выравнивания. Для этого дополнительно ввести в рассмотрение матрицу K того же размера, что и матрица V, и заполнять эту матрицу синхронно с V по следующим правилам: K_0,j = 1, K_i,0 = 1, значение K_i,j при i > 0 и j > 0 равно сумме значений тех элементов K_i,j−1, K_i−1,j, K_i−1,j−1, которые соответствуют элементам матрицы V, дающим максимум в формуле для V(i, j). Элемент, расположенный в последней строчке и последнем столбце матрицы K, равен количеству вариантов оптимального выравнивания. Вывести последние строчки матриц V и K.

Align33°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Кроме того, дана матрица V, полученная методом восходящей рекурсии (см. Align31). Известно, что имеется единственный вариант оптимального выравнивания для S₁ и S₂. Найти это выравнивание (A₁, A₂), выполняя обратный проход по матрице V, начиная с ее правого нижнего элемента и заканчивая левым верхним элементом; при этом для каждого элемента V_i,j при i > 0 и j > 0 перемещение выполняется в тот из элементов V_i,j−1, V_i−1,j, V_i−1,j−1, на котором достигается максимум в формуле для V(i, j) (см. Align30); для элементов V_0,j перемещение всегда выполняется влево, а для элементов V_i,0 — вверх. Перемещение влево соответствует вставке пробела в строку A₁ и текущего элемента S₂ в строку A₂, перемещение вверх — вставке пробела в строку A₂ и текущего элемента S₁ в строку A₁, перемещение по диагонали влево и вверх соответствует вставке в A₁ и A₂ текущих элементов S₁ и S₂ соответственно (символы в строках S₁ и S₂ перебираются с конца, строки A₁ и A₂ заполняются от конца к началу). Вывести найденные строки A₁ и A₂.

Align34°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Кроме того, дана матрица V, полученная методом восходящей рекурсии (см. Align31). Найти один из вариантов оптимального выравнивания для S₁ и S₂, выполняя обратный проход по матрице V (см. Align33). Если для некоторого элемента V_i,j возможны перемещения более чем в один из его соседних элементов V_i,j−1, V_i−1,j, V_i−1,j−1, то предпочтение отдается перемещению влево (соответствующему вставке пробела в первую строку), а при его невозможности — перемещению вверх (соответствующему вставке пробела во вторую строку). Вывести найденное выравнивание (A₁, A₂).

Align35°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Кроме того, дана матрица V, полученная методом восходящей рекурсии (см. Align31). Найти все варианты оптимального выравнивания для S₁ и S₂, выполняя обратный проход по матрице V (см. Align33). Если для некоторого элемента V_i,j возможны перемещения более чем в один из его соседних элементов V_i,j−1, V_i−1,j, V_i−1,j−1, то использовать следующий порядок перебора допустимых в данной позиции действий: вставка пробела в первую строку и текущего символа во вторую строку (перемещение влево), вставка пробела во вторую строку и текущего символа в первую строку (перемещение вверх), вставка текущих символов в обе строки (перемещение по диагонали). Реализовать один шаг обратного хода в виде рекурсивной функции, количество собственных вызовов которой зависит от числа возможных перемещений в соседние элементы. Вывести все найденные оптимальные выравнивания (порядок вывода выравниваний должен соответствовать порядку их нахождения).

Align36°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти значение сходства и один из вариантов оптимального выравнивания для S₁ и S₂, используя метод восходящей рекурсии для построения матрицы V (см. Align31) и выполняя обратный проход по матрице V (см. Align33). Выбор варианта оптимального выравнивания выполнять в соответствии с указаниями Align34.

Align37°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти значение сходства и все варианты оптимального выравнивания для S₁ и S₂, используя метод восходящей рекурсии для построения матрицы V (см. Align31) и выполняя обратный проход по матрице V (см. Align33). Перебор вариантов оптимального выравнивания выполнять в соответствии с указаниями Align35.

Модификации глобального выравнивания

В данной подгруппе рассматриваются две модификации глобального оценочного выравнивания: выравнивание с бесплатными граничными пробелами и выравнивание с учетом пропусков.

Align38°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти значение сходства для строк S₁ и S₂ (см. Align30) при дополнительном предположении, что все граничные пробелы являются «бесплатными», т. е. имеют нулевую оценку (под граничными пробелами понимаются пробелы, появившиеся в начале и конце любой из строк в результате их выравнивания). Если через V'(i, j) обозначить сходство строк S₁[1..i] и S₂[1..j] при условии бесплатных начальных пробелов, то рекуррентные формулы для V'(i, j) будут аналогичны формулам для V(i, j), приведенным в Align30; необходимо лишь изменить базовые условия, положив для любого i V'(i, 0) = 0 и для любого j V'(0, j) = 0. Для эффективного нахождения значений V'(i, j) следует использовать метод восходящей рекурсии, основанный на последовательном вычислении элементов вспомогательной матрицы V' размера (|S₁| + 1) × (|S₂| + 1) (действия при заполнении матрицы V' аналогичны действиям при заполнении матрицы D, описанным в Align5). Чтобы учесть условие бесплатности конечных пробелов, в качестве значения сходства для строк S₁ и S₂ следует выбрать наибольшее значение среди элементов матрицы V', расположенных в ее последней строчке или последнем столбце. Вывести найденное значение сходства для S₁ и S₂, а также элементы последней строчки и последнего столбца матрицы V': V'_n,j, j = 0, …, p, V'_i,p, i = 0, …, n, где n = |S₁|, p = |S₂|.

Примечание. Бесплатность граничных пробелов приводит к тому, что при оптимальном оценочном выравнивании одна строка будет иметь тенденцию выравниваться по внутренней части другой или суффикс одной строки — по префиксу другой. Таким образом, указанное дополнительное условие следует применять, если требуется распознать ситуацию, при которой одна строка содержит подстроку, «близкую» другой строке, или суффикс одной строки «близок» префиксу другой.

Align39°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Кроме того, дана матрица V', полученная методом восходящей рекурсии (см. Align38). Найти один из вариантов оптимального выравнивания для S₁ и S₂ при условии бесплатных граничных пробелов, модифицировав требуемым образом алгоритм обратного прохода по матрице V' (см. Align33). Если в последней строчке или последнем столбце матрицы V' имеется несколько элементов с максимальным значением, то использовать вариант оптимального выравнивания (A₁, A₂), в котором строка A₁ содержит наибольшее число конечных пробелов, а при отсутствии вариантов с конечными пробелами для A₁ — вариант, в котором наибольшее число конечных пробелов содержит строка A₂. На следующих этапах построения оптимального выравнивания выбор варианта выполнять в соответствии с указаниями Align34. Вывести найденное выравнивание (A₁, A₂).

Align40°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Кроме того, дана матрица V', полученная методом восходящей рекурсии (см. Align38). Найти все варианты оптимального выравнивания для S₁ и S₂ при условии бесплатных граничных пробелов, модифицировав требуемым образом алгоритм обратного прохода по матрице V' (см. Align33). Варианты оптимального выравнивания (A₁, A₂) перебирать следующим образом: при наличии вариантов с конечными пробелами в строке A₁ перебирать их в порядке убывания количества этих пробелов; затем, при наличии вариантов с конечными пробелами в строке A₂, перебирать их в порядке убывания этих пробелов; затем, при наличии варианта выравнивания с отсутствующими конечными пробелами, обрабатывать этот вариант. Перебор вариантов с совпадающим числом конечных пробелов выполнять в соответствии с указаниями Align35. Вывести все найденные оптимальные выравнивания.

Align41°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти значение сходства и один из вариантов оптимального выравнивания для S₁ и S₂ при условии бесплатных граничных пробелов, используя метод восходящей рекурсии для построения матрицы V' (см. Align38) и выполняя обратный проход по матрице V' (см. Align39). Выбор варианта оптимального выравнивания выполнять в соответствии с указаниями Align39.

Align42°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти значение сходства и все варианты оптимального выравнивания для S₁ и S₂ при условии бесплатных граничных пробелов, используя метод восходящей рекурсии для построения матрицы V' (см. Align38) и выполняя обратный проход по матрице V' (см. Align39). Перебор вариантов оптимального выравнивания выполнять в соответствии с указаниями Align40.

Align43°. Пропуском (англ. gap) называется любой последовательный ряд пробелов в строке выравнивания, ограниченный непробельными символами или началом/концом строки. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок, аналогичная матрице, описанной в Align29, но содержащая только m строчек и m столбцов (в матрице отсутствуют строчка и столбец, соответствующие символу пробела, поскольку все оценки, связанные с пробелами считаются одинаковыми и равными −w_s). Найти значение сходства для строк S₁ и S₂ (см. Align30) при дополнительном предположении, что каждый пропуск вносит в это значение «штраф», равный −w_g (наряду со штрафами −w_s, вносимыми каждым пробелом, входящим в пропуск). Если через W(i, j) обозначить сходство строк S₁[1..i] и S₂[1..j] при учете пропусков, то рекуррентные формулы для W(i, j) примут следующий вид (в данных формулах используются вспомогательные функции E(i, j) и F(i, j)):

• W(0, 0) = 0;
• для любого i > 0 W(i, 0) = −w_g − i·w_s, E(i, 0) = −2·w_g − i·w_s;
• для любого j > 0 W(0, j) = −w_g − j·w_s, F(0, j) = −2·w_g − j·w_s;
• для i > 0 и j > 0 W(i, j) = max{E(i, j), F(i, j), W(i − 1, j − 1) + s(S₁[i], S₂[j])}, где E(i, j) = max{E(i, j − 1), W(i, j − 1) − w_g} − w_s, F(i, j) = max{F(i − 1, j), W(i − 1, j) − w_g} − w_s.

Для эффективного нахождения значений W(i, j) использовать метод восходящей рекурсии, основанный на последовательном вычислении элементов вспомогательных матриц E, F и W (действия при заполнении матриц аналогичны действиям при заполнении матрицы D, описанным в Align5). Значение сходства строк S₁ и S₂ при учете пропусков будет равно W(|S₁|, |S₂|). Вывести найденное значение сходства для S₁ и S₂, а также элементы последней строчки матрицы E и последнего столбца матрицы F: E_n,j, j = 0, …, p, F_i,p, i = 0, …, n, где n = |S₁|, p = |S₂|.

Примечание. Учет пропусков часто позволяет создавать выравнивания, которые лучше согласуются с анализируемыми (в частности, биологическими) моделями. Большее значение w_g будет приводить к тому, что число пропусков в выравнивании уменьшится, и полученные в результате выравнивания строки распадутся на несколько «крупных» подстрок. Меньшие значения w_g будут приводить к более фрагментированным выравниваниям. Вес отдельного пробела w_s может полагаться равным 0, в этом случае при выравнивании будет учитываться только количество пропусков, но не их размер. Рассмотренный в задании вариант моделирования пропусков называется моделью с аффинным весом, так как вес одного пропуска длины q определяется аффинной функцией w_g + q·w_s.

Align44°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Кроме того, дана матрица W, полученная методом восходящей рекурсии (см. Align43), и вспомогательные матрицы E и F (для матриц E и F элементы нулевых строк и столбцов не приводятся). Найти один из вариантов оптимального выравнивания для S₁ и S₂ при учете пропусков, используя следующий алгоритм обратного прохода по матрице W (ср. с Align33). Обратный проход по матрице W начинается с ее правого нижнего элемента и заканчивается левым верхним элементом. Для элементов W_0,j перемещение всегда выполняется влево, для элементов W_i,0 — вверх. При i > 0 и j > 0 перемещение выполняется влево в случае W_i,j = E_i,j, вверх в случае W_i,j = F_i,j и по диагонали (влево и вверх) в случае W_i,j = W_i−1,j−1 + s(S₁[i], S₂[j]), причем перемещение по диагонали выполняется на одну позицию, перемещение влево — до элемента W_i,k (k < j), для которого выполняется соотношение W_i,k = W_i,j + w_g + (j − k)·w_s, а перемещение вверх — до элемента W_k,j (k < i), для которого выполняется соотношение W_k,j = W_i,j + w_g + (i − k)·w_s. Каждое перемещение влево на одну позицию соответствует вставке пробела в строку A₁ и текущего элемента S₂ в строку A₂, каждое перемещение вправо на одну позицию — вставке пробела в строку A₂ и текущего элемента S₁ в строку A₁. Перемещение по диагонали соответствует вставке в A₁ и A₂ текущих элементов S₁ и S₂ соответственно (символы в строках S₁ и S₂ перебираются с конца, строки A₁ и A₂ заполняются от конца к началу). При наличии нескольких вариантов оптимального выравнивания выбор варианта выполнять в соответствии с указаниями Align34. Вывести найденное выравнивание (A₁, A₂).

Align45°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Кроме того, дана матрица W, полученная методом восходящей рекурсии (см. Align43), и вспомогательные матрицы E и F (для матриц E и F элементы нулевых строк и столбцов не приводятся). Найти все варианты оптимального выравнивания для S₁ и S₂ при учете пропусков, модифицировав требуемым образом алгоритм обратного прохода по матрице W (см. Align44). Перебор вариантов оптимального выравнивания выполнять в соответствии с указаниями Align35. Вывести все найденные оптимальные выравнивания.

Align46°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Найти значение сходства и один из вариантов оптимального выравнивания для S₁ и S₂ при учете пропусков, используя метод восходящей рекурсии для построения матриц W, E и F (см. Align43) и выполняя обратный проход по матрице W (см. Align44). Выбор варианта оптимального выравнивания выполнять в соответствии с указаниями Align34.

Align47°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Найти значение сходства и все варианты оптимального выравнивания для S₁ и S₂ при учете пропусков, используя метод восходящей рекурсии для построения матриц W, E и F (см. Align43) и выполняя обратный проход по матрице W (см. Align44). Перебор вариантов оптимального выравнивания выполнять в соответствии с указаниями Align35.

Align48°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Найти значение сходства для строк S₁ и S₂ при учете пропусков (см. Align43) и дополнительном предположении, что все граничные пробелы (и связанные с ними пропуски) являются «бесплатными», т. е. имеют нулевой вес (см. Align38). Если через W'(i, j) обозначить сходство строк S₁[1..i] и S₂[1..j] в случае учета пропусков и бесплатных начальных пробелов, то рекуррентные формулы для W'(i, j) будут аналогичны формулам для W(i, j), приведенным в Align43; необходимо лишь изменить базовые условия, положив для любого i W'(i, 0) = 0 и для любого j W'(0, j) = 0 (базовые условия для функций E и F не изменятся, в рекуррентных формулах для вычисления значений E и F необходимо использовать значения W' вместо W). Для эффективного нахождения значений W'(i, j) следует использовать метод восходящей рекурсии, основанный на последовательном вычислении элементов вспомогательных матриц W', E и F (действия при заполнении матриц аналогичны действиям при заполнении матрицы D, описанным в Align5). Чтобы учесть условие бесплатности конечных пробелов, в качестве значения сходства для строк S₁ и S₂ следует выбрать наибольшее значение среди элементов матрицы W', расположенных в ее последней строчке или последнем столбце. Вывести найденное значение сходства для S₁ и S₂, а также элементы последней строчки и последнего столбца матрицы W': W'_n,j, j = 0, …, p, W'_i,p, i = 0, …, n, где n = |S₁|, p = |S₂|.

Align49°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Кроме того, дана матрица W', полученная методом восходящей рекурсии (см. Align48), и вспомогательные матрицы E и F (для матриц E и F элементы нулевых строк и столбцов не приводятся). Найти один из вариантов оптимального выравнивания для S₁ и S₂ при бесплатных граничных пробелах и учете пропусков, модифицировав соответствующим образом алгоритм обратного прохода по матрице W' (см. Align44 и Align39). Выбор варианта оптимального выравнивания выполнять в соответствии с указаниями Align39. Вывести найденное выравнивание (A₁, A₂).

Align50°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Кроме того, дана матрица W', полученная методом восходящей рекурсии (см. Align48), и вспомогательные матрицы E и F (для матриц E и F элементы нулевых строк и столбцов не приводятся). Найти все варианты оптимального выравнивания для S₁ и S₂ при бесплатных граничных пробелах и учете пропусков, модифицировав соответствующим образом алгоритм обратного прохода по матрице W' (см. Align44 и Align39). Перебор вариантов оптимального выравнивания выполнять в соответствии с указаниями Align40. Вывести все найденные оптимальные выравнивания.

Align51°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Найти значение сходства и один из вариантов оптимального выравнивания для S₁ и S₂ при бесплатных граничных пробелах и учете пропусков, используя метод восходящей рекурсии для построения матриц W', E и F (см. Align48) и выполняя обратный проход по матрице W' (см. Align44 и Align39). Выбор варианта оптимального выравнивания выполнять в соответствии с указаниями Align39.

Align52°. Даны строки S₁ и S₂, число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, числа w_s (≥ 0) и w_g (> 0) — вес пробела и пропуска соответственно, а также матрица оценок (структура матрицы описана в Align43). Найти значение сходства и все варианты оптимального выравнивания для S₁ и S₂ при бесплатных граничных пробелах и учете пропусков, используя метод восходящей рекурсии для построения матриц W', E и F (см. Align48) и выполняя обратный проход по матрице W' (см. Align44 и Align39). Перебор вариантов оптимального выравнивания выполнять в соответствии с указаниями Align40.

Приближенные вхождения строк и локальное выравнивание

Данная подгруппа содержит задачи, связанные с выравниванием отдельных частей исходных строк: это задача нахождения приближенных вхождений одной строки в другую и задача локального выравнивания (и связанная с ней задача локального суффиксного выравнивания), в которой требуется найти подстроки исходных строк с максимальным значением сходства. Для всех перечисленных задач описываются алгоритмы, основанные на динамическом программировании. В качестве простого примера применения алгоритма локального выравнивания рассматривается задача о нахождении максимальной общей подстроки (следует заметить, что для задачи о наибольшей общей подстроке существует более эффективный алгоритм, являющийся линейным по времени, однако этот алгоритм требует применения более сложных структур данных — суффиксных деревьев, которые в данной группе заданий не рассматриваются).

Align53°. Даны строки P, T (|P| < |T|) и число d (> 0) — точность приближения. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Подстрока T' строки T называется приближенным вхождением P в T (с точностью d), если значение сходства P и T' (см. Align30) больше или равно d. Используя метод восходящей рекурсии (см. Align31), найти все подстроки строки T, которые имеют длину |P| и являются приближенными вхождениями P в T с точностью d. Вывести найденные приближенные вхождения; после каждого найденного вхождения выводить значение его сходства с P (вхождения перебирать по возрастанию позиции их начального символа). Вывести также количество найденных приближенных вхождений.

Align54°. Даны строки P, T (|P| < |T|) и число d (> 0) — точность приближения. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Эффективный алгоритм нахождения конечных позиций всех приближенных вхождений P в T состоит в следующем (определение приближенного вхождения приведено в Align53):

• с помощью метода восходящей рекурсии построить вспомогательную матрицу V (см. Align31) для строк P и T, изменив базовые условия: для любого j V_0,j = 0 (условия для V_i,0 остаются прежними);
• позиция k строки T соответствует конечной позиции некоторого приближенного вхождения P в T с точностью d, если V_n,k ≥ d (n обозначает длину строки |P|).

Используя описанный алгоритм, определить количество позиций строки T, соответствующих конечным позициям всех приближенных вхождений P в T, и вывести это количество, а также последнюю строчку матрицы V: V_n,j, j = 0, …, |T|.

Align55°. Даны строки P, T (|P| < |T|) и число d (> 0) — точность приближения. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, матрица оценок (структура матрицы описана в Align29) и матрица V, полученная методом восходящей рекурсии (см. Align54). Для нахождения подстроки матрицы T, являющейся приближенным вхождением P с точностью d, достаточно выполнить обратный проход по матрице V по правилам, приведенным в Align33 (получаемые при этом вспомогательные строки A₁ и A₂ будут содержать соответствующее оптимальное выравнивание). Обратный проход начинается с какого-либо элемента последней строчки, значение которого больше или равно d: V_n,k ≥ d, где n = |P|. Заканчивается обратный проход на элементе расположенном в нулевой строчке V. Индекс j символа строки T, добавленного последним в выравнивание A₂ при обратном проходе, определяет начальную позицию приближенного вхождения; таким образом, искомое приближенное вхождение равно подстроке T[j..k]. Используя описанный алгоритм, найти приближенное вхождение P в T с минимальной конечной позицией k (предполагается, что хотя бы одно приближенное вхождение существует). Если на некотором шаге обратного хода имеется несколько вариантов выбора очередного элемента, то предпочтительным является перемещение вверх, а при его невозможности — перемещение по диагонали. Вывести найденное приближенное вхождение T', его начальную позицию в строке T, а также значение сходства для строк P и T' и оптимальное выравнивание (A₁, A₂) для этих строк.

Примечание. Приведенное условие выбора варианта очередного элемента матрицы V в алгоритме обратного хода обеспечивает построение одного из кратчайших приближенных вхождений P в T, заканчивающихся в позиции k.

Align56°. Даны строки P, T (|P| < |T|) и число d (> 0) — точность приближения. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, матрица оценок (структура матрицы описана в Align29) и матрица V, полученная методом восходящей рекурсии (см. Align54). Для каждой позиции k строки T, в которой оканчивается приближенное вхождение P в T, найти одно из таких вхождений, выполняя обратный проход по матрице V (см. Align55). Если в позиции k оканчиваются несколько вариантов приближенных вхождений, то выбор варианта выполнять в соответствии с указаниями Align55. Для каждого найденного вхождения T' = T[j..k] вывести позиции j и k его начального и конечного символа в строке T, значение сходства для строк P и T' и оптимальное выравнивание (A₁, A₂) для этих строк. Вхождения перебирать по возрастанию позиции k их конечного символа. Вывести также количество найденных приближенных вхождений.

Align57°. Даны строки P, T (|P| < |T|) и число d (> 0) — точность приближения. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти приближенное вхождение P в T с минимальной конечной позицией k, используя алгоритм восходящей рекурсии для построения матрицы V (см. Align54) и выполняя обратный проход по матрице V (см. Align55); предполагается, что хотя бы одно приближенное вхождение существует. Если в позиции k заканчиваются несколько вариантов приближенных вхождений, то выбор варианта выполнять в соответствии с указаниями Align55. Вывести найденное приближенное вхождение T', его начальную позицию в строке T, а также значение сходства для строк P и T' и оптимальное выравнивание (A₁, A₂) для этих строк.

Align58°. Даны строки P, T (|P| < |T|) и число d (> 0) — точность приближения. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Для каждой позиции k строки T, в которой заканчивается приближенное вхождение P в T, найти одно из таких вхождений, используя алгоритм восходящей рекурсии для построения матрицы V (см. Align54) и выполняя обратный проход по матрице V (см. Align55). Если в позиции k заканчиваются несколько вариантов приближенных вхождений, то выбор варианта выполнять в соответствии с указаниями Align55. Для каждого найденного вхождения T' = T[j..k] вывести позиции j и k его начального и конечного символа в строке T, значение сходства для строк P и T' и оптимальное выравнивание (A₁, A₂) для этих строк. Вхождения перебирать по возрастанию позиции k их конечного символа. Вывести также количество найденных приближенных вхождений.

Align59°. Даны строки S₁ и S₂. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Задача локального суффиксного выравнивания S₁ и S₂ для пары позиций (i, j) состоит в нахождении (возможно, пустых) суффиксов s₁ и s₂ строк S₁[1..i] и S₂[1..j] соответственно с максимальным значением сходства v(i, j) (максимум ищется по всем парам возможных суффиксов строк S₁[1..i] и S₂[1..j]). Дополнительно предполагается, что две пустые строки имеют сходство 0. Для нахождения v(i, j) можно использовать следующие соотношения:

• для любого i v(i, 0) = 0;
• для любого j v(0, j) = 0;
• если i > 0 и j > 0, то v(i, j) = max{0, v(i − 1, j) + s(S₁[i], _), v(i, j − 1) + s(_, S₂[j]), v(i − 1, j − 1) + s(S₁[i], S₂[j])}

(символ «_» в формуле обозначает пробел; следует обратить внимание на то, что максимум всегда будет неотрицательным). Эффективное нахождение значений v(i, j) выполняется методом восходящей рекурсии, основанным на последовательном вычислении элементов вспомогательной матрицы v (действия при заполнении матрицы v аналогичны действиям при заполнении матрицы D, описанным в Align5). Используя метод восходящей рекурсии, найти матрицу v и вывести элементы ее двух последних строчек: v_n−1,j, j = 0, …, |S₂|, v_n,j, j = 0, …, |S₂|, где n = |S₁|.

Align60°. Даны строки S₁ и S₂ и числа i (≤ |S₁|) и j (≤ |S₂|). Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, матрица оценок (структура матрицы описана в Align29) и матрица v, полученная методом восходящей рекурсии (см. Align59). Решить задачу локального суффиксного выравнивания для данной пары позиций (i, j); для этого выполнить обратный проход по матрице v (по правилам, аналогичным приведенным в Align33), начиная с элемента v_i,j и заканчивая элементом, равным 0 (получаемые при этом вспомогательные строки A₁ и A₂ будут содержать соответствующее оптимальное суффиксное выравнивание). Индекс i' символа строки S₁, добавленного последним в выравнивание A₁ при обратном проходе, и индекс j' символа строки S₂, добавленного последним в выравнивание A₂, будут определять начальные позиции суффиксов s₁ и s₂, обеспечивающих оптимальное суффиксное выравнивание: s₁ = S₁[i'..i], s₂ = S₂[j'..j] (при этом значение сходства будет равно v_i,j). Если при обратном проходе в выравнивание A₁ и/или A₂ не будет добавлено ни одного символа, то соответствующий суффикс полагается равным пустой строке, а значение i' и/или j' — равным 0. Если на некотором шаге обратного хода имеется несколько вариантов выбора очередного элемента, то предпочтительным является перемещение вверх, а при его невозможности — перемещение по диагонали. Вывести найденные суффиксы s₁ и s₂, их начальные позиции i' и j' в строках S₁ и S₂ соответственно, а также значение сходства для строк s₁ и s₂ и оптимальное выравнивание (A₁, A₂) для этих строк. Некоторые из строк s₁, s₂, A₁, A₂ (а возможно, и все эти строки) могут быть пустыми.

Align61°. Даны строки S₁ и S₂. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, матрица оценок (структура матрицы описана в Align29) и матрица v, полученная методом восходящей рекурсии (см. Align59). Задача локального выравнивания для строк S₁ и S₂ состоит в нахождении подстрок s₁ и s₂ строк S₁ и S₂ соответственно с максимальным значением сходства v^* (максимум ищется по всем парам различных подстрок строк S₁ и S₂). Данная задача связана с задачей локального суффиксного выравнивания (см. Align59) следующим образом: v^* = max{v(i, j)}, i ≤ |S₁|, j ≤ |S₂|, причем если максимум v(i, j) достигается на паре позиций (i^*, j^*), то пара подстрок, решающая задачу локального суффиксного выравнивания для (i^*, j^*), одновременно решает задачу локального выравнивания строк S₁ и S₂. Используя алгоритм обратного прохода для решения задачи суффиксного выравнивания (см. Align60), найти подстроки s₁ и s₂, решающие задачу локального выравнивания. Если имеется несколько пар позиций, на которых достигается максимум функции v, то выбрать пару с минимальным значением i^*, а для пар с одинаковым минимальным значением i^* — с минимальным значением j^*. Если при выполнении обратного прохода из позиции (i^*, j^*) можно получить несколько вариантов подстрок s₁ и s₂, то выбор варианта выполнять в соответствии с указаниями Align60. Вывести значения v^*, i^*, j^*, подстроки s₁ и s₂, а также оптимальное выравнивание (A₁, A₂) для этих подстрок.

Align62°. Даны строки S₁ и S₂. Также дано число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв, и матрица оценок (структура матрицы описана в Align29). Найти одну из пар подстрок (s₁, s₂), решающих задачу локального выравнивания, используя алгоритм восходящей рекурсии для построения матрицы v (см. Align59), учитывая связь матрицы v с задачей локального выравнивания (см. Align61) и выполняя обратный проход по матрице v (см. Align60). Если имеется несколько пар подстрок, решающих задачу локального выравнивания, то выбор пары выполнять в соответствии с указаниями Align61. Вывести максимальное значение сходства v^*, позиции i^*, j^* начала подстрок s₁ и s₂, сами подстроки s₁ и s₂, а также оптимальное выравнивание (A₁, A₂) для этих подстрок.

Align63°. Даны строки S₁ и S₂. Найти длину наибольшей общей подстроки строк S₁ и S₂, сведя эту задачу к определению характеристики v^* задачи локального выравнивания (см. Align61). Для этого значения матрицы оценок s определить следующим образом: s(x, y) = 1 при x = y и s(x, y) = −100 при x ≠ y (x, y — символы, входящие в строки S₁ и S₂, а также символ пробела). Для нахождения характеристики v^* построить матрицу v, используя алгоритм восходящей рекурсии (см. Align59). Вывести найденное значение v^*, номер k первой из строчек матрицы v, в которой содержится значение v^*, и элементы строчки k матрицы v: v_k,j, j = 0, …, |S₂|.

Align64°. Даны строки S₁ и S₂, а также матрица v, полученная методом восходящей рекурсии (см. Align59) при использовании матрицы оценок s специального вида, описанной в Align63. Найти одну из общих подстрок строк S₁ и S₂ наибольшей длины, сведя эту задачу к определению пары подстрок (s₁, s₂), решающих задачу локального выравнивания (см. Align61). Для нахождения подстрок s₁, s₂ учесть связь матрицы v с задачей локального выравнивания (см. Align61) и выполнить обратный проход по матрице v (см. Align60). Если имеется несколько пар подстрок, решающих задачу локального выравнивания, то выбор пары выполнять в соответствии с указаниями Align61. Вывести подстроку s₁ — общую подстроку строк S₁ и S₂ наибольшей длины (благодаря специальному выбору матрицы оценок эта подстрока будет совпадать с подстрокой s₂), а также позиции i^* и j^*, начиная с которых подстрока s₁ входит в строки S₁ и S₂ соответственно.

Align65°. Даны строки S₁ и S₂. Найти все общие подстроки строк S₁ и S₂ наибольшей длины, сведя эту задачу к определению пар подстрок (s₁, s₂), решающих задачу локального выравнивания при использовании матрицы оценок специального вида, описанной в Align63. Для нахождения подстрок s₁ и s₂ построить матрицу v, используя алгоритм восходящей рекурсии (см. Align59), учесть связь матрицы v с задачей локального выравнивания (см. Align61) и выполнить обратный проход по матрице v (см. Align60) для каждого элемента матрицы v с максимальным значением. Элементы v_i,j с максимальным значением перебирать по возрастанию индекса i, а для равных индексов i — по возрастанию индекса j. Вывести каждую найденную общую подстроку наибольшей длины и позиции i^* и j^*, начиная с которых эта подстрока входит в строки S₁ и S₂ соответственно. Вывести также количество найденных общих подстрок.

Нахождение наибольшей общей подпоследовательности

В данной подгруппе рассматриваются два алгоритма решения задачи о наибольшей общей подпоследовательности (англ. longest common subsequence — LCS) двух строк. Первый алгоритм основан на применении рассмотренного ранее алгоритма глобального выравнивания. Второй алгоритм, называемый комбинаторным алгоритмом для LCS, сводит задачу нахождения LCS к задаче нахождения наибольшей возрастающей подпоследовательности (англ. longest increasing subsequence — LIS) для некоторого набора чисел. Для задачи нахождения LIS рассматривается эффективный алгоритм, основанный на построения покрытия исходного набора чисел невозрастающими подпоследовательностями. Описывается также обобщение комбинаторного алгоритма, позволяющее найти LCS трех (или более) строк.

Align66°. Даны строки P и T (|P| < |T|). Подпоследовательностью строки T называется строка, составленная из символов строки T, взятых в том порядке, в котором они входят в эту строку (символы, входящие в подпоследовательность, в отличие от символов подстрок, не обязаны располагаться подряд в исходной строке). Просматривая символы строк P и T не более одного раза, проверить, входит ли строка P в качестве подпоследовательности в строку T, и вывести True, если входит, и False в противном случае. Вывести также количество сравнений символов, которое потребовалось для решения задачи. В алгоритме учесть, что если еще не просмотренная часть строки T имеет размер, меньший еще не просмотренной части строки P, то строка P не может быть подпоследовательностью строки T.

Align67°. Даны строки S₁ и S₂. Общей подпоследовательностью строк S₁ и S₂ называется подпоследовательность, которая входит одновременно в S₁ и S₂. Задача о наибольшей общей подпоследовательности заключается в поиске самой длинной общей подпоследовательности (англ. longest common subsequence — LCS) строк S₁ и S₂. Длина LCS для двух строк совпадает со значением сходства этих строк (см. Align30), если матрица оценок определяется следующим образом: s(x, y) = 1 при x = y и s(x, y) = 0 при x ≠ y (x, y — символы, входящие в строки S₁ и S₂, а также символ пробела). Найти длину LCS для данных строк S₁ и S₂, используя алгоритм восходящей рекурсии для построения матрицы V (см. Align31). Вывести элементы двух последних строчек матрицы V: V_n−1,j, j = 0, …, |S₂|, V_n,j, j = 0, …, |S₂|, где n = |S₁| (искомая длина LCS будет равна последнему элементу матрицы V).

Align68°. Даны строки S₁ и S₂, а также матрица V, полученная методом восходящей рекурсии (см. Align31) при использовании матрицы оценок специального вида, описанной в Align67. Найти одну из наибольших общих подпоследовательностей (LCS) строк S₁ и S₂, выполняя обратный проход по матрице V по правилам, приведенным в Align33. Строка, соответствующая LCS, заполняется справа налево; очередной символ добавляется к ней в случае, когда переход от элемента V_i,j выполняется по диагонали (к элементу V_i−1,j−1, имеющему значение, на 1 меньшее значения V_i,j); при этом к строке LCS добавляется символ S₁[i] (равный символу S₂[j]). Если на некотором шаге обратного хода имеется несколько вариантов выбора очередного элемента, то выбор предпочтительного варианта выполнять в соответствии с указаниями Align34. Вывести строку, соответствующую найденной LCS, и позиции i и j, с которых начинается найденная LCS в строках S₁ и S₂.

Align69°. Даны строки S₁ и S₂. Найти одну из наибольших общих подпоследовательностей (LCS) строк S₁ и S₂, используя алгоритм восходящей рекурсии для построения матрицы V (см. Align31) и выполняя обратный проход по матрице V (см. Align68). Если на некотором шаге обратного хода имеется несколько вариантов выбора очередного элемента, то выбор предпочтительного варианта выполнять в соответствии с указаниями Align34. Вывести строку, соответствующую найденной LCS, и позиции i и j, с которых начинается найденная LCS в строках S₁ и S₂.

Align70°. Дано число N (≤ 50) и набор A из N чисел. Подпоследовательностью набора A называется набор элементов из А, расположенных в том же порядке, в котором они входят в исходный набор A. Покрытием набора A называется совокупность невозрастающих подпоследовательностей A; при этом каждый элемент набора A входит в покрытие ровно один раз. Размером покрытия называется число входящих в него подпоследовательностей. Наименьшим покрытием называется покрытие наименьшего размера. Найти наименьшее покрытие A, используя следующий жадный алгоритм:

• элементы A перебираются, начиная с первого, и каждый элемент помещается в конец первой невозрастающей подпоследовательности, которую он может продолжить (существующие подпоследовательности перебираются в порядке возрастания их номеров);
• если ни одну существующую подпоследовательность очередной элемент из A продолжить не может, то он начинает подпоследовательность с новым порядковым номером.

Вывести размер полученного покрытия и все элементы каждой входящей в него подпоследовательности, перебирая подпоследовательности в порядке возрастания их номеров. Вывести также количество сравнений чисел из набора A, которое потребовалось для нахождения наименьшего покрытия.

Примечание. Описанный алгоритм построения наименьшего покрытия имеет порядок O(N·K), где N — размер исходного набора, а K — размер наименьшего покрытия.

Align71°. Дано число N (≤ 50), число B и набор из N чисел A_i, i = 1, …, N. Числа A_i упорядочены по неубыванию. Определить позицию j в наборе A, в которую надо вставить число B с сохранением упорядоченности набора. Использовать для этого следующий вариант алгоритма бинарного поиска:

(1) в набор A добавляются два «барьерных» элемента: A₀, меньший min{A₁, B} («минус бесконечность»), и A_N+1, больший max{A_N, B} («плюс бесконечность»);
(2) переменная i полагается равной 0, переменная j — равной N + 1;
(3) пока справедливо неравенство j − i ≠ 1, выполнять следующие действия: положить переменную k равной i + (j − i)/2 (символ «/» обозначает операцию деления нацело); если A_k ≥ B, то записать значение k в переменную j, иначе записать значение k в переменную i.

После завершения алгоритма для найденной позиции j будет выполняться двойное неравенство (с учетом наличия барьерных элементов): A_j−1 < B ≤ A_j; таким образом, j будет определять требуемую позицию вставки элемента B. Вывести найденную позицию j и количество сравнений чисел A_k и B, выполненных в цикле (3), которое потребовалось для ее определения.

Примечание. Алгоритм бинарного поиска имеет порядок O(log N), где N — размер исходного набора чисел. При вычислении значения k фактически берется среднее арифметическое для i и j, т. е. (i + j)/2 (с учетом целочисленного деления), однако использованная формула i + (j − i)/2 является более надежной, так как обеспечивает защиту от переполнения при больших значениях i и j.

Align72°. Дано число N (≤ 50) и набор A из N чисел. Найти наименьшее покрытие A, используя модификацию жадного алгоритма, описанного в Align70. В модифицированном жадном алгоритме учитывается следующее свойство подпоследовательностей, входящих в покрытие: в любой момент выполнения жадного алгоритма последние элементы существующих подпоследовательностей упорядочены по возрастанию. Поэтому для нахождения подпоследовательности с наименьшим номером, которую может продолжить очередной элемент из набора A, можно использовать алгоритм бинарного поиска, описанный в Align71. При реализации алгоритма бинарного поиска можно считать, что значения элементов из набора A лежат в диапазоне от 0 до 1000. Вывести размер полученного покрытия и все элементы каждой входящей в него подпоследовательности, перебирая подпоследовательности в порядке возрастания их номеров. Вывести также количество сравнений чисел из набора A, которое потребовалось для нахождения наименьшего покрытия.

Примечание. Благодаря использованию алгоритма бинарного поиска модифицированный жадный алгоритм построения наименьшего покрытия имеет порядок O(N·log K), где K — размер наименьшего покрытия.

Align73°. Дано наименьшее покрытие некоторого набора чисел A (см. Align70): вначале указывается количество K входящих в него невозрастающих подпоследовательностей (K ≤ 15), затем для каждой подпоследовательности (в порядке возрастания их номеров) указывается число элементов подпоследовательности L (≤ 15) и сами элементы. Найти одну из наибольших возрастающих подпоследовательностей (англ. longest increasing sequence — LIS) исходного набора A, используя следующий алгоритм:

• элементы LIS определяются с конца (в порядке убывания их номеров), число элементов равно K;
• в качестве последнего, K-го элемента LIS берется последний элемент последней, K-й подпоследовательности;
• затем перебираются остальные подпоследовательности (в порядке убывания их номеров), из каждой подпоследовательности выбирается первый из элементов, значение которых строго меньше элемента, ранее добавленного в LIS, и этот элемент добавляется к LIS перед ранее добавленным элементом.

Вывести элементы построенной наибольшей возрастающей подпоследовательности, а также количество сравнений чисел из набора A, которое потребовалось для нахождения LIS.

Примечание. Описанный алгоритм построения LIS по наименьшему покрытию имеет порядок O(N), где N — общее число элементов в исходном наборе, так как в ходе этого алгоритма каждый элемент набора анализируется не более одного раза.

Align74°. Дано число N (≤ 50) и набор A из N чисел. Используя модифицированный жадный алгоритм построения наименьшего покрытия A (см. Align72) и алгоритм нахождения наибольшей возрастающей подпоследовательности набора A по его наименьшему покрытию (см. Align73), найти одну из наибольших возрастающих подпоследовательностей (LIS) набора A. Вывести размер LIS, ее элементы, а также количество сравнений чисел из набора A, которое потребовалось для нахождения LIS.

Примечание. Полный алгоритм построения LIS, включающий предварительное построение наименьшего покрытия, имеет порядок O(N·log K), где N — число элементов в исходном наборе, а K — длина LIS (равная размеру наименьшего покрытия).

Align75°. Даны строки S₁, S₂ (|S₂| ≤ |S₁| < 20) и число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв. Построить по данным строкам набор чисел, используя следующий алгоритм:

• для каждого символа x, встречающегося в S₁, создается список тех позиций, в которых символ x встречается в S₂, причем позиции в этом списке перебираются по убыванию;
• в результирующий набор чисел помещаются созданные списки в порядке, соответствующем порядку следования в строке S₁ связанных с этими списками символов (один и тот же список может быть добавлен в набор несколько раз, если соответствующий этому списку символ несколько раз входит в строку S₁).

С помощью подходящих структур данных (например, вспомогательных одномерного и двумерного массива) обеспечить построение всех списков позиций за один просмотр строки S₂. Чтобы избежать многократного дублирования полученных списков, удобно хранить результирующий набор в виде массива ссылок на созданные списки. Вывести размер полученного набора чисел и его элементы.

Align76°. Даны строки S₁ и S₂, число N (≤ 50) и набор A из N чисел, построенный по строкам S₁ и S₂ в соответствии с алгоритмом, описанным в Align75. Данный набор обладает следующим свойством: любая возрастающая подпоследовательность набора A определяет некоторую общую подпоследовательность строк S₁ и S₂ той же длины, причем для получения общей подпоследовательности символов достаточно взять символы строки S₂, расположенные в позициях, равных значениям элементов числовой подпоследовательности. Поэтому любая наибольшая возрастающая подпоследовательность (LIS) набора A определяет некоторую наибольшую общую подпоследовательность (LCS) строк S₁ и S₂. Используя модифицированный жадный алгоритм построения наименьшего покрытия набора A (см. Align72) и алгоритм нахождения наибольшей возрастающей подпоследовательности A по наименьшему покрытию (см. Align73), найти одну из LIS набора A и вывести соответствующую ей LCS для строк S₁ и S₂ в виде строки символов. Вывести также количество сравнений чисел из набора A, которое потребовалось для нахождения LIS.

Align77°. Даны строки S₁ и S₂ (|S₂| ≤ |S₁| < 20) и число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв. Построить по данным строкам набор чисел A, описанный в Align75, и, используя модифицированный жадный алгоритм построения наименьшего покрытия A (см. Align72) и алгоритм нахождения наибольшей возрастающей подпоследовательности (LIS) набора A по наименьшему покрытию (см. Align73), найти одну из LIS набора A и вывести соответствующую ей наибольшую общую подпоследовательность (LCS) для строк S₁ и S₂ (см. Align76) в виде строки символов. Вывести также количество сравнений чисел из набора A, которое потребовалось для нахождения LIS.

Align78°. Даны строки S₁, S₂ и S₃ (|S₃| ≤ |S₂| ≤ |S₁| < 20) и число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв. Построить по данным строкам набор пар чисел, используя следующий алгоритм:

• для каждого символа x, встречающегося в S₁, создается список пар (i, j), в которых элемент i соответствует позиции вхождения символа x в S₂, а элемент j — позиции вхождения этого же символа в S₃; пары содержат все возможные комбинации позиций вхождения и располагаются по лексикографическому убыванию: (x₁, x₂) > (y₁, y₂), если либо x₁ > y₁, либо x₁ = y₁ и x₂ > y₂;
• в результирующий набор пар чисел помещаются созданные списки в порядке, соответствующем порядку следования в строке S₁ связанных с этими списками символов (один и тот же список может быть добавлен в набор несколько раз, если соответствующий этому списку символ несколько раз входит в строку S₁).

Используя вспомогательные структуры данных (например, два вспомогательных одномерных и двумерных массива) для хранения позиций, связанных со строками S₂ и S₃ по отдельности, обеспечить построение требуемого набора за один просмотр строк S₂ и S₃. Вывести размер полученного набора и его элементы — пары чисел.

Align79°. Даны строки S₁, S₂ и S₃ (|S₃| ≤ |S₂| ≤ |S₁| < 20), число N (≤ 70) и набор A из N пар чисел, построенный по строкам S₁, S₂ и S₃ в соответствии с алгоритмом, описанным в Align78. Значение пары чисел X = (x₁, x₂) считается строго меньшим значения пары Y = (y₁, y₂) (обозначение X < Y), если одновременно выполняются два строгих неравенства: x₁ < y₁ и x₂ < y₂. Возрастающей подпоследовательностью набора A считается подпоследовательность пар, в которой любой элемент подпоследовательности строго меньше последующего элемента. Набор A обладает следующим свойством: любая его возрастающая (в указанном выше смысле) подпоследовательность определяет некоторую общую подпоследовательность строк S₁, S₂ и S₃ той же длины (для получения общей подпоследовательности символов достаточно взять символы строки S₂, расположенные в позициях, равных значениям первых элементов пар подпоследовательности набора A). Поэтому любая наибольшая возрастающая подпоследовательность (LIS) набора A определяет некоторую наибольшую общую подпоследовательность (LCS) строк S₁, S₂ и S₃. Для нахождения LIS в данном случае можно использовать следующий алгоритм:

• наряду с набором A числовых пар ввести в рассмотрение наборы чисел P и B того же размера N;
• значение P₁ положить равным 1, значение B₁ — равным 0;
• значение P_i, i = 2, …, N, положить равным max{P_j} + 1, где в качестве j берутся номера в диапазоне от 1 до i − 1, для которых выполняется неравенство A_j < A_i, а значение B_i положить равным минимальному из тех номеров j, для которых достигается максимум P_j (если ни одного такого номера не найдено, то P_i положить равным 1, а B_i — равным 0);
• найти K — длину LIS, равную max_i=1,…,N{P_i};
• для нахождения одной из LIS применить обратный ход: в качестве последнего элемента LIS выбирается первый из элементов A_q, для которых P_q = K; если элемент LIS с номером i уже определен (и равен элементу A_j), то в качестве предыдущего элемента LIS (с номером i − 1) берется элемент набора A с номером B_j.

Используя данный алгоритм, найти одну из LIS набора A и вывести соответствующую ей LCS для строк S₁, S₂ и S₃ в виде строки символов.

Примечание. Описанный в задании алгоритм нахождения LIS имеет порядок O(N²). Применить более быстрый алгоритм (порядка O(N·log K)), основанный на построении минимального покрытия и бинарном поиске (см. Align73), мешает то обстоятельство, что в наборе пар A могут содержаться несравнимые пары X и Y, для которых не выполняется ни одно из соотношений X < Y, X = Y, Y < X (например, (1, 2) и (2, 1)).

Align80°. Даны строки S₁, S₂ и S₃ (|S₃| ≤ |S₂| ≤ |S₁| < 20) и число m (< 10) — размер алфавита, состоящего из первых строчных латинских букв. Построить по данным строкам набор A пар чисел, описанный в Align78, после чего, действуя по схеме, описанной в Align79, найти одну из наибольших возрастающих подпоследовательностей (LIS) набора A и вывести соответствующую ей наибольшую общую подпоследовательность (LCS) для строк S₁, S₂ и S₃ в виде строки символов.

Разработка сайта:
М. Э. Абрамян, В. Н. Брагилевский

Последнее обновление:
01.01.2026