Данная страница содержит подробное описание процесса решения типовой задачи на обработку двоичных файлов с числовой информацией, а также примеры решения задач на обработку строковых и текстовых файлов.

Двоичные файлы с числовой информацией: File48

Особенности выполнения заданий на обработку файлов рассмотрим на примере задания File48.

File48°. Даны три файла целых чисел одинакового размера с именами S_A, S_B, S_C и строка S_D. Создать новый файл с именем S_D, в котором чередовались бы элементы исходных файлов с одним и тем же номером: A₁, B₁, C₁, A₂, B₂, C₂, ... .

Создание программы-заготовки и знакомство с заданием

Напомним, что программу-заготовку для решения задания можно создать с помощью модуля PT4Load, используя ярлык PT4Load, находящийся в рабочем каталоге. Эта заготовка будет иметь следующий вид:

[Python]

from pt4 import *
def solve():
    task("File48")

start(solve)

[R]

source("PT4.R")
Solve <- function() {
    Task("File48")
}

Start(Solve)

После запуска программы на экране появится окно задачника. На рисунке приведены два варианта представления окна — в режиме с динамической и с фиксированной компоновкой для языка Python:

В первой строке раздела исходных данных указаны имена трех исходных файлов (S_A, S_B и S_C) и одного результирующего (S_D). В последующих строках раздела исходных данных показано содержимое исходных файлов. Элементы файлов отображаются бирюзовым цветом, чтобы подчеркнуть их отличие от обычных исходных данных (желтого цвета) и комментариев (светло-серого цвета).

В режиме с фиксированной компоновкой для отображения содержимого каждого двоичного файла отводится по одной строке. Поскольку размер файлов, как правило, превышает количество элементов, которое может уместиться на одной экранной строке, в режиме с фиксированной компоновкой предусмотрена возможность прокрутки (листания) элементов файла с помощью мыши или клавиатуры.

В режиме с динамической компоновкой на экране отображаются все элементы двоичных файлов, даже если для этого требуется использовать более одной экранной строки; при этом в начале каждой строки указывается порядковый номер первого элемента файла, приведенного в данной строке (элементы нумеруются от 1).

Следует заметить, что при каждом запуске программы с учебным заданием исходные файлы создаются под новыми именами и заполняются новыми данными, а исходные и результирующие файлы, созданные при предыдущем запуске программы, удаляются с диска.

Вернемся к нашей программе, только что запущенной на выполнение. Так как в ней не указаны операторы ввода-вывода, запуск программы считается ознакомительным, проверка решения не производится, а на экране отображается пример верного решения (в нашем случае это числа, которые должны содержаться в результирующем файле при правильном решении задачи).

Ввод исходных данных

Добавим в программу фрагмент, позволяющий ввести имена файлов и связать с этими файлами соответствующие файловые переменные. Поскольку мы собираемся работать с четырьмя файлами одного типа, удобно предусмотреть список для хранения всех файловых переменных:

[Python]

def solve():
    task("File48")
    f = []
    for i in range(3):
        f.append(open(get(), "rb"))
    #
    for e in f:
        e.close()

[R]

Solve <- function() {
    Task("File48")
    f <- list()
    for (i in 1:3)
        f[[i]] <- file(Get(), "rb")
    #
    for (e in f)
        close(e)
}

В языке R мы тоже использовали список (а не вектор, как в задачах из групп Array), так как векторы в R могут хранить только данные базовых типов (в частности, логических, числовых и строковых). Списки в R ведут себя так же, как и списки в Python, т. е. позволяют хранить данные любых типов, причем, в отличие от векторов, элементы списков могут иметь различные типы. Обратите внимание на то, что для обращения к элементам списка в R по индексу i надо указать индекс в двойных квадратных скобках: [[i]] (операция [i] возвращает не отдельный элемент, а список из одного этого элемента).

Мы намеренно ограничились тремя итерациями цикла, оставив непрочитанным имя результирующего файла. Прочитанное имя файла сразу передается функции open (или file в языке R), которая открывает указанный файл в требуемом режиме и возвращает его дескриптор. Этот дескриптор сразу добавляется к списку f. Режим открытия файла в виде текстовой строки указывается во втором параметре функции open. В данном случае строка содержит две буквы: r — режим чтения файла (read) и b — указание на то, что файл является двоичным (бинарным, binary). В конце программы мы добавили цикл, в котором закрываются все открытые файлы. Обратите внимание на то, что в последнем цикле мы перебираем элементы e списка f, не обращаясь к их индексам.

Комментарий # расположен в том месте программы, в котором можно выполнять операции ввода-вывода для файлов: они уже открыты функцией open и еще не закрыты функцией close.

Запуск нового варианта программы уже не будет считаться ознакомительным, поскольку в программе выполняется ввод исходных данных. Так как имя результирующего файла осталось непрочитанным, этот вариант решения будет признан неверным и приведет к сообщению «Введены не все требуемые исходные данные. Количество прочитанных данных: 3 (из 4)».

Пример программы, приводящей к ошибке времени выполнения

Изменим программу, заменив в заголовке первого цикла число 3 на 4, и вновь запустим программу. При запуске программы на языке Python окно задачника будет содержать сообщение об ошибке вида «Error IOError: (Errno 2) No such file or directory: 'dzce.tst'» (имя файла, разумеется, будет отличаться от приведенного).

Более развернутое сообщение, содержащее оператор, который привел к ошибке, и номер его строки в файле, будет приведено в окне Python Shell:

В случае языка R сообщение об ошибке в окне задачника будет иметь вид «Error in file(Get(), "rb") : не могу открыть соединение», и это же сообщение появится в разделе Console после закрытия окна задачника.

Ошибка произошла из-за того, что на четвертой, последней итерации цикла, программа попыталась открыть в режиме чтения файл, который отсутствует на диске (поскольку этот файл должна создать наша программа).

Создание пустого результирующего файла

Для того чтобы избежать ошибки времени выполнения, отсутствующий файл результатов следует создать, после чего открыть в режиме записи (w). По-прежнему надо указывать и символ b, поскольку создаваемый файл также должен обрабатываться как двоичный. Добавим в программу соответствующие операторы:

[Python]

def solve():
    task("File48")
    f = []
    for i in range(4):
        if i < 3:
            f.append(open(get(), "rb"))
        else:
            f.append(open(get(), "wb"))
    #
    for e in f:
        e.close()

[R]

Solve <- function() {
    Task("File48")
    f <- list()
    for (i in 1:3)
        if (i < 4)
            f[[i]] <- file(Get(), "rb")
        else
            f[[i]] <- file(Get(), "wb")
    #
    for (e in f)
        close(e)
}

Запуск нового варианта программы не приведет к ошибке времени выполнения; более того, результирующий файл будет создан. Однако созданный файл останется пустым, т. е. не содержащим ни одного элемента. Начиная с версии 4.15, в этом случае на информационной панели выводится сообщение (на светло-синем фоне): «Запуск с правильным вводом данных: все требуемые данные введены, результирующий файл является пустым» (в предыдущих версиях в этой ситуации на информационной панели выводилось сообщение «Ошибочное решение», а в строке, которая должна содержать элементы результирующего файла, отображался текст EOF — «конец файла», End Of File).

Таким образом, нам осталось реализовать фрагмент алгоритма, обеспечивающий ввод и вывод файловых данных.

Чтение и запись данных из двоичных файлов

Для чтения данных из файлов разных типов предусмотрено несколько функций. Поскольку мы собираемся читать двоичные данные, в языке Python нам необходимо использовать функцию read с параметром — целым числом, определяющим, какое число байт следует прочесть из исходного файла (в отличие от других языков программирования, например, языка Pascal, в Python не предусмотрено непосредственного чтения числовых данных из двоичных файлов). В языке R предусмотрена более гибкая функция readBin, в которой можно указать тип вводимых данных, однако в нашем случае это не требуется, поэтому в качестве соответствующего (второго) параметра достаточно указать тип raw().

Поскольку одно целое число в двоичном файле кодируется четырьмя байтами, нам необходимо использовать функцию read (или readBin для R) с параметром 4. Результат, возвращенный этой функцией (в Python 2.x это строка, в Python 3.x — значение типа bytes), можно сразу передавать в качестве параметра функции write (или writeBin для R) для записи в создаваемый двоичный файл.

Таким образом, для считывания одного целого числа из каждого исходного файла и записи его в результирующий файл, нам достаточно добавить в раздел программы, помеченный комментарием #, следующий фрагмент:

[Python]

for i in range(3):
    f[3].write(f[i].read(4))

[R]

for (i in 1:3)
    writeBin(readBin(f[[i]], raw(), 4), f[[4]])

Запустив исправленную программу, мы получим все еще неверный, но ожидаемый результат: созданный файл будет содержать три элемента, совпадающих с начальными элементами исходных файлов.

Правильное решение, его тестирование и просмотр результатов

Для получения правильного решения нам необходимо повторить несколько раз приведенный ранее фрагмент программы, обеспечивающий считывание одного числа из каждого исходного файла и его запись в результирующий файл. К сожалению, в Python отсутствует простая стандартная функция, позволяющая определить размер файла (в байтах). Однако эту информацию можно получить с помощью вызова os.path.getsize(name), где name — имя файла (при этом дополнительно необходимо подключить к программе модуль os директивой import os. При организации цикла необходимо учесть, что количество итераций должно быть равно len // 4, где len — размер файла в байтах (поскольку каждый элемент файла занимает 4 байта). В языке R имеется функция file.size(filename), для использования которой не требуется подключать дополнительные модули, однако в качестве ее параметра требуется указывать имя файла, поэтому в программе потребуется дополнительно откорректировать цикл, связанный с открытием файлов. Получаем один из вариантов правильного решения:

[Python]

from pt4 import *
import os
def solve():
    task("File48")
    f = []
    for i in range(4):
        if i < 3:
            f.append(open(get(), "rb"))
        else:
            f.append(open(get(), "wb"))
    len = os.path.getsize(f[0].name)
    for k in range(len // 4):
        for i in range(3):
            f[3].write(f[i].read(4))
    for e in f:
        e.close()

start(solve)

[R]

source("PT4.R")
Solve <- function() {
    Task("File48")
    f <- list()
    for (i in 1:4)
        if (i < 4) {
            name <- Get()
            f[[i]] <- file(name, "rb")
            len <- file.size(name)
        }
        else
            f[[i]] <- file(Get(), "wb")
    for (k in 1:(len / 4))
        for (i in 1:3)
            writeBin(readBin(f[[i]], raw(), 4), f[[4]])
    for (e in f)
        close(e)
}

Start(Solve)

В данном варианте решения мы учли, что по условию задачи все исходные файлы имеют одинаковый размер. После запуска этого варианта программы и успешного прохождения 5 тестов мы получим сообщение «Задание выполнено!». Нажав клавишу [F2], мы можем вывести на экран окно результатов, в котором будут перечислены все наши попытки решения задачи:

File48      y07/09 11:19 Ознакомительный запуск.
File48      y07/09 11:22 Введены не все требуемые исходные данные.
File48      y07/09 11:24 Error IOError.
File48      y07/09 11:26 Запуск с правильным вводом данных.
File48      y07/09 11:28 Ошибочное решение.
File48      y07/09 12:33 Задание выполнено!

При выходе из среды IDLE или RStudio можно убедиться в том, что из рабочего каталога удалены все исходные и результирующие файлы, которые создавались и обрабатывались при выполнении задания.

Примечание 1. Размер файла можно узнать, не используя специальную функцию, если вместо этого воспользоваться возможностью прямого доступа, имеющейся для двоичных файлов, переместиться на конец файла и определить значение позиции файлового указателя (это значение будет равно размеру файла в байтах). Разумеется, после этого надо вернуться к началу файла. Приведем соответствующие фрагменты для первой файловой переменной.

[Python]

f[0].seek(0, 2)
len = f[0].tell()
f[0].seek(0)

[R]

seek(f[[1]], 0, "end")
len <- seek(f[[1]], 0)

Обратите внимание на то, что в Python для определения текущей позиции файлового указателя предусмотрена функция tell. а в R очередной вызов функции seek перед указанным перемещением указателя возвращает его текущую позицию (если функция seek вызывается только для определения текущей позиции, то в качестве второго параметра (where) надо указать значение NA). Возможные значения третьего параметра (origin) функции seek для языка R: "start", "current", "end"; при его отсутствии используется его значение по умолчанию "start".

Примечание 2. Задачу можно решить и не определяя заранее размер файла, если учесть следующую особенность функции read: при попытке ее вызова в конце файла она возвращает пустую строку (функция readBin ведет себя аналогично: она возвращает набор данных нулевого размера). Правда, для того чтобы использовать эту особенность, придется предварительно сохранять прочитанные данные во вспомогательной переменной, после чего анализировать содержимое этой переменной. Нам достаточно анализировать содержимое только той строки, которая считана из первого исходного файла; обработку остальных двух файлов можно по-прежнему проводить в цикле (в котором надо изменить диапазон для параметра i):

[Python]

def solve():
    task("File48")
    f = []
    for i in range(4):
        if i < 3:
            f.append(open(get(), "rb"))
        else:
            f.append(open(get(), "wb"))
    while True:
        s = f[0].read(4)
        if s == "":
            break
        f[3].write(s)
        for i in range(1, 3):
            f[3].write(f[i].read(4))
    for e in f:
        e.close()

[R]

Solve <- function() {
    Task("File48")
    f <- list()
    for (i in 1:4)
        if (i < 4)
            f[[i]] <- file(Get(), "rb")
        else
            f[[i]] <- file(Get(), "wb")
    while (TRUE) {
        s <- readBin(f[[1]], raw(), 4)
        if (length(s) == 0)
            break
        writeBin(s, f[[4]])
        for (i in 2:3)
            writeBin(readBin(f[[i]], raw(), 4), f[[4]])
    }
    for (e in f)
        close(e)
}

Вместо условия s == "" в программе на языке Python можно использовать более короткое условие not s, так как в языке Python пустая строка (как и пустой список) интерпретируется в логическом выражении как значение False.

Получение числовых значений из двоичных файлов, преобразование файла: File25

В предыдущем пункте нам удалось выполнить задание на обработку двоичных файлов, не «расшифровывая» их содержимое: нам было достаточно знать, что размер каждого элемента файла равен 4 байтам. Однако во многих ситуациях приходится обрабатывать числовые значения, полученные из двоичных файлов, поэтому необходимо уметь «раскодировать» двоичные числовые форматы, в которых хранятся числовые данные в двоичных файлах, а также «кодировать» числа для последующей записи их в двоичные файлы.

Заметим, что в языке R специальные действия по кодированию/декодированию данных, связанных с двоичными файлами, не требуются, так как в функции readBin можно явным образом указать тип данных, которые требуется прочесть, а в функцию writeBin можно передавать данные любых базовых типов.

Для кодирования/декодирования двоичной информации в языке Python предусмотрен стандартный модуль struct, содержащий функции pack(fmt, v1, ...) и unpack(fmt, s). Первым параметром этих функций является строка, определяющая формат двоичных данных. Для 4-байтного знакового числа целого типа предусмотрен формат "i", а для 8-байтного вещественного числа — формат "d" (от слова double — вещественное число двойной точности). Следует обратить внимание на то, что функция pack позволяет кодировать произвольное количество данных указанного формата, возвращая строку, подготовленную к записи в двоичный файл, а функция unpack всегда обрабатывает единственную двоичную строку, однако возвращает кортеж декодированных значений, поскольку допускается, чтобы двоичная строка содержала несколько закодированных данных указанного формата.

Познакомимся с использованием этих функций, выполняя задание File25 — первое из заданий группы File, связанное с преобразованием исходного файла:

File25°. Дан файл вещественных чисел. Заменить в нем все элементы на их квадраты.

Преобразовать файл можно двумя способами: либо открыть файл одновременно на чтение и запись и сразу записывать в него ранее считанные и преобразованные значения, либо воспользоваться вспомогательным файлом (в этом случае исходный файл открывается только на чтение, а преобразованные значения записываются во вспомогательный файл). При использовании вспомогательного файла дополнительно потребуется выполнить два завершающих действия: удалить исходный файл и переименовать вспомогательный файл, присвоив ему имя исходного. Второй способ является более универсальным, поскольку может использоваться для самых разных видов преобразований файла, в том числе и таких, которые связаны с удалением или добавлением элементов. Однако в простых случаях можно обойтись без вспомогательного файла, хотя при этом придется использовать прямой доступ к элементам файла (с помощью функции seek) и учитывать ряд особенностей, связанных с одновременным доступом к файлу и на чтение, и на запись.

Вначале приведем пример решения, не использующего вспомогательный файл:

[Python]

def solve():
    task("File25")
    f = open(get(), "r+b")
    s = f.read(8)
    while s:
        x = struct.unpack("d", s)
        f.seek(-8,1)
        f.write(struct.pack("d", x[0]**2))
        f.flush()
        s = f.read(8)
    f.close()

[R]

Solve <- function() {
    Task("File25")
    f <- file(Get(), "r+b")
    a <- readBin(f, double())
    while (length(a) != 0) {
       writeBin(a*a, f)
       a <- readBin(f, double())
    }
    close(f)
}

В варианте решения для языка Python для возможности использования функций unpack и pack к программе необходимо подключить модуль struct; это делается оператором import struct в начале программы.

В данной программе исходный двоичный файл открывается одновременно и на чтение, и на запись; это обеспечивается указанием специального режима открытия файла "r+b". Здесь r, как обычно, означает доступ на чтение (в частности, это значит, что файл должен существовать), а символ + «позволяет» выполнять для данного файла и операции записи. Символ b по-прежнему указывает на то, что файл является двоичным.

Опишем действия по обработке файловых элементов для языка Python. Для перебора всех элементов файла используется цикл while, который завершится в тот момент, когда очередная операция чтения данных вернет пустую строку (таким образом, в данном варианте решения нам не требуется предварительно определять размер исходного файла). Считанная из файла непустая строка распаковывается функцией unpack (перед именем функции надо указать имя модуля, в котором она описана). Ее результатом является кортеж x, состоящий из единственного элемента x[0] (поскольку мы считываем данные порциями по 8 байт). Перед записью числа x[0]**2 (т. е. исходного значения, возведенного в квадрат), необходимо выполнить два действия. Во-первых, надо «вернуться» в файле на 8 байтов назад, чтобы квадрат числа был записан поверх его исходного значения (если этого не сделать, то квадрат будет записан поверх следующего файлового элемента). Это действие выполняется с помощью функции seek. Для того чтобы отсчет в этой функции велся от текущей позиции файлового указателя, в качестве второго параметра необходимо указать число 1 (если второй параметр равен 0 или отсутствует, то отсчет ведется от начала файла, а если второй параметр равен 2, то от его конца). Во-вторых, необходимо перевести полученное число в кодирующий его набор байтов; это действие выполняется функцией pack.

Обратите внимание на вызов функции flush в программе на языке Python, обеспечивающей немедленное выполнение всех действий, связанных с записью новых данных в файл. Необходимость в этой функции возникает только в случае, когда для одного и того же файла выполняются как операции чтения, так и операции записи. Она обязательно должна вызываться между операцией записи и последующей операцией чтения; в противном случае программа будет работать неверно.

Вариант решения для языка R является более простым, поскольку в этом языке при открытии файла одновременно на чтение и запись с ним связываются два файловых указателя (для чтения и для записи), которые изменяются независимо. Таким образом, в специальных действиях по перемещению указателей (которые для программы на языке Python выполнялись с помощью функции seek) в данном случае нет необходимости. Заметим, что для функции seek в языке R предусмотрен четвертый, необязательный параметр rw, который может принимать значения "read" или "write" и определяет, позицию какого из файловых указателей надо изменять. Если файл открыт либо только на чтение, либо только на запись, то параметр использовать не требуется. Как и в программе на языке Python, цикл завершается при достижении конца файла, признаком которого является возвращение функцей readBin набора данных длины 0.

Теперь приведем второй вариант решения задачи, использующий вспомогательный файл. В этом варианте для языка Python по-прежнему будут использоваться функции pack и unpack, однако файлы будут открываться либо только на чтение, либо только на запись, и поэтому не будет необходимости в прямом доступе к элементам файла (и тем самым — в использовании функций seek и flush).

[Python]

def solve():
    task("File25")
    f = open(get(), "rb")
    f1 = open("$$.tmp", "wb")
    s = f.read(8)
    while s:
        x = struct.unpack("d", s)
        f1.write(struct.pack("d", x[0]**2))
        s = f.read(8)
    f.close()
    f1.close()
    os.remove(f.name)
    os.rename(f1.name, f.name)

[R]

Solve <- function() {
    Task("File25")
    name1 <- Get()
    name2 <- "$$.tmp"
    f1 <- file(name1, "rb")
    f2 <- file(name2, "wb")
    a <- readBin(f1, double())
    while (length(a) != 0) {
        writeBin(a*a, f2)
        a <- readBin(f1, double())
    }
    close(f1)
    close(f2)
    file.remove(name1)
    file.rename(name2, name1)
}

В данной программе вспомогательный файл связывается с файловой переменной f1 и открывается только на запись, тогда как исходный файл открывается только на чтение.

В программе на языке Python элементы исходного файла последовательно считываются в переменную s, после чего они декодируются, возводятся в квадрат, кодируются и записываются во вспомогательный файл. В конце программы с помощью функции remove выполняется удаление исходного файла f (в качестве параметра функции указывается имя файла, которое остается доступным для переменной f даже после закрытия файла), а затем выполняется переименование вспомогательного файла f1 с помощью функции rename. Обе эти функции реализованы в стандартном модуле os, который необходимо подключить к программе директивой import.

Аналогичные действия выполняются и в программе на языке R. Для использования функций file.remove и file.rename дополнительные модули подключать не требуется, однако надо сохранять имена файлов, так как по файловым переменным их восстановить нельзя.

Строковые и текстовые файлы: File67, Text21

В данном пункте описываются особенности выполнения заданий на обработку строковых файлов (т. е. двоичных типизированных файлов, элементами которых являются строки), а также текстовых файлов, содержащих строки различной длины, оканчивающиеся маркерами конца строки.

Двоичные строковые файлы

В качестве примера задания на строковые файлы рассмотрим задание File67.

File67°. Дан строковый файл, содержащий даты в формате «день/месяц/год», причем под день и месяц отводится по две позиции, а под год — четыре (например, «16/04/2001»). Создать два файла целых чисел, первый из которых содержит значения дней, а второй — значения месяцев для дат из исходного строкового файла (в том же порядке).

Двоичные строковые файлы отличаются от стандартных текстовых файлов тем, что в них не используются специальные маркеры конца строки, а все строки — файловые элементы — имеют одинаковый размер. Это позволяет использовать прямой доступ к любому файловому элементу, а также дает возможность изменять отдельные элементы-строки, не затрагивая их соседей. Размер строки может быть выбран произвольным образом; при выполнении заданий на языках Python и R с использованием задачника Programming Taskbook элементы строковых файлов имеют размер 80 символов. Таким образом, для чтения этих элементов на языке Python надо использовать функцию read(80), а перед записью элементов в такой файл необходимо обеспечить их нужный размер (80 символов), дополняя их справа требуемым числом пробелов. В случае языка R для чтения строковых данных из двоичного файла f надо использовать функцию readChar(f, 80) (напомним, что фактический размер прочитанной строки можно узнать с помощью функции nchar), а для записи строки s в двоичный файл f надо использовать функцию writeChar(a, f1, 80, eos = NULL). Заметим, что аналогичным способом можно записывать в двоичный файл и отдельные символы c: writeChar(c, f2, 1, eos = NULL).

Для обработки строковых файлов описанного выше формата нет необходимости выполнять дополнительную перекодировку двоичных данных. Однако в задании File67 требуется сформировать два двоичных файлв с числовыми данными, для которых подобная перекодировка необходима. Поэтому в программе на языке Python потребуется использовать функцию pack из модуля struct. Для выделения из строки фрагмента, изображающего целое число, в языке Python надо использовать операцию среза для строки, к результату которой достаточно применить функцию int преобразования строки в целое число. Аналогичные действия можно использовать и в языке R, используя функции as.integer и substr. Таким образом, решение задачи File67 примет следующий вид:

[Python]

def solve():
    task("File67")
    f = open(get(), "rb")
    f1 = open(get(), "wb")
    f2 = open(get(), "wb")
    s = f.read(80)
    while s:
        f1.write(struct.pack('i', int(s[0:2])))
        f2.write(struct.pack('i', int(s[3:5])))
        s = f.read(80)
    f.close()
    f1.close()
    f2.close()

[R]

Solve <- function() {
    Task("File67")
    f <- file(Get(), "rb")
    f1 <- file(Get(), "wb")
    f2 <- file(Get(), "wb")
    s <- readChar(f, 80)
    while (length(s) != 0) {
        writeBin(as.integer(substr(s, 1, 2)), f1)
        writeBin(as.integer(substr(s, 4, 5)), f2)
        s <- readChar(f, 80)
    }
    close(f)
    close(f1)
    close(f2)
}

Текстовые файлы

В качестве примера задания на текстовые файлы рассмотрим задание Text21.

Text21°. Дан текстовый файл, содержащий более трех строк. Удалить из него последние три строки.

Строки в текстовом файле имеют разную длину, и, таким образом, нельзя изменить одну из них, не «затрагивая» соседние. Поэтому, хотя в языках Python и R и допускается открывать текстовые файлы одновременно на чтение и запись, обычно преобразование текстовых файлов выполняется с помощью вспомогательного текстового файла. Во вспомогательный файл записываются необходимые результирующие данные, после чего исходный файл удаляется с диска, а имя вспомогательного файла заменяется на имя исходного. Различная длина строк в текстовом файле также вынуждает организовывать их считывание последовательно, от первой до последней строки; при этом до завершения считывания файла невозможно определить количество содержащихся в нем строк. Для текстовых файлов при указании режима открытия не следует указывать символ b (признак двоичного файла). Таким образом, обычно текстовые файлы открываются в одном из трех режимов: "r" — чтение, "w" — запись, приводящая к полному обновлению содержимого файла, и "a" — режим дополнения (append), при котором новые данные добавляются в конец существующего файла. При этом для чтения отдельной текстовой строки должна использоваться функция readline(), которая возвращает не только содержимое строки, но и завершающий ее маркер в виде символа "\n". Пустая строка будет возвращена функцией readline только при попытке чтения данных за концом текстового файла.

Приведем решение задачи Text21, учитывающее отмеченные выше особенности текстовых файлов:

[Python]

def solve():
    task("Text21")
    f1 = open(get(),"r")
    n = 0
    while f1.readline():
        n += 1
    f1.close()
    f1 = open(f1.name, "r")
    f2 = open("$$.tmp", "w")
    for _ in range(n-3):
        f2.write(f1.readline())
    f1.close()
    f2.close()
    os.remove(f1.name)
    os.rename(f2.name, f1.name)

[R]

Solve <- function() {
    Task("Text21")
    name1 <- Get()
    name2 <- "$$.tmp"
    f1 <- file(name1, "r")
    n <- 0L
    while (length(readLines(f1, 1)) != 0)
        n <- n + 1L
    close(f1)
    f1 <- file(name1, "r")
    f2 <- file(name2, "w")
    for (i in 1:(n-3))
        writeLines(readLines(f1, 1), f2)
    close(f1)
    close(f2)
    file.remove(name1)
    file.rename(name2, name1)
}

Этот вариант решения является неэффективным, поскольку требует двух просмотров исходного файла f1: первый — для определения его размера, который записывается в переменную n, второй — для создания вспомогательного файла f2, содержащего все строки исходного файла, кроме трех последних.

Приведем еще один способ решения, который, хотя и требует единственного просмотра исходного файла, также является неэффективным, так как сохраняет в памяти всё содержимое файла:

[Python]

def solve():
    task("Text21")
    f = open(get(),"r")
    s = f.readlines()
    f.close()
    f = open(f.name,"w")
    for e in s[:-3]:
        f.write(e)
    f.close()

[R]

Solve <- function() {
    Task("Text21")
    name <- Get()
    f <- file(name, "r")
    ss <- readLines(f)
    close(f)
    f <- file(name, "w")
    writeLines(ss[1:(length(ss) - 3)], f)
    close(f)
}

В программе для языка Python используется функция readlines, считывающая все строки файла и возвращающая их в виде списка. Для получения всего списка s, за исключением последних трех элементов, проще всего воспользоваться операцией среза с отрицательным аргументом: s[:-3] (первый, отсутствующий, аргумент по умолчанию полагается равным 0, а отрицательный аргумент означает, что требуемая позиция отсчитывается от конца списка).

В программе для языка R используется та же функция readLines, что и в первом варианте, но без второго параметра, что обеспечивает чтение всех строк файла и их возврат в виде вектора. Для выделения нужных элементов вектора используется диапазон индексов.

Тем не менее, задание Text21 можно выполнить и за один просмотр исходного файла, причем не сохраняя в памяти все содержимое файла, если воспользоваться следующим наблюдением: строка должна быть записана во вспомогательный файл, если после нее в исходном файле находятся по крайней мере три строки. Таким образом, записывать очередную строку во вспомогательный файл следует только после считывания из исходного файла трех следующих за ней строк. Благодаря такому упреждающему считыванию необходимость в предварительном определении размера исходного файла отпадает. Для хранения строк, которые уже считаны из исходного файла, но еще не записаны во вспомогательный файл, удобно использовать список из трех элементов.

Приведем программу, реализующую описанный выше эффективный однопроходный алгоритм решения задачи:

[Python]

def solve():
    task("Text21")
    f1 = open(get(), "r")
    f2 = open("$$.tmp", "w")
    a = []
    for _ in range(3):
        a.append(f1.readline())
    n = 0
    s = f1.readline()
    while s:
        f2.write(a[n])
        a[n] = s
        n = (n + 1) % 3
        s = f1.readline()
    f1.close()
    f2.close()
    os.remove(f1.name)
    os.rename(f2.name, f1.name)

[R]

Solve <- function() {
    Task("Text21")
    name1 <- Get()
    name2 <- "$$.tmp"
    f1 <- file(name1, "r")
    f2 <- file(name2, "w")
    a <- readLines(f1, 3)
    n <- 1L
    s <- readLines(f1, 1)
    while (length(s) != 0) {
        writeLines(a[n], f2)
        a[n] <- s
        n <- n %% 3L + 1L
        s <- readLines(f1, 1)
    }
    close(f1)
    close(f2)
    file.remove(name1)
    file.rename(name2, name1)
}

Прокомментируем полученную программу. Вначале элементы вспомогательного списка (вектора) a инициализируются первыми тремя строками из исходного файла (по условию файл содержит не менее трех строк). Для хранения индекса текущего элемента списка используется переменная n. На каждой итерации цикла while во вспомогательный файл записывается строка a[n], (в этот момент уже известно, что после данной строки в исходном файле содержатся, по крайней мере, три строки: две из этих строк уже хранятся в списке, а непустая третья строка содержится в s). Затем последняя прочитанная из исходного файла строка s записывается на место только что сохраненного во вспомогательном файле элемента списка a. Наконец, выполняется циклическое изменение номера n: в случае языка Python 0 переходит в 1, 1 — в 2, 2 — в 0 (при этом используется операция % нахождения остатка от деления), аналогичные преобразования, с применением операции %% нахождения остатка от деления, выполняются и для языка R.

После завершения цикла while во вспомогательный файл будут записаны все строки исходного файла, кроме последних трех, а эти три последние строки будут содержаться в списке (векторе) a.

Разработка сайта:
М. Э. Абрамян, В. Н. Брагилевский

Последнее обновление:
01.01.2026