=> Главная База Знаний Qt Чтение и запись текста


Чтение и запись текста

Чтение и запись текста

Хотя двоичные форматы файлов обычно более компактные, чем текстовые форматы, они плохо воспринимаются человеком и не могут им редактироваться. Там, где последнее играет важную роль, можно использовать текстовые форматы. Qt предоставляет класс QTextStream для чтения и записи простых текстовых файлов или файлов других текстовых форматов, например HTML, XML, и файлы исходных текстов программ. Работа с XML—файлами рассматривается отдельно в главе 15.

QTextStream обеспечивает преобразование между Unicode и локальной кодировкой системы или любой другой кодировкой и незаметно для пользователя справляется с различными соглашениями относительно окончаний строк, принятыми в разных операционных системах («\r\n» в Windows, «\n» в Unix и Mac OS X). QTextStream использует 16-битовый тип QChar в качестве основного элемента данных. Кроме символов и строк QTextStream поддерживает основные числовые типы С++, преобразуя их в строку и обратно. Например, в следующем фрагменте программного кода выполняется запись строки «Thomas M. Disch: 334\n» в файл sf-book.txt:

QFile file("sf-book.txt");

if (!file.open(QIODevice::WriteOnly)) {

cerr << "Cannot open file for writing: "

<< qPrintable(file.errorString()) << endl;

return;

}

QTextStream out(&file);

out << "Thomas M. Disch: " << 334 << endl;

Записать текст очень просто, однако его чтение может оказаться трудной задачей, поскольку текстовый формат данных (в отличие от двоичного формата данных, записанных с помощью QDataStream) в принципе двусмысленный. Давайте рассмотрим следующий пример:

out << "Norway" << "Sweden";

Если out является объектом типа QTextStream, то данные в действительности записываются в виде строки «NorwaySweden». Мы не можем рассчитывать на то, что приведенная ниже строка правильно считает данные:

in >> str1 >> str2;

Фактически произойдет то, что строка str1 получит все слово «NorwaySweden», а строка str2 ничего не получит. При использовании класса QDataStream не возникнет таких трудностей, поскольку он сохраняет длину каждой строки в начале символьных данных.

Для сложных форматов файлов может потребоваться полнофункциональный парсер. Такой парсер мог бы считывать символ за символом при помощи оператора >> для типа QChar или строку за строкой при помощи функции QTextStream::readLine(). В конце этого раздела мы представим два небольших примера, в одном из которых входной файл считывается построчно, а в другом он считывается посимвольно. Для того чтобы использовать парсеры, работающие с целым текстом, мы могли бы считать весь файл за один шаг, используя функцию QTextStream::readAll(), если бы нас не волновал расход памяти или если бы мы знали, что файл будет небольшим.

По умолчанию QTextStream использует локальную кодировку системы (например, ISO 8859-1 или ISO 8859-15 в Америке и в большей части Европы) при чтении и записи. Это можно изменить, используя функцию setCodec():

stream.setCodec("UTF-8");

В этом примере используется кодировка UTF-8, совместимая с популярной кодировкой ASCII и позволяющая представить весь набор символов Unicode. Дополнительная информация о кодировке Unicode и о поддержке кодировок классом QTextStream приводится в главе 17 («Интернационализация»).

QTextStream имеет различные опции, аналогичные опциям <iostream>. Установить опции можно путем передачи в поток специальных объектов — манипуляторов потока. В следующем примере устанавливаются опции showbase, uppercasedigits и hex перед выводом целого числа 12345678, и в результате получается текст «0xBC614E»:

out << showbase << uppercasedigits << hex << 12345678;

Ниже перечислены функции, устанавливающие опции для QTextStream (рис. 12.1):

• setIntegerBase(int):

0 — основание обнаруживается автоматически по префиксу (при чтении),

2 — двоичное представление,

8 — восьмеричное представление,

10 — десятичное представление,

16 — шестнадцатеричное представление.

• setNumberFlags(NumberFlags):

ShowBase — показывать префикс для оснований 2 («0b»), 8 («0») или 16 («0x»),

ForceSign — всегда показывать знак перед числами,

ForcePoint — всегда показывать десятичную точку,

UppercaseBase — префиксы оснований выдавать на верхнем регистре,

UppercaseDigits — буквы шестнадцатеричных чисел выдавать на верхнем регистре.

• setRealNumberNotation(RealNumberNotation):

FixedNotation — формат с фиксированной точкой (например, 0.000123),

ScientificNotation — научный формат (например, 0.12345678e-04),

SmartNotation — формат с фиксированной точкой или научный формат в зависимости от того, какой из них компактнее.

• setRealNumberPrecision(int) — устанавливает максимальное количество генерируемых цифр (по умолчанию 6).

• setFieldWidth(int) — устанавливает минимальный размер поля.

• setFieldAlignment(FieldAlignment):

AlignLeft — выравнивание влево, заполнитель занимает правую часть поля,

AlignRight — выравнивание вправо, заполнитель занимает левую часть поля,

AlignCenter — выравнивание по центру, заполнитель занимает оба края поля,

AlignAccountingStyle — заполнитель занимает область между знаком и числом.

setPadChar(QChar) — устанавливает символ, используемый в качестве заполнителя (пробел по умолчанию).

Опции можно также устанавливать с помощью функций—членов:

out.setNumberFlags(QTextStream::ShowBase

| QTextStream::UppercaseDigits);

out.setIntegerBase(16);

out << 12345678;

Класс QTextStream, как и QDataStream, работает с каким-нибудь подклассом QIODevice: QFile, QTemporaryFile, QBuffer, QProcess, QTcpSocket или QUdpSocket. Кроме того, его можно использовать непосредственно со строкой типа QString. Например:

QString str;

QTextStream(&str) << oct << 31 << " " << dec << 25 << endl;

В результате переменная str будет иметь значение «37 25\n», поскольку десятичное число 31 представляется восьмеричным числом 37. В данном случае не требуется устанавливать кодировку, поскольку QString всегда использует Unicode.

Теперь рассмотрим простой пример текстового формата файлов. В приложении Электронная таблица, описанном в части I, мы использовали двоичный формат для хранения данных этого приложения. Данные представляют собой последовательность троек (строка, столбец, формула) — по одной на каждую непустую ячейку. Запись данных в виде текста выполняется просто; ниже показан фрагмент пересмотренной версии функции Spreadsheet::writeFile():

QTextStream out(&file);

for (int row = 0; row < RowCount; ++row) {

for (int column = 0; column < ColumnCount; ++column) {

QString str = formula(row, column);

if (!str.isEmpty())

out << row << " " << column << " " << str << endl;

}

}

Мы использовали простой формат, когда одна строка соответствует одной ячейке, причем пробелы разделяют номер строки и номер столбца, а также номер столбца и формулу. Формула может содержать пробелы, но мы предполагаем, что она не может содержать ни одного символа '\n' (который используется для завершения строки). Теперь давайте рассмотрим соответствующий программный код, предназначенный для чтения файла:

QTextStream in(&file);

while (!in.atEnd()) {

QString line = in.readLine();

QStringList fields = line.split(' ');

if (fields.size() >= 3) {

int row = fields.takeFirst().toInt();

int column = fields.takeFirst().toInt();

setFormula(row, column, fields.join(' '));

}

}

Мы считываем одним оператором одну строку данных приложения Электронная таблица. Функция readLine() удаляет завершающий символ '\n'. Функция QString::split() возвращает список строк, разбивая строку на части согласно обнаруженным символам—разделителям. Например, при обработке строки «5 19 Total value» будет получен список из четырех элементов [«5», «19», «Total», «value»].

Данные могут быть извлечены, если имеется по крайней мере три поля. Функция QStringList::takeFirst() удаляет первый элемент списка и возвращает удаленный элемент. Мы используем ее для извлечения номеров строк и столбцов. Мы не делаем никакой проверки ошибок; если считываемый номер строки или номер столбца оказывается не числом, функция QString::toInt() возвратит 0. Вызывая функцию setFormula(), мы помещаем оставшиеся поля в одну строку.

В нашем втором примере с QTextStream мы будем посимвольно считывать текстовый файл и затем выводить этот же текст, удаляя из строки завершающие пробелы и заменяя символы табуляции пробелами. Всю эту работу делает функция tidyFile():

01 void tidyFile(QIODevice *inDevice, QIODevice *outDevice)

02 {

03 QTextStream in(inDevice);

04 QTextStream out(outDevice);

05 const int TabSize = 8;

06 int endlCount = 0;

07 int spaceCount = 0;

08 int column = 0;

09 QChar ch;

10 while (!in.atEnd()) {

11 in >> ch;

12 if (ch == '\n') {

13 ++endlCount;

14 spaceCount = 0;

15 column = 0;

16 } else if (ch == '\t') {

17 int size = TabSize - (column % TabSize);

18 spaceCount += size;

19 column += size;

20 } else if (ch == ' ') {

21 ++spaceCount;

22 ++column;

23 } else {

24 while (endlCount > 0) {

25 out << endl;

26 --endlCount;

27 column = 0;

28 }

29 while (spaceCount > 0) {

30 out << ' ';

31 --spaceCount;

32 ++column;

33 }

34 out << ch;

35 ++column;

36 }

37 }

38 out << endl;

39 }

Мы создаем для ввода и вывода данных объекты QTextStream, полученные на базе устройств QIODevice, переданных конструктору. Мы поддерживаем три переменные для контроля состояния: счетчик новых строк, счетчик пробелов и текущую позицию столбца в текущей строке (для преобразования символов табуляции в правильное количество пробелов).

Синтаксический анализ выполняется в цикле while, на каждом шаге которого считывается из входного файла один символ. В этой функции в некоторых местах делаются тонкие вещи. Например, хотя TabSize устанавливается на значение 8, мы заменяем символы табуляции достаточно точным числом пробелов, чтобы достигнуть следующей метки табуляции, а не грубо заменять каждый символ табуляции восемью пробелами. При встрече символа новой строки, символа табуляции и пробелов мы просто обновляем состояние данных. Только при получении символа нового вида мы выполняем вывод данных, а перед записью символа записываем ожидающие вывода символы новой строки и пробелы (чтобы учесть пробельные строки и сохранить отступы) и обновляем состояние.

01 int main()

02 {

03 QFile inFile;

04 QFile outFile;

05 inFile.open(stdin, QFile::ReadOnly);

06 outFile.open(stdout, QFile::WriteOnly);

07 tidyFile(&inFile, &outFile);

08 return 0;

09 }

В этом примере не нужен объект QApplication, потому что мы используем только инструментальные классы Qt. Список всех инструментальных классов приводится на веб-странице http://doc.trolltech.com/4.1/tools.html. Мы предполагаем, что эта программа используется как фильтр, например:

tidy < cool.cpp > cooler.cpp

Эту программу можно легко расширить, позволяя ей работать с именами файлов, указанными в командной строке, если они заданы, а в противном случае использовать ее для фильтрации потока ввода cin в поток вывода cout.

Поскольку это приложение консольное, его файл .pro немного отличается от используемого нами в приложениях с графическим интерфейсом:

TEMPLATE = app

QT = core

CONFIG += console

CONFIG -= app_bundle

SOURCES = tidy.cpp

Мы собираем приложение только с QtCore, поскольку здесь не используется функциональность графического пользовательского интерфейса. Затем мы указываем, что необходимо включить консольный вывод в Windows и не нужно размещать приложение в каталоге (bundle) приложений системы Mac OS X.

При чтении и записи простых ASCII—файлов и файлов с кодировкой ISO 8859-1 (Latin-1) можно непосредственно использовать программный интерфейс QIODevice вместо класса QTextStream. Поступать так имеет смысл только в редких случаях, поскольку в большинстве приложений требуется в некоторых случаях поддержка других кодировок и только QTextStream обеспечивает такую поддержку безболезненно. Если вы все-таки хотите писать текст непосредственно на устройство QIODevice, необходимо явно указать флажок QIODevice::Text в функции open(), например:

file.open(QIODevice::WriteOnly | QIODevice::Text);

Этот флажок говорит устройству QIODevice о том, что при записи в системе Windows необходимо преобразовывать символы '\n' в последовательность «\r\n». При чтении он говорит устройству, что необходимо игнорировать символы '\r' при работе на любой платформе. Теперь можно рассчитывать на то, что конец каждой строки обозначается символом новой строки '\n' вне зависимости от принятых на этот счет соглашений в операционной системе.