"Создание электронных книг в формате FictionBook 2.1: практическое руководство" - читать интересную книгу автора (Кондратович М.И.)

§ 1.2 Многообразие форматов электронных книг

Для начала давайте вспомним, что такое книга.

Толковый словарь Ожегова трактует понятие «книга», как: «Произведение печати (в старину также рукописное) в виде переплетённых листов с каким-либо текстом». [1.1]

Соответствует ли большинство форматов e-book этому определению?

Скорее нет, чем да. Электронная книга — вещь нематериальная. Набор битов в памяти компьютера или гаджета, намагниченных частиц или микроскопических углублений на электронном носителе. Кроме того, надо как-то отделить книги от рабочих документов.

Поэтому определение «электронная книга», должно звучать так: «Текст (возможно иллюстрированный), в цифровом формате, специально подготовленный для чтения».

Чтобы оценить преимущества и недостатки того или иного формата, необходимо сформулировать свод требований к электронным книгам.

Читабельность. Легкость и удобство чтения текста. Поскольку это обеспечивают программные и аппаратные средства для чтения, от самого формата требуются несколько иные качества, а именно два нижеследующих:

Полиграфичность. Возможность отформатировать текст, выделить заголовки, вставить иллюстрации, содержание и. т.д. То есть, приблизиться к бумажным изданиям.

Масштабируемость. Возможность читать e-book при разных разрешениях экрана и размерах рабочего окна.

Кроссплатформенность. Электронная книга в идеале должна одинаково легко читаться на различных устройствах — от специализированной «читалки» до персонального компьютера.

Конвертируемость. Очень важный параметр, учитывая постоянно меняющиеся стандарты, операционные системы и «железо».

Гипертекст. Тоже весьма существенный для e-book параметр. Возможность мгновенно перейти в нужное место книги, щелкнув по ссылке.

Возможность редактирования. Не обязательно, но желательно. Учитывая «какчество» текстов в онлайн-библиотеках. Хотя, для «лицензионных» книг, эта фича, быть может, и не актуальна. Там достаточно возможностей делать закладки и пометки на полях, которые предоставляет софт для чтения.

Профессиональный издатель обязательно бы добавил в этот список возможность установки DRM, [1.2] но я лично считаю (и большинство читателей, без сомнения, согласятся со мной) что этот элемент совершенно излишний. Если дать волю издателям, они и на бумажные книги начнут ставить защиту, например, покрывать страницы гильоширной [1.3] сеткой, чтобы затруднить распознавание текста программой OCR…

С этими требованиями мы и пройдемся по существующим форматам.

Обычный текст (plaintext) (.TXT)

Текст — он и в Африке текст. Простая последовательность восьмибитных (как правило) значений, каждое из которых соответствует либо символу, либо управляющему коду. Отличается лишь кодировкой и способом перевода строки.

Полиграфичность. Низкая. Набор средств разметки у текста весьма невелик. Форматирование абзацев, отступы и выделение заглавными буквами — вот, пожалуй, и все.

Масштабируемость. Все зависит, от того, как сформатирован текст. Если он аккуратно отформатирован по абзацам с выравниванием, то очень низкая. Если же разбиения на строки нет — «один абзац — одна строка» — тогда масштабируемость высокая.

Кроссплатформенность. Практически абсолютная.

Конвертируемость. Практически абсолютная.

Гипертекст. Нет.

Возможность редактирования. Абсолютная.

Формат txt активно использовался на заре электроных библиотек, при создании всевозможных сборников книг («Библиотека в кармане», «HarryFan Text Collection», и прочие). Сейчас книги в формате txt можно найти, пожалуй, лишь в библиотеке Максима Мошкова, (да и то перед подачей их пользователю они преобразуются в HTML) и в некоторых небольших библиотеках.

Rich Text Format (.RTF)

Этот формат был специально разработан компанией Micro$oft в 1987 году для переноса текста с разметкой из одной программы в другую. В таком качестве он используется и по сей день. RTF понимают практически все современные текстовые редакторы и издательские системы.

Полиграфичность. Выше среднего.

Масштабируемость. Почти абсолютная.

Кроссплатформенность. Очень высокая.

Конвертируемость. Очень высокая.

Гипертекст. Нет.

Возможность редактирования. Абсолютная.

RTF до сих пор широко используется в русскоязычных онлайн-библиотеках. Главным образом, именно из-за его хорошей совместимости с различным программным обеспечением.

Документ Micro$oft Word (.DOC)

Формат DOC — это внутренний формат Micro$oft Word и предназначен для хранения текстовых документов, подготовленных в этой программе. Распространенность Micro$oft Office и Micro$oft Word как его части, обусловила широкое распространение формата DOC.

Полиграфичность. Высокая.

Масштабируемость. Высокая.

Кроссплатформенность. Ниже среднего.

Конвертируемость. Высокая.

Гипертекст. Присутствует.

Возможность редактирования. Абсолютная.

По скромному мнению автора, документы Word используют в качестве e-book только по одной причине — авторам книги (или сканнеристам ;)) ) просто-напросто лень конвертировать его в более удобочитаемый формат.

Документы HTML (.HTM; .MHT; .CHM)

Язык HTML (HyperText Markup Language) был создан  для отображения информации в сети Интернет.

Полиграфичность. Высокая.

Масштабируемость. Очень высокая.

Кроссплатформенность. Практически абсолютная.

Конвертируемость. Практически абсолютная.

Гипертекст. Разумеется, есть.

Возможность редактирования. Абсолютная.

Хотя НTML позволяет неплохо оформить текстовый документ, он все же не слишком подходит для e-book. Далеко не всем нравится читать книги в браузере. При использовании же программы-ридера, HTML, как правило, конвертируется в обычный текст и теряет все свои преимущества.

А вот формат CHM, первоначально предназначавшийся для подготовки файлов справки к программному обеспечению, — дело иное. Компактность и высокая интерактивность делают его весьма удобным для различных электронных руководств и справочников.

В частности, очень эффектно смотрятся в CHM компьютерные руководства издательства O'Reilly. Наличие глоссария и контекстного поиска сильно облегчает работу.

Однако, все эти достоинства CHM перечеркивает большой недостаток. Это формат справки и он жестко ориентирован на Windows. Решит Micro$oft поменять формат справки в следующей версии «форточек» и с накопленным объемом книг придется попрощаться.

Конечно, как для любого мало-мальски популярного формата, для CHM существуют альтернативные средства просмотра. Та же кроссплатформенная читалка FBReader. И декомпилировать его, в случае надобности, задача тривиальная. Но это уже получаются шаманские пляски.

* * *

У всех вышеперечисленных форматов есть один существенный недостаток — они ИЗНАЧАЛЬНО НЕ ПРЕДНАЗНАЧАЛИСЬ для создания электронных книг. Созданные на их основе файлы даже не являются книгами — это просто текстовые документы.

Как ни странно, из этого же недостатка вытекает и достоинство — чтобы читать их не требуется специального программного обеспечения. Достаточно стандартных средств, встроенных в операционную систему.

Форматы, описанные далее, уже требуют установки специальных программных средств для их просмотра.

Adobe Acrobat (.PDF).

Первоначально PDF разрабатывался для нужд полиграфии. В основном для платформенно-независимого переноса макетов. В последние годы интенсивно продвигается как формат для создания e-book.

Полиграфичность. Абсолютная. Для того и был разработан. Как следствие, PDF-файлы могут быть весьма увесистыми.

Масштабируемость. Низкая! На портативных устройствах читать PDF проблематично.

Кроссплатформенность. Cредняя.

Гипертекст. Есть.

Возможность редактирования. Низкая. К тому же, для этого нужно устанавливать громоздкий Adobe Acrobat.

Основной аргумент против массового применения PDF для изготовления e-book — это большой объем файла и неудобство чтения на портативных устройствах.

Впрочем, качественные книги и журналы, сформатированные на страницы размером более A5, трудновато читать даже на 21'' мониторах.

===============================

Вообще, формат PDF предназначен, в первую очередь, ДЛЯ ВЫВОДА НА ПЕЧАТЬ.

===============================

Существуют и другие форматы, аналогичные PDF. Например, формат Zinio, предназначенный специально для выпуска в электронном виде периодических изданий, в частности глянцевых журналов.

DeJaVU (.DJVU)

Формат DJVU был создан компанией АТamp;T специально для компактного представления информации в Internet. Подобно MP3 и Divx, он пришелся ко двору и произвел маленькую революцию в деле свободного распространения контента.

Полиграфичность. Высокая.

Масштабируемость. Весьма средняя. Зависит от того, насколько хорошо программа-просмотрщик поддерживает anti-aliasing. [1.4]

Кроссплатформенность. Средняя.

Конвертируемость. Ниже среднего.

Гипертекст. Есть подобие.

Возможность редактирования. Средняя.

Формально, файлы созданные с использованием DJVU трудно называть книгами. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением. Что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при более чем приемлемом качестве изображения. Эти свойства делают его идеальным для множества сканированных компьютерных (и не только) руководств и пособий, которыми сейчас завалены варезные сайты (такие книги еще называют «освобожденными» ;)) ). Ведь, если книга содержит примеры исходников программ, формулы, схемы или сложные таблицы, то даже незначительные ошибки при OCR могут непоправимо испортить ее. A DJVU позволяет представить книгу «как есть».

Причем интересы читателей, привыкших парой щелчков копировать нужный кусок текста в буфер, тоже учтены. Последние версии формата DJVU могут содержат чисто текстовый слой.

Справедливости ради, следует заметить, что DJVU, более чем хорошо справляющийся с текстами и штриховыми иллюстрациями, пасует перед изданиями, содержащими цветные фото и рисунки — иллюстрированными энциклопедиями и глянцевыми журналами. Выглядят такие издания в DJVU весьма непрезентабельно.

Закрытые специализированные форматы

Существует довольно много форматов электронных книг, которые были созданы для одного конкретного устройства или программы.

К ним можно отнести Rocket e-book (.rb), Micro$oft Reader (.lit), PalmDoc, MobiPocket (.prc), Jinke Book Wolf (.wol) и т.д. Плюс, некоторые программы для чтения норовят сконвертировать текст в свой собственный, ни с чем не совместимый формат (IceBook Professional на PC, iSilo и Weasel на Palm и прочие). Правда, при близком рассмотрении оказывается, что это все те же HTML, RTF или txt (некоторое исключение составляет формат ExeBook, который конвертирует текст книги в исполняемый файл, содержащий набор растровых картинок), как правило, упакованные для компактности, и снабженные служебной областью, где могут храниться, например, закладки. Также (и чаще, чем хотелось бы) может быть добавлена DRM.

Полиграфичность. Зависит от конкретного формата. Средняя или выше среднего.

Масштабируемость. Средняя или выше среднего.

Кроссплатформенность. Низкая. Обычно такие форматы создаются для одного конкретного устройства или программы. Просмотр на PC или, соответственно, КПК нередко возможен только с помощью программ, написанных энтузиастами.

Конвертируемость. Низкая. Обычно только через софт, опять же написанный энтузиастами.

Гипертекст. Чаще всего есть.

Возможность редактирования. Низкая или вообще никакая.


И, наконец…


Специализированные открытые форматы на основе XML

Что такое XML, подробно описано ниже. Сейчас нас интересуют лишь сравнительные характеристики формата.

Полиграфичность. Высокая. Правда, всецело зависит от программы-ридера.

Масштабируемость. Почти абсолютная.

Кроссплатформенность. Практически абсолютная.

Конвертируемость. Практически абсолютная.

Гипертекст. Есть.

Возможность редактирования. Как правило, абсолютная.

Как видим, язык XML имеет наилучшее сочетание качеств, необходимых для e-book. Поэтому попытки делать e-book на его основе уже предпринимались неоднократно и небезуспешно.

В отличие от txt, RTF, DOC, HTML, PDF, и т.д. которые однозначно ориентированы на отображение или хранение текстовых данных, форматы на основе XML позволяют структурировать книгу.

Известны форматы OEB (Open E-Book), DocBook, e-Pub и другие. Но наиболее популярным (по крайней мере, в Рунете) является FictionBook.