Электронные книжные форматы

Электронные книжные форматы

Для электронных книг (е-книг) в данное время не существует единого стандарта, и в ближайшее время он вряд ли может появиться. У каждого человека могут быть свои предпочтения, и он будет выбирать тот формат, который ему больше нравится или просто удобнее. Обычно применяются разные форматы, и наиболее популярными среди них являются DJVU, CHM, EXE, PDF, TXT, DOC и некоторые другие.

Электронные книжные форматы
Для электронных книг (е-книг) в данное время не существует единого стандарта, и в ближайшее время он вряд ли может появиться. У каждого человека могут быть свои предпочтения, и он будет выбирать тот формат, который ему больше нравится или просто удобнее. Обычно применяются разные форматы, и наиболее популярными среди них являются DJVU, CHM, EXE, PDF, TXT, DOC и некоторые другие.

Давайте сразу договоримся, что в этом обзоре мы не станем описывать двоичные форматы, вызывающие интерес только у опытных программистов. Эта статья будет полезна обычным пользователям, которые имеют только общие понятия о текстовых файлах в глобальной сети. Мы постараемся доступно объяснить, что представляет собой каждый из форматов. Ниже мы представим вашему вниманию классификацию всевозможных форматов, которая не является общепринятой. Но так нам будет более удобно их классифицировать. Если у кого-то возникнут на этот счет какие-либо возражения, то мы готовы их выслушать и доработать существующую классификацию.

Все существующие на данный момент форматы электронных книг можно разделить на несколько групп: веб-форматы, текстовые, автономные и специальные форматы. Последняя группа предназначена для применения на конкретных устройствах и в определенных программах. Некоторые форматы могут входить сразу в несколько различных групп.

Файлы с расширениями TXT, DOC, RTF относятся к типичным текстовым форматам и часто используются при создании электронных книг. Также к группе текстовых форматов часто ошибочно относят документы, полученные с помощью OCR (Optical Character Recognition, система оптического распознавания текстовых и графических символов для последующего автоматического ввода данных в компьютер).

Электронные книжные форматы

*.RTF

(Rich Text Format, rich – «богатый», формат обогащённого текста) — был разработан компанией Microsoft и представляет собой межплатформенный формат для хранения размеченных текстовых файлов. Это очень распространенный стандарт представления текстовых и графических данных. Его поддерживают практически все текстовые редакторы, независимо от типов процессоров и ОС, на которых они работают. Файлы RTF, созданные на персональных компьютерах под управлением Windows, также можно прочитать и на Apple Macintosh под управлением MacOS. Структура стандартного документа RTF – это последовательность секций данных, которые заключены в специальные метки (тэги). Эти метки указывают программе-обработчику на начало и конец секции. Данные бывают различных типов: таблицы, графические объекты, текстовые блоки, выполняемые файлы и другие. При запуске файла RTF обработчик оценивает его содержимое и в автоматическом режиме выполняет известные ему секции, пропуская при этом незнакомые. Кроме этого, структура RTF предоставляет возможность безболезненного ввода новых типов секций, которые необходимы пользователю при выполнении специфических задач. Новые секции не окажут влияния на общую работоспособность программы-обработчика в других приложениях. Подавляющее большинство текстовых редакторов поддерживает экспорт/импорт в формат RTF. Благодаря этому формат часто используют как «общий», для передачи текстовой информации из одного приложения в другое. В состав документа входят команды управления и настройки программы для чтения файлов в формате RTF. Эти команды подразделяются на управляющие символы (control symbols) и управляющие слова (control words).

Электронные книжные форматы

*.DOC.

Формат был разработан компанией Microsoft для его использования в программном компоненте Word. Из используемых в настоящий момент текстовых процессоров является наиболее популярным. Это де-факто сделало его двоичный формат документа стандартом. Поэтому многие конкурирующие программы поддерживают совместимость с данным форматом. На платформе IBM PC расширение .DOC стало синонимом бинарного формата Word 97-2003. Фильтры импорта и экспорта из данного формата реализованы в большинстве текстовых редакторов. В зависимости от версии, форматы документов могут несколько отличаться. Но все эти различия очень незначительные. Форматирование, которое выглядит нормально в последней версии, может криво отображаться в более старых версиях программы. Но Word дает ограниченную возможность для сохранения документа в старых версиях, при этом часть форматирования теряется. Версия Word 2007 по умолчанию использует формат, который основан на XML (Microsoft Office Open XML). В 2008 году компания Microsoft опубликовала спецификации форматов файлов для MS Word 97-2007.

Электронные книжные форматы

*.ODF

(Open Document Format for Office Application) — открытый формат файлов для обмена и хранения редактируемых офисных документов, в том числе текстовых документов (таких как книги, отчеты или заметки), презентаций, баз данных, рисунков, электронных таблиц. Независимо от версии и вида приложения, в котором документы были созданы, этот формат дает доступ к их содержанию. Стандарт был предложен индустриальным сообществом OASIS. Он основан на формате XML, который изначально создавался OpenOffice.org.

Электронные книжные форматы

*.TXT.

С этим форматом многие из вас сталкивались при работе со стандартным блокнотом ОС Windows. Трудно однозначно оценить его возможности в качестве стандарта для электронных книг. Этот формат не поддерживает оформление текстов, что значительно обедняет его возможности. Но при этом файлы TXT можно прочесть практически на любой платформе, что является несомненным плюсом. Данный формат используется многими онлайн-библиотеками для изготовления электронных книг по причине исключительной простоты в создании. Нужно просто скопировать текст в текстовый файл, и на этом все манипуляции закончены. Хотя, вряд ли, полученный таким образом файл можно назвать полноценной книгой.

На этом мы закончим обзор данной группы форматов. Общей для них является повсеместная распространенность и всеобщая доступность. Это очень удобные форматы для черновой работы над текстом, но для представления итогового результата работы они не совсем подходят. Форматы OEB, SML, XHTML, HTML являются типичными веб-форматами и используются для создания электронных книг.

Электронные книжные форматы

*.HTML

(Hyper Text Markup Language). Формат представляет собой язык разметки гипертекста, который стал стандартным для документов в глобальной сети. Подавляющее большинство веб-страниц создаются с помощью этого формата. К нему нет никаких претензий по читаемости на любых платформах, конвертируемости, индексируемости и открытости. Но формат не совсем удобен тем, что полноценная книга с изображениями будет состоять из множества файлов. При этом сжатие отсутствует. Возможности HTML используют многие форматы, на нем основанные. К примеру, iSilo.

Электронные книжные форматы

*.XHTML.

Форматы XHTML и HTML отличаются тем, что XHTML применяет синтаксис XML, предназначенный для помощи при разработке правильных и синтаксически корректных документов XML. Формат XHTML является словарем XML, а HTML представляет собой лишь язык разметки, предшествующий XHTML. Большая часть содержимого глобальной сети, написанного на языке XHTML, выдаётся в форме “text/html”. То есть браузеры анализируют все веб-страницы в виде набора простых меток, а не как документ XML. Подобный подход был реализован из-за очень жесткого механизма обработки ошибок в XML. При первой же ошибке анализ документа XML остановится. Таким образом, если на странице присутствует хоть одна ошибка — веб-страница будет полностью недоступна. Неправильное построение документа XML покажет не содержание самой ошибки, а лишь ее детали. К тому же, не исключен риск появления ошибки даже при правильно сформированном и созданном документе XML. Часто это можно встретить на веб-страницах, где их содержимое не контролируется инструментами XML с хорошей обработкой всевозможных кодировок. К примеру, ошибки появляются в том месте, где посетители создают запись или комментируют ее, или где содержимое импортируется из внешних источников (рекламные сервисы, обратная связь или какое-либо другое расширение к веб-приложению или программе). Всё вышеперечисленное часто становится причиной ошибок. Стоит добавить, что в известном браузере Internet Explorer нет поддержки XHTML в форме XML. Также существуют определенные проблемы с XML в том случае, если не весь набор инструментов от разработчиков является набором именно XML-инструментов. Поэтому мало у кого возникает желание использовать XML в глобальной сети.

Электронные книжные форматы

*.SML

(Structured Modeling Language). Формат представляет собой текстовый язык структурного моделирования. Он подобен файлу языка SQL, который является специальным типом текстового файла и предназначен для хранения информации в текстовом формате, относящейся к модели «связь-сущность». Использование SML позволяет с легкостью перемещать модели из одного средства CASE в другое. При условии, что оба средства поддерживают формат SML. Спецификация данного формата допускает унифицированные определения для самых разнообразных процессов, сервисов и прочих элементов сетевой инфраструктуры. Причем, предполагается использовать стандартные блоки, описывающие те или другие особенности объектов, функций и прочие. Спецификацию SML совместно разработали компании Sun Microsystems, Intel, Hewlett-Packard, EMC, Dell, Cisco Systems, CA, BMC Software, BEA Systems , IBM и Microsoft. При этом каждый участник данной инициативы предоставил свою интеллектуальную собственность на нужды всего проекта.

Электронные книжные форматы

*.OEB.

Формат в свое время был разработан консорциумом компаний под руководством Microsoft. Он является открытым и основан на XHTML (XML). По своей сути, книга OEB — это ZIP-архив, включающий в себя файл с информацией о документе, а также xml- и xhtml графические файлы. В настоящее время этот формат практически не используется, но у Open Reader Consortium сейчас есть грандиозные планы по превращению OEB в действительно универсальный формат, расширив его возможности.
Следующая группа автономных форматов считается наиболее удобной для создания электронных книг. Собственно, именно эти форматы имеют полное право называться «е-книжными».

Электронные книжные форматы

*.PDF

(Portable Document Format). Это портативный и переносимый формат электронных документов, не зависящий от платформы. Данные при этом импортируются из большинства форматов текстовых документов, растровых и векторных графических форматов. Для чтения файла PDF нужен только сам файл и бесплатная программа, например, Acrobat Reader. Формат выгодно отличается своей простотой в использовании и очень удобной навигацией, позволяющей быстро отыскать нужную страницу. Также в нем реализована возможность шифрования файла, которая часто используется для коммерческих нужд. У формата PDF имеются многие достоинства, но не лишен он и недостатков. Например, даже при заметном уменьшении объема, файлы PDF все равно остаются очень громоздкими. К тому же, защита, применяемая для кодирования файла, преодолевается опытным программистом за несколько секунд. Для более надежного кодирования нужно использовать специальные программы. Но, при всех своих недостатках, именно в формате PDF распространяется огромное множество технической документации. За рубежом в этом формате издается подавляющее большинство коммерческих книг. Известный всем Adobe Acrobat является лидером среди публикаций в формате PDF. Но применяются и другие программы. К примеру, PDF Reader (русские кодировки не поддерживает), PDF-XChange Viewer, eXPert PDF Reader, Foxit Reader и некоторые другие программы.

Электронные книжные форматы

*.Exe.

Этот формат имеет огромную популярность, очень удобен для пользователей и часто используется для создания электронных книг. Он представляет собой самоисполняемый файл с расширением .exe. Проанализируем состав exe-файла. Первая его составляющая — это управляющая информация загрузчику и, соответственно, загрузочному модулю. Информация для загрузчика располагается в самом начале файла и образует его заголовок. Вторая составляющая — это тело модуля загрузки, начинающееся на границе блока. Оно представляет собой аналог памяти задачи, построенной компоновщиком. Электронная книга в данном формате может содержать рисунки, текст, поиск в е-книге, навигационный гипертекст, анимацию, живые линки на веб-страницы, Java Scripts и Java Applets, что улучшает ее демонстрационные возможности. В большинстве программ в исходниках применяются JPEG, GIF, HTML и стандартные плагины. Также реализована возможность установки парольной защиты для электронной книги в целом, а также страниц в отдельности. Можно еще запретить копирование и печать. Поэтому именно этот формат так активно используется при коммерческом распространении электронных продуктов. Правда, у него есть и свои ограничения: электронные книги Exe могут работать только на платформе WINDOWS. Но быстрота и легкость изготовления макета позволяет создавать е-книги даже самиздату, а не только профессиональным издательствам. Самоисполняемость файла позволяет работать без использования дополнительного программного обеспечения. По своему внешнему виду электронные книги максимально приближены к типографской форме. Поэтому при чтении возникает довольно комфортное ощущение, как от чтения обычной бумажной книги.

Электронные книжные форматы

*.ExeBook.

Хотя у этого формата и есть определенные параллели с Exe, его все-таки можно выделить в отдельный формат. Он был разработан Яковом Судейкиным специально для книгоиздания. В нем осуществлена визуальная реализация эффекта «живой» книги, благодаря чему чтение становится очень комфортным. На наш взгляд, неплохо сделана и защита от копирования, что делает этот формат выгодным для электронных продаж. Но этот формат также имеет серьезные недостатки. Это некоторые шрифтовые ограничения и низкие оформительские возможности. Но, если вы работаете в Windows, вам будет сложно отыскать более подходящий формат для создания электронной книги.

Электронные книжные форматы

*.DjVu

(от французского déjà vu, дежавю, уже виденное) - это специально разработанная для сканированных документов (прежде всего, математических книг, журналов и т.п.) технология сжатия изображений. Хотя, ассортимент изданных книг ими далеко не ограничивается – в этом формате можно отсканировать и сжать практически любую книгу. Иногда DjVu называют «тексто-графическим» форматом. Он хорошо оптимизирован для сетевой передачи файлов. Страницу при этом можно просматривать до завершения скачивания. Файл DjVu содержит текстовый слой OCR, что дает возможность полнотекстового поиска по файлу. Кроме этого, файл DjVu может содержать в себе активные области (ссылки) и встроенное интерактивное оглавление, что делает навигацию в DjVu-книгах очень удобной. Размер файла DjVu находится в пределах нескольких мегабайт, и это вполне приемлемо. Для файлов с черно-белыми изображениями DjVu обеспечивает сжатие 500:1. В сравнении с форматом GIF выигрыш в размере файла двадцатикратный. Суть технологии DjVu в том, что изображение автоматически разбивается на несколько участков (к примеру, растровая фотография, логотип фирмы, текст). Затем для каждого из них выбирается наилучший алгоритм сжатия для данного образа. Для чтения электронных книг в этом формате есть хорошие программы.

Электронные книжные форматы

*.CHM

(Compiled HTML). Этот формат изначально создавался для формирования функциональной и удобной справочной системы в ОС Windows. Но его часто используют и для создания электронных книг, не ограничиваясь help-системами к программному обеспечению. Наличие в файлах CHM полнотекстового поиска – самая сильная сторона этого формата. Файл CHM представляет собой набор скомпилированных файлов HTML. Этим он очень похож на архив веб-страниц. И действует файл CHM также по принципу архива. То есть, производит сжатие хранящихся в нем файлов, но не всех, а только текстовых или содержащих текст, отформатированный при помощи HTML-тегов (CSS, TXT, HTML и файлы других подобных форматов).

Электронные книжные форматы

*.XPS

(XML Paper Specification). Данный формат де-факто является подмножеством XAML (Extensible Application Markup Language). Он продвигается компанией Microsoft как новый стандарт для различных языков разметки. Он также широко используется и в WPF (Windows Presentation Foundation) при создании пользовательских интерфейсов, при этом одновременно являясь компонентом платформы WPF. Многие эксперты утверждают, что в скором времени формат XPS станет отличным средством для публикации, отображения и хранения данных WPF-приложений. XPS преследует ту же цель, что и PDF: просмотр файла в оригинальном виде, независимо от программного обеспечения, установленного на компьютере. Этот формат не требует дополнительных системных компонентов, например, шрифтов. Но при этом разработчик может быть полностью уверен, что у клиента документы отобразятся именно так, как нужно. К тому же пользователь не сможет ни изменить, ни скопировать данные.
Также следует описать особую группу специальных форматов, созданных для корректной работы на определенном оборудовании и в конкретных программах.

Электронные книжные форматы

*.LIT

Закрытый формат компании Microsoft, которые основан на OEB. Не поддается индексации, воспринимается лишь оригинальной программой MS Reader. LIT содержит в себе инструменты, делающие его очень похожим на PDF. Например, доступно масштабирование, аннотации и закладки. Степень сжатия текста в пределах 50-60%.

Электронные книжные форматы

*.iSilo

(Palm Pilot Database Format) - довольно популярный и известный формат базы данных, использующийся в карманных устройствах. Применяется во всех Macintosh/PC, IBM Workpad и 3Com Palm Pilot для хранения записей в базе данных. Главное его достоинство — отличное сжатие текста. Этот формат позволяет вставлять гиперссылки, корректно работает с изображениями и поддерживает множество шрифтов. Объем одной записи может быть выше 64 кб, также имеются биты BackUp и т.п. При помощи вьювера от iSilo е-книги в формате PDB очень похожи на файлы CHM. У этого формата нет особых достоинств, но можно встретить довольно неплохие книги, скомпилированные в нем.

Электронные книжные форматы

*.PalmDOC

(Aportis Doc и PDB). Еще один очень популярный Palm-формат. Большинство приложений для чтения е-книг его нормально воспринимает. Но степень сжатия текста намного ниже, чем у iSilo.PDB. При этом вовсе не поддерживается графика.

Электронные книжные форматы

*.FB2

(Fiction Book). Открытый формат, который основан на XML. Это теоретически дает возможность создания программ для чтения практически на любой платформе. Формат поддерживает Unicode, поэтому полностью решается проблема с корректным отображением текстов на разных языках. Также поддерживается графика. Для Pocket PC и Windows выпускаются инструменты для чтения книг в формате FB2 и для конвертации в него данных из других текстовых форматов. Также есть библиотеки, поддерживающие этот формат и экспорт из него в другие форматы. Но под другие платформы читалок FB2 пока нет.

Электронные книжные форматы

*.RB

Формат разработан специально для электронных читалок Pocket Book и сейчас используется очень редко.

Электронные книжные форматы

*.zTXT

Формат является закрытым и доступным только на Palm OS. Он очень похож на PalmDOC, но у данного формата намного более высокая степень сжатия (до 45%). В нем реализована возможность вставки гиперссылок и закладок.

Электронные книжные форматы

*.TR

(ToRaTRPW). Этот формат используется в программе Tome Raider. У него одна из наиболее высоких степеней компрессии. В формате TR есть возможность индексации текста, поэтому его можно использовать для составления электронных книжных каталогов.

Электронные книжные форматы

*.DataPlkr

Это открытый формат специальной программы Plucker, которая предназначена для просмотра веб-страниц на Palm. Корректно отображает различные шрифты, гиперссылки и рисунки. Конвертирование в этот формат не требует запуска специальных внешних программ. После установки соответствующего программного обеспечения его можно производить при помощи контекстного меню.

Электронные книжные форматы

*.FBR

Это защищенный формат данных, которые доступны для программы Franklin Reader.

Электронные книжные форматы

*.PRC

Формат Palm. Поддерживается приложением Mobi Pocket.

Можно было бы еще перечислить огромное множество форматов. Но это будет интересным только для опытных специалистов. Или еще для пользователей необычных программ и устройств, не слишком у нас распространенных, чтобы уделять им внимание.

Tweet


Теги:



  •  
    05.08.2011

    Я по старинке пользуюсь в основном только текстовыми или вордовскими файлами. Форматов целая куча, а найти нормальный конвертер та еще проблема. Да, не слишком вы меня обнадежили. Думала, что единый формат - только дело времени. А оказывается вот как все запущено.

  •  
    05.08.2011

    ePub отличный формат, идеально подходит для iPad. Я все конвертирую только в него. Есть хорошие конвертеры. На компьютере же можно читать в каком угодно формате, нужная программа ищется за пару минут. А за статью спасибо, восполнил пробелы в образовании.

  •  
    05.08.2011

    Ничего себе, как же их много. Статья хорошая, теперь хоть немного узнаю, с чем едят эти форматы и зачем они нужны. А единый формат электронных книг - это, миф, естественно.


Оставлять комментарии могут только зарегистрированые пользователи. Войдите или зарегистрируйтесь
Логин
Пароль
Запомнить меня