химия

  • docx
  • 16.04.2020
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала 3_Lektsia.docx

Лекция 3

Форматы файлов для представления и хранения информации

 

За последние десятилетия электронные книги, журналы, газеты, отдельные статьи стали столь же обычными, как и традиционные. Многие издания выходят в электронном виде раньше, чем в бумажном варианте. Этому способствует повсеместное внедрение верстки на компьютере и использование различных форматов хранения текстовой, графической, видео и аудио информации.

Форматом файла называется спецификация структуры данных, записанных в компьютерном файле. Формат файла обычно указывается в его имени, как часть, отделённая точкой. Например, окончание имени «.txt» обычно используют для обозначения файлов, содержащих только текстовую информацию, а «.doc» — содержащих текстовую информацию, структурированную в соответствии со стандартами программы Microsoft Word. Файлы, содержимое которых соответствует одному формату (реже — одному семейству форматов), иногда называют файлами одного типа.

Создание полноценных электронных Интернет-библиотек стало возможно с появлением таких форматов как djvu и pdf. Но и по настоящее время, огромное количество печатной продукции не доступно в электронном виде либо из-за выпуска в докомпьютерные времена, либо из-за политики издателя. С другой стороны, существуют рукописные труды, исторические книги с пометками владельцев и другие документы, которые в принципе не могут быть представлены в виде текста.

 

Основные форматы файлов представления химической информации

Для представления различных видов химической  информации в сети Интернет используются не только специфические форматы, (отражающие   спектры, молекулярные структуры и др.), но и форматы общего назначения. 

Интернет (Web-страницы)

HTML (от англ. HyperText Markup Language — «язык разметки гипертекста») — стандартный язык разметки документов во Всемирной паутине. Большинство веб-страниц создаются при помощи языка HTML (или XHTML). Язык HTML интерпретируется браузерами и отображается в виде документа, в удобной для человека форме. HTML — теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками — тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки <br>). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге.

Гипертекст - это текст, имеющий ссылки на другие документы. При этом количество ссылок в одном документе неограничено. Понятие гипертекста тесно связано с WWW (World Wide Web). Но при этом гипертекст используется не только в веб. Классическим примером может служить энциклопедия, где он используется на текстовом уровне (в одной словарной статье есть ссылки на другие статьи).

Основная особенность гипертекстового до­кумента в том, что его можно просматривать, не только последователь­но, страницу за страницей, но и в произвольном порядке, перемещаясь по гиперссылкам.

Браузер обрабатывает HTML-файл последовательно, сверху вниз, и по мере обработки загруженного документа его содержимое отображается в окне браузера. По умолчанию текстовые гиперссылки выделяются при выво­де документа в окне браузера голубым цветом и (или) подчеркиванием. Веб-дизайнер (создатель документа) может использовать и другие средства для выделения ссылок на фоне статичного текста. В любом случае гиперссылка должна «реагировать», когда на нее попадает указатель мыши, - может изменяться цвет гиперссылки, стиль шрифта и т. д. Кроме того, при попадании на гиперссылку обычно видоизменяется указатель мыши.

При наличии в документе   графических иллюстраций, флэш-фильмов или другие «нетекстовых» элементов, браузер выполняет дополнительные действия, например, распознает формат рисунков. Если фор­мат оказывается «знаком» браузеру, то рисунок выводится на экран. Если в документе содержится флэш-фильм, то браузер вызывает дополнительную программу, предназначенную для воспроизведения такого фильма, — флэш-плеер. Аналогичные действия выполняются и при об­наружении на странице ссылки на звуковой файл. Все «нетекстовые» элементы документа хранят­ся в отдельных файлах, а непосредственно в HTML-файле присутствуют лишь команды вызова этих элементов. Поэтому если какой-то из таких файлов окажется недоступным или «непонятным» браузеру, в документе на месте отсутствующего элемента останется пустая область.

Текстовая информация.

TXT - самый старый и простой по возможностям формат, он позволяет производить ввод текста и сохранять разбиение на абзацы. Эта простота в определенных ситуациях приобретает значимость универсальности и прозрачности: легко доступен для чтения в разных приложениях и на разных платформах. Кроме того, многие программы, не имеющие своей непосредственной задачей работу с текстом, позволяют сохранять текст в формате TXT.

RTF (Rich Text Format) – представляет собой текст, размеченный с помощью специальных «управляющих слов», что дает возможность производить и сохранять достаточно сложное форматирование, вставлять сноски, колонтитулы, рисунки, таблицы и формулы, хотя в обработке этих дополнительных объектов RTF уступает формату DOC. Уступает он DOC и в объеме файлов - использование для форматирования текста «управляющих слов» вместо стилевой таблицы не приводит к компактности. RTF является более защищённым, т.к. его внутренняя организация не предусматривает хранения макрокода и, следовательно, неуязвима для макровирусов.

DOC, DOCX – формат, имеющий самые широкие возможности обработки и форматирования текста. Позволяет создавать сноски и комментарии, а также размещение и редактирование таблиц, диаграмм, изображений и других элементов. В полном объеме и наиболее корректно все эти возможности реализованы только в MS Word.  Сторонние программы не всегда корректно распознают данный формат. В отличие от TXT и RTF, DOC является бинарным форматом, что делает его нечитабельным в простых текстовых редакторах и, более того, не обеспечивает полной совместимости его собственных версий.

 

Графическая информация

Не останавливаясь подробно на векторных и растровых форматах, классифицируем их.

Растровое изображение - представляет собой сетку пикселей или цветных точек (обычно прямоугольную) на компьютерном мониторе, бумаге и других отображающих устройствах и материалах.

Форматы растровой графики: BMP, DjVu, GIF, HD Photo, ICO, ILBM, JBIG, JBIG2, JPEG, JPEG 2000, JPEG-LS, OpenEXR, PCX, PNG, PSD, Portable anymap, RAW, TGA, TIFF, WBMP.

Векторная графика — представление объектов и изображений в компьютерной графике, основанное на использовании геометрических примитивов (точки, линии, сплайны и многоугольники).

Форматы векторной графики: AI, EMF, EPS, PDF, XPS, PostScript, SVG, WMF, CDR.

Более подробно следует проанализировать комплексные форматы PDF и DJVU.

PDF относится к графическим кроссплатформенным форматам электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь, формат предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, а также программы сторонних разработчиков. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ, как таковой, готовится в своей специализированной программе — графической программе или текстовом редакторе и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п.

DJVU - графический формат (произносится Дежавю) разработан фирмой AT&T в первую очередь для размещения в сети Интернет сканированных изображений. Это могут быть книги, рукописи, изображения и многое другое. Его уникальной особенностью является чрезвычайно высокая компактность файла данных при хранении изображений в высоком разрешении от 300 DPI и выше. Кроме того, этот формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать еще до завершения скачивания. Таким образом DJVU является уникальным инструментом для открытия онлайн доступа к фондам обычных, бумажных библиотек.

Для получения представления о данном формате следует рассмотреть алгоритмы преобразования информации: алгоритм отделения текста от фона на отсканированном изображении; вейвлетный алгоритм сжатия фона IW44; мощный алгоритм сжатия черно-белых изображений JB2; эффективный универсальный алгоритм сжатия ZP; алгоритм распаковки "по запросу"; алгоритм "маскировки" изображений.

Первые четыре перечисленных алгоритма обеспечивают чрезвычайно высокую степень сжатия. Типичным является преобразование tiff-файла размером 25Мб, созданного при сканировании листа форматом А4 на цветном сканере с разрешением 300 DPI в DJVU файл размером 80Кб, без видимой на глаз потери качества. Для черно-белого изображения, размер DJVU файла может получиться еще меньше - примерно 30Кб. Возможно дальнейшее повышение коэффициента сжатия, вплоть до отношения 1000:1, правда потеря качества становится довольно заметной. Искажения, вносимые вейвлетным сжатием, менее заметны по сравнению с искажениями при сжатии в JPEG файлах.

Изображения, которые не содержат текст, могут быть преобразованы в формат IW4, который соответствует части формата DJVU ответственной за хранение фона.

В новой версии DJVU 2.0 предусмотрено объединение нескольких изображений в один файл, с возможностью "перелистывания" страниц, а также нанесении на изображение так называемых "горячих точек", участков изображения, служащих гиперссылками.

 

Аудио и видео информация

В настоящее время большинство аудио информации распространяется на электронных носителях или через Интернет, а, следовательно, к данным записям и трекам применим термин - цифровой аудиоформат. Цифровой аудио формат — формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых носителях. Внутри цифрового аудио файла, обычно формата .mp3, кроме звуковой информации имеется ID3-тег. Тег является информативной меткой в аудио- и видеофайлах, необходимой для описания и поиска звукозаписей по автору, названию альбома, времени создания, названию композиции, текстового комментария.

Цифровые форматы подразделяются по степени сжатия на следующие:

- аудиоформаты без сжатия, такие как AIFF, AU, CDDA (стандарт для аудио CD), IFF-8SVX (Interchange File Format), IFF-16SV, RAW, WAV (Microsoft Wave/Waveform audio format).

- аудиоформаты со сжатием без потерь: FLAC (свободный кодек из проекта Ogg), la (Lossless Audio), LPAC или .pac (Lossless Predictive Audio Compression), .m4a (Apple Lossless), .ape (Monkey's Audio), .ofr (OptimFROG), .rka (RKAU), .shn (Shorten), TTA (True Audio, свободный кодек), TAK (Toms lossless Audio Kompressor), .wv (WavPack), .wma (Windows Media Audio 9 Lossless), ADX (формат звука с максимальным битрейтом в 1 Гбит/с)

- аудиоформаты, с применением сжатия с потерями: MP2 (MPEG Layer 2), MP3 (MPEG Layer 3), Speex (проект Ogg, сжатие голоса, низкий битрейт), Vorbis (проект Ogg, свободен и похож по принципам на MP3), GSM-FR (GSM Full Rate, изначально для сотовых телефонов), WMA (Windows Media Audio), AAC включающий .m4a, .mp4, .m4p, .aac (Advanced Audio Coding, часто в контейнере MPEG-4), RA и RM (RealAudio)

Видео формат - определяет структуру видео файла, способ хранения файла на носителе информации (CD, DVD, жестком диске или канале связи). Обычно разные форматы имеют различные расширения файла (*.avi, *. mpg, *.mov и др.).

ASF (Active Streaming Format) - потоковый формат от Microsoft.

AVI (Audio-Video Interleaved) разработан Microsoft для хранения и воспроизведения видеороликов, представляет собой контейнер, в котором может быть что угодно, начиная от MPEG1 и заканчивая MPEG4. Он может содержать в себе потоки 4 типов - Video, Audio, MIDI, Text. Причем видеопоток может быть только один, тогда как аудио - несколько. В частности, AVI может содержать и только один поток - либо видео, либо аудио. Сам формат AVI не накладывает совершенно никаких ограничений на тип используемого кодека, ни для видео, ни для аудио - они могут быть любыми. Таким образом, в AVI файлах могут совершенно спокойно сочетаться любые видео - и аудиокодеки.

MOV - Формат Apple Quicktime, может содержать любой кодек, CBR или VBR. Обычно у них расширение .QT или .MOV.

WMV (Windows Media Video) - Видеофайл, записанный в формате Windows Media.

3gp (сокращение от англ. 3rd generation (mobile) phone - (мобильные) телефоны третьего поколения); видеофайлы для мобильных телефонов 3-го поколения. Некоторые современные мобильные телефоны (не обязательно 3G) имеют функции записи и просмотра аудио и видео в формате .3GP. Готовые видео ролики в формате 3gp имеют малый размер по сравнению с другими форматами видео, но, к сожалению, это сильно отражается на качестве (оно очень низкое).

Форматы цифрового кодирования и сжатия.

MPG (Moving Pictures Experts Group) - видеофайл, в котором содержится видео, закодированные:

Mpeg1 - стандарт разработан в 1992 году с учетом возможностей 2-х скоростных CD-ROM и 486 компьютеров.

Mpeg2 - стандарт принят в 1994 году. Первично разрабатывался для цифровой передачи видео вещательного качества. Используется в DVD, цифровом TV и HDTV.

Mpeg3 - для телевидения высокой чёткости (HDTV), но позже стал частью стандарта Mpeg2 и отдельно теперь не упоминается.

Mpeg4 (распространено краткое написание MP4) - стандарт рассчитан на очень низкие потоки данных для применения в видеотелефонах, мультимедийной электронной почте, электронных информационных изданиях и т.п.

DivX (Digital video express) - кодек стандарта Mpeg4. С Версии 5 стал платным (для кодирования).

Xvid (ранее XviD) - библиотека сжатия видео стандарта Mpeg4.

Xvid является основным конкурентом кодека DivX Pro (Xvid это DivX наоборот). В противоположность кодеку DivX - проприетарному программному обеспечению, разработанному компанией DivX, Inc., Xvid это свободная программа, распространяемая под лицензией GNU General Public License.

FLV (Flash Video) - формат файлов, используемый для передачи видео через Интернет. Используется такими сервисами, как YouTube, Google Video, RuTube, Tube.BY, Муви, Obivu и другими. Хотя описание формата контейнера было открыто, кодеки защищены патентами.

Файлы в формате FLV можно просматривать в большинстве операционных систем, поскольку он использует широко распространённый Adobe Flash и плагины к большинству браузеров, а также поддерживается многими программами для воспроизведения видео, например, MPlayer, VLC media player, Media Player Classic и другими программами, работающими с помощью DirectShow. Mpeg7 - это не логическое продолжение Mpeg4, просто разработка той же группы MPEG (Moving Picture Experts Group) для Интернета. Здесь вводится специализированный язык DDL (Description Definition Language - язык описания определений).

 

Архивные файлы

Для уменьшения размера все файлы вне зависимости от формата возможно архивировать. Термин «архивация» обозначает процесс сжатия файла (уменьшение размера в байтах) с помощью специальных программ (архиваторов) для хранения информации. Для работы с данными файлами подходит условно-бесплатная программа WinRAR (скачать её можно с сайта производителя), она поддерживает все популярные форматы архивов (RAR, ZIP, CAB, ARJ, LZH, ACE, TAR, GZip, UUE, ISO, BZIP2, Z и 7-Zip).

Архивный файл представляет собой набор из нескольких файлов (одного файла), помещенных в сжатом виде в единый файл, из которого их можно при необходимости извлечь в первоначальном виде. Архивный файл содержит оглавление, позволяющее узнать имя файла, размер файла на диске и в архиве, сведения о местонахождении файла на диске, дату и время последней модификации файла, код циклического контроля для файла (проверка целостности архива), степень сжатия.

Архивация информации проводится в следующих случаях:

- когда необходимо создать резервные копии наиболее ценных файлов;

- когда необходимо освободить место на диске;

- когда необходимо передать файлы по E-mail;

- в некоторых других.

Любой из архивов имеет свою степень сжатия: Без сжатия (соответствует обычному копированию файлов в архив без сжатия), Скоростной, Быстрый (характеризуется самым быстрым, но наименее плотным сжатием), Обычный, Хороший, Максимальный (максимально возможное сжатие является одновременно и самым медленным методом сжатия).

Основное преимущество формата ZIP - его популярность. Например, большинство архивов в Internet – это архивы ZIP. Поэтому приложение к электронной почте лучше всего направлять в формате ZIP. Можно также направить самораспаковывающийся архив. Такой архив является немного большим, но может быть извлечен без внешних программ. Другое преимущество ZIP - скорость. Архив ZIP обычно создается быстрее, чем RAR.

Формат RAR в большинстве случаев обеспечивает значительно лучшее сжатие, чем ZIP. Кроме того, формат RAR обеспечивает поддержку многотомных архивов, имеет средства восстановления поврежденных файлов, архивирует файлы практически неограниченных размеров. Необходимо отметить, что при работе в файловой системе FAT32 архивы могу достигать только 4 гигабайт. Работа с большими размерами архива поддерживается только в файловой системе NTFS.

Приведём примеры программ для архивации и работы с архивированными файлами:

Программа WinRAR (http://www.rarlab.com/)

Возможности можно охарактеризовать следующим образом:

- программа WinRAR позволяет распаковывать архивы CAB, ARJ, LZH, TAR, GZ, ACE, UUE, BZ2, JAR, ISO, и обеспечивает архивирование данных в форматы ZIP и RAR;

- обеспечивает полную поддержку архивов ZIP и RAR; имеет специальные алгоритмы, оптимизированные для текста и графики; для мультимедиа можно использовать только сжатие с форматом RAR;

- поддерживает технологию перетаскивания (drag & drop);

- создает самораспаковывающиеся архивы (SFX), обычные и многотомные архивы, обеспечивает защиту их паролями;

- обеспечивает восстановление физически поврежденных архивов;

- имеет средства восстановления, позволяющие восстанавливать отсутствующие части многотомного архива;

- поддерживает UNICODE в именах файлов.

7-Zip. Русскоязычная локация сайта находится по адресу: http://7-zip.org.ua/ru/

Из преимуществ следует отметить:

- высокую степень сжатия благодаря новому формату 7z с алгоритмом компрессии LZMA.

- возможность архивирования / разархивирования форматов: 7z, ZIP, GZIP, BZIP2 и TAR; только разархивирование форматов: ARJ, CAB, CHM, CPIO, DEB, DMG, HFS, ISO, LZH, LZMA, MSI, NSIS, RAR, RPM, UDF, WIM, XAR и Z.

- возможность организации самораспаковывающегося архива для формата 7z.


 

Скачано с www.znanio.ru