Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Базовые информационные технологии
Технология обработки документов
Часть 1
1.1.1 Структура документа:
Логическая структура документа определяет его составные части и их отношение. Например, составными частями документа могут являться авторские данные, аннотация, оглавление, главы, разделы, параграфы рисунки сноски.
Физическая макетная структура, которая содержит описание терминов физических единиц: страниц, полос, колонтитулов, рамок для рисунков и т.д. Моделирование определений выполняется с одним из двух стандартов: ISO 8613( ODA Office Document Architecture) ; ISO 8879( SGML Standart Generalized Markup language).
1.1.2. Языки разметки документов
Разметка - дополнительная информация, включаемая в документ и выполняющая функции: выделение логических элементов документа и определение особенностей обработки выделенных элементов документа.
Виды разметки: командная (процедурная) и описательная. Командный подход заключается в использовании команд аналогичных командам размещения информации на печатающем устройстве. Пример: Escape последовательности, использованные разработчиками Epson. Описательная разметка заключается в использование меток(Tags), отмечающих начало и окончание элемента текста и способ интерпретации элемента, внешнее представление документа формируется процедурами обработки разметки и соответственно может изменяться в зависимости от реализации этих процедур. Развитие языков описательной разметки привело к их формализации, что позволяет автоматизировать обработку документов, использующих разметку, в первую очередь проверку и восстановление синтаксической корректности. Основным отличием описательной разметки является ориентированность на маркирование элементов документа не по критерию обработки (как отображать), а по критерию содержания (чем является). В результате по мере развития технологий элементы разметки начинают использоваться так, как не предполагалось ранее. На практике в современной системе разметки встречаются элементы и командной, и описательной разметки. Современные системы описательной разметки рассматривают документы как иерархические древовидные структуры, а также обеспечивают некоторые средства для встроенных перекрестных ссылок, поэтому такие документы рассматриваются, как слабо структурированные базы данных.
1.1.3. RUNOFF:
Первая система форматирование текстов, получившая широкую известность. Была разработана в 1964 году Салтзером Дж. Х. для операционной системы CTSS. В продукт входили: редактор документа TYPSET и процессор вывода RUNOFF. Поддерживалось разбиение на страницы, размещение заголовков и выравнивание текстов.
1.1.4. TEX:
Система разработана Д. Кнутом. Основные цели разработки: 1) Минимизация трудозатрат пользователя, создающего высококачественную печатную продукцию преимущественно научного направления; 2) Инвариантность (одинаковость) результатов использования системы на различных компьютерах. Одним из основных преимуществ стала возможность включать в текст математические формулы путем использования символов форматирования, сходных с обозначением математических операций и функций, используемых в языках программирования. Общий базовый вариант TEX включает приблизительно 300 команд. Вариант, разработанный Кнутом - Plan Tex - добавляет около 600 команд. Довольно широко используется вариант, разработанный Лампортом Latex, в который включены …?. AMS-TEX (American Mathematical Society), TEX при обработки файла, соответствующего формата получает файл формата DVI. Фалы DVI могут напечатаны из средств просмотра интерактивной цифровой видео системы или преобразованных в файлы других общих форматов(PostScript, PDF). В большинстве областей научно технический читательской деятельности TEX стал стандартом де - факто.
1.1.5 PostScript
Был разработан в 1976 году Джоном Воноком. Целью разработки было совмещение достоинств матричной и векторной технологии внедрения информации.
Матричные печатающие устройства первоначально предназначались для вывода текстовой информации и стали альтернативой тИповым принтерам. тИповые принтеры использовали технологию печати печатных машин, то есть пользовались только фиксированным шрифтом; матричные принтеры формировали изображение каждого символа как совокупность точек, это позволяло печатать текст различными шрифтами, настраиваемыми или загружаемыми в принтер, в дальнейшем матричные принтеры стали обрабатывать специальные escape-последовательности, содержащие наборы точек, то есть предоставили возможность печати растровой графики.
Устройства вывода векторной графики (плоттеры или графопостроители) обрабатывали команды перемещения пишущего узла, что позволяло эффективно и качественно формировать чертежи. Достоинством векторной графики является то, что любое изображение, в том числе изображение символа шрифта, формируется путем рисования кривых, в результате чего изображение выглядит одинаково при любом масштабе и не проявляется лестничный эффект растрилизации.
PostScript представляет любые изображения в виде совокупности прямых и кубических прямых Безье( cubic Bezier Curves), позволяет их вращать, масштабировать, осуществлять другие преобразования и растрилизовать. Интерпретаторы PostScript документов, выполняющие их растеризацию для вывода на любое устройство называют RIP (Raster Image Processor). Интерпретатор может быть реализован аппаратно или программно. Документ на языке PostScript представляет программу, использующую графические операторы. Запись выражения осуществляется в польской нотации RPN (Reverse Polish Notation). PostScript может быть написан вручную, но как правило формируется программно. Основные три способа использования PostScript документа при печати:
1) использование PostScript принтера, обрабатывающего непосредственно команды языка аппаратно;
2) использование аппаратного PostScipt адаптера не к PostScipt принтеру, выполняющему функции обработки PostScript команд и передачи в принтер простеризованного изображения;
3) Использование программного драйвера GhostScript, выполняющего аналогичную функцию.
1.1.6. PDF Portable Document Format.
Был разработан в начале каких годов фирмой Adobe, владевшим на то время форматом PostScipt, формат PDF основан на использовании трех технологий:
1) подмножество языка PostScipt;
2) Система встраивания и замена шрифтов;
3) структурированная система хранения.
1.1.7. SDML Standard Generalized Markup Language.
SGML представляет собой метод создания структурированных документов и языков их разметки. В язык SGML каждый документ имеет три части: декларации (объявления, определения, привязывающие к определенным значениям параметры обработки и имена синтаксиса), пролог и данные, состоящие из разметки документы и собственно информации. Основные типы конструкций языка: описание элементов, начинающихся со служебного слова <!ELEMENT…>, описания объектов, со служебного слова <!ENTITY….>, описание атрибутов, со служебного слова <!ATTLIST…>. Документ это основанная компонента документа, объект это группа или род документа, атрибут характеристика документа. Декларации и пролог на языке SGML задают структуру документа и, будучи отделены от размеченного текста, образуют описание типа элемента DTD document Type Definition. Тип документа объявляется в документе путем включения DTD фрагмента или ссылки на DTD файл.
<!DOCTYPE type [<!ENTITY greeting «helloworld»>]>
<!DOCTYPE html Public “//w3c//DTD xhtml 1.0 Transitional//EN”http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd>
См инет
См инет
SGML был стандартизирован в 1986 году как ISO 8879
1.1.8. HTML hyper text markup language.
Синтаксис HTML описывается в DTD. HTML ориентирован на решение следующих задач: описание структуры документов (заголовки, шрифты, списки, таблицы и прочие), создание гипертекстовых ссылок для управления навигацией в локальных и глобальных сетях, реализация пользовательских интерфейсов. Базовые элементы HTML документа HEAD u BODY, BODY содержит всю информацию составляющую документ, называемую контентом. HEAD содержит информацию только о документе. В HTML имеются следующие средства настройки отображения текстовой информации: маркирование заголовков H1…H6, физическая разметка I B U STRIKE BIG SMALL SUB SUP и тд, логическая разметка EM STRONG CODE SAMP VAR(имена переменных). Dl список определений. Th заголовок таблицы, Thead выделенный заголовок.
1.1.9. XML eXtensible Markup Language.
XML возник как альтернатива SGML. Поскольку SGML планировался как универсальный язык, его недостатками оказались сложность и громоздкость. Как и SGML XML ориентирован на написание пользователем собственных тегов, то есть является META языком. При чем XML разрабатывалcя как подмножество SGML в результате чего любой документ XML является документом SGML.
1.1.10. XHTML eXtensible hyper text markup language.
С января 2000 года все рекомендации в этой си для HTML основываются на XML, а не на SGML. HTML удовлетворяющая этим спецификациям называется XHTML, есть ряд отличий XHTML от HTML, основными из них является требование закрытости тегов и требование заключения атрибутов в кавычки. На XML основано множество приложений, среди них отметим следующие: 1) Frame work( RDF);
2) Rforms;
3) DocBook;
4) Open Document;
5) Antology Language.
Устоявшийся термин приложения XML означает не программное приложение, а языковую спецификацию, основанную на XML и ориентированную на решение задач некоторого класса. Как и SGML XML использует определения элементов данных, нотации DTD.
1.1.11 Синтаксис XML.
XML начинается с тега <?xml?>, внутри которого могут быть указаны номер версии языка, номер кодовой страницы и некоторые другие параметры. Основной структурной единицей является элемент, содержимым элементов может быть, как некоторый текст, так и другие вложенные элементы, тип элемента определяется в DTD директивой <!ELEMENT>. Элемент может иметь атрибуты, атрибуты указываются в начальном теге элемента в формате название = « значение ». Список атрибутов элемента определяется в DTD директивы <!ATTLIST>, определение атрибутов состоит из имени типа, а также необязательных параметров. Существуют следующие типы атрибутов: 1) CDATA( любые символьные данные);
2) ID(идентификатор элемента в документе);
3) IDREF(название(несколько названий, разделенных пробелами, уникального идентификатора элемента));
4) ENTITY(S);
5) NMTOKEN(инет).
Список допустимых значений(синтаксис смотреть выше):
Наиболее часто директивы анализатора используются при определении типа документа, например, <?xml version = “1.0”?>. При помощи инструкции CDATA в документ помещается текст, который анализатор будет рассматривать, как простой текст, игнорируя любые инструкции и специальные символы. Открывающие и закрывающие теги: <![CDATA]…]]>.
В течение ряда последних лет происходит отказ от использования xml, переход на описание на языке DDT. Причины:
1) В DDT используется от xml синтаксис;
2) Отсутствует типизация узлов;
3) Отсутствует поддержка пространства имен.
В качестве наследника DDT, избавленного от его недостатков, консорциумом в этой си был разработан язык XML Schema. Пример схемы:
<xsd:schema xmlns^xsd=http://www.w3.org/2001/XMLSchema> {кому нужно, изменят цвет и размер}
<xsd:annotation>
<xsd:documentation xml:lang=”en”>
Some annotation
</xsd:documentation>
</xsd:annotation?
<xsd:element name=”purschaseOrder” type=”purscheseOrderType”/>
<xsd:element name = “comment” type=”xsd:string”/>
<xsd:ComplexType name=PurschaseOrderType”>
<xsd:sequence>
<xsd:element name=”shipTo” type=”UsAddress/>
<xsd:element ref=comment minOccurs=O/>
<xsd:element name=”items” type=”Items”/>
</xsd:sequence>
<xsd:attribute name”OrderDate” type=”xsd:date”/>
</xsd:complexType>
<xsd:coplexType nam=”USAddress”>
<xsd:sequence>
<xsd:element name=” Zip” type=”xsd:decimal”/>
</xsd:sequence>
<xsd:attribute name=”country” type=”xsd:NMTOKEN” fixed=”US”/>
</xsd:complexType>
<xsd:coplexType name=”items”>
<xsd:sequence>
<xsd:element name=”item” minOccurs=”0” maxOccurs=”unBounted”>
<xsd:complexType>
<xsd:sequence>
<xsd:element name=”prodnetName” type=”xsd:string”/>
<xsd:element name=”quantity”>
<xsd:simpleType>
<xsd:restriction base=”xsd:positivInteger”>
<xsd:maxExclusive value=”100”/> <xsd:restriction>
<xsd:simpleType>
<xsd:element>
<xsd:element name=”USPrice” type=”xsd:decimal”/>
<xsd:element ref=”comment” minOccurs=”0”/>
<xsd:element name=”shipDate” type=”xsd:date” minOccurs=”0”/>
</xsd:sequence>
<xsd:attribute name=”partNum” type=”SKU” use=”required”/>
<xsd:complexType>
<xsd:element>
<xsd:sequence>
</xsd:complecType>
<xsd:SipleType name=”SKU”>
<xsd:restriction base=”xsd:string”>
<xsd:patter value=”\d{З} [A-Z]{2}”/>
<xsd:restriction>
</xsd:SimpleType>
</xsd:schema>
<?xml version=”1.0”?>
<purschaseOrder orderDate=”2010-20-20”>
<shipTo country=”US”>
<zip>90952</zip>
</shipTo>
<comment>Some comment</comment>
<items>
<item partName=”872-AA”>
<productName> Lawntower</productName>
<quality>1</quality>
<USPrise>14895</USPrise>
<comment>This is a lawntower</comment>
</item>
<item>
<item partNum=”926-AB”>
<productName> Baby Monitors</productName>
<quality>1</quality>
<USPrise>3998</USPrise>
<shipDate>2011-01-05</shipDate>
</item>
</items>
</purschaseOrder>
1.1.12. Doc book.
- Предназначен для хранения, описания технического назначения, в котором второстепенными являются возможности форматирования и оформления, а наиболее важными возможности структурирования и хранения текстовой информации.
Doc book был разработан фирмами Hal computer systems и OReilly & Associates в 1991 году, как расширение SGML. Впоследствии был переработан в соответствии со стандартом XML. В настоящее время Doc book поддерживается организацией Technical Committee, в которая является подразделением OASIS Organization for the Advancement of Structured Information Standards.
Документация многих известных проектов, в частности, Free BSD, KDE ,Gnome, Linux создавалась с использованием Doc book. В Doc book определены структурирующие теги: 1) <book>;
2) <chapter>;
3) <Para>;
4) <title>.
1.1.13 ODF Open Document Form.
- Форма, предназначенная для хранения электронного документа делового назначения, то есть включающего графику, таблицы, диаграммы, гиперссылки и т.д. Разработан OASIS, стандартизирован ISO/IEC 26300:2006.
Первоначально стандарт был реализован в Open Office org(офис стандартного назначения). ODF является альтернативой закрытым форматам(MS Office doc, xls, ppt) и рассматривается как компонент публичной политики.
Для документа ODF используются следующие расширения: 1) ODT(текстовый документ);
2) ODS(электронная таблица);
3) ODP(презентация);
4) ODG(графический инструмент);
ODF файл может быть либо xml - документом, либо zip архивом, содержащим структуру файлов и каталогов, представляющих собой контент документа.