Технология
<<  Электрохимические и Электрофизические методы обработки 5.5. Телекоммуникационные технологии  >>
Автоматическая обработка естественного языка
Автоматическая обработка естественного языка
XML — язык разметки структурированных (в т. Ч. Лингвистических) данных
XML — язык разметки структурированных (в т. Ч. Лингвистических) данных
XML, XSL, XYZ
XML, XSL, XYZ
Где прочитать
Где прочитать
XML = eXtensible Markup Language
XML = eXtensible Markup Language
Что такое XML
Что такое XML
Пример HTML
Пример HTML
1page
1page
Пример XML
Пример XML
...Вот что он описывает:
...Вот что он описывает:
Чем XML отличается от HTML
Чем XML отличается от HTML
Чем XML отличается от HTML
Чем XML отличается от HTML
Чем XML отличается от HTML
Чем XML отличается от HTML
Применения XML
Применения XML
Применения XML
Применения XML
Применения XML
Применения XML
Рекомендуемые XML-редакторы
Рекомендуемые XML-редакторы
Простой XML-документ
Простой XML-документ
Синтаксис XML
Синтаксис XML
Синтаксис XML
Синтаксис XML
Синтаксис XML
Синтаксис XML
Специальные символы
Специальные символы
Правильность документов
Правильность документов
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
Определение типа (DTD)
DTD и другие схемы
DTD и другие схемы
DTD и другие схемы
DTD и другие схемы
Продолжение — на w3schools
Продолжение — на w3schools

Презентация: «Автоматическая обработка естественного языка». Автор: NSFGrant. Файл: «Автоматическая обработка естественного языка.ppt». Размер zip-архива: 295 КБ.

Автоматическая обработка естественного языка

содержание презентации «Автоматическая обработка естественного языка.ppt»
СлайдТекст
1 Автоматическая обработка естественного языка

Автоматическая обработка естественного языка

I. Обработка письменного текста

2 XML — язык разметки структурированных (в т. Ч. Лингвистических) данных

XML — язык разметки структурированных (в т. Ч. Лингвистических) данных

А также XSL — язык для преобразования данных

3 XML, XSL, XYZ

XML, XSL, XYZ

..

Программа Что такое XML Назначение. Синтаксис Определение типа документов (DTD) Язык навигации по документу (XPath) Пространства имён (Namespaces) Преобразования документов (XSL)

4 Где прочитать

Где прочитать

http://en.wikipedia.org/wiki/Xml http://www.w3.org/XML/ — стандарты http://w3schools.com — простые пособия и тесты http://www.zvon.org/ — пособия, статьи и др. (на многих языках) http://www.raleigh.ru/tutorials/ — русские переводы нескольких пособий со ZVON.org

Что такое XML

5 XML = eXtensible Markup Language

XML = eXtensible Markup Language

Что такое XML

6 Что такое XML

Что такое XML

eXtensible Markup Language Extensible — расширяемый. Каждый пользователь приспосабливает его для своей задачи. XML внешне похож на HTML Это тоже язык разметки (HyperText Markup Language) Синтаксис обоих происходит от SGML (Standard Generalized Markup Language)

7 Пример HTML

Пример HTML

<html> <head> <title>Title of this page</title> </head> <body> <p>This is my first homepage.<br> <b>This text is bold.</b> And this is <b>bold <i>and italic</b>, wow</i>! </p> </body> </html>

8 1page

1page

htm

...Вот что из этого получается:

9 Пример XML

Пример XML

<?xml version="1.0" encoding="ISO-8859-1"?> <CHESSBOARD> <WHITEPIECES> <KING><POSITION COLUMN="G" ROW="1"/></KING> <BISHOP><POSITION COLUMN="D" ROW="6"/></BISHOP> <ROOK><POSITION COLUMN="E" ROW="1"/></ROOK> <PAWN><POSITION COLUMN="A" ROW="4"/></PAWN> <PAWN><POSITION COLUMN="B" ROW="3"/></PAWN> … </WHITEPIECES> <BLACKPIECES> <KING><POSITION COLUMN="B" ROW="6"/></KING> <QUEEN><POSITION COLUMN="A" ROW="7"/></QUEEN> <PAWN><POSITION COLUMN="A" ROW="5"/></PAWN> <PAWN><POSITION COLUMN="D" ROW="4"/></PAWN> </BLACKPIECES> </CHESSBOARD>

10 ...Вот что он описывает:

...Вот что он описывает:

11 Чем XML отличается от HTML

Чем XML отличается от HTML

Почти всем. Главное — назначением HTML используется для отображения данных в браузере. В нем смешаны элементы содержания и оформления. XML используется для хранения данных и описания их структуры. Он задаёт только содержание документа.

12 Чем XML отличается от HTML

Чем XML отличается от HTML

Гибкостью Тэги HTML и их значение жёстко заданы в спецификации. В спецификации XML фиксирован только синтаксис. Тэги XML и их значение задаются пользователем. Фактически, XML — это не один язык, а семейство языков, потому что каждый пользователь, придумывая свои тэги, задаёт свой язык.

13 Чем XML отличается от HTML

Чем XML отличается от HTML

Немного — синтаксисом Требования к синтаксису более строгие, что делает структуру документа более наглядной и облегчает автоматизацию его проверки и обработки

14 Применения XML

Применения XML

Обработка структурированных данных разработка веб-сайтов, системы управления содержанием (CMS); трансляции новостей (RSS) Google XML Sitemaps базы данных (Native XML DBMS и экспорт-импорт из других БД) создание и обработка метаданных (см. тж. Semantic Web) Dublin Core; OLAC, IMDI ведение технической документации (формат DocBook и др.) обработка текста и разметка мультимедиа OpenOffice.org 2.0+, MS Office 2007+ ELAN, Transcriber,…

15 Применения XML

Применения XML

Обработка структурированных данных Semantic Web — «надстройка» над Web’ом, с помощью метаданных описывающая свойства и содержание (сетевых) ресурсов и логические связи между ними. Цель — осмысленная машинная обработка информации, логические выводы и т. д. Semantic Web основан на модели RDF (Resource Description Framework), где все отношения описываются тройками «субъект-отношение-объект», а все элементы троек являются идентификаторами ресурсов (URI). Один из двух основных форматов записи RDF — RDF-XML.

16 Применения XML

Применения XML

Обмен данными между приложениями Программы, использующие разные внутренние форматы, могут успешно обмениваться данными в XML. промышленная разработка и производство электронная коммерция (business2business, business2consumer) Amazon Web Services лингвистика: Fieldworks (БД) => XML => ELAN Обмен данными с портативными устройствами Некоторые сферы применения XML Scalable Vector Graphics (SVG) (векторная графика); SMIL (Synchronized Multimedia Integration Language); VoiceXML (команды программ речевого интерфейса); MusicXML (музыкальные партитуры); ebXML (electronic business XML); Chemical Markup Languge; Structured Product Labeling (фармакология);…

17 Рекомендуемые XML-редакторы

Рекомендуемые XML-редакторы

http://www.firstobject.com foxe — firstobject XML editor (.exe в архиве .zip, не требует установки) Очень простой и быстрый редактор. Поддерживает Юникод. Имеется валидатор. http://www.freexmleditor.com/ Exchanger XML Lite V3.2 (требует установки, понадобится для выполнения заданий по XSL) Полнофункциональный редактор XML/XSL с отладчиком для XSL-трансформаций. Увы, давно не обновлялся.

18 Простой XML-документ

Простой XML-документ

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE booklist SYSTEM "books-1.dtd"> <booklist> <book> <author>А.А. Зализняк</author> <title>Древнерусские энклитики</title> <city>Москва</city> <year>2008</year> </book> <book> <author>J.K. Rowling</author> <title>Harry Potter and the Secret Chamber</title> <city>New York</city> <year>2005</year> </book> </booklist>

19 Синтаксис XML

Синтаксис XML

Основные понятия: документ (? файл) элемент <KING> <POSITION COLUMN="G" ROW="1"/> </KING> атрибут .. COLUMN="G" ..

20 Синтаксис XML

Синтаксис XML

Каждый документ должен иметь ровно один корневой элемент У каждого открывающего тэга должен быть закрывающий Тэги должны быть правильно вложены друг в друга Значения атрибутов обязательно берутся в кавычки Регистр символов в именах важен!

21 Синтаксис XML

Синтаксис XML

Имя элемента может: содержать буквы, цифры, подчеркивание, двоеточие или точку начинаться с только с буквы или подчеркивания кроме букв “xml” (в любом регистре) Значения атрибутов могут заключаться в (двойные прямые) кавычки либо апострофы. Одни могут использоваться внутри других: <xsl:param name="file" select="'books.xml'"/> <xsl:param name='file' select='"books.xml"'/>

22 Специальные символы

Специальные символы

Entities В тексте элемента не могут использоваться специальные символы разметки: < и &. Они должны заменяться на &lt; и &amp;. Также определены: &gt; > &quot; " &apos; ' CDATA sections Если необходимо вставить в документ фрагмент текста, содержащий много спецсимволов, используется конструкция CDATA (Character Data). Парсер игнорирует всё до символов ]]>: <example> <![CDATA[ <%aaa%>bb&cc<<dd ]]> </example>

23 Правильность документов

Правильность документов

XML-документ, отвечающий требованиям синтаксиса, называется правильно построенным (well-formed). Правильно построенные документы успешно обрабатываются парсером. Однако, эта характеристика ничего не говорит о содержании документа — осмысленно ли оно? Знаем ли мы, что означают его элементы и атрибуты?

24 Определение типа (DTD)

Определение типа (DTD)

DTD — Document Type Definition Задаёт возможную структуру для некоторого типа XML-документов (т. е. задаёт один возможный язык) как могут называться элементы как они могут друг в друга вкладываться какие у каждого элемента могут быть атрибуты Документ, отвечающий некоторому DTD, называется действительным (valid). Этот вид правильности проверяется валидатором.

25 Определение типа (DTD)

Определение типа (DTD)

<?xml version="1.0" encoding="UTF-8"?> <!ELEMENT booklist (book*) > <!ELEMENT book (author, title, city, year)> <!ELEMENT author (#PCDATA)> <!ELEMENT title (#PCDATA)> <!ELEMENT city (#PCDATA)> <!ELEMENT year (#PCDATA)>

26 Определение типа (DTD)

Определение типа (DTD)

Содержимое элементов <!ELEMENT book (author, title, city, year)> author, title — последовательность author|title — выбор (или — или) EMPTY — пустой элемент ANY — любая комбинация допустимых типов #PCDATA — текстовое содержание (Parsed Character Data: оно анализируется парсером, так как потенциально может содержать вложенные элементы)

Список дочерних элементов

27 Определение типа (DTD)

Определение типа (DTD)

Количество повторений элемента <!ELEMENT booklist (book*) > book — 1, обязательный book? — 1, необязательный (0 или 1) book+ — 1 или больше (сколько угодно) book* — 0 или больше (сколько угодно) Добавим в book необязательный элемент publisher? (издательство)

28 Определение типа (DTD)

Определение типа (DTD)

Добавляем атрибуты В документ: <book lang="rus" bookid="AAZ01"> <author>А.А. Зализняк</author> … </book> В DTD: <!ATTLIST book lang CDATA #IMPLIED bookid ID #REQUIRED>

Имя атрибута

29 Определение типа (DTD)

Определение типа (DTD)

Типы атрибутов <!ATTLIST book lang CDATA #IMPLIED bookid ID #REQUIRED genre (fiction|nonfiction) #IMPLIED> (..|..) — одно из перечисленных значений CDATA — простой текст (Character Data) ID — идентификатор (значение не может повторяться) IDREF — ссылка на идентификатор другого элемента …и некоторые другие

30 Определение типа (DTD)

Определение типа (DTD)

Значения атрибутов по умолчанию <!ATTLIST book lang CDATA "eng" bookid ID #REQUIRED genre (fiction|nonfiction) #IMPLIED> либо значение по умолчанию, либо: #IMPLIED — атрибут необязателен #REQUIRED — атрибут обязателен #FIXED значение — значение неизменно

31 DTD и другие схемы

DTD и другие схемы

DTD — только один из видов схем для описания структуры XML-документов. Может встраиваться в описываемый документ. Компактные размеры. Поддерживается большинством парсеров. Синтаксис отличен от XML. Ограниченные возможности. Не поддерживает пространства имён. Не поддерживает типы данных.

32 DTD и другие схемы

DTD и другие схемы

В серьезных проектах чаще применяются более сложные и выразительные средства, в особенности два: XML Schema Синтаксис XML. Развернутая система типов данных, но не расширяемая. Громоздкая запись. Легко описать фиксированное число (диапазон) повторений элемента/группы. Relax NG Два варианта синтаксиса: XML и компактный, полностью переводимые друг в друга. Редуцированная система типов данных, но с возможностями расширения. Допускает группы с нефиксированным порядком элементов. Атрибуты могут использоваться при моделировании структуры документа наравне с элементами. Например, наличие дочернего элемента может зависеть от определенного значения атрибута.

33 Продолжение — на w3schools

Продолжение — на w3schools

com (и не только)

Тест на основные понятия http://w3schools.com/xml/xml_quiz.asp Учебники по XML и другим технологиям (XPath, XSLT и др.)

«Автоматическая обработка естественного языка»
http://900igr.net/prezentacija/tekhnologija/avtomaticheskaja-obrabotka-estestvennogo-jazyka-82586.html
cсылка на страницу

Технология

32 презентации о технологии
Урок

Технология

35 тем
Слайды
900igr.net > Презентации по технологии > Технология > Автоматическая обработка естественного языка