Что можно делать с текстом
- Машинный перевод
- Автоматизация подготовки и редактирования текстов
- Реферирование и комментирование
- Генерация
- Искать его
- Извлекать из него информацию
- Распознавание и синтез
- Анализ мнений по текстам
- Формирование ответов на вопросы
- Обучение естественному языку
Машинный перевод: начало исследований
Началось примерно в 50-е годы.
- В 1954 году – ДжорджТаунский эксперимент (состоялся в Нью-Йорке, лол). Продемонстрирован перевод. Словарь состоял из 250 слов. Пословный перевод.
- В России началось в 1955. При Академии наук СССР состоялся перевод текста по ПриМату. Словарь – 2300 слов. Передано в инст Келдыша. Выполнялся на основе IBM-MarkII. Приостановлено в 60-е годы.
- В 1967 АкНаук США тоже забила. Новый подъем в 70-е.
- В 80-е МашПеревод стал экономически выгодным, за счет дешевизны машинного времени.
История:
Первые модели машинного перевода: пословная и пословно-оборотная.
Позже – пофразный перевод: использовался синтаксический анализ.
Анализ «трансфер-синтез»; появление промышленного переводчика SysTrain (США,1970), переводившего научно-технические тексты.
Появление многоязычных систем, использование языков-посредников. В СССР – Нерпа, Фрап и Ампар. Канада – ТаумМедиа для перевода метеосводок.
80-90-е Многояз. системы уже опирались на лексические и терминологические БД + доработки языков-посредников
90-е: исп. статистики и корпусов текстов (Google) и работа в реальном масштабе.
Оценка систем машинного перевода
- Оценивается понятность и адекватность перевода
- Грамматическая правильность предложений
- Семантическая связность текста
Современное состояние машинного перевода
- Появилось большое количество коммерческих систем (Эбби, ПРОМТ).
- Удовлетворительного качества перевода до сих по нет
- Проблема полностью автоматического перевода текста не разрешена
- Нерешенное: многовариантность синтаксического анализа, необходимость подключения семантики, межфразовые связи в тексте и единое понятийное пространство.
Информационный поиск
Тоже начали заниматься с 50х годов.
Основные понятия:
- Поисковый образ документа на естественном языке или ключевые слова;
- Запрос на поиск документа;
- Результат поиска – релевантные документы;
- Поисковая оптимизация;
- Корпоративные информационные системы;
- Полнотекстовый поиск: анализ всего текста;
- Индексирование документа на естественном языке – выделение ключевых слов/словосочетаний: вручную человеком или автоматически; критерии: частота употребления слов или словосочетаний, лингвистический;
- Показатели качества поиска:
- Полнота (R) = число найденных правильных результатов/число возможных прав результатов
- Точность (P) = правильно найденное/все результаты
- Мера качества F= (2PR)/P+R;
Инф поиск. Смежные задачи
- Классификация текста
- Рубрицирование
- Кластеризация – создание близких по тематике подмножеств
Для решения этих задач исп методы машинного обучения.
Вопросно-ответные системы – относительно новая задача.
Примерная стратегия построения ответа:
- Определение типа вопроса и запрашиваемого понятия
- Построение запроса к Интернет-поисковику (не обязат)
- Извлечение из найдены документов нужной инфы
- Построение фразы ответа
Генерация текста: 90-е – 2000-е годы – самый пик
Особенности задачи:
- Автоматическое построение описаний на естественном языке инфы, представл в нетекстовой форме: рисунки, базы данных…
- Требуется нужный пользователю размер текста и аспект описания
Возможные формы ответов:
- Отчеты по БД
- Ответ на вопрос пользователя (объяснение устройства, комментарии по новым фактам в БД)
Методы генерации текста:
- Необходимы компьютерные модели, семантики и дискусы (речь)
- Теория RST – теория реферических отношений
Этапы (модули) генерации
- Структура и общее содержание текста
- Лингвистический модуль (оформление содержания), условность разделения
Примеры систем генерация текста
- Gossip – канадская разработка – генерация на англ языке аннотации протоколов ОС (анализ с целью защит от несанкц доступа)
3 этапа модулей обработки:
1. Отбор данных
2. Концептуализация
3. Лингвистический компонент
Автоматизация подготовки текста
- Автоматический перенос слов
- Коммерческие системы: проверка орфографии, частичная – синтаксиса и проверка сложности стиля
- Исследовательские разработки: правка неправильного употребления предлогов, описки и т.п.
Извлечение информации и знаний из текстов
Задачи:
- Построение словарей терминов и тезаурусов
- Текстовая аналитика
- Обучение по текстам: построение онтология
Примеры областей применения:
- Военно-морские операции
- Антитеррористическая деятельность
- Совместные разработки
- Экономическая аналитика
Специфика задачи - распознавание и выявление в тексте значимой инфы, объектов, понятий
Технологии изучения инфы:
- На основе лингвистических правил
- Машинное обучение
Проблема изучения инфы:
- Установление тождества
Лингвистические шаблоны позволяют повысить точность определения понятий
Элементы шаблонов:
- Словоформа, лексема
Извлечение терминов и связей.
Критерии:
- Статистические (частотные)
- Лингвистические (шаблоны)
Приложения:
- Построение глоссария и предметных указателей
- Построение онтологии и тезаурусов
- Навигация по терминам текстов
- Поддержка терминологич редактирования текстов
Opinion Mining
Похожа на Text Mining. Цели и методы близки к области извлечения инфы и знаний
Задачи:
- Выделение и суммирование мнений
- Оценка тональности текста
Язык, текст, основы лингвистики и теории ключевой коммуникации
Язык – знаковая система, предназначенная для порождения, передачи и хранения информации.
Различают человеческие языки:
- Естественные
- Искусственные (морзе)
- Жестовые
- Формальные (компьютерные)
- Язык животных
Информация, передаваемая языковыми средствами, всегда воплощается в некотором тексте.
В языке знак служит средством отражения того или иного элемента действительности
Ни одна система не существует изолированно.
Функция языковой системы служит для определения, хранения и обмена информацией.
Лингвистика – наука о естественном человеческом языке. Делится на научную и практическую.
Семиотика – наука о знаках
Грамматический словарь русского языка (словарь Зализняка) — составленный А. А. Зализняком словарь приблизительно 100 тыс. базовых словоформ русского языка с их полным морфологическим описанием. Основополагающий труд по морфологии, где впервые был предложен системный подход к описанию грамматических парадигм, включающих не только изменение буквенного состава слов, но и ударения.
Стили текстов:
- Художественный
- Научно-технический
- Публицистика
Онтология – база знаний специального типа, которая может читаться и пониматься, отчуждаться от разработчика и физически разделяться пользователями.
Онтологии и онтологические системы
Предпосылки возникновения онтологии:
- Необходимость систематизации знаний для использования
- Увеличение объемов информации
- Необходимость сокращения времени на поиск
- Чрезвычайная зашумленность информационных потоков
Технологии проектирования онтологий
Проектирование предполагает разработку содержания, включающего этапы спецификации, концептуализации, формализации, реализации и поддержки.
Концептуализация обеспечивает структурирование предметных знаний.
Формализация превращает концептуальную модель в формальную или вычислительную
На этапе Реализации онтология прогается на соответствующем языке представления знаний.
Поддержка включает действия, выполняемые одновременно с разработкой, без которых онтология не может быть построена.
Виды онтологий
- Онтологии представления: определяет концептуализацию, понятия и отношения, определенных в других типах онтологий, считаются конкретизацией понятий онтологии данного вида. Не зависят от конкретного ПО и могут использоваться для поддержки нескольких альтернативных теорий, но относящихся к одной конкретной области
- Общие (родовые) онтологии: затрагивают общие фундаментальные аспекты концептуализации (часть, причина, участие, представление)
- Промежуточные онтологии: содержатся общие понятия, характерные для одной предметной области
- Онтологии верхнего уровня: самые неподробные
- Онтологии задач: описывают определенную деятельность, используя словарь, введенный в общих, промежуточных онтологиях, а также онтологиях ПрО.
- Онтологии приложения: хранят данные о конкретных приложениях
Схема отношений между онтологиями
Операции над онтологиями
Операции можно разбить на 6 групп:
- Редактирование
- Алгебра онтологий
- Интеграция онтологий
- Агрегирование и декомпозиция
- Преобразование
- Сравнение и оценка
Операции по редактированию:
- Создание состоит из 4х этапов:
- Составление спецификаций (определяют область применения)
- Определение задач
- Разработка концептуализации (опр основных объектов ПрО)
- Формализация представляемых знаний
- При поддержке исп следующие операции
- Модификация
- Организация доступа
- Сохранение (хранение различны версий онтологии)
- Выпуск (помещение онтологии на сервер для онтологий
- Алгебра онтологий разработана для систем, основанных на знаниях. В основе построения таких систем лежит операция объединения. Композиция инф происходит по схеме:
- Поиск терминов, представляющих интерес для конкретной задачи
- Для найденных терминов на основании правил строятся отображения для извлечения и соединения контекстов.
- Данные в соединяемых онтологиях на основании отображений соединяются в общие для них контексты
- Контексты последовательно объединяются в результирующую онтологию
Состоит из операций пересечения, объединения и вычитания.
Онтологии могут использоваться в сфере инф безопасности для защиты данных и сохранения их.
Защита от террористов, ня.
Защита от плохих сайтов, ня.
Защита от наркоты, няша тема, ня.
Наше задание:
- Составить список слов, относящихся к теме
- Составить схему онтологии: понятия;
онтология состоит из:
- Предметная область агентов, обеспечивающих безопасность. Эти агенты гуглят информация и собирают в одном месте. Агент – это фильтр по сути.
- Анализирующий агент.
- Агент-координатор (составляет статистику и руководит 2мя предыдущими)
- Агент поиска
- Агент-интерфейс
- Принятие мер
Типы угроз
Какие угрозы в вашей ПрО:
Неплохо бы пользоваться Protege
Операции по интеграции онтологий
- Выборка – формирование внутренне согласованной части исх антологии для её включения в новую.
- Отсечение – удаление несущественных классов
- Установка соответствий между схожими понятиями. Задает отношения между антологиями посредством установки связи между конкретными понятиями в антологиях.
- Частичная согласованность – установление соответствий между онтологиями, поддерживающий эквивалентный логический вывод (вычисления), выполнимый для конкретных понятий
- Унификация. Итог этой операции – появление универсальной онтологии
Декомпозиция и агрегирование
Возможны следующие подходы к разбиению онтологии на модули:
- Разделение по области применения
- Разбиение по решаемой задаче
- Микротеории – набор высказываний, ограниченный областью применения
- Разбиение по контексту
- Составление (агрегирование) – конструирование онтологий
Операции по преобразованию
- Переформулирование – операция по преобразованию представлений к одной теории.
- Построение таксономий – древовидных структур. Формирование иерархической структуры
- Перевод – использование различных языков формализации
Операции по сравнению, проверке и оценке
Сравнение – установление степени соответствия между онтологиями (сравнение концептуальных структур и операций). Нужно ля определения степени переводимости одной онтологии в другую.
Концептуальные структуры могут находиться в след отношениях:
- Согласующиеся
- Соответствующие – одинаковые эл-ты в структуре.
- Конфликтующие – имеют одно имя, но разное содержание
- Противоречивые
Проверка – проверяет корректность и непротиворечивость
Оценка – выносится решение о соответствии онтологии её цели
Основные задачи, решаемые с помощью онтологии
Сферы применения:
- Поисковые системы
- Системы обучения
- Научные исследования
- Системный анализ ПрО
- Интегрирование данных и знаний
- Создание и использование баз знаний
- Создание систем, реализующих механизмы рассуждений
- Организация поиска по смыслу в текстовой информации
- Семантический поиск в Инете
- Представление смысла в метаданных об информационных ресурсе
Инструменты и инженерия антологии
Наиболее известные инструменты инженерии антологии:
OntoLingua – среда разработки, обеспечивающая коллективное использование, набор средств для создания и библиотеку модулей.
OntoEdit – среда разработки для проектирования приспособления и импорта моделей знаний для прикладных систем. Поддерживает многоязычность и множественное наследование
OilEd – рдактор онтологии, позволяющий строить при помощи Oil (Ontology inference layer). Ориентирован на www-представление.
Protégé – интегрированная среда редактирования баз знаний. Представляет наращиваемую архитектуру для создания основанных на знаниях систем пользователя.
Web-DESO – система, предназначенная для запила онтологии, описывающих некоторую ПрО.
Shcherbak.net
Методология организации знаний в онтологиях
METHONTOLOGY – включает процедуры жизн цикла, в основе системы знаний приняты:
а) глосорий терминов
б) Деревья классификации концептов
в) диаграмма бинарных отношений
OIL – основана на понятии классов и определении их подклассов и атрибутов
Loom – описываемые знания состоят из определений, правил, фактов и стандартов
JFACC – создана на основе Loom. Использовалась, как онтология для планирования полетов и составлена из разделов:
1)Система
2)Время
3)Объекты
4)Планы возд компании
5)Оружие
6)Обеспечение топливом
7)Авиация
8)Воздушные силы
9)Грамматика
DOOM – онтология состоит из терминов, обозначающих понятия, связи между ними и ограничениями.
PICSEL – Модель рассматривается, как отнесение к опр категориям объектов ПрО (с точки зрения юзверя)
ONIONS (лучки, ня) – модель базируется на понятиях уровня (события и протяженность; события включают в себя процессы, состояние, временные интервалы; протяженность содержит объекты и области), которые затем делятся на понятия, относящиеся к конкретной ПрО
Особенности реализации естественно-языковых система
Архитектура их построения
Структура диалога может рассматриваться на 3х уровнях:
- Глобальный: определяются общие св-ва решаемых пользователем задач
- Тематический: структура диалога завит от конкретно решаемой задачи
- Локальный уровень: рассматриваются конкретные шаги диалога (пара «действие-реакция»). Основные параметры структуры диалога на этом уровне:
А) Инициатор шага и вид инициирования (вид действия)
Б) Способ влияния действия на реакцию
В) Способ спецификации задач (подзадачи), решаемой на данном шаге.
Низкая эффективность традиционных средств общения в большинстве случаев вызвано тем, что не учитываются важнейшие особенности процесса общения. Они сводятся к след проблемам:
- Изменяемость
- Несовпадение взглядов на мир
- Связанность общения
- Неправильность высказывания пользователя
Традиционные ср-ва общения не позволяют обеспечить взаимодействие конечных юзверей с объектом. Чтобы быть полноправным участником общения, ЕЯсистема должна выполнять некоторые обязат. ф-ции:
- Ведение диалога
- Понимание – процесс интерпретации введенного
- Обработка высказываний
- Генерация – формирование выходных высказываний
Обобщенная схема естественно-языковых систем
Здесь должна быть общая характеристика анализаторов ЕЯ-систем
Интерпретации заключаются в следующем – отображение входного высказывания на знание системы.
Выделяются 2 основных этапа:
- Буквальная интерпретация
- Интерпретация на намерения говорящего
Знания ЕЯ-систем
Знания можно классифицировать:
- Собственно, знания
- Способ представления знаний
Уровни представления знаний
- Нулевые знания
- Мета-знания
- Уровни детальности
- Логическая организация
- Физическая организация
Программные средства создания ЕЯ-систем
Самые рапср: язык Лисп, Mycim, FRL, Пролог, OPS, Рефал
Основные классы ЕЯ-систем
- Вопросно-ответные системы
- Системы машинного перевода
- Диалоговые системы
- Системы общения с БД
- Система обработки связанного текста
|