Автоматизированная обработка текстов на естественных языках - Прочие - Каталог статей

Главная » Статьи » Прочие

Автоматизированная обработка текстов на естественных языках

Что можно делать с текстом

Машинный перевод
Автоматизация подготовки и редактирования текстов
Реферирование и комментирование
Генерация
Искать его
Извлекать из него информацию
Распознавание и синтез
Анализ мнений по текстам
Формирование ответов на вопросы
Обучение естественному языку

Машинный перевод: начало исследований

Началось примерно в 50-е годы.

В 1954 году – ДжорджТаунский эксперимент (состоялся в Нью-Йорке, лол). Продемонстрирован перевод. Словарь состоял из 250 слов. Пословный перевод.
В России началось в 1955. При Академии наук СССР состоялся перевод текста по ПриМату. Словарь – 2300 слов. Передано в инст Келдыша. Выполнялся на основе IBM-MarkII. Приостановлено в 60-е годы.
В 1967 АкНаук США тоже забила. Новый подъем в 70-е.
В 80-е МашПеревод стал экономически выгодным, за счет дешевизны машинного времени.

История:

Первые модели машинного перевода: пословная и пословно-оборотная.

Позже – пофразный перевод: использовался синтаксический анализ.

Анализ «трансфер-синтез»; появление промышленного переводчика SysTrain (США,1970), переводившего научно-технические тексты.

Появление многоязычных систем, использование языков-посредников. В СССР – Нерпа, Фрап и Ампар. Канада – ТаумМедиа для перевода метеосводок.

80-90-е Многояз. системы уже опирались на лексические и терминологические БД + доработки языков-посредников

90-е: исп. статистики и корпусов текстов (Google) и работа в реальном масштабе.

Оценка систем машинного перевода

Оценивается понятность и адекватность перевода
Грамматическая правильность предложений
Семантическая связность текста

Современное состояние машинного перевода

Появилось большое количество коммерческих систем (Эбби, ПРОМТ).
Удовлетворительного качества перевода до сих по нет
Проблема полностью автоматического перевода текста не разрешена
Нерешенное: многовариантность синтаксического анализа, необходимость подключения семантики, межфразовые связи в тексте и единое понятийное пространство.

Информационный поиск

Тоже начали заниматься с 50х годов.

Основные понятия:

Поисковый образ документа на естественном языке или ключевые слова;
Запрос на поиск документа;
Результат поиска – релевантные документы;
Поисковая оптимизация;
Корпоративные информационные системы;
Полнотекстовый поиск: анализ всего текста;
Индексирование документа на естественном языке – выделение ключевых слов/словосочетаний: вручную человеком или автоматически; критерии: частота употребления слов или словосочетаний, лингвистический;
Показатели качества поиска:

Полнота (R) = число найденных правильных результатов/число возможных прав результатов
Точность (P) = правильно найденное/все результаты
Мера качества F= (2PR)/P+R;

Инф поиск. Смежные задачи

Классификация текста
Рубрицирование
Кластеризация – создание близких по тематике подмножеств

Для решения этих задач исп методы машинного обучения.

Вопросно-ответные системы – относительно новая задача.

Примерная стратегия построения ответа:

Определение типа вопроса и запрашиваемого понятия
Построение запроса к Интернет-поисковику (не обязат)
Извлечение из найдены документов нужной инфы
Построение фразы ответа

Генерация текста: 90-е – 2000-е годы – самый пик

Особенности задачи:

Автоматическое построение описаний на естественном языке инфы, представл в нетекстовой форме: рисунки, базы данных…
Требуется нужный пользователю размер текста и аспект описания

Возможные формы ответов:

Отчеты по БД
Ответ на вопрос пользователя (объяснение устройства, комментарии по новым фактам в БД)

Методы генерации текста:

Необходимы компьютерные модели, семантики и дискусы (речь)
Теория RST – теория реферических отношений

Этапы (модули) генерации

Структура и общее содержание текста
Лингвистический модуль (оформление содержания), условность разделения

Примеры систем генерация текста

Gossip – канадская разработка – генерация на англ языке аннотации протоколов ОС (анализ с целью защит от несанкц доступа)

3 этапа модулей обработки:

1. Отбор данных

2. Концептуализация

3. Лингвистический компонент

Автоматизация подготовки текста

Автоматический перенос слов
Коммерческие системы: проверка орфографии, частичная – синтаксиса и проверка сложности стиля
Исследовательские разработки: правка неправильного употребления предлогов, описки и т.п.

Извлечение информации и знаний из текстов

Задачи:

Построение словарей терминов и тезаурусов
Текстовая аналитика
Обучение по текстам: построение онтология

Примеры областей применения:

Военно-морские операции
Антитеррористическая деятельность
Совместные разработки
Экономическая аналитика

Специфика задачи - распознавание и выявление в тексте значимой инфы, объектов, понятий

Технологии изучения инфы:

На основе лингвистических правил
Машинное обучение

Проблема изучения инфы:

Установление тождества

Лингвистические шаблоны позволяют повысить точность определения понятий

Элементы шаблонов:

Словоформа, лексема

Извлечение терминов и связей.

Критерии:

Статистические (частотные)
Лингвистические (шаблоны)

Приложения:

Построение глоссария и предметных указателей
Построение онтологии и тезаурусов
Навигация по терминам текстов
Поддержка терминологич редактирования текстов

Opinion Mining

Похожа на Text Mining. Цели и методы близки к области извлечения инфы и знаний

Задачи:

Выделение и суммирование мнений
Оценка тональности текста

Язык, текст, основы лингвистики и теории ключевой коммуникации

Язык – знаковая система, предназначенная для порождения, передачи и хранения информации.

Различают человеческие языки:

Естественные
Искусственные (морзе)
Жестовые
Формальные (компьютерные)
Язык животных

Информация, передаваемая языковыми средствами, всегда воплощается в некотором тексте.

В языке знак служит средством отражения того или иного элемента действительности

Ни одна система не существует изолированно.

Функция языковой системы служит для определения, хранения и обмена информацией.

Лингвистика – наука о естественном человеческом языке. Делится на научную и практическую.

Семиотика – наука о знаках

Грамматический словарь русского языка (словарь Зализняка) — составленный А. А. Зализняком словарь приблизительно 100 тыс. базовых словоформ русского языка с их полным морфологическим описанием. Основополагающий труд по морфологии, где впервые был предложен системный подход к описанию грамматических парадигм, включающих не только изменение буквенного состава слов, но и ударения.

Стили текстов:

- Художественный

- Научно-технический

- Публицистика

Онтология – база знаний специального типа, которая может читаться и пониматься, отчуждаться от разработчика и физически разделяться пользователями.

Онтологии и онтологические системы

Предпосылки возникновения онтологии:

Необходимость систематизации знаний для использования
Увеличение объемов информации
Необходимость сокращения времени на поиск
Чрезвычайная зашумленность информационных потоков

Технологии проектирования онтологий

Проектирование предполагает разработку содержания, включающего этапы спецификации, концептуализации, формализации, реализации и поддержки.

Концептуализация обеспечивает структурирование предметных знаний.

Формализация превращает концептуальную модель в формальную или вычислительную

На этапе Реализации онтология прогается на соответствующем языке представления знаний.

Поддержка включает действия, выполняемые одновременно с разработкой, без которых онтология не может быть построена.

Виды онтологий

Онтологии представления: определяет концептуализацию, понятия и отношения, определенных в других типах онтологий, считаются конкретизацией понятий онтологии данного вида. Не зависят от конкретного ПО и могут использоваться для поддержки нескольких альтернативных теорий, но относящихся к одной конкретной области
Общие (родовые) онтологии: затрагивают общие фундаментальные аспекты концептуализации (часть, причина, участие, представление)
Промежуточные онтологии: содержатся общие понятия, характерные для одной предметной области
Онтологии верхнего уровня: самые неподробные
Онтологии задач: описывают определенную деятельность, используя словарь, введенный в общих, промежуточных онтологиях, а также онтологиях ПрО.
Онтологии приложения: хранят данные о конкретных приложениях

Схема отношений между онтологиями

Операции над онтологиями

Операции можно разбить на 6 групп:

Редактирование
Алгебра онтологий
Интеграция онтологий
Агрегирование и декомпозиция
Преобразование
Сравнение и оценка

Операции по редактированию:

Создание состоит из 4х этапов:
1. Составление спецификаций (определяют область применения)
2. Определение задач
3. Разработка концептуализации (опр основных объектов ПрО)
4. Формализация представляемых знаний
При поддержке исп следующие операции
1. Модификация
2. Организация доступа
3. Сохранение (хранение различны версий онтологии)
4. Выпуск (помещение онтологии на сервер для онтологий
Алгебра онтологий разработана для систем, основанных на знаниях. В основе построения таких систем лежит операция объединения. Композиция инф происходит по схеме:
1. Поиск терминов, представляющих интерес для конкретной задачи
2. Для найденных терминов на основании правил строятся отображения для извлечения и соединения контекстов.
3. Данные в соединяемых онтологиях на основании отображений соединяются в общие для них контексты
4. Контексты последовательно объединяются в результирующую онтологию

Состоит из операций пересечения, объединения и вычитания.

Онтологии могут использоваться в сфере инф безопасности для защиты данных и сохранения их.

Защита от террористов, ня.

Защита от плохих сайтов, ня.

Защита от наркоты, няша тема, ня.

Наше задание:

Составить список слов, относящихся к теме
Составить схему онтологии: понятия;

онтология состоит из:

Предметная область агентов, обеспечивающих безопасность. Эти агенты гуглят информация и собирают в одном месте. Агент – это фильтр по сути.
Анализирующий агент.
Агент-координатор (составляет статистику и руководит 2мя предыдущими)
Агент поиска
Агент-интерфейс
Принятие мер

Типы угроз

Какие угрозы в вашей ПрО:

Реклама
Дилеры

Неплохо бы пользоваться Protege

Операции по интеграции онтологий

Выборка – формирование внутренне согласованной части исх антологии для её включения в новую.
Отсечение – удаление несущественных классов
Установка соответствий между схожими понятиями. Задает отношения между антологиями посредством установки связи между конкретными понятиями в антологиях.
Частичная согласованность – установление соответствий между онтологиями, поддерживающий эквивалентный логический вывод (вычисления), выполнимый для конкретных понятий
Унификация. Итог этой операции – появление универсальной онтологии

Декомпозиция и агрегирование

Возможны следующие подходы к разбиению онтологии на модули:

Разделение по области применения
Разбиение по решаемой задаче
Микротеории – набор высказываний, ограниченный областью применения
Разбиение по контексту
Составление (агрегирование) – конструирование онтологий

Операции по преобразованию

Переформулирование – операция по преобразованию представлений к одной теории.
Построение таксономий – древовидных структур. Формирование иерархической структуры
Перевод – использование различных языков формализации

Операции по сравнению, проверке и оценке

Сравнение – установление степени соответствия между онтологиями (сравнение концептуальных структур и операций). Нужно ля определения степени переводимости одной онтологии в другую.

Концептуальные структуры могут находиться в след отношениях:

Согласующиеся
Соответствующие – одинаковые эл-ты в структуре.
Конфликтующие – имеют одно имя, но разное содержание
Противоречивые

Проверка – проверяет корректность и непротиворечивость

Оценка – выносится решение о соответствии онтологии её цели

Основные задачи, решаемые с помощью онтологии

Сферы применения:

Поисковые системы
Системы обучения
Научные исследования
Системный анализ ПрО
Интегрирование данных и знаний
Создание и использование баз знаний
Создание систем, реализующих механизмы рассуждений
Организация поиска по смыслу в текстовой информации
Семантический поиск в Инете
Представление смысла в метаданных об информационных ресурсе

Инструменты и инженерия антологии

Наиболее известные инструменты инженерии антологии:

OntoLingua – среда разработки, обеспечивающая коллективное использование, набор средств для создания и библиотеку модулей.

OntoEdit – среда разработки для проектирования приспособления и импорта моделей знаний для прикладных систем. Поддерживает многоязычность и множественное наследование

OilEd – рдактор онтологии, позволяющий строить при помощи Oil (Ontology inference layer). Ориентирован на www-представление.

Protégé – интегрированная среда редактирования баз знаний. Представляет наращиваемую архитектуру для создания основанных на знаниях систем пользователя.

Web-DESO – система, предназначенная для запила онтологии, описывающих некоторую ПрО.

Shcherbak.net

Методология организации знаний в онтологиях

METHONTOLOGY – включает процедуры жизн цикла, в основе системы знаний приняты:

а) глосорий терминов

б) Деревья классификации концептов

в) диаграмма бинарных отношений

OIL – основана на понятии классов и определении их подклассов и атрибутов

Loom – описываемые знания состоят из определений, правил, фактов и стандартов

JFACC – создана на основе Loom. Использовалась, как онтология для планирования полетов и составлена из разделов:

1)Система

2)Время

3)Объекты

4)Планы возд компании

5)Оружие

6)Обеспечение топливом

7)Авиация

8)Воздушные силы

9)Грамматика

DOOM – онтология состоит из терминов, обозначающих понятия, связи между ними и ограничениями.

PICSEL – Модель рассматривается, как отнесение к опр категориям объектов ПрО (с точки зрения юзверя)

ONIONS (лучки, ня) – модель базируется на понятиях уровня (события и протяженность; события включают в себя процессы, состояние, временные интервалы; протяженность содержит объекты и области), которые затем делятся на понятия, относящиеся к конкретной ПрО

Особенности реализации естественно-языковых система

Архитектура их построения

Структура диалога может рассматриваться на 3х уровнях:

Глобальный: определяются общие св-ва решаемых пользователем задач
Тематический: структура диалога завит от конкретно решаемой задачи
Локальный уровень: рассматриваются конкретные шаги диалога (пара «действие-реакция»). Основные параметры структуры диалога на этом уровне:

А) Инициатор шага и вид инициирования (вид действия)

Б) Способ влияния действия на реакцию

В) Способ спецификации задач (подзадачи), решаемой на данном шаге.

Низкая эффективность традиционных средств общения в большинстве случаев вызвано тем, что не учитываются важнейшие особенности процесса общения. Они сводятся к след проблемам:

Изменяемость
Несовпадение взглядов на мир
Связанность общения
Неправильность высказывания пользователя

Традиционные ср-ва общения не позволяют обеспечить взаимодействие конечных юзверей с объектом. Чтобы быть полноправным участником общения, ЕЯсистема должна выполнять некоторые обязат. ф-ции:

Ведение диалога
Понимание – процесс интерпретации введенного
Обработка высказываний
Генерация – формирование выходных высказываний

Обобщенная схема естественно-языковых систем

Здесь должна быть общая характеристика анализаторов ЕЯ-систем

Интерпретации заключаются в следующем – отображение входного высказывания на знание системы.

Выделяются 2 основных этапа:

Буквальная интерпретация
Интерпретация на намерения говорящего

Знания ЕЯ-систем

Знания можно классифицировать:

Собственно, знания
Способ представления знаний

Уровни представления знаний

Нулевые знания
Мета-знания
Уровни детальности
Логическая организация
Физическая организация

Программные средства создания ЕЯ-систем

Самые рапср: язык Лисп, Mycim, FRL, Пролог, OPS, Рефал

Основные классы ЕЯ-систем

Вопросно-ответные системы
Системы машинного перевода
Диалоговые системы
Системы общения с БД
Система обработки связанного текста

Категория: Прочие | Добавил: Алексей (06.10.2014) | Автор: Соник

Просмотров: 1953 | Теги: информационный, тексты, анализ, автоматизированная, поиск, языки, автоматизация, естественные, обработка, АкНаук | Рейтинг: 0.0/0

Всего комментариев: 0