Теория языкознания - 62: Лингвистические основы поисковых систем

С Сибирьска википедья
Айдать на коробушку Айдать на сыскальник

Теория языкознания - 62: Лингвистические основы поисковых систем

Общие сведения

Лингвистические основы поисковых систем представляют собой важный раздел прикладной и компьютерной лингвистики. Главная проблема информационного поиска заключается в необходимости вычленить из огромного массива текстов исключительно те, которые отвечают набору критериев релевантности для задаваемой искомой информации. Поиск объективно затрудняется естественными свойствами языка, такими как синонимия и полисемия. При синонимии один и тот же смысл может выражаться разными словами, из-за чего часть нужных текстов рискует не попасть в итоговую выдачу. Полисемия приводит к тому, что многозначное слово выдает тексты, относящиеся к совершенно разным предметным областям, что существенно снижает качество поиска и требует учета контекста.

Критерии эффективности поиска

Для оценки качества работы поисковых алгоритмов применяются два основных критерия, отражающие успешность обработки лингвистических данных. Первым критерием является точность, которая представляет собой количественное выражение доли релевантных для пользователя документов в общем количестве выданных системой текстов. Вторым критерием выступает полнота, отражающая соотношение количества найденных системой релевантных документов с общим числом значимых текстов, хранящихся в базе данных. Практика показывает, что ни одна система не способна обеспечить абсолютную полноту и точность одновременно, что обуславливает непрерывное совершенствование технологий индексации.

Информационно-поисковые языки

Исторически формы представления данных о документе эволюционировали от двухуровневого поиска по заголовкам и ключевым словам к полнотекстовому анализу. Современный поиск базируется на использовании информационно-поисковых языков, выступающих формализованными посредниками между запросом пользователя и базой данных. Исходный запрос переводится на специальный язык, при этом осуществляется обязательная лингвистическая обработка лексем. Специальные алгоритмы отсекают падежные окончания и приводят все словоформы к исходному виду, что позволяет поисковой машине находить искомое слово во всех его грамматических вариациях внутри текстовых массивов.

Принципы классификации и тезауруса

Построение информационно-поисковых языков опирается на два фундаментальных принципа. Принцип классификации предполагает иерархическую организацию понятий в виде жестких рубрикаторов. В такой модели происходит перемещение по дереву категорий от общего к частному. Этот исторически древний метод отличается высокой скоростью работы, однако страдает низкой полнотой и точностью, так как иерархическая картина мира создателя классификации может не совпадать с логикой ищущего. В современных системах доминирует принцип описания, опирающийся на дескрипторы. Дескрипторы представляют собой ключевые понятия проблемной области, которые связываются в единую смысловую сеть. Чем больше дескрипторов заложено в систему, тем выше точность поиска, поскольку слово соотносится с конкретной предметной областью, а не ищется по жестко заданному иерархическому пути.

Структура поискового тезауруса

Основой дескрипторного поиска является тезаурус, представляющий собой словарь, организованный по смысловым связям. В тезаурусе присутствует алфавитный указатель дескрипторов, к каждому из которых привязан набор синонимов для адекватной идентификации эквивалентных понятий. Дескрипторы объединяются различными типами семантических отношений. Выделяются вышестоящие родовые дескрипторы и нижестоящие видовые понятия, что позволяет программному обеспечению понимать включенность одних объектов в другие. Существуют также ассоциативные дескрипторы, фиксирующие типичные связи предметов, их функций, свойств или устойчивых ассоциаций, представленных в языковой картине мира. Наличие детализированной семантической сети позволяет алгоритмам точнее распознавать контекст и выдавать максимально релевантную информацию.

См. также

Теория языкознания - 61

Смотреть видео