Новейшая, умная поисковая система Nigma позволяет выйти на качественно новый уровень поиска информации в Интернете: теперь перед нами не простой поисковик, а целая система искусственного интеллекта. На данный момент реализованы механизмы рэнкинга результатов набора поисковых систем с поддержкой русской морфологии и двухуровневая кластеризация.
Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены все распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, этот алгоритм не сокращает, а наоборот - увеличивает количество найденных документов, т.к. морфологически измененный запрос объединяется с исходным. Релевантность же также увеличивается, т.к. при таком объединении мы используем специальные алгоритмы объединения результатов. Позиция найденной ссылки в результатах поиска отображается в виде "Поисковая система: позиция" (например, "Google: 5" означает, что ссылка находится на пятом месте в поисковой системе Google), а ссылки от морфологически измененных запросов - в виде "Поисковая система-M: позиция" (например, "Google-M: 10" - десятая ссылка в морфологически измененном запросе). Система объединяем результаты поиска с помощью специального алгоритма, причем только те результаты, которые успевает получить от поисковых систем за 1.5 секунды (в очень редких случаях - за 5 секунд). Соответственно, не выделяются какие-то поисковые системы таким образом, что результаты поиска от них имеют большую значимость, чем от других, т.к. нет гарантии, что за это время мы успеем обработать от них результаты. Вместо этого, для их объединения используется статистическая информацию о русском Интернете, например посещаемость (на базе счетчиков) и цитируемость сайтов. Кроме того, система учитывает другие специфичные для российского Интернета и русского языка особенности при объединении результатов. В итоге, на подавляющее большинство поисковых запросов выдаётся на порядок больше найденный сайтов, чем, например, при простом поиске на сайте Google.ru. Для того чтобы пользователь не запутался в этих результатах, система группирует результаты поиска в так называемые "кластеры". Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Система использует частотную кластеризацию по ключевым словам, поэтому названия кластеров - это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. В свою очередь, т.к. количество найденных кластеров также зачастую очень велико, они объединяются в иерархию (пока - двухуровневую), которая позволяет представить их в более компактном виде. Например, введя очень общий запрос "новости", на который система выдает порядка полумиллиарда документов, в левой колонке вы видите самые популярные темы новостей, которые встречаются в Интернете. Нажав на тему, вы получите примеры новостных ресурсов, которые освещают эту тему. Если вы хотите получить больше ресурсов о новостях спорта, нужно нажать на "Расширить запрос" - тогда система выдаст более двух миллионов ссылок о новостях спорта. Они, в свою очередь, тоже отклассифицированы по темам - есть футбол, хоккей и т.п.
Проект ещё активно разрабатывается: планируется расширить поисковую систему экспертными системами, психологическими тестами, системами поведенческого анализа, и другими методами, базирующимися на таких алгоритмах искусственного интеллекта как искусственные нейронные сети, генетические алгоритмы, алгоритмы нечеткой логики и т.п.
|