Морфология

ID статьи: 2602
Последнее обновление: 25 фев, 2026
Product: SWG
Version: 7.5.x

Морфологический анализ — механизм, который распознает отдельные слова и словосочетания на веб-сайте. Если в тексте содержится достаточное для блокировки количество указанных слов и словосочетаний, то доступ к сайту блокируется.

Морфологический анализ выполняется как при проверке запроса пользователя, так и при получении ответа от веб-сервера и до его передачи пользователю. Получив ответ от веб-сервера, UserGate SWG просматривает текст на странице и подсчитывает его суммарный «вес», исходя из «весов» слов, указанных в морфологических категориях. Если «вес» страницы превышает «вес» морфологической категории, правило срабатывает. При подсчете «веса» страницы учитываются все словоформы (леммы) запрещенных слов. Для поиска словоформ UserGate SWG использует встроенные словари русского, английского, японского, арабского и немецкого языков.

Существует возможность подписки на словари, предоставляемые компанией UserGate. Эти словари нельзя редактировать. Для использования этих словарей необходима соответствующая лицензия. Подробнее о лицензии на продукт — в разделе «Лицензирование».

Наименование словаря

Описание

Соответствие списку запрещенных материалов Министерством Юстиции Российской Федерации

Морфологический словарь, содержащий перечень слов и фраз, запрещенных Министерством Юстиции Российской Федерации

Соответствие списку запрещенных материалов республики Казахстан

Морфологический словарь, содержащий перечень слов и фраз, запрещенных Министерством Юстиции республики Казахстан

Суицид

Морфологический словарь, содержащий перечень слов и фраз суицидальной направленности

Терроризм

Морфологический словарь, содержащий перечень слов и фраз террористической направленности

Нецензурная лексика

Морфологический словарь, содержащий перечень слов и фраз, относящихся к нецензурной лексике

Азартные игры

Морфологический словарь, содержащий перечень слов и фраз, относящихся к азартным играм

Наркотики

Морфологический словарь, содержащий перечень слов и фраз наркотической направленности

Соответствие ФЗ-436 (Защита детей)

Морфологический словарь, содержащий перечень слов и фраз тематик, нежелательных для детей

Порнография

Морфологический словарь, содержащий перечень слов и фраз порнографической направленности

Бухгалтерия (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в бухгалтерии

Маркетинг (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в маркетинге

Персональные данные (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, встречающихся в персональных данных

Финансы (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в финансах

Юридический (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в юриспруденции

Для создания собственного морфологического списка:

1. В разделе Настройки ➜ Библиотеки ➜ Морфология в блоке Списки морфологии нажмите Добавить, укажите название нового списка и его вес. 

2. В блоке Слова нажмите Добавить, укажите слова или фразы с соответствующими им весами. При добавлении слов в морфологический словарь можно использовать модификатор «!» перед словом, например, «!bassterd». В данном случае жаргонное слово не будет преобразовываться в словоформы, что может серьезно уменьшить вероятность ложной блокировки.

Вы можете создавать свои словари и централизованно распространять их на все устройства UserGate, имеющиеся в организации. Для создания такой базы:

1. Создайте файл с необходимыми фразами. Например, файл list.txt может содержать список слов в следующем формате:

!word1
!word2
!word3
word4 50
...
Lastword

Вес слова можно указать. По умолчанию он равен 100.

2. Создайте архив, содержащий этот файл. Например, ZIP-архив с именем list.zip.

3. Создайте файл с версией словаря. Например, файл version.txt, внутри него указан номер версии базы. Необходимо инкрементировать это значение при каждом обновлении морфологического словаря.

4. Разместите файлы (list.zip и version.txt) на веб-сервере.

5. Создайте морфологический список и укажите URL для обновления словаря.

На каждом устройстве UserGate создайте морфологическую базу. При создании укажите тип списка Обновляемый и адрес, откуда необходимо загружать обновления. Устройство UserGate будет проверять наличие новой версии на вашем сайте в соответствии с настроенным расписанием скачивания обновлений.

Вы можете выбрать одно из предустановленных значений расписания или указать время вручную в cron-формате: <минуты: 0–59> <часы: 0–23> <дни месяца: 1–31> <месяцы: 1–12> <дни недели: 0–6, где 0 — воскресенье>.

При ручном вводе также можно использовать следующие символы:

Звездочка (*) — для выбора всех значений. Например, в поле для ввода часов символ означает, что проверка обновлений должна выполняться каждый час.

Дефис (-) — для указания диапазона значений.

Запятая (,) — в качестве разделителя значений.

Косая черта (/) — для указания шага между значениями.

ПримечаниеПри создании морфологических словарей не рекомендуется добавлять фразы, содержащие более трех слов, без использования символа «!» перед словами. Необходимо помнить, что при построении морфологической базы каждое из слов будет преобразовано во все существующие формы (склонения, спряжения, множественные числа, времена и т. д.), и результирующее количество фраз будет достаточно большим. При добавлении длинных фраз необходимо использовать модификатор «!» перед словами, модификация которых не нужна, как правило, это различные предлоги и союзы. Это сократит количество возможных вариантов фраз, но оставит все фразы с требуемым смыслом.

Устройство UserGate может проверять чек-сумму файлов обновляемых списков. Для приведенного примера межсетевой экран будет запрашивать файл list.zip.md5, содержащий чек-сумму файла list.zip. Его наличие не обязательно, но если он есть, чек-сумма должна быть корректной.
Получить чек-сумму в linux можно командой:

md5sum list.zip

Ее вывод добавляется в файл как хэш list.zip, после чего сохраняется в формате md5. Например, содержимое файла list.zip.md5:

04d7d1223ba8ff02396355a2bc3b3d52  list.zip

Для фильтрации по морфологическому содержанию страницы создайте правило фильтрации контента, содержащее один или несколько морфологических списков.Подробнее — в разделе «Фильтрация контента».

Эта статья была:   Полезна | Не полезна
ID статьи: 2602
Последнее обновление: 25 фев, 2026
Ревизия: 7
Просмотры: 151
Комментарии: 0
Теги