Back to mnoGoSearch site

Сегментеры фраз японского, тайского и китайского языков

Традиционное японское, тайское или китайское письмо не предусматривает размещение между словами фразы символов-разделителей, аналогичных пробелу, используемому, например, в европейских языках. Поэтому при индексировании текстов на этих языках необходимо дополнительно производить разбиение фраз на отдельные слова.

Сегментер фраз японского языка

Для разбиения на слова фраз японского языка используется система морфологического анализа японского языка ChaSen или морфологический анализатор японского языка MeCab. Поэтому её необходимо установить одну из этих систем до начала сборки и установки mnoGoSearch.

Для включения поддержки разбиения фраз японского языка, вам необходимо указать для configure ключ --enable-chasen или --enable-mecab.

Сегментер фраз китайского языка

Для разбиения на слова фраз китайского языка используется частотный словарь китайского языка, а разбиение производится методом динамического программирования чтобы частота использования получаемых слов после разбиения была максимальной.

Для включения поддержки сегментера фраз на китайском языке, необходимо при сборке mnoGoSearch включить поддержку кодировки GB2312, а также указать в indexer.conf при помощи команды LoadChineseList частотный словарь слов китайского языка для загрузки.

Сегментер фраз тайского языка

Для разбиения на слова фраз тайского языка используется тот же метод, что и для китайского языка, оличие заключается в использовании частотного словаря тайского языка.

Для включения поддержки сегментера фраз на тайском языке, необходимо указать в indexer.conf при помощи команды LoadThaiList частотный словарь слов тайского языка для загрузки.