【编译打包】sphinx-for-chinese-2.2.1-r4311.el6.src.rpm
sphinx 由于中文分词效果不佳,于是就有国内牛人给它改装了,sphinx-for-chinese(简称sfc)就是其中一个。
sphinx-for-chinese采用的分词方法是预设字典,将文本字典转换成二进制后载入内存,作为分词依据,如果分词效果不好,可以根据需要调整词典,性能据称达到官方版的一半。
sfc官网没有提供rpm包,我的包安装方便,集成了字典,初始化时需要生成字典,务必检查字典源文件是utf-8格式的,见下文。
环境CentOS 6.5 X64
安装步骤
1
2
3
4
5
|
yum
install
yum-utils -y
rpm -ivh sphinx-
for
-chinese-2.2.1-r4311.el6.src.rpm
yum-builddep ~
/rpmbuild/SPECS/sphinx-for-chinese
.spec
rpmbuild -ba ~
/rpmbuild/SPECS/sphinx-for-chinese
.spec
rpm -ivh ~
/rpmbuild/RPMS/x86_64/sphinx-for-chinese-2
.2.1-r4311.el6.x86_64.rpm
|
准备字典,将文本字典转换成二进制
1
2
3
4
5
|
yum
install
dos2unix -y
cd
/etc/xdict
tar
zxvf xdict_1.1.
tar
.gz
dos2unix xdict_1.1.txt
/usr/bin/mkdict
xdict_1.1.txt xdict.bin
|
确保在/etc/sphinx/sphinx.conf 的index 段中包含下面三行配置
1
2
3
|
charset_type = utf-8
chinese_dictionary =
/etc/xdict/xdict
.bin
ngram_len = 1
|
附件有点大,超过了博客附件限制,请移步百度网盘下载
http://pan.baidu.com/s/1c08dWFQ
其他配置,参见官方
http://www.sphinx-search.com/
本文转自 紫色葡萄 51CTO博客,原文链接:http://blog.51cto.com/purplegrape/1581342,如需转载请自行联系原作者