浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别
Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站
Sphinx的特性如下
a) 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
b) 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
c) 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
Sphinx本身对中文的支持并不好。
主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。
分词在两个地方会用到;
1、索引时,根据分词索引原始数据
2、搜索时,对用户输入分词,到索引中查询
目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws
1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版
优点有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;
缺点深度开发、版本更新较慢;索引较慢
策略一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;
适用场景普通青年、搭建差不多的搜索,适用于普遍网站
2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版
优点部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;
缺点版本更新较慢;分词较弱;索引相对较慢
策略同一
适用场景普通青年、快速搭建搜索的小站
3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐
优点两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;
缺点部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大
策略词库管理外;使用时,先调用分词服务,后调用搜索
适用场景文艺青年、搭建像样点的搜索;好吧文艺青年
以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是长沙网络推广分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持狼蚁SEO。
编程语言
- 宿迁百度关键词排名指南:实现精准营销的关键
- 四川SEO优化怎么做网络推广
- 立昂技术备案老域名收购:如何为您的业务赋能
- 安徽百度关键词seo贵不贵,一般需要多少钱
- 吉林百度快照排名怎么做电话营销
- 多伦新手做SEO怎么做
- 甘肃优化关键词排名推广怎么做论坛营销
- 沙雅SEO网站推广:提升您的在线可见性
- 四川SEO优化如何提升销售额和销售量
- 聂荣网站排名优化:提升网站可见性的全方位指
- 涞水SEO:提升地方企业在线可见性的策略
- 辽宁百度seo排名怎样做网站排名
- 临湘哪有关键词排名优化:提升网站可见度的关
- 黑龙江百度网站优化有没有优惠
- 凉城优化关键词排名推广:提升您的网络可见性
- 萝北整站优化:提升您网站流量和排名的全面指