设为首页 收藏本站
云服务器等爆品抢先购,低至4.2元/月
查看: 1363|回复: 0

[经验分享] elasticsearch的实现全文检索

[复制链接]

尚未签到

发表于 2017-5-20 12:45:10 | 显示全部楼层 |阅读模式
elasticsearch一个准实时的搜索引擎,基于lucene构建,它的主要强项还是在全文检索方面。工作中还是使用到了这部分功能,这里做一个简单的总结,可以使初次使用的人很快的配置和使用。
一、全文检索的概念
首先介绍全文检索的概念,就是对一篇文章进行索引,可以根据关键字搜索,类似于mysql里的like语句。
全文索引就是把内容根据词的意义进行分词,然后分别创建索引,例如”你们的激情是因为什么事情来的” 可能会被分词成:“你们“,”激情“,“什么事情“,”来“ 等token
这样当你搜索“你们” 或者 “激情” 都会把这句搜出来。
二、内置分词器
elasticsearch实现全文索引,首先要确定分词器,elasticsearch默认有很多分词器,你可以参考elasticsearch的官方文档。了解分词器主要是怎么实现的。
你可以使用
curl -XGET ‘http://192.168.1.101:9200/_analyze?analyzer=standard’ -d ‘你们有什么事情’
命令来了解各种分词器的分词效果。
三、中文分词器
一般中文分词器一般使用第三方的ik分词器、mmsegf分词器和paoding分词器,他们最初可能构建于lucene,后来移植于elasticsearch。 在最新版的elasticsearch,我们主要使用了ik分词器。
安装ik分词器到elasticsearch很简单,它有个插件目录analysis-ik,和一个配置目录ik, 分别拷贝到plugins和conf目录就可以了。当然你可以使用elasticsearch的plugin命令去安装,这个过程可能会有些麻烦。
然后在elasticsearch.yml文件中配置

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
意思就是ik分词器,也可以使用别名ik_analyzer,使用IkAnalyzerProvider类分词。
ik_max_word、ik_smart也是ik分词器,只不过一个打开了use_smart开关,一个没打开use_smart。这个本文不关心。
四、curl命令测试分词器
第三方的分词器,你是没法使用
curl -XGET ‘http://192.168.1.101:9200/_analyze?analyzer=standard’ -d ‘你们有什么事情’ 来查看分词效果的。
你必须创建一个指定该分词器的索引才行。
1、创建索引
curl -XPUT http://192.168.1.101:9200/index
2、创建mapping,这里就一个字段content

curl -XPOST http://192.168.1.101:9200/index/fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"indexAnalyzer": "ik",
"searchAnalyzer": "ik",
"store": "false"
},
"properties": {
"content": {
"type": "string",
"store": "no",
"indexAnalyzer": "ik",
"searchAnalyzer": "ik"
}
}
}
}'
3、查看分词效果
curl -XGET ‘http://192.168.1.101:9200/index/_analyze?analyzer=ik’ -d ‘你们有什么事情’
4、索引数据
curl -XPOST http://192.168.1.101:9200/index/fulltext/1 -d'{content:”美国留给伊拉克的是个烂摊子吗”}’
curl -XPOST http://192.168.1.101:9200/index/fulltext/2 -d'{content:”公安部:各地校车将享最高路权”}’
curl -XPOST http://192.168.1.101:9200/index/fulltext/3 -d'{content:”中韩渔警冲突调查:韩警平均每天扣1艘中国渔船”}’
curl -XPOST http://192.168.1.101:9200/index/fulltext/4 -d'{content:”中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首”}’
5、全文检索
term检索,如果content分词后含有中国这个token,就会检索到

curl -XPOST http://192.168.1.101:9200/index/fulltext/_search  -d'
{"query" : { "term" : { "content" : "中国" }}}'
querystring检索,它会先把”中国美国“分词成中国、美国分别去检索,然后最后默认是OR的关系

curl -XPOST http://192.168.22.161:9200/index/fulltext/_search  -d'
{
"query" : {
"query_string" : {
"default_field" : "content",
"query" : "中国美国"
}
}
}'
你也可以明显的写成
“query” : “中国 AND 美国”
或者
“query” : “中国 OR 美国”
如果你把查询条件加上双引号
“query” : “\”中国美国\””
便类似mysql里的like的效果
五、java客户端
java程序都有对应的类和方法。创建索引和设置mapping,这里就不赘述了,这里有总结:
主要是检索:
term搜索主要是用:QueryBuilders.termQuery(“content”, “中国”);
querystring搜索使用:
QueryStringQueryBuilder queryString = new QueryStringQueryBuilder(“中国 OR 美国”);
queryString.field(“content”);


http://zhaoyanblog.com/archives/495.html

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-379349-1-1.html 上篇帖子: ElasticSearch的ik分词插件开发 下篇帖子: The Future of Compass & ElasticSearch
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表