Solr全文检索学习笔记·记录
2021/7/22 23:14:35
本文主要是介绍Solr全文检索学习笔记·记录,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1. Solr的安装
略。(注意安装jdk)
2. Solr客户端界面介绍
solr-7.7.3目录结构介绍
- bin:该目录下存放了Solr的工具命令。
- contrib:该目录下存放了Solr所依赖的第三方JAR包。
- dist:该目录下存放了Solr本身的JAR包。
- docs:该目录下存放了Solr的文档。
- example:该目录下存放了Solr的各种实例。
- server:该目录下的solr目录存放了一系列的索引库。
启动Solr
[root@hadoop1 solr-7.7.3]# cd bin [root@hadoop1 bin]# ./solr start -force
打开Solr客户端
- Dashboard:显示了该Solr实例开始启动运行的时间,版本,系统资源,jvm等信息。
- Logging: 日志,显示Solr运行出现的异常或错误。
- Core Admin: 在这里可以添加Solr Core的实例,也就是创建一个索引库,类似数据库,用来存放数据。所以如果要使用Solr必须创建一个索引库才能使用。主要有Add Core(添加核心),Unload(卸载核心),Rename(重命名核心),Reload(重新加载核心),Optimize(优化索引库)。
- Java Properties: 可查看到Java相关的一些属性信息。
- Thread Dump:显示Solr Server中当前活跃线程信息,同时也可以跟踪线程运行栈信息。
创建索引库
一般来说,在真实项目环境下,数据库是要跟Solr中的索引库结合在一起的,数据库负责增删改,而索引库负责查询,所以,我们要利用Solr客户端来创建我们的索引库,那怎么创建呢?如下:
Add Core,创建核心,可以理解为创建表,点击,如下:
- name为自定义名字,也就是到时候如果添加成功,Solr客户端左下角的Core Selector下拉框就会出现name指定的名字,到时可以选择。建议和下面的instanceDir保持一致。
- instanceDir为磁盘上文件夹的名称。
- dataDir为默认的数据存储目录。
- config为配置文件,里面的solrconfig.xml的位置在db_cht/conf/solrconfig.xml。
- schema为db_cht下的conf下的schema文件(schema.xml)。
不过以上这样直接点击Add Core会报错的,但是,虽然报错,在/usr/local/solr-7.7.3/server/solr目录下就会生成一个叫db_cht的空文件夹(为什么文件夹叫db_cht,因为instanceDir已经指定了),进去里面啥也没有,在这里需要复制一点东西来,执行下面命令,如下:
cp -r ../configsets/sample_techproducts_configs/* ./
这样就能创建成功了,那么在db_cht目录下除了我们刚刚复制过来的conf文件夹,还有core.properties文件和data文件夹。我们可以打开core.properties看看,如下:
name=db_cht config=solrconfig.xml schema=schema.xml dataDir=data
或者我们采用命令来创建,首先,进入solr-7.7.3的bin目录,如下:
[root@hadoop1 bin]# pwd /usr/local/solr-7.7.3/bin [root@hadoop1 bin]# ./solr create_core -c db1_core -force WARNING: Using _default configset with data driven schema functionality. NOT RECOMMENDED for production use. To turn off: bin/solr config -c db1_core -p 8983 -action set-user-property -property update.autoCreateFields -value false Created new core 'db1_core'
这次再打开管理界面,就会出现下面的两个索引库,如下:
Core选择器
- Overview:主要显示当前库的一个状况。
- Analysis:查询分析器。如下:
如果左边高亮,意味着用户输入的虽然是my number这个英文单词,但是是会把phone number这条记录搜索出来的,即使用户没有搜索phone这个英文单词。
再说下分词器,分词器很好懂吧,它默认是英文分词器,但也有中文分词器,中文的后面再说,所谓的分词器就是对一句话分成各个词语,比如苹果手机会被分成三个词语,分别是苹果,手机,苹果手机。当用户在搜索框里输入苹果手机的时候,搜索结果可不单单只出现苹果手机哦,可能水果类的苹果也出来了,这就是分词的作用。在如上图,也就是那个下拉框是选择分词策略的,如果是中文的,那就选中文分词器,只不过默认是英文的,暂时没有中文分词器,没关系,后面再配,反正下拉框里列出来的内容就是各个分词器策略,而这些分词器策略都在一个文件里可以看出来,该文件就在/usr/local/solr-7.7.3/server/solr/索引库名称/conf/managed-schema文件里,里面的fieldType标签就是了。
- Schema: 既然索引库都创建出来了,或者你也可以理解就是创建了一张表,那么表是不是得有字段呀,字段英文名是不是就叫Field呀,所以,如下:
以商品信息为例,是不是有这几种字段,商品标题,商品描述,商品价格等,分别对应commodityTitle,message,price。话不多说,我们创建一下吧,如下:
添加完之后,在下面的下拉框是可以看到我们刚刚添加的字段的,那我要说下,下拉框里的所有数据来源是哪里?没错,就来自managed-schema文件里,打开该文件,就有如下标签,如下:
<field name="commodityTitle" type="text_general" uninvertible="true" docValues="false" indexed="true" stored="true"/>
剩下的字段一样的操作,不过像id,price这两字段,Solr已经默认帮我们提供了(说白了就是managed-chema文件里已经存在了name等于id和name等于price的field标签),那我们就关注剩下的message咯,如下:
那Add Dynamic Field,添加动态字段,就是managed-schema文件里的dynamicField标签,看它的name就知道了。
下一个是Add Copy Field,添加复制字段(或叫合成字段),也就是说,我们可以把商品标题和商品描述这两个字段合成一个新的字段,叫xxxKeyWorld,随便。那为什么要合成一个新的字段?就是说,如果我们在查询某件商品信息的时候,肯定是根据某一个字段来查询的,而这字段不单单是commodityTitle字段,或者是message字段,应该是两字段合成,说白了,就是我们查询商品信息,是根据commodityTitle字段+message字段查出来的。换句话说,我们在做匹配的时候,不单单可以根据commodityTitle匹配,也可以根据message做匹配。而这合成后的字段xxxKeyWorld是一个数组。
- Documents: 添加数据,更新数据,删除数据的。如下:
向索引库添加数据(Json版):
向索引库添加数据(xml版):
删除id为1的记录:
删除所有记录,就是*:*。下一个是更新,那么就像添加一样,只不过重点在id上,如果你要添加的这条记录,id在索引库刚好存在,那么就会把原有记录覆盖掉,这就是更新。
- Query: 模拟查询条件。
说明一点,如上commodityTitle字段只所以可以根据它作为查询条件,那是因为commodityTitle的index为true,如果为false,那是不能作为查询条件的。
如果是多条件,那么可以这样写,字段1:值1 AND/OR 字段2:值2。
如上fq代表过滤查询。看,一共有两个条件,代表我要查询commodityTitle有华为的以及message带有色彩字眼的记录。
fq是在q查询符合结果中同时是fq查询符合的,例如,请求fq是一个数组:
如果fq里写的是字段:[1 TO 10],代表过滤查询1到10的记录,该字段可以是价格之类的,反正就是数字型的。当然,如果要表示10以上的就是[10 TO *]。
fq的另一个语法,表示并且的关系,比如commodityTitle:华为,苹果,表示要把commodityTitle中有华为的和有苹果的都查出来。同样也支持字段1:值1 AND/OR 字段2:值2。
sort为排序。
下面的start,rows为分页。
fl为指定返回哪些字段内容,比如你写的是commodityTitle,price。那么就意味着你在查询的时候只会把commodityTitle和price查询出来,其它的如message不会查询出来。
df表示默认字段,譬如你写的是commodityTitle,那么我们在q那里就不用写的那么完整了,比如commodityTitle:华为,就可以直接写华为这两个字了,因为你如果不写以哪个字段作为条件,默认就是以你df指定的那个。
如上图是做高亮设置的,hl.fl那里表示你要对谁做高亮,下面就是高亮后是什么颜色的。
IK分词器的使用
接下来是配置中文分词器。往下看吧!!!
下载地址:http://files.cnblogs.com/files/zhangweizhong/ikanalyzer-solr5.zip
解压文件及说明:
-
ext.dic:自定义词语,如沙雕,沙雕在汉语里面不是一个词,它只是一个网络用语,我们可以配置到这里面,让它成为一个词。
-
stopword.dic:停止分词,或者说对哪些不做分词处理。
-
IKAnalyzer.cfg.xml:配置IK的配置文件,不用改。
1. 修改managed-sahma,加上如下配置:
<!-- China --> <fieldType name="text_cn" class="solr.TextField" positionIncrementGap="10"> <analyzer type="index"> <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/> </analyzer> <analyzer type="query"> <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="false"/> </analyzer> </fieldType>
说明一下,看analyzer标签,其中的type等于index或者query是什么意思?其实是对应如下图:
然后再看,useSmart又是什么意思,如下:
跟分词的粒度相关:
- False:分词的粒度大,一句话里面分的词语少。
- True:分词的粒度细,一句话里面分的词语多。
2. 把IK的配置放到Solr:
放入jar包:准备好ik-analyzer-solr5-5.x.jar,这个我们已经下载下来了,但还要下载一个jar包,可以去maven仓库下,该jar包就是solr-analyzer-ik-5.1.0.jar,也就是总共有两个jar,有了这两个jar,就可以把这两个jar放到/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/lib目录下。
3. 放配置:
退回到上一级,也就是/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF,在该目录下新建文件夹,名字叫classes,然后再把ext.dic,IKAnalyzer.cfg.xml,stopword.dic这三个文件放进去。
4. 重启Solr
[root@hadoop1 solr-7.7.3]# cd bin [root@hadoop1 bin]# ps -ef|grep solr root 3632 1 0 06:24 pts/0 ...... [root@hadoop1 bin]# kill -9 3632 [root@hadoop1 bin]# ./solr start -force
重新进入solr的管理界面,进入如下页面:
补充:ext.dic的说明
打开ext.dic文件,直接写上沙雕这两个字即可,只有这样,在做分词的时候,遇到沙雕才不会把沙和雕分开来,因为如果这样的话,网友在搜索沙雕时,不就搜索不到有关沙雕的视频吗?那么为了能够搜索到,我们就得把沙雕写到ext.dic文件上,毕竟它是一种网络用语,要把它当成一个词语来用。那么以后,我们再搜索沙雕的时候,就会搜索到有关沙雕的视频了。如下:
以第一个视频为例,如下:
我要说明的是,如果你不在ext.dic写上沙雕这两个字,那不好意思,ik分词器不认为沙雕是一个词语,只会把沙和雕两个字分开。
数据库导入数据到Solr
我们打开数据库Navicat,然后新建个数据库,数据库名随便你叫什么,都行,右键数据库,选择运行sql文件,因为此处,我为方便,准备导入sql文件,就不自己新建表了。我呢这有两个sql文件,也就意味着有两张表,这两张表的名字叫bless和products,该两张表数据很多,我就只说它有哪些字段好了:
bless | id,bless_content,bless_time |
products | pid,pname,catalog,catalog_name,price,number,description,picture,release_time |
DataImport导入数据:
该功能是将数据库中的数据通过sql语句方式导入到Solr索引库中。
第一步:添加jar包:
进入/usr/local/solr-7.7.3/dist下,复制solr-dataimporthandler-7.7.3.jar和solr-dataimporthandler-extras-7.7.3.jar。同时还要复制mysql的驱动包mysql-connector-java-5.1.42.jar,复制到哪?复制到/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/lib下即可。
第二步:修改solrconfig.xml
进入/usr/local/solr-7.7.3/server/solr/索引库名/conf目录下,我这里的索引库名是db1_core,也就是配置了中文分词器的那个。
进入conf下,打开solrconfig.xml,首先查询是否存在dataimport的requestHandler,如果不存在,因此需要手动添加,为了以后便于维护此文件,我们就在requestHandler起始位置,约在720行处,添加如下内容:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler>
第三步:创建data-config.xml配置文件
注意,在当前目录下创建,也就是跟solrconfig.xml同级。
data-config.xml的作用:数据库连接相关信息,SQL以及查询结果映射对应域(字段)中。
<?xml version="1.0" encoding="UTF-8"?> <dataConfig> <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://192.168.1.101:3306/db1" user="root" password="root"/> <document> <entity name="products" query="select pid,pname,catalog_name,price,description,picture from products"> <field column="pid" name="id"/> <field column="pname" name="prod_pname"/> <field column="catalog_name" name="prod_catalog_name"/> <field column="price" name="prod_price"/> <field column="description" name="prod_description"/> <field column="picture" name="prod_picture"/> </entity> </document> </dataConfig>
如上field标签里,column为数据库里的字段名称,name为solr索引库里的字段名称,或者叫域名称。
第四步:分析定义域
修改同目录下的managed-schema文件,增加下面内容:
<!--prod_pname:支持分词技术查询--> <field name="prod_pname" type="text_cn" indexed="true" stored="true" required="true"/> <!--catalog_name: 直接相等的方式查询,不要做分词,直接精确查询--> <field name="prod_catalog_name" type="string" indexed="true" stored="true" required="true"/> <field name="prod_price" type="pdouble" indexed="true" stored="true" required="true"/> <field name="prod_description" type="text_cn" indexed="true" stored="true" required="true"/> <!--prod_picture: 不分词,也不做搜索条件--> <field name="prod_picture" type="string" indexed="false" stored="true" required="true"/>
第五步,重启solr。
第六步,查看solr管理界面,进入核心选择器,选中DataImport选项,也就是我们在界面上添加数据(Documents)的上方。如下:
只是我这出现了问题,导入失败,因为我的solr是在linux安装的,而mysql在windows中,可能就是该原因,造成导入失败。为了不浪费时间,我这也就暂时先放着,大不了我直接向索引库添加数据也是可以的嘛,虽然麻烦点。大家可以看这个视频,我就是参考该视频的,包括我说的那两张表:<https://www.bilibili.com/video/BV1ob411T7NQ?p=7>。
这里我就自行的往索引库添加了5条数据,意思意思一下,最重要的还是后面进行增删改查的部分。如下:
3. Solrj的操作
Solrj添加数据/更新数据
到这,就要真正的用java代码来操作索引库了,而以上用solr管理控制台操作的索引库我们当做了解学习即可,下面才是王道。
solrj是操作Solr的JAVA客户端,它提供了增加,修改,删除,查询Solr索引的JAVA接口。Solrj针对Solr提供了Rest的HTTP接口进行了封装,SolrJ底层是通过使用HttpClient中的方法来完成Solr的操作的。
1. 创建项目普通的maven项目。
2. 引入maven坐标:
<properties> <solrj.version>7.7.2</solrj.version> </properties> <dependencies> <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>${solrj.version}</version> </dependency> <dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.18.12</version> </dependency> </dependencies>
3. 创建测试类来测试连接,如下:
package com.cht.test; import org.apache.solr.client.solrj.impl.HttpSolrClient; public class Test01Connection { //声明一个连接solr的地址 public static final String SOLR_URL = "http://192.168.6.133:8983/solr/db1_core"; //声明一个连接solr的对象 private static HttpSolrClient httpSolrClient; static { httpSolrClient = new HttpSolrClient.Builder(SOLR_URL).build(); } public static void main(String[] args) { System.out.println(httpSolrClient); } }
如果连接成功,没报错,就说明可以来操作solr了。
4. 使用solrj向索引库添加数据:
public static void main(String[] args) throws IOException, SolrServerException { //一个一个添加 SolrInputDocument doc = new SolrInputDocument(); doc.addField("id",6); //不指定id值,默认是UUID doc.addField("prod_pname","zakka杂货 情侣小鹿树脂摆件家居装饰品一对"); doc.addField("prod_catalog_name","幽默杂货"); doc.addField("prod_price",15); doc.addField("prod_description","<TABLE id=table2 cellSpacing=5 ........."); doc.addField("prod_picture","2014031517190225.jpg"); httpSolrClient.add(doc);//或者这样,指定某个库,如果这样那么上面的地址SOLR_URL就不用具体指定是哪个索引库了。httpSolrClient.add("db1_core",doc); httpSolrClient.commit(); httpSolrClient.close(); }
测试一下是否添加成功,如果成功,打开solr管理后台,看看添加进去没有。
下面是添加多条数据,如下:
public static void main(String[] args) throws IOException, SolrServerException { List<SolrInputDocument> docs = new ArrayList<>(); for (int i=0;i<=5;i++){ SolrInputDocument doc = new SolrInputDocument(); doc.addField("id",i); doc.addField("prod_pname","魔幻星座音乐水晶球内雕音乐盒七彩渐变音乐球"); doc.addField("prod_catalog_name","幽默杂货:"+i); doc.addField("prod_price",70); doc.addField("prod_description","description:"+i); doc.addField("prod_picture","2014030610151185.jpg"); docs.add(doc); } httpSolrClient.add(docs); httpSolrClient.commit(); httpSolrClient.close(); }
我们还可以添加一个对象,那么我们就要创建一个实体类,如下:
package com.cht.domain; import lombok.Data; import org.apache.solr.client.solrj.beans.Field; @Data public class Products { @Field("id") private String pid; @Field("prod_pname") private String pname; private String catalog; @Field("prod_catalog_name") private String catalogName; @Field("prod_price") private double price; private Integer number; @Field("prod_description") private String description; @Field("prod_picture") private String picture; }
那么添加如下:
Products products = new Products(); products.setPid("8"); products.setPname("家天下嘻哈动物魔术贴挂钩绕带无痕挂钩2个装RB205"); products.setCatalogName("幽默杂货"); products.setPrice(5.5); products.setDescription("<TABLE id=table2 cellSpacing=5 cellPadding=5 width=700 border=0>\n..."); products.setPicture("2013112909444459_S.jpg"); UpdateResponse response = httpSolrClient.addBean(products); httpSolrClient.commit(); httpSolrClient.close();
注意,以上添加的时候是不是设置了id,那么如果你设置的id在索引库已存在,那就是更新,所以这点要注意!!!因为你一不小心就会把原有记录覆盖掉。
Solrj删除数据
根据id删除:
httpSolrClient.deleteById("1"); httpSolrClient.commit(); httpSolrClient.close();
根据ids删除:
httpSolrClient.deleteById(Arrays.asList("1","2","3")); httpSolrClient.commit(); httpSolrClient.close();
全部删除:
httpSolrClient.deleteByQuery("*:*");//全部删除。表示以查询作为删除条件。 httpSolrClient.commit(); httpSolrClient.close();
solrj查询数据
简单查询:
String q = "*:*"; //SolrParams是抽象类 SolrParams solrQuery = new SolrQuery(q); QueryResponse query = httpSolrClient.query(solrQuery); List<Products> product = query.getBeans(Products.class); System.out.println(product.size()); //默认只查询10条记录,这点要注意 for (Products p:product){ System.out.println(p); } httpSolrClient.commit(); httpSolrClient.close();
SolrQuery solrQuery = new SolrQuery(); String keyWorld = "情侣"; //模拟用户在搜索框输入情侣 //判断当前用户是否对keyWorld进行赋值,如果为空,查询所有,不为空,就专门查询用户输入的值 if(StringUtils.isEmpty(keyWorld)){ solrQuery.set("q","*:*"); }else { solrQuery.set("q","prod_pname:"+keyWorld); } QueryResponse query = httpSolrClient.query(solrQuery); List<Products> product = query.getBeans(Products.class); System.out.println(product.size()); for (Products p:product){ System.out.println(p.getPname()); } httpSolrClient.commit(); httpSolrClient.close();
复杂查询:
public static void main(String[] args) throws IOException, SolrServerException { SolrQuery solrQuery = new SolrQuery(); String keyWorld = "情侣"; //模拟用户在搜索框输入情侣 //判断当前用户是否对keyWorld进行赋值,如果为空,查询所有,不为空,就专门查询用户输入的值 if(StringUtils.isEmpty(keyWorld)){ solrQuery.set("q","*:*"); }else { solrQuery.set("q","prod_pname:"+keyWorld); } //设置fq String catalogName = ""; if(!StringUtils.isEmpty(catalogName)){ solrQuery.addFilterQuery("prod_catalog_name:"+catalogName); } //prod_price:[1 TO 5] String price_str="1-5";//如果是1- 那么对应的就是prod_price:[1 TO *] if(!StringUtils.isEmpty(price_str)){ String[] arrs = price_str.split("-"); if(arrs.length == 1){ //针对price_str是这种情况: 数字- solrQuery.addFilterQuery("prod_price:["+arrs[0]+" TO *]"); }else{ String perfix = arrs[0]; if(StringUtils.isEmpty(arrs[0])){//针对price_str是这种情况: -数字 perfix = "*"; } solrQuery.addFilterQuery("prod_price:["+perfix+" TO "+arrs[1]+"]"); } } //设置价格排序 /*psort=1为升序,psort=2为降序*/ int psort=2; if(psort==1){ solrQuery.addSort("prod_price", SolrQuery.ORDER.asc); }else if(psort==2){ solrQuery.addSort("prod_price", SolrQuery.ORDER.desc); } //设置分页 //start=0,rows=10 公式:start=rows*(page-1) solrQuery.setStart(0); solrQuery.setRows(6); //设置回显(可以保护隐私数据) solrQuery.setFields("id","prod_pname","prod_catalog_name");//注意这里没对prod_price做回显,所以查询结果是0.0 //设置默认域(df) //solrQuery.set("df","prod_pname"); //hi 设置高亮 solrQuery.setHighlight(true); solrQuery.addHighlightField("prod_pname"); solrQuery.setHighlightSimplePre("<font color='red'>"); solrQuery.setHighlightSimplePost("</font>"); QueryResponse query = httpSolrClient.query(solrQuery); //得到高亮数据 Map<String, Map<String, List<String>>> map = query.getHighlighting(); List<Products> product = query.getBeans(Products.class); System.out.println(product.size()); //下面的numFound表示查询出来的个数,跟上面的product.size()是一样的 long numFound = query.getResults().getNumFound(); System.out.println(numFound); for (Products p:product){ //获取id号 String pid = p.getPid();//注意要把索引库的id回显,否则获取不到,为null Map<String, List<String>> map1 = map.get(pid); List<String> map2 = map1.get("prod_pname"); if(map2!=null){ // System.out.println(p.getPrice()+":::"+p.getPname()); System.out.println(map2.get(0)+":::"+p.getPname()); }else { System.out.println(p.getPrice()+":::"+p.getPname()); } } httpSolrClient.commit(); httpSolrClient.close(); }
SpringBoot整合solr
maven坐标
<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-solr</artifactId> </dependency>
编写配置文件(application.yml):
spring: data: solr: host: http://192.168.6.133:8983/solr/db1_core
测试是否可以获取到solrClient,如下:
@SpringBootTest class SolrSpringbootApplicationTests { @Autowired SolrClient solrClient; @Test void contextLoads() { System.out.println(solrClient); } }
这篇关于Solr全文检索学习笔记·记录的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-16Maven资料入门指南
- 2024-11-16Maven资料入门教程
- 2024-11-16MyBatis Plus资料:新手入门教程与实践指南
- 2024-11-16MyBatis-Plus资料入门教程:快速上手指南
- 2024-11-16Mybatis资料入门教程:新手必看指南
- 2024-11-16MyBatis资料详解:新手入门与初级实战指南
- 2024-11-16MyBatisPlus资料:初学者入门指南与实用教程
- 2024-11-16MybatisPlus资料详解:初学者入门指南
- 2024-11-16MyBatisX资料:新手入门与初级教程
- 2024-11-16RESTful接口资料详解:新手入门指南