包含paodingjava的词条

admin 2022-11-22 19:21:09 2247

本篇文章给大家谈谈paodingjava，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、谁来推荐一个JAVA的分词工具
2、Java中文分词算法
3、巴巴运动网最新代码部署报错
4、java搭建lucene需要的jar包
5、IK和Paoding分词器的区别
6、java 搜索引擎

谁来推荐一个JAVA的分词工具

java读取中文分词工具：linger

Java开源中文分词器

1、word分词器

2、Ansj分词器

3、Stanford分词器

4、FudanNLP分词器

5、Jieba分词器

6、Jcseg分词器

7、MMSeg4j分词器

8、IKAnalyzer分词器

9、Paoding分词器

10、smartcn分词器

Java中文分词算法

这两天正好在玩lucene,没用庖丁分词,主要是嫌它要配置环境,麻烦

下面是demo,记得要加lucene-core-2.3.2.jar和lucene-Analyzer.jar以及IKAnalyzer.jar这几个包,有问题call我

import java.io.Reader;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.StopFilter;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenFilter;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.cjk.CJKAnalyzer;

import org.apache.lucene.analysis.cn.ChineseAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.mira.lucene.analysis.IK_CAnalyzer;

public class TestJeAnalyzer {

private static String testString1 = "冗长的代码常常是复杂性的标志，会导致代码难以测试和维护.";

public static void testStandard(String testString) throws Exception{

Analyzer analyzer = new StandardAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====standard analyzer====");

System.err.println("分析方法：默认没有词只有字");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

public static void testCJK(String testString) throws Exception{

Analyzer analyzer = new CJKAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====cjk analyzer====");

System.err.println("分析方法:交叉双字分割");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

public static void testChiniese(String testString) throws Exception{

Analyzer analyzer = new ChineseAnalyzer();

Reader r = new StringReader(testString);

TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);

System.err.println("=====chinese analyzer====");

System.err.println("分析方法:基本等同StandardAnalyzer");

Token t;

while ((t = tf.next()) != null) {

System.out.println(t.termText());

}

public static void testJe(String testString) throws Exception{

// Analyzer analyzer = new MIK_CAnalyzer();

Analyzer analyzer = new IK_CAnalyzer();

Reader r = new StringReader(testString);

TokenStream ts = (TokenStream)analyzer.tokenStream("", r);

System.err.println("=====je analyzer====");

System.err.println("分析方法:字典分词,正反双向搜索，具体不明");

Token t;

while ((t = ts.next()) != null) {

System.out.println(t.termText());

}

public static void main(String[] args) throws Exception{

// String testString = testString1;

String testString = testString1;

System.out.println(testString);

testStandard(testString);

testCJK(testString);

// testPaoding(testString);

testChiniese(testString);

testJe(testString);

}

巴巴运动网最新代码部署报错

启动服务器的时候抛出 dic home should not be a file, but a directory!

分析问题：这是因为PaodingMaker.getFile()方法中采用了老版本的java.net.URL.getFile()，不能够识别中文或者空格，只有采用URL.toURI().getPath()才能识别汉字与空格。

解决问题：需要修改一下Paoding中的代码了。找到PaodingMaker.java的setDicHomeProperties方法，修改File dicHomeFile = getFile(dicHome);为

File dicHomeFile2 = getFile(dicHome);

String path="";

try {

path = URLDecoder.decode(dicHomeFile2.getPath(),"UTF-8");

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

File dicHomeFile = new File(path);

一年好运随春到四季彩云滚滚来万事如意

java搭建lucene需要的jar包

　lucene全文检索需要的三个jar包：

1、lucene-analyzers-3.6.1.jar

2、lucene-core-3.6.1.jar

3、lucene-highlighter-3.6.1.jar

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

IK和Paoding分词器的区别

可以用IKAnalyzer和PaodingAnalyzer，这两个都有对Lucene的封装接口，中科院的Ictclas是要收费的，而且是用DLL，和Java结合不好。

中文分词（ChineseWordSegmentation）指的是将一个汉字序列切分成一个一个单独的词。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

java 搜索引擎

用lucene检索包，很强大。到官网下一个最新版本就可以进行二次开发。

至于中文支持，可以使用流行的中文分词包，建议用用paoding。

paodingjava的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于、paodingjava的信息别忘了在本站进行查找喔。

标签：paodingjava