「Java泰语分词」泰语词类划分
本篇文章给大家谈谈Java泰语分词,以及泰语词类划分对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
java如何分词??
如果你的分词规则是在一个字符串的开头和结尾加上"_",然后两个字符一分的话,代码可以这样写:
import java.util.ArrayList;
import java.util.List;
public class Participle
{
private static final String HEAD_END_STR = "_";
private static final int PARTICIPLE_LENGTH = 2;
public static void main(String[] args)
{
String exampleWord = "计算机";
exampleWord = "_" + exampleWord + "_";
int length = exampleWord.length();
ListString result = new ArrayListString();
for (int i = 0; i length - 1; i++)
{
String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);
result.add(str);
}
System.out.println(result);
}
}
输出结果:_计, 计算, 算机, 机_
用java读取文档并分词。
需要commons-io包, 或者自己写读文件的部分
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.commons.io.FileUtils;
public class Test20 {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
String str = null;
try {
str = FileUtils.readFileToString(new File("e.txt"));
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
Pattern p = Pattern.compile("\\b[\\w-']+\\b");
Matcher m = p.matcher(str);
ListWord words = new ArrayListWord();
while(m.find()){
add(words, m.group().trim());
}
Collections.sort(words, new ComparatorWord(){
@Override
public int compare(Word o1, Word o2) {
// TODO Auto-generated method stub
return o1.getWord().compareTo(o2.getWord());
}});
System.out.println(words);
}
private static void add(ListWord words, String word) {
// TODO Auto-generated method stub
for(Word temp : words){
if(temp.getWord().equals(word)){
temp.setCount(temp.getCount() + 1);
return;
}
}
Word w = new Word();
w.setWord(word);
words.add(w);
}
}
class Word{
private String word;
private int count = 1;
public String getWord() {
return word;
}
public void setWord(String word) {
this.word = word;
}
public int getCount() {
return count;
}
public void setCount(int count) {
this.count = count;
}
@Override
public String toString() {
return "Word [word=" + word + ", count=" + count + "]";
}
}
谁来推荐一个JAVA的分词工具
java读取中文分词工具:linger
Java开源中文分词器
1、word分词器
2、Ansj分词器
3、Stanford分词器
4、FudanNLP分词器
5、Jieba分词器
6、Jcseg分词器
7、MMSeg4j分词器
8、IKAnalyzer分词器
9、Paoding分词器
10、smartcn分词器
java语言中文分词程序怎么编写分词程序正
现可以提供两种思路:
1.String或是StringBuffer(建议用) 中的indexOf("中华")方法,查找给定的的字符串中是否有给定词表中的词。
2.借鉴编译原理中的状态装换的思想。
先编写一个状态机,用于测试给定字符串中的词是否满足词表中的内容。
写在最后:1)建议使用第一种方法,因为在java 内部实现的查找操作其实 和你想得思路是相同的,不过他的效率会高些。
2)如果个人的编程能力比较强或是不考虑效率只是想实现专有的分词算法。可以使用第二种方法。
3)以上的两种方法都可以使用多线程来提高程序的效率。
java word分词器怎样安装在java中
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。
如果需要安装word分词器可以参考下面的步骤:
1、确保电脑上已经安装了JDK软件和Eclispe工具,没有安装的可以到对应的官网下载安装:
JDK官网:
Eclipse官网:
2、下载word分词器的相关jar包:
打开word分词器的官方github主页:
下拉找到ReadME部分,点击“编译好的jar下载”:
页面将会跳转到到百度云盘的下载页面,按照需求下载指定的版本即可。
注意:word1.3需要JDK1.8。
下载完成之后解压到指定目录。
3、创建Java项目,导入word分词器的相关jar包:
打开Eclipse,右键创建Java project项目:
然后右键项目选择Build path打开导入页面,导入刚才下载的jar包到项目中:
导入成功之后就可以在自己的项目中使用word分词器了。
Java泰语分词的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于泰语词类划分、Java泰语分词的信息别忘了在本站进行查找喔。
发布于:2022-11-25,除非注明,否则均为
原创文章,转载请注明出处。