「java文档分词」java中文分词工具

博主:adminadmin 2023-01-13 22:06:07 348

本篇文章给大家谈谈java文档分词,以及java中文分词工具对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

如何用接瓦法在java中对文章进行分词

用Java的StringTokenizer可以直接将字符串按照空格进行分词。 import java.util.StringTokenizer; public class Test2 { public static void main(String [] args) { String str = "hello java world"; StringTokenizer st = new StringTokenize

java如何分词??

如果你的分词规则是在一个字符串的开头和结尾加上"_",然后两个字符一分的话,代码可以这样写:

import java.util.ArrayList;

import java.util.List;

public class Participle

{

private static final String HEAD_END_STR = "_";

private static final int PARTICIPLE_LENGTH = 2;

public static void main(String[] args)

{

String exampleWord = "计算机";

exampleWord = "_" + exampleWord + "_";

int length = exampleWord.length();

ListString result = new ArrayListString();

for (int i = 0; i length - 1; i++)

{

String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);

result.add(str);

}

System.out.println(result);

}

}

输出结果:_计, 计算, 算机, 机_

用java读取文档并分词。

需要commons-io包, 或者自己写读文件的部分

import java.io.File;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Collections;

import java.util.Comparator;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.commons.io.FileUtils;

public class Test20 {

    /**

     * @param args

     */

    public static void main(String[] args) {

        // TODO Auto-generated method stub

        String str = null;

        try {

            str = FileUtils.readFileToString(new File("e.txt"));

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        Pattern p = Pattern.compile("\\b[\\w-']+\\b");

        Matcher m = p.matcher(str);

        ListWord words = new ArrayListWord();

        while(m.find()){

            add(words, m.group().trim());

        }

        Collections.sort(words, new ComparatorWord(){

            @Override

            public int compare(Word o1, Word o2) {

                // TODO Auto-generated method stub

                return o1.getWord().compareTo(o2.getWord());

            }});

        System.out.println(words);

    }

    private static void add(ListWord words, String word) {

        // TODO Auto-generated method stub

        for(Word temp : words){

            if(temp.getWord().equals(word)){

                temp.setCount(temp.getCount() + 1);

                return;

            }

        }

        Word w = new Word();

        w.setWord(word);

        words.add(w);

    }

}

class Word{

    private String word;

    private int count = 1;

    public String getWord() {

        return word;

    }

    public void setWord(String word) {

        this.word = word;

    }

    public int getCount() {

        return count;

    }

    public void setCount(int count) {

        this.count = count;

    }

    @Override

    public String toString() {

        return "Word [word=" + word + ", count=" + count + "]";

    }

    

}

java word分词器怎样安装在java中

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。

如果需要安装word分词器可以参考下面的步骤:

1、确保电脑上已经安装了JDK软件和Eclispe工具,没有安装的可以到对应的官网下载安装:

JDK官网:

Eclipse官网:

2、下载word分词器的相关jar包:

打开word分词器的官方github主页:

下拉找到ReadME部分,点击“编译好的jar下载”:

页面将会跳转到到百度云盘的下载页面,按照需求下载指定的版本即可。

注意:word1.3需要JDK1.8。

下载完成之后解压到指定目录。

3、创建Java项目,导入word分词器的相关jar包:

打开Eclipse,右键创建Java project项目:

然后右键项目选择Build path打开导入页面,导入刚才下载的jar包到项目中:

导入成功之后就可以在自己的项目中使用word分词器了。

关于java文档分词和java中文分词工具的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。