「java词频统计中文」词频统计代码

博主:adminadmin 2022-12-08 17:00:05 72

本篇文章给大家谈谈java词频统计中文,以及词频统计代码对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

java程序:统计单词词频,

不多说,先看代码:

import java.util.*;

import java.io.*;

public class wordsRate {

public static void main(String[] args) throws Exception {

BufferedReader infile = new BufferedReader(new FileReader("article.txt"));

String string;

String file = null;

while ((string = infile.readLine()) != null) {

file += string;

}

file = file.toLowerCase();

file = file.replaceAll("[^A-Za-z]", " ");

file = file.replaceAll("\\s+", " ");

String words[];

words = file.split("\\s+");

MapString, Integer hashMap = new HashMapString, Integer();

for (int i = 0; i words.length; i++) {

String key = words[i];

if (hashMap.get(key) != null) {

int value = ((Integer) hashMap.get(key)).intValue();

value++;

hashMap.put(key, new Integer(value));

} else {

hashMap.put(key, new Integer(1));

}

}

MapString, Object treeMap = new TreeMapString, Object(hashMap);

MapString, Object treeMap1 = new TreeMapString, Object(hashMap);

BufferedWriter bw = new BufferedWriter(new FileWriter("result.txt"));

//下面是我改动的你的代码:

Iterator iter = treeMap.entrySet().iterator();

//定义两个新的数组ss1和ss2,数组长度就是hashMap的长度,里面放分别是hashMap的value和key

String ss1[]=new String[treeMap.size()];;

int ss2[]=new int[treeMap.size()];

int i=0;

while (iter.hasNext()) {

Map.Entry entry = (Map.Entry) iter.next();

int val = (Integer)entry.getValue();

String key =(String) entry.getKey();

ss1[i]=key;

ss2[i]=val;

i++;

}

//下面将ss1数组进行排序,并将其与ss2数组的内容相对应起来

int sValue=0;

String sKey="";

for(int j=0;jss2.length;j++){

for(int k=0;ki;k++){

if(ss2[j]ss2[k]){

sValue=ss2[j];

sKey=ss1[j];

ss2[j]=ss2[k];

ss1[j]=ss1[k];

ss2[k]=sValue;

ss1[k]=sKey;

}

}

}

for(int j=0;jss2.length;j++){

System.out.println(ss1[j]+"="+ss2[j]);

bw.write(ss1[j]+"="+ss2[j]);

bw.newLine();

bw.flush();

}

}

}

代码是本人自己写的,也经过了自己的验证,肯定没问题,希望采纳。

功能实现了,我是将其key和value值放在了数组之中,然后进行排序,将其输出到了txt文件里

排序方式不一样,实现的方式也不一样,所谓仁者见仁智者见智。

java词频统计

在Java里面一个File既可以代表一个文件也可以代表一个目录(就是你所说的文件夹). 因此你可以直接把一个文件夹的path传进去new File(path), 然后再用list()就可以获得该文件夹下的所有文件数组, 再一个个的输入File流就行了, 可以这样写:

public void directory() {

File dir = new File("E:\temp");

File[] files = dir.listFiles();

}

java程序统计单词词频

1.其实你这个功能用lucene加IK Analyer分词器很好解决。

把文档读入,然后用lucene创建索引,在索引里你的每个单词都会被分出来,词频就是命中次数totalHits,然后读取索引,放进map就行。这只是一个大体思路。

2.如果不用lucene,就用正则表达式匹配英文单词之间的空格,把空格去掉放进map的key,同时设置value=1。这样你的每个英文单词(有连词符号的如I'm根据你的需求另考虑)就都放进了map的key,且value都等于1。当然这些key值是有重复的,所以就要开始遍历比较key值,用几个嵌套循环把后面元素的key值与前面元素的key值比较,如果有相同的则把该元素remove,前面元素的value+1。考虑到map没有index可能遍历起来不容易实现比较,你也可以在匹配的时候把单词存进一个list,然后再新建一个同样长度的list用来存放词频(初值设为1),然后再按上面的思路来操作。也是大体思路,希望对你有所帮助

java词频统计中文的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于词频统计代码、java词频统计中文的信息别忘了在本站进行查找喔。

The End

发布于:2022-12-08,除非注明,否则均为首码项目网原创文章,转载请注明出处。