「java自动提取文章标签」提取标签内容

admin 2022-11-21 22:50:05 5267

今天给各位分享java自动提取文章标签的知识，其中也会对提取标签内容进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

如果懂一点Java知识就知道一共需要以下几个部分：

1.首先使用xml的一个dom解析获取到这个html后

2. 通过获取所有的A标签的Element

3.然后就可以根据这个Element获取到text信息了。

4.通过"java"或者空格作为分隔符使用split方法就可以区分出你的“提取出来的结果”和“百分比

”。

5.最后排序。

唯有回望，才能发现，我们究竟已经走出多远。

唯有前瞻，才能相信，我们沿着这条航线，一定能抵达梦想的彼岸。

假设有一篇文章，标题和内容如下：

如果要为此文章自动生成标签，该如何做呢？

1、创建一个带指针的字符串对象

2、生成标签字典

2.1 定义标签节点 TagNode

2.2 生成字典 TagNode[]

2.3 在文本中匹配标签

指针从文本的开头，向后遍历，计算当前的位置的headTwoCharMix，即此处的 “Bo” 2个字符，然后计算Hash值定位到字典的位置，字典的位置只会出现如下两种情况：

1、权重问题

标题和内容的权重应该是不同的，所以在匹配出标签的时候，需要给匹配到的标签添加分数，依据得分高低对匹配标签排序

2、英文字符大小写的问题

例如：标签库中有一个标签“Docker”，结果文中出现的是 “docker”，这两个字符串是不相等的，从逻辑上来讲，标签是匹配到的，所以要调整算法，将大写字母全部转换为小写字母来匹配

带指针的字符串 StringPointer.java

标签节点 TagNode.java

标签分数统计类 TagBean.java

标签匹配工具类 TagTools.java

try {

// 获得xml文档

Document doc = DocumentHelper.parseText(xml);

// 获得根节点

Element root = doc.getRootElement();

for(Iterator i = root.elementIterator(); i.hasNext();){

Element employee = (Element) i.next();

System.err.println(employee.getName()+":"+employee.getText());

}

} catch (DocumentException e) {

}

employee.getName() 就是标签名字

java自动提取文章标签的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于提取标签内容、java自动提取文章标签的信息别忘了在本站进行查找喔。