「java去除html标签」js删除html标签

admin 2023-01-14 17:45:09 1572

今天给各位分享java去除html标签的知识，其中也会对js删除html标签进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、java爬取知乎答案的时候，如何去除其中的HTML标签
2、用java字符串方法去除HTML代码标签的问题
3、java 如何去除html中的一个指定标签和指定标签里的内容
4、java正则表达式去除html标签保留指定标签

java爬取知乎答案的时候，如何去除其中的HTML标签

可以通过正则表达式去除html标签

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class HtmlUtil {

private static final String regEx_script = "script[^]*?[\\s\\S]*?\\/script"; // 定义script的正则表达式

private static final String regEx_style = "style[^]*?[\\s\\S]*?\\/style"; // 定义style的正则表达式

private static final String regEx_html = "[^]+"; // 定义HTML标签的正则表达式

private static final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符

/**

* @param htmlStr

* @return

* 删除Html标签

public static String delHTMLTag(String htmlStr) {

Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);

Matcher m_script = p_script.matcher(htmlStr);

htmlStr = m_script.replaceAll(""); // 过滤script标签

Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);

Matcher m_style = p_style.matcher(htmlStr);

htmlStr = m_style.replaceAll(""); // 过滤style标签

Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);

Matcher m_html = p_html.matcher(htmlStr);

htmlStr = m_html.replaceAll(""); // 过滤html标签

Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);

Matcher m_space = p_space.matcher(htmlStr);

htmlStr = m_space.replaceAll(""); // 过滤空格回车标签

return htmlStr.trim(); // 返回文本字符串

}

public static String getTextFromHtml(String htmlStr){

htmlStr = delHTMLTag(htmlStr);

htmlStr = htmlStr.replaceAll(" ", "");

htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);

return htmlStr;

}

public static void main(String[] args) {

String str = "div style='text-align:center;' 整治“四风” 清弊除垢br/span style='font-size:14px;' /spanspan style='font-size:18px;'公司召开党的群众路线教育实践活动动员大会/spanbr//div";

System.out.println(getTextFromHtml(str));

}

用java字符串方法去除HTML代码标签的问题

可以通过replaceAll方法进行字符串替换，之后替换的内容用正则表达式来匹配。举例

String ss="div id='mini_nav_qq'lia target='_top' " +

"href='http:// lady.qq.com/emo/emotio.shtml'情感/a/lili" +

"a target='_top' href=''美容/a/li/div";

String ss=ss.replaceAll("(/?\\S+)\\s*?[^]*?(/?)","$1$2");//通过只保留"“后面的字符串，之后删除空格和后面的内容，快捷的实现去除操作（此方法通用于所有的标签去除，只需要传入不同的ss值）。

结果就是：divlia情感/a/lilia美容/a/li/div。

java 如何去除html中的一个指定标签和指定标签里的内容

java处理html指定标签最好用正则表达式。例如要去除html中所有的h1标签和类容就可以用下面的演示代码：

package konw.reg;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.FileWriter;

import java.io.IOException;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class RemoveTag

{

public static void main(String[] args)

{

FileReader fr;

String content =null;

String regex = "[Hh]1.*/[Hh]1";

try

{

fr = new FileReader("tag.html");

BufferedReader br = new BufferedReader(fr);

String str = null;

StringBuffer sb = new StringBuffer();

while((str = br.readLine()) != null)

{

sb.append(str+"\n");

}

content = sb.toString();

br.close();

} catch (FileNotFoundException e)

{

e.printStackTrace();

} catch (IOException e)

{

e.printStackTrace();

}

Pattern pattern = Pattern.compile(regex);

Matcher matcher = pattern.matcher(content);

StringBuffer sb1 = new StringBuffer();

while(matcher.find())

{

sb1.append(matcher.replaceAll("")+"\n");

}

try

{

FileWriter fw = new FileWriter("tag.html");

BufferedWriter bw = new BufferedWriter(fw);

fw.write(sb1.toString());

bw.close();

} catch (IOException e)

{

e.printStackTrace();

}

java正则表达式去除html标签保留指定标签

String reg = "\\/?html[^]*";

String html = "";

html.replaceAll(reg,"");

关于java去除html标签和js删除html标签的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：java去除html标签