「java去除html标签」js删除html标签
今天给各位分享java去除html标签的知识,其中也会对js删除html标签进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
- 1、java爬取知乎答案的时候,如何去除其中的HTML标签
- 2、用java字符串方法去除HTML代码标签的问题
- 3、java 如何去除html中的一个指定标签和指定标签里的内容
- 4、java正则表达式去除html标签保留指定标签
java爬取知乎答案的时候,如何去除其中的HTML标签
可以通过正则表达式去除html标签
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlUtil {
private static final String regEx_script = "script[^]*?[\\s\\S]*?\\/script"; // 定义script的正则表达式
private static final String regEx_style = "style[^]*?[\\s\\S]*?\\/style"; // 定义style的正则表达式
private static final String regEx_html = "[^]+"; // 定义HTML标签的正则表达式
private static final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符
/**
* @param htmlStr
* @return
* 删除Html标签
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签
Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
Matcher m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签
Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
Matcher m_space = p_space.matcher(htmlStr);
htmlStr = m_space.replaceAll(""); // 过滤空格回车标签
return htmlStr.trim(); // 返回文本字符串
}
public static String getTextFromHtml(String htmlStr){
htmlStr = delHTMLTag(htmlStr);
htmlStr = htmlStr.replaceAll(" ", "");
htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);
return htmlStr;
}
public static void main(String[] args) {
String str = "div style='text-align:center;' 整治“四风” 清弊除垢br/span style='font-size:14px;' /spanspan style='font-size:18px;'公司召开党的群众路线教育实践活动动员大会/spanbr//div";
System.out.println(getTextFromHtml(str));
}
}
用java字符串方法去除HTML代码标签的问题
可以通过replaceAll方法进行字符串替换,之后替换的内容用正则表达式来匹配。举例
String ss="div id='mini_nav_qq'lia target='_top' " +
"href='http:// lady.qq.com/emo/emotio.shtml'情感/a/lili" +
"a target='_top' href=''美容/a/li/div";
String ss=ss.replaceAll("(/?\\S+)\\s*?[^]*?(/?)","$1$2");//通过只保留"“后面的字符串,之后删除空格和后面的内容,快捷的实现去除操作(此方法通用于所有的标签去除,只需要传入不同的ss值)。
结果就是:divlia情感/a/lilia美容/a/li/div。
java 如何去除html中的一个指定标签和指定标签里的内容
java处理html指定标签最好用正则表达式。例如要去除html中所有的h1标签和类容就可以用下面的演示代码:
package konw.reg;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RemoveTag
{
public static void main(String[] args)
{
FileReader fr;
String content =null;
String regex = "[Hh]1.*/[Hh]1";
try
{
fr = new FileReader("tag.html");
BufferedReader br = new BufferedReader(fr);
String str = null;
StringBuffer sb = new StringBuffer();
while((str = br.readLine()) != null)
{
sb.append(str+"\n");
}
content = sb.toString();
br.close();
} catch (FileNotFoundException e)
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
}
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(content);
StringBuffer sb1 = new StringBuffer();
while(matcher.find())
{
sb1.append(matcher.replaceAll("")+"\n");
}
try
{
FileWriter fw = new FileWriter("tag.html");
BufferedWriter bw = new BufferedWriter(fw);
fw.write(sb1.toString());
bw.close();
} catch (IOException e)
{
e.printStackTrace();
}
}
}
java正则表达式去除html标签保留指定标签
String reg = "\\/?html[^]*";
String html = "";
html.replaceAll(reg,"");
关于java去除html标签和js删除html标签的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。