「java去除html标签」js删除html标签

博主:adminadmin 2023-01-14 17:45:09 536

今天给各位分享java去除html标签的知识,其中也会对js删除html标签进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

java爬取知乎答案的时候,如何去除其中的HTML标签

可以通过正则表达式去除html标签

import java.util.regex.Matcher;  

import java.util.regex.Pattern;  

  

public class HtmlUtil {  

    private static final String regEx_script = "script[^]*?[\\s\\S]*?\\/script"; // 定义script的正则表达式  

    private static final String regEx_style = "style[^]*?[\\s\\S]*?\\/style"; // 定义style的正则表达式  

    private static final String regEx_html = "[^]+"; // 定义HTML标签的正则表达式  

    private static final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符  

      

    /** 

     * @param htmlStr 

     * @return 

     *  删除Html标签 

     */  

    public static String delHTMLTag(String htmlStr) {  

        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);  

        Matcher m_script = p_script.matcher(htmlStr);  

        htmlStr = m_script.replaceAll(""); // 过滤script标签  

  

        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);  

        Matcher m_style = p_style.matcher(htmlStr);  

        htmlStr = m_style.replaceAll(""); // 过滤style标签  

  

        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  

        Matcher m_html = p_html.matcher(htmlStr);  

        htmlStr = m_html.replaceAll(""); // 过滤html标签  

  

        Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);  

        Matcher m_space = p_space.matcher(htmlStr);  

        htmlStr = m_space.replaceAll(""); // 过滤空格回车标签  

        return htmlStr.trim(); // 返回文本字符串  

    }  

      

    public static String getTextFromHtml(String htmlStr){  

        htmlStr = delHTMLTag(htmlStr);  

        htmlStr = htmlStr.replaceAll(" ", "");  

        htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);  

        return htmlStr;  

    }  

      

    public static void main(String[] args) {  

        String str = "div style='text-align:center;' 整治“四风”   清弊除垢br/span style='font-size:14px;' /spanspan style='font-size:18px;'公司召开党的群众路线教育实践活动动员大会/spanbr//div";  

        System.out.println(getTextFromHtml(str));  

    }  

}

用java字符串方法去除HTML代码标签的问题

可以通过replaceAll方法进行字符串替换,之后替换的内容用正则表达式来匹配。举例

String ss="div id='mini_nav_qq'lia target='_top' " +

  "href='http:// lady.qq.com/emo/emotio.shtml'情感/a/lili" +

  "a target='_top' href=''美容/a/li/div";

String ss=ss.replaceAll("(/?\\S+)\\s*?[^]*?(/?)","$1$2");//通过只保留"“后面的字符串,之后删除空格和后面的内容,快捷的实现去除操作(此方法通用于所有的标签去除,只需要传入不同的ss值)。

结果就是:divlia情感/a/lilia美容/a/li/div。

java 如何去除html中的一个指定标签和指定标签里的内容

java处理html指定标签最好用正则表达式。例如要去除html中所有的h1标签和类容就可以用下面的演示代码:

package konw.reg;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.FileWriter;

import java.io.IOException;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class RemoveTag

{

    public static void main(String[] args)

    {

        FileReader fr;

        String content =null;

        String regex = "[Hh]1.*/[Hh]1";

        try

        {

            fr = new FileReader("tag.html");

            BufferedReader br = new BufferedReader(fr);

            String str = null;

            StringBuffer sb = new StringBuffer();

            while((str = br.readLine()) != null)

            {

                sb.append(str+"\n");

            }

            content = sb.toString();

            br.close();

            

        } catch (FileNotFoundException e)

        {

            e.printStackTrace();

        } catch (IOException e)

        {

            e.printStackTrace();

        }

        Pattern pattern = Pattern.compile(regex);

        Matcher matcher = pattern.matcher(content);

        StringBuffer sb1 = new StringBuffer();

        while(matcher.find())

        {

            sb1.append(matcher.replaceAll("")+"\n");

        }

        try

        {

            FileWriter fw = new FileWriter("tag.html");

            BufferedWriter bw = new BufferedWriter(fw);

            fw.write(sb1.toString());

            bw.close();

        } catch (IOException e)

        {

            e.printStackTrace();

        }

    }

}

java正则表达式去除html标签保留指定标签

String reg = "\\/?html[^]*";

String html = "";

html.replaceAll(reg,"");

关于java去除html标签和js删除html标签的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。