首页 > java正则问题处理html字符串img标签不处理其它在 " 符号前面加上转义符号,请帮忙谢谢

java正则问题处理html字符串img标签不处理其它在 " 符号前面加上转义符号,请帮忙谢谢

如下html字符串:

<!DOCTYPE HTML>
<html>
<head>
<meta charset="UTF-8" /> 
<style type="text/css"></style>
<img src="123.jpg" />
<div>
<img src="456.jpg" />
</div>
</html>

处理完如下:

<!DOCTYPE HTML>
<html>
<head>
<meta charset=\"UTF-8\" /> 
<style type=\"text/css\"></style>
<img src="123.jpg" />
<div>
<img src="456.jpg" />
</div>
</html>

想了想,要是直接把所有不属于img的引号找到比较困难,但是可以先把img的字符串整体先提取出来并保存,替换成特殊字符串,然后再去找到所有的引号,替换成\",之后再把保存的img字符串替换回来。

    Pattern pattern=Pattern.compile("<img src=.+>");
    String str="你的字符串";
    Matcher matcher=pattern.matcher(str);
    List<String> strList=new ArrayList<String>();
    while(matcher.find()){
        strList.add(matcher.group());//将带引号的img标签保存下来
    }
    str=matcher.replaceAll("<img>");//将所有的带引号img标签替换成<img>

    Pattern pat=Pattern.compile("\"");
    Matcher mat=pat.matcher(str);
    str=mat.replaceAll("\\\\\"");//将剩下的引号替换为\";

    Pattern p=Pattern.compile("<img>");
    Matcher m=p.matcher(str);
    int i=0;
    while(m.find()){
        str=m.replaceFirst(strList.get(i));//将带引号的img标签再替换回来
        i++;
    }
    System.out.println(str);
【热门文章】
【热门文章】