如下html字符串:
<!DOCTYPE HTML>
<html>
<head>
<meta charset="UTF-8" />
<style type="text/css"></style>
<img src="123.jpg" />
<div>
<img src="456.jpg" />
</div>
</html>
处理完如下:
<!DOCTYPE HTML>
<html>
<head>
<meta charset=\"UTF-8\" />
<style type=\"text/css\"></style>
<img src="123.jpg" />
<div>
<img src="456.jpg" />
</div>
</html>
想了想,要是直接把所有不属于img的引号找到比较困难,但是可以先把img的字符串整体先提取出来并保存,替换成特殊字符串,然后再去找到所有的引号,替换成\",之后再把保存的img字符串替换回来。
Pattern pattern=Pattern.compile("<img src=.+>");
String str="你的字符串";
Matcher matcher=pattern.matcher(str);
List<String> strList=new ArrayList<String>();
while(matcher.find()){
strList.add(matcher.group());//将带引号的img标签保存下来
}
str=matcher.replaceAll("<img>");//将所有的带引号img标签替换成<img>
Pattern pat=Pattern.compile("\"");
Matcher mat=pat.matcher(str);
str=mat.replaceAll("\\\\\"");//将剩下的引号替换为\";
Pattern p=Pattern.compile("<img>");
Matcher m=p.matcher(str);
int i=0;
while(m.find()){
str=m.replaceFirst(strList.get(i));//将带引号的img标签再替换回来
i++;
}
System.out.println(str);