首页 > 如何从一份html源码中提取相应代码块的Xpath

如何从一份html源码中提取相应代码块的Xpath

工作中需要对网站某块区域的数据进行抓取,我想的方案就是用xpath取到网站某块区域的源码,再进行正则匹配。

现在遇到的问题是,有些网站经过javascript处理后,整个结构都变了,而Chrome的开发者工具以及Firebug取得的Xpath都是解析了javascript后的结果。
我在stackoverflow找到了一种方案(点这),但这种方案鲁棒性比较低,对于不规范的html,程序直接崩溃掉。
不知道各位有没有什么好的方案或者工具,可以直接提供一份html页面源码,就可以提取指定区域的Xpath。

【热门文章】
【热门文章】