比如说一个网页中有许多迅雷下载地址,都是以thunder开头的字符串,如何把所有字符串批量提取出来,输出(例如.txt)?多谢
正则表达式……
百度下资料还挺多的。
正则表达式
nodejs爬虫
通过正则表达式进行字符串查找应该可以吧
(thunder:\/\/[a-zA-Z0-9]*)
我是雷锋
(如果你只要一个页面上的链接) 页面上插入jquery然后
$('a[href^=thunder]').map(function() {console.log($(this).attr('href')); } );
如果是用java的话,可以用jsoup,jsoup可以定位html中id和class标签
DOM selector regex etc...
建议去看看伯乐在线的爬虫系列文章。