网页爬虫,javascript_如何批量提取网页中的特定字符串？，网页爬虫,javascript,网站

如何批量提取网页中的特定字符串？

比如说一个网页中有许多迅雷下载地址，都是以thunder开头的字符串，如何把所有字符串批量提取出来，输出（例如.txt）？多谢

正则表达式……

百度下资料还挺多的。
正则表达式

nodejs爬虫

通过正则表达式进行字符串查找应该可以吧

(thunder:\/\/[a-zA-Z0-9]*)
我是雷锋

(如果你只要一个页面上的链接) 页面上插入jquery然后

$('a[href^=thunder]').map(function() {console.log($(this).attr('href')); } );

如果是用java的话，可以用jsoup，jsoup可以定位html中id和class标签

DOM selector regex etc...
建议去看看伯乐在线的爬虫系列文章。