首页 > 关于网站抓数据的问题【菜鸟】

关于网站抓数据的问题【菜鸟】

试图从网站上抓数据,如果是静态的网页,整个数据库以文本的形式在网页上似乎不是难事。但是,有些网站的数据是动态生成的。例如:需要用户输入关键字,选择时间段进行搜索后生成数据表格,或者需要手动点击多级链接后出现数据表格。对此类网页抓数据的方法毫无头绪。求一个相对简单的解决方案,只要能解决问题就行,不局限于一定要使用某一软件或语言。

要抓的网页例子:

http://meps.ahrq.gov/mepsweb/data_stats/quick_tables_search.jsp?component=1&subcomponent=0
次站是需要进行关键字搜索,通过站内搜索引擎获得数据表

http://apps.who.int/gho/data/node.main
次站需要点击多级链接后生成数据表

万分感谢愿意提供思路的前辈!


意识到了问题的难度,想试图简化这个问题。有什么可以批量抓取静态网页的包或软件可以推荐吗?简易也没关系,最好是可以拿来就用,多多益善。谢谢!


curl是你想要的

看这篇文章


你可以看看 火车头 工具


动态生成的肯定能抓取到他ajax提交的地址吧,能抓取到地址就模拟数据提交一下,返回的都是你要的数据吧.哪就ok了吧.


htmlunit,带js解析引擎,可以执行js,不复杂的js可以得到执行结果http://htmlunit.sourceforge.net/


python写过抓图片的

【热门文章】
【热门文章】