一般公司做爬虫采集的话常用什么语言

一般公司做爬虫采集的话常用什么语言在京东搜点书全是有关java的

nodejs +1

用浏览器或者类浏览器解析页面远没有正则分析来的快想用选择器就要建树这可不是个省力气的活
不过正则解析最大的问题是别人一改版你这可能就是改到爽的节奏

nodejs +1

我所在的公司用的是Java。

可以试试 jsoup 这个工具，使用 java 开发的。

为什么这么多人推荐node.js呢？难道前几年没有node.js的时候就没有爬虫了么。

见过一个go语言写的爬虫，据作者说效率是超级高

来用 pyspider ，性能不比 scrapy 差，更灵活，带 WEBUI，还支持 JS 抓取哦~
自带 demo 可以随便玩~

语言不是问题，具体业务看模块，要有一个好用的http库一个好用的并发库一个好用的作业调度库一个好用的标记语言解析库，这些都具备了再说语言有不错的性能有比较优美的语法最后还要看公司大部分人是不是能够接受这门语言，从宽泛的角度来看，python java ruby nodejs c#，都具备这些条件，至于如何取舍就看后面的几个条件了

selenium

推荐一篇文章
博客爬虫技术分享

python+1

用PHP写过不少爬虫，处理起数据来倒是得心应手，但PHP本身不太适合做爬虫这样的东西。或许Python值得一试，我是没试过

可以试一试python的scrapy

最简单的就是javascript了，完全脚本化写爬虫，推荐用神箭手云爬虫框架。

nodejs +1

现在都开始用node做了吧。 javascript是最懂html的

用python居多，当然java c++也不少。 python来的快，相对于中小规模很有优势，要是大规模就需要优化或者c来重写部分性能瓶颈的代码。

scrapy +1

用起来很方便，功能还算很多的，文档很清晰：

scrapy官网

node +1

Nodejs, Java, C#, VB, PHP, Python, Ruby, Perl

写过ruby的用nokogiri, 不过高效率的话还是python比较顺手

其实我不太同意做了DHT爬虫那位的说法。
不同语言自然会有不同用处。离开环境谈哪个好，哪个不好都是耍流氓。
1，如果是自己做着玩的话，定向爬几个页面，效率不是核心要求的话，问题不会大，什么语言都行的，性能差异不会大。当然，如果碰到十分复杂的页面，正则写的很复杂的话，爬虫的可维护性就会下降。

2，如果是做定向爬取，而目标又要解析动态js。
那么这个时候，用普通的请求页面，然后得到内容的方法肯定不行了，就要一个类似firfox，chrome的js引擎来对js代码做动态解析。这个时候推荐casperJS+phantomjs或slimerJS+phantomjs

3，如果是大规模的网站爬取
这个时候就要考虑到，效率，扩展性，可维护性，等等了。
大规模的爬取涉及的方面很多，比如分布式爬取，判重机制，任务调度。这些问题深入下去哪一个简单了？
语言选取这个时候很重要。

NodeJs：做爬虫效率很高。高并发，多线程编程变成了简单的遍历和callback，内存cpu占用小，要处理好callback。

PHP：各种框架到处有，随便拉个来用都行。但是，PHP的效率真的有问题…不多说

Python:我用python写的比较多，对各种问题都有比较好的支持。scrapy框架很好用，优点多。

我觉得js也不是很适合写…效率问题。没写过，估计会有麻烦一堆。

据我知道的，大公司也有用c++的，总之大多数都是在开源框架上改造。真重新造个轮子的不多吧。
不值。

随手凭印象写的，欢迎指正。

我们就是用ruby写的

做了台湾台铁0点抢票，刚开始也是PHP做的，后来发现每天0点有好多票要抢，的做成并发的同时执行的，我就用nodejs调用php ，解决了并发问题，虽然简陋，但能用。。。以前20张票需要5分钟那样完成，现在20张票也就30多秒。。。

题主都自己给加了 python 标签，为啥还要问啥语言……

Python

强烈支持

nodejs +1

不，我錯了。

高性能爬蟲並不像服務器那樣適合併發，而爲了效率（減少重複）更適合並行而非併發。

好吧我又錯了。

併發並行對爬蟲而言幾乎一樣~

不，不一樣。

算了，nodejs +1。

python比较多吧，偶尔会去用java

【热门文章】