首页 > 分布式服务器的配置和性能问题

分布式服务器的配置和性能问题

做分布式爬虫和搜索引擎对于服务器配置有什么要求?

实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。

我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没完全爬完,感觉很慢。

服务器配置如下:

其中服务器A既做主节点又做从节点,服务器B,C只做从节点。

我有几点困惑:
1.制约爬取速度的,是带宽还是cpu的处理能力?我看任务日志,在nutch流程中fetch(连接并下载网页)这一步耗时最长,占据了绝大部分时间,是不是意味着带宽是主要瓶颈?
2.关于一台2核4G1M的配置和2台1核2G1M的配置,哪个更好?为什么?(阿里云的阿里云推荐配置https://www.aliyun.com/easybuy)
3.如果租用10~20台服务器,配置如何选择?使用标准配置还是加带宽,带宽如何选择?
4.关于服务器负载的相关科普链接、干货(譬如量级、多少负载是个什么概念等、实测实例数据等等)?

希望有经验的大神指点迷津。本人对实际负载没有任何概念和经验,实验室需要,急着租服务器。


简直太浪费资源了!!(绝对不是嫉妒脸)
我做爬虫+搜索引擎的时候 用的都是双核2g2Mbps的 爬了好几千万的url后进入瓶颈

经过无数次实验发现制约爬行速度的首要是带宽

具体需要多大带宽要看服务器的并发能力来合理设置

我现在爬虫是一台8核8g100Mbps和2核2g5Mbps组成

2核用来跑代理 8核跑数据开了200进程 代理良好的情况下 爬行速度是400url/s 实时入网速度1.5mb/s

八核平均负载 1.62 1.51 1.50 爬行的url大部分是json的格式 比较小 所以会快很多

按照题主的情况 我觉得先看下服务器爬行时的情况,cpu满没满载,带宽峰值多少,内存占用等情况来购买服务器。。

【热门文章】
【热门文章】