首页 > 求助抓取淘宝商品页面出现问题

求助抓取淘宝商品页面出现问题

从昨天开始有部分淘宝商品抓取网页的时候是空,服务器和我本地wget都是相同的问题,请大家帮我对比以下2个命令:

wget http://detail.tmall.com/item.htm?id=26915604485 (数据空)
wget http://detail.tmall.com/item.htm?id=35272160464 (数据正常)

以上两个链接在浏览器都可以正常访问,但是wget的时候第一条是抓不到网页信息。 我尝试过PHP模拟浏览器的头还是没法正常抓取,请高人帮我看看~

PS:我猜测是header有调整,另外这个网址访问的时候有跳转3次(302),最后还是跳转到相同的url,貌似也不太正常

$url = "http://detail.tmall.com/item.htm?id=26915604485";//抓取失败
//$url = "http://detail.tmall.com/item.htm?id=35272160464";//抓取成功
$header[] = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: zh-CN,zh;q=0.8,en;q=0.6";
//$header[] = "Pragma: "; // browsers keep this blank.

curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36');
curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
curl_setopt($curl, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_REFERER, "http://www.taobao.com");
curl_setopt($curl, CURLOPT_AUTOREFERER, true);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_TIMEOUT, 10);
$data = curl_exec($ch);
curl_close($ch);
print_r($data);

我也遇到同样的问题。最后怎么解决的呢?

【热门文章】
【热门文章】