要设计实现一个采集系统,怎么样实现输入一个列表链接地址,然后自动解析文章列表和文章内容?有没有什么好的思路?
可以使用Python,写爬虫来实现。
看你标签是php,那么就默认你是要用php去做啦。
常规的采集器都是给定一个列表的链接地址,然后取得这个连接的内容,之后就是正则了,解析列表的开始部分结束部分。
接下来对列表的内容进行切割,以特定内容切割,获得单条数据的区域块,正则匹配url等
进入详情页,获取想要得到的内容,存储
做起来不难,但是需要耐心
bash shell 比较简单
看你采集什么网址上的啦,然后打算用什么语言