首页 > 怎么删除300+有用数据以外的数据?

怎么删除300+有用数据以外的数据?

爬虫爬了5000+条书名,我以前没写代码前就手动筛选出300+条有用的书。现在写代码,爬虫程序爬书网页里面的东西。
怎么可以已经已经有的300+数据,把其余的4700+删除。
菜鸟学生一名,sql也只是会做网页的水平,触发器等高级的略懂,python最近自学的,也不会用爬虫框架,只是用urllib+re,数据库是sqlite
望解答,谢谢。第一问也不怎么懂规矩。


其实好办。

5000+和300+全部读出来,遍历一遍5000+,验证每个是否在300+里,是就留下。

Python的list查询是自动hash高效查询的,并没有性能问题。(哪怕不高效,5000*300个单元操作也并不是问题)

这个问题的麻烦反倒是:你整理的书名可能做了删改、排版等操作,或许不是和原书名完全一致的。如果有这种情况存在,请小心处理,不要生硬比较。

【热门文章】
【热门文章】