首页 > 采集程序如何智能分析出来主内容?

采集程序如何智能分析出来主内容?

需求就是给一个网页地址,在不提供分析规则的情况下,9如何智能地提取出来这个地址的网页的主内容。


不提供分析规则的事情是不存在的,智能本身就是一种规则,是精心设计的。
你需要研究一下人是怎么去分析一个网页代码的,然后从人的分析过程中提取规则,其实人类的思想本身也是一种算法规则。


  1. dom树查找
  2. xpath基于dom树更精确查找,同时可以剔除不需要的内容
  3. readability类似算法

如果网页写得不规范,或者各种编码问题,都会出错。
智能的实现需要很多算法和逻辑去实现。

【热门文章】
【热门文章】