首页 > 如何提取网页文章中的标题?

如何提取网页文章中的标题?

有很多阅读类型的应用(例如Pocket)都可以将网页重新排版,并且将文章中的标题提取出来。不知是如何做到的? 下面是Pocket和网页的截图:


从网页中萃取内容和标题有很多算法,一般的搜索引擎在索引的时候都需要这么一个步骤,目前网上最通行的是readablitily的算法,这里有两个程序实现

  1. php实现https://github.com/feelinglucky/php-readability
  2. node.js实现https://code.google.com/p/arc90labs-readability/
【热门文章】
【热门文章】