首页 > 请问python2.7在获取到网页的html后如何能匹配正文的标题和发布时间

请问python2.7在获取到网页的html后如何能匹配正文的标题和发布时间

1:使用goose已经可以爬到meta里的title,但这个标题的内容比正文的标题内容要多一些,例如:meta的title:“艾君:我为何说“闹洞房”从来不是啥好风俗,早该废弃-艾君-搜狐博客”
而正文里的title:“艾君:我为何说“闹洞房”从来不是啥好风俗,早该废弃”,请问如何精准的获取到正文的title呢?
2:如果我能获取到正文里的title,怎么可以精准获取到发布时间呢?
如果是非定向爬取怎么做才好呢?谢谢


可以使用beautifulsoup4来对html进行解析


顶楼上,推荐beautifulsoup

【热门文章】
【热门文章】