首页 > Python如何将Unicode转换为HTML

Python如何将Unicode转换为HTML

现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:

<div class="item"><div class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏  界面设计</strong>
</a>
<p></p>

<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>

</div></div>

格式为unicode
如何将它转为html格式,然后进行提取?


你可能弄混了一些概念……(。・`ω´・)

两者不是同一种东西,不能互相转换。就好像我能说,能把python转换成unicode吗?显然不能这么说。你只能说是把python代码的默认编码转换成unicode。

如果你是需要python字符串的转换成unicode,在py2中提供了Unicode这个类,而py3中,字符串默认编码就是unicode,不需要转换。

但是你题目描述的是转换成HTML格式,那么现在你贴出来的这段,就是HTML了……ヾ(o◕∀◕)ノ

【热门文章】
【热门文章】