首页 > 如何用python把返回的html提取相应的内容到excel

如何用python把返回的html提取相应的内容到excel

需要登录,怎么把网页的内容提取出来写到excel里面,返回html是这样的

<td height="20" align="center">1</td>
<td align="center">产品</td>
<td align="center">red</td>
<td align="center">单价</td>
<td align="center">价格</td>
<td align="center">备注</td>
-----
<td height="20" align="center">2</td>
<td align="center">产品</td>
<td align="center">red</td>
<td align="center">单价</td>
<td align="center">价格</td>
<td align="center">备注</td>
...

如何才能把他们逐行写入excel


正则提取出多个列表,然后利用 Pandas 的 DataFrame 数据类型写入 excel,具体格式你自己安排,这里给出个基本示例:

text = """<td height="20" align="center">1</td>
<td align="center">产品</td>
<td align="center">red</td>
<td align="center">单价</td>
<td align="center">价格</td>
<td align="center">备注</td>
-----
<td height="20" align="center">2</td>
<td align="center">产品</td>
<td align="center">red</td>
<td align="center">单价</td>
<td align="center">价格</td>
<td align="center">备注</td>
"""

import pandas as pd
import re

p = re.compile('>(\S+)</td>')
q = p.findall(text)
table = pd.read_excel(r'D:\test.xlsx')    #事先在D盘建立该空excel
table['your title'] = pd.Series(q)
table.to_excel(r'D:\test.xlsx')

结果:

一个 Series 就是一列,你可以根据需要提取出多个不同属性列的数据,然后写入table 最终导入excel。


抓取网页上的内容,正则匹配,然后操作execl,python都有第三方扩展的嘛


Python可以调用 xlwt 库,写excel

【热门文章】
【热门文章】