Tinken 发表于 2020-10-3 00:22:52

小白 学pyton 爬虫三

本帖最后由 Tinken 于 2020-10-3 00:45 编辑

有了python
通过requests获取到了页面
通过Beautiful Soup将页面数据爬下来了
还需要一个东西,一个将数据存储到excel的库 —— xlwings
PS:当然也可以考虑使用数据库存,但考虑到新手,不确定存储内容的正确性,或者后面还对源数据进行二次处理,所以数据库存后面再考虑
通过网上各种资料的对比:
xlwings、xlrd、xlwt、openpyxl、pyxll...等
开了因素有:读、写、速度、依赖库、文档完善度...等
最终选择xlwings最为excel操作库,选择好了就开始搞,不纠结!
xlwings官网:https://www.xlwings.org/pro
xlwings安装:pip install xlwings

文档地址:https://docs.xlwings.org/en/stable/小白看不懂英文,只能舍弃官方,看第三方的中文文档:https://www.kancloud.cn/gnefnuy/xlwings-docs/1127450

#!/usr/bin/env python
# -*- coding:utf-8 -*-

# @ClassName test5
# @Description TODO
# @Author lanlo
# @Date 2020-10-02 22:43
# @Version 1.0

import requests
from bs4 import BeautifulSoup
import xlwings as xw

url = "http://www.vrpip.com/forum.php?mod=viewthread&tid=62"
headers = {
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
    }

res = requests.get(url, headers=headers)
res.encoding = "utf-8"
html = BeautifulSoup(res.text, "html.parser")

print(html.title.text)
print("------------------- 我是分割线 -------------------")
wb = xw.Book()
sht = wb.sheets["sheet1"]
sht.range('A1').value = "xlwings"
sht.range('A2').value = html.title.text
# 以上就完成了简单的excel操作,写入了2组数据:A1:xlwings;A2:小白 学pyton 爬虫一 - 源码分享 -VRPIP 虚拟化平台 -Powered by Discuz!

print(sht.range('A1').value)

# wb = xw.Book()# 这将创建一个新的工作簿
# wb = xw.Book('FileName.xlsx')# 连接到当前工作目录中的现有文件
# wb = xw.Book(r'C:\path\to\file.xlsx')# 在Windows上:使用原始字符串来转义反斜杠




页: [1]
查看完整版本: 小白 学pyton 爬虫三