小白学pyton 爬虫三

Tinken 发表于 2020-10-3 00:22:52

本帖最后由 Tinken 于 2020-10-3 00:45 编辑

有了python
通过requests获取到了页面
通过Beautiful Soup将页面数据爬下来了
还需要一个东西，一个将数据存储到excel的库 —— xlwings
PS：当然也可以考虑使用数据库存，但考虑到新手，不确定存储内容的正确性，或者后面还对源数据进行二次处理，所以数据库存后面再考虑
通过网上各种资料的对比：
xlwings、xlrd、xlwt、openpyxl、pyxll...等
开了因素有：读、写、速度、依赖库、文档完善度...等
最终选择xlwings最为excel操作库，选择好了就开始搞，不纠结！
xlwings官网：https://www.xlwings.org/pro
xlwings安装：pip install xlwings

文档地址：https://docs.xlwings.org/en/stable/小白看不懂英文，只能舍弃官方，看第三方的中文文档：https://www.kancloud.cn/gnefnuy/xlwings-docs/1127450

#!/usr/bin/env python
# -*- coding:utf-8 -*-

# @ClassName test5
# @Description TODO
# @Author lanlo
# @Date 2020-10-02 22:43
# @Version 1.0

import requests
from bs4 import BeautifulSoup
import xlwings as xw

url = "http://www.vrpip.com/forum.php?mod=viewthread&tid=62"
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"
html = BeautifulSoup(res.text, "html.parser")

print(html.title.text)
print("------------------- 我是分割线 -------------------")
wb = xw.Book()
sht = wb.sheets["sheet1"]
sht.range('A1').value = "xlwings"
sht.range('A2').value = html.title.text
# 以上就完成了简单的excel操作，写入了2组数据：A1：xlwings；A2：小白学pyton 爬虫一 - 源码分享 -VRPIP 虚拟化平台 -Powered by Discuz!

print(sht.range('A1').value)

# wb = xw.Book()# 这将创建一个新的工作簿
# wb = xw.Book('FileName.xlsx')# 连接到当前工作目录中的现有文件
# wb = xw.Book(r'C:\path\to\file.xlsx')# 在Windows上：使用原始字符串来转义反斜杠

页: [1]

VRPIP 虚拟化平台's Archiver

小白 学pyton 爬虫三

小白学pyton 爬虫三