请选择 进入手机版 | 继续访问电脑版

VRPIP 虚拟化平台

 找回密码
 注册VRPIP
搜索
热搜: 活动 交友 discuz
查看: 1569|回复: 0

小白 学pyton 爬虫三

[复制链接]

8

主题

11

帖子

54

积分

注册会员

Rank: 2

积分
54
发表于 2020-10-3 00:22:52 | 显示全部楼层 |阅读模式
本帖最后由 Tinken 于 2020-10-3 00:45 编辑

有了python
通过requests获取到了页面
通过Beautiful Soup将页面数据爬下来了
还需要一个东西,一个将数据存储到excel的库 —— xlwings
PS:当然也可以考虑使用数据库存,但考虑到新手,不确定存储内容的正确性,或者后面还对源数据进行二次处理,所以数据库存后面再考虑
通过网上各种资料的对比:
xlwings、xlrd、xlwt、openpyxl、pyxll...等
开了因素有:读、写、速度、依赖库、文档完善度...等
最终选择xlwings最为excel操作库,选择好了就开始搞,不纠结!
xlwings官网:https://www.xlwings.org/pro
xlwings安装:pip install xlwings

文档地址:https://docs.xlwings.org/en/stable/小白看不懂英文,只能舍弃官方,看第三方的中文文档:https://www.kancloud.cn/gnefnuy/xlwings-docs/1127450

  1. #!/usr/bin/env python
  2. # -*- coding:utf-8 -*-

  3. # @ClassName test5
  4. # @Description TODO
  5. # @Author lanlo
  6. # @Date 2020-10-02 22:43
  7. # @Version 1.0

  8. import requests
  9. from bs4 import BeautifulSoup
  10. import xlwings as xw

  11. url = "http://www.vrpip.com/forum.php?mod=viewthread&tid=62"
  12. headers = {
  13.         'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
  14.     }

  15. res = requests.get(url, headers=headers)
  16. res.encoding = "utf-8"
  17. html = BeautifulSoup(res.text, "html.parser")

  18. print(html.title.text)
  19. print("------------------- 我是分割线 -------------------")
  20. wb = xw.Book()
  21. sht = wb.sheets["sheet1"]
  22. sht.range('A1').value = "xlwings"
  23. sht.range('A2').value = html.title.text
  24. # 以上就完成了简单的excel操作,写入了2组数据:A1:xlwings;A2:小白 学pyton 爬虫一 - 源码分享 -  VRPIP 虚拟化平台 -  Powered by Discuz!

  25. print(sht.range('A1').value)

  26. # wb = xw.Book()  # 这将创建一个新的工作簿
  27. # wb = xw.Book('FileName.xlsx')  # 连接到当前工作目录中的现有文件
  28. # wb = xw.Book(r'C:\path\to\file.xlsx')  # 在Windows上:使用原始字符串来转义反斜杠
复制代码




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册VRPIP

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册VRPIP

本版积分规则

快速回复 返回顶部 返回列表