秋秋发生大规模账号泄露,二十行Python代码,带你了解前因后果

x33g5p2x  于2022-07-05 转载在 Python  
字(1.3k)|赞(0)|评价(0)|浏览(556)

序言

六月,秋秋发生大规模盗号事件,众说纷纭,也有说因为某习通买卖个人信息导致的,有说是因为点了图片中的网站导致中毒被盗的,还有说企鹅数据库被攻击导致账号被盗的,反正公说公有理婆说婆有理。

但是吧,人呐,一般都喜欢凑热闹,于是乎,我直接用Python把围脖爬了一遍,看他们争论的不亦乐乎,我开心极了~

准备工作

使用的是Python3.8 和 pycharm 编辑器,为什么我用的是3.8 而不是最新版呢?

很多刚开始学Python的兄弟喜欢下载新版本,在原有的认知里面就是觉得最新的自然就是最好的,但是,对于软件而言,越新的版本,问题越多,不稳定,还需要不断地修改不断地完善。

打个简单的比方,以LOL为例,每次版本刚更新,总是会爆出一些小bug,然后收集一段时间后,再通过小版本或者直接在线就更新了。

所以说软件并不是版本越新越好,这里我推荐的是Python3.8,目前最稳定的版本。

pycharm的话,pycharm2020以前的版本是没有中文版插件的,只能通过在网上找的插件安装,后面的版本都可以直接在pycharm上安装插件。

代码展示

  1. import pprint
  2. import re
  3. import requests
  4. import csv
  5. import pandas as pd
  6. # f = open('微博评论.csv', mode='a', encoding='utf-8', newline='')
  7. # csv_writer = csv.DictWriter(f, fieldnames=[
  8. # '用户',
  9. # '地区',
  10. # '评论',
  11. # '日期',
  12. # ])
  13. # csv_writer.writeheader()
  14. url = 'https://m.***.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'
  15. headers = {
  16. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
  17. }
  18. response = requests.get(url=url, headers=headers)
  19. lis = []
  20. for index in response.json()['data']['data']:
  21. content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))
  22. dit = {
  23. '用户': index['user']['screen_name'],
  24. '地区': index['source'].replace('来自', ''),
  25. '评论': content,
  26. '日期': index['created_at']
  27. }
  28. lis.append(dit)
  29. # csv_writer.writerow(dit)
  30. print(dit)
  31. pd_data = pd.DataFrame(lis)
  32. pd_data.to_excel('微博评论.xlsx')

效果

部分数据

大家还可以自己试试做做词云图,爬取多页等等刚操作!

快去试试吧~

高性能云服务器

精品线路独享带宽,毫秒延迟,年中盛惠 1 折起

相关文章