AI网络爬虫: 无限下拉滚动页面的另类爬取方法

部落人有文化2024-05-30 07:01:03 110

现在很多网页都是无限下拉滚动的。可以拉动到底部，然后保存网页为mhtml格式文件。

接着，在ChatGPT中输入提示词：

你是一个Python编程高手，要完成一个关于爬取网页内容的Python脚本的任务，下面是具体步骤：

在f盘新建一个Excel文件：poe热门bot.xlsx；

用Pyppeteer库的无界面模式模拟用户打开本地的网页文件："F:AI自媒体内容AI行业数据分析探索 - Poe.mhtml"；

解析源代码；

定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签；

定位div标签里面的所有a标签，提取其href属性值，这是bot的URL地址，写入Excel文件的第4列；

定位a标签里面class="BotListItem_botName__IYKgR"的div标签，这是bot名称，写入Excel文件的第1列；

定位a标签里面class="BotListItem_botDescription__9V_Sc"的div标签，这是bot简介，写入Excel文件的第2列；

定位a标签里面class="BotListItem_activeUserCount__m8cHa"的div标签，这是bot的用户数量，写入Excel文件的第3列；

注意：每一步都要输出相关信息到屏幕

一步一步的思考，但是所有的代码要整合在一起，不要分成一段一段的；

网页的文件编码是utf-8；

如果a标签里面没有一些div元素，就跳过；

chrome的路径为：D:Program Fileschrome-win126chrome.exe

chromedriver路径为：D:Program Fileschromedriver126chromedriver.exe

Chatgpt生成Python源代码：

import asyncio

import os

from bs4 import BeautifulSoup

from openpyxl import Workbook

from pyppeteer import launch

async def main:

# 步骤1：在F盘新建一个Excel文件

file_path = r'F:poe热门bot.xlsx'

wb = Workbook

ws = wb.active

ws.title = "Bots Info"

ws.append(["Bot Name", "Bot Description", "Active Users", "Bot URL"])

wb.save(file_path)

print(f"Excel文件已创建: {file_path}")

# 步骤2：用Pyppeteer库的无界面模式模拟用户打开本地的网页文件

local_file_path = r'F:AI自媒体内容AI行业数据分析探索 - Poe.mhtml'

browser = await launch(executablePath=r'D:Program Fileschrome-win126chrome.exe', headless=True, args=['--no-sandbox'])

page = await browser.newPage

await page.goto(f'file://{local_file_path}')

# 步骤3：解析源代码

page_content = await page.content

soup = BeautifulSoup(page_content, 'html.parser')

# 步骤4：定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签

container_div = soup.find('div', class_='InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi')

if container_div:

print("找到目标div标签")

else:

print("未找到目标div标签")

await browser.close

return

# 步骤5：定位div标签里面的所有a标签，提取其href属性值，写入Excel文件的第4列

a_tags = container_div.find_all('a')

print(f"找到{len(a_tags)}个a标签")

# 步骤6：处理每个a标签，提取信息并写入Excel文件

for a_tag in a_tags:

bot_url = a_tag.get('href', 'N/A')

bot_name_div = a_tag.find('div', class_='BotListItem_botName__IYKgR')

bot_desc_div = a_tag.find('div', class_='BotListItem_botDescription__9V_Sc')

bot_users_div = a_tag.find('div', class_='BotListItem_activeUserCount__m8cHa')

if bot_name_div and bot_desc_div and bot_users_div:

bot_name = bot_name_div.get_text(strip=True)

bot_desc = bot_desc_div.get_text(strip=True)

bot_users = bot_users_div.get_text(strip=True)

ws.append([bot_name, bot_desc, bot_users, bot_url])

print(f"写入Bot信息：名称={bot_name}, 简介={bot_desc}, 用户数量={bot_users}, URL={bot_url}")

else:

print("跳过a标签，因为缺少必要的div元素")

# 保存Excel文件

wb.save(file_path)

print(f"所有信息已写入Excel文件：{file_path}")

await browser.close

asyncio.get_event_loop.run_until_complete(main)

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/692064.html

随机主题

超美小直屏! OPPOReno12首发天玑8250, 台积电4纳米奥迪A8L 55TFSI，买了半年多，感受跟你说中肯! 鲁德点评今年法网夺冠热门! 支持德约科维奇的原因很牵强!6999的拯救者Y7000首发，简单评价一下 NBA季后赛: 双星客场闪耀比肩勇士库杜, 防守悍将成败方MVP!国债变妖股, 涨停也能去追, 服了!北京市首次翠湖湿地公园来“新客”库尔勒森林消防大队大力开展实战化野外化练兵活动郭虹：演技深厚获认可一种很浪的打法俄报告显示: 全球机器人安装量50%位于中国老头杯最强三费诞生! 无脑四保一害惨Uzi, lwx被最菜下路线杀三次东德老照片经济学门类包括哪些专业外交部: 对12家美国军工企业及10名高管采取反制措施开国大将陈赓有5个子女, 他们如今过得如何? 三个儿子是少将 618不知道怎么入手数码产品? 这四款产品不容错过!踩单车也能玩出新花样！9种变化动作让你成为足球高手时隔15年, 非洲领导人对美展开国事访问四部门: 推动贷款利率稳中有降最佳阵容8大遗珠: 马克西领衔, 福克斯场均26+5, 三位状元被低估

最新回复(0)