AI网络爬虫: 用kimichat自动批量提取网页内容

部落人有文化2024-05-14 07:03:45 89

首先，在网页中按下F12键，查看定位网页元素：

然后在kimi中输入提示词：

你是一个Python编程专家，要完成一个爬取网页内容的Python脚本，具体步骤如下：

在F盘新建一个Excel文件：提示词.xlsx

打开网页：https://lobehub.com/zh/assistants

定位class="layoutkit-flexbox css-15l7r2q acss-vjqh32"的div标签；

定位div标签里面所有的a标签，

提取a标签的href属性值，前面加上”https://lobehub.com/zh”,构造成一个URL；

解析这个URL的源代码；

在源代码中定位class="acss-1ce01rv"的h1标签，提取其文本内容作为提示词标题，写入”提示词.xlsx”这个Excel文件的第1列，列的标头为：提示词标题；

在源代码中定位class="layoutkit-flexbox css-o3n4io acss-pl6lf1"的h2标签，提取其文本内容作为提示词简介，写入”提示词.xlsx”这个Excel文件的第2列，列的标头为：提示词简介；

在源代码中定位class="acss-7ksih7"的div标签，提取其全部文本内容作为提示词内容，写入”提示词.xlsx”这个Excel文件的第3列，列的标头为：提示词内容；

注意：

每一步都要输出相关信息到屏幕；

网站有放爬虫机制，要通过设置请求头、延迟请求等方式来进行应对

源代码：

import requests

from bs4 import BeautifulSoup

import pandas as pd

from openpyxl import Workbook

# 定义目标URL

url = "https://lobehub.com/zh/assistants"

# 设置请求头，模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 发送请求并获取网页内容

response = requests.get(url, headers=headers)

response.raise_for_status # 如果请求失败，将抛出异常

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 定位div标签并提取所有a标签的href属性

div_tag = soup.find('div', class_='layoutkit-flexbox css-15l7r2q acss-vjqh32')

a_tags = div_tag.find_all('a')

# 构造完整的URL

urls = ["https://lobehub.com/zh" + tag.get('href') for tag in a_tags]

# 定义Excel文件路径

excel_path = 'F:/提示词.xlsx'

# 创建工作簿和工作表

wb = Workbook

ws = wb.active

# 设置列的标头

ws.append(['提示词标题', '提示词简介', '提示词内容'])

# 循环处理每个URL

for idx, url in enumerate(urls, start=1):

print(f"正在处理URL: {url}")

# 发送请求并获取网页内容

response = requests.get(url, headers=headers)

response.raise_for_status

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 提取h1标签文本内容

h1_tag = soup.find('h1', class_='acss-1ce01rv')

title = h1_tag.get_text(strip=True) if h1_tag else '无标题'

# 提取h2标签文本内容

h2_tag = soup.find('h2', class_='layoutkit-flexbox css-o3n4io acss-pl6lf1')

introduction = h2_tag.get_text(strip=True) if h2_tag else '无简介'

# 提取div标签文本内容

div_tag = soup.find('div', class_='acss-7ksih7')

content = div_tag.get_text(strip=True) if div_tag else '无内容'

# 将提取的内容写入Excel文件

ws.append([title, introduction, content])

# 打印到屏幕

print(f"标题: {title}")

print(f"简介: {introduction}")

print(f"内容: {content}")

# 保存Excel文件

wb.save(excel_path)

print(f"数据已写入Excel文件: {excel_path}")

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/505405.html

随机主题

新华都-9.95%跌停, 总市值50.18亿元辽篮夺冠谁是最大功臣？弗格无缘前四，第一名你应该想不到！被问是否会遵守ICC对内塔尼亚胡等人的裁决，德国政府发言人：当然美锦能源下跌5.99%, 报5.49元/股山西: 科学预防“干热风” 确保小麦丰产丰收跌跌不休！“疫苗大王”，没了295亿降价就会冲的小米手机, 很多人直接选了这两款, 小米13Ultra在内亚特兰大真神了! 7390万卖掉霍伊伦, 2550万淘到宝: 带队夺1冠1亚主持希然晒MSI赛事Vlog: 可以吃喝但不咋睡觉塞拉利昂总统出席中铁十局唐克里里铁矿项目主体竣工仪式 DNF: 23号版本拍卖现状! 最便宜“龙珠”登场, 10大道具降价演训随时可能变实战！东部战区突然行动，毫无征兆却已包围台岛？希望杨紫火到人尽皆知的时候同时也要平平安安关于卖好纯电车, 给理想汽车几个不成熟的建议火箭越老越粗暴，希金斯防守瞬间变成马蜂窝，魔幻操控教科书清台戏中戏负责看点, 真戏负责惊悚悬疑, 一片多吃近岸外包影响下的美墨跨境运输: 运力提升与挑战并存对中国出口征收高关税后, 美欧贸易更加紧密拜仁新帅只差官宣！38岁降级队教练登陆豪门，5大豪门拒绝穆里尼奥五款好玩的动作角色扮演单机游戏哪些下载量高《夜族崛起》暗黑来袭——是德古拉也是伐木工

最新回复(0)