chatgpt公众号接入 源代码下载 仅使用 01 提示使用 ChatGPT 代码解释器进行网页抓取(分步教程)

默认分类1年前 (2023)发布 admin
4,526 0
ChatGPT国内版

无论您是否具有编程知识,执行网页抓取似乎是一项复杂且要求苛刻的任务。但是, 和代码解释器插件将为我们节省许多代码行和麻烦,因为它只需一个提示即可在几秒钟内从网页中提取信息。

接下来,我们将通过三个示例看到如何使用 以简单实用的方式执行网页抓取,所有这些都是一步一步解释的

让我们开始…

1) 沃尔玛

我们将使用沃尔玛在线商店的“购买所有返校”部分。我在下面提供直接链接:

在返校 – 中购买所有返校产品在“返校”中购买所有返校商店。购买产品,如 JLab 音频 工作室儿童贴耳式…

步骤 1:定义要提取的字段

我们需要定义我们希望提取的信息。这非常重要,因为它将帮助我们以后在 中构建我们的提示

在这种情况下,我们将抓取产品名称和价格

第 2 步:检查代码

在这里,我们需要定义 1 个产品的代码(作为示例,然后将其输入到 中)

但在我们这样做之前,请记住以下几点:

要访问 中的检查元素功能,如果您使用的是 ,则有两个键盘快捷键选项:

a) 按 + 移位 + c

b) 按 + 移位 + i

如果您使用的是 macOS,请使用:

a) alt + + i

b) 选项 + 命令 + i

考虑到这一点,我们现在可以检查沃尔玛网站。让我们回顾一下以下部分:

i) 产品名称

在这种情况下,我们需要在代码中找到产品名称进行抓取

让我们复制它,然后将其包含在我们的提示中。要复制 span 标签,我们将鼠标悬停在该部分上,右键单击,将出现以下内容:

现在我们只是复制它,出于实际目的,我们将保留它方便,以便稍后包含在提示中

任天堂儿童超级马里奥兄弟马里奥世界17“笔记本电脑背包

ii ) 价格

我们将对价格字段执行相同的操作

我们将保留价格字段的复制元素供以后使用

$14.92

如果您需要从网页中提取更多部分,则应重复我们对产品名称和价格执行的相同步骤

提示:要在代码区域内快速找到要检查的字段,只需将鼠标放在字段上,单击鼠标右键,即可启用检查选项。

步骤 3:保存 HTML 文件

由于我们将使用代码解释器,因此我们需要向其附加一个文件。因此,我们要做的是将要抓取的页面另存为HTML文件。

返回页面并使用键盘快捷键 Ctrl + S(适用于 和 macOS)

键盘快捷键:按 Ctrl + s

接下来,将文件以 HTML 格式保存在本地文件夹中

第 4 步:上传 HTML 文件 + 生成提示

现在我们已经在 Web 上定义了要抓取的字段及其代码,让我们在 中构造提示

如果您尚未激活代码解释器,让我们按照一些说明进行操作。否则,我建议您跳过此部分,直接进入构造提示

i) 设置

ii ) 打开代码解释器

在 中激活代码解释器后,让我们上传我们在步骤 3 中保存的 HTML 文件

现在,让我们构建提示,同时考虑产品名称和价格,以及每个部分的代码(如有疑问,请查看步骤 2)

提示:从HTML文件中,提取产品名称和价格,将数据放在表格上并导出为CSV文件

这是一个产品的元素: 任天堂儿童超级马里奥兄弟马里奥世界17“笔记本电脑背包

以下是价格的要素:

$14.92

如果缺少产品价格,请将该价格保留为空数据

在提示中,我们看到有 04 个部分。

在第一段中,我指定我已经加载了一个 HTML 文件,并要求它抓取产品名称和价格。完成此操作后,我请求它将数据导出到CSV文件中

在第二段和第三段中,我向 提供了产品名称和价格字段的每个相应结构的示例。我们看到每个产品都是一个跨度标签,价格是一个 div 标签

在 last 段落中,如果它找到价格的空值,我要求它分配空数据

请务必牢记此提示,因为即将推出的示例将具有相同的结构,并且只会更改字段及其代码

结果:

下载并打开 CSV 文件

最后,我们成功地对产品及其各自的价格进行了网络抓取,然后将其导出为CSV文件,如表格图像所示。请注意,我们用作示例的产品包括在内!

奖金

前面的步骤使我们能够从沃尔玛网站的第一(01)页执行网络抓取。但是,如果我们想从第二个 (02) 页面中提取数据,我们执行与前面相同的步骤,但不要忘记在此新页面中识别产品并将其作为示例包含在提示中

沃尔玛网站上“返校”部分的第02页

i) 产品名称

Boys Cliff Goats 图形 T 恤,2 件装,尺码 4–18

ii) 价格

$13.96

就像第一页一样,我们需要将第二(02)页的文件保存为HTML格式(如果您有任何疑问,请查看步骤03)

chatgpt公众号接入 源代码下载 仅使用 01 提示使用 ChatGPT 代码解释器进行网页抓取(分步教程)

提示

从HTML文件中,提取产品和价格的名称,将数据放在表格上并将其导出为CSV文件。

这是一个产品的元素: Boys Cliff Goats 图形 T 恤,2 件装,尺码 4–18

以下是价格的要素:

$13.96

如果缺少产品价格,请将该价格保留为空数据

如果您希望将两个表合并为一个,您可以要求 执行以下操作:

2. 目标

在第二个示例中,我们将从目标网站的手机部分执行网页抓取。我们将直接继续,如果有任何疑问,请参阅沃尔玛的第一个示例的步骤

这是直接链接:

手机 : 目标购买目标手机,你会喜欢的手机,价格低廉。选择当日送货,开车或订购取货…

步骤 1:让我们确定要提取的字段

a) 产品 b) 品牌 c) 价格

现在,让我们检查每个目标字段的代码级别(查看步骤 2)

用于检查的键盘快捷键:Ctrl + Shift + c () 或 Alt + + i(macOS)

步骤 2:检查代码i) 产品

我们找到代码和标签。我们复制并保留代码,以便以后将其合并到 提示符中(如有疑问,请查看第一个沃尔玛示例的步骤 02)

Apple SE 2nd Gen (64GB) CDMA — Black

ii) 品牌

Apple

iii) 价格

$189.99

步骤 3:保存 HTML 文件

将要抓取的页面另存为 HTML 文件(查看沃尔玛示例中的步骤 3)

第 4 步:上传 HTML 文件 + 生成提示

我们将构造提示,但与前面的示例不同,我们将包括手机品牌字段(请参阅沃尔玛示例的步骤 4)。

加载 HTML 文件并为每个要抓取的字段添加代码(产品名称、品牌和价格)

提示: 从HTML文件中,提取产品名称,品牌,价格,将数据放在表格上并导出为CSV文件。提取所有产品

这是一个产品的元素: Apple SE 2nd Gen (64GB) CDMA — Black

以下是品牌的元素: Apple

以下是价格的元素:

$189.99

如果缺少产品价格,请将该价格保留为空数据

结果

下载并打开 CSV 文件

结果很棒,我们能够从 网站抓取所有数据

3) 亚马逊

在最后一个示例中,我们将对 书籍执行网页抓取。看看哪些书最受欢迎,然后使用 创建具有不同趋势主题的故事可能会很有趣

这是链接:

: 电子书点燃回到学校 残疾客户支持 关闭到大学诊所 畅销书 客户服务 亚马逊基础知识 音乐…

步骤1:让我们确定要提取的字段

a) 产品或标题 b) 作者 c) 价格

步骤 2:检查代码

i) 产品或标题:

我们找到代码和标签。我们复制并保留代码,以便稍后将其合并到 提示符中(如有疑问,请查看第一个沃尔玛示例的步骤 02)

要检查的键盘快捷键是:Ctrl + Shift + c()或Alt + + i(macOS)。您可以参考步骤 2 了解更多详情

in : A Novel

ii ) 作者

邦妮·加莫斯

iii) 价格

请注意,对于此示例,我们只会提取价格的整数部分

14.

步骤 3:保存 HTML 文件

我们将要抓取的网页保存为 HTML 文件。为此,我们使用快捷键 Ctrl + S 在我们要保存的页面上。我们不要忘记将文件保存为 HTML 格式(检查沃尔玛示例的步骤 3 中的详细信息)

第 4 步:上传 HTML 文件 + 生成提示

现在,让我们根据我们要从亚马逊网页中提取的字段来构建提示,特别是从他们的 书籍部分。在本例中,我们要提取标题、作者和价格。

接下来,我们加载 HTML 文件并添加代码以抓取每个所需的字段(标题、作者和价格))

提示: 从HTML文件中,提取产品名称、作者和价格,将数据放在表格上并导出为CSV文件。

这是一个产品的元素: in : A Novel

以下是作者的元素:

以下是价格元素: 14.

如果缺少产品价格,请将该价格保留为空数据

让我们看到我们看到的示例中的提示具有相同的结构

结果

我们下载 CSV 文件

我们成功了!

总结和建议如果我们尝试将URL直接放入,即使激活了代码解释器,它也无法执行网页抓取。出于这个原因,我们下载要在 HTML 中抓取的页面 最初可能无法识别要提取的字段的标签,并且可能会向我们提供错误的信息。此时,我建议打开另一个聊天并再次运行提示我们应该记住,代码解释器使用和库,如进行网页抓取。此方法的目的不是取代传统的网页抓取,但是,它将节省我们的时间和代码行我们通过 03 个网页抓取示例在故事中看到的内容既面向从事编程工作的人,也面向在该领域知之甚少或一无所知的人有趣的是,我们可以通过网络抓取完成什么,正如我上面提到的,我们可以专注于直销,创建 书籍,考虑到畅销书籍,分析竞争对手的价格,跟踪某些产品等等

本完整指南适用于希望使用 进行网页抓取的替代方案的人。没有必要有先前的编程知识,只需要好奇心和耐心。下个故事见,祝福!

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...