无论您是否具有编程知识,执行网页抓取似乎是一项复杂且要求苛刻的任务。但是, 和代码解释器插件将为我们节省许多代码行和麻烦,因为它只需一个提示即可在几秒钟内从网页中提取信息。
接下来,我们将通过三个示例看到如何使用 以简单实用的方式执行网页抓取,所有这些都是一步一步解释的
让我们开始…
1) 沃尔玛
我们将使用沃尔玛在线商店的“购买所有返校”部分。我在下面提供直接链接:
在返校 – 中购买所有返校产品在“返校”中购买所有返校商店。购买产品,如 JLab 音频 工作室儿童贴耳式…
步骤 1:定义要提取的字段
我们需要定义我们希望提取的信息。这非常重要,因为它将帮助我们以后在 中构建我们的提示
在这种情况下,我们将抓取产品名称和价格
第 2 步:检查代码
在这里,我们需要定义 1 个产品的代码(作为示例,然后将其输入到 中)
但在我们这样做之前,请记住以下几点:
要访问 中的检查元素功能,如果您使用的是 ,则有两个键盘快捷键选项:
a) 按 + 移位 + c
或
b) 按 + 移位 + i
如果您使用的是 macOS,请使用:
a) alt + + i
或
b) 选项 + 命令 + i
考虑到这一点,我们现在可以检查沃尔玛网站。让我们回顾一下以下部分:
i) 产品名称
在这种情况下,我们需要在代码中找到产品名称进行抓取
让我们复制它,然后将其包含在我们的提示中。要复制 span 标签,我们将鼠标悬停在该部分上,右键单击,将出现以下内容:
现在我们只是复制它,出于实际目的,我们将保留它方便,以便稍后包含在提示中
任天堂儿童超级马里奥兄弟马里奥世界17“笔记本电脑背包
ii ) 价格
我们将对价格字段执行相同的操作
我们将保留价格字段的复制元素供以后使用
$14.92
如果您需要从网页中提取更多部分,则应重复我们对产品名称和价格执行的相同步骤
提示:要在代码区域内快速找到要检查的字段,只需将鼠标放在字段上,单击鼠标右键,即可启用检查选项。
步骤 3:保存 HTML 文件
由于我们将使用代码解释器,因此我们需要向其附加一个文件。因此,我们要做的是将要抓取的页面另存为HTML文件。
返回页面并使用键盘快捷键 Ctrl + S(适用于 和 macOS)
键盘快捷键:按 Ctrl + s
接下来,将文件以 HTML 格式保存在本地文件夹中
第 4 步:上传 HTML 文件 + 生成提示
现在我们已经在 Web 上定义了要抓取的字段及其代码,让我们在 中构造提示
如果您尚未激活代码解释器,让我们按照一些说明进行操作。否则,我建议您跳过此部分,直接进入构造提示
i) 设置
ii ) 打开代码解释器
在 中激活代码解释器后,让我们上传我们在步骤 3 中保存的 HTML 文件
现在,让我们构建提示,同时考虑产品名称和价格,以及每个部分的代码(如有疑问,请查看步骤 2)
提示:从HTML文件中,提取产品名称和价格,将数据放在表格上并导出为CSV文件
这是一个产品的元素: 任天堂儿童超级马里奥兄弟马里奥世界17“笔记本电脑背包
以下是价格的要素:
$14.92
如果缺少产品价格,请将该价格保留为空数据
在提示中,我们看到有 04 个部分。
在第一段中,我指定我已经加载了一个 HTML 文件,并要求它抓取产品名称和价格。完成此操作后,我请求它将数据导出到CSV文件中
在第二段和第三段中,我向 提供了产品名称和价格字段的每个相应结构的示例。我们看到每个产品都是一个跨度标签,价格是一个 div 标签
在 last 段落中,如果它找到价格的空值,我要求它分配空数据
请务必牢记此提示,因为即将推出的示例将具有相同的结构,并且只会更改字段及其代码
结果:
下载并打开 CSV 文件
最后,我们成功地对产品及其各自的价格进行了网络抓取,然后将其导出为CSV文件,如表格图像所示。请注意,我们用作示例的产品包括在内!
奖金
前面的步骤使我们能够从沃尔玛网站的第一(01)页执行网络抓取。但是,如果我们想从第二个 (02) 页面中提取数据,我们执行与前面相同的步骤,但不要忘记在此新页面中识别产品并将其作为示例包含在提示中
沃尔玛网站上“返校”部分的第02页
i) 产品名称
Boys Cliff Goats 图形 T 恤,2 件装,尺码 4–18
ii) 价格
$13.96
就像第一页一样,我们需要将第二(02)页的文件保存为HTML格式(如果您有任何疑问,请查看步骤03)
提示
从HTML文件中,提取产品和价格的名称,将数据放在表格上并将其导出为CSV文件。
这是一个产品的元素: Boys Cliff Goats 图形 T 恤,2 件装,尺码 4–18
以下是价格的要素:
$13.96
如果缺少产品价格,请将该价格保留为空数据
如果您希望将两个表合并为一个,您可以要求 执行以下操作:
2. 目标
在第二个示例中,我们将从目标网站的手机部分执行网页抓取。我们将直接继续,如果有任何疑问,请参阅沃尔玛的第一个示例的步骤
这是直接链接:
手机 : 目标购买目标手机,你会喜欢的手机,价格低廉。选择当日送货,开车或订购取货…
步骤 1:让我们确定要提取的字段
a) 产品 b) 品牌 c) 价格
现在,让我们检查每个目标字段的代码级别(查看步骤 2)
用于检查的键盘快捷键:Ctrl + Shift + c () 或 Alt + + i(macOS)
步骤 2:检查代码i) 产品
我们找到代码和标签。我们复制并保留代码,以便以后将其合并到 提示符中(如有疑问,请查看第一个沃尔玛示例的步骤 02)
Apple SE 2nd Gen (64GB) CDMA — Black
ii) 品牌
Apple
iii) 价格
$189.99
步骤 3:保存 HTML 文件
将要抓取的页面另存为 HTML 文件(查看沃尔玛示例中的步骤 3)
第 4 步:上传 HTML 文件 + 生成提示
我们将构造提示,但与前面的示例不同,我们将包括手机品牌字段(请参阅沃尔玛示例的步骤 4)。
加载 HTML 文件并为每个要抓取的字段添加代码(产品名称、品牌和价格)
提示: 从HTML文件中,提取产品名称,品牌,价格,将数据放在表格上并导出为CSV文件。提取所有产品
这是一个产品的元素: Apple SE 2nd Gen (64GB) CDMA — Black
以下是品牌的元素: Apple
以下是价格的元素:
$189.99
如果缺少产品价格,请将该价格保留为空数据
结果
下载并打开 CSV 文件
结果很棒,我们能够从 网站抓取所有数据
3) 亚马逊
在最后一个示例中,我们将对 书籍执行网页抓取。看看哪些书最受欢迎,然后使用 创建具有不同趋势主题的故事可能会很有趣
这是链接:
: 电子书点燃回到学校 残疾客户支持 关闭到大学诊所 畅销书 客户服务 亚马逊基础知识 音乐…
步骤1:让我们确定要提取的字段
a) 产品或标题 b) 作者 c) 价格
步骤 2:检查代码
i) 产品或标题:
我们找到代码和标签。我们复制并保留代码,以便稍后将其合并到 提示符中(如有疑问,请查看第一个沃尔玛示例的步骤 02)
要检查的键盘快捷键是:Ctrl + Shift + c()或Alt + + i(macOS)。您可以参考步骤 2 了解更多详情
in : A Novel
ii ) 作者
邦妮·加莫斯
iii) 价格
请注意,对于此示例,我们只会提取价格的整数部分
14.
步骤 3:保存 HTML 文件
我们将要抓取的网页保存为 HTML 文件。为此,我们使用快捷键 Ctrl + S 在我们要保存的页面上。我们不要忘记将文件保存为 HTML 格式(检查沃尔玛示例的步骤 3 中的详细信息)
第 4 步:上传 HTML 文件 + 生成提示
现在,让我们根据我们要从亚马逊网页中提取的字段来构建提示,特别是从他们的 书籍部分。在本例中,我们要提取标题、作者和价格。
接下来,我们加载 HTML 文件并添加代码以抓取每个所需的字段(标题、作者和价格))
提示: 从HTML文件中,提取产品名称、作者和价格,将数据放在表格上并导出为CSV文件。
这是一个产品的元素: in : A Novel
以下是作者的元素:
以下是价格元素: 14.
如果缺少产品价格,请将该价格保留为空数据
让我们看到我们看到的示例中的提示具有相同的结构
结果
我们下载 CSV 文件
我们成功了!
总结和建议如果我们尝试将URL直接放入,即使激活了代码解释器,它也无法执行网页抓取。出于这个原因,我们下载要在 HTML 中抓取的页面 最初可能无法识别要提取的字段的标签,并且可能会向我们提供错误的信息。此时,我建议打开另一个聊天并再次运行提示我们应该记住,代码解释器使用和库,如进行网页抓取。此方法的目的不是取代传统的网页抓取,但是,它将节省我们的时间和代码行我们通过 03 个网页抓取示例在故事中看到的内容既面向从事编程工作的人,也面向在该领域知之甚少或一无所知的人有趣的是,我们可以通过网络抓取完成什么,正如我上面提到的,我们可以专注于直销,创建 书籍,考虑到畅销书籍,分析竞争对手的价格,跟踪某些产品等等
本完整指南适用于希望使用 进行网页抓取的替代方案的人。没有必要有先前的编程知识,只需要好奇心和耐心。下个故事见,祝福!