大家好,我是运营黑客。
自从官方全面放开「插件系统」之后,又掀起了一波学习、使用的热潮。
尤其是「联网插件」的放开,更是解除了的最后一道封印,让它可以实时调取最新的数据了。
相比于传统版本的,在联网之后,它增加了哪些新的功能呢?
经过这两天的体验,我们总结了「联网版」的6大新增功能:
1. 搜索(query: str, : int)
联网之后,可以在搜索引擎中发出查询并显示结果。
2. 点击(click: id: str)
可以打开给定id的网页并显示它,将显示结果中的ID映射到一个URL。
3. 引用(quote: start: str, end: str)
联网之后,可以通过起始子字符串“开始”和结束子字符串“结束”指定一个开放网页的文本范围,并记录它们的数据。
4. 返回(back())
在联网时,调取的数据,支持返回到前一页并显示它。
5. 滚动(: amt: int)
可以在打开的网页中,向上或向下滚动给定的数量。
6. 打开URL(: url: str)
打开给定的URL并显示它。
除了上面6个新增功能之外,我们在使用时发现,用英文指令获取「搜索结果」的整体质量上,要5-10倍优于中文指令。
所以,大家在提问时,尽量把提示词翻译成英文。
除了这些,「联网版」目前仍然存在一些它无法突破的瓶颈/边界,比如:
不能访问需要登录、订阅、验证码或特殊权限才能查看的网页。这包括一些社交媒体网站、订阅服务、加密网站或需要特殊访问权限的网页。
2. 互动限制:
GPT不能与网页进行交互。例如,不能填写表格、点击按钮、播放视频或音频、下载文件等。
3. 隐私和安全限制:
被禁止访问或存储个人识别信息或其他敏感信息。同时,也不能访问安全性高的网站或涉及违法内容的网站。
4. 更新知识库限制:
尽管可以通过浏览器工具查找和引用最新的信息,但它不能根据这些信息更新自己的基础知识库。在2021年9月之后的知识并不会永久存储在的模型中。
5. 翻译和理解限制:
虽然可以访问非英文的网页,但它的理解和翻译能力可能会受到限制,特别是对于那些没有被大量训练的语言。
6. 内容解析限制:
对于复杂的可视化、图像或者嵌入式视频,我无法解析其内容。我只能处理和理解文本内容。
7.无法强行爬取网页内容:
有些网站的管理员设定了一些规则来限制爬虫或者自动化工具访问他们的网站,这些规则通常在一个叫做 “.txt” 的文件中指定。这个文件告诉爬虫哪些部分的网站可以访问,哪些部分不能访问。
以下是一些常见的限制:
① .txt文件:这是一个位于网站根目录的文件,它指定了哪些网页或网站区域是爬虫可以访问的,哪些是不允许访问的。如果.txt文件指定了不允许爬虫访问的区域,将会遵守这些规则,不会访问那些区域。
② Crawl-delay指令:这是在.txt文件中指定的一个指令,它告诉爬虫在连续请求网站的页面之间需要等待的时间。这是为了防止爬虫在短时间内发送过多的请求,从而对网站服务器造成过大的负载。
③ 标签:这是一个可以在HTML页面中找到的标签,它告诉搜索引擎不要将该页面纳入搜索结果。虽然这不是一个针对爬虫的直接限制,但是它通常表示网站管理员不希望该页面被广泛访问。
④ AJAX和:有些网页的内容是通过或者AJAX动态生成的。这意味着,你需要执行或者触发某些事件才能获取页面的完整内容。由于不能执行或者触发事件,所以可能无法获取这些页面的全部内容。
⑤ 登录或付费壁垒:有些网站或网页需要登录或付费才能访问。不能进行这种类型的交互,因此无法访问这些内容。
⑥ :这是一种设计用来防止自动化工具访问网站的机制。如果一个网站使用了,也将无法继续访问该网站。
6大新增功能+7个边界,这就是目前我们对「联网版」的整体测试结果,如果有些网页内容它无法读取、识别,大概率是触发了上面提到的「边界行为」。