背景
我做了一个能够自动搜索提取网站信息,并将其作为AI的背景知识回答用户问题的agent,为了提高问题的回答质量,使用了比较贵的模型,刚开始添加了google custom search工具实现信息抓取,使用webscrapt工具实现网站信息提取,使用过程中发现,为了拿到准确信息,agent会进行大量搜索以及详情页抓取,输入上下文轻轻松松上万💦,这可玩不起啊,一会儿就1刀。于是想“是否可以使用廉价模型从网站详情中提取关键的信息呢?”
说干就干
想让AI帮我从网站中提取原文片段,就需要告诉AI“问题是什么”,以及“网址是什么”,这样AI才能够从指定网址抓取数据,然后结合问题进行信息提取。
那工作流就很简单了
- 输入是一个url和question的json对象
- 使用webscrapt抓取url的网页数据
- AI结合问题从网站中提取数据
- 给出最相关的片段
AI提取信息提示词如下:
系统提示词
你的任务是从一大段文本中找出与用户提问最相关的完整段落(上下文完整)。
用户将提供给你一大段文本(context标签包裹的内容)以及一个问题(question标签包裹的内容)。
如果context的内容与question无关,则固定回复“未找到”,否则给出context中相关的完整信息。
禁止直接回答用户原始问题。
用户提示词
<context>
网页内容
</context>
<question>
用户问题
</question>
总结
至此,基于网页内容回答用户问题完成,效果不错

发表回复