
在当今数字化信息爆炸的时代,高效获取和利用知识成为了提升竞争力的关键。
无论是企业在处理大量业务文档时,还是个人在学习研究面对海量资料时,都期望能有一种智能工具,快速准确地回答问题,并能直观展示相关信息,包括图片等多模态内容。
RAG 结合 ChatWiki 知识库为我们提供了这样一个强大的解决方案,下面将详细介绍其实现图片回答的实战方案。
1. RAG
RAG 将大型语言模型(LLM)与信息检索技术相结合。其核心目标是把模型自身的内置知识与外部数据库、文档中丰富且不断扩充的信息建立联系。
通过比较查询向量与数据库中向量的相似度,精准定位相关文档或片段。然后,语言模型会综合输入查询以及检索到的文档信息,生成最终的回答。

2. ChatWiki 知识库
ChatWiki 是一款基于大语言模型(LLM)和检索增强生成(RAG)技术构建的开源知识库 AI 问答系统。
它将传统的检索方法与生成模型巧妙结合,通过引入外部知识库来增强生成的内容。这不仅能够显著提高回答的准确性,还能有效地处理一些生成模型单独无法处理的长尾问题和专业问题。

当提到RAG如何支持图片回答时,实际上是在讨论如何利用RAG框架处理包含图像的问题或请求,并给出相应的答案。以下是基于RAG实现图片回答的一些原理基础:

这些资料会被转换成适合搜索的形式,比如通过OCR技术将图片中的文字提取出来,或者直接存储图片链接及其元数据。
这一步骤使得不同格式的信息能够被统一处理,并为后续的相似度匹配打下基础。
这里可能涉及到多轮检索策略,比如先从摘要级别查找相关条目,再深入到具体文档段落或图片细节中去。
4. 增强理解与上下文整合:
如果结果中包含了图片;则还需进一步利用计算机视觉技术(如图像识别、物体检测等)来分析图片内容,并将其转换为可被自然语言处理系统理解的形式。
5. 生成答案:
如果原始查询明确要求返回图片作为答案的一部分,那么系统将在生成文本的同时附带相应的图片链接或嵌入式显示。
1. 注册 ChatWiki
登录 ChatWiki 官网(https://chatwiki.com/ ),使用邮箱完成账号注册。
2. 添加大模型到 ChatWiki
系统支持超过 20 种主流模型。以添加 DeepSeek 大模型为例,需要先去 DeepSeek 官网获取 API Key,然后在 ChatWiki 中按照提示准确填写相关信息,即可快速完成 DeepSeek 大模型的添加。

3. 创建知识库
● 文档上传:点击 ChatWiki 中的知识库管理选项,选择新增知识库。。上传包含图片的文档,如产品说明书 PDF(其中有产品图片)、研究报告(包含实验图片)等。
注:系统支持多种文档格式上传,如 pdf、docx、txt、Markdown、xlsx、csv、html、在线网页链接等
● 文档解析与预处理:ChatWiki 会自动对导入的文本数据进行预处理、向量化或 QA 分割。对于包含图片的文档,在解析过程中,相关工具(如上述的 MinerU 等)会发挥作用,将图片和文本信息分别提取和结构化。
比如:MinerU 会智能地提取文档中的文本和图片,为后续在问答中展示图片做准备。

4. 创建机器人:
点击机器人管理 – 新增机器人,填写机器人名称即可创建成功。
● 系统提示词设置:设置机器人系统提示词,引导机器人在回答问题时遵循特定的风格或规则,比如回答要简洁明了,优先从知识库中相关图片对应的文本信息进行解答等。
● 欢迎语与未知问题提示语设置:编写欢迎语,当用户首次与机器人交互时给予友好问候;设置未知问题提示语,当机器人无法回答问题时,以恰当方式告知用户。

5. 多场景应用配置
机器人设置完成后,在 ChatWiki 的机器人管理 – 对外服务中,根据指引,可在多种场景配置使用。
这样用户在不同场景下向机器人提问时,若问题涉及知识库中包含图片的文档内容,机器人就能够结合图片和文本信息给出回答,实现图片回答功能。
注:可以配置在H5 链接、在线网站、微信小程序、微信公众号、微信客服等平台;

这意味着用户可以通过上传图片来提问,而ChatWiki则能利用其强大的检索能力从关联的知识库中找到相关的信息或答案。
这种上下文敏感性对于解决复杂问题特别有用,尤其是在需要结合视觉信息和背景知识的情况下。
同时,借助于RAG框架下的自适应检索机制,系统可以根据实际情况动态调整检索策略,进一步提高了系统的适应性和效率。
此外,通过更直观地展示结果(如图表、示意图等),也能帮助用户更快更好地理解信息,从而提升整体的交互体验。

● 离线部署:支持私有化本地部署,避免敏感数据外泄,符合政务/金融等高安全性场景需求;
● 知识图谱构建:通过实体关系网络串联碎片化知识,实现结构化知识体系与关联检索
● 实时调试:支持流程执行数据可视化追踪,快速验证逻辑有效性;
● 终端兼容性:覆盖 Web、客户端及 H5 页面,并适配国产化浏览器环境
尤其适用于政府、金融、法律等格式合规性要求高的领域 。
1. 制造企业
场景:制造企业的售后服务部门会收到客户发送的设备故障图片,客户会询问故障原因和解决方案。此外,企业内部的技术人员也需要快速查询设备的技术资料和维修手册。
应用方式:将设备的技术图纸、维修手册、故障案例等资料导入 ChatWiki 的知识库。当客户有故障时,通过提问方式,便可快速从知识库中检索相关的解决方法和技术支持信息。并查找出对应的图片提供给客户;
注;对于企业内部技术人员,他们可以直接在 ChatWiki 中查询设备的详细技术资料,快速解决技术难题。
优势和效果:帮助售后服务人员快速响应客户的故障咨询,提供准确的解决方案,缩短客户的等待时间,提高客户满意度。同时,也有助于企业内部技术知识的共享和传承,提高技术人员的工作效率和解决问题的能力,减少因人员流动导致的知识流失。
2. 医疗企业
场景:医疗企业的客服或技术支持人员可能会收到医疗机构发送的医疗器械使用场景图片、患者的医学影像图片等,询问关于器械的操作方法、功能特点,或者影像的分析解读等问题。
应用方式:把医疗器械的操作指南、技术规格说明书、医学影像解读标准等知识文档整合到 ChatWiki 知识库。当有需要时,便可随时去ChatWiki系统中查找相应资料,系统会结合知识库信息进行解答,提供相应图片
比如:医生想要查看某病例,ChatWiki 可以根据知识库中的提问,调查出该病例的详细信息及图片,提供初步的分析意见和建议。
优势和效果:为医疗机构提供及时准确的技术支持,有助于提高医疗器械的使用效率和安全性。对于医学影像的初步分析,可以为医生提供参考,辅助诊断决策,提高诊断的准确性和效率。同时,也能提升医疗企业的服务质量和专业形象,增强客户信任。
原创文章,作者:小芝麻,如若转载,请注明出处:https://xiaokefu.com.cn/blog/27131.html