DeepSeek接入个人知识库,保姆级教程来了(附教程)

文章正文
发布时间:2025-03-03 02:26

这次带来 RAG 的小白应用教程:介绍如何通过 ragflow 框架把 DeepSeek 接入到自己的个人知识库中,当然其他模型也是类似,可以自由搭配。

先看效果:

Image

ragflow 简介:

RAGFlow 是一款基于深度文档理解的开源检索增强生成(Retrieval-Augmented Generation,RAG)引擎,旨在通过结合信息检索和生成式 AI 的优势,解决现有技术在数据处理和生成答案方面的挑战。

作用

RAGFlow 广泛应用于需要动态生成内容且依赖外部知识库的场景,例如:

智能客服:实时从企业知识库中检索相关信息,为客户提供准确、个性化的解答。

文档生成与报告分析:从多个数据源中检索信息并生成结构化的文档或摘要,适合大规模内容管理。

辅助诊断:医疗专业人员可以通过 RAGFlow 快速查找相关医学文献和病例资料,为诊断和治疗提供参考。

文献综述:帮助学生和研究人员快速定位和分析相关的学术文献,高效完成文献综述的撰写。

新闻报道与投资分析:记者和金融机构可以利用 RAGFlow 整合和提炼大量素材,生成新闻稿件或投资分析报告。

在这里插入图片描述

优势

深度文档理解:能够从复杂格式的非结构化数据中精准提取知识,支持多种文档格式(如 Word、PPT、Excel、PDF 等),并自动识别文档布局。

降低幻觉风险:提供清晰的关键引用来源,支持文本分块的可视化和人工干预,确保生成答案有据可依。

兼容异构数据源:无缝处理多种数据格式,整合不同来源的数据,为用户提供一站式的数据处理和问答体验。

自动化工作流:支持从个人应用到超大型企业的各类生态系统,提供易用的 API,便于快速集成到各类业务系统。

高效性与成本优化:通过动态优化流程,减少不必要的计算和查询次数,降低运行成本。

精准性与可靠性:检索和生成环节相辅相成,确保最终结果的准确性和可靠性。

RAGFlow 的这些特性和优势使其在信息检索和内容生成领域具有广泛的应用前景和显著的竞争力。

我的理解呢,ragflow的意义在于它把原本复杂的rag系统开发,处理成了零代码开发模式,方便非计算机背景的人也可以进行rag系统的搭建和维护,而且融入了类似dify的强大的工作流编排功能。

ragflow 本地 windows 部署

配置要求:ragflow是一个相当“重”的项目,如果你的电脑不满足以下条件,请不要随意尝试

Image

一、软件配置安装

首先我们需要安装好 docker 软件

https://www.runoob.com/docker/windows-docker-install.html

安装好 docker 后启动即可,不用登陆不用设置任何东西,一路跳过。

这里我们需要配置 docker 镜像源

Image

{ "registry-mirrors": \[ "https://registry.docker-cn.com", "", "https://docker.mirrors.ustc.edu.cn" \], "insecure-registries": \[\], "debug": false, "experimental": false, "features": { "buildkit": true }, "builder": { "gc": { "enabled": true, "defaultKeepStorage": "20GB" } } }

上方代码粘贴替换完毕后点击右下角

Image

到这里我们的 docker 就配置好了

然后我们需要安装 git:https://cloud.tencent.com/developer/article/2099150

最后我们需要安装 vscode:https://zhuanlan.zhihu.com/p/264785441

二、安装 ragflow 设置安装路径

在 c 盘之外的地方打开一个文件夹用来安装 ragflow,鼠标右键,点击 open Git Bash here

输入命令:

git clone https://github.com/infiniflow/ragflow.git

点击回车就可以看到多了一个文件夹 ragflow

由于默认配置版本是没有 embedding 模型的,所以我们修改配置为完整版。使用 vscode 打开 .env 文件,修改第 84 行和第 87 行,ctrl+s 保存文件。

Image

拉取 docker 镜像

接下来我们开始部署 docker 镜像,按住 win+R 键,输入 powershell,点击回车。之后输入 cd+刚刚下载的ragflow文件夹路径,我这里是cd D:\demo\ragflow\docker按回车,输入docker compose -f docker-compose.yml up -d按回车。之后可以看到正在使用 docker 加载镜像,稍等一会儿加载完毕即可。

大概 15 分钟后镜像加载完毕就部署完毕了。最后我们输入docker logs -f ragflow-server,出现 RAGFLOW 字体就代表后端服务启动成功了。

Image

Image

Image

之后我们在浏览器地址栏输入:localhost:80即可打开ragflow登录页面。登录页面可以随便输入一个邮箱账号(随便编一个符合邮箱格式的就可以),全部是保存在你本地电脑上的,不用担心数据泄露。但是要注意第一个注册的默认是管理员,所以还是要注意保存一下你注册的邮箱信息。之后点击登录就可以使用ragflow了。

Image

Image

三、简易使用教程

首先我们配置一下 deepseek 模型服务,api-key 可以从 https://platform.deepseek.com/api_key 申请获取(官网已经恢复充值)。

之后我们上传资料创建一个本地知识库就可以啦。可以看到上传的资料支持多种格式,扫描版的 pdf 文档也是可以的。

Image

上传文件之后需要等待文档解析完成,可以看到文档解析的效果还是不错的

Image

创建对话助理后,就可以对话啦,注意在模型设置里把模型替换为 deepseek-chat

Image

四、启动与关闭 ragflow 程序: 关闭 ragflow 程序:

关掉 powershell 窗口,退出 docker 进程即可。

Image

启动 ragflow 程序:

打开 docker 软件,按下 win+R 打开 powershell,输入docker logs -f ragflow-server回车,就启动了后端服务了。!!检查一下 docker 软件,看一下 ragflow 是否全部启动,也就是下图中的几个服务全是运行状态:

Image

如果都在运行中,此时可以在浏览器输入localhost:80即可启动前端界面,愉快的使用 ragflow 啦!

本教程主要参考以下两篇官方文档撰写:

1. https://github.com/infiniflow/ragflow?tab=readme-ov-file

2. https://ragflow.io/docs/dev/

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!

在这个版本当中:

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 阶段1:AI大模型时代的基础理解

目标:了解AI大模型的基本概念、发展历程和核心原理。

内容

L1.1 人工智能简述与大模型起源

L1.2 大模型与通用人工智能

L1.3 GPT模型的发展历程

L1.4 模型工程

L1.4.1 知识大模型

L1.4.2 生产大模型

L1.4.3 模型工程方法论

L1.4.4 模型工程实践

L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

内容

L2.1 API接口

L2.1.1 OpenAI API接口

L2.1.2 Python接口接入

L2.1.3 BOT工具类框架

L2.1.4 代码示例

L2.2 Prompt框架

L2.3 流水线工程

L2.4 总结与展望

阶段3:AI大模型应用架构实践

目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

内容

L3.1 Agent模型框架

L3.2 MetaGPT

L3.3 ChatGLM

L3.4 LLAMA

L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

内容

L4.1 模型私有化部署概述

L4.2 模型私有化部署的关键技术

L4.3 模型私有化部署的实施步骤

L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

Logo

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

加入社区

更多推荐

从零开始:H20服务器上DeepSeek R1 671B大模型部署与压力测试全攻略

最近,我有幸在工作中接触到了DeepSeek R1 671B模型,这是目前中文开源领域参数量最大的高质量模型之一。DeepSeek团队在2024年推出的这款模型,以其惊人的6710亿参数量和出色的推理性能,引起了业界广泛关注。作为一名AI基础设施工程师,我有机会在H20服务器上部署这个庞然大物,并对其进行了全面的压力测试。这篇文章将详细记录我的部署过程和性能测试方法,希望能为大家提供一些参考。💡

avatar

DeepSeek技术社区

cover

2025 年全球” AI 大模型全景解析:技术架构、应用场景与算力配置深度对比

avatar

DeepSeek技术社区

cover

deepseek使用记录18——文化基因

avatar

DeepSeek技术社区