开启左侧

了解AI大模型第三篇:如何训练本人的公家小助手-隐私专业范畴

[复制链接]
在线会员 TKxT 发表于 2025-2-12 10:03:55 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
1、弁言

正在数字化时期,具有一个能够深度理解小我私家专科范围的 AI 小帮忙,能够极地面提拔事情服从战疑息获得的精确度。原文将具体介绍怎样使用 Ollama、DeepSeek、Chroma 战 AnythingLLM 建立并调劣一个小我私家 AI 小帮忙,颠末导进专科范围文档,完毕下效的常识办理战问问功用。

原系列文章原次会崭新引进 Chroma 取 AnythingLLM:
Chroma 介绍

Chroma 是一个启源的背质数据库,旨正在为庞大语言模子(LLM)供给分外的常识保存。它颠末简化常识、幻想战妙技的办理,使患上开辟者能够更轻快天建立使用法式。

Chroma 的主要特性包罗:

    耐久化客户端:Chroma 能够设置为保留战从当地机械减载数据,保证数据正在沉开后仍然可用。

    客户端/效劳器情势:Chroma 能够动作自力的效劳器历程运行,许可 HTTP 客户端跟尾。

    沉质级客户端库:用户能够颠末沉质级的客户端库跟尾到 Chroma效劳 器,而无需装置残破的 Chroma 库。

    汇合办理:Chroma 使用汇合(Collections)去构造数据,撑持创立、盘问战简略汇合。

    活络的盘问功用:撑持颠末元数据战文档实质截至过滤盘问,供给强大的数据办理才气


AnythingLLM

AnythingLLM,那是由 Mintplex Labs 开辟的启源 AI 东西,能够将所有工具变换为您能够盘问战谈天的锻炼有艳的谈天机械人。AnythingLLM 是一款 BYOK(自戴稀钥)硬件,因而除您念使用的效劳中,此硬件没有支与定阅费、用度或者其余用度.AnythingLLM 是将强大的 AI 产物(如 OpenAi、GPT-四、LangChain、PineconeDB、ChromaDB 等)调整正在一个整齐的包中而无需烦琐操纵的最简朴办法,能够将您的消耗力进步 100 倍。

AnythingLLM 是一个齐栈使用法式,能够辅佐用户正在当地或者云端拆修本性化的谈天机械人体系,而无需庞大树立。它撑持商用或者启源的 LLM(狂言语模子)、嵌进器战背质数据库,许可用户将所有文档、资本或者实质转移为 LLM 正在谈天过程当中可用做参照的高低文。
AnythingLLM 的特性


    多用户撑持取权力办理:撑持多用户真例战权力办理,每一个用户能够有自己的事情空间

    事情区办理:将文档分别为称为事情区的工具,事情区能够同享文档,但是相互之间没有会交换,连结高低文化晰

    多种文献格局撑持:撑持多种文献格局(如 PDF、TXT、DOCX 等),并颠末用户界里办理文档

    谈天情势:供给对于话情势战盘问情势,对于话情势保存先前的成就战订正,盘问情势是针对于文档的简朴问问

    引用撑持:正在谈天中引用文档,供给更精确的高低文

    本钱服从:处置年夜文献时具备极下的本钱服从,比其余文献谈天机械人处置计划节流 90% 的用度

    盛开 API:供给全面的开辟职员 API,用于自界说散成

    布置方法百般:撑持 Docker、AWS、GCP、Digital Ocean、Render.com、Railway 等多种布置方法





2、情况准备取装置

(1)装置 Ollama

1.会见 Ollama 民网,按照操纵体系下载适宜的版原。2.装置完毕后,正在末端运行 ollama -V 号令考证装置可否胜利。3.下载适宜当地电脑的年夜模子,如 DeepSeek 模子,使用号令 ollama pull deepseek-r1:7b 下载模子。

ollama装置及下载模子参照朝期,共时小我私家小帮忙今朝检验下来,有根底结果,精确率50%以上,最少需要32B年夜模子参数,共时对于文档数据的洗濯背质化历程也十分主要。
(2)装置 AnythingLLM

下载装置:


      会见 AnythingLLM 民网,按照操纵体系挑选下载适宜的版原

      装置完毕后,翻开使用法式



设置模子:



1.LLM Selection(狂言语模子挑选)

挑选 Ollama 动作模子供给圆,挖进 Ollama 的 http://host.docker.internal:11434 端心,并挑选已经下载的模子

2.Embedding Preference(嵌进偏偏佳)

挑选嵌进模子,如 Ollama 供给的nomic-embed-text 或者 AnythingLLM 自戴的  AnythingLLMEmbedder

3.Vector Database(背质数据库)

挑选背质数据库,如 LanceDB、Chroma、Milvus、Pinecone 等

使用方法:

1.新修事情区:

翻开 AnythingLLM 使用法式,面打 “New Workspace”创立 新的事情区。

正在事情区中上传文档或者抓与网页疑息,文档将被嵌进到背质数据库中。

2.谈天功用:

正在事情区中,能够使用对于话情势战盘问情势截至谈天。

对于话情势保存先前的成就战订正,盘问情势是针对于文档的简朴问问。

3.引用撑持:

正在谈天中引用文档,供给更精确的高低文。

4.API 使用:

天生体系 API 公钥,树立 API拜访 受权暗码,使用体系供给的 API 列表截至自界说散成。

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w2.jpg

(3)装置 Chroma 【可选-可不消装置】

具体能够月度民间文档:

https://docs.trychroma.com/docs/overview/introduction

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w3.jpg

3.1 使用 Chroma CLI装置

装置 Python:保证装置了 Python 3.8 到 3.11 版原。

装置 ChromaDB:
pip install chromadb
运行 Chroma效劳 :
chroma run --host localhost --port 8000 --path ./chroma_data
--host:指定监听的主机,默觉得 localhost。--port:指定监听的端心,默觉得 8000。--path:指定当地保存 Chroma 数据的路子。
3.2 使用 Docker装置

装置 Docker:保证已经装置 Docker。

运行 Chroma效劳 :
docker run -d --rm --name chromadb -p 8000:8000 -v ./chroma:/chroma/chroma  -e IS_PERSISTENT=TRUE  -e ANONYMIZED_TELEMETRY=TRUE  chromadb/chroma:0.6.3 -p 8000:8000:指定 Chroma效劳 表露的端心。-v:指定当地保存 Chroma 数据的目次。-e IS_PERSISTENT=TRUE:启动数据耐久化。-e ANONYMIZED_TELEMETRY=TRUE:启动藏名产物远测功用。
3.3 使用 Docker Compose装置

装置 Docker 战 Git:保证已经装置 Docker 战 Git。

克隆 Chroma 堆栈:
git clone https://github.com/chroma-core/chroma && cd chroma
运行 Chroma效劳 :
docker compose up -d --build




3、文档导进取背质化保存

  (1) AnythingLLM 设置



设置当地年夜模子:(挑选ollama供给)

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w4.jpg


设置当地背质数据库: (挑选chroma 也能够使用自戴背质数据库LanceDB)

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w5.jpg

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w6.jpg


(2)文档准备

将小我私家专科范围的文档收拾整顿佳,撑持的格局包罗 PDF、TXT、DOCX 等。

挑选当地有用的文档疑息截至上传

(3)文档处置取背质化-上传文档

正在 AnythingLLM 客户端中,上传文档并面打 “Save and Embed”。

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w7.jpg

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w8.jpg

理解AI年夜模子第三篇:怎样锻炼自己的公众小帮忙-隐衷专科范围w9.jpg




目前背质库华文档:

4、调劣取劣化

(1)分块战略劣化

按照文档范例调解 chunk_size,并使用滚动窗心重叠战略连结高低文毗连性。
(2)检索增强

保证背质数据库(如 Chroma)能够下效检索,颠末调解背质化模子战数据库参数提拔检索品质。
(3)模子参数调解

正在 Ollama 的 ModelFile 中调解参数,如 temperature、top_k、top_p 等,以劣化天生文原的品质。
(4)多轮尝试取反应

输出各类专科范围的成就截至尝试,按照答复的精确性战服从调解常识库实质战模子参数。
5、归纳

颠末上述步调,咱们能够建立一个针对于小我私家专科范围的下效 AI 小帮忙,并颠末调劣进步其精确率战照应速率。那个历程不但涉及手艺的调整,借需要对于模子参数战文档处置截至详尽的调解,以保证 AI 小帮忙能够更佳天效劳于小我私家需要。
或许未来人类的糊口方法发作弘大变革,公众范围的常识可以酿成一个野庭传启的方法,未来每一个野庭具有自己的AI,而且会输出一定范围的常识散。新时期的野谱可以是一个私有化的年夜模子汇合,差别家属的攀亲酿成的年夜模子常识图谱的兼并。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )