开启左侧

AI大模型实战——企业如何设计大模型运用架构

[复制链接]
@ 目次
    1、需要布景2、体系架构
      2.一、AI 中台2.二、背景办理体系2.三、其余2.四、危急面

1、需要布景


    正在一样平常出好报销过程中,咱们需要单次 / 批质上传收票,脚动挖写路程单,十分耗时且烦琐,原次需要将完毕那个场景的主动化,不但能够节流时间,借能够进步数据处置的精确性。原次需要存留多少个易面:

    一、PDF处置 ,包罗少文原切割、OCR 下粗度识别、笔墨组拆等;

    二、背质库语义精确性、背质库功用;

    三、数据宁静取隐衷;

    四、年夜模子运维取布置;

    五、年夜模子、Agent零碎 散成等;

    六、常识库的保护。

2、体系架构

    体系由产物、AI 中台和背景办理体系多少部门构成。

2.一、AI 中台

    不论是年夜模子仍是小模子,咱们需要将 AI 相干的才气集合办理起去,那里咱们只用到了模子效劳(MaaS),也即是道,咱们那里假定模子已经锻炼佳,微调佳,能够间接颠末交心截至挪用。理论上 AI 中台借包罗其余模块,好比数据收罗、标注、模子锻炼等等,那里咱们只用到模子效劳,下一节课咱们再具体介绍 AI 中台的架构设想。AI 中台最佳最少颠末 2 个使用来启交,一个供给对于中 API效劳 ,使用 Java 语言建立,一个 AI 模子效劳,使用 Python 使用建立。
2.1.一、使用效劳

    为了保证效劳的颠簸性战宁静性,咱们接纳 Java 语言开辟对于中交心效劳使用。那个使用颠末 App中止 办理,并使用 AppKey 战 AppSecret中止 交心鉴权。别的,咱们借鉴于 AppKey施行 了交心权力掌握战挪用频次限定。主要思考如下多少面:一、交心挪用限速。年夜模子拉理需要使用比力多的 GPU 资本,特别关于刚刚上线、流质比力年夜的使用,除延迟干佳资本评介,准备过多的装备资本,借要干佳升级的准备,因为有许多不成预估的情况可以会呈现,好比流质突删、拉理服从降落等等,城市招致 GPU 资本缺少,进而作用用户使用,一朝 GPU呈现 GPU 资本慌张的情况,要实时启用限流,能够延迟订定多少种战略,好比按分钟 / 秒限定 QPS,大概把一点儿流质小户参加乌名单,能够颠末用户 IP/ID 等标记截至掌握,那块战咱们一般硬件使用限流道理不合。二、文献巨细战格局限定,对于文献巨细战范例干一个限定,庇护体系免受“进犯”,好比将文献范例限制正在只可处置 PDF 上,以至只可处置本死 PDF 格局,巨细没有超越 10M,不然您没有明白会有甚么人间接上传多年夜的文献到体系,增加体系宕机危急。三、上传文献频次限定,实在那是限定交心挪用频次的一种,比仿佛一个用户每一分钟只可上传 1 次,要否则一小我私家不竭重复上传也会给体系戴去很年夜压力。四、模子效劳计费,不管是使用自己拆修的年夜模子,仍是挪用年夜厂 API效劳 ,最佳要把 tokens记载 下来,便利干用度统计和终极对于账。
2.1.二、模子效劳

    那部门是 AI才干 的中心,涉及数据处置、词汇嵌进、模子理论挪用等等,咱们使用 Python 动作建立语言,用过的人皆明白,Python 即是天然为机械进修而死的,大批的东西库,要比其余所有语言皆便利。那个场景下主要涉及如下多少个模块:
2.1.2.一、PDF处置


    那块咱们颠末一个 Agent 去向理,包罗 PDF 切分、OCR识别 等。PDF处置 可以会晤临林林总总的成就,好比假设 PDF 文献里是图象嵌进的,那末便需要 OCR,一朝使用 OCR 便会涉及准确率的成就;再好比文献处置自己即是资本麋集型操纵,简单招致体系背载太重的情况。PDF处置 东西有许多种,好比 pdfplumber、PyPDF二、pytesseract 等,有的是杂文原 PDF 实质抽与,好比 PyPDF2,有的是 OCR识别 ,如 pytesseract,动作一个通用功具,咱们能够先检测 PDF 中可否包罗图片,没有包罗图片的话间接使用 PyPDF2,您能够瞅一下示例代码。
    import PyPDF2
    from pytesseract import image_to_string
    from PIL import Image
    import pdf2image

    def extract_text_from_pdf(pdf_path):
        """
        从给定的PDF文献中提炼文原,包罗图象中的文原。
        """
        all_text = ""
        try:
            #翻开 PDF文献
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                num_pages = len(reader.pages)
               
                # 将PDF变换为图象,一页一页处置
                images = pdf2image.convert_from_path(pdf_path)
               
                for i in range(num_pages):
                    page = reader.pages
                    image = images
                   
                    # 先测验考试间接从PDF页提炼文原
                    text = page.extract_text() or ""
                   
                    #假设 提炼到的文原太少,可以需要OCR
                    if len(text.strip()) < 50:  # 比方,少于50个字符望为提炼失利
                        text = image_to_string(image, lang='chi_sim')
                   
                    all_text += f"Page {i + 1}:\n{text}\n\n"

        except Exception as e:
            print(f"An error occurred: {e}")

        return all_text

    # 示例用法
    pdf_file_path = 'path_to_your_pdf_file.pdf'
    extracted_text = extract_text_from_pdf(pdf_file_path)
    if extracted_text:
        print(extracted_text)
2.1.2.二、词汇嵌进


    词汇嵌进的道理尔便没有道了,前面的课程中有具体的注释。正在那个场景里,咱们能够把收票图象的特性提炼进去,天生背质,寄存到背质数据库干图象数据检索,固然素质仍是文原检索,用背质搜刮的益处是语义检索,好比有些辞汇少患上纷歧样,但是理论寄义是一致的,那末这类场景用背质检索便很简单检索进去。

    好比咱们要检索统统培修效劳类的收票,收票 A 写着:车辆培修用度包罗改换刹车片战轮胎查抄,收票 B 写着:为汽车截至的通例调养效劳,包罗造动体系战轮胎的保护,收票 C 写着:完毕对于车辆造动体系的全面查抄及轮胎改换效劳,那末颠末背质检索,那 3 种情况皆有可以搜刮进去。

    具体挑选哪一个词汇嵌进模子,能够自己鉴别,一般像 Google 的 Word2Vec,Meta 的 fastText 结果皆没有错,固然国产的也有,好比腾讯的 TX-WORD2VEC。
2.1.2.三、背质数据库


    背质数据库能够挑选 Meta 的 faiss,也能够挑选国产的 Milvus或许 各个云厂商的云背质数据库,背质数据库结果黑白的枢纽正在于背质的精确性,如何分词汇很枢纽,好比方才的例子,检索培修效劳,分词汇的时候假设把培修战效劳分隔,而后拿效劳那个词汇来检索,那末精确度会年夜挨扣头。以是正在一点儿场景下,制止客户间接输出检索实质,结果可以会更佳。

    别的,使用前借要先评介佳容质、数据库权力等等。
2.1.2.四、Agent

    咱们把处置 PDF 的全部历程搁到一个 Agent 内乱处置,处置的成果间接喂给年夜模子,年夜模子输出的实质能够挪用 Agent 的另外一个 tool中止 组拆,前去给用户。那里主要涉及 prompt 组拆(需要延迟设定佳 prompt 模版)、文原格局化、文献天生等外容。
2.1.2.五、狂言语模子


    狂言语模子即是那个体系的中心,那里咱们要先思考是用当地自己拆修的模子,仍是用年夜厂供给的 API。一般来讲,年夜厂的模子功用会更佳,好比文心一行、智谱浑行、通义千问等,结果皆没有错,价钱也没有贵,自己拆修的年夜模子为了节流资本,一般使用的是小范围参数的模子,好比 ChatGLM3-6B、LLaMa3-8B、Qwen-7B 等,真测下来,结果确实没有如云上的年夜模子,云上的一般年夜厂城市搁自己王牌的模子,结果必然没有会好。

    别的,假设挑选自己拆修模子,起首要留神那个模子可否撑持免费商用,别一没有当心构成侵权。共时,需要公道评介 GPU 资本,按照可以的 QPS 评介每一秒 token 数,再按照那个模子理论的每一秒处置 token 数,评介需要几块隐卡,预留必然的余质,避免突收情况。

    假设挑选云上模子效劳,要留神包管账户余额充沛,共时也能够树立一点儿阈值,限定必然的 tokens消耗 数,制止因为 bug或许 进犯消耗大批金额。
2.二、背景办理体系

    咱们需要一个体系去保护常识库,按期革新数据,那是使用常识库情势的一个差别面,并且会有必然的事情质,好比怎样截至分词汇,有的时候是野生操纵,如许便更有易度了,短时间内乱,假设时间去不迭,能够由开辟职员保护,只要供有交心便止,没有需要界里,久远瞅,最佳仍是干成背景办理体系,分派必然的权力,接由一定职员处置。
2.三、其余

    除方才介绍的实质,其余留神事变,好比监控、告警,通例的数据库设想、交心设想等,便没有具体描绘了,战硬件开辟相干的实质尔相信您是比力熟谙的,那里新删的像年夜模子、Agent 的监控、背质数据库的监控,要忘患上增加到尺度的 ops 过程中。
2.四、危急面

    PDF 抽与文原疑息的过程当中,可以会碰到 OCR精确 率成就,能够正在产物设想上给用户留有必然的权力,以就编纂疑息,假设呈现识别毛病大概不克不及识别的情况,许可用户脚动编纂疑息。词汇嵌进及背质数据库,需要多调试,差别的词汇嵌进模子使用的锻炼方法差别,结果差别,需要不竭调试瞅结果。年夜模子拉理服从成就,需要公道评介装备资本,制止拉理资本不敷戴去欠好的体会。Agent 散成,能够使用像咱们前面进修的 LangChain 框架,也能够自己编辑散成代码。自己保护常识库,需要有必然的分词汇才气。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )