开启左侧

Google开源!用AI大模型从文本中提取结构化数据,支持本地部署!

[复制链接]
启源地点:https://github.com/谷歌/langextract

👆 面打存眷原公家号,获得更多AI前沿手艺搞货!
存眷即能源


列位敬爱的读者朋友们,感谢您们一起此后的撑持!您们的每次存眷、面赞、珍藏,皆是咱们连续创做的最年夜能源。忘患上面打左上角「存眷」按钮,没有错过所有一篇有代价的手艺文章哦~ 💪

💡 舒适提醒: 以为文章有效的话,别记了动入手辅导赞👍、珍藏⭐、批评💬,三连走一波,让更多开辟者瞅到!

✨ 名目明面速览


LangExtract 是 Google 拉出的一个超酷的 Python 库,它能让狂言语模子(LLM)从非构造化文原中智能提炼构造化疑息。听起去很拗心?简朴来讲,即是让 AI 助您从一年夜堆笔墨里"掘"出您念要的枢纽疑息!

那个名目的中心明面包罗:

🎯 精确的滥觞定位 - 每条提炼的疑息皆能回溯到本文的具体职位,借能主动下明显现,便利野生查对

📊可靠 的构造化输出 - 鉴于少样原示例自愿输出格局,使用可控天生手艺包管成果的不合性

📚 劣化少文档处置 - 智能分块+并止处置+多轮提炼,完善处置少文档中"易如反掌"的困难

🎨 接互式可望化 - 一键天生可接互的 HTML 陈述,直觉检察不计其数条提炼成果

🤖 活络的模子撑持 - 既撑持云端年夜模子(Gemini、OpenAI),也能用当地启源模子(颠末 Ollama)

🏗️ 整锻炼,启箱即用 - 只要多少个示例就可以界说所有范围的提炼任务,无需模子微调

🚀理论 布置步调


    装置情况准备


    pip install langextract

    设置 API 稀钥(如使用云端模子)
      Gemini:恳求 Google AI API KeyOpenAI:恳求 OpenAI API Key当地模子:跳过此步调

    编辑提炼任务代码


    import langextract as lx# 界说提炼提醒词汇prompt = "提炼文中的人物、感情战干系"# 供给示例数据examples = [lx.data.ExampleData(...)]# 施行提炼result = lx.extract(    text="您的待处置文原",    prompt=prompt,    examples=examples)
    处置少文档(可选)


    # 使用智能分块处置少文原result = lx.extract(    text=long_text,    prompt=prompt,    examples=examples,    max_chunk_length=1000  # 每一块至多1000 tokens)
    天生可望化陈述


    #保管 为接互式 HTML 文献result.save_html("output.html")

📋 启源和谈


Apache License 2.0

🎯理论 使用场景

场景一:调理病历构造化


病院天天发生大批非构造化的临床条记战诊疗陈述。用 LangExtract 能够主动提炼患者的病症、用药、诊疗成果等枢纽疑息,年夜年夜进步病历数字化服从。
场景两:法令条约检查


状师们需要从冗杂的条约文献中提炼枢纽条目、义务主体、日期等疑息。LangExtract 能辅佐快速定位主要实质,低落野生检查的事情质。
场景三:交际媒介舆情份析


从海质交际媒介批评中提炼用户感情偏向、品牌说起、枢纽词汇等疑息,为商场阐发战舆情监控供给数据撑持。

⚠️ 免责申明


原文档实质滥觞于 Google 启源名目的民间分析文档搬运翻译,原公家号作家不合错误文章实质的精确性、残破性或者实效性负担所有义务。如需使用该名目,请以民间文档为准。


欢送列位正在批评区主动会商 AI 手艺降天使用,包罗对于目前名目的手艺钻研、使用心患上、改良倡议等!🤗 让咱们共同窗习,配合进步!


存眷原公家号后,复兴枢纽词汇「事情流」,便可获得咱们经心汇集收拾整顿的免费AI资本包!
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )