职贝云数AI新零售门户

标题: AI大模型:向量嵌入embedding技术 [打印本页]

作者: 8bnCTDN    时间: 2025-3-6 12:18
标题: AI大模型:向量嵌入embedding技术
什么是向量(Vector)?

       在数学中,向量是一种表示有大小和方向的量化工具。假如把向量想象成一支箭头,那箭头的长度代表大小,箭头的指向代表方向。

        在AI大模型中,向量被用来表示更复杂的信息(不像数学中只要大小和方向),如词语的意思、句子的含义、甚至整篇文章的主题等等。比如,我们可以把一个单词转化成一个向量,这个向量的元素可以表示出这个单词的语法角色(比如它是名词、动词,还是描画词)、语义特性(比如它是表示高兴,还是表示悲伤)等等。

        我们可以简单把向量了解为一种数据编码方式,其中的每个向量维度都可以被以为是一个属性,这些属性组合在一同共同描画出一个数据点,表示出一个词、一个句子或一个文档。

什么是向量嵌入embedding?

      粗浅一点讲,就是把文本的意思嵌入向量里,也就是用向量来表示文本的含义,当然向量里能存储的不只仅是文本,音频、视频都可以用向量来表示。

为什么要做向量嵌入embedding?

       我们和智能助手如ChatGPT聊地利,它是如何了解我们成绩的意思并给出相关答案呢?背后一个很重要的技术就是:向量嵌入。向量嵌入将文字转换成数字,才使得计算机可以了解文字之间的语义关系。

       文本转为向量后,我们就可以经过一些算法来计算文本的相似程度,比如余弦相似度(Cosine Similarity)、欧氏间隔(Euclidean Distance)等。

向量嵌入embedding运用实例

         我们运用 OpenAI 的 embedding-ada-002 模型(接口 https://api.openai.com/v1/embeddings)来创建三个向量,一个表示“苹果”、一个表示“梨子”、一个表示“大象”。

        我们日常讨论空间时,常常会说二维空间和三维空间。简单做个类比,二维空间类比二维向量,三维空间类比三维向量。而运用 OpenAI 的 embedding-ada-002 模型创建的向量有 1536 个维度,所以我们创建出的三个向量是 1536 维的,这些维度组合构成了向量坐标,这三个向量就分布在这个1536维空间里。假如两个词的向量在这个1536维的向量空间中很接近,那么可以以为这两个词是相似的。

        经过后面我们获取到的“苹果”、“梨子”和“大象”向量,分别是一个长度为 1536 的数组。运用“余弦相似度”算法来比较两个向量,就会发现“苹果”和“梨子”这两个向量比较相似,并且它们两个都与水果类型非常接近(在空间中地位接近),所以 ChatGPT 就大概知道这两个应该是水果,应该都能吃。但是“大象”这个向量和它们并不相似,所以 ChatGPT 也就判别出大象并不是水果。

       经过“余弦相似度”算法,用来分别比较“苹果”、“梨子”和“大象”的向量值,可以直观的看到向量之间的差异:“苹果”和“梨子”的余弦相似度:0.8703165, “苹果”和“大象”的余弦相似度:0.4752318。

       “余弦相似度”度量的是两个向量间的角度,是一个 -1 到 1 之间的数字:

    ·值越接近 1 表示越相似

    ·值越接近 -1 表示越相反

    ·值越接近 0 表示越不相关

总结

        向量嵌入embedding就像是给自然言语建立了一套坐标系统,把言语转化为数学可以了解的方式——向量,经过这项技术,计算机不只可以辨认出单个词语,还能了解它们之间的关系,从而使计算机可以像人类一样去了解自然言语。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5