首页 常识
您的位置: 首页 > 常识 >

向量是什么意思(向量是什么?向量的生成及底层逻辑工作原理)

100次浏览     发布时间:2024-10-31 08:20:54    

今天给大家细聊一下“向量”和直通车的冷启动及引力魔方最近为什么数据那么差的底层逻辑。

特别是新品新计划车是否最近很难开?

引力魔方的拉新计划是否数据很差?

归根到底都是“向量”问题。

正文

向量是什么?平台为什么越来越注重人群特征标签继承。

不管是付费还是免费,人群继承的权重越来越高,最近是否直通车出了一个冷启动就发现新品新车很难开了,就是卡首屏你也不到前三的位置。

如果新品没有权重,直通车的新计划权重会非常低,以前直通车还有计划权重和关键词权重,现在直通车的计划权重就跟着所开链接的搜索权重走的,链接没有搜索权重,直通车计划权重也会非常低。

为什么平台越来越注重人群特征继承?说白了还是由于平台搜索规则的召回机制,召回要有标准,那么这个标准很大的权重来源于人群特征继承,人群特征再细分一下就是人群标签,标签的延续就是向量问题。

什么是标签,什么是人群这两个概念谈了很久,标签的存在就是为了还原消费者的真实购物意图的过程。

某种意义上说,人群特征继承最精准的继承是背后的相似或者相同的购物意图。

标签也好,向量也罢都是为了还原和证实消费者真实的成交购物意愿。

从算法的角度来谈:双塔内积模型就是从用户特征端+行为序列来分析消费者的购物意图,商品端也是通过商品特征来分析消费者的购物意图。

用户特征和商品特征系统是怎么识别分析的,这里就要谈到一个算法向量召回,向量就是系统通过用户端和商品端的行为序列只要你有行为序列和行为动作就会形成一个实数值,只要有实数值那么就可以生成一个“向量”。系统就会把用户端和商品端生成向量类似于数据库的向量库,向量就是基础的倒排索引中的提前分类好的数据库。

系统就会进行向量索引然后进行召回,向量检索主要是基于空间向量和图片。

可以说向量检索和文本检索很相似,文本检索对应的是关键词数据库,向量检索对应的是向量数据库。

向量的生成:

举个最简单的例子让大家理解:

为了简单起见,从句子做词频向量对比。

词频(TF)=某个词在文章中的出现次数。

 句子A:我喜欢看电视,不喜欢看电影。

 句子B:我不喜欢看电视,也不喜欢看电影。

问怎样才能计算上面两句话的相似程度?

基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。

第一步,分词。

  句子A:我/喜欢/看/电视,不/喜欢/看/电影。

  句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。

第二步,列出所有的词。

  我,喜欢,看,电视,电影,不,也。

第三步,计算词频。

  句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。

  句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。

第四步,写出词频向量。

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

到这里,问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。


以二维空间为例,上图的a和b是两个向量,

这样就可以判断两个向量的相似度

向量相似度判断:

具体怎么判断?余弦定理告诉我们,可以用下面的公式求得:



假定a向量是[x1, y1],b向量是[x2, y2],那么可以将余弦定理改写成下面的形式:



数学家已经证明,余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,则A与B的夹角θ的余弦等于:


使用这个公式,我们就可以得到,句子A与句子B的夹角的余弦。


余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事实上它们的夹角大约为20.3度。

由此,我们就得到了"向量相似度"的一种算法,这就是平台算法实际运用的向量召回的一种相似度算法。

向量相似度解决的是语义相似度的问题,因为当标题被拆分成分词后关键词与关键词之间的语义关系就被破坏了,词与词之间的语义关系就没有了,通过向量相似度再次进行语义相似度召回。


文本(标题)向量化在本文的应用场景中,用户问句是最重要的文本形式。问句长度一般情况下为10~30 个词左右。目前生成句向量的方式有很多种:Tfidf:此方式同倒排一样,无法表征句子的意思。分词,训练词向量模型,然后将问句中的词的词向量相加求平均;这在一定程度上表征了句子信息,在绝大多数场景下够用。利用 Bert 等预训练模型获取相关的句向量。


度量相似度的方式还有很多种比如 欧氏距离,cos,汉明距离,Jaccard相似度等等我这里侧重讲向量召回,就是向量检索现在是各大平台最常用的索引方式之一,也是为了让大家更好的理解向量的工作原理和方式。

这里特别强调:我给大家举的例子是通过词频向量来解释向量的生成和工作过程,但是实际算法工作中,万物皆可向量,只要背后能生成数值。

总结一下:向量召回是通过多维度多目标多模态的取实数值来解决语义精准度的问题。

向量召回就是通过将基于元素取实数值进行向量化表征来构建偏向于高效检索的索引---向量索引。

背后都是基于精准的语义购物意图,这就是向量,元素数值:

可以通过实时用户行为轨迹数据获得

可以通过历史用户的行为轨迹获得

可以通过历史点击率数据获得

可以通过历史转化率数据获得

可以通过深度学习算法结合实时个性化标签数据获得等等

只要背后行为轨迹或行为数据能取实数值就可以生成向量。等等

所取的元素--数值,都是一个相同的特征就是可以进行向量化表征(Embeding成语义向量)精准反应背后的精准需求意图(表明向量表征)


这样给大家讲,能理解什么是向量了吗?

向量是一个N维向量,数学家已经证明,余弦的这种计算方法对n维向量也成立。所以向量可以多维生成向量进行余弦相似度解决语义精准度的问题,多向量维度解决语义精准度的问题,并不是像上述举例那样单一向量维度那么简单,背后取的都是个人行为数据和行为轨迹数据的数值,这些本身就不是模仿来的,而是长期沉淀下的数据取值。

那么向量如何影响搜索?

一个向量背后就是一个精准的语义就是一个精准的购物意图,做搜索就是在做“关键词”背后的购物意图。

明白了这两点,就明白了向量的价值。上述有提到“文本向量化”也就是会把文体也就是标题进行分词,分词后词与词之间的语义就被破坏,就要通过向量赋予关键词精准语义。

为什么大家一直信奉关键词背后的坑产可以解决排名和精准度的问题。

其实还是坑产思维的影响,因为那个时期是简单的规则性算法排序主要是通过机器统计排序的方式所以坑产落到关键词上面,有了排名也就有了流量,排名也就决定了转化率的问题也就解决精准度的问题。

那个时期根本就没有人群标签的概念,没有个性化所以谁能拿到排名就可以解决一切。

如果你真的看懂了向量是什么,你就能瞬间明白为什么一定要“尊重系统,顺势而为”去入池。

为什么一定不能通过长期碰关键词,通过递增此关键词坑产值来来强化关键词的精准度。

因为现在没有了排名一说,入池的背后的人群标签背后表明的相似相同的购物意图,成交是表明关键词精准,如果长期人为干预,那么系统最终是通过用户行为数据和商品数据通过取多维度,多目标,多模态的实数值来生成向量来确认精准语义也就是购物意图精准度的问题的,你模仿的假数据越多,反而会影响系统取值生成向量的精准度,所以假的就是假的,就算生成向量背后也是假的元素过多后面就很难做承接的工作了。


只有明白了这些核心底层逻辑,优化才有指引,你做的工作要以阶段目标为核心实时调整自己的方案,知道系统真正要什么。

明白了这些,为什么要有冷启动这个阶段,你也就能彻底搞明白了。






紫檀料多少钱

紫檀的价格因其品质、产地、规格等因素而异。以下是一些具体的价格信息:一般价格紫檀的价格较高,每斤价格在数千元甚至更高。小叶紫檀手串一般价格在198元左右,精致一些的价格可能在1000元左右。一件小叶紫檀的摆件价格大约在4500元人民币左右,家具则可能需要上万元,甚至十几万元人民币。高端价格檀香紫檀(

2025-02-01 09:10:02

室内房门高度多少合适

房门的标准高度一般为 2米至2.4米之间。这个高度范围能够适应大多数人的身高和日常使用需求,同时避免因门过高而带来的压抑感或空洞感。具体来说:一般住宅:供人通行的门高度一般不低于2米,再高也不宜超过2.4米,否则会有空洞感,门扇制作也需特别加强。老旧房屋:门的高度可能低于2000mm,需要根据具体情

2025-02-01 09:09:31

电信基础密码是多少

电信基础密码存在多种可能性,具体如下:初始密码00000000、 12345、 1122、 1111、 0000。321321。重置方法如果忘记密码,可以通过以下方式重置:拨打电信客服热线 10000,按语音提示操作修改。进入电信网上营业厅,在登录框下找到“忘记密码”选项,点击后按页面提示输入手机号

2025-02-01 08:55:32

金鱼养多少最合适

关于家养金鱼的数量,存在一些风水上的建议,同时也需要考虑实际饲养条件和鱼缸的大小。以下是一些常见的建议:风水建议一条金鱼:数字一是吉利的,代表白水,象征运势兴盛。六条金鱼:数字六代表白金生水,有利于财运。八条金鱼:数字八在风水上也是不错的,但需要大鱼缸来容纳。九条金鱼:数字九是最尊贵的,象征未来事业

2025-02-01 08:53:33

容声冰箱档位多少最小

容声冰箱的档位设置中, 1档是最低档,而7档是最高档。档位数字越小,表示冰箱内的温度越高;数字越大,表示温度越低。具体温度范围如下:1档:冷藏室温度较高,通常在8-10℃左右。2档:冷藏室温度适中,大约在6-8℃。3档:冷藏室温度较低,一般在4-6℃之间。4档:冷藏室温度较低,约为3-5℃。5档:冷

2025-02-01 08:47:33

炒菜有多少瓦电

炒菜时使用的功率 取决于炒菜的种类和方式。以下是一些常见情况下的功率建议:急火爆炒:建议使用2100W的功率,这样可以迅速加热食材,保持菜肴的色香味。慢火烧菜:可以使用500W、800W、1300W或1600W的功率,具体功率可以根据菜肴的烹饪需求进行调整。普通电锅:一般使用1500W的功率,因为炒

2025-02-01 08:33:33

集成灶用多少电

集成灶的耗电量与其功率、使用时间以及使用方式等因素密切相关。以下是一些具体的耗电情况:功率范围集成灶的功率通常在2000瓦至4000瓦之间。常见的功率范围大约在2000瓦至4000瓦之间。耗电量计算如果一台集成灶的功率为3000瓦,连续使用一小时,其耗电量就是3千瓦时,即3度电。一台一级能效的集成灶

2025-02-01 08:11:02

开关距离地面多少

开关距离地面的高度主要 取决于使用场景和人体工程学原则,以下是一些常见情况和推荐高度:普通电源开关没有特殊要求的普通电源开关插座通常安装在距离地面0.3米的高度。客厅电源开关:通常安装在距离地面120厘米至140厘米的高度,方便成人操作。普通插座:一般安装在距离地面30厘米的高度,用于电视、音响等视

2025-02-01 07:50:04

姐姐出嫁包多少红包

给姐姐出嫁的红包金额应根据 个人经济情况和 当地风俗习惯来决定。以下是一些常见的建议:根据经济情况如果经济条件较好,可以包一个较大的金额,如1314元、201314元、8888元或99999元等,这些数字都较为吉利。如果经济条件一般,可以选择5000元到10000元之间的金额,具体金额可以根据自己的

2025-02-01 07:28:01

最小门尺寸多少厘米

门的尺寸因设计、用途和材质的不同而有所差异。以下是一些常见的门宽度:标准卧室门:通常为90厘米(35英寸)左右,这种宽度适合大多数标准的房间布局。浴室门:一般为75-80厘米(30-31英寸),以确保在淋浴时有足够的空间打开和关闭门。厨房单门:宽度也是78-80厘米(30-31英寸)。入户门:一般标

2025-02-01 07:25:31