首页 家电百科 实时讯息 常识
您的位置: 首页 > 常识 >

向量是什么意思(向量是什么?向量的生成及底层逻辑工作原理)

100次浏览     发布时间:2024-10-31 08:20:54    

今天给大家细聊一下“向量”和直通车的冷启动及引力魔方最近为什么数据那么差的底层逻辑。

特别是新品新计划车是否最近很难开?

引力魔方的拉新计划是否数据很差?

归根到底都是“向量”问题。

正文

向量是什么?平台为什么越来越注重人群特征标签继承。

不管是付费还是免费,人群继承的权重越来越高,最近是否直通车出了一个冷启动就发现新品新车很难开了,就是卡首屏你也不到前三的位置。

如果新品没有权重,直通车的新计划权重会非常低,以前直通车还有计划权重和关键词权重,现在直通车的计划权重就跟着所开链接的搜索权重走的,链接没有搜索权重,直通车计划权重也会非常低。

为什么平台越来越注重人群特征继承?说白了还是由于平台搜索规则的召回机制,召回要有标准,那么这个标准很大的权重来源于人群特征继承,人群特征再细分一下就是人群标签,标签的延续就是向量问题。

什么是标签,什么是人群这两个概念谈了很久,标签的存在就是为了还原消费者的真实购物意图的过程。

某种意义上说,人群特征继承最精准的继承是背后的相似或者相同的购物意图。

标签也好,向量也罢都是为了还原和证实消费者真实的成交购物意愿。

从算法的角度来谈:双塔内积模型就是从用户特征端+行为序列来分析消费者的购物意图,商品端也是通过商品特征来分析消费者的购物意图。

用户特征和商品特征系统是怎么识别分析的,这里就要谈到一个算法向量召回,向量就是系统通过用户端和商品端的行为序列只要你有行为序列和行为动作就会形成一个实数值,只要有实数值那么就可以生成一个“向量”。系统就会把用户端和商品端生成向量类似于数据库的向量库,向量就是基础的倒排索引中的提前分类好的数据库。

系统就会进行向量索引然后进行召回,向量检索主要是基于空间向量和图片。

可以说向量检索和文本检索很相似,文本检索对应的是关键词数据库,向量检索对应的是向量数据库。

向量的生成:

举个最简单的例子让大家理解:

为了简单起见,从句子做词频向量对比。

词频(TF)=某个词在文章中的出现次数。

 句子A:我喜欢看电视,不喜欢看电影。

 句子B:我不喜欢看电视,也不喜欢看电影。

问怎样才能计算上面两句话的相似程度?

基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。

第一步,分词。

  句子A:我/喜欢/看/电视,不/喜欢/看/电影。

  句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。

第二步,列出所有的词。

  我,喜欢,看,电视,电影,不,也。

第三步,计算词频。

  句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。

  句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。

第四步,写出词频向量。

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

到这里,问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。


以二维空间为例,上图的a和b是两个向量,

这样就可以判断两个向量的相似度

向量相似度判断:

具体怎么判断?余弦定理告诉我们,可以用下面的公式求得:



假定a向量是[x1, y1],b向量是[x2, y2],那么可以将余弦定理改写成下面的形式:



数学家已经证明,余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,则A与B的夹角θ的余弦等于:


使用这个公式,我们就可以得到,句子A与句子B的夹角的余弦。


余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事实上它们的夹角大约为20.3度。

由此,我们就得到了"向量相似度"的一种算法,这就是平台算法实际运用的向量召回的一种相似度算法。

向量相似度解决的是语义相似度的问题,因为当标题被拆分成分词后关键词与关键词之间的语义关系就被破坏了,词与词之间的语义关系就没有了,通过向量相似度再次进行语义相似度召回。


文本(标题)向量化在本文的应用场景中,用户问句是最重要的文本形式。问句长度一般情况下为10~30 个词左右。目前生成句向量的方式有很多种:Tfidf:此方式同倒排一样,无法表征句子的意思。分词,训练词向量模型,然后将问句中的词的词向量相加求平均;这在一定程度上表征了句子信息,在绝大多数场景下够用。利用 Bert 等预训练模型获取相关的句向量。


度量相似度的方式还有很多种比如 欧氏距离,cos,汉明距离,Jaccard相似度等等我这里侧重讲向量召回,就是向量检索现在是各大平台最常用的索引方式之一,也是为了让大家更好的理解向量的工作原理和方式。

这里特别强调:我给大家举的例子是通过词频向量来解释向量的生成和工作过程,但是实际算法工作中,万物皆可向量,只要背后能生成数值。

总结一下:向量召回是通过多维度多目标多模态的取实数值来解决语义精准度的问题。

向量召回就是通过将基于元素取实数值进行向量化表征来构建偏向于高效检索的索引---向量索引。

背后都是基于精准的语义购物意图,这就是向量,元素数值:

可以通过实时用户行为轨迹数据获得

可以通过历史用户的行为轨迹获得

可以通过历史点击率数据获得

可以通过历史转化率数据获得

可以通过深度学习算法结合实时个性化标签数据获得等等

只要背后行为轨迹或行为数据能取实数值就可以生成向量。等等

所取的元素--数值,都是一个相同的特征就是可以进行向量化表征(Embeding成语义向量)精准反应背后的精准需求意图(表明向量表征)


这样给大家讲,能理解什么是向量了吗?

向量是一个N维向量,数学家已经证明,余弦的这种计算方法对n维向量也成立。所以向量可以多维生成向量进行余弦相似度解决语义精准度的问题,多向量维度解决语义精准度的问题,并不是像上述举例那样单一向量维度那么简单,背后取的都是个人行为数据和行为轨迹数据的数值,这些本身就不是模仿来的,而是长期沉淀下的数据取值。

那么向量如何影响搜索?

一个向量背后就是一个精准的语义就是一个精准的购物意图,做搜索就是在做“关键词”背后的购物意图。

明白了这两点,就明白了向量的价值。上述有提到“文本向量化”也就是会把文体也就是标题进行分词,分词后词与词之间的语义就被破坏,就要通过向量赋予关键词精准语义。

为什么大家一直信奉关键词背后的坑产可以解决排名和精准度的问题。

其实还是坑产思维的影响,因为那个时期是简单的规则性算法排序主要是通过机器统计排序的方式所以坑产落到关键词上面,有了排名也就有了流量,排名也就决定了转化率的问题也就解决精准度的问题。

那个时期根本就没有人群标签的概念,没有个性化所以谁能拿到排名就可以解决一切。

如果你真的看懂了向量是什么,你就能瞬间明白为什么一定要“尊重系统,顺势而为”去入池。

为什么一定不能通过长期碰关键词,通过递增此关键词坑产值来来强化关键词的精准度。

因为现在没有了排名一说,入池的背后的人群标签背后表明的相似相同的购物意图,成交是表明关键词精准,如果长期人为干预,那么系统最终是通过用户行为数据和商品数据通过取多维度,多目标,多模态的实数值来生成向量来确认精准语义也就是购物意图精准度的问题的,你模仿的假数据越多,反而会影响系统取值生成向量的精准度,所以假的就是假的,就算生成向量背后也是假的元素过多后面就很难做承接的工作了。


只有明白了这些核心底层逻辑,优化才有指引,你做的工作要以阶段目标为核心实时调整自己的方案,知道系统真正要什么。

明白了这些,为什么要有冷启动这个阶段,你也就能彻底搞明白了。






韩锐壁挂炉|全国服务实时反馈-今-日-更-新

韩锐壁挂炉24小时售后服务电话:400-883-2086韩锐壁挂炉全国统一客服维修热线:400-883-2086我们是韩锐壁挂炉维修行业的专业团队,提供优质的韩锐壁挂炉维修服务。我们了解韩锐壁挂炉在家庭生活中的重要性,因此,我们承诺提供高效、快速、专业的维修服务,让您的韩锐壁挂炉始终保持

2025-05-08 13:15:10

美的燃气灶售后号码多少实时反馈-今-日-更-新

美的燃气灶全国售后服务点热线号码:400-883-2086美的燃气灶的维修电话可能因地区和具体服务内容而有所不同,但通常,用户可以通过拨打美的燃气灶的全国统一客服热线来获取维修服务。以下是一些可供参考的电话号码:美的燃气灶全国统一客服热线:400-883-2086美的燃气灶另

2025-05-08 13:13:46

鑫百达防盗门|全国服务实时反馈-今-日-资-讯

鑫百达防盗门售后服务电话:400-883-2086鑫百达防盗门24小时客服热线:400-883-2086鑫百达防盗门24小时人工客服、线下专业全国网点及各地区 专业人员服务团队等专属服务,整个报修流程规范有序,后期同步跟踪查询公开透明。所有专业团队均经过专业培训、持证上岗,所用配

2025-05-08 13:10:33

希尔博热水器服务热线号码各区24小时维修实时反馈-今-日-更-新

亲爱的用户朋友们,相信大家在使用希尔博热水器时,一定遇到过一些小麻烦,比如说,有时候会遇到无法解锁的情况。今天我就来和大家聊聊这个话题,从三个方面来分析一下:故障原因、常见问题、解决方法。如果在解决过程中遇到任何困难,可以拨打希尔博热水器的统一400客户服务电话——400-883-2086,我们的客

2025-05-08 13:08:54

若之何保险柜/全国各市服务热线号码实时反馈-今-日-汇-总

若之何保险柜售后服务维修电话:400-883-2086若之何保险柜24小时维修客服热线:400-883-2086若之何保险柜24小时服务电话《今日发布》若之何保险柜附近上门服务电话7天24小时人工电话客服

2025-05-08 13:06:57

中博热水器售后号码-全国400服务号码实时反馈-今-日-汇-总

中博热水器全国24小时售后服务电话号码400-883-2086, 全国24小时售后服务电话号码400-883-2086,服务为先,满意为念,服务无/极/限,真/诚/到永远。讲诚信、树新风、诚以待人、信以立世、认真负责、精益求精、积极热情,本公司为全国维修服务!全/天候、全/天蔬诚为您

2025-05-08 13:04:17

大成集成灶24小时全国售后热线实时反馈-今-日-更-新

大成集成灶售后服务电话400-883-2086越来越多的人意识到家财安全的重要性,为了保护贵重物品的安全,大成集成灶成为了很多家庭的必备品。而大成集成灶作为国内知名品牌,其专业服务备受广大消费者的赞誉。大成集成灶专业服务电话(以产品说明书或保修卡电话为准),全方位解决您的家财安全问题。专

2025-05-08 13:02:24

HERO燃气灶售后服务号码及其服务网点介绍实时反馈全+境+到+达

HERO燃气灶作为家庭中重要的安全设备之一,其专业服务质量直接关系到用户的使用体验和资产安全。HERO燃气灶24小时售后服务热线:400-883-2086在购买HERO燃气灶后,了解其专业服务电话大全及维修网点查询信息至关重要。本文将为您介绍HERO燃气灶客服专业服务热线电话及维修网点查询,确保

2025-05-08 13:02:20

月兔空调用户客服中心实时反馈-今-日-汇-总

月兔空调的维修电话可能因地区和具体服务内容而有所不同,但通常,用户可以通过拨打月兔空调的客服热线来获取维修服务。以下是一些可供参考的电话号码:月兔空调客服热线:400-883-2086月兔空调另一客服热线:400-883-2086这些电话号码通常提供24小时服务,用户

2025-05-08 12:58:57

德龙燃气灶400全国各售后服务热线号码实时反馈-今-日-更-新

德龙燃气灶全国售后服务电话:400-883-2086 400-883-2086 (温馨提示:即可拨打) 德龙燃气灶各市区24小时售后客服热线〔2〕400-883-2086 400-883-2086

2025-05-08 12:58:18