三度网教程:是一个免费提供流行视频软件教程、在线学习分享的学习平台!

基于Tags完成内容推荐的方法(代码)

时间:2022-6-10作者:未知来源:三度网教程人气:


SQL是Structured Query Language(结构化查询语言)的缩写。SQL是专为数据库而建立的操作命令集,是一种功能齐全的数据库语言。在使用它时,只需要发出“做什么”的命令,“怎么做”是不用使用者考虑的。SQL功能强大、简单易学、使用方便,已经成为了数据库操作的基础,并且现在几乎所有的数据库均支持SQL。
本篇文章给大家带来的内容是关于基于Tags实现内容推荐的方法(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

原来为了简单方便,自己小网站上的文章页的相关内容推荐就是从数据库里随机抽取数据来填充一个列表,所以一点相关性都没有,更本没有办法引导用户去访问推荐内容。

算法选择

如何能做到相似内容的推荐呢,碍于小网站还跑在虚拟主机上(对的,连一个自己完整可控的服务器都没有),所以可以想的办法不多,条件限制在 只能用PHP+MySql。所以我想到的办法就是通过Tags来匹配相似文章进行推荐。如果两篇文章的TAGS 比较相似

比如:文章A 的TAGS为: [A,B,C,D,E]
文章B 的 TAGS 为:[A,D,E,F,G]
文章C 的 TAGS 为:[C,H,I,J,K]

通过眼睛我们能很方便的发现,文章B和文章A更为相似,因为它们有三个关键字相同分别为:[A,D,E],哪如何用计算机来判断它们的相似度呢,这里我们用jaccard相似度的最基本应用来计算它们的相似度

jaccard相似度

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

3385608760-5b9a3942c4d15_articlex.png

文章A和文章B的交集为 [A,D,E],大小为3,并集为[A,B,C,D,E,F,G],大小为7,3/7=0.4285...
而文章A和文章C交集为 [C],大小为1,并集为[A,B,C,D,E,H,I,J,K],大小为9, 1/9=0.11111...

这样就可以得出文章A,B比文章A,C更为相似,有了这个算法,计算机就可以来判断两篇文章的相似度了。

具体的推荐思想

给定一篇文章,获取该文章的关键字TAGS,然后通过以上算法去数据库比对所有文章的相似度,获取最相似的N篇文章进行推荐。

实现过程

第一 TAGS的获取

文章的TAGS是通过TF-IDF算法,提取文章中的高频词,选取N个作为TAGS,对于中文的文章来说还涉及到一个中文分词的问题,因为是虚拟主机的关系,这步的工作我用python(为什么用Python ,jieba分词,真香)在本地写了一个程序,完成所有文章的分词,词频统计,生成TAGS,并写回服务器的数据库。由于本文是写推荐的算法,所以分词和建立TAGS的部分就不具体展开了,而且不同的系统有不同的TAGS建立方式。

第二 TAGS的存储

建立两张表,用于存储TAGS
tags,用于存所有tag的名称

+-------+------------+------+-----+---------+-------+

关键词:  基于Tags完成内容推荐的办法(代码)





Copyright © 2012-2018 三度网教程(http://www.3du8.cn) .All Rights Reserved 网站地图 友情链接

免责声明:本站资源均来自互联网收集 如有侵犯到您利益的地方请及时联系管理删除,敬请见谅!

QQ:1006262270   邮箱:kfyvi376850063@126.com   手机版