`
bayaci
  • 浏览: 267966 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

关于网友关注网站内容的关联度分析方面的思考

 
阅读更多
最近关于数据挖掘方面的操作过程当中,碰到了如标题所说的那样寻求用户的关注情况数据挖掘分析。
首先我把简单的图片放上来:
这样的数据挖掘模型建立的目标是要对公司商务人员给一个很好数据挖掘决策支持,数据来源是网络访问用产生的游客朋友们的历史记录。
说到数据挖掘,肯定会是海量数据了。对海量数据的数据挖掘能力我通过sql server 2005 做了一些测试,不如我想象的那么好。
不管怎样,我要对这个模型的建立要有验证过程。我用某网站的按天留下来的用户访问日志上(大概一天有上百万条记录),建立一个如上图所示完整流程。
[1]游客:网站上访问的用户,给他们一个唯一的cookie id标示;
[2]用户访问Weblog日志记录:通用的方式,使用javascript嵌套。能和其他系统独立,又能独立出挖掘系统的夸网站采集过程;
[3]获取url对应的主要关键词:对网页的关键词提取方式有很多种算法,我在测试的时候,使用了一个特殊化处理方式,简化的算法,提高准确度。
[4]获取用户一段时间内关注的关键词:从[1]、[2]、[3]关联上能够得到每一个cookie id 关注的关键词排序(kw1(29次关注)、kw2(23次)、kw3(10次)、。。。kwn)。
表格形式:
userKeyword( id ,userid, keyword ,accesscount)(嵌套表)
当然,要有一个用户在一段时间内关注的用户记录表
userlog(id ,cookieid ,accesstime )(主表)
[5]清理数据:对于当前情况来看,用户这段时间很好浏览,或者少于4次(自控控制这个参数),视为挖掘模型中的无效数据,清理相关数据。用户浏览太多,或者大于100(自行定义),视为一端时间异常情况,抛出清理相关数据。没有cookieid的无法做关联用户操作,清理这些相关数据。这就是一项很有意义,且不可获取的洗礼工作了。
[6]进入关联度分析模型:关联度分析模型在数据挖掘当中基本模型,很好建立。我用SQL Server Business Intelligence Development Studio执行这个操作,生成的cube。
[7]关联分析结果数据导入到关系型数据库:从[6] cube 中,通过mdx query做了循环访问,并把数据填写到关系型数据表格当中。
[8]查看用户关注的关键词关联度数据:对于已经存在关系表格数据,查询几乎是每一个程序擅长的事情了。
通过上面的流程,做一个比较简单的用户访问次数上关注的关键词进行了分析挖掘,得到用户关注关键词之间的关联度情况数据。
分享到:
评论

相关推荐

    基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法

    介绍了基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法。首先,使用Python编写程序实现微博评论的采集,通过API或爬虫方式获取相关话题下的评论数据。然后,对采集到的评论数据进行预处理,包括...

    计算机相关论文文献关于密码方面,有相关文献100多篇,方便于网友下载文献

    计算机相关论文文献关于密码方面,有相关文献100多篇,方便于网友下载 计算机相关论文文献关于密码方面,有相关文献100多篇,方便于网友下载 计算机相关论文文献关于密码方面,有相关文献100多篇,方便于网友下载

    网友最关注的js广告代码

    网友最关注的js广告代码 本资料包含网友们经常用到的图片切换实例、QQ在线客服、等等

    饮料品牌内容营销新媒体营销方案.pptx

    该方案涵盖了红牛品牌的新媒体营销环境、趋势分析、品牌画像、定位、内容制作、粉丝运营、舆情监测等多个方面。 一、回顾:2015 新媒体运营小结 & 启示 2015 年红牛新媒体运营小结显示,红牛的新媒体运营成果...

    专家解答60个网友最关心的网络安全与网络分析问题

    本期门诊特邀请科来软件中国区技术总监高彦刚与我们大家分享解析如何更好的管理企业网络、分析网络环境的健康状况等。 姓 名:高彦刚 擅长领域:网络分析、网络管理 科来软件中国区技术总监。13年的金融、电信、...

    JS实现网友留言功能

    JS实现网友留言功能并以列表形式显示个网友的留言时间及内容。

    《网友世界》2011年05期

    网友世界  《网友世界》为中国电子学会主办的一个全国性杂志。《网友世界》杂志以网络为中心,定位于所有和网络相关的用户群体。她拥有网络、游戏、电脑软件、硬件、时尚数码产品、网络文化等多个不同的版块,各种...

    《网友世界》2011年第1期

    网友世界  《网友世界》为中国电子学会主办的一个全国性杂志。《网友世界》杂志以网络为中心,定位于所有和网络相关的用户群体。她拥有网络、游戏、电脑软件、硬件、时尚数码产品、网络文化等多个不同的版块,各种...

    discuz插件 时刻关注 v0.5.7

    Discuz插件 时刻关注说明如下:本插件的目标用户是论坛管理员、版主和每天上论坛三五次以上的发烧级网友;保证版主随时可以不打开站点直接查看新帖,做到及时删除广告贴和解答网友疑问;保证论坛热心网友可以随时...

    巴斯著计算机算法-设计与分析导论(网友翻译版)

    巴斯著计算机算法-设计与分析导论(网友翻译版),帮助理解英文版的教材。

    做学生的引航员——对一堂散文阅读课的思考(网友来稿).docx

    做学生的引航员——对一堂散文阅读课的思考(网友来稿).docx

    Android系统源代码情景分析 PDF 完整版 ZIP.002(二个压缩包)

    在内容上,本书结合使用情景,全面、深入、细致地分析Android系统的源代码,涉及到Linux内核层、硬件抽象层(HAL)、运行时库层(Runtime)、应用程序框架层(Application Framework)以及应用程序层(Application)。...

    对网友求助问题的几个回帖展示之四十六

    本文6例都是网上的求助帖,涉及PLC编程及电工理论与计算等问题,现整理展示给大家,供大家分析讨论。如有不妥之处,请给予指正,本人深表感谢! 求助帖一、新手,请问怎么把处存器中的数分开 如VB内装的23十进制,...

    各位网友请关注PPT教程

    这是我自己收藏多年的PPT教程,希望对你们在工作中有用~

    内核源码KFIFO分析

    有位网友撰写的关于内核源码KFIFO的分析,在内核学习时可以参考。

    2009年中国IT网民网络购物行为调查报告

    图19:前五大购物网站在不同职业IT网友中的知名度差异 图20:中国IT网民对购物网站的五大认知渠道 图21:中国男性IT网民对购物网站的五大认知渠道 图22:中国女性IT网民对购物网站的五大认知渠道 图23:中国30岁以下...

    记录网友名字.rar记录网友名字.rar

    记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友名字.rar记录网友...

    《网友世界》2011年第2期

    网友世界  《网友世界》为中国电子学会主办的一个全国性杂志。《网友世界》杂志以网络为中心,定位于所有和网络相关的用户群体。她拥有网络、游戏、电脑软件、硬件、时尚数码产品、网络文化等多个不同的版块,各种...

    discuz插件 时刻关注 v0.5.7.zip

    Discuz插件 时刻关注说明如下:本插件的目标用户是论坛管理员、版主和每天上论坛三五次以上的发烧级网友;保证版主随时可以不打开站点直接查看新帖,做到及时删除广告贴和解答网友疑问;保证论坛热心网友可以随时...

    MATLAB智能算法30个案例分析

    书中所有案例均因国内各大MATLAB技术论坛网友的切身需求而精心设计,其中不少案例所涉及的内容和求解方法在国内现已出版的MATLAB书籍中鲜有介绍。《MATLAB智能算法30个案例分析》采用案例形式,以智能算法为主线,...

Global site tag (gtag.js) - Google Analytics