基于机器学习(machine learning)的SEO实战日记3--构思

黄国甫

浏览: 36696 次
性别:
来自: 南昌

最近访客更多访客>>

zhang66893649

shallow_dream

Alchemize

snidel

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

基于机器学习的SEO实战日记

java 搜索引擎 seo 机器学习 machine learning

在明确了切入点以后，就可以着手开发了，但在动手之前，还需要理清思路，好让我们的每一步都方向明确的，避免在迷茫中胡乱写代码。所以本篇的任务是梳理思路，包括明确目标、确定所需的资源、主要的实现步骤；
一、目标：
观察Searchviu网站中给出的案例，可以知道，它的目标是找出可以让网页排名进谷歌前十的热词，同时找出该词应该在的位置。当然这也可以作为我们的目标，简单的说，我们的目标就是百度SEO，提升网站排名，SEO的目的是提升网站流量；为了实现这个目标，我们需要“找出访问量大，竞争又不激烈的词” （看上去像是矛盾的）。
二、资源：
做SEO，当然需要有个网站，网站由域名、服务器、web应用服务器、web应等组成；至于如何搭建网站不在本系列的博客讨论范围中，读者如果需要了解相关的知识可以到网络上找相关资料；所以此处假设读者已经搭建了一个网站；除了网站，做ML我们还需要数据和算法，Searchviu网中描述的数据是从SEMrush直接获取，而我们没有SEMrush的账号，由于网络原因，也无法注册该网站；所以相关的数据需要我们自己从互联网抓取。以下列出此次准备的资源清单：
1）51msg.net 网站（读者可替换成自己的网站），这个网站是作者搭建的开发测试用网站，目前除了有一些爬虫和攻击访问外，就是作者本人在访问，此外就没有其他人访问了。
2）jsoup、httpclient （基于java的网页抓取工具类包）
3）weka、xbgoost（基于java的机器学习算法工具包）
三、步骤：
1、准备搜索关键词：搜索、搜索引擎、搜索导航、搜索大全、搜索引擎大全、国外搜索引擎、网页搜索、谷歌搜索、谷歌镜像、综合搜索；
2、从百度搜索结果，并抓取数据，每个词60页，总共6000条记录，保存到数据库中；
3、抓取网站内容，并进行保存；
4、对网页内容进行分词、统计词频、抓取每个词的百度指数（热度），将结果保存到数据库中；
5、对词进行排序（热度、词频梳理），根据词进行百度搜索抓取，每个词10页，预计抓取50万条记录，保存到数据库中；
6、准备模型训练数据和测试数据（比例10：1），关键词、title中出现次数、description中出现次数、keywords中出现次数、其他地方出现次数、网页排名；
7、训练模型、测试模型结果；
8、输出预测数据，关键词、关键词在网页中各个地方出现，可能获得的网页排名；
9、根据预测结果，修改网站首页，等待百度爬虫抓取，观察实际排名变化，观察网站流量
10、总结效果。

0
顶

0
踩

分享到：

基于机器学习(machine learning)的SEO实战 ... | 基于机器学习(machine learning)的SEO实战 ...

2019-12-05 11:11
浏览 475
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论