在明确了切入点以后,就可以着手开发了,但在动手之前,还需要理清思路,好让我们的每一步都方向明确的,避免在迷茫中胡乱写代码。所以本篇的任务是梳理思路,包括明确目标、确定所需的资源、主要的实现步骤;
一、 目标:
观察Searchviu网站中给出的案例,可以知道,它的目标是找出可以让网页排名进谷歌前十的热词,同时找出该词应该在的位置。当然这也可以作为我们的目标,简单的说,我们的目标就是百度SEO,提升网站排名,SEO的目的是提升网站流量;为了实现这个目标,我们需要“找出访问量大,竞争又不激烈的词” (看上去像是矛盾的) 。
二、 资源:
做SEO,当然需要有个网站,网站由域名、服务器、web应用服务器、web应等组成;至于如何搭建网站不在本系列的博客讨论范围中,读者如果需要了解相关的知识可以到网络上找相关资料;所以此处假设读者已经搭建了一个网站;除了网站,做ML我们还需要数据和算法,Searchviu网中描述的数据是从SEMrush直接获取,而我们没有SEMrush的账号,由于网络原因,也无法注册该网站;所以相关的数据需要我们自己从互联网抓取。以下列出此次准备的资源清单:
1)51msg.net 网站(读者可替换成自己的网站),这个网站是作者搭建的开发测试用网站,目前除了有一些爬虫和攻击访问外,就是作者本人在访问,此外就没有其他人访问了。
2)jsoup、httpclient (基于java的网页抓取工具类包)
3)weka、xbgoost(基于java的机器学习算法工具包)
三、 步骤:
1、 准备搜索关键词:搜索、搜索引擎、搜索导航、搜索大全、搜索引擎大全、国外搜索引擎、网页搜索、谷歌搜索、谷歌镜像、综合搜索;
2、 从百度搜索结果,并抓取数据,每个词60页,总共6000条记录,保存到数据库中;
3、 抓取网站内容,并进行保存;
4、 对网页内容进行分词、统计词频、抓取每个词的百度指数(热度),将结果保存到数据库中;
5、 对词进行排序(热度、词频梳理),根据词进行百度搜索抓取,每个词10页,预计抓取50万条记录,保存到数据库中;
6、 准备模型训练数据和测试数据(比例10:1),关键词、title中出现次数、description中出现次数、keywords中出现次数、其他地方出现次数、 网页排名;
7、 训练模型、测试模型结果;
8、 输出预测数据,关键词、关键词在网页中各个地方出现,可能获得的网页排名;
9、 根据预测结果,修改网站首页,等待百度爬虫抓取,观察实际排名变化,观察网站流量
10、 总结效果。
分享到:
相关推荐
机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和...
Machine Learning with PyTorch and Scikit-Learn-Packt (2022)
机器学习、深度学习的学习路径及知识总结-machine-learning-deep-learning-notes
Human-in-the-Loop Machine Learning lays out methods for humans and machines to work together effectively. Summary Most machine learning systems that are deployed in the world today learn from human ...
机器学习技法6 - 4 - Machine Learning in Action (12-59).mp4
机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
machine-learning-ex4 吴恩达 机器学习 课程习题代码
AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
Machine-Learning-Algorithms-from-Scratch, 从零开始实现机器学习算法 Machine-Learning-Algorithms-from-Scratch从零开始实现机器学习算法。目前实现的算法:简单线性回归。数据集:来自Quandl的股票数据逻辑回归...
机器学习实战:基于Scikit-Learn、Keras和TensorFlow 机器学习实战:基于Scikit-Learn、Keras和TensorFlow 机器学习实战:基于Scikit-Learn、Keras和TensorFlow 机器学习实战:基于Scikit-Learn、Keras和TensorFlow ...
基于Python的机器学习(Python-Real World Machine Learning)-2016年最新英文原版,0积分——全书983页,内容很丰富。 What this learning path covers? Module 1, Python Machine Learning Cookbook, teaches you...
机器学习实战_Machine_Learning_in_Action.pdf
Hands-on-Machine-Learning-with-Scikit-learn, Keras & Tensorflow英文书
Scikit-Learn与Tensorflow机器学习实用指南的英文影印版,高清可搜索,有书签。
Machine-Learning-From-Scratch常用机器学习的算法简洁实现
斯坦福机器学习编程作业machine-learning-ex1,Linear Regression,线性回归题目,满分,2015最新作业答案
梁劲机器学习笔记-全面简单Getting Started With MachineLearning (all in one)_部分2。详细、明了地介绍了机器学习中的相关概念、数学知识和各种经典算法。以浅显易懂的方式去讲解它,降低大家的学习门槛。因为文件...
模式识别和机器学习教材,我现在在德国读博士,我们教授是留美的,所以就用的这本教材,现在分享给大家。