这是一个抓取电商商品信息,并提供搜索接口的例子。
采用的技术:
代码管理github
持续集成gradle
web框架rose3.0(基于Spring3.0)
数据库mysql
商品抓取id遍历,Jsoup解析网页
搜索lucene
现在的接口:
抓取数据:http://localhost/spider,把易迅的数据抓取下来,只抓一万个左右,放在数据库中
生成索引:http://localhost/index,把数据库中的数据用lucene来做索引
搜索结果:http://localhost/search?keyword=midea&begin=0&count=20&cate=饮水机&minPrice=100.1&maxPrice=2000
必填:keyword 是关键字,对名称和描述有用,begin和count是对结果翻页
选填:cate是分类,也是用lucene做的索引,还有就是价格区间的选择
搜索建议:http://localhost/suggest?begin=0&count=100&keyword=meiru
是对名称做了最前匹配,包括名称的拼音和首字母
查看所有数据:http://localhost/list?beginId=1&count=100beginId:开始的id,count:数量
现在的电商中,京东和易迅id是顺序的,amazon和当当的id是hash的,所以我的这个demo只能抓京东和易迅的数据。但是京东的价格不是直接展示在页面上,而是通过js单独发请求得到的,比较麻烦,第一版demo暂时只能抓取易迅的数据。
搜索分搜索建议和搜索结果,搜索建议是把商品名称做了汉子,汉子转换成全拼及首字母的前缀匹配;搜索结果是对商品名称和描述做了全文索引。
github地址https://github.com/LiuGangR/SpiderAndSearchDemo
gradle很好用,不会自己学学
有建议欢迎讨论
分享到:
相关推荐
基于Scrapy的电商数据分析系统设计与实现.pdf
巴西电商数据集,含九张分类表,可用于电子商务数据统计分析。
Java本科毕业设计电商数据决策分析系统,Java本科毕业设计电商数据决策分析系统Java本科毕业设计电商数据决策分析系统Java本科毕业设计电商数据决策分析系统Java本科毕业设计电商数据决策分析系统Java本科毕业设计...
电商的数据集,可用于做数据分析 平台搭建
实战爬虫多种网站、电商数据爬虫
《Excel 电商数据分析》教学课件—05数据与运营平台.pdf《Excel 电商数据分析》教学课件—05数据与运营平台.pdf《Excel 电商数据分析》教学课件—05数据与运营平台.pdf《Excel 电商数据分析》教学课件—05数据与运营...
电商数据分析模板的脑图文件,xmind,使用脑图软件查看
《Power BI电商数据分析实战》光盘资源,BI学习入门首选,经典案例帮助快速进入电商数据分析领域
电商数据分析(微课版)_PPT+教学大纲+教学教案.zip
包含电商销售交易数据,以及python分析数据的源码,分析了整体销售情况、地区分布(饼图)、付款时间分布(折线图)、销售走势图(折线图)。 代码中注释详细,代码也很简单,非常适合小白,拿来做其他的数据分析也...
电商数据模拟生成程序
文本匹配、搜搜问搭、电商搜索问答的数据集 60w文本匹配、搜搜问搭、电商搜索问答的数据集 60w文本匹配、搜搜问搭、电商搜索问答的数据集 60w文本匹配、搜搜问搭、电商搜索问答的数据集 60w文本匹配、搜搜问搭、电商...
2021快手电商数据报告发布-磁力数观-202106.pdf
基于大数据的商业智能在电商数据分析中的应用.pdf
电商运营数据统计管理平台原型,主要是用于在线商城的运营数据统计分析汇总的平台,包含用户量统计、订单量统计、转化率统计、浏览量统计等一系列指标的数据统计分析,内带交互逻辑和逻辑说明。
电商数据分析ppt.pptx
电商数据分析指标整理,分别从8个方面来说明。分别是总体运营指标,网站流量指标,销售转化指标,客户价值指标(RFM),市场营销活动指标,风控类指标,市场竞争指标。
爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议从一开始就要有一个具体的目标。在目标的驱动下,你的学习才会更加精准和高效。...
思维导图-知识地图-电商数据分析
真实电商数据仓库全流程开发详解视频教程电商核心业务知识基础