- 浏览: 1246216 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
说一下,我的大概思路.
在思路之前,有一点必要说一下,因为会决定抽取出来的核心提示是否足够好.
如果是程序去采集一些网页,然后提取一下正文.有时候,提取正文不干净,也就是带有一些非属于正文的内容.此时,想抽取正文的核心提示,有可能提取出来的内容不能够表达出正文的意思.
前提说完,接下来,就是怎么去实现正文的核心提示的提取.
第一,获取标题,并对标题进行分词.(这里,我需要自己写得分词,下载地址: http://code.google.com/p/cwss/,可以使用其他分词)
第二,获取正文,按句子拆分,并对句子进行分词,存储到自定义类(Sentence).
这里,有可能模糊.举例说明:
正文--->>农联网(www.agrilink.cn)是一个综合性的农业网站.为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流.
按句子拆分成
两句.
第三,标题分词之后的词组和正文分词之后的词组进行匹配.找到给自定义类(Sentence)的属性加weight+1.
最后,权重越高,表示此句子越能描述出正文的意思.
例子:
在思路之前,有一点必要说一下,因为会决定抽取出来的核心提示是否足够好.
如果是程序去采集一些网页,然后提取一下正文.有时候,提取正文不干净,也就是带有一些非属于正文的内容.此时,想抽取正文的核心提示,有可能提取出来的内容不能够表达出正文的意思.
前提说完,接下来,就是怎么去实现正文的核心提示的提取.
第一,获取标题,并对标题进行分词.(这里,我需要自己写得分词,下载地址: http://code.google.com/p/cwss/,可以使用其他分词)
第二,获取正文,按句子拆分,并对句子进行分词,存储到自定义类(Sentence).
这里,有可能模糊.举例说明:
正文--->>农联网(www.agrilink.cn)是一个综合性的农业网站.为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流.
按句子拆分成
1、农联网(www.agrilink.cn)是一个综合性的农业网站. 2、为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流.
两句.
第三,标题分词之后的词组和正文分词之后的词组进行匹配.找到给自定义类(Sentence)的属性加weight+1.
最后,权重越高,表示此句子越能描述出正文的意思.
例子:
public static void main(String[] args) { String title = "标题"; String content = "正文"; coreTips tips = new coreTips(); long lo = System.currentTimeMillis(); String text = tips.returnCoreTip(title, content); System.out.println("text="+text); System.out.println(System.currentTimeMillis()-lo); }
发表评论
-
tomcat was unable to start within 45 seconds
2013-11-11 15:59 804原因一: -
Apache Commons Lang
2013-10-15 12:10 3132ArrayUtils public class Tes ... -
htmlunit form
2013-06-25 11:13 891Form提交 对于WEB应用,有着大量的表单,所以Html ... -
QQ微博登录步骤
2013-05-28 12:14 0QQ微博登录步骤: 1、验证帐号时,会访问一个地址。如下: ... -
jsoup
2013-05-22 23:37 1105import org.jsoup.Jsoup; import ... -
java 加密解密
2013-05-21 23:00 802import java.security.InvalidKey ... -
freemarket 对象应用篇(一)
2013-05-19 18:18 978freemarket应用. 1.1:创建web工程testF ... -
中文数字转阿拉伯数字
2012-11-30 14:24 1758/** * @author loiy * ... -
标记:伪原创标题思路
2012-01-11 16:34 1256采用填词的办法进行伪 ... -
用JSmooth制作java jar文件的可执行exe文件教程(图文)
2012-01-05 01:09 8102下载完程序之后,运行 jsmoothgen.exe 1.进入“ ... -
多线程 Java.util.ConcurrentModificationException异常
2011-12-29 13:43 1484Iterator<Entry<String,B ... -
java 反序列化 抛出EOFException
2011-12-19 17:21 2214抛出这样的异常,一般情况下,是因为业务逻辑的问题。 如: 在没 ... -
一键安装双击运行——Java安装程序制作
2011-12-09 02:39 1301对于Java桌面应用来说,比较烦琐的就是安装部署问题,如:客户 ... -
只针对中英文混合分词的中文分词器
2011-12-02 17:28 4820该版本说明 1、只针对中英文混合分词 需要一些中文和英文连在 ... -
Java开源运行分析工具
2011-11-15 15:10 1846FProfiler FProfiler是一个非常快的Java ... -
cwss 按照指定的字符进行切词
2011-11-15 09:37 1146cwss 按照指定的字符进行切词 在 Utility.SEPE ... -
cwss bug 修复
2011-11-07 09:50 838修复的BUG有如下: 1、当只有中文、字母和数字,没有任何其他 ... -
java 怎么读取细胞词库scel
2011-10-24 14:28 3066private void sogou(String pa ... -
今天遇到一个奇怪的问题
2011-04-28 11:55 1146想实现一个用户访问页面,得到用户的外网地址 在公司上。程序是没 ... -
在myeclipse6.5下统一全部JSP编码更改
2011-04-07 14:47 1427在平时我们新建一个JSP页面默认编码是"ISO885 ...
相关推荐
就是一款简单的小程序学习,里面实现了简单的联网请求,具体链接可以去github下载也可以 https://github.com/wangmingjob/weapp-weipiao
简单好用的控制程序联网软件,可以设置允许禁止某个或多个程序上网操作。
判断 程序是否联网,提示联网的Demo
1-解决软件升级版本的苦恼 2-实现客户端联网自动更新软件
程序设计大作业基于Qt实现的联网对战不围棋源码.zip程序设计大作业基于Qt实现的联网对战不围棋源码.zip程序设计大作业基于Qt实现的联网对战不围棋源码.zip程序设计大作业基于Qt实现的联网对战不围棋源码.zip程序设计...
禁止某个目录下的所有exe程序联网
易语言自动辨认是否联网的程序
使用Android实现联网 使用Android实现联网
联网农场—智慧农业市场评估报告.pdf
运行时自更新程序的.NET实现,运行时自更新程序的.NET实现
主要为大家详细介绍了如何判断软件程序是否联网的实现代码,Android实现联网状态信息提示,感兴趣的小伙伴们可以参考一下
如何实现强联网的手机游戏
农联网-智慧农业市场评估.pdf
一个使用JAVA语言编写的简单联网聊天工具程序
车联网的核心技术与应用研究.pdf
本软件是一款小巧的防火墙软件,可以自定义拦截程序联网,对于一些破解软件特别有效. Simplewall这款软件可以说是一款非常好用且占用资源极少的防护工具,我们都知道现在的病毒以及流氓程序都会偷偷联网进行 一些...
车联网终端的设计与实现.pdf
禁止程序联网
易语言禁止指定程序联网的源码,可以禁止某个程序连接网络。当然要禁止的程序名称是需要在源码里设置的。你也可以加一个编辑框空间方便随时更改
android图书管理系统 实现增删改查并联网