- 浏览: 94147 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
jyjsjd:
请教博主这个ChineseTokenizer()你是怎么写的, ...
使用WVTool进行文本分类 -
superclay:
能不能发个indexwriter indexsearch ...
结合ehcache缓存对lucene使用单例模式搜索 -
strayly:
我采用和ehcache缓存结合使用单例模式
使用ehcache ...
lucene搜索优化(转)
# coding=utf-8 import re import pandas as pd import string import MySQLdb import jieba from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer from sklearn.cross_validation import train_test_split from sklearn.metrics import confusion_matrix from sklearn import metrics from sklearn.metrics import roc_curve, auc from sklearn.svm import LinearSVC #jieba分词 def jieba_tokenizer(x): return jieba.cut(x,cut_all=True) def partition(x): return x def filter_html(s): d = re.compile(r'<[^>]+>',re.S) return d.sub('',s) #链接mysql数据库 conn=MySQLdb.connect(host='localhost',user='root',passwd='',db='article',port=3306,charset="utf8") cursor =conn.cursor() cursor.execute("SET NAMES utf8") #训练数据样本 data_ret = pd.DataFrame() for i in range(0,5): sql = "SELECT a.id,a.title,a.classid,b.artcontent FROM article a,article_txt b WHERE a.id=b.aid AND b.artcontent IS NOT NULL AND a.id>100 ORDER BY a.id ASC LIMIT "+str(i*1000)+",1000" #print sql ret = pd.read_sql_query(sql, conn) data_ret = data_ret.append(ret) Score = data_ret['classid'] data_ret['artcontent'] = [filter_html(msg) for msg in data_ret['artcontent']] X_train = data_ret['artcontent'] Y_train = Score.map(partition) corpus = [] for txt in X_train: corpus.append(' '.join(jieba_tokenizer(txt))) count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(corpus) tfidf_transformer = TfidfTransformer() X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts) clf = LinearSVC().fit(X_train_tfidf, Y_train) #可以把clf持久化 #测试数据 预测分类 test_set = [] test_txt_data = pd.read_sql_query("SELECT a.id,a.title,a.classid,b.artcontent FROM article a,article_txt b WHERE a.id=b.aid AND b.artcontent IS NOT NULL AND a.id<50 ORDER BY a.id ASC", conn) X_test = [filter_html(msg) for msg in test_txt_data['artcontent']] for text in X_test: text=' '.join(jieba_tokenizer(text)) test_set.append(text) X_new_counts = count_vect.transform(test_set) X_test_tfidf = tfidf_transformer.transform(X_new_counts) result = dict() result = clf.predict(X_test_tfidf) for i in range(0, len(result)): print "ID:"+str(test_txt_data['id'][i])+" -> classid:"+str(result[i]) cursor.close() conn.close()
发表评论
-
sklearn聚类之kmeans以及增量聚类
2019-07-11 14:47 1126使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加 ... -
spark进行svd降维和kmeans聚类
2019-07-05 16:36 782import jieba import jieba.analy ... -
spark 的 itemcf推荐
2019-05-29 16:21 0#-*-coding:utf-8-*- ''' Cr ... -
卡方检验提取特征来对文本分类
2019-05-05 17:30 889count_vect = CountVectorizer( ... -
计算文本词频进行聚类
2019-05-05 17:04 429import jieba import jieba.an ... -
sklearn文本聚类
2019-05-05 17:04 1import jieba import jieba.an ... -
spark之word2vec使用(python)
2018-08-15 09:57 2024from pyspark import SparkConf, ... -
spark2.3聚类算法lda代码(python)
2018-08-15 09:49 1551spark的lda有两个一个是mllib下 一个是ml下的,下 ... -
linux 编译安装 Python3.6 (保留自带Python2)
2017-07-21 15:55 589yum install wget yum install zl ... -
TensorFlow 的SSE avx fma安装
2017-05-06 19:22 933W tensorflow/core/platform/cpu_ ... -
(转载)Seq2SeqModel参数
2017-05-05 16:15 1649训练数据和预处理 数 ... -
(转载)基于CRF的中文分词
2017-04-28 17:27 1024CRF简介 Conditional Random Fi ... -
(转载)jieba全应用入门
2017-03-22 09:14 434# coding: utf-8 # ###jieba特 ... -
(转载)汉语词性对照表[北大标准/中科院标准]
2017-03-22 09:15 437词性编码 词性名称 注 解 Ag ... -
(转)python的nltk中文使用和学习资料汇总帮你入门提高
2017-03-06 10:19 604转自:http://blog.csdn.net/huy ... -
windows下python中运用libsvm的配置(转载)
2016-12-13 14:03 643转载 http://blog.sina.com.cn/ ... -
pyspark在windows下java.net.SocketException: Connection reset by peer 错误
2016-12-05 16:12 2096pyspark在windows加载数据集 训练模型出现 以下错 ... -
在eclipse上搭建spark的java开发环境
2016-12-05 09:52 868首先安装好spark后 设置环境变量SPARK_HOME=d: ... -
用Spark ALS通过预测推荐电影(python)
2016-12-02 11:34 3538#!/usr/bin/env python # codi ... -
Spark ALS推荐系统简单例子(python)
2016-11-30 10:55 5173采用MovieLens 100k数据集 http://file ...
相关推荐
Java开发案例-springboot-57-metadata-extractor读取图片信息-源代码+文档.rar Java开发案例-springboot-57-metadata-extractor读取图片信息-源代码+文档.rar Java开发案例-springboot-57-metadata-extractor读取...
这是近期完成的一个小项目:主题是:人工智能_深度学习_PyTorch数据读取实战(以RMB人民币二分类为例)【含详细源代码+数据集+图示分析】。资源是十分详细的,并且我已经在博客中记录,详见近期发表的文章:{《...
clickhouse-mysql-data-reader
学习笔记Android手游绘制基础--03读取内存数据的gg修改器和飞机大战的安装包,可以根据01-03的文章来笔记来读取分数,主要是学习如何读取和验证分数,当读取出来的分数和显示的分数对应上了,就表示最简单的读取成功...
赠送源代码:mysql-binlog-connector-java-0.21.0-sources.jar; 赠送Maven依赖信息文件:mysql-binlog-connector-java-0.21.0.pom; 包含翻译后的API文档:mysql-binlog-connector-java-0.21.0-javadoc-API文档-...
MIT-BIH ECG 信号的数据读取Matlab程序,能够读取MIT-BIH数据库 .atr、.dat、.hea三种文件的数据,根据这些数据计算出实际的心电信号值,并绘制出信号波形。
行业分类-设备装置-读取数据方法以及数据写入方法.zip
利用生成好的VGG16权重文件训练30万次,来预测未经过训练自己的真是图像!
数据保存和读取源代码;数据保存和读取源代码;数据保存和读取源代码
今天小编就为大家分享一篇Django读取Mysql数据并显示在前端的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
运行02深度学习模型训练.py就会将txt文本中记录的训练集和验证集进行读取训练,训练好后会保存模型在本地 训练完成之后会有log日志保存本地,里面记录了每个epoch的验证集损失值和准确率。 运行03pyqt_ui界面.py就...
1、资源内容:机器学习课程大作业,CCF-BDCI赛题-基金相关性预测训练赛+源代码+文档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功...
使用SCIKIT-LEARN自带的数据读取函数load_wine(),获取原始葡萄酒数据集。 2. 获取数据集内,样本数目、类别数目,各类样本数目 3. 样本集基本信息获取: (1)获取并输出该数据集的类别信息(含:类别数目,类别...
解决Java_Web开发中Jsp存储读取MySQL数据中文乱码的问题
比起网上杂乱无章的OpenCV人脸识别的代码,这个代码更加简洁明了,方便初学者学习使用。 OpenCV人脸识别- 1.模板;2读取视频或者摄像头拍摄中的人脸 1.调用已经训练好的xml文件,可作为人脸检测的模板程序。 只能...
利用Qt5代码在VS2010中通过线程QThread读取MySql后台数据库代码显示在界面上!
使用spark读取hbase中的数据,并插入到mysql中
在测试的时候,需要造模拟数据,或者是将生产环境的数据导出到测试环境中去,本文记录通过python读取txt文件,并将数据导入mysql数据库 1、示例代码: import pymysql # 打开数据库连接 conn = pymysql.connect(host...
MYSQL的一个demo,可以通过VB语言运行界面来获取数据库的表格和内容,并且可以修改数据库内容及上传。
使用Mybatis-Generator自动生成MySql数据库的Dao、Model、Mapping相关文件 包含generatorConfig.xml 、 mybatis-generator-core-1.3.5.jar 、 mysql-connector-java-5.1.10.jar