`
文章列表
https://blog.csdn.net/lingpy/article/details/79918345   https://blog.csdn.net/shazao008/article/details/53558969  
基于词向量的几种计算文本相似度方法 :    1)使用词向量求平均计算相似度    2)词向量tfidf加权求平均计算相似度    3)词向量加权-PCA计算相似度   from gensim import matutils from gensim.models import Word2Vec import pickle import scipy import numpy as np from gensim import corpora, models import numpy as np from sklearn.decomposition import PCA ...
https://blog.csdn.net/vvyuervv/article/details/65449079  
import jieba from collections import Counter import difflib def edit_similar(str1,str2): len_str1=len(str1) len_str2=len(str2) taglist=np.zeros((len_str1+1,len_str2+1)) for a in range(len_str1): taglist[a][0]=a for a in range(len_str2): taglist[0][a] = ...

MPI环境搭建

    博客分类:
  • MPI
在两台局域网的Ubtuntu的电脑上打架MPI环境 1.安装ssh服务器    首先更新源:sudo apt-get update    安装ssh服务:  sudo apt-get install openssh-server    检测是否已启动:   ps -e | grep ssh    看到有ssh字样,说明已启动,如果没有就手动启动 : /etc/init.d/ssh start    配置ssh-server,配置文件位于/etc/ssh/sshd_config,默认端口为22,为了安全,一般自定义为其他端口,然后重启:sudo /etc/init.d/ssh re ...
       隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。LDA是一个基于贝叶斯概率的主题模型,其假设背景是“一篇文档包含多个主题,文档中的每一个词由其中的一个主题生成”。可以理解为LDA的过程就是文本的重新生成过程,其生成示意图如下:            在使用LDA进行文本相似的计算时,其目标时找到每一篇文档的主题分布和每一个主题中词的分布。LDA模型通过类似词聚类的办法将相似词聚类为一个主题,使得同一主题下的词具有近义词的特性,而不同主题之间的词具有多义词的特性。从而在计算文本相似时,免去计算词项之间的相似度,而是计算文本主题分布来 ...
        Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。 1、Bagging (bootstrap aggregating) Bagging即套袋法,其算法过程如下: A)从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取 ...
1.VSM简介      空间向量模型VSM,是将文本表示成数值表示的向量。在使用VSM做文本相似度计算时,其基本步骤是:     1)将文本分词,提取特征词s:(t1,t2,t3,t4)     2)将特征词用权重表示,从而将文本表示成数值向量s:(w1,w2,w3,w4),权重表示的方式一般使用tfidf     3)计算文本向量间的余弦值,判断文本间的相似度 缺点:空间向量模型以词袋为基础,没有考虑词与词间的关系,近义词等。    2.LSI介绍     潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Seman ...
1.打开:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 2.选择自己需要下载的包:   3.下载与Python对应的版本:   4.安装:      

VPN拨号

windows下vpn拨号: import os from time import sleep class VPNHelper(object): def __init__(self, _vpnIP, _userName, _passWord, WinDir=r"C:\Windows\System32", RasDialFileName=r'\rasdial.exe'): self.IPToPing = _vpnIP self._VPNName = _vpnIP; self._UserName = _u ...
  在全国企业信用信息系统中搜索信息时,可以看到以下验证码:     破解思路:     1.从div中或取乱序的图片及坐标,乱序图片如下图:              2.根据获取到的乱序图片及坐标将图片拼完整,如下图:         ,       3.计算两张图片的像素差,并计算缺口位置,如下图:               4.根据缺口位置模拟人的行为拖动滑块   具体代码如下:    def get_merge_image(filename,location_list): ''' 根据位置对图片进行合并还原 :filename ...
Hadoop学习笔记:MapReduce框架详解 http://blog.jobbole.com/84089/    
参考  http://blog.csdn.net/M_SIGNALs/article/details/52948867  >>>hive与hbase集成(https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration) hive/lib/   hbase/lib 1.查看guava-12.0.1.jar 版本是否相同,不同则删掉一个,然后拷贝,保持版本一致。 2.添加软连接(以下几个jar包可能不全,可根据实际操作时报的错进行补充) ln -s /opt/hbase/lib/hbase-comm ...

Hive的JDBC接口

    博客分类:
  • Hive
>>>在eclipse中使用JDBC连接Hive前需要开启Hive监听用户链接 hive/bin/ext$ hive --service hiveserver >>>配置eclipse环境 在pom.xml中添加hive包依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hadoop.version>2.5.0</hadoop.version> ...
参考  http://blog.sina.com.cn/s/blog_97b4973a0102wmgk.html#commonComment   其中:添加一个是Maven中心仓库,和一个Cloudera 仓库  在maven安装目录下中settings.xml 文件中添加,我的是:/usr/local/apache-maven-3.5.0/conf/settings.xml    <mirror>      <id>nexus-aliyun</id>     <mirrorOf>central</mirrorOf> ...
Global site tag (gtag.js) - Google Analytics