牛骨文教育服务平台(让学习变的简单)
博文笔记

python 下的 word2vec 学习笔记

创建时间:2016-10-29 投稿人: 浏览次数:25315

refer to: ubuntu 14.04 安装gensim

为了保证安装成功,首先升级一下easy_install工具。

sudo easy_install -U setuptools

之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。

sudo easy_install --upgrade gensim

结果在import gensim 中还出现了点小错误,缺少了平pattern模块,所以直接pip 安装。

sudo pip install pattern

安装完成之后,就来训练模型。
refer:中英文维基百科语料上的word2vec实验

模型的训练如下:

# ################# 例1 #########################
# import modules & set up logging
import gensim, logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

sentences = [["first", "sentence"], ["second", "sentence"]]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)

在本次的实验中,我们的数据是保存在txt文件中的。每一行对应一个句子(已经分词,以空格隔开),我们可以直接用LineSentence把txt文件转为所需要的格式。

# ################# 例2 #########################
from gensim import Word2Vec
from gensim.Word2Vec import LineSentence

# inp为输入语料
inp = "wiki.zh.text.jian.seg.txt"
# outp1 为输出模型
outp1 = "wiki.zh.text.model"
# outp2为原始c版本word2vec的vector格式的模型
outp2 = "wiki.zh.text.vector"
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)

关于Word2Vec(…) 模型的参数说明(refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明):

LineSentence(inp):应该是把word2vec训练模型的磁盘存储文件(model在内存中总是不踏实)转换成所需要的格式;对应的格式是参考上面的例1。
size:是每个词的向量维度;
window:是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词;
min-count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃;
workers:是训练的进程数(需要更精准的解释,请指正),默认是当前运行机器的处理器核数。这些参数先记住就可以了。

说明一下输入语料,输入的是文本文件的格式,其中没一行表示一个文章,而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多,我一般用的是结巴分词(不知道大家以后没有好的分词工具推荐)。一般来说,训练集越大,结果的泛化性越好,对于专业领域的话,最好能使用专业领域的语料来进行训练。

# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>

import gensim
# 导入模型
model = gensim.models.Word2Vec.load("wiki.zh.text.model")

可以参照官网上的指导迅速了解model的各种功能方法。

4.0 获取词向量

        print model[u"汽车"]
        type(model[u"汽车"])
# 结果
[  3.74845356e-01   1.86477005e+00   1.28353190e+00   8.04618478e-01 ... ]
numpy.ndarray

4.1 计算一个词的最近似的词,倒排序

result = model.most_similar(u"足球")
for each in result:
    print each[0] , each[1]
国际足球 0.556692957878
足球运动 0.530436098576
篮球 0.518306851387
国家足球队 0.516140639782
足球队 0.513238489628
足球联赛 0.500901579857
football 0.500162124634
体育 0.499264538288
足球比赛 0.488131582737
冰球 0.48725092411

4.2 计算两词之间的余弦相似度

word2vec一个很大的亮点:支持词语的加减运算。(实际中可能只有少数例子比较符合)

>>> model.most_similar(positive=["woman", "king"], negative=["man"])
[("queen", 0.50882536), ...]
sim1 = model.similarity(u"勇敢", u"战斗")
sim2 = model.similarity(u"勇敢", u"胆小")
sim3 = model.similarity(u"高兴", u"开心")
sim4 = model.similarity(u"伤心", u"开心")
print sim1 
print sim2
print sim3
print sim4
0.254622852224
0.38974887559
0.423695453969
0.376244588456

4.3 计算两个集合之间的余弦似度

当出现某个词语不在这个训练集合中的时候,会报错!!!。

list1 = [u"今天", u"我", u"很", u"开心"]
list2 = [u"空气",u"清新", u"善良", u"开心"]
list3 = [u"国家电网", u"再次", u"宣告", u"破产", u"重新"]
list_sim1 =  model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list1, list3)
print list_sim2
0.541874230659
0.13056320154

4.4 选出集合中不同类的词语

list = [u"纽约", u"北京", u"上海", u"西安"]
print model.doesnt_match(list)
list = [u"纽约", u"北京", u"上海", u"西瓜"]
print model.doesnt_match(list)
纽约
西瓜
声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。