Google word2vec 环境搭建

创建时间：2017-10-27 投稿人：浏览次数：773

分别在linux和windows下搭建，基本步骤包括

g++环境搭建
word2vec下载
执行make命令
执行./demo-word.sh命令
输入单词

具体步骤

g++环境搭建

它主要是为了word2vec执行 “make ” 命令有效，而且如果有可以省略这一步。判断是否有，在命令窗口输入命令 g++ -v
word2vec下载

这是官方下载地址 word2vec
这是csdn下载地址 word2vec
积分不够的，评论写下你们的地址，或者直接联系 591178251@qq.com

执行make命令

1.上一步下载之后，解压文件，然后启动命令窗口到达trunk目录下即可，如图1所示

cmd进入的目录

                                                     图1

2.执行make命令，如图2所示

执行make命令

                                            图2

命令窗口出现的警告可以忽略。

执行./demo-word.sh命令

输入命令为 ./demo-word.sh，如图3所示
```
                                      图3
```
这一步的主要任务是下载text8.gz语料和训练词向量等工作。
输入单词

如在命令窗口上输入 china 如图4所示

这里写图片描述

                                        图4

linux环境下word2vec环境搭建完毕，windows环境下的word2vec环境搭建陆续更新。

如有帮助请点个赞，如有问题联系我 591178251@qq.com

通过word2vec后可以直接得到文本文件，也可以得到bin文件，这时候就需要将bin文件转换为txt文件，修改相应的文件路径即可，这里用到了python第三方工具包：gensim和codecs。
代码如下：

# -*- coding: utf-8 -*-
import gensim
import codecs


def main():
    path_to_model = "/root/桌面/word2vec/trunk/vectors11.bin"
    output_file = "data/obstetrics_word_vector.txt"
    bin2txt(path_to_model, output_file)


def bin2txt(path_to_model, output_file):
    output = codecs.open(output_file, "w", "utf-8")
    model = gensim.models.KeyedVectors.load_word2vec_format(path_to_model, binary=True)
    print("Done loading Word2Vec!")
    vocab = model.vocab
    for item in vocab:
        vector = list()
        for dimension in model[item]:
            vector.append(str(dimension))
        vector_str = ",".join(vector)
        line = item + "	" + vector_str
        output.writelines(line + "
")
    output.close()


if __name__ == "__main__":
    main()

词向量文本文件截图如下：
这里写图片描述
图中为词与它的向量

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇： PhpExcel的使用、示例及注意事项
下一篇： vue常见报错记录

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...