modifyVector.py 867 B

1234567891011121314151617181920212223
  1. import gensim
  2. def to_binary(textfile,binaryfile):
  3. '''
  4. @summary:转换为二进制词向量文件
  5. '''
  6. model_w2v = gensim.models.KeyedVectors.load_word2vec_format(textfile,binary=False)
  7. model_w2v.save_word2vec_format(binaryfile,binary=True)
  8. #
  9. def to_text(textfile,binaryfile):
  10. '''
  11. @summary:转换为文本词向量文件,用于添加词向量,将不存在的词添加和近义词的词向量作为一行添加到词向量文件中,修改第一行的词汇的总数
  12. '''
  13. model_w2v = gensim.models.KeyedVectors.load_word2vec_format(binaryfile,binary=True)
  14. model_w2v.save_word2vec_format(textfile,binary=False)
  15. if __name__=="__main__":
  16. textfile = "wiki_128_word_embedding_new.vector.txt"
  17. binaryfile = "wiki_128_word_embedding_new.vector"
  18. #to_text(textfile, binaryfile)
  19. to_binary(textfile, binaryfile)