luojiehua
/
BIDI_ML_INFO_EXTRACTION


			
				
					
						
						
							1234567891011121314151617181920212223
							
import gensim

def to_binary(textfile,binaryfile):
    '''
    @summary:转换为二进制词向量文件
    '''
    model_w2v = gensim.models.KeyedVectors.load_word2vec_format(textfile,binary=False)
    model_w2v.save_word2vec_format(binaryfile,binary=True)
    
#
def to_text(textfile,binaryfile):
    '''
    @summary:转换为文本词向量文件，用于添加词向量,将不存在的词添加和近义词的词向量作为一行添加到词向量文件中，修改第一行的词汇的总数
    '''
    model_w2v = gensim.models.KeyedVectors.load_word2vec_format(binaryfile,binary=True)
    model_w2v.save_word2vec_format(textfile,binary=False)
    
if __name__=="__main__":
    textfile = "wiki_128_word_embedding_new.vector.txt"
    binaryfile = "wiki_128_word_embedding_new.vector"
    #to_text(textfile, binaryfile)
    to_binary(textfile, binaryfile)