2020-08-23

1.Seq2Seq是什么?

Seq2Seq学习是训练一个模型,将来自一个领域的序列(例如英语语句)转换为另一个领域的序列(例如法语)。

"the cat sat on the mat" -> [Seq2Seq model] -> "le chat etait assis sur le tapis"

Seq2Seq模型可以用于机器翻译或者自由问答(在给定自然语言问题的情况下生成自然语言答案)。通常,它可以在任何需要生成文本的情况下使用。

我们可以使用多种方法来处理Seq2Seq任务,比如循环神经网络(RNN)或者(卷积神经网络)。在这里,我们将重点介绍RNN。

1.1 输入和输出序列的长度相同

当输入和输出序列具有相同的长度时,您可以仅使用LSTM或者GRU网络或者它们的堆叠网络来实现此类模型。例如训练一个教RNN学习加法的模型。

在这里插入图片描述

<figcaption style="margin-top: 5px; text-align: center; color: #888; font-size: 14px;">在这里插入图片描述</figcaption>

但是,在通常情况下,我们的输入序列和输出序列的长度并不一样。

1.2 输入序列和输出序列长度不同

一般情况下,输入序列和输出序列具有不同的长度(例如,机器翻译),并且需要整个输入序列才能开始预测目标。这需要更高级的设置,也就是人们在没有其他上下文情况下提到"序列到序列模型"时通常所指的东西。运行方式如下:

  • RNN层(或者RNN的堆叠)作为编码器(encoder):它处理输入序列并返回其自己的内部状态(internal state)。请注意,我们丢弃了编码器RNN的输出,仅使用其状态(state)。这个状态(state)将作为"上下文"或者"条件"来服务于下一步的decoder。

  • 另一个RNN层(或者其堆叠)作为解码器(decoder):在给定目标序列的前一个字符的情况下,对其进行训练以预测目标序列的下一个字符。具体而言,它被训练为将目标序列变成相同的序列,但偏移一个时间步,在这种情况下,称为"teacher forcing"。重要的是,编码器使用来自编码器的状态向量作为初始状态,这就是解码器如何获取有关应该生成的信息的方式。在给定输入序列[...t]的情况,编码器会学习生成目标序列[t+1...]。

image

上述是训练模型,在推理模式中,即当我们想解码未知的输入序列时,我们会经历一个略有不同的过程:

  • 1)将输入序列编码为状态向量

  • 2)从大小为1的目标序列开始(仅是序列开始字符)

  • 3)将状态向量和1个字符的目标序列提供给解码器,以生成下一个字符的预测。

  • 4)使用这些预测来采样下一个字符(argmax)。

  • 5)将采样的字符追加到目标序列

  • 6)重复上述过程直到生成序列结束字符或达到字符数限制。

image

在训练的时候也可以采用此种方式,即通过将解码器的预测重新注入到解码器中。

2.keras实现Seq2Seq

  • 实现英语到法语的翻译任务

  • 编码器和解码器均使用单层LSTM。

  • 基于字符级别的序列到序列模型

大概过程如下:

  • 1)把输入和输出序列转为3维numpy张量,encoder_input_data, decoder_input_data, decoder_target_data:

  • 2)给定encoder_input_data和decoder_input_data,训练一个基础的基于LSTM的Seq2Seq模型来预测decoder_target_data

    1. 解码测试序列检查模型是否有效

因为训练过程和推理过程(解码序列)完全不同,尽管它们都使用相同的内部层,我们对两者使用不同的模型。

2.1 基本参数设置

from __future__ import print_functionfrom tensorflow.keras.models import  Modelfrom tensorflow.keras.layers import Input,LSTM,Denseimport tensorflow.keras as kerasimport numpy as np#参数设置batch_size=64epochs=100latent_dim=256num_samples=10000 #样本数量data_path="/content/drive/My Drive/data/fra-en.txt"

2.2 训练数据准备

#训练数据准备input_texts=[]target_texts=[]input_characters=set()target_characters=set()with open(data_path,"r",encoding="utf-8") as f:  lines=f.read().split("\n")for line in lines[:min(num_samples,len(lines)-1)]:  input_text,target_text=line.split("\t")  #对于目标序列使用"\t"键作为序列的起始字符  #使用""\n"作为结束字符  target_text="\t"+target_text+"\n"  input_texts.append(input_text)  target_texts.append(target_text)  for char in input_text:    if char not in input_characters:      input_characters.add(char)  for char in target_text:    if char not in target_characters:      target_characters.add(char)input_characters=sorted(list(input_characters))target_characters=sorted(list(target_characters))num_encoder_tokens=len(input_characters)#所有输入序列去重字符数,区分大小写num_decoder_tokens=len(target_characters)#所有输出序列去重字符数max_encoder_seq_length=max([len(txt) for txt in input_texts])max_decoder_deq_length=max([len(txt) for txt in target_texts])
print("样本数量:",len(input_texts))print("输入序列字符数:",num_encoder_tokens)print("输出序列字符数:",num_decoder_tokens)print("输入序列最长序列长度:",max_encoder_seq_length)print("输出序列最长序列长度:",max_decoder_deq_length)
input_token_index=dict([(char,i) for i,char in enumerate(input_characters)])target_token_index=dict([char,i] for i,char in enumerate(target_characters))encoder_input_data=np.zeros((len(input_texts),max_encoder_seq_length,num_encoder_tokens),dtype="float32")decoder_input_data=np.zeros((len(input_texts),max_decoder_deq_length,num_decoder_tokens),dtype="float32")decoder_target_data=np.zeros((len(input_texts),max_decoder_deq_length,num_decoder_tokens),dtype="float32")for i,(input_text,target_text) in enumerate(zip(input_texts,target_texts)):  for t,char in enumerate(input_text):    encoder_input_data[i,t,input_token_index[char]]=1  encoder_input_data[i,t+1:,input_token_index[" "]]=1  #长度不够的序列使用"  "进行padding  for t,char in enumerate(target_text):    decoder_input_data[i,t,target_token_index[char]]=1    if t>0:      #目标数据decoder_target_data不包括起始字符,并向前一步(teacher forcing)      decoder_target_data[i,t-1,target_token_index[char]]=1   decoder_input_data[i,t+1:,target_token_index[" "]]=1  decoder_target_data[i,t:,target_token_index[" "]]=1

2.3 模型网络结构搭建

#模型训练网络结构搭建#encoder端encoder_inputs=Input(shape=(None,num_encoder_tokens))encoder=LSTM(latent_dim,return_state=True) #return_state参数控制是否返回cell stateencoder_outputs,state_h,state_c=encoder(encoder_inputs)encoder_states=[state_h,state_c]#decoderdecoder_inputs=Input(shape=(None,num_decoder_tokens))#返回所有的output sequences和internal states。在训练过程中不使用return states,但在推理中使用decoder_lstm=LSTM(latent_dim,return_sequences=True,return_state=True)#return_sequences控制是否返回所有时间步的hidden statedecoder_outputs,_,_=decoder_lstm(decoder_inputs,initial_state=encoder_states) #使用encoder的输出状态作为deocder的初始状态decoder_dense=Dense(num_decoder_tokens,activation="softmax")decoder_outputs=decoder_dense(decoder_outputs)model=Model([encoder_inputs,decoder_inputs],decoder_outputs)model.compile(optimizer="rmsprop",loss="categorical_crossentropy",metrics=["accuracy"])model.fit([encoder_input_data,decoder_input_data],decoder_target_data,batch_size=batch_size,epochs=epochs,validation_split=0.2)

2.4 模型推理

  • 编码输入和获取初始的decoder state
  • 使用初始state和序列的开始字符作为目标来运行decoder的一步,输出将作为下一个目标字符
  • 使用现在的目标字符和状态来重复以上过程
encoder_model=Model(encoder_inputs,encoder_states) #推理模式的encoder端#推理模式decoder端decoder_state_input_h=Input(shape=(latent_dim,)) #hidden statedecoder_state_input_c=Input(shape=(latent_dim,)) #cell state decoder_states_inputs=[decoder_state_input_h,decoder_state_input_c]decoder_outputs,state_h,state_c=decoder_lstm(decoder_inputs,initial_state=decoder_states_inputs) #decoder_lstm在训练阶段已经训练好了,推理阶段直接拿来用decoder_states=[state_h,state_c]decoder_outputs=decoder_dense(decoder_outputs)#decoder_dense在训练阶段已经训练好了,推理阶段直接拿来用decoder_model=Model([decoder_inputs]+decoder_states_inputs,[decoder_outputs]+decoder_states)reverse_input_char_index=dict((i,char) for char ,i in input_token_index.items())reverse_target_char_index=dict((i,char) for char,i in target_token_index.items())#生成翻译序列def decode_sequence(input_seq):  #编码输入作为state向量  states_value=encoder_model.predict(input_seq)  target_seq=np.zeros((1,1,num_decoder_tokens)) #长度为1的目标序列  target_seq[0,0,target_token_index["\t"]]=1  stop_condition=False  decoded_sentence=""  while not stop_condition:    output_tokens,h,c=decoder_model.predict([target_seq]+states_value)    sampled_token_index=np.argmax(output_tokens[0,-1,:])    sampled_char=reverse_target_char_index[sampled_token_index]    decoded_sentence+=sampled_char    if(sampled_char=="\n" or len(decoded_sentence)>max_decoder_deq_length):      stop_condition=True    target_seq=np.zeros((1,1,num_decoder_tokens))    target_seq[0,0,sampled_token_index]=1    states_value=[h,c]  return decoded_sentence    for seq_index in range(100):  input_seq=encoder_input_data[seq_index:seq_index+1]  decoded_sentence=decode_sequence(input_seq)  print("-")  print("Input sentence:",input_texts[seq_index])  print("Decoded sentence:",decoded_sentence)  

2.5 使用GRU代替LSTM

#encoderencoder_inputs=Input(shape=(None,num_encoder_tokens))encoder=keras.layers.GRU(latent_dim,return_state=True)encoder_outputs,state_h=encoder(encoder_inputs)#decoderdecoder_inputs=Input(shape=(None,num_decoder_tokens))decoder_gru=keras.layers.GRU(latent_dim,return_sequences=True)decoder_outputs=decoder_gru(decoder_inputs,initial_state=state_h)decoder_dense=Dense(num_decoder_tokens,activation="softmax")decoder_outputs=decoder_dense(decoder_outputs)gru_model=Model([encoder_inputs,decoder_inputs],decoder_outputs)gru_model.compile(optimizer="rmsprop",loss="categorical_crossentropy",metrics=["accuracy"])gru_model.fit([encoder_input_data,decoder_input_data],decoder_target_data,batch_size=batch_size,epochs=epochs,validation_split=0.2) 

代码:https://github.com/chongzicbo/nlp-ml-dl-notes/blob/master/code/seq2seq/Seq2Seq%E8%AF%A6%E8%A7%A3%E5%8F%8A%E5%AE%9E%E7%8E%B0.ipynb

数据挖掘与机器学习笔记.jpg

参考:

[1]https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html

[2]https://github.com/keras-team/keras/blob/master/examples/lstm_seq2seq.py

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352