Comment utiliser le LSTM bidirectionnel multicouche dans Tensorflow?

Question

Je veux savoir comment utiliser LSTM bidirectionnel multicouche dans Tensorflow.

J'ai déjà implémenté le contenu de LSTM bidirectionnel, mais je veux comparer ce modèle au modèle multi-couches ajouté.

Comment dois-je ajouter du code dans cette partie?

x = tf.unstack(tf.transpose(x, perm=[1, 0, 2])) #print(x[0].get_shape()) # Define lstm cells with tensorflow # Forward direction cell lstm_fw_cell = rnn.BasicLSTMCell(n_hidden, forget_bias=1.0) # Backward direction cell lstm_bw_cell = rnn.BasicLSTMCell(n_hidden, forget_bias=1.0) # Get lstm cell output try: outputs, _, _ = rnn.static_bidirectional_rnn(lstm_fw_cell, lstm_bw_cell, x, dtype=tf.float32) except Exception: # Old TensorFlow version only returns outputs not states outputs = rnn.static_bidirectional_rnn(lstm_fw_cell, lstm_bw_cell, x, dtype=tf.float32) # Linear activation, using rnn inner loop last output outputs = tf.stack(outputs, axis=1) outputs = tf.reshape(outputs, (batch_size*n_steps, n_hidden*2)) outputs = tf.matmul(outputs, weights['out']) + biases['out'] outputs = tf.reshape(outputs, (batch_size, n_steps, n_classes))

Taras Khakhulin · Accepted Answer

Vous pouvez utiliser deux approches différentes pour appliquer le modèle bilstm multicouche:

1) utiliser hors de la couche précédente bilstm comme entrée pour le prochain bilstm. Au début, vous devez créer les tableaux avec des cellules avant et arrière de longueur num_layers. Et

for n in range(num_layers): cell_fw = cell_forw[n] cell_bw = cell_back[n] state_fw = cell_fw.zero_state(batch_size, tf.float32) state_bw = cell_bw.zero_state(batch_size, tf.float32) (output_fw, output_bw), last_state = tf.nn.bidirectional_dynamic_rnn(cell_fw, cell_bw, output, initial_state_fw=state_fw, initial_state_bw=state_bw, scope='BLSTM_'+ str(n), dtype=tf.float32) output = tf.concat([output_fw, output_bw], axis=2)

2) Vaut également un coup d'oeil à une autre approche empilé bilstm .

mnis · Answer

Ceci est essentiellement identique à la première réponse mais avec une petite variation d'utilisation du nom de la portée et avec des wrappers de suppression supplémentaires.

def bidirectional_lstm(input_data, num_layers, rnn_size, keep_prob): output = input_data for layer in range(num_layers): with tf.variable_scope('encoder_{}'.format(layer),reuse=tf.AUTO_REUSE): cell_fw = tf.contrib.rnn.LSTMCell(rnn_size, initializer=tf.truncated_normal_initializer(-0.1, 0.1, seed=2)) cell_fw = tf.contrib.rnn.DropoutWrapper(cell_fw, input_keep_prob = keep_prob) cell_bw = tf.contrib.rnn.LSTMCell(rnn_size, initializer=tf.truncated_normal_initializer(-0.1, 0.1, seed=2)) cell_bw = tf.contrib.rnn.DropoutWrapper(cell_bw, input_keep_prob = keep_prob) outputs, states = tf.nn.bidirectional_dynamic_rnn(cell_fw, cell_bw, output, dtype=tf.float32) output = tf.concat(outputs,2) return output

Le problème avec ce code est que cela ne fonctionnera pas si num_layers est tensor.

dopexxx · Answer

Comme @Taras l'a fait remarquer, vous pouvez utiliser:

(1) tf.nn.bidirectional_dynamic_rnn()

(2) tf.contrib.rnn.stack_bidirectional_dynamic_rnn().

Toutes les réponses précédentes ne capturant que (1), je donne donc quelques détails sur (2), en particulier car il est généralement plus performant (1). Pour une intuition sur les différentes connectivités voir ici .

Supposons que vous souhaitiez créer une pile de 3 couches BLSTM, chacune avec 64 nœuds:

num_layers = 3 num_nodes = 64 # Define LSTM cells enc_fw_cells = [LSTMCell(num_nodes)for layer in range(num_layers)] enc_bw_cells = [LSTMCell(num_nodes) for layer in range(num_layers)] # Connect LSTM cells bidirectionally and stack (all_states, fw_state, bw_state) = tf.contrib.rnn.stack_bidirectional_dynamic_rnn( cells_fw=enc_fw_cells, cells_bw=enc_bw_cells, inputs=input_embed, dtype=tf.float32) # Concatenate results for k in range(num_layers): if k == 0: con_c = tf.concat((fw_state[k].c, bw_state[k].c), 1) con_h = tf.concat((fw_state[k].h, bw_state[k].h), 1) else: con_c = tf.concat((con_c, fw_state[k].c, bw_state[k].c), 1) con_h = tf.concat((con_h, fw_state[k].h, bw_state[k].h), 1) output = tf.contrib.rnn.LSTMStateTuple(c=con_c, h=con_h)

Dans ce cas, j'utilise les états finaux du biRNN empilé plutôt que les états à tous les pas (enregistrés dans all_states), car j'utilisais un schéma de décodage d'encodage, où le code ci-dessus n'était que l'encodeur.

Ekkalak Thongthanomkul · Answer

En plus de la réponse de Taras. Voici un autre exemple utilisant uniquement un RNN bidirectionnel à 2 couches avec des cellules GRU

 embedding_weights = tf.Variable(tf.random_uniform([vocabulary_size, state_size], -1.0, 1.0)) embedding_vectors = tf.nn.embedding_lookup(embedding_weights, tokens) #First BLSTM cell = tf.nn.rnn_cell.GRUCell(state_size) cell = tf.nn.rnn_cell.DropoutWrapper(cell, output_keep_prob=1-dropout) (forward_output, backward_output), _ = \ tf.nn.bidirectional_dynamic_rnn(cell, cell, inputs=embedding_vectors, sequence_length=lengths, dtype=tf.float32,scope='BLSTM_1') outputs = tf.concat([forward_output, backward_output], axis=2) #Second BLSTM using the output of previous layer as an input. cell2 = tf.nn.rnn_cell.GRUCell(state_size) cell2 = tf.nn.rnn_cell.DropoutWrapper(cell2, output_keep_prob=1-dropout) (forward_output, backward_output), _ = \ tf.nn.bidirectional_dynamic_rnn(cell2, cell2, inputs=outputs, sequence_length=lengths, dtype=tf.float32,scope='BLSTM_2') outputs = tf.concat([forward_output, backward_output], axis=2)

BTW, n'oubliez pas d'ajouter un nom de portée différent. J'espère que cette aide.