当前位置:   article > 正文

自己动手实现神经网络分词模型

分词中神经网络模型

本文由**罗周杨stupidme.me.lzy@gmail.com**原创,转载请注明原作者和出处。

原文链接:luozhouyang.github.io/deepseg

分词作为NLP的基础工作之一,对模型的效果有直接的影响。一个效果好的分词,可以让模型的性能更好。

在尝试使用神经网络来分词之前,我使用过jieba分词,以下是一些感受:

  • 分词速度快
  • 词典直接影响分词效果,对于特定领域的文本,词典不足,导致分词效果不尽人意
  • 对于含有较多错别字的文本,分词效果很差

后面两点是其主要的缺点。根据实际效果评估,我发现使用神经网络分词,这两个点都有不错的提升。

本文将带你使用tensorflow实现一个基于BiLSTM+CRF的神经网络中文分词模型。

完整代码已经开源: luozhouyang/deepseg

怎么做分词

分词的想法和NER十分接近,区别在于,NER对各种词打上对应的实体标签,而分词对各个字打上位置标签。

目前,项目一共只有以下5中标签:

  • B,处于一个词语的开始
  • M,处于一个词语的中间
  • E,处于一个词语的末尾
  • S,单个字
  • O,未知

举个更加详细的例子,假设我们有一个文本字符串:

  1. '上','海','市','浦','东','新','区','张','东','路','1387','号'
  2. 复制代码

它对应的分词结果应该是:

  1. 上海市 浦东新区 张东路 1387 号
  2. 复制代码

所以,它的标签应该是:

  1. 'B','M','E','B','M','M','E','B','M','E','S','S'
  2. 复制代码

所以,对于我们的分词模型来说,最重要的任务就是,对于输入序列的每一个token,打上一个标签,然后我们处理得到的标签数据,就可以得到分词效果。

用神经网络给序列打标签,方法肯定还有很多。目前项目使用的是双向LSTM网络后接CRF这样一个网络。这部分会在后面详细说明。

以上就是我们分词的做法概要,如你所见,网络其实很简单。

Estimator

项目使用tensorflow的estimator API完成,因为estimator是一个高级封装,我们只需要专注于核心的工作即可,并且它可以轻松实现分布式训练。如果你还没有尝试过,建议你试一试。

estimator的官方文档可以很好地帮助你入门: estimator

使用estimator构建网络,核心任务是:

  • 构建一个高效的数据输入管道
  • 构建你的神经网络模型

对于数据输入管道,本项目使用tensorflow的Dataset API,这也是官方推荐的方式。

具体来说,给estimator喂数据,需要实现一个input_fn,这个函数不带参数,并且返回(features, labels)元组。当然,对于PREDICT模式,labelsNone

要构建神经网络给estimator,需要实现一个model_fn(features, labels, mode, params, config),返回一个tf.estimator.EstimatorSepc对象。

更多的内容,请访问官方文档。

构建input_fn

首先,我们的数据输入需要分三种模式TRAINEVALPREDICT讨论。

  • TRAIN模式即模型的训练,这个时候使用的是数据集是训练集,需要返回(features,labels)元组
  • EVAL模式即模型的评估,这个时候使用的是数据集的验证集,需要返回(features,labels)元组
  • PREDICT模式即模型的预测,这个时候使用的数据集是测试集,需要返回(features,None)元组

以上的featureslabels可以是任意对象,比如dict,或者是自己定义的python class。实际上,比较推荐使用dict的方式,因为这种方式比较灵活,并且在你需要导出模型到serving的时候,特别有用。这一点会在后面进一步说明。

那么,接下来可以为上面三种模式分别实现我们的inpuf_fn

对于最常见的TRAIN模式:

  1. def build_train_dataset(params):
  2. """Build data for input_fn in training mode.
  3. Args:
  4. params: A dict
  5. Returns:
  6. A tuple of (features,labels).
  7. """
  8. src_file = params['train_src_file']
  9. tag_file = params['train_tag_file']
  10. if not os.path.exists(src_file) or not os.path.exists(tag_file):
  11. raise ValueError("train_src_file and train_tag_file must be provided")
  12. src_dataset = tf.data.TextLineDataset(src_file)
  13. tag_dataset = tf.data.TextLineDataset(tag_file)
  14. dataset = _build_dataset(src_dataset, tag_dataset, params)
  15. iterator = dataset.make_one_shot_iterator()
  16. (src, src_len), tag = iterator.get_next()
  17. features = {
  18. "inputs": src,
  19. "inputs_length": src_len
  20. }
  21. return features, tag
  22. 复制代码

使用tensorflow的Dataset API很简单就可以构建出数据输入管道。首先,根据参数获取训练集文件,分别构建出一个tf.data.TextLineDataset对象,然后构建出数据集。根据数据集的迭代器,获取每一批输入的(features,labels)元组。每一次训练的迭代,这个元组都会送到model_fn的前两个参数(features,labels,...)中。

根据代码可以看到,我们这里的features是一个dict,每一个键都存放着一个Tensor

  • inputs:文本数据构建出来的字符张量,形状是(None,None)
  • inputs_length:文本分词后的长度张量,形状是(None)

而我们的labels就是一个张量,具体是什么呢?需要看一下_build_dataset()函数做了什么:

  1. def _build_dataset(src_dataset, tag_dataset, params):
  2. """Build dataset for training and evaluation mode.
  3. Args:
  4. src_dataset: A `tf.data.Dataset` object
  5. tag_dataset: A `tf.data.Dataset` object
  6. params: A dict, storing hyper params
  7. Returns:
  8. A `tf.data.Dataset` object, producing features and labels.
  9. """
  10. dataset = tf.data.Dataset.zip((src_dataset, tag_dataset))
  11. if params['skip_count'] > 0:
  12. dataset = dataset.skip(params['skip_count'])
  13. if params['shuffle']:
  14. dataset = dataset.shuffle(
  15. buffer_size=params['buff_size'],
  16. seed=params['random_seed'],
  17. reshuffle_each_iteration=params['reshuffle_each_iteration'])
  18. if params['repeat']:
  19. dataset = dataset.repeat(params['repeat']).prefetch(params['buff_size'])
  20. dataset = dataset.map(
  21. lambda src, tag: (
  22. tf.string_split([src], delimiter=",").values,
  23. tf.string_split([tag], delimiter=",").values),
  24. num_parallel_calls=params['num_parallel_call']
  25. ).prefetch(params['buff_size'])
  26. dataset = dataset.filter(
  27. lambda src, tag: tf.logical_and(tf.size(src) > 0, tf.size(tag) > 0))
  28. dataset = dataset.filter(
  29. lambda src, tag: tf.equal(tf.size(src), tf.size(tag)))
  30. if params['max_src_len']:
  31. dataset = dataset.map(
  32. lambda src, tag: (src[:params['max_src_len']],
  33. tag[:params['max_src_len']]),
  34. num_parallel_calls=params['num_parallel_call']
  35. ).prefetch(params['buff_size'])
  36. dataset = dataset.map(
  37. lambda src, tag: (src, tf.size(src), tag),
  38. num_parallel_calls=params['num_parallel_call']
  39. ).prefetch(params['buff_size'])
  40. dataset = dataset.padded_batch(
  41. batch_size=params.get('batch_size', 32),
  42. padded_shapes=(
  43. tf.TensorShape([None]),
  44. tf.TensorShape([]),
  45. tf.TensorShape([None])),
  46. padding_values=(
  47. tf.constant(params['pad'], dtype=tf.string),
  48. 0,
  49. tf.constant(params['oov_tag'], dtype=tf.string)))
  50. dataset = dataset.map(
  51. lambda src, src_len, tag: ((src, src_len), tag),
  52. num_parallel_calls=params['num_parallel_call']
  53. ).prefetch(params['buff_size'])
  54. return dataset
  55. 复制代码

虽然代码都很直白,在此还是总结一下以上数据处理的步骤:

  • 跳过和随机打乱数据
  • 根据,将文本序列和对应的标签切分开来
  • 过滤掉空的序列
  • 限制序列的最大长度
  • 增加序列的原始长度信息
  • 对齐和批量

上述过程,最重要的就是padded_batch这一步了。经过之前的处理,现在我们的数据包含以下三项信息:

  • src,原始的字符序列,长度不定
  • src_len,原始字符序列的长度(切分后的列表的长度),长度固定,是一个标量
  • tag,序列对应的标签序列,长度不定

把数据喂入网络之前,我们需要对这些数据进行对齐操作。什么是对齐呢?顾名思义:在这一批数据中,找出最长序列的长度,以此为标准,如果序列比这个长度更短,则文本序列在末尾追加特殊标记(例如<PAD>),标签序列在末尾追加标签的特殊标记(例如O)。因为大家的长度都是不定的,所以要补齐多少个特殊标记也是不定的,所以padded_shapes里面设置成tf.TensorShape([None])即可,函数会自动计算长度的差值,然后进行补齐。

src_len一项是不需要对齐的,因为所有的src_len都是一个scalar。

至此,TRAIN模式下的数据输入准备好了。

EVAL模式下的数据准备和TRAIN模式一模一样,唯一的差别在于使用的数据集不一样,TRAIN模式使用的是训练集,但是EVAL使用的是验证集,所以只需要改一下文件即可。以下是EVAL模式的数据准备过程:

  1. def build_eval_dataset(params):
  2. """Build data for input_fn in evaluation mode.
  3. Args:
  4. params: A dict.
  5. Returns:
  6. A tuple of (features, labels).
  7. """
  8. src_file = params['eval_src_file']
  9. tag_file = params['eval_tag_file']
  10. if not os.path.exists(src_file) or not os.path.exists(tag_file):
  11. raise ValueError("eval_src_file and eval_tag_file must be provided")
  12. src_dataset = tf.data.TextLineDataset(src_file)
  13. tag_dataset = tf.data.TextLineDataset(tag_file)
  14. dataset = _build_dataset(src_dataset, tag_dataset, params)
  15. iterator = dataset.make_one_shot_iterator()
  16. (src, src_len), tag = iterator.get_next()
  17. features = {
  18. "inputs": src,
  19. "inputs_length": src_len
  20. }
  21. return features, tag
  22. 复制代码

至于PREDICT模式,稍微有点特殊,因为要对序列进行预测,我们是没有标签数据的。所以,我们的数据输入只有features这一项,labels这一项只能是None。该模式下的数据准备如下:

  1. def build_predict_dataset(params):
  2. """Build data for input_fn in predict mode.
  3. Args:
  4. params: A dict.
  5. Returns:
  6. A tuple of (features, labels), where labels are None.
  7. """
  8. src_file = params['predict_src_file']
  9. if not os.path.exists(src_file):
  10. raise FileNotFoundError("File not found: %s" % src_file)
  11. dataset = tf.data.TextLineDataset(src_file)
  12. if params['skip_count'] > 0:
  13. dataset = dataset.skip(params['skip_count'])
  14. dataset = dataset.map(
  15. lambda src: tf.string_split([src], delimiter=",").values,
  16. num_parallel_calls=params['num_parallel_call']
  17. ).prefetch(params['buff_size'])
  18. dataset = dataset.map(
  19. lambda src: (src, tf.size(src)),
  20. num_parallel_calls=params['num_parallel_call']
  21. ).prefetch(params['buff_size'])
  22. dataset = dataset.padded_batch(
  23. params.get('batch_size', 32),
  24. padded_shapes=(
  25. tf.TensorShape([None]),
  26. tf.TensorShape([])),
  27. padding_values=(
  28. tf.constant(params['pad'], dtype=tf.string),
  29. 0))
  30. iterator = dataset.make_one_shot_iterator()
  31. (src, src_len) = iterator.get_next()
  32. features = {
  33. "inputs": src,
  34. "inputs_length": src_len
  35. }
  36. return features, None
  37. 复制代码

整体的思路差不多,值得注意的是,PREDICT模式的数据不能够打乱数据。同样的进行对齐和分批之后,就可以通过迭代器获取到features数据,然后返回(features,labels)元组,其中labels=None

至此,我们的input_fn就实现了!

值得注意的是,estimator需要的input_fn是一个没有参数的函数,我们这里的input_fn是有参数的,那怎么办呢?用funtiontools转化一下即可,更详细的内容请查看源码。

还有一个很重要的一点,很多项目都会在这个input_fn里面讲字符序列转化成数字序列,但是我们没有这么做,而是依然保持是字符,为什么:

因为这样就可以把这个转化过程放到网络的构建过程中,这样的话,导出模型所需要的serving_input_receiver_fn的构建就会很简单!

这一点详细地说明一下。如果我们把字符数字化放到网络里面去,那么我们导出模型所需要的serving_input_receiver_fn就可以这样写:

  1. def server_input_receiver_fn()
  2. receiver_tensors{
  3. "inputs": tf.placeholder(dtype=tf.string, shape=(None,None)),
  4. "inputs_length": tf.placeholder(dtype=tf.int32, shape=(None))
  5. }
  6. features = receiver_tensors.copy()
  7. return tf.estimator.export.ServingInputReceiver(
  8. features=features,
  9. receiver_tensors=receiver_tensors)
  10. 复制代码

可以看到,我们在这里也不需要把接收到的字符张量数字化

相反,如果我们在处理数据集的时候进行了字符张量的数字化,那就意味着构建网络的部分没有数字化这个步骤!所有喂给网络的数据都是已经数字化的

这也就意味着,你的serving_input_receiver_fn也需要对字符张量数字化!这样就会使得代码比较复杂!

说了这么多,其实就一点:

  • input_fn里面不要把字符张量转化成数字张量!把这个过程放到网络里面去!

构建神经网络

接下来是最重要的步骤,即构建出我们的神经网络,也就是实现model_fn(features,labels,mode,params,config)这个函数。

首先,我们的参数中的featureslabels都是字符张量,老规矩,我们需要进行word embedding。代码很简单:

  1. words = features['inputs']
  2. nwords = features['inputs_length']
  3. # a UNK token should placed in the first row in vocab file
  4. words_str2idx = lookup_ops.index_table_from_file(
  5. params['src_vocab'], default_value=0)
  6. words_ids = words_str2idx.lookup(words)
  7. training = mode == tf.estimator.ModeKeys.TRAIN
  8. # embedding
  9. with tf.variable_scope("embedding", reuse=tf.AUTO_REUSE):
  10. variable = tf.get_variable(
  11. "words_embedding",
  12. shape=(params['vocab_size'], params['embedding_size']),
  13. dtype=tf.float32)
  14. embedding = tf.nn.embedding_lookup(variable, words_ids)
  15. embedding = tf.layers.dropout(
  16. embedding, rate=params['dropout'], training=training)
  17. 复制代码

接下来,把词嵌入之后的数据,输入到一个双向LSTM网络:

  1. # BiLSTM
  2. with tf.variable_scope("bilstm", reuse=tf.AUTO_REUSE):
  3. # transpose embedding for time major mode
  4. inputs = tf.transpose(embedding, perm=[1, 0, 2])
  5. lstm_fw = tf.nn.rnn_cell.LSTMCell(params['lstm_size'])
  6. lstm_bw = tf.nn.rnn_cell.LSTMCell(params['lstm_size'])
  7. (output_fw, output_bw), _ = tf.nn.bidirectional_dynamic_rnn(
  8. cell_fw=lstm_fw,
  9. cell_bw=lstm_bw,
  10. inputs=inputs,
  11. sequence_length=nwords,
  12. dtype=tf.float32,
  13. swap_memory=True,
  14. time_major=True)
  15. output = tf.concat([output_fw, output_bw], axis=-1)
  16. output = tf.transpose(output, perm=[1, 0, 2])
  17. output = tf.layers.dropout(
  18. output, rate=params['dropout'], training=training)
  19. 复制代码

BiLSTM出来的结果,接入一个CRF层:

  1. logits = tf.layers.dense(output, params['num_tags'])
  2. with tf.variable_scope("crf", reuse=tf.AUTO_REUSE):
  3. variable = tf.get_variable(
  4. "transition",
  5. shape=[params['num_tags'], params['num_tags']],
  6. dtype=tf.float32)
  7. predict_ids, _ = tf.contrib.crf.crf_decode(logits, variable, nwords)
  8. return logits, predict_ids
  9. 复制代码

返回的logits用来计算loss,更新权重。

损失计算如下:

  1. def compute_loss(self, logits, labels, nwords, params):
  2. """Compute loss.
  3. Args:
  4. logits: A tensor, output of dense layer
  5. labels: A tensor, the ground truth label
  6. nwords: A tensor, length of inputs
  7. params: A dict, storing hyper params
  8. Returns:
  9. A loss tensor, negative log likelihood loss.
  10. """
  11. tags_str2idx = lookup_ops.index_table_from_file(
  12. params['tag_vocab'], default_value=0)
  13. actual_ids = tags_str2idx.lookup(labels)
  14. # get transition matrix created before
  15. with tf.variable_scope("crf", reuse=True):
  16. trans_val = tf.get_variable(
  17. "transition",
  18. shape=[params['num_tags'], params['num_tags']],
  19. dtype=tf.float32)
  20. log_likelihood, _ = tf.contrib.crf.crf_log_likelihood(
  21. inputs=logits,
  22. tag_indices=actual_ids,
  23. sequence_lengths=nwords,
  24. transition_params=trans_val)
  25. loss = tf.reduce_mean(-log_likelihood)
  26. return loss
  27. 复制代码

定义好了损失,我们就可以选择一个优化器来训练我们的网络啦。代码如下:

  1. def build_train_op(self, loss, params):
  2. global_step = tf.train.get_or_create_global_step()
  3. if params['optimizer'].lower() == 'adam':
  4. opt = tf.train.AdamOptimizer()
  5. return opt.minimize(loss, global_step=global_step)
  6. if params['optimizer'].lower() == 'momentum':
  7. opt = tf.train.MomentumOptimizer(
  8. learning_rate=params.get('learning_rate', 1.0),
  9. momentum=params['momentum'])
  10. return opt.minimize(loss, global_step=global_step)
  11. if params['optimizer'].lower() == 'adadelta':
  12. opt = tf.train.AdadeltaOptimizer()
  13. return opt.minimize(loss, global_step=global_step)
  14. if params['optimizer'].lower() == 'adagrad':
  15. opt = tf.train.AdagradOptimizer(
  16. learning_rate=params.get('learning_rate', 1.0))
  17. return opt.minimize(loss, global_step=global_step)
  18. # TODO(luozhouyang) decay lr
  19. sgd = tf.train.GradientDescentOptimizer(
  20. learning_rate=params.get('learning_rate', 1.0))
  21. return sgd.minimize(loss, global_step=global_step)
  22. 复制代码

当然,你还可以添加一些hooks,比如在EVAL模式下,添加一些统计:

  1. def build_eval_metrics(self, predict_ids, labels, nwords, params):
  2. tags_str2idx = lookup_ops.index_table_from_file(
  3. params['tag_vocab'], default_value=0)
  4. actual_ids = tags_str2idx.lookup(labels)
  5. weights = tf.sequence_mask(nwords)
  6. metrics = {
  7. "accuracy": tf.metrics.accuracy(actual_ids, predict_ids, weights)
  8. }
  9. return metrics
  10. 复制代码

至此,我们的网络构建完成。完整的model_fn如下:

  1. def model_fn(self, features, labels, mode, params, config):
  2. words = features['inputs']
  3. nwords = features['inputs_length']
  4. # a UNK token should placed in the first row in vocab file
  5. words_str2idx = lookup_ops.index_table_from_file(
  6. params['src_vocab'], default_value=0)
  7. words_ids = words_str2idx.lookup(words)
  8. training = mode == tf.estimator.ModeKeys.TRAIN
  9. # embedding
  10. with tf.variable_scope("embedding", reuse=tf.AUTO_REUSE):
  11. variable = tf.get_variable(
  12. "words_embedding",
  13. shape=(params['vocab_size'], params['embedding_size']),
  14. dtype=tf.float32)
  15. embedding = tf.nn.embedding_lookup(variable, words_ids)
  16. embedding = tf.layers.dropout(
  17. embedding, rate=params['dropout'], training=training)
  18. # BiLSTM
  19. with tf.variable_scope("bilstm", reuse=tf.AUTO_REUSE):
  20. # transpose embedding for time major mode
  21. inputs = tf.transpose(embedding, perm=[1, 0, 2])
  22. lstm_fw = tf.nn.rnn_cell.LSTMCell(params['lstm_size'])
  23. lstm_bw = tf.nn.rnn_cell.LSTMCell(params['lstm_size'])
  24. (output_fw, output_bw), _ = tf.nn.bidirectional_dynamic_rnn(
  25. cell_fw=lstm_fw,
  26. cell_bw=lstm_bw,
  27. inputs=inputs,
  28. sequence_length=nwords,
  29. dtype=tf.float32,
  30. swap_memory=True,
  31. time_major=True)
  32. output = tf.concat([output_fw, output_bw], axis=-1)
  33. output = tf.transpose(output, perm=[1, 0, 2])
  34. output = tf.layers.dropout(
  35. output, rate=params['dropout'], training=training)
  36. logits, predict_ids = self.decode(output, nwords, params)
  37. # TODO(luozhouyang) Add hooks
  38. if mode == tf.estimator.ModeKeys.PREDICT:
  39. predictions = self.build_predictions(predict_ids, params)
  40. prediction_hooks = []
  41. export_outputs = {
  42. 'export_outputs': tf.estimator.export.PredictOutput(predictions)
  43. }
  44. return tf.estimator.EstimatorSpec(
  45. mode=mode,
  46. predictions=predictions,
  47. export_outputs=export_outputs,
  48. prediction_hooks=prediction_hooks)
  49. loss = self.compute_loss(logits, labels, nwords, params)
  50. if mode == tf.estimator.ModeKeys.EVAL:
  51. metrics = self.build_eval_metrics(
  52. predict_ids, labels, nwords, params)
  53. eval_hooks = []
  54. return tf.estimator.EstimatorSpec(
  55. mode=mode,
  56. loss=loss,
  57. eval_metric_ops=metrics,
  58. evaluation_hooks=eval_hooks)
  59. if mode == tf.estimator.ModeKeys.TRAIN:
  60. train_op = self.build_train_op(loss, params)
  61. train_hooks = []
  62. return tf.estimator.EstimatorSpec(
  63. mode=mode,
  64. loss=loss,
  65. train_op=train_op,
  66. training_hooks=train_hooks)
  67. 复制代码

还是推荐去看源码。

模型的训练、估算、预测和导出

接下来就是训练、估算、预测或者导出模型了。这个过程也很简单,因为使用的是estimator API,所以这些步骤都很简单。

项目中创建了一个Runner类来做这些事情。具体代码请到项目页面。

如果你要训练模型:

  1. python -m deepseg.runner \
  2. --params_file=deepseg/example_params.json \
  3. --mode=train
  4. 复制代码

或者:

  1. python -m deepseg.runner \
  2. --params_file=deepseg/example_params.json \
  3. --mode=train_and_eval
  4. 复制代码

如果你要使用训练的模型进行预测:

  1. python -m deepseg.runner \
  2. --params_file=deepseg/example_params.json \
  3. --mode=predict
  4. 复制代码

如果你想导出训练好的模型,部署到tf serving上面:

  1. python -m deepseg.runner \
  2. --params_file=deepseg/example_params.json \
  3. --mode=export
  4. 复制代码

以上步骤,所有的参数都在example_params.json文件中,根据需要进行修改即可。

另外,本身的代码也相对简单,如果不满足你的需求,可以直接修改源代码。

根据预测结果得到分词

还有一点点小的提示,模型预测返回的结果是np.ndarray,需要将它转化成字符串数组。代码也很简单,就是用UTF-8去解码bytes而已。

拿预测返回结果的predict_tags为例,你可以这样转换:

  1. def convert_prediction_tags_to_string(prediction_tags):
  2. """Convert np.ndarray prediction_tags of output of prediction to string.
  3. Args:
  4. prediction_tags: A np.ndarray object, value of prediction['prediction_tags']
  5. Returns:
  6. A list of string predictions tags
  7. """
  8. return " ".join([t.decode('utf8') for t in prediction_tags])
  9. 复制代码

如果你想对文本序列进行分词,目前根据以上处理,你得到了预测的标签序列,那么要得到分词的结果,只需要根据标签结果处理一下原来的文本序列即可:

  1. def segment_by_tag(sequences, tags):
  2. """Segment string sequence by it's tags.
  3. Args:
  4. sequences: A two dimension source string list
  5. tags: A two dimension tag string list
  6. Returns:
  7. A list of segmented string.
  8. """
  9. results = []
  10. for seq, tag in zip(sequences, tags):
  11. if len(seq) != len(tag):
  12. raise ValueError("The length of sequence and tags are different!")
  13. result = []
  14. for i in range(len(tag)):
  15. result.append(seq[i])
  16. if tag[i] == "E" or tag[i] == "S":
  17. result.append(" ")
  18. results.append(result)
  19. return results
  20. 复制代码

举个具体的例子吧,如果你有一个序列:

  1. sequence = [
  2. ['上', '海', '市', '浦', '东', '新', '区', '张', '东', '路', '1387', '号'],
  3. ['上', '海', '市', '浦', '东', '新', '区', '张', '衡', '路', '333', '号']
  4. ]
  5. 复制代码

你想对这个序列进行分词处理,那么经过我们的神经网络,你得到以下标签序列:

  1. tags = [
  2. ['B', 'M', 'E', 'B', 'M', 'M', 'E', 'B', 'M', 'E', 'S', 'S'],
  3. ['B', 'M', 'E', 'B', 'M', 'M', 'E', 'B', 'M', 'E', 'S', 'S']
  4. ]
  5. 复制代码

那么,怎么得到分词结果呢?就是利用上面的segment_by_tag函数即可。

得到的分词结果如下:

  1. 上海市 浦东新区 张东路 1387 号
  2. 上海市 浦东新区 张衡路 333 号
  3. 复制代码

以上就是所有内容了!

如果你有任何疑问,欢迎和我交流!

联系我

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/935275
推荐阅读
相关标签
  

闽ICP备14008679号