赞
踩
目的:去除文本中的噪音和无关内容,确保输入数据的质量和一致性。
方法:
目的:将文本划分为单词或子词单位(tokens),这些单位是模型的基本输入。
方法:
目的:创建一个词汇表,将所有标记化后的单位映射到唯一的索引。
方法:
目的:将离散的词汇转换为连续的向量表示,捕捉词汇间的语义关系。
方法:
目的:确保所有输入序列长度一致,便于批量处理。
方法:
目的:在处理可变长度输入时,忽略填充部分,确保模型只关注有效部分。
方法:创建一个与输入序列长度相同的掩码,填充部分为0,有效部分为1,指导模型计算注意力权重时忽略填充部分。
目的:将单词还原到其基本形式,减少词形变化的影响。
方法:
目的:在处理细粒度任务(如拼写纠错、生成任务)时,直接处理字符级别的信息。
方法:将文本分割成单个字符,构建字符级词汇表,并生成字符序列。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。