当前位置:   article > 正文

【大语言模型】应用:10分钟实现搜索引擎

【大语言模型】应用:10分钟实现搜索引擎

本文利用20Newsgroup这个数据集作为Corpus(语料库),用户可以通过搜索关键字来进行查询关联度最高的News,实现对文本的搜索引擎:

1. 导入数据集

  1. from sklearn.datasets import fetch_20newsgroups
  2. newsgroups = fetch_20newsgroups()
  3. print(f'Number of documents: {len(newsgroups.data)}')
  4. print(f'Sample document:\n{newsgroups.data[0]}')

2. 向量化单词

  1. from sklearn.feature_extraction.text import CountVectorizer
  2. count = CountVectorizer()
  3. count.fit(newsgroups.data)
  4. show_vocabulary(count)
  5. print(f'Size of vocabulary: {len(count.get_feature_names_out())}')
  6. def show_vocabulary(vectorizer):
  7. words = vectorizer.get_feature_names_out()
  8. print(f'Vocabulary size: {len(words)} words')
  9. # we can print ~10 words per line
  10. for l in np.array_split(words, math.ceil(len(words) / 10)):
  11. print(''.join([f'{x:<15}' for x in l]))

3. 搜索引擎

  1. #将语料库进行转化
  2. corpus_bow = count.transform(newsgroups.data)
  3. #提供用户输入,对输入内容进行转化为BoW - Bag of word
  4. query = input("Type your query: ")
  5. query_bow = count.transform([query])
  6. from sklearn.metrics.pairwise import cosine_similarity
  7. #比较输入内容与语料库中的相似度
  8. similarity_matrix = cosine_similarity(corpus_bow, query_bow)
  9. print(f'Similarity Matrix Shape: {similarity_matrix.shape}')

得到Similarity_matrix一共有N行,表示语料库中的文档数。还有一列,代表相似度系数。

第K行的相似度系数,代表用户输入的文本与语料库中第K个文档的相似程度。

我们对相似度矩阵进行排序:

  1. similarities = pd.Series(similarity_matrix[:, 0])
  2. similarities.head(10)

那么和用户输入最相关的文档就是第一个了!

  1. print('Best document:')
  2. print(newsgroups.data[top_10.index[0]])

结论:本文利用Cosine_similarity比较文档的相似度,从语料库找出最佳匹配的文档。

如果对单词的向量化,BoW概念有问题可以看下我的另一篇文章。

CSDN

下面一篇文章我会具体分析Cosine_similarity的原理,敬请关注!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/426711
推荐阅读
相关标签
  

闽ICP备14008679号