当前位置:   article > 正文

langchain 加载 csv,json_langchain csv

langchain csv

csv

  1. from langchain_community.document_loaders.csv_loader import CSVLoader
  2. loader = CSVLoader(file_path='data/专业描述.csv', csv_args={
  3. 'delimiter': ',',
  4. 'quotechar': '"',
  5. 'fieldnames': ['专业', '描述']
  6. }, encoding='utf8', source_column='专业')
  7. data = loader.load()
  8. print(data)
  • 'quotechar': '"': 设置了引用字符为双引号(")。在CSV文件中,如果某个字段值本身包含逗号或其他特殊字符,或者整个字段需要被视为一个不可分割的整体,通常会使用双引号将其包围起来。这里的设定告诉解析器如何正确识别和处理被引号包裹的字段值。

  • 'fieldnames': ['专业', '描述']: 提供了列名列表。如果CSV文件的第一行没有列名(或者不希望使用第一行作为列名),可以在这里显式指定列名。在这个例子中,列名分别为“专业”和“描述”,对应到CSV文件中两列数据的实际含义。

  • source_column'专业' 指定了一个特定的列名。这个参数的意义可能依赖于CSVLoader的具体实现细节。在某些上下文中,它可能用于指定作为后续处理主键或关键属性的列,在回溯某一行的时候可能有用

json

  1. from langchain_community.document_loaders import JSONLoader
  2. import json
  3. from pathlib import Path
  4. from pprint import pprint
  5. file_path = 'data/json_str.json'
  6. data = json.loads(Path(file_path).read_text(encoding='utf8'))
  7. pprint(data)

json分割

  1. import json
  2. import requests
  3. json_data = requests.get("https://api.smith.langchain.com/openapi.json").json()
  4. from langchain_text_splitters import RecursiveJsonSplitter
  5. splitter = RecursiveJsonSplitter(max_chunk_size=300)
  6. # 最好的选择
  7. json_chunks = splitter.split_json(json_data=json_data) # json_data 为字典
  8. # 把 json 当字符串了,不是最优方法
  9. docs = splitter.create_documents(texts=[json_data])
  10. # 也把 json 当字符串了,但结果跟 split_json 一样
  11. texts = splitter.split_text(json_data=json_data)
  12. print(texts[0])
  13. print(texts[1])

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/481766
推荐阅读
相关标签
  

闽ICP备14008679号