赞
踩
53.文档影印和内容数据
类型:文本识别
数量:
数据集下载地址: http://www.mediateam.oulu.fi/downloads/MTDB/
说明:
MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集,包含 500篇 1975年之前的文档信息。
54. CASIA手写数据集
类型:文本识别
数量:56,469
数据集下载地址:http://www.nlpr.ia.ac.cn/databases/handwriting/Touching_Characters_Databases.html
说明:
CASIA-HWDB-T包括56,469个二字或多字触摸字符串,其中1,818个字符串有多个触摸字符。 作者还将接触字符串划分为 50,157 个全中文字符串、2,788 个全数字字符串、328 个全字母字符串和 3,196 个混合字符字符串。 所有的字符串都标注了字符类、触摸点的位置以及字符串高度和平均笔画宽度等辅助值
55. Twitter地理定位信息数据集
类型:文本识别
数量:115,886
数据集下载地址:https://archive.org/details/twitter_cikm_2010
说明:
该数据集是与学术项目协调使用的公共推特更新的集合,用于研究与推特相关的地理定位数据。训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT:纬度,经度”的形式上传的
56. 专利短语数据集
类型:文本识别
数量:
数据集下载地址:该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息
说明:
该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息
57. 电影元数据
类型:文本识别
数量:700000
数据集下载地址:https://www.kaggle.com/datasets/akshaypawar7/millions-of-movies
说明:
这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。
58. Olist 电子商务公共数据集
类型:文本识别
数量:100000
数据集下载地址:https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce
说明:
这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单:从订单状态、价格、付款和货运绩效到客户位置、产品属性,最后是客户撰写的评论。这是真实的商业数据,已匿名,评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。
59. Top1000的Github存储库数据集
类型:文本识别
数量:
数据集下载地址:https://www.kaggle.com/datasets/anshulmehtakaggl/top-1000-github-repositories-for-multiple-domains
说明:
关于 Github 上的 1000 个最受欢迎的关键字存储库的详尽数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。