当前位置:   article > 正文

YFCC 100M数据集分析笔记

yfcc100m

——从YFCC 100M数据集中筛选出Geo信息位于中国的数据集

1.YFCC 100M简介

YFCC 100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由1亿条产生于2004年至2014年间的多条媒体数据组成,其中包含了9920万的照片数据以及80万条视频数据。
YFCC 100M数据集并不包含照片或视频数据,而是一个文本数据文档,文档中每一行都是一条照片或视频的元数据。每一行包含23个项目,他们分别代表:

  1. [0] Photo/video identifier 照片/视频标识符
  2. [1] User NSID 用户NSID
  3. [2] User nickname 用户昵称
  4. [3] Date taken 拍摄日期
  5. [4] Date uploaded 上传日期
  6. [5] Capture device 使用设备
  7. [6] Title 标题
  8. [7] Description 描述
  9. [8] User tags (comma-separated) 用户标签(逗号分隔)
  10. [9] Machine tags (comma-separated) 机器标签(逗号分隔)
  11. [10] Longitude 经度
  12. [11] Latitude 纬度
  13. [12] Accuracy 准确性
  14. [13] Photo/video page URL 照片/视频页面URL
  15. [14] Photo/video download URL 照片/视频下载网址
  16. [15] License name 许可证名称
  17. [16] License URL 许可网址
  18. [17] Photo/video server identifier 照片/视频服务器标识符
  19. [18] Photo/video farm identifier 照片/视频农场标识符
  20. [19] Photo/video secret 照片/视频秘密
  21. [20] Photo/video secret original 照片/视频秘密原件
  22. [21] Extension of the original photo 扩展原始照片
  23. [22] Photos/video marker (0 = photo, 1 = video) 照片/视频标记(0 =照片,1 =视频)

其中,我使用到的有

  1. [0] Photo/video identifier 照片/视频标识符
  2. [10] Longitude 经度
  3. [11] Latitude 纬度

代码见 https://github.com/libaoquan95/flickrAnalyse

2.从数据集中挑选出具有Geo信息的数据集

Geo信息,就是地理位置信息,现在很多摄影设备都带有GPS模块,可以记录照片拍摄时的地理位置信息,即经度和纬度。但需要注意的是,并不是所有的元数据都带有Geo信息,所以要筛出不含Geo信息的元数据。

  1. ''' readDataset.py '''
  2. # 从原始数据集中提取带有geo标签的数据
  3. # @param fliename原始文件名
  4. # @return none
  5. def getGeoDataFromDataset(fliename):
  6. # 打开数据集
  7. inFile = open(fliename)
  8. outFile = open(flienam
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/644521
推荐阅读
相关标签
  

闽ICP备14008679号