MINT-1T 多模态数据集
万亿级规模的多模态交错数据集,融合文本与图像信息,为视觉语言模型训练提供海量高质量数据支撑
1T+
文本Token数量
3.4B
图像数量
10B+
HTML文档数
100+
支持语言种类
MINT-1T 数据集核心优势
超大规模数据
包含超过1万亿文本Token和34亿张图像,是目前规模最大的开源多模态数据集之一。海量数据为训练大规模视觉语言模型提供充足素材,有效提升模型泛化能力。
图文交错结构
采用独特的图文交错格式,保留原始HTML文档的结构信息。图像与周围文本自然关联,更贴近真实网页场景,有利于模型学习图文间的语义关系。
多语言覆盖
支持100多种语言,涵盖全球主流语种。数据来源于真实的网页内容,语言分布自然均衡,适合训练多语言视觉语言模型,服务全球用户。
严格质量过滤
经过多轮质量筛选和去重处理,过滤低质量内容和重复数据。采用先进的图像质量评估算法,确保每张图像都具有良好的视觉效果和信息价值。
热门关键词
MINT-1T API接口使用指南
选择数据子集
根据训练需求选择合适的数据子集,支持按语言、域名、内容类型等维度筛选。可指定需要的图像分辨率和文本长度范围,获取最符合项目需求的数据。
配置下载参数
设置API请求参数,包括数据格式、压缩方式、分片大小等。支持WebDataset格式输出,便于与主流训练框架集成,实现高效的数据加载。
批量下载数据
通过API批量下载图文数据,支持断点续传和并行下载。系统自动处理数据解压和格式转换,提供下载进度监控和完整性校验功能。
数据预处理
使用提供的预处理工具对原始数据进行清洗、增强和格式化。支持图像缩放、裁剪、归一化等操作,以及文本分词、编码等预处理流程。
数据集内容类型
新闻资讯
全球各大新闻网站的图文内容,涵盖政治、经济、科技、娱乐等多个领域,信息时效性强。
电商产品
电商平台商品详情页数据,包含产品图片、描述文字、规格参数等,适合电商场景应用。
教育内容
在线教育平台的课程资料,包括教学图片、课件文本、知识讲解等,支持教育AI开发。
博客文章
个人博客和技术文章,内容丰富多样,图文并茂,适合训练内容理解和生成模型。
图库素材
高质量图库网站的图片和标签数据,图像质量高,标注准确,适合视觉理解任务。
百科知识
百科类网站的结构化知识内容,包含词条解释、配图说明等,知识覆盖面广。