Image2077

首页创作模型库灵感订阅个人中心
登录 / 注册
首页创作模型库灵感订阅个人中心
LLM预训练数据混合桑基图 预览图 1
查看原图

Prompt

原始 Prompt

Landscape 16:9 sankey diagram of a pretraining data mixture, three stages with translucent colored ribbons. LEFT (8 source blocks, heights proportional to tokens): "Common Crawl (web) 540B" (muted navy, largest), "arXiv papers 180B" (dusty teal), "GitHub code 160B" (slate gray), "Wikipedia 40B" (soft terracotta), "StackExchange QA 30B" (warm copper), "Books (public domain) 25B" (pale olive), "Patents 18B" (pale navy), "Curated news & forums 15B" (dusty teal). MIDDLE (3 processing blocks, stacked): "Deduplicated (MinHash + exact)", "Quality-filtered (classifier + heuristics)", "PII-scrubbed (regex + NER)". RIGHT (3 final splits): "Pretraining set 1.4T tokens" (largest), "Instruction-tune pool 12B tokens", "RLHF preference pool 3B tokens". Flow ribbons inherit source color with mid-labels showing token counts ("85B", "320B", "44B"). Legend strip at bottom. Title: "LLM pretraining data mixture and downstream splits". Subtitle: "token counts after deduplication and quality filtering; ribbon thickness ∝ token flow."

科研图示

LLM预训练数据混合桑基图

科研图示精选案例,来源 @GPT-Image2-Skill精选 No. 86。

@GPT-Image2-Skill精选
0 收藏

相似案例

基于《LLM预训练数据混合桑基图》的分类、风格标签、作者、模型和 Prompt 结构推荐

经验缩放律曲线

同分类:科研图示同为图片

LLM人格图谱

同分类:科研图示同为图片

单细胞免疫图谱揭示疗效状态

同分类:科研图示同为图片

多模态医疗AI方法图

同分类:科研图示同为图片

疗效响应条形图与森林图

同分类:科研图示同为图片

Transformer编码器-解码器架构

同分类:科研图示同为图片

检索增强生成流程图

同分类:科研图示同为图片

多智能体LLM系统架构

同分类:科研图示同为图片
带入创作页