计算机系统应用教程网站

网站首页 > 技术文章 正文

腾讯开源!SEED-Story:可生成叙事连贯图文故事的大模型!

btikc 2024-09-24 08:26:11 技术文章 21 ℃ 0 评论

SEED-Story是由腾讯 ARC 实验室推出的一个多模态长篇故事生成项目。它基于大型语言模型(MLLM),能够从用户提供的图像和文本开始,生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。

功能特点:

1. 用户自定义故事起点:用户可以提供起始图像和文本,SEED-Story 据此生成故事。

2.多模态序列生成:故事可以包含多达 25 个多模态序列,尽管在训练中只使用了最多 10 个序列。

3.视觉与文本的一致性:生成的图像与叙事文本在风格和角色上保持高度一致。

4.多模态故事生成:SEED-Story 能根据给定的起始图像和文本生成包含连贯叙事文本和风格一致的图像的长故事。

5.多模态注意力汇聚机制:SEED-Story 提出了一种多模态注意力汇聚机制,以高效自回归的方式生成故事,可以生成长达25序列的故事。

6.大规模数据集:SEED-Story 发布了一个名为 StoryStream 的大规模、高分辨率数据集,用于训练模型并从不同方面定量评估多模态故事生成任务。故事指令调整:在故事生成的过程中,SEED-Story通过指令调整过程,对模型进行微调,可以预测故事的下一个图像和下一句文本。

GitHub:https://github.com/TencentARC/SEED-Story

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表