认知预训练模型 CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。用于文本到视频的生成。它是基于Transformer架构的,旨在通过理解和转换文本描述来生成相应的视频内容。CogVideo能够处理大量的文本-视频对数据,并通过学习这些数据的模式来生成与文本描述相匹配的视频。
Sora Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。
文心智能体平台AgentBuilder 文心智能体平台AgentBuilder,是百度推出的基于文心大模型的智能体平台,支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。开发者可以通过prompt编排的方式低成本开发智能体(Agent),同时文心智能体平台还将为智能体(Agent)开发者提供相应的流量分发路径,完成商业闭环。
Segment Anything Segment Anything是一个基于深度学习的图像分割模型,它可以根据用户的输入提示(如点或框)生成高质量的物体遮罩。它可以用于为图像中的任何物体生成遮罩,无论是常见的物体(如人、车、猫等),还是罕见的物体(如火箭、恐龙、魔法棒等)。它的特点是具有强大的零样本性能,即它可以在没有见过的类别上进行分割,而不需要额外的训练数据。它的另一个优点是具有快速的推理速度,即它可以在几秒钟内处理一张图像,而不需要显卡或云计算资源。Segment Anything | Meta AI