首页站长资讯AI视野:字节发布视频模型MagicVideo-V2;OpenAI推出自定义GPT商店;Midjourney将上线一致性角色生成功能;Steam允许平台发布AI游戏
17661

AI视野:字节发布视频模型MagicVideo-V2;OpenAI推出自定义GPT商店;Midjourney将上线一致性角色生成功能;Steam允许平台发布AI游戏

站长网2024-01-11 16:29:390

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

🤖📈💻💡大模型动态

字节跳动发布视频生成模型MagicVideo-V2

MagicVideo-V2是一种革命性的视频生成技术,集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,用于生成外观美观、高分辨率的视频,提供出色的保真度和平滑性。

【AiBase提要:】

⭐️ MagicVideo-V2集成了文本到图像模型、视频生成器和帧插值模块。

⭐️ 训练模块能够生成描述场景的图像,然后通过动画处理生成视频序列。

⭐️ MagicVideo-V2在视频生成领域具有前途,为高保真视频生成带来了积极影响。

项目地址:https://top.aibase.com/tool/magicvideo-v2

📰🤖📢AI新鲜事

OpenAI推出自定义GPT商店

OpenAI 在官网正式发布了自定义 GPT 商店,用户可以分享和寻找最流行、最好用的自定义 ChatGPT 助手。同时,推出了面向细分团队的产品 ChatGPT Team,支持团队协作。

【AiBase提要:】

💡 自定义 GPT 商店涵盖多种类型的助手,如 DALL.E(生成图像)、写作、学术研究、编程、教育和生活等。每周上线新助手并推荐有影响力的产品。

🔍 目前最受欢迎的助手是 “Consensus”,可搜索2亿篇学术论文并提供准确引用。

💰 ChatGPT Team,支持32K 上下文,可访问最新模型,具备视觉、数据分析等功能。按年计费每月25美元,按月计费每月30美元。

Midjourney将于本月内上线一致性角色生成功能

Midjourney将于本月内上线一致性角色生成功能,为用户提供更快速的体验。Midjourney的图片生成质量一直是比较领先的,唯一的问题就是很难保持角色的一致性。这些新功能的推出将使Midjourney平台更加完善,为用户带来更好的使用体验。

【AiBase提要:】

⭐ Midjourney将推出一致性角色生成功能,提供更快速的体验。

⭐ 图片生成质量一直领先,但难以保持角色一致性。

⭐ 推出新功能将使Midjourney平台更完善,提供更好的使用体验。

Steam允许平台发布大部分AI参与制作的游戏

Steam 对使用 AI 技术的游戏进行了政策上的调整,更新了内容调查并制定了审核标准,其中包括预生成内容和实时生成内容。

【AiBase提要:】

💡 更新内容调查和审核标准。

💡 推出全新系统让玩家举报游戏内违法的实时生成AI内容。

💡 更加开放对待AI技术的游戏发行,但不允许通过实时生成AI创建的色情游戏。

AI框架GauHuman:实现高质量3D人体快速重建和实时渲染

GauHuman在1~2分钟内完成建模,每秒渲染高达189帧,涵盖游戏、电影、虚拟现实等领域。

【AiBase提要:】

【🌐 S-Lab团队推出GauHuman】基于Gaussian Splatting实现高质量3D人体快速重建和实时渲染。

【⚡ 框架优势】1~2分钟内完成建模,每秒渲染高达189帧,应用前景广泛。

【🚀 技术原理】通过SMPL参数和神经网络处理单目人体视频,快速生成高质量3D数字人。

https://top.aibase.com/tool/gauhuman

OpenAI就授权内容与CNN、福克斯及时代周刊展开谈判

OpenAI就授权内容与CNN、福克斯及时代周刊展开谈判,以增强ChatGPT聊天机器人的产品。与多家媒体公司和News/Media Alliance进行谈判,以解决侵权指控问题。

【AiBase提要:】

⚖️ OpenAI涉嫌侵权,正与媒体公司进行谈判。

🗞️ OpenAI与行业组织进行对话,解决相关担忧。

📰 一系列事件后的谈判,解决侵权指控。

🤖📱💼AI应用

Contorlnet插件支持IPadapter FaceID 模型了

插件现在已经支持IPadapter FaceID模型的使用,这个模型是IPadapter Face的升级版本,能更好地还原人像特征到生成的图片中。

【AiBase提要:】

提高了人脸识别精准度,使用LoRA技术提高面部ID的一致性,仅通过文本提示生成各种风格的人脸图像。

提供FaceID的使用方法,需安装insightface并下载模型和Lora,用户可方便地使用IPadapter FaceID 模型。

发布ConTorlNetXS的优化版本,在图像生成方面性能得到极大提升,将推动图像生成领域的进一步发展和应用。

ControlNet 插件更新日志:https://github.com/Mikubill/sd-webui-controlnet/discussions/2442

👨‍💻💡🎯聚焦开发者

新语音转换技术CoMoSVC :速度飙升500倍,高质量歌声转换

近日,香港科技大学与微软亚洲研究院的研究团队联手开发的CoMoSVC技术在歌声转换领域取得了革命性突破。

【AiBase提要:】

⚙️ 快速采样: CoMoSVC的学生模型在保持音频质量的前提下,实现了高达500倍的推理速度提升。

🎶 平衡速度与质量: 该技术在速度和音频质量之间取得了平衡,为音乐娱乐等领域的实时应用带来了新的可能性。

🎵 歌声转换:CoMoSVC利用一致性模型,在保持音频质量的前提下,实现高速的音频采样,为歌声转换领域带来了重大突破。

论文网址:https://arxiv.org/abs/2401.01792

项目网址:https://comosvc.github.io/

Amphion音频生成工具包开源

上海AI实验室、香港中文大学数据科学院和深圳大数据研究院联合开源Amphion音频、音乐和语音生成工具包,帮助开发人员研究文本生成音频等。

【AiBase提要:】

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院开源了音频、音乐生成工具包Amphion,解决生成模型黑箱、代码库分散、缺少评估指标等难题;

Amphion包含数据处理、通用模块、优化算法等基础设施;

Amphion内置文本到语音合成模型,包括FastSpeech2、Vall-E、NaturalSpeech。

开源地址:https://github.com/open-mmlab/Amphion

0000
评论列表
共(0)条