首页站长资讯AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

站长网2024-10-21 16:00:510阅

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR，高效“读懂”文档!

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型，无需OCR即可理解文档内容，在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性，提出“统一结构学习”来提升MLLM性能。

【AiBase提要:】

🔍 mPLUG-DocOwl1.5无需OCR即可理解文档内容，在视觉文档理解基准测试中领先。

📊 强调结构信息对于文档理解的重要性，提出“统一结构学习”来提升MLLM性能。

🔗 提供了开源代码、模型和数据集，取得了在多个下游任务中的最先进性能。

详情链接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney图像编辑器新功能下周上线

Midjourney的创始人David Holz宣布，一款全新的图像编辑器即将上线，该编辑器利用上传图像的深度信息生成新图片，保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度，为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量，最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用，预示着Midjourney在图像编辑工具方面的重大进步。

【AiBase提要:】

✨ 利用上传图像的深度信息生成新图片，保留原始构图和内容，彻底改变纹理、颜色和细节。

🎨 Midjourney致力于通过AI技术提升图像生成质量，最新v6.1模型进一步优化图像清晰度和准确性。

💡 新编辑器的加入将拓宽AI在创意领域的应用，为设计师和艺术家提供更灵活的图像操控和修改方式。

3、Viggle AI再推新功能可通过录制声音让角色说话

Viggle AI推出了令人兴奋的新功能，用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式，无论是唱歌还是跳舞，都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注，利用先进的JST-1视频3D基础模型，用户可以轻松创造和混合视频内容。

【AiBase提要:】

🎤 角色说话功能:用户可以通过录制声音让角色说话，实现口型同步。

🎭 角色替换功能:用户可以将任何角色置入视频场景，创造个性化沉浸式体验。

🔄 静态图像动画化:用户可以将静态照片转化为动态影像，增加视频趣味性和互动性。

详情链接:https://viggle.ai/home

4、即使是顶尖AI模型也难以应对复杂旅行规划，OpenAI o1-preview也犯难

最新研究表明，即使是先进的AI语言模型，如OpenAI最新的o1-preview，在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳，且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可，但在更复杂的TravelPlanner任务中表现不佳。

【AiBase提要:】

🌍 OpenAI的o1-preview等AI模型在复杂旅行规划上表现不佳，GPT-4o成功率仅7.8%。

📉 大多数模型在BlocksWorld中表现尚可，但在TravelPlanner上难以达到理想效果。

🧠 模型存在对规则的整合不足及随时间推移而失去焦点的问题。

详情链接:https://github.com/hsaest/Agent-Planning-Analysis

5、开源工具Vulnhuntr可发现Python零日漏洞，巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同，能够追踪用户输入到服务器输出的完整调用链，提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞，即将在GitHub上发布供开发者使用。

【AiBase提要:】

🌟 Vulnhuntr是开源工具，利用Claude AI发现Python零日漏洞。

🛠️ 工具工作方式不同于静态分析，能追踪完整调用链。

🚀 Vulnhuntr已发现多个大型开源项目中的零日漏洞，即将在GitHub上发布。

6、字节跳动回应“实习生破坏大模型训练”:未影响正式商业项目

字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应，确认实习生恶意干扰研究项目模型训练，但未影响正式商业项目和线上业务。公司指出传闻严重夸大，已辞退实习生并通报相关机构。事件暴露安全管理问题，公司计划大力投资AI技术。

【AiBase提要:】

🔍 实习生恶意干扰大模型训练，未影响商业项目和线上业务。

🔒 公司确认传闻夸大，已辞退实习生并通报相关机构。

💡 事件暴露安全管理问题，公司计划大力投资AI技术。

7、Meta最新黑科技SPIRIT-LM:能说会写还能懂你的情绪，这个 AI 语言模型有点强!

SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型，能够自由混合文本和语音，理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力，完成跨模态任务，只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版，开创了多模态语言理解和生成的新可能性。

【AiBase提要:】

⚙️ SPIRIT-LM 是多模态基础语言模型，能混合文本和语音，理解情感。

🔑 SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力，完成跨模态任务。

💡 SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版，开创了多模态语言理解和生成的新可能性。

详情链接:https://arxiv.org/pdf/2402.05755

8、颠覆 Stable Diffusion!智源重磅发布 Emu3，图像、文本、视频全拿下!

Emu3团队发布了一套全新的多模态模型Emu3，颠覆了传统的扩散模型和组合模型架构，在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练，实现了多模态任务的统一，超越了特定任务模型，甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向，也为实现AGI带来了新的希望。

【AiBase提要:】

🚀 Emu3基于下一个token预测进行训练，颠覆了传统模型架构，取得了最先进的性能。

💡 Emu3实现了多模态任务的统一，无需依赖扩散或组合架构，超越了特定任务模型和旗舰模型。

🔗 Emu3团队开源了关键技术和模型，为多模态智能领域的进一步研究提供支持。

详情链接:https://github.com/baaivision/Emu3

9、Perplexity AI 寻求90亿美元估值

Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元，当前估值为30亿美元。公司面临抄袭指控，但坚决否认。在激烈市场竞争中努力提升技术和服务水平。

【AiBase提要:】

🌟 Perplexity AI 计划将估值提高至90亿美元，吸引大量投资者关注。

💰 公司自今年初以来进行了三轮融资，迅速发展。

📰 面临抄袭指控，公司坚决否认并保护知识产权。

10、前OpenAI CTO重磅打造新AI公司，融资目标高达1亿美元

Mira Murati正筹集超过1亿美元的风险投资，准备创办新的AI创业公司。她离开OpenAI希望进行个人探索，而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。

【AiBase提要:】

✨ Mira Murati正筹集超过1亿美元的风险投资，打造新AI公司。

🚀 Murati离开OpenAI希望进行个人探索，未透露具体计划。

📈 OpenAI在Murati离职后筹集了创纪录的66亿美元风险投资。

11、苹果AI发展滞后两年，计划未来两年全线设备引入Apple Intelligence

在今年的WWDC大会上，苹果展示了AI新特性，但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能，尽管起步较晚，但有信心迎头赶上。

【AiBase提要:】

📅 苹果在AI发展上落后竞争对手约两年，正努力追赶行业标准。

💡 苹果计划未来两年内在所有带屏设备上推出“Apple Intelligence”功能。

📱 新款iPad和即将推出的iPhone都将配备支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服务备案，累计达94款

北京市最近新增了12款生成式人工智能服务备案，使得累计备案数量达到了94款，为用户带来更多选择与便利。已上线的AI应用需公示备案情况，包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。

【AiBase提要:】

📈 北京市新增12款生成式AI服务备案，累计达94款

🔍 已上线AI应用需公示备案情况，包括模型名称和备案编号

📋 本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像

AI日报阿里开源文档模型DocOwl1 5 Midjourney图像编辑器新功能下周上线ViggleAI推对口型功能

0000

评论列表

共(0)条

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

微软计划在澳大利亚投资 32 亿美元以扩展其人工智能和云计算能力

字节跳动回应暴雪前CEO欲收购TikTok：报道不实

刷一天“极速版”APP能赚多少钱？

Meta 开源 MusicGen 模型：用 AI 将文本和旋律结合创造全新音乐作品

独立开发变现周刊（第130期）：建立一个月收入8000美元的在线计时器

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

微软计划在澳大利亚投资 32 亿美元以扩展其人工智能和云计算能力

字节跳动回应暴雪前CEO欲收购TikTok：报道不实

刷一天“极速版”APP能赚多少钱？

Meta 开源 MusicGen 模型：用 AI 将文本和旋律结合 创造全新音乐作品

独立开发变现周刊（第130期）：建立一个月收入8000美元的在线计时器

Meta 开源 MusicGen 模型：用 AI 将文本和旋律结合创造全新音乐作品