AI日报：阿里开源最新数学模型Qwen2-Math；豆包上线音乐功能；苹果将推高级AI服务；谷歌机器人挑战巴黎奥运

站长网2024-08-10 13:32:500阅

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

阿里云推出的Qwen2-Math系列大型语言模型在数学领域展现出强大的解题能力，超越了开源和闭源模型，成为AI数学界的黑马。该模型经过精心设计的数学专业语料库深度预训练，特别是Qwen2-Math-Instruct模型采用创新的训练方法，提升了数学解题能力。未来，团队计划推出支持多语言的版本，并持续优化模型。Qwen2-Math的出现为AI在数学领域的应用带来新的可能性，将在教育、科研、工程等领域发挥重要作用。

【AiBase提要:】

⚙️ Qwen2-Math系列模型展现出强大的数学解题能力，超越开源和闭源模型，成为AI数学界的黑马。

📚 Qwen2-Math基于精心设计的数学专业语料库深度预训练，特别是Qwen2-Math-Instruct模型采用创新训练方法提升了数学解题能力。

💡 阿里云团队计划推出支持多语言的Qwen2-Math版本，并持续优化模型以解决更复杂数学问题。

详情链接:https://top.aibase.com/tool/qwen2-math

2、字节跳动AI助手豆包app、电脑版上线音乐生成功能

最近，字节跳动旗下豆包AI助手推出了音乐生成功能，用户可以轻松创作独特的歌曲。这项服务提供多种音乐风格和情绪状态，旨在满足用户的情感表达需求。豆包希望通过音乐激发创造力，让用户分享自己的故事，开启音乐创作之旅。

【AiBase提要:】

🎶 用户可在豆包app或电脑版中生成独特歌曲，选择曲风、氛围和人声，歌词限制在200字以内。

🎵 提供11种不同音乐风格和多种情绪状态选择，包括民谣、嘻哈、R&B，用户可选择男声或女声演唱。

🎤 用户可一键生成完整歌词，下载并分享生成的歌曲和封面。音乐生成功能仍在不断完善中，豆包鼓励用户用音乐分享故事，激发创造力。

3、抠抠搜搜!ChatGPT 现在允许免费用户每天生成两张由 DALL-E3制作的图像

OpenAI宣布，免费用户现在每天可以使用DALL-E3模型生成最多两张图片，为用户带来更多创作可能性。DALL-E3能利用ChatGPT生成的提示制作图像，让用户更容易上手。新功能正在逐步推出，部分用户已体验到便捷的创作体验，激发更多创作者的灵感。

【AiBase提要:】

🌟 ChatGPT的免费用户每日可以生成两幅DALL-E3图片!

🎨 DALL-E3通过ChatGPT生成的提示，让图像制作变得更简单。

📅 此功能正在逐步推出，部分用户已能体验到这一新功能。

4、模型也套娃？苹果开源新型图像生成模型MDM

苹果公司最新推出的套娃扩散模型（MDM）展现了其强大的技术创新能力，通过套娃的概念实现了图像和视频的无缝生成，提升了图像质量和生成效率，为AI图像生成领域带来新的技术风潮。

【AiBase提要:】

🎨 MDM采用套娃扩散模型，实现不同分辨率下图像处理，生成高质量图像

🧠 MDM核心架构NestedUNet强化套娃概念，逐步处理小规模输入，提高学习和生成效率

✨ MDM在高分辨率图像生成上展现出色，具有零样本泛化能力，拓展了AI图像生成技术应用范围

详情链接:https://top.aibase.com/tool/ml-mdm

5、GPT-4o半夜突然发出怪叫?OpenAI发布32页安全报告

在一份新的“红队”报告中，OpenAI记录了对GPT-4o模型优势和风险的调查，并揭示了GPT-4o的一些奇特怪癖。报告描绘了通过各种缓解措施和保障措施变得更安全的AI模型的总体画面。

【AiBase提要:】

🔍 GPT-4o在高背景噪音环境中会模仿用户的语音

🔊 GPT-4o生成令人不安的非言语声音和音效

🎵 GPT-4o可能侵犯音乐版权

详情链接:

https://openai.com/index/gpt-4o-system-card/

https://techcrunch.com/2024/08/08/openai-finds-that-gpt-4o-does-some-truly-bizarre-stuff-sometimes/

6、字节跳动豆包大模型支持实时语音通话

字节跳动旗下云服务平台火山引擎宣布，豆包大模型已支持实时语音通话新功能。火山引擎提供的对话式 AI 实时交互解决方案简化了语音到文本和文本到语音的转换过程，实现了高效的语音数据采集、处理和传输，提供了卓越的智能对话和自然语言处理能力。火山引擎的大模型多模态实时交互服务为头部 AI 虚拟人物聊天应用提供了 AI 实时语音能力，带来了全新的互动体验。

【AiBase提要:】

🔥 火山引擎提供实时语音通话新功能，简化语音到文本和文本到语音转换过程，提供高效的语音数据处理和传输。

🚀 火山引擎RTC基于音频3A处理技术，解决“双讲”现象，确保语音识别准确性和实时性。

💡 火山引擎提供灵活、多样化的接入方案，满足不同企业的需求，为企业带来创新的AI实时音视频体验。

7、苹果或将推出Apple Intelligence高级AI服务

苹果公司计划推出全新的Apple Intelligence服务，这将是其在人工智能领域的大胆尝试。服务可能以每月高达20美元的价格向用户开放，显示了苹果对AI技术的信心和在服务领域的扩展野心。尽管尚未得到官方确认，但若实现，用户将享受到更高级、个性化的AI服务，巩固苹果在科技服务市场的领导地位。

【AiBase提要:】

🚀 苹果计划推出全新的Apple Intelligence服务，可能月费高达20美元。

💡 苹果有意将人工智能技术成本转嫁给用户，显示对AI技术的信心。

💰 可能整合进现有Apple One服务包中，进一步巩固苹果在科技服务市场的领导地位。

8、谷歌机器人挑战巴黎奥运正反手灵活转换，还打赢专业教练

作为一名乒乓球爱好者，我对谷歌机器人Agent在乒乓球比赛中的表现感到惊叹。这款机器人不仅具备高超的技能，还能与人类选手展开激烈对决，展现出机器人技术的巨大潜力。

【AiBase提要:】

🏓 谷歌发布首个达到人类竞技水平的机器人Agent，挑战乒乓球赛场。

🔥 机器人通过学习大量乒乓球状态数据，掌握了正手上旋球、反手瞄准等技能，展现出高速运动和实时精确性。

🤖 机器人在与不同技能水平选手的比赛中取得一定成绩，展现出与人类对手直接竞争的能力。

详情链接:https://sites.google.com/view/competitive-robot-table-tennis/home

9、逐际动力发布最新人形机器人CL-1可以帮快递站搬货了

逐际动力公司最新发布的人形机器人CL-1展示了出色的自主行走和执行任务能力，引领智能机器人领域发展。公司完成A轮融资，获得资本市场认可，阿里巴巴等巨头投资引人注目。CL-1成功展示了稳定抓取和搬运货物的能力，预示着中国智能机器人竞争力增强。未来，逐际动力有望在智能制造和物流领域发挥更大作用，带来创新和变革。

【AiBase提要:】

🤖 CL-1展示出色自主行走和任务执行能力

💰 逐际动力完成A轮融资，获得数十亿元人民币资金

🚚 CL-1稳定抓取和搬运货物，预示中国智能机器人竞争力增强

10、雷军:小米旗舰设备国际版将接入谷歌AI大模型Google Gemini

雷军宣布小米旗舰设备国际版将整合谷歌AI大模型Google Gemini，旨在提供更智能和直观的用户体验。这一举措将使小米手机拥有先进的多模态AI能力，提升用户体验和功能性。

【AiBase提要:】

🔍 Google Gemini是先进的多模态AI模型，能深入理解图像、音频、视频，并具备数学推理能力。

🚀 Gemini在多领域展现卓越性能，超过OpenAI的GPT-4模型，包括自然图像理解、音频处理、数学推理等方面。

📱 小米15系列国际版将搭载Google Gemini AI大模型，预计将在10月发布，为用户带来最新AI技术体验。

11、新血液!OpenAI 任命卡内基梅隆大学教授为董事会成员

OpenAI 近日宣布任命卡内基梅隆大学的 Zico Kolter 教授为董事会成员，为公司未来发展注入新活力。Kolter 教授在安全和安全委员会中将发挥重要作用，助力项目安全性和决策过程。他的加入契合 OpenAI 使命，强调技术发展的安全保障。