GPT-4o语音功能引发网友热潮,高级语音模式展现人性化交互
GPT-4o的高级语音功能自上线以来,迅速吸引了大量网友的注意和测试。这款AI不仅能以中文流畅讲故事,还能在朗读美国女诗人艾米莉·狄金森的作品时表现出情感,甚至在阅读时"哭泣",让网友们感到惊讶。GPT-4o的语速测试也显示了其快速响应的能力,无论是快速数数还是模拟猫叫,都展现了其多才多艺的一面。
OpenAI COO谈及AI技术在企业中的广泛应用
OpenAI首席运营官表示,92%的《财富》500强公司正在使用ChatGPT Enterprise,这显示了AI技术在企业中的广泛应用和高接受度。随着AI技术的多模态能力发展,其应用将扩展到视觉推理和复杂问题处理,增强在多个领域的潜力。同时,AI的普及和发展预计将创造新的就业机会,而不是简单地取代现有工作,为劳动力市场带来正常的更替周期。
英伟达GR00T项目在机器人控制领域取得重大突破
英伟达GR00T项目通过Apple Vision Pro实现了人类操作员对人形机器人的第一人称控制,实时转换人类手部动作到机器人手部。项目利用RoboCasa生成式仿真框架和MimicGen技术,在虚拟环境中扩展演示数据,增加数据多样性,并形成大规模训练数据集,有效解决了机器人控制领域的数据难点问题。
斯坦福团队开发「AI达芬奇」机器人外科医生
斯坦福团队开发的达芬奇机器人通过模仿学习独立完成了外科手术的基本任务,如缝合、针头处理和提起组织。在实验中,该机器人展示了精细的操作能力,并成功应用相对动作公式克服了系统本体感知的不准确性。通过大规模模仿学习,达芬奇机器人能够在没有进一步运动学矫正的情况下,有效学习并执行复杂手术任务,为机器人辅助手术领域带来了新的突破。
元奖励语言模型「Llama 7B」实现自我改进
Meta、UCB、NYU联合提出的元奖励语言模型Llama 7B通过自我奖励机制和元奖励步骤,实现了自我评价和性能提升,超越了GPT-4的表现。该模型采用的元奖励方法允许自我评价其评价能力,并通过内嵌的meta-judge角色进一步提升自我改进能力。实验结果证明了无需人类反馈的自我改进模型的有效性,为AI自我学习和进化开辟了新路径。
谷歌开源Gemma 2 2B模型:小模型展现超越性能
谷歌近日开源了Gemma 2 2B,一个2亿参数的小型AI模型,其性能在对话任务中超越了参数量更大的GPT-3.5和Mixtral模型。Gemma 2 2B在LMSYS Chatbot Arena的评分高达1130分,显示出其卓越的性能和效率平衡。该模型特别适合端侧应用,甚至在iPhone 15 Pro上展示了快速运行的能力。谷歌还推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,增强了AI模型的安全性和透明度。Gemma 2 2B的成功挑战了“模型越大越好”的传统观念,表明通过先进的训练技术和数据集,即使是小型模型也能提供强大的性能,预示着AI领域的新趋势。
Claude团队因非法数据抓取引发争议
Claude团队的爬虫程序ClaudeBot因在24小时内非法访问iFixit服务器100万次而引发众怒。尽管iFixit采取了防爬措施并声明禁止爬取,ClaudeBot仍绕过防御成功执行数据抓取。这一事件凸显了数据安全和网络爬虫伦理的重要性,同时也引发了对非法数据抓取行为的广泛关注和讨论。
书生·浦语灵笔InternLM-XComposer 2.5支持24K图文输入输出
书生·浦语灵笔InternLM-XComposer 2.5模型在图文输入输出方面取得了突破,支持24K高分辨率的多模态图文输入输出,展现了其在图像视频理解和网页创作方面的高级能力。该模型采用PLoRA架构优化视觉内容理解,并提供量化、部署和微调的全面代码支持,为多模态理解领域带来了新的技术进步。
Midjourney v6.1版本图像生成技术取得重大进展
Midjourney v6.1版本在图像生成领域实现了显著的技术突破,特别是在人像、纹理细节和光线处理方面,使得生成的图像真实性大幅提升。新版本还提高了图像生成速度,引入了个性化模型和代码版本控制,优化了用户体验。尽管在群体场景生成方面仍存在挑战,但Midjourney v6.1的发布无疑为图像生成技术树立了新的标杆。
开源大模型的现实与争议
开源大模型领域近期成为热议焦点。尽管苹果、Meta等公司宣布开源其模型,但实际开放程度参差不齐。一些模型仅开放权重,而关键技术细节和数据集仍保密。这种有限的开放性引发了对开源真正意义的讨论,有声音认为真正的开源应包括全流程的透明和共享。同时,开源与闭源模型的共存被看作是推动AI技术发展的重要动力,市场最终将决定最合适的模式。
*内容来源于互联网信息整理,仅供参考