大模型半月报第4期|Google发布基于Gemini15的两个新模型
2024-12-01

  这两款模型支持图像推理场景应用★■■■★,比如文档级别的理解(包括图表和图形)、图像字幕生成,以及视觉定位任务(如基于自然语言描述在图像中准确定位物体)★★★■★。例如★★◆,用户可以询问上一年中哪个月份他们的小企业销售最佳,模型能基于现有的图表推理并迅速提供答案。模型也可以通过地图推理★■◆■,回答如哪段徒步路线将变得更加陡峭,或地图上标记的特定小径距离等问题。11B和90B模型还能提取图像细节、理解场景,并生成简洁的描述★★★◆,用作图像的字幕。

  人类幼崽薅自己头发可真狠,宝宝■■◆◆◆★:手不知道是自己的■◆★★■■,头发也不知道是自己的★◆■,只有痛才知道是自己的

  该API用户定位在企业和开发人员◆★■★★■,通过创建语音代理,应用于客户支持、医疗语音转录、媒体转录、智能订单处理等场景。

  ✔ 新版的1◆★◆◆■.5 Pro和Flash整体素质提高,数学◆★★◆■■、长上下文和视觉上有大幅增加,但是更新后模型的默认输出长度比以前的模型短约5-20%。

  豪门悲喜夜:阿森纳5-2狂胜 巴萨1-2创53年耻辱 拜仁1-1绝平多特

  Snap公司发布了第五代SpectaclesAR眼镜,新版Spectacles升级了显示效果和电池续航时间。与前几代一样★■■★,这款产品尚未商业销售◆◆■■,而是面向开发者开放使用。开发者需通过Snap的Lens Studio申请,并支付99美元/月的费用,至少租赁一年。

  这两款是Meta最轻量、最高效的模型,可以在移动设备和边缘设备上运行。在多语言文本生成和工具调用能力上表现优异。这些模型赋予开发者能力,能够在设备端构建个性化■◆、自主的应用,且具有较强的隐私保护性■■◆◆★,确保数据不会离开设备。例如,应用程序可以帮助总结最近收到的10条消息◆★◆,提取关键的待办事项★★■,并通过工具调用直接发送日历邀请以安排后续会议。

  《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

  Sketch(矢量绘图应用,主要用于网页、图标以及界面设计)发布Smart Animate新功能■◆★◆◆,主要包括动画过渡,智能识别图层变化、自定义动画参数■■★、动画控制等具体功能,用于在设原型计中加入流畅的动画效果。通过Smart Animate,用户可以在多个画板之间对相同名称的图层进行动画过渡,使设计变得更加生动和具有互动性。

  Google发布了基于Gemini1★★★■★.5的两个新模型,分别是Gemini-1.5-Pro-002和Gemini-1◆■■★.5-Flash-002。Gemini 1★■◆★★.5系列模型专为在各种文本、代码和多模式任务中实现一般性能而设计。例如■★★★■,Gemini 模型可用于合成1000页PDF中的信息、回答有关包含超过1万行代码的存储库的问题、录制长达一小时的视频并从中创建有用的内容等等。

  Dream Machine API 提供了Keyframes规则(在动画序列中定义关键帧)和Camera Motion(一种将时间压缩的拍摄技术)功能★■★■,Keyframes可以通过图片创建炫目的过渡效果★■,Camera Motion可以通过简单的指令控制复杂的场景◆◆★,生成电影级的视觉效果■◆■◆■◆。相比其他视频生成模型★★■★■◆,Dream Machine在提供不同风格和题材的视频的基础上,视频更具有电影感,连贯性和艺术感更强。

  目前◆◆,Runway的API仅支持一个模型:Gen-3 Alpha Turbo★■,这是Runway旗舰模型Gen-3 Alpha的一个速度更快但功能较弱的版本◆◆。API提供两个套餐:Build计划和Enterprise计划。Build计划主要面向个人和小团队,而Enterprise计划则针对大公司和企业用户。定价采用积分制★◆■,每个积分价格为1美分,生成一秒钟视频需要5个积分。这意味着生成一秒视频的成本大约为5美分。

  新版本Spectacles AR眼镜在视场角(FOV)达到了46度◆★★■■■,相较于上一代的26.3度大幅提升■◆◆★★,用户能够看到更宽广的增强现实内容。此外,眼镜采用的波导显示器每度显示37个像素,显示的清晰度提升了约25%。

  ✔ 1■★★★◆★.5 Flash的速率限制提高了2倍★★◆◆■◆,1.5 Pro的速率限制提高了约3倍;

  当众吃掉4500万元◆★◆■“最贵香蕉★◆”◆★■★,90后币圈富豪孙宇晨:香蕉没了就像去中心化

  相比其他1◆★◆.5系列模型的其他版本,Pro和Flash系列主要有以下几个特点★◆:

  在Meta Connect大会上,Mata发布了Orion AR眼镜,该AR眼镜能与Meta自研的肌电手环相适配,拥有手部跟踪、眼部跟踪■◆★、头部追踪等多种交互方式■◆★◆◆★,用户戴上Orion可以刷网页、看短剧,甚至玩一些简单的3D游戏★★■。现阶段的Orion 眼镜仅用作演示和内部开发套件,大约仅生产1000副,不对外正式开售■★◆◆。

  OpenAI在Hugging Face(大模型共享和使用的开源平台)上发布了多语言大规模多任务语言理解(MMMLU)数据集■■★◆◆■。该数据数据集包含一系列问题,涵盖各种主题■◆★★◆、学科领域和语言■■。其结构旨在评估模型在不同研究领域中需要常识、推理★★■、解决问题和理解能力的任务中的表现。MMMLU的创建反映了OpenAI对测量模型实际能力的关注,尤其是在NLP研究中代表性不足的语言,纳入多种语言可确保模型在使用英语时有效,并能胜任全球使用的其他语言★■。

  Deepgram推出了AI语音代理API■◆★★,该API依赖于快速的语音识别和语音合成模型■◆★■◆★,支持实时的语音理解◆◆■■■、推理和对话生成。同时,可与不同的大语言模型如Llama 3、GPT-4集成★■◆◆◆,借助生成式AI进行复杂任务的对话管理、任务执行和信息检索。

  Luma AI首发视频生成模型Dream Machine,该模型可以通过文字或图片生成视频◆★。同时,API对全球免费开放■■,每个用户每月有30次免费生成的额度。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布■◆■★★,本平台仅提供信息存储服务。

  NotebookLM升级,可进行音频和视频文件总结,支持上传谷歌云盘、网站和Youtube连接,生成的音频播客现在支持分享◆◆◆★。

  Open AI上线了高级语音模式,新版增加了自定义指令、记忆功能★■、五种新声音以及改进的口音,改进了某些外国语言的对话速度、流畅度和口音。

  一场5-0让西甲变天,皇马跌至第3:54岁匪帅杀疯7连胜,2场轰11球

  Runway推出视频生成模型的API◆■★,该API适用于开发者和公司将Runway的生成式AI模型集成到第三方平台、应用程序和服务中。

  这些人事变动发生在OpenAI重组其非营利性结构,有可能转变为盈利性公司的背景下,重组可能会使首席执行官Sam Altman获得公司股权■★★◆◆。