18无删减羞羞网站动漫-18未满禁止观看黄瓜视频-18岁以下禁止看很黄的视频-18岁免费网站-特级全黄一级毛片免费-特级全黄

首頁 > 生活分享 > 免費教學 > OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

發布時間:2024-09-16 16:27:04來源: 13041198719

OpenAI 發布 o1-mini:更經濟高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。

一、o1-mini 簡介

  • OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優勢

  • STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
  • 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
  • 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現

領域

基準測試

o1-mini

o1-preview

o1

GPT-4o

數學

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
  • 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
  • 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
  • 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標

GPT-4o

o1-mini

對有害提示的拒絕率(標準)

0.99

0.99

對有害提示的安全完成率(挑戰:越獄和邊緣案例)

0.714

0.932

對良性邊緣案例的合規性(“不過度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評估

0.22

0.83

人工來源的越獄評估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。

六、未來展望

  • OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
  • OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。

OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。

來源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發布,注重隱私保護的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
  • 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。

免費教學更多>>

微軟正在Edge中測試更深入的Copilot集成 蘋果下周新款爆料:iPhoneSE4與iOS18.4要來了 華為手機新玩法!原生鴻蒙接入 DeepSeek,開啟智能新體驗 華為三箭齊發!鴻蒙4.0+昇騰910B+DeepSeek,中國科技全面崛起 時隔2年半!蘋果最便宜平板將登場:但請調低預期 ipad11入門版要發布了?處理器和運行內存升級,其余基本上不變 iPad 11最快3月推出,有望搭載A17 Pro芯片并支持AI功能 “筆記本電腦性價比:花更少的錢,買更值的體驗!” 三星新專利曝光:智能戒指將實現多設備交互,劍指蘋果 三星 Galaxy S25 評測:沒有驚喜,但很有趣 聯想問天 WA7880a G3:多元算力 高效節能鑄就智算底座 新能源=電動車?吉利官宣2款甲醇與汽油靈活配比的“超醇電混”車即將殺到 新能源電改將落地,多光伏組件廠商準備漲價 上汽集團2025年1月銷量實現“開門紅”,終端交付35.3萬輛 零跑汽車的今生前世:從零開始,一場技術狂人的造車夢 配備8295芯片,五座布局,零跑C10實力評測 2025年零跑汽車要大展身手了,計劃推出 6 款新車 小鵬汽車2025年推高階自駕,未來出行新選擇 小鵬汽車2025年底將推真L3級別軟件和硬件冗余能力的自動駕駛 試駕2024款理想L8:為全家人打造智能移動家 蔚來螢火蟲純電小車內飾曝光,配置豐富且注重操控與安全 特斯拉、蔚小理等爭著推的免息購車,我研究透了 2024年度智能駕駛系統Top5:誰才是真正的「老司機」? 深藍S07對比比亞迪宋PLUS DM-i:全面解析智能駕駛差異 深藍發布全場景智駕方案,攜手華為讓智能駕駛進入普及階段 深藍汽車與華為簽署全面深化業務合作 全場景智能駕駛解決方案發布 從電商之都到AI新貴:為什么很多前沿事物都誕生在杭州? 南極電商:受春節假期和物流因素影響,日均數據有所回落 2025直播電商:風口之上,駛向何方? 第五消費時代,拼多多、小紅書等企業崛起探秘
主站蜘蛛池模板: 国产在线欧美日韩一区二区 | 一区二区三区高清视频在线观看 | 在线国产高清 | 麻豆视频网 | 成人影库| 婷婷伊人久久 | 日本黄色小视频在线观看 | 一区二区3区免费视频 | 欧美一级二级三级视频 | 欧美精品bt天堂在线观看 | 免费四虎永久在线精品 | 欧美精18videosex性欧美 | 精品久久久久久国产 | 国产69精品久久久久777 | 久久精品视频日本 | 黄色直接观看 | 国产在视频线精品视频www666 | 国产在线观看不卡免费高清 | 国产精品极品美女免费观看 | 中文字幕在线网站 | 色精品视频 | 色爱综合网网站在线观看 | 这里只有精品在线播放 | 久久综合伊人77777 | 亚洲精品第1页 | 国产精品久久久久久一区二区 | 一级毛片免费完整视频 | 成人97在线观看免费高清 | 大桥未久日韩欧美亚洲国产 | 国产91久久久久久久免费 | 国产日产欧产麻豆精品精品推荐 | 亚洲一区二区三区免费在线观看 | 伊人色网 | 什么网站可以看毛片 | 最新孕交videosgratis | 91亚洲免费 | 91精品在线观看视频 | 国产成人精品精品欧美 | 亚洲丝袜一区二区 | 成人毛片高清视频观看 | 亚洲精品人人 |