長(zhǎng)了眼睛和嘴，ChatGPT 開(kāi)始入侵物理世界

作者：連冉來(lái)源：極客公園 105009/27

向著「賈維OpenAI，又悄咪咪地放大招了。當(dāng)?shù)貢r(shí)間 9 月 25 日，OpenAI 在官網(wǎng)更新博客，宣布 ChatGPT 已經(jīng)具備看、聽(tīng)、說(shuō)的能力。這是 GPT-4 大型語(yǔ)言模型推出以來(lái)*的一次功能更新。從官方放出的應(yīng)用案例來(lái)看，通過(guò)手機(jī)

標(biāo)簽： ChatGPT 賈維斯 OpenAI

向著「賈維

OpenAI，又悄咪咪地放大招了。

當(dāng)?shù)貢r(shí)間 9 月 25 日，OpenAI 在官網(wǎng)更新博客，宣布 ChatGPT 已經(jīng)具備看、聽(tīng)、說(shuō)的能力。這是 GPT-4 大型語(yǔ)言模型推出以來(lái)*的一次功能更新。

從官方放出的應(yīng)用案例來(lái)看，通過(guò)手機(jī)攝像頭和麥克風(fēng)，ChatGPT 現(xiàn)在已經(jīng)能幫助人們解決實(shí)際問(wèn)題。例如用手機(jī)拍一下共享單車的照片，并且詢問(wèn)人工智能助手如何調(diào)節(jié)座椅，ChatGPT 就可以看懂圖片，并且給出相應(yīng)步驟。

隨著技術(shù)的快速迭代，生成式 AI 競(jìng)賽正在進(jìn)入了一個(gè)全新的階段——多模態(tài)之爭(zhēng)。在這個(gè)階段，各大科技公司紛紛推出了一系列新產(chǎn)品和功能，通過(guò)人工智能技術(shù)打破傳統(tǒng)搜索引擎和聊天機(jī)器人的局限性的同時(shí)，也為用戶帶來(lái)更加豐富和精準(zhǔn)的交互體驗(yàn)。

那么，「升級(jí)」了的 ChatGPT，是否能成為「賈維斯」一樣的AI助理，幫助人們打點(diǎn)生活了？而 OpenAI 又是怎么做到的？

ChatGPT長(zhǎng)了眼睛和嘴巴

生成式 AI 競(jìng)賽的下一個(gè)階段正在來(lái)臨——多模態(tài)之爭(zhēng)。

最近，meta 推出了 AudioCraft，用于通過(guò) AI 生成音樂(lè)；谷歌 Bard 和微軟 Bing 的聊天體驗(yàn)也已部署了多模態(tài)功能；亞馬遜也在借助 LLM 的力量來(lái)增強(qiáng)其 Alexa 數(shù)字助理（為 Echo 系列智能設(shè)備提供支持）的功能，9 月 25 日剛剛宣布斥資 40 億美元投資 OpenAI 的競(jìng)爭(zhēng)對(duì)手 Anthropic，后者是 Claude 2 聊天機(jī)器人的制造商；蘋果也在試驗(yàn)通過(guò) AI 生成語(yǔ)音，即 Personal Voice。

而在上周發(fā)布支持文本和排版生成的最新圖像生成模型 DALL-E 3 之后，當(dāng)?shù)貢r(shí)間周一晚，OpenAI 發(fā)布了《ChatGPT 現(xiàn)在能看、能聽(tīng)、能說(shuō)了》的公告，宣布對(duì) ChatGPT 進(jìn)行重大更新，使其 GPT-3.5 和 GPT-4 人工智能模型能夠分析圖像，并作為文本對(duì)話的一部分對(duì)圖像做出反應(yīng)。

此外，ChatGPT 移動(dòng)應(yīng)用程序還將增加語(yǔ)音合成選項(xiàng)，與現(xiàn)有的語(yǔ)音識(shí)別功能搭配使用時(shí)，將實(shí)現(xiàn)與人工智能助手的完全語(yǔ)言對(duì)話。

根據(jù)官網(wǎng)，ChatGPT 現(xiàn)在已經(jīng)具備了如下功能：

語(yǔ)音功能

OpenAI 在公告中稱語(yǔ)音功能由一個(gè)新的文本轉(zhuǎn)語(yǔ)音模型（text to speech）驅(qū)動(dòng)，只需要文本和幾秒的語(yǔ)音樣本就可以生成類似人聲的音頻。一方面，OpenAI 與專業(yè)配音演員合作創(chuàng)建了語(yǔ)音條，另一方面，OpenAI 還使用了自己開(kāi)源的語(yǔ)音識(shí)別系統(tǒng) Whisper，可以將用戶的語(yǔ)音轉(zhuǎn)錄為文字。

ChatGPT 已經(jīng)有了語(yǔ)音交互能力｜OpenAI

該功能推出后，用戶可以在應(yīng)用的設(shè)置中選擇語(yǔ)音對(duì)話，然后從「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五種不同的合成聲音中選擇一個(gè)，說(shuō)出他們想要的內(nèi)容，機(jī)器人就會(huì)使用所選的語(yǔ)音提供答案。例如，人們可以詢問(wèn)睡前故事，或者就餐桌上正在進(jìn)行的談話提出問(wèn)題。

不過(guò)，語(yǔ)音對(duì)話功能的使用可能面臨有一些限制。OpenAI 表示，該模型在轉(zhuǎn)錄英文文本方面表現(xiàn)出色，但在一些其他語(yǔ)言，特別是使用非羅馬字母的語(yǔ)言中表現(xiàn)不佳。因此，建議非英語(yǔ)用戶使用 ChatGPT 來(lái)進(jìn)行此類用途時(shí)要慎重。

圖像理解

OpenAI 表示，ChatGPT 中的新圖像識(shí)別功能允許用戶上傳一張或多張圖像，使用 GPT-3.5 或 GPT-4 模型進(jìn)行對(duì)話。

這些模型將其語(yǔ)言推理技能應(yīng)用于各種圖像，如照片、截圖和同時(shí)包含文本和圖像的文檔，人們只需點(diǎn)擊一張圖片，將其添加到聊天中，并提出潛在的問(wèn)題，ChatGPT 就會(huì)根據(jù)所附文本分析圖片，并給出答案。

它甚至可以圍繞該主題進(jìn)行前后對(duì)話。按照 OpenAI 的說(shuō)法，用戶可以上傳某物的圖片并詢問(wèn) ChatGPT 相關(guān)問(wèn)題——比如在旅行時(shí)拍一張地標(biāo)的照片，讓 ChatGPT 來(lái)講述景點(diǎn)的有趣之處；拍下冰箱和食品儲(chǔ)藏室的照片，找出晚餐要吃什么 (還可以問(wèn)一些后續(xù)問(wèn)題，以獲得進(jìn)一步的食譜)。

在官方提供的示例中，一張自行車的照片上傳到 ChatGPT 界面，之后詢問(wèn)后者如何將座位調(diào)低。ChatGPT 首先詢問(wèn)了自行車的型號(hào)，因?yàn)樽坏恼{(diào)整方式因車型而異。它詳細(xì)解釋了不同車型可能采用的快拆桿或螺栓的區(qū)別，并提供了相應(yīng)的步驟。

然后，官方制造了一點(diǎn)混淆，拍攝了一張螺栓的照片，并在圖中用官方的畫(huà)圖工具突出顯示，試圖讓 ChatGPT 分辨是螺栓還是快拆桿。ChatGPT 很快指出圖中所示的是螺栓，并建議用戶尋找內(nèi)六角扳手來(lái)解決問(wèn)題。

接著，官方拍攝了一張工具箱的照片，向 ChatGPT 詢問(wèn)到底是哪一個(gè)扳手。ChatGPT 再次表現(xiàn)準(zhǔn)確識(shí)別出所需的扳手，并清晰地指導(dǎo)用戶選擇正確的尺寸。這個(gè)示例清楚地展示了 ChatGPT 在解決實(shí)際問(wèn)題時(shí)的實(shí)用性和智能響應(yīng)。

在去年 3 月 GPT-4 發(fā)布時(shí)，OpenAI 就已展示了該模型解析文本和圖像的初步能力，很快，這些能力將成為 ChatGPT 使用中更常見(jiàn)的存在。

OpenAI 將在未來(lái)兩周時(shí)間里向?yàn)?Plus 和企業(yè)用戶推出上述功能。用戶可以在 iOS 和 Android 使用 ChatGPT 的語(yǔ)音合成功能，圖像識(shí)別功能則在網(wǎng)頁(yè)和 App 端均可用。

能力越大，責(zé)任越大

在 ChatGPT 發(fā)布近一年來(lái)，OpenAI 對(duì)其底層模型和界面進(jìn)行了多次更新。而任何生成式 AI 的進(jìn)步都需要考慮嚴(yán)肅的倫理和隱私問(wèn)題。

OpenAI 在公告中聲稱其目標(biāo)是開(kāi)發(fā)安全且有益的通用人工智能，「我們相信，逐步提供我們的工具，可以讓我們隨著時(shí)間的推移不斷改進(jìn)和完善風(fēng)險(xiǎn)緩解措施，同時(shí)也讓大家為未來(lái)更強(qiáng)大的系統(tǒng)做好準(zhǔn)備。對(duì)于涉及語(yǔ)音和視覺(jué)的高級(jí)模型來(lái)說(shuō)，這一策略越來(lái)越更加重要?！?/p>

畢竟，新語(yǔ)音技術(shù)能夠僅從幾秒的真實(shí)語(yǔ)音中創(chuàng)造逼真的合成語(yǔ)音，這為創(chuàng)造性應(yīng)用打開(kāi)大門的同時(shí)，也帶來(lái)了新的風(fēng)險(xiǎn)，比如惡意冒充公眾人物或進(jìn)行詐騙等。

為降低音頻深度偽造的風(fēng)險(xiǎn)，OpenAI 表示它已將語(yǔ)音合成功能的使用范圍限制在語(yǔ)音聊天，和某些已獲批準(zhǔn)的合作伙伴關(guān)系中。其中包括與流媒體公司 Spotify 的合作——Spotify 正在使用其背后的技術(shù)為平臺(tái)上的播客翻譯不同語(yǔ)言的內(nèi)容。Spotify 個(gè)性化副總裁齊亞德-蘇丹（Ziad Sultan）在一份新聞稿中說(shuō)：「通過(guò)與創(chuàng)作者本人的聲音相匹配，語(yǔ)音翻譯讓世界各地的聽(tīng)眾能夠以前所未有的真實(shí)方式發(fā)現(xiàn)新的播客，并從中獲得靈感。」

同樣，為了避免圖像識(shí)別帶來(lái)的隱私和準(zhǔn)確性問(wèn)題，OpenAI 還限制了機(jī)器人對(duì)輸入圖像中出現(xiàn)的人進(jìn)行分析和直接陳述的能力，其表示已經(jīng)「采取了技術(shù)措施，以限制 ChatGPT 分析和直接陳述個(gè)人信息的能力，系統(tǒng)還是應(yīng)當(dāng)尊重個(gè)人隱私」，但是真正的惡意利用情況還是要在它面向公眾推出后才能知道。

這次 ChatGPT 推出的語(yǔ)音交互和圖像識(shí)別功能，為聊天機(jī)器人帶來(lái)了更強(qiáng)的實(shí)用性，讓它們從簡(jiǎn)單的文本處理工具更貼近真實(shí)生活。

同時(shí)，這似乎也預(yù)示著未來(lái) AI 系統(tǒng)的發(fā)展方向——不僅要理解抽象的文字世界，還要能感知復(fù)雜的語(yǔ)音和圖像信息，甚至是物理世界，從而真正進(jìn)階達(dá)到人機(jī)交互的境界。

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開(kāi)信息，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問(wèn)題請(qǐng)及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點(diǎn)

國(guó)資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財(cái)富

專題

長(zhǎng)了眼睛和嘴，ChatGPT 開(kāi)始入侵物理世界

2023年中國(guó)經(jīng)濟(jì)面臨巨大挑戰(zhàn)，只有知道如何破局，才能縱橫股市

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

長(zhǎng)了眼睛和嘴，ChatGPT 開(kāi)始入侵物理世界

您可能感興趣的文章

長(zhǎng)了眼睛和嘴，ChatGPT 開(kāi)始入侵物理世界