Sora的視頻生成能力:
· Sora 能夠生成提供圖像和提示作為輸入的視頻。
· Sora 還能夠在時間上向前或向后擴展視頻。比如多個視頻都是從生成的視頻片段開始向后延伸的。因此,幾個視頻的開頭都不同,但所有視頻的結(jié)局都是相同的。使用此方法向前和向后擴展視頻以產(chǎn)生無縫的無限循環(huán)。
· 擴散模型啟用了多種根據(jù)文本提示編輯圖像和視頻的方法。將其中一種方法 SDEdit,?32應(yīng)用于 Sora。這項技術(shù)使 Sora 能夠零鏡頭地改變輸入視頻的風(fēng)格和環(huán)境。
· 還可以使用 Sora 在兩個輸入視頻之間逐漸進行插值,從而在具有完全不同主題和場景構(gòu)成的視頻之間創(chuàng)建無縫過渡。
· Sora 還能夠生成圖像。通過在時間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來實現(xiàn)這一點。該模型可以生成各種尺寸的圖像,分辨率高達(dá) 2048x2048。
Sora還有一些其他的特征:
· 3D 一致性: Sora 可以生成帶有動態(tài)攝像機運動的視頻。隨著攝像機的移動和旋轉(zhuǎn),人和場景元素在三維空間中一致移動。
· 長期連貫性(Long-range coherence)和物體持久性(Object permanence):是視頻生成系統(tǒng)面臨的重大挑戰(zhàn)之一,特別是在采樣長視頻時維持時間上的連續(xù)性。Sora通常能夠有效地處理短期和長期依賴關(guān)系,盡管并不總是如此。
· 與世界互動:Sora 有時可以用簡單的方式模擬影響世界狀況的行動。例如,畫家可以在畫布上留下新的筆觸,并隨著時間的推移而持續(xù)存在,或者一個人可以吃漢堡并留下咬痕。
· 模擬數(shù)字世界:Sora同樣能夠模擬人工過程,例如視頻游戲。在Minecraft中,Sora可以同時控制玩家的基本策略,還能高保真度地渲染游戲世界及其動態(tài)變化。通過使用提及“Minecraft”的字幕提示Sora,可以實現(xiàn)零樣本(Zero-shot)地激發(fā)這些能力。
Open AI 還透露了一些訓(xùn)練的大概過程:
· 將視覺數(shù)據(jù)轉(zhuǎn)換為Patches:探討了如何讓生成視覺數(shù)據(jù)的模型繼承LLM通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上訓(xùn)練,來獲得廣泛的能力的優(yōu)勢。不同于LLMs使用文本標(biāo)記,Sora模型使用了“視覺補丁”(Visual Patches)。之前的研究已經(jīng)顯示,對于視覺數(shù)據(jù)模型而言,補丁是一種有效的表現(xiàn)形式。我們發(fā)現(xiàn),對于訓(xùn)練多種類型視頻和圖像的生成模型而言,補丁是一種高效且可大規(guī)模擴展的表現(xiàn)形式。
· 視頻壓縮網(wǎng)絡(luò):訓(xùn)練了一個可以降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)以原始視頻作為輸入,并輸出在時間和空間上都經(jīng)過壓縮的潛在表示。Sora在這個壓縮的潛在空間中進行訓(xùn)練,并隨后生成視頻。還訓(xùn)練了一個相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。
· 時空潛在Patches:在處理一個壓縮后的輸入視頻時,會提取一系列的“時空補丁”(spacetime patches),這些補丁在這里起到了類似于變換器(Transformer)中的“標(biāo)記”(tokens)的作用。這種方法同樣適用于圖像處理,因為從本質(zhì)上講,圖像就是只有一幀的視頻。采用的基于補丁的表示方法,使得Sora能夠處理不同分辨率、時長和寬高比的視頻和圖像。
· 用于視頻生成的Scaling transformers:Sora是一種擴散模型;它主要的作用是,給定輸入的帶有噪聲的補?。ㄒ约叭缥谋咎崾具@樣的條件信息),Sora被訓(xùn)練來預(yù)測并還原出原始的“干凈”補丁。更為關(guān)鍵的是,Sora實際上是一個“擴散變換器”(diffusion transformer)。擴散變換器在視頻模型中也能有效擴展。隨著訓(xùn)練計算量的增加,樣本質(zhì)量顯著提高。
一些關(guān)于技術(shù)原理的補充閱讀:
· Open AI官方發(fā)布的技術(shù)報告,演示視頻基本都來自這里:https://openai.com/research/video-generation-models-as-world-simulators
· 這是構(gòu)成Sora基礎(chǔ)之一的Diffusion Transformer論文作者關(guān)于Sora的一些猜測和技術(shù)解釋:https://x.com/op7418/status/1758822875707154838?s=20
· 寶玉關(guān)于生成原理比較通俗的解釋:https://x.com/dotey/status/1758726880381862000?s=20
· Sora所有使用的相關(guān)技術(shù)對應(yīng)的論文合集:https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e
· SIY.Z的解讀有一些世界模型的歷史介紹:https://www.zhihu.com/question/644473449
· JimFan關(guān)于Sora訓(xùn)練素材來源的討論:https://x.com/DrJimFan/status/1758210245799920123?s=20
谷歌發(fā)布Gemini 1.5 Pro和開放?Ultra 1.0模型
谷歌在Sora之前幾個小時發(fā)布的內(nèi)容,也非常離譜了,100萬上下文長度可以支持1小時的視頻內(nèi)容、11小時的音頻內(nèi)容、3萬行代碼、70萬字的文字。RAG基本上不存在了,同時他們還測試了1000萬的上下文,錯誤率也不是很高。目前公開模型上下文長度最長的是Claude 2.1的20萬Token。
· Gemini 1.5基于Transformer和MoE架構(gòu)的研究和工程創(chuàng)新,提高了訓(xùn)練和服務(wù)的效率。
· Gemini 1.5 Pro是一個中等規(guī)模的多模態(tài)模型,適用于多種任務(wù),并引入了在長上下文理解方面的實驗性特性。
· Gemini 1.5 Pro在文本、代碼、圖像、音頻和視頻評估的綜合面板上的性能超過了Gemini 1.0 Pro,并且與1.0 Ultra在同樣的基準(zhǔn)測試上表現(xiàn)相當(dāng)。
· 此外,Gemini 1.5 Pro在進行長上下文窗口的測試中表現(xiàn)出色,在NIAH評估中,它在長達(dá)100萬個Token的數(shù)據(jù)塊中99%的時間內(nèi)找到了嵌入的文本。
里面還舉了一些可以提現(xiàn)上下文能力的例子:
· 它可以完整理解高達(dá)80 萬 Token 的 Three.js 代碼以及相關(guān)文檔庫。并根據(jù)提示找到對應(yīng)的代碼和示例完成教學(xué)和編碼任務(wù)。
· 多模態(tài)演示,可以從一部有 60 萬 Token 的電影中精確的找到截圖的時間戳以及所描述的內(nèi)容。
· 維克多·雨果的五卷本長篇小說《悲慘世界》(共1382頁,含有大約732,000個Token)。
它的多模態(tài)(multimodal)處理能力可以處理粗略地畫出一個場景,然后詢問“請看這幅圖畫中的情景。這個場景出現(xiàn)在書的哪一頁?”
谷歌還像泄露的文件描述的一樣將Bard更名為Gemini,同時推出了Gemini Advanced付費會員計劃,可以使用Ultra 1.0模型。
Gemini Advanced 現(xiàn)已在 150 多個國家和地區(qū)提供英語版本。
可以在安卓的Gemini應(yīng)用和iOS 的谷歌應(yīng)用使用Gemini Advanced。
同時Google Assistant 語音功能將會由Gemini驅(qū)動,這個真是大招,直接吊打 siri 。
Gemini 開始在美國的 Android 和 iOS 手機上推出英語版本,并將在未來幾周內(nèi)全面推出。從下周開始,將能夠在更多地點以英語、日語和韓語訪問它,并且即將推出更多國家/地區(qū)和語言。
公告地址:https://blog.google/products/gemini/bard-gemini-advanced-app/
Stability AI發(fā)布新架構(gòu)圖片生成模型Stable Cascade
Stability AI同時進行著多條線還又開新坑,發(fā)布了一個基于Würstchen架構(gòu)的新的圖片生成模型Stable Cascade,這個模型由三部分構(gòu)成使得訓(xùn)練和微調(diào)變得非常容易。
他們還提供了了微調(diào)、ControlNet 和 LoRA 訓(xùn)練腳本。
除了標(biāo)準(zhǔn)的文本到圖像生成之外,Stable Cascade 還可以執(zhí)行圖像變化和圖像到圖像生成。
會跟隨模型一起發(fā)布的 Controlnet:
· 局部重繪:輸入與文本提示附帶的蒙版配對的圖像。該模型根據(jù)提供的文本提示填充圖像的遮罩部分。
· Canny Edge:通過跟蹤輸入到模型的現(xiàn)有圖像的邊緣來生成新圖像。該測試也可以從草圖進行擴展。
· 2x超分辨率:也可用于C階段生成的潛在空間。
社區(qū)的支持也很快,ComfyUI已經(jīng)官方支持了Stable Cascade的使用可以在這里查看工作流和對應(yīng)的教程:https://gist.github.com/comfyanonymous/0f09119a342d0dd825bb2d99d19b781c
這里是可以在A1111 Web UI上使用Stable Cascade的插件:https://github.com/blue-pen5805/sdweb-easy-stablecascade-diffusers
還有人在第二天就實驗了Stable Cascade的微調(diào)流程,發(fā)了第一個微調(diào)的模型:https://civitai.com/models/306144
· 將把V6設(shè)為默認(rèn)版本(目的是對服務(wù)器進行壓力測試)
· Niji V6的平移、縮放及區(qū)域變更功能現(xiàn)已推出
· 對V6核心模型進行了更新,在細(xì)節(jié)表現(xiàn)、對比度和整體連貫性上都有所提升
· Midjourney alpha測試版網(wǎng)站現(xiàn)在開放了1000張圖片生成賬號的使用權(quán)限,這里嘗試:https://alpha.midjourney.com/
· 生成圖像的速度可能提高一倍,v6 將配備渦輪模式
· 正在開發(fā)下一版本的風(fēng)格調(diào)節(jié)器以及提升一致性
· 網(wǎng)站將引入社交群組功能!包括團隊創(chuàng)建和實時社交互動,在向所有用戶開放網(wǎng)站前,將制作入門視頻和流程,三月全量開放新網(wǎng)站。
· 正在訓(xùn)練視頻模型,進展比較慢尚不確定何時完成
· V7 版本模型已經(jīng)開始訓(xùn)練
· ControlNet目前還未達(dá)到標(biāo)準(zhǔn),將繼續(xù)訓(xùn)練
· 正在研究如何實現(xiàn)角色的一致性
其他動態(tài)?
· Runway GEN:48 AI 電影大賽公布了獲勝者,這個視頻巧妙的用游戲?qū)υ挼男问秸宫F(xiàn)劇情:https://x.com/iamneubert/status/1758493728925270022?s=20
· Open AI 公布了一個 Open AI論壇,參與者可以參加 open AI 組織的線上和線下活動并且同 Open AI 員工深入交流,更有機會可以提前測試一些相關(guān)功能(Sora?)https://forum.openai.com/
· Open AI 取消了 GPT-4 Turbo 的每日調(diào)用限制并將總的調(diào)用限制提高了一倍:https://platform.openai.com/docs/guides/rate-limits/usage-tiers
· Open AI 公布了幾個他們封禁的跟國家相關(guān)的惡意使用者,其中中國兩個、俄羅斯一個、朝鮮一個、伊朗一個:https://openai.com/blog/disrupting-malicious-uses-of-ai-by-state-affiliated-threat-actors
· Meta 發(fā)布了一個音頻生成模型與傳統(tǒng)的逐字生成模型相比速度快了 7 倍:https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/?
· MAGIC-ME 字節(jié)發(fā)布了一個針對視頻生成中人物身份保持的項目??梢栽谝曨l生成中保持對應(yīng)輸入圖像人物的身份特征:https://magic-me-webpage.github.io/
· OpenAI 一直在積極開發(fā)一款網(wǎng)絡(luò)搜索引擎,這一動作預(yù)示著這家獲得微軟支持的創(chuàng)業(yè)公司將與 Google 展開更為直接的競爭:https://www.theinformation.com/articles/openai-develops-web-search-product-in-challenge-to-google
· Open AI早期員工Andrej Karpathy再次從Open AI離職自己創(chuàng)業(yè):https://x.com/op7418/status/1757626444258435182?s=20
· ChatGPT 增加了記憶功能及控制選項,可以記住你在對話中提到的內(nèi)容,可以控制打開或者關(guān)閉,也可以有無記憶對話的臨時聊天選項:https://openai.com/blog/memory-and-new-controls-for-chatgpt
· ElevenLabs 現(xiàn)在可以在語音庫中分享自己的聲音模型,并獲得收益:https://elevenlabs.io/payouts
· 蘋果發(fā)布了一個可以利用LLM 生成動畫的框架Keyframer。Keyframer允許用戶通過自然語言提示來創(chuàng)建靜態(tài)2D圖像的動畫:https://arxiv.org/pdf/2402.06071.pdf
· Vercel集成了一堆AI服務(wù)包括Perplexity、Replicate、ElevenLabs等,現(xiàn)在利用Vercel開發(fā)AI項目更加方便了,直接一步到位:https://vercel.com/blog/ai-integrations
· ARC瀏覽器新增了一個功能,可以直接自動將你打開的一堆標(biāo)簽頁按功能分組:https://x.com/browsercompany/status/1755252656078024976?s=20
· RMBG v1.4一個新的背景分割開源模型,效果非常好:https://huggingface.co/briaai/RMBG-1.4
產(chǎn)品推薦?
LangChain 的 LLM 應(yīng)用開發(fā)平臺LangSmith正式開放給了所有人使用,同時宣布獲得了Sequoia 領(lǐng)投的 A 輪融資。LangSmith 是一個統(tǒng)一的 DevOps 平臺,用于開發(fā)、協(xié)作、測試、部署和監(jiān)控LLM應(yīng)用程序。新的品牌形象和網(wǎng)站搞得也很不錯。
本地LLM運行工具 Ollama 推出了 windows 版本。以下是如何開始:
· 下載+雙擊安裝
· 打開最喜歡的終端并輸入 ollama run llama2
Enchanted是一款開源的、與Ollama兼容的、適用于macOS/iOS/iPad的優(yōu)雅聊天應(yīng)用程序。它專為私有部署的模型如Llama 2、Mistral、Vicuna、Starling等設(shè)計,本質(zhì)上是一個連接到自己的Ollama模型的ChatGPT應(yīng)用界面。
試了一下Leiapix 這個可以提取圖片深度信息,然后生成運鏡視頻的產(chǎn)品。效果還挺好的,自定義選項也很豐富,一些簡單的場景運鏡視頻不用視頻生成工具用這個也挺好。直接上傳圖片然后再右側(cè)調(diào)整選項就行。
Chat with RTX:英偉達(dá)的本地LLM聊天程序
英偉達(dá)發(fā)布了一個可以在 PC 使用的本地 AI 聊天軟件Chat with RTX。
可以使用 Chat with RTX 連接到你的內(nèi)容的自定義聊天機器人。使用 RAG 和 TensorRT-LLM 在 RTX 加速的 PC 上本地進行聊天。
stable-diffusion-webui-forge:另一個Web UI界面
Controlnet 的作者lllyasviel,他跟 UI 界面杠上了,除了之前他維護的Fooocus之外還新發(fā)布了一個 Web UI Forge。
這個新的 UI 跟原有的 Web UI 交互和樣式完全一致,但是解決了兩個 Web UI比較重要的問題:
首先是他大幅優(yōu)化了低顯存顯卡的顯存占用和推理速度,6G 顯存的顯卡推理速度會提高 60% 到 75%,顯存占用會降低800MB 到 1.5GB。
另一個是降低了一些 SD 支持項目在 Web UI的實現(xiàn)成本,使用 Unet Patcher,Self-Attention Guidance、Kohya High Res Fix、FreeU、StyleAlign、Hypertile 等方法都可以在大約 100 行代碼中實現(xiàn)。
Deforum Studio:Deforum?的Web版本應(yīng)用
早期 SD 視頻生成項目Deforum現(xiàn)在推出了 Web 版本的視頻生成服務(wù),相較于 WebUI 的插件版本網(wǎng)頁應(yīng)用更加的易用和穩(wěn)定。
同時內(nèi)置了相當(dāng)多的風(fēng)格和運鏡效果可以選擇。雖然現(xiàn)在已經(jīng)有很多視頻生成模型可以生成連貫且一致的效果了Deforum生成的這種風(fēng)格的視頻依然很有視覺沖擊力。
Chat GPT發(fā)布之初就放出Demo的UI設(shè)計稿自動生成應(yīng)用,終于向所有用戶開放了。支持文字圖片以及線稿直接生成UI設(shè)計稿。
Dittto是一個利用人工智能技術(shù)幫助改善網(wǎng)站首頁文案的服務(wù)平臺。該平臺指出,不良的文案會嚴(yán)重影響轉(zhuǎn)化率,因為有35%的用戶在未滾動頁面前就離開,而57%的閱讀時間發(fā)生在頁面的上半部分,用戶僅需50毫秒就能對網(wǎng)站形成初步判斷。Dittto提供的解決方案包括復(fù)制成功品牌的文案以提高轉(zhuǎn)化率、網(wǎng)站定位審核以清晰展示客戶價值、自動發(fā)現(xiàn)適合產(chǎn)品的品牌聲音,并從50多個頂級SaaS品牌中選擇模仿對象。此外,Dittto還提供了一個英雄文案AI工具,該工具經(jīng)過訓(xùn)練,能夠在幾次點擊內(nèi)生成準(zhǔn)備就緒的文案,并設(shè)有保存變體庫以便日后進行A/B測試。
Rizzle:從博客、播客內(nèi)容創(chuàng)建視頻
Rizzle AI 是一個無需編輯的視頻創(chuàng)作平臺,它與 GettyImages 合作,為創(chuàng)作者提供了訪問全球最大的無版稅庫存媒體庫的能力。這個庫存包含超過5億張圖片和視頻,這些資源都是專為 Rizzle 平臺的用戶準(zhǔn)備的,并且擁有版權(quán)保護。
精選文章?
偉大的巫師經(jīng)常獨自行事,只要空氣中的元素依然回應(yīng)他的咒語和呼喚
“如果一個人的領(lǐng)域知識廣度足以覆蓋整個行業(yè),而深度恰好多于「能夠評價任務(wù)執(zhí)行的好壞與否」的程度,就可以比較好地操縱 AI 去完成那些本來需要好幾個不同職責(zé)的人去完成的事情。”
“知識就在那,但是需要你念出咒語才能讓它顯形。”
Logan Kilpatrick Open AI?開發(fā)者關(guān)系主管的專訪
Logan Kilpatrick Open AI 開發(fā)者關(guān)系主管的專訪,幾個關(guān)于他們的招聘理念和 Open AI 以及 ChatGPT 的發(fā)展的部分可以關(guān)注一下:
OpenAI之所以能迅速推進項目并交付高品質(zhì)的產(chǎn)品,關(guān)鍵在于聘請那些具備強烈的自主驅(qū)動力和緊迫感的人才。
這種做法讓OpenAI能夠超越常規(guī)流程,培養(yǎng)出一種文化氛圍,員工在這里可以迅速洞察并主動解決問題,而無需長時間等待審批或達(dá)成共識。
要想從ChatGPT那里獲得更精準(zhǔn)的答案,關(guān)鍵是要提出具體問題,并為問題提供更多背景信息。不是簡單地提問,而是像與人交談一樣提供詳細(xì)信息。
由于AI本身不具備背景知識,因此通過詳細(xì)的問題指引它是非常關(guān)鍵的。這種做法不僅能提升即時的回答質(zhì)量,也有助于隨著時間推移逐漸培養(yǎng)出更智能的AI系統(tǒng)。
GPT的出現(xiàn)開啟了一個“智能體未來”的可能性,在這個未來中,我們可以將復(fù)雜的任務(wù)交由AI工具來完成。目前,我們向GPT提出問題,得到快速回應(yīng)后就結(jié)束互動。
隨著GPT技術(shù)的發(fā)展,我們將能夠讓它們承擔(dān)更加復(fù)雜和細(xì)致的任務(wù),并在任務(wù)完成后向我們匯報。例如,我們可能會讓AI智能體花費數(shù)小時撰寫一篇引用了眾多參考文獻和案例研究的詳盡博客文章,并詳細(xì)說明在撰寫過程中所做的權(quán)衡選擇。
Josh Miller關(guān)于后?URL?時代(人工智能時代)的互聯(lián)網(wǎng)暢想
這個東西可能很多人都想過,很早就有人提出來未來的 UI 會是一個對話頁面加上各種匹配數(shù)據(jù)展示樣式的組件來完成,Josh Miller這個更近一步解決了內(nèi)容來源的問題,由網(wǎng)站自己暴露對應(yīng)內(nèi)容的元數(shù)據(jù),然后在瀏覽器或者系統(tǒng)完成整合。
elvis寫了一篇非常詳細(xì)的文章來介紹 RAG 生態(tài)的所有部分,還會添加清晰易懂的參考文獻列表以及技術(shù)性編程教程幫助提高 RAG 系統(tǒng)的性能。
主要內(nèi)容來自《大語言模型的檢索增強生成:一項調(diào)查》這篇論文,我簡要總結(jié)了一下文章每個部分的內(nèi)容,感興趣可以去看原文:
檢索增強生成(Retrieval Augmented Generation, RAG)技術(shù),旨在通過結(jié)合外部知識源,如數(shù)據(jù)庫,來提升大語言模型(LLMs)的能力。它主要用于解決領(lǐng)域知識的缺失、事實性問題和生成錯誤。RAG特別適用于那些需要最新知識、又不需針對每個特定任務(wù)重復(fù)訓(xùn)練LLM的應(yīng)用場景,比如對話代理和知識密集型任務(wù)。
從軟件范式到模型范式,什么是?AI-Native?時代的大產(chǎn)品
這篇文章討論了從軟件范式到模型范式的轉(zhuǎn)變,探討了AI-Native時代的大產(chǎn)品。作者以信息商品經(jīng)濟的視角對AI-Native產(chǎn)品進行了定義、分析和分類,提出了實現(xiàn)“GenAI大產(chǎn)品”和評估AI-Native程度的方法。文章指出AI-Native意味著產(chǎn)品范式向模型范式轉(zhuǎn)移,強調(diào)了算法擬合度、可訓(xùn)練數(shù)據(jù)占比和功能prompt比率是判斷產(chǎn)品是否AI-Native的關(guān)鍵維度。最終,文章提出了AI-Native產(chǎn)品的可能信仰——“產(chǎn)品智能主義”,探討了連續(xù)性對AI-Native產(chǎn)品智慧的衡量標(biāo)準(zhǔn)。
在人工智能領(lǐng)域,大型語言模型(LLM)正在徹底改變公司的產(chǎn)品體驗和內(nèi)部運營。這類基礎(chǔ)模型代表了一種新型計算平臺,并且引入了提示工程,取代了軟件開發(fā)的部分方面,使軟件能力的范圍迅速擴展。在生產(chǎn)環(huán)境中有效利用LLM至關(guān)重要,但由于LLM的新穎性和復(fù)雜性,這對大多數(shù)公司來說是一個獨特的挑戰(zhàn)。與傳統(tǒng)軟件和非生成式機器學(xué)習(xí)模型不同,LLM的評估過程更主觀、難以自動化,并且系統(tǒng)出錯的風(fēng)險更高。
LLM應(yīng)用程序的基本構(gòu)成包括以下幾個組件:LLM模型(核心推理引擎)、提示模板(模型的樣板指令)、數(shù)據(jù)源(提供模型所需上下文的來源,如檢索增強生成)、內(nèi)存(歷史交互記錄)、工具(允許模型與外部系統(tǒng)交互)和代理控制流(允許模型通過某些停止標(biāo)準(zhǔn)解決任務(wù)的多步驟生成)。
探討了生成式人工智能(Generative AI,簡稱genAI)如何通過智能內(nèi)容增強和個性化提升用戶體驗。文章首先指出,ChatGPT等聊天機器人作為接入生成式AI特性的便捷入口,其簡單性允許它們無縫集成到各種數(shù)字平臺中。然而,這些技術(shù)的應(yīng)用范圍遠(yuǎn)不止于對話界面。通過將這些先進模型的APIs融入到產(chǎn)品特性中,可以提供稱為“AI增強特性”的重大價值增強。
文章強調(diào),在設(shè)計涉及內(nèi)容生成或展示的特性時,考慮生成式AI的潛在作用至關(guān)重要。GPT和Claude等模型的出現(xiàn)大幅降低了內(nèi)容創(chuàng)作的成本,使得復(fù)雜的大型語言模型(LLM)變得觸手可及。通過恰當(dāng)?shù)奶崾?,文本可以輕松地被重塑、擴展或轉(zhuǎn)換,激發(fā)創(chuàng)造性的可能性。
a16z文件討論了人工智能的第一個殺手級用例,即制作創(chuàng)意內(nèi)容。它重點介紹了致力于內(nèi)容生成和編輯的各種公司,例如 Midjourney、DALL-E、Runway、Pika、ElevenLabs 等。該文件還提到了該領(lǐng)域未來的潛在發(fā)展,包括跨不同模式的獲勝產(chǎn)品、使開源模型易于訪問的應(yīng)用程序以及用于創(chuàng)建和發(fā)布內(nèi)容工作流程的平臺。最后,它邀請該領(lǐng)域的相關(guān)人士伸出援手,并提供了文件中提到的公司名單。
2024年人工智能(AI)就業(yè)市場的發(fā)展趨勢和個人加入Cohere公司的原因是本文的主要內(nèi)容。文章從作者作為一名專注于自然語言處理(NLP)的歐洲研究員的角度出發(fā),分享了他對AI就業(yè)市場的一些宏觀趨勢觀察和個人職業(yè)選擇的思考。
AI就業(yè)市場趨勢
1.研究變得更加應(yīng)用化:與過去相比,當(dāng)前的ML和NLP問題更多地集中在應(yīng)用研究上,基礎(chǔ)研究與應(yīng)用研究之間的界限逐漸模糊。例如,BERT模型的引入極大提高了Google搜索的質(zhì)量,而大型語言模型(LLMs)的出現(xiàn)則開啟了新應(yīng)用的大門。
2.創(chuàng)業(yè)公司成為PhD以外的選擇:鑒于當(dāng)前研究問題的應(yīng)用性質(zhì),加入創(chuàng)業(yè)公司成為了接觸前沿AI工作的另一條路徑。創(chuàng)業(yè)公司特別是早期的創(chuàng)業(yè)公司,能夠提供快速學(xué)習(xí)和實踐的機會,盡管這可能需要個人對工作內(nèi)容有一定的靈活性。
3.機器學(xué)習(xí)變得更加封閉和兩極分化:盡管機器學(xué)習(xí)社區(qū)過去以開放性著稱,但最近的趨勢顯示,開源AI的先鋒如OpenAI和Google開始減少關(guān)于其模型的信息發(fā)布。這種趨勢可能會阻礙AI發(fā)展的進步。
4.研究集中在大型項目上:隨著LLMs的出現(xiàn),參與一個項目的作者數(shù)量顯著增加。大型項目不僅需要研究人員,還需要強大的軟件工程師團隊以及多方面的專業(yè)知識。
5.更多公司,更多機會:LLMs的興起帶來了一波新公司的浪潮,這些公司利用這項技術(shù)或?qū)⑵湔系疆a(chǎn)品中。這為AI領(lǐng)域的專業(yè)人士提供了更多的職業(yè)選擇。
探討了設(shè)計領(lǐng)域面臨的變革,特別是在虛擬現(xiàn)實(VR)、生成式人工智能(AI)和大型語言模型(LLMs)等技術(shù)的推動下,設(shè)計師如何適應(yīng)這些變化以保持相關(guān)性。文章強調(diào)了三個核心觀點:擁抱變化、在不變中尋找根基、以模型作為設(shè)計的對象。
首先,作者提倡擁抱技術(shù)和范式的變化,鼓勵設(shè)計師通過實踐新技術(shù)來學(xué)習(xí)其局限性和能力,而不是僅僅從理論上了解。這要求設(shè)計師持續(xù)學(xué)習(xí)和專業(yè)發(fā)展,不僅僅是在設(shè)計技藝上,也包括其目的和方向。通過比喻鐵匠轉(zhuǎn)變?yōu)槠嚈C械師的故事,文章強調(diào)了適應(yīng)變化的重要性。
其次,文章指出盡管技術(shù)不斷進步,但某些事物如人性和社會基礎(chǔ)結(jié)構(gòu)等仍將保持不變。設(shè)計師應(yīng)該在這些永恒的事物上建立自己的工作,利用新技術(shù)和方法來改善這些不變的方面。作者建議閱讀古典文學(xué)作品來深入理解人性和社會,因為這些作品揭示了跨越不同文化和時代的普遍真理。
最后,文章提出將模型作為設(shè)計的對象。模型是關(guān)于世界如何組織和運作的思想,描述了構(gòu)成整體的部分、綁定它們的結(jié)構(gòu)以及部分之間的行為方式。設(shè)計師應(yīng)該定義系統(tǒng)模型,以確保用戶能夠通過系統(tǒng)以相對較少的努力完成他們需要做的事情。這要求設(shè)計師與抽象概念保持健康的關(guān)系,這些抽象概念指導(dǎo)UI層面的設(shè)計,并由其他人(可能是AI)執(zhí)行。
作者探討了大型語言模型(LLMs)作為評估者的概念,即“LLM作為評判”。這篇文章是對之前介紹評估LLMs的早期基準(zhǔn)和指標(biāo)的博客的延續(xù),并指出了這些評估方法的問題。文章進入了自然語言處理(NLP)的一個新研究領(lǐng)域,該領(lǐng)域?qū)W⒂陂_發(fā)更準(zhǔn)確地衡量LLMs生成能力的指標(biāo),并引入了LLMs作為評估者的角色,這種方法被稱為基于LLM的自然語言生成(NLG)評估。
文章提到了使用靜態(tài)基準(zhǔn)來評估LLMs的問題,例如基準(zhǔn)泄露,即評估基準(zhǔn)中的數(shù)據(jù)無意中成為模型訓(xùn)練集的一部分,這可能會顯著夸大模型的性能指標(biāo),提供對其實際能力的誤導(dǎo)性表示。為了解決這個問題,文章探討了使用最先進的LLMs(如GPT-4)作為人類評估的替代品,因為這些模型通常經(jīng)過RLHF訓(xùn)練,已經(jīng)表現(xiàn)出強烈的人類一致性。這種方法被稱為LLM-as-a-judge,有三種類型的LLM-as-a-judge機制,每種都旨在增強評估過程。
1.成對比較:LLM被提出一個問題和兩個可能的答案,然后任務(wù)是確定哪個答案更優(yōu)或兩個答案是否同等優(yōu)秀。
2.單一答案評分:這種方法簡化了過程,要求LLM為一個答案分配分?jǐn)?shù),而不進行直接比較。
3.參考指導(dǎo)評分:在這種方法中,LLM被給予一個參考解決方案以及它需要評估的答案,這在需要客觀正確性或精確性的情況下特別有用。
文章還指出了使用LLMs作為評估者的準(zhǔn)確性問題和可能影響評估的固有偏見。為了解決這些問題,文章介紹了Prometheus,這是一個專門的開源評估語言模型,擁有130億參數(shù),能夠根據(jù)用戶提供的定制評分標(biāo)準(zhǔn)來評估任何給定的長文本。Prometheus在與人類評估者的評分相關(guān)性方面表現(xiàn)出色,其Pearson相關(guān)系數(shù)為0.897,與GPT-4(0.882)相當(dāng),并且大大優(yōu)于ChatGPT(0.392)。
設(shè)計未來?使用AI增強人類認(rèn)知和創(chuàng)造力
最近的研究結(jié)合了生物反饋工具和人工智能(AI),旨在提高設(shè)計師的元認(rèn)知技能。元認(rèn)知是指對自己的思考過程進行思考,以批判性地評估設(shè)計,識別知識空白,并適應(yīng)創(chuàng)造性方法。文章探討了如何通過監(jiān)測我們的元認(rèn)知活動,比如評估情緒反應(yīng),來幫助導(dǎo)航設(shè)計不確定性并促進創(chuàng)新。文章重點介紹了康奈爾大學(xué)最近研發(fā)的“多重自我”工具,該工具通過神經(jīng)數(shù)據(jù)提供設(shè)計師情緒狀態(tài)的實時生物反饋。通過將這些通常是內(nèi)部信息外化,“多重自我”旨在激發(fā)有價值的自我反思和擴展創(chuàng)造性探索。
設(shè)計中的元認(rèn)知監(jiān)控是一個迭代過程,涉及在探索不同選項(發(fā)散思維)和評估/綜合這些想法(收斂思維)之間來回進行。在探索階段,設(shè)計師可能會對他們的想法是否真的有效或成功感到不確定。元認(rèn)知監(jiān)控特別涉及評估自己的知識、思想和任務(wù)進展。對于設(shè)計師來說,元認(rèn)知有助于他們調(diào)節(jié)不確定性,并將其保持在創(chuàng)造力的最佳區(qū)域。它可以幫助評估不同的方法,識別知識空白,管理不確定性并產(chǎn)生更多創(chuàng)造性的解決方案。
“多重自我”工具使用腦電圖(EEG)傳感器來檢測與情緒反應(yīng)相關(guān)的大腦活動。該工具應(yīng)用機器學(xué)習(xí)到原始EEG數(shù)據(jù),以預(yù)測用戶的情緒價值(積極與消極的感覺)和喚醒(興奮/參與)。該工具的目標(biāo)是幫助設(shè)計師通過使用AI和生物傳感器更好地感知他們當(dāng)下的情緒。在虛擬設(shè)計會話期間,設(shè)計師看到一個在他們視野中的2D圖表上移動的點,該點的位置表示他們預(yù)測的情緒,允許他們在操作虛擬設(shè)計時跟蹤變化。
研究人員通過與24名參與者(包括10名擁有超過3年建筑設(shè)計實踐的專家和14名經(jīng)驗較少的新手)測試“多重自我”的可行性。他們首先通過觀看室內(nèi)建筑空間的全景360度圖像并記錄EEG來評估參與者的基線情緒反應(yīng)。然后,他們使用視覺量表自我報告他們的價值和喚醒感。這些數(shù)據(jù)被用來訓(xùn)練個性化的機器學(xué)習(xí)分類模型,以從后續(xù)的EEG信號中預(yù)測每個參與者的高、中或低水平的價值和喚醒。
盡管這種方法仍然是新穎和實驗性的,但這項研究強調(diào)了我們可以如何將先進技術(shù)如AI和生物測量學(xué)整合到UX中,以增強我們的技能和能力。這項研究為人工智能增強的元認(rèn)知支持在UX設(shè)計中的潛力奠定了有希望的基礎(chǔ),但要實現(xiàn)其全部潛力仍然是一個需要跨學(xué)科合作和進一步研究的廣泛挑戰(zhàn)。例如,這項研究只研究了界面的短期使用和非多樣化樣本。然而,隨著人工智能和生理感應(yīng)技術(shù)的應(yīng)用,未來的設(shè)計已經(jīng)到來,這為未來人機協(xié)作的現(xiàn)實提供了一個展望,并展示了如何用它來增強創(chuàng)造力。
人工智能工具使普通消費者更容易創(chuàng)作藝術(shù)、音樂、視頻和圖形,而無需廣泛的培訓(xùn)或復(fù)雜的軟件。這些工具不僅縮小了創(chuàng)意與工藝之間的差距,而且還提高了現(xiàn)有和專業(yè)創(chuàng)意人員的工作水平。人工智能可以使編輯工作流程自動化,并引入新型的人工智能原生編輯,同時還可以讓人工智能工具根據(jù)文本指令完成任務(wù),從而提高工作效率。此外,人工智能內(nèi)容正變得與人類內(nèi)容無異,人工智能角色和內(nèi)容有望在在線娛樂和社交互動中發(fā)揮重要作用。
文章《解釋SDXL潛在空間》詳細(xì)介紹了SDXL潛在空間的特點和如何改進SDXL生成的圖像。SDXL是一種基于擴散模型的圖像生成架構(gòu),其輸出的潛在表示包含四個通道,與傳統(tǒng)的8位RGB像素空間的三個通道不同。這四個通道分別代表亮度、青/紅色、黃綠色/中紫色和圖案/結(jié)構(gòu)。文章中提到,SDXL生成的圖像往往存在噪點、過度平滑和顏色偏差問題,尤其是偏向黃色,這是因為模型在訓(xùn)練過程中對現(xiàn)實世界圖像的學(xué)習(xí)導(dǎo)致的。
為了改進這些問題,作者進行了實驗性探索,并開發(fā)了一系列校正工具和方法。這些方法包括直接將潛在表示轉(zhuǎn)換為RGB的線性近似函數(shù)、中心化張量以調(diào)整顏色偏差、去除異常值以控制細(xì)節(jié)、顏色平衡和增加顏色范圍、張量最大化以及回調(diào)實現(xiàn)示例。通過這些技術(shù),可以在生成圖像之前改善信息和顏色范圍,而不是在圖像生成后進行后處理。
在數(shù)字產(chǎn)品設(shè)計中,早期概念化和設(shè)計階段需要快速創(chuàng)新,但傳統(tǒng)的高質(zhì)量3D渲染過程通常與此不兼容。作為一個熱愛3D的產(chǎn)品設(shè)計師,我發(fā)現(xiàn)了使用AI技術(shù)來加速3D渲染的方法,這對于不具有深入3D專業(yè)知識的設(shè)計師來說也更加可訪問(大部分是開源的)[1]。
傳統(tǒng)3D渲染流程包括建模、紋理和照明、渲染三個階段,每個階段都需要細(xì)致的注意力和對工具和藝術(shù)流程的深入理解,需要多年的經(jīng)驗才能掌握[1]。然而,這種詳細(xì)控制的方法在快速概念化和迭代中不太適用,尤其是項目初期。
AI生成圖像提供了近乎無限的視覺可能性,加快了迭代速度,但缺乏控制力是一個主要問題。AI渲染的關(guān)鍵挑戰(zhàn)在于結(jié)合速度和細(xì)節(jié)的優(yōu)勢,同時保持對創(chuàng)意輸出的決定性控制[1]。
AI增強的3D工作流程結(jié)合了傳統(tǒng)3D建模的精確性和AI的靈活性和速度。設(shè)計師可以創(chuàng)建簡單的3D模型,并使用AI快速探索不同的視覺風(fēng)格,進行快速調(diào)整。這種方法產(chǎn)生了協(xié)作式的過程,結(jié)合了3D建模的精確性和AI的速度:
1.建模:創(chuàng)建簡單的3D模型,關(guān)注比例、布局和組合,而不是細(xì)節(jié)。
2.生成:使用ControlNet等工具,將場景信息共享給擴散模型,生成圖像,保持組合和主題不變。
3.迭代:調(diào)整生成圖像的控制。如果控制力很大,AI會確保渲染與模型的比例相匹配,但限制細(xì)節(jié)和“創(chuàng)造力”。
AI增強的3D工作流程有助于更有效地與創(chuàng)意團隊和產(chǎn)品設(shè)計師共享早期概念,為項目設(shè)定一個明確的方向,節(jié)省寶貴的時間和資源。這種方法也支持創(chuàng)建一致的情感板,這些板在設(shè)計過程中起著至關(guān)重要的參考作用[1]。
AI技術(shù)在3D設(shè)計工作流程中生成快速插圖和圖像方面只是冰山一角。創(chuàng)新正以驚人的速度發(fā)展。AI將成為渲染的未來,將與3D軟件和游戲引擎本身集成。AI已經(jīng)被用于Blender中的降噪和超分辨率渲染,以及Pixar的Elements中的渲染時間優(yōu)化,Unreal Engine中的幀率優(yōu)化。
IP-adapter是Stable Diffusion的一個附加組件,用于使用圖像作為提示,類似于Midjourney和DaLLE 3。它可以復(fù)制參考圖像中的風(fēng)格、構(gòu)圖或面孔。文章介紹了多種IP-Adapter模型,包括Plus、Face ID、Face ID v2、Face ID portrait等,并說明了如何在AUTOMATIC1111和ComfyUI中使用IP-adapters。IP-adapter模型的數(shù)量正在迅速增長,包括兩種圖像編碼器:OpenClip ViT H 14(即SD 1.5版本,632M參數(shù))和OpenClip ViT BigG 14(即SDXL版本,1845M參數(shù))。
IP-adapter通過訓(xùn)練圖像的單獨交叉注意力層來提高圖像生成過程的指導(dǎo)效果。文章還詳細(xì)介紹了如何在AUTOMATIC1111和ComfyUI軟件中設(shè)置和使用IP-Adapter,包括安裝ControlNet擴展、下載IP-Adapter和LoRA模型以及在AUTOMATIC1111中使用IP-adapter模型的步驟。此外,還提供了在ComfyUI中使用IP-Adapter的指南,包括安裝InsightFace、下載模型和LoRAs以及設(shè)置工作流程。
在2023年被稱為“效率之年”之后,Meta將人工智能(AI)作為2024年的主題,大力投資于觸及其業(yè)務(wù)的每一個方面的技術(shù),從用戶和創(chuàng)作者到企業(yè)和開發(fā)者。Meta首席執(zhí)行官馬克·扎克伯格在公司最近的財報電話會議上表示,尤其是生成式AI已經(jīng)推動Meta的廣告業(yè)務(wù)在第四季度同比增長24%,總額達(dá)到387億美元。Meta的高管們進一步深入其AI計劃,解釋了廣告商和代理商今年可以從技術(shù)中期待什么,并在2月7日的虛擬圓桌會議上分享了幾個成功故事。Meta的全球商業(yè)集團副總裁阿爾文·鮑爾斯表示:“2023年對我們來說是一個明確的轉(zhuǎn)折點,我們的第四季度收益顯示,對于使用我們工具的廣告商來說,Meta確實在發(fā)揮作用。我們在AI上的投資不僅為廣告商的表現(xiàn)帶來了回報,也為我們的社區(qū)帶來了比以往任何時候都更相關(guān)的發(fā)現(xiàn)引擎。”隨著廣告收入的增長,Meta在最后一個季度也看到了用戶和觀看時間的增加,所有視頻類型的日觀看時間同比增長超過25%,用戶每天重新分享Reels 35億次。Meta將這種參與度增長歸因于多年來一直是其業(yè)務(wù)核心的AI和發(fā)現(xiàn)引擎投資,這些投資現(xiàn)在正在得到回報。
Meta的這些AI投資不僅提高了其廣告系統(tǒng)的性能,還改善了人們在所有應(yīng)用中看到的個性化內(nèi)容。此外,Meta還在其廣告產(chǎn)品中進行了多年的機器學(xué)習(xí)、自動化和AI投資,以應(yīng)對數(shù)字廣告行業(yè)的變化,這些投資正在為廣告商帶來成功。Meta還開始在其廣告套件中推出生成式AI功能,包括文本變化和圖像擴展,并計劃在本季度晚些時候擴大背景圖像生成的可用性。例如,珠寶小企業(yè)Felicity在感恩節(jié)到網(wǎng)絡(luò)星期一的Cyber Five期間大量使用Advantage套件,看到收入增長了24%,客戶回頭率提高了20%。瑞士運動服品牌On測試了Meta的Advantage+ Catalog廣告和產(chǎn)品級視頻解決方案,導(dǎo)致廣告支出回報增加了41%,購買成本降低了45%。
“原文鏈接:春節(jié)期間AI界最新新聞 - AI魔法學(xué)院 https://www.wehelpwin.com/news/119”。