跳到主要內容

Google 發表 StyleDrop 模型,挑戰Midjourney的設計革新

Google 研究團隊發表了一個名為StyleDrop的技術,該技術能夠生成忠實遵循特定風格的圖像。這項技術由一種名為Muse的文本到圖像生成的視覺變換器提供核心。StyleDrop具有極高的通用性,能夠捕捉用戶提供的風格的細微差異和細節,例如色彩方案、陰影、設計模式以及局部和全局效果。

https://styledrop.github.io/


StyleDrop 的工作方式是通過微調非常少參數有效地學習新風格,並通過與人類或自動反饋的迭代訓練來提高品質。

令人驚訝的是,即使用戶只提供一張指定所需風格的單張圖像,StyleDrop也能夠提供令人印象深刻的結果。


StyleDrop可以生成由單一參考圖像描述的任何風格的高質量圖像。在訓練和生成時,都會在內容描述符後附加自然語言的風格描述符(例如,“融化的金色3d渲染風格”)。

StyleDrop生成具有由單一參考圖像描述的一致風格的字母圖像。在訓練和生成時,都會在內容描述符後附加自然語言的風格描述符(例如,“抽象的彩虹色的流動煙霧波浪設計”)。

以下為優缺點分析,

優點

風格通用性:StyleDrop能夠捕捉用戶提供的風格的細微差異和細節,例如色彩方案、陰影、設計模式以及局部和全局效果。這對於生成與特定風格或品牌相符的圖像非常有用。

高效學習新風格:StyleDrop的工作方式是通過微調非常少的可訓練參數(總模型參數的1%以下)有效地學習新風格。這意味著可以以更少的時間和資源來調整和定製模型。

單張風格圖像轉換:即使用戶只提供一張指定所需風格的單張圖像,StyleDrop也能夠提供令人印象深刻的結果。

缺點

需要專業知識:StyleDrop需要使用者有一定的機器學習和圖像處理知識,才能理解和有效利用其功能。

對資源的需求:雖然StyleDrop只需微調少量參數就能學習新風格,但對於大型圖像或複雜的風格,仍可能需要大量的計算資源和時間。

風格轉換的限制:雖然StyleDrop可以從單張圖片學習風格,但如果風格特別複雜或難以定義,其結果可能不會完全符合期望。(2023/06 發表日的此時是如此)

後續

到底 StyleDrop 會不會帶來另外一個生成式影像的衝擊,還是又是一個雷聲大雨點小的 Another google project,在此時此刻( 2023/06/04)非常令人玩味!特別是這個敏感的日子,就讓我們持續看下去!

留言

這個網誌中的熱門文章

面試者如何挑戰大工程師時代來臨?

面試者如何挑戰大工程師時代來臨? 全世界都在倡導轉職成為工程師,似乎轉職成為工程師就成為職場的救贖,真的是如此嗎?讓老衲來杠給各位聽。 最近有位好久不見的小朋友,是 2000 年出生的小蔡,對於即將面臨到面對職場的挑戰開始關心起技術,他開始尋找比較適合自己的領域,同時也開始在思考到底為了接下來的就職小蔡該如何準備。 詢問我說是不是可以考慮軟體開發工程師這條路線 對於他的詢問,反而引起我的注意, 這讓我開始思考並映射於最近招募的經驗,軟體開發此領域是不是對於每個人都是可以擔任的職啀,這邊分享一些自己的看法希望對各位有所幫助。 全民工程師這件事情 在全球景氣低迷的狀況下,的確特別在這一年大家會很有感覺萬物齊漲,薪水不漲,薪資就是一直停滯不前。 很多時候,在不同的領域中,會發現整個薪資就算是擔任了管理職務主管你也會面臨到薪資的強大屏障在自己面前。 這個時候, 軟體工程師年薪百萬口號 似乎就成了一種救贖。 好像成為了工程師就可以達到年薪百萬,在家輕鬆工作,不用打卡也不用受到風吹雨淋,隨時想工作就可以工作,每個月又有固定薪水入帳,感受到類財富自由,人生的美好。 如果能夠爭取到跨國公司的職位,這份薪水有可能還可以上看每個月十多萬以上,甚至是往上也是極度有可能的事情,人生美好層次又再度提高了起來。 但這件事情是真的每個人都可以達到嗎? 還是這就是另外一種性存者偏差呢? 亦或者這些人其實是金字塔頂端的小眾? 每份履歷都像是同一種履歷 最近在最近幾年在面試工程師的時候特別會看到許多轉職者,一開始履歷裡面看到相關的作品一開始會覺得十分的驚艷, Wow, 現在的新手就可以做到如此精美的畫面,這些畫面是我當初用 Bootstrap 也做不出來的東西,許多的互動體驗好的一個不行,做出來的頁面配色和對齊也是極致。 但是隨著時間推移,多看了幾封履歷之後,就會發現在各大技術養成學院出來的學生履歷成果內容如出一轍,在面試的過程中也會詢問許多關於框架的底層概念,和比較技術觀念的時候,甚至是許多框架的核心概念,就很容易露出馬腳。 很多面試者會 一問三不知 ,透過許多引導,但殘酷的是連關鍵字是什麼都也無法推敲出來,更不用說在小組裡面到底怎麼樣合作,許多不同線上產品的比較,使用者流程,使用者後面的互動邏輯等,幾乎是風吹一片倒,只能

jQuery, animate function with css exlapenation.

Today, I want to use jQuery making a animation for webpage, First I check animate fuction on ref book. I clearly know how use it, there are two main function for animate. 1. $().animate({ "style1":"value1" , "style2":"value2" }, Time); Time: it can be three type, String => "slow", "fast", "normal". Integer=>10000 2. $().stop(); it can immedaitely stop animation. Let's do some experieces, I bulit a simple page. You can hover UP and DOWN for a article sliding UP or DOWN. Les't do it. HTML CODE: <div id="all"> <div id="up">往上</div> <div id="showTab"> <div id="data"> About This script is intended for forms where the user needs to upload an image to a Web site. The image is displayed on the page for previewing before uploading. The display will be resized if needed so as not to break the page layout. Valid file types are set in the scri

GPT3 API 當中,你可能沒注意到的 ChatML

GPT-3 API 就這樣悄悄的來了! 是的, GPT-3 是一種由OpenAI提供的語言模型,它可以通過API接口使用。 以下是使用GPT-3 API的基本步驟: 註冊OpenAI帳戶:請訪問OpenAI網站(https://beta.openai.com/signup/),並創建一個帳戶。一旦註冊成功,您就可以訪問OpenAI的API密鑰。 訂閱GPT-3 API:在OpenAI中,您需要訂閱GPT-3 API,以便可以使用它。訂閱後,您可以獲取API密鑰。 安裝API軟件開發套件(SDK):您可以在Python、Node.js、Ruby、Java和其他語言中使用OpenAI API。您需要安裝相應的SDK,以便使用它。 獲取API密鑰:在獲取API密鑰後,您可以將其保存在環境變數中,或直接將其添加到代碼中。 連接到API:使用SDK中提供的函數和類,您可以連接到GPT-3 API。 發送請求:一旦您已連接到GPT-3 API,您可以通過向API發送HTTP請求來使用GPT-3模型。 當然我們也不是只講這種大家都知道的幹話,上述這些 chatgpt 都可生出來給你, 以下為重點,再次感謝您可以閱讀到這邊 ...本文開始 ChatML 這次 GPT3 API 的釋出,除了這件事情之外,另外還有 ChatML 以及 fine-tuning 這兩個對於自己來說是個大重點。 ChatML 的釋出,讓我們可以使用 api 像是使用 chatgpt 讓整體上下文開始有了連貫,其中官方也有提供完整的描述。 https://github.com/openai/openai-python/blob/main/chatml.md 在這段過程裡面在 OpenAI 的GPT API中,message 中的 role 指定了對話中發言的角色,可以是 system、user、assistant中的任何一個,具體的差異如下: system: 表示對話接下來這段對話的背景,角色分配,情境。 user: 表示用戶輸入的信息。這可以是文字輸入內容。 assistant: 表示對話系統助手生成的訊息,可以是對前一輪對話的回應、應用程式特定的提示或任何其他形式的輸出。 這些角色的目的是區分不同的訊息類型,以幫助GPT模型更好地理解上下