閱讀(1.3k) 書簽贊(0) 我要糾錯

文本轉圖像模型的發(fā)展周期

2023-03-08 14:33 更新

文本轉圖像模型的發(fā)展周期歷時數(shù)年：

2020年7月：OpenAI發(fā)文介紹Image GPT模型，將語言模型應用到圖像領域。
2022年3月：AI圖像生成平臺Midjourney啟動Beta版本測試。
2022年4月：OpenAI宣布允許一定數(shù)量的用戶對其AI圖像生成工具DALL-E 2 進行“研究性試用”。
2022年5月：Google以論文形式公布其文本-圖像生成模型Imagen，Imagen由PyTorch實現(xiàn)。
2022年7月：OpenAI 通過UI/API開放DALL-E 2進行公開測試，參與公測的用戶須先進入等待名單。
2022年7月：Midjourney通過Discord通訊平臺發(fā)布消息表示即將進行公開測試。
2022年8月：文本-圖像生成模型Stable Diffusion發(fā)布，這是一款基于OpenRAIL-M許可的開源模型。
2022年9月：OpenAI取消DALL-E 2的等待名單。

GPT-3從公布到被復制歷時10個月：

2020年5月：OpenAI以論文形式公開GPT-3，并在隨后的6月發(fā)布了未公開的Beta版API。
2020年7月：非營利開源研究組織EleutherAI成立，成為OpenAI的替代者。
2020年9月：Microsoft獲得GPT-3的獨家授權。
2021年1月：EleutherAI公布其800G數(shù)據(jù)集The Pile。
2021年3月：EleutherAI公布了分別含13億和27億參數(shù)的兩版開源GPT-Neo模型（GPT-Neo是對GPT-3的克隆版）。
2021年11月：OpenAI取消GPT-3的等待名單，開發(fā)人員可以直接報名使用其API。
2022年5月：Meta公布大型語言模型OPT-175B，供研究人員使用，還公布了模型日志和開源許可證明。
2022年6月：俄羅斯互聯(lián)網(wǎng)巨頭Yandex公布了YaLM-100B，這是一個基于Apache-2許可的類GPT開源模型。
2022年7月：HuggingFace公開了BLOOM-176B，一個基于RAIL許可證明的大型語言模型。

GPT-2從公布到被復制歷時6個月：

2019年2月，OpenAI宣布GPT-2誕生，為了避免模型遭到不良利用（如被用于制造虛假新聞等），當時決定不將模型完全開源；3月，OpenAI放棄“非營利機構”的定位，成立OpenAI LP（有限合伙公司），聲稱進入“有限營利”經(jīng)營模式。
8月，兩名計算機碩士復制出GPT-2并將其對外公開，稱為OpenGPT-2。
11月，經(jīng)過謹慎的分階段逐步公布，OpenAI終于完全開源了含15億參數(shù)的GPT-2模型。

上述時間線已經(jīng)過高度精簡，實際發(fā)展史還可追溯到2015年提出的擴散模型（Diffusion Model）、2017年提出的Transformer模型，以及更早之前對生成對抗網(wǎng)絡（GANs）的研究。

有趣的是，2022年9月，OpenAI基于MIT許可公開了其Whisper語音轉文本模型，并且不設置付費API。當然，語音轉文本功能遭到不良利用的可能性較低，所以此類模型的開源風險也更低，但也有觀點認為，OpenAI此次的開源決定是受到Stable Diffusion開源后爆紅的影響。

以上內容是否對您有幫助：

← Transformers

寫筆記

我要補充