Nexus-Gen is a unified model that synergizes the language reasoning capabilities of LLMs with the image synthesis power of diffusion models. To align the embedding space of the LLM and diffusion model, we conduct a dual-phase alignment training process. (1) The autoregressive LLM learns to predict image embeddings conditioned on multimodal inputs, 

Nexus-Gen

.cnb.yml

Dockerfile

README.md

IyMgZm9ya+S4u+WIhuaUr++8jOeCueWHu+i/nOeoi+W8gOWPkQ0K54S25ZCO6L+Q6KGMIA0KYGBgDQpweXRob24gYXBwLnB5DQpgYGANCjxwIGFsaWduPSJjZW50ZXIiPg0KICAgIDxicj4NCiAgICA8aW1nIHNyYz0iYXNzZXRzL2xvZ28uanBnIi8+DQogICAgPGJyPg0KPHA+DQo8aDEgYWxpZ249ImNlbnRlciI+TmV4dXMtR2VuOiBBIFVuaWZpZWQgTW9kZWwgZm9yIEltYWdlIFVuZGVyc3RhbmRpbmcsIEdlbmVyYXRpb24sIGFuZCBFZGl0aW5nPC9oMT4NCg0KDQo8ZGl2IGFsaWduPSJjZW50ZXIiPg0KDQoNCiAgPGEgaHJlZj0iaHR0cDovL2FyeGl2Lm9yZy9hYnMvMjUwNC4yMTM1NiI+PGltZyBzcmM9Imh0dHBzOi8vaW1nLnNoaWVsZHMuaW8vc3RhdGljL3YxP2xhYmVsPVRlY2glMjBSZXBvcnQmbWVzc2FnZT1BcnhpdiZjb2xvcj1yZWQiPjwvYT4gJmVuc3A7DQogIDxhIGhyZWY9Imh0dHBzOi8vd3d3Lm1vZGVsc2NvcGUuY24vbW9kZWxzL0RpZmZTeW50aC1TdHVkaW8vTmV4dXMtR2VuIj48aW1nIHNyYz0iaHR0cHM6Ly9pbWcuc2hpZWxkcy5pby9zdGF0aWMvdjE/bGFiZWw9TW9kZWwmbWVzc2FnZT1Nb2RlbFNjb3BlJmNvbG9yPWJsdWUiPjwvYT4gJmVuc3A7DQogIDxhIGhyZWY9Imh0dHBzOi8vaHVnZ2luZ2ZhY2UuY28vbW9kZWxzY29wZS9OZXh1cy1HZW4iPjxpbWcgc3JjPSJodHRwczovL2ltZy5zaGllbGRzLmlvL3N0YXRpYy92MT9sYWJlbD1Nb2RlbCZtZXNzYWdlPUh1Z2dpbmdGYWNlJmNvbG9yPXllbGxvdyI+PC9hPiAmZW5zcDsNCiAgPGEgaHJlZj0iaHR0cHM6Ly93d3cubW9kZWxzY29wZS5jbi9zdHVkaW9zL0RpZmZTeW50aC1TdHVkaW8vTmV4dXMtR2VuIj48aW1nIHNyYz0iaHR0cHM6Ly9pbWcuc2hpZWxkcy5pby9zdGF0aWMvdjE/bGFiZWw9T25saW5lJTIwRGVtbyZtZXNzYWdlPU1vZGVTY29wZSZjb2xvcj1ncmVlbiI+PC9hPiAmZW5zcDsNCg0KPC9kaXY+DQoNCiMjIFRPRE8NCg0KLSBbeF0gUmVsZWFzZSB0aGUgdHJhaW4gYW5kIGluZmVyZW5jZSBjb2RlLg0KLSBbeF0gUmVsZWFzZSB0aGUgbW9kZWwgY2hlY2twb2ludC4NCi0gW3hdIFJlbGVhc2UgdGhlIHRlY2huaWNhbCByZXBvcnQuDQotIFsgXSBSZWxlYXNlIHRoZSB0cmFpbmluZyBkYXRhc2V0cy4NCg0KIyMgV2hhdCBpcyBOZXh1cy1HZW4NCg0KTmV4dXMtR2VuIGlzIGEgdW5pZmllZCBtb2RlbCB0aGF0IHN5bmVyZ2l6ZXMgdGhlIGxhbmd1YWdlIHJlYXNvbmluZyBjYXBhYmlsaXRpZXMgb2YgTExNcyB3aXRoIHRoZSBpbWFnZSBzeW50aGVzaXMgcG93ZXIgb2YgZGlmZnVzaW9uIG1vZGVscy4gVG8gYWxpZ24gdGhlIGVtYmVkZGluZyBzcGFjZSBvZiB0aGUgTExNIGFuZCBkaWZmdXNpb24gbW9kZWwsIHdlIGNvbmR1Y3QgYSBkdWFsLXBoYXNlIGFsaWdubWVudCB0cmFpbmluZyBwcm9jZXNzLiAoMSkgVGhlIGF1dG9yZWdyZXNzaXZlIExMTSBsZWFybnMgdG8gcHJlZGljdCBpbWFnZSBlbWJlZGRpbmdzIGNvbmRpdGlvbmVkIG9uIG11bHRpbW9kYWwgaW5wdXRzLCB3aGlsZSAoMikgdGhlIHZpc2lvbiBkZWNvZGVyIGlzIHRyYWluZWQgdG8gcmVjb25zdHJ1Y3QgaGlnaC1maWRlbGl0eSBpbWFnZXMgZnJvbSB0aGVzZSBlbWJlZGRpbmdzLiBEdXJpbmcgdHJhaW5pbmcgdGhlIExMTSwgd2UgaWRlbnRpZmllZCBhIGNyaXRpY2FsIGRpc2NyZXBhbmN5IGJldHdlZW4gdGhlIGF1dG9yZWdyZXNzaXZlIHBhcmFkaWdtJ3MgdHJhaW5pbmcgYW5kIGluZmVyZW5jZSBwaGFzZXMsIHdoZXJlIGVycm9yIGFjY3VtdWxhdGlvbiBpbiBjb250aW51b3VzIGVtYmVkZGluZyBzcGFjZSBzZXZlcmVseSBkZWdyYWRlcyBnZW5lcmF0aW9uIHF1YWxpdHkuIFRvIGF2b2lkIHRoaXMgaXNzdWUsIHdlIGludHJvZHVjZSBhIHByZWZpbGxlZCBhdXRvcmVncmVzc2lvbiBzdHJhdGVneSB0aGF0IHByZWZpbGxzIGlucHV0IHNlcXVlbmNlIHdpdGggcG9zaXRpb24tZW1iZWRkZWQgc3BlY2lhbCB0b2tlbnMgaW5zdGVhZCBvZiBjb250aW51b3VzIGVtYmVkZGluZ3MuIFRocm91Z2ggZHVhbC1waGFzZSB0cmFpbmluZywgTmV4dXMtR2VuIGhhcyBkZXZlbG9wZWQgdGhlIGludGVncmF0ZWQgY2FwYWJpbGl0eSB0byBjb21wcmVoZW5zaXZlbHkgYWRkcmVzcyB0aGUgaW1hZ2UgdW5kZXJzdGFuZGluZywgZ2VuZXJhdGlvbiBhbmQgZWRpdGluZyB0YXNrcyBhcyBmb2xsb3dzLg0KIVtjb3Zlcl0oYXNzZXRzL2lsbHVzdHJhdGlvbnMvZ2VuX2VkaXQuanBnKQ0KIVthcmNoaXRlY3R1cmVdKGFzc2V0cy9pbGx1c3RyYXRpb25zL2FyY2hpdGVjdHVyZS5wbmcpDQoNCiMjIEdldHRpbmcgU3RhcnRlZA0KDQojIyMgSW5zdGFsbGF0aW9uDQoNCjEuIEluc3RhbGwgW0RpZmZTeW50aC1TdHVkaW9dKGh0dHBzOi8vZ2l0aHViLmNvbS9tb2RlbHNjb3BlL0RpZmZTeW50aC1TdHVkaW8uZ2l0KSBmcm9tIHNvdXJjZToNCg0KYGBgc2hlbGwNCmdpdCBjbG9uZSBodHRwczovL2dpdGh1Yi5jb20vbW9kZWxzY29wZS9EaWZmU3ludGgtU3R1ZGlvLmdpdA0KY2QgRGlmZlN5bnRoLVN0dWRpbw0KcGlwIGluc3RhbGwgLWUgLg0KYGBgDQoNCjIuIEluc3RhbGwgcmVxdWlyZW1lbnRzDQoNCmBgYA0KcGlwIGluc3RhbGwgLXIgcmVxdWlyZW1lbnRzLnR4dA0KYGBgDQoNCjMuIEluc3RhbGwgW21zLXN3aWZ0XShodHRwczovL2dpdGh1Yi5jb20vbW9kZWxzY29wZS9tcy1zd2lmdC5naXQpIGlmIHlvdSB3YW50IHRvIHBlcmZvcm0gZmluZXR1bmluZyBvbiBOZXh1cy1HZW4uDQoNCmBgYA0KcGlwIGluc3RhbGwgbXMtc3dpZnQgLVUNCmBgYA0KDQojIyMgUHJlcGFyZSBtb2RlbHMNCg0KYGBgc2hlbGwNCnB5dGhvbiBkb3dubG9hZF9tb2RlbHMucHkNCmBgYA0KDQojIyMgSW1hZ2UgVW5kZXJzdGFuZGluZw0KDQpgYGBzaGVsbA0KcHl0aG9uIGltYWdlX3VuZGVyc3RhbmRpbmcucHkNCmBgYA0KDQojIyMgSW1hZ2UgR2VuZXJhdGlvbg0KDQpJbWFnZSBnZW5lcmF0aW9uIHdpdGggZGV0YWlsZWQgcHJvbXB0LiAoTmVlZHMgYXQgbGVhc3QgMzcgR0IgVlJBTSkNCg0KYGBgc2hlbGwNCnB5dGhvbiBpbWFnZV9nZW5lcmF0aW9uLnB5DQpgYGANCg0KUG9saXNoIHByb21wdCBhbmQgZ2VuZXJhdGUgaW1hZ2VzIHdpdGggTmV4dXMtR2VuLg0KDQpgYGBzaGVsbA0KaW1hZ2VfZ2VuZXJhdGlvbl93aXRoX3NlbGZwb2xpc2gucHkNCmBgYA0KDQpJbWFnZSBnZW5lcmF0aW9uIHdpdGggbGVzcyBWUkFNIGJ5IGNwdSBvZmZsb2FkLiAoTmVlZHMgYXQgbGVhc3QgMjQgR0IgVlJBTSkNCg0KYGBgc2hlbGwNCnB5dGhvbiBpbWFnZV9nZW5lcmF0aW9uX29mZmxvYWQucHkNCmBgYA0KDQojIyMgSW1hZ2UgRWRpdGluZw0KDQpgYGBzaGVsbA0KcHl0aG9uIGltYWdlX2VkaXRpbmcucHkNCmBgYA0KDQojIyMgR3JhZGlvIGRlbW8NCg0KYGBgc2hlbGwNCnB5dGhvbiBhcHAucHkNCmBgYA0KDQojIyMgVHJhaW5pbmcgQ29kZXMNCg0KTmV4dXMtR2VuIGlzIHRyYWluZWQgYmFzZSBvbiBbbXMtc3dpZnRdKGh0dHBzOi8vZ2l0aHViLmNvbS9tb2RlbHNjb3BlL21zLXN3aWZ0LmdpdCkgYW5kIFtEaWZmU3ludGgtU3R1ZGlvXShodHRwczovL2dpdGh1Yi5jb20vbW9kZWxzY29wZS9EaWZmU3ludGgtU3R1ZGlvLmdpdCkuIFlvdSBjYW4gZmluZCB0aGUgdHJhaW5pbmcgc2NyaXB0cyBpbiBgdHJhaW4vc2NyaXB0cy90cmFpbl9kZWNvZGVyLnNoYCBhbmQgYHRyYWluX2xsbS5zaGAuDQoNCiMjIyBDaXRhdGlvbg0KDQpgYGANCkBhcnRpY2xle3poYW5nMjAyNW5leHVzLWdlbiwNCiAgICAgIHRpdGxlPXtOZXh1cy1HZW46IEEgVW5pZmllZCBNb2RlbCBmb3IgSW1hZ2UgVW5kZXJzdGFuZGluZywgR2VuZXJhdGlvbiwgYW5kIEVkaXRpbmd9LCANCiAgICAgIGF1dGhvcj17SG9uZyBaaGFuZyBhbmQgWmhvbmdqaWUgRHVhbiBhbmQgWGluZ2p1biBXYW5nIGFuZCBZaW5nZGEgQ2hlbiBhbmQgWXV6ZSBaaGFvIGFuZCBZdSBaaGFuZ30sDQogICAgICBqb3VybmFsPXthclhpdiBwcmVwcmludCBhclhpdjoyNTA0LjIxMzU2fSwNCiAgICAgIHllYXI9ezIwMjV9DQp9DQpgYGA=

fork主分支，点击远程开发

Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

TODO

What is Nexus-Gen

Getting Started

Installation

Prepare models

Image Understanding

Image Generation

Image Editing

Gradio demo

Training Codes

Citation

About

Release
0

Contributors
1