Is this comfyui tutorial suitable for beginners?

This tutorial is designed to be accessible for learners at various skill levels. We provide clear explanations and step-by-step instructions to help you understand comfyui concepts effectively.

How long does it take to complete this comfyui tutorial?

This tutorial has an estimated reading time of 19 minutes. However, we recommend taking additional time to practice the concepts and techniques covered to fully master the material.

Where can I find more comfyui tutorials and resources?

You can find more comfyui tutorials in our ComfyUI category section. We also recommend exploring our related articles and following our blog for the latest updates on comfyui techniques and best practices.

/ ComfyUI / QWEN LoRA Training: कस्टम इमेज एडिटिंग का संपूर्ण गाइड 2025

ComfyUI • October 12, 2025 • 19 मिनट में पढ़ें

QWEN LoRA Training: कस्टम इमेज एडिटिंग का संपूर्ण गाइड 2025

कस्टम इमेज एडिटिंग क्षमताओं के लिए QWEN LoRA Training में महारत हासिल करें। संपूर्ण Workflows, Vision-Language Dataset तैयारी, विशिष्ट एडिटिंग कार्य, और Production Deployment।

मैंने कस्टम QWEN LoRAs की Training तब शुरू की जब मुझे यह एहसास हुआ कि बेस मॉडल उन विशेष एडिटिंग कार्यों को नहीं संभाल सकता था जिनकी मेरे क्लाइंट्स को आवश्यकता थी (विशिष्ट ब्रांड एस्थेटिक्स के साथ प्रोडक्ट बैकग्राउंड रिप्लेसमेंट, सुसंगत स्टाइल के साथ आर्किटेक्चरल डिटेल एन्हांसमेंट), और कस्टम LoRAs ने QWEN को जनरल-पर्पस इमेज एडिटर से बदलकर विशेष टूल बना दिया जो प्रोजेक्ट आवश्यकताओं से सटीक रूप से मेल खाता है। QWEN LoRAs की Training इमेज जनरेशन LoRAs की Training से अलग है क्योंकि आप Vision-Language समझ सिखा रहे हैं, केवल विज़ुअल आउटपुट नहीं।

इस गाइड में, आपको संपूर्ण QWEN LoRA Training Workflows मिलेंगे, जिसमें Vision-Language Dataset तैयारी रणनीतियाँ, विभिन्न एडिटिंग विशेषज्ञताओं (ऑब्जेक्ट रिमूवल, स्टाइल ट्रांसफर, डिटेल एन्हांसमेंट) के लिए Training पैरामीटर, मल्टी-मोडल कंडीशनिंग तकनीकें, Production Deployment Workflows, और Vision-Language मॉडल्स के लिए विशिष्ट सामान्य Training विफलताओं के लिए ट्रबलशूटिंग शामिल हैं।

कस्टम QWEN LoRAs की Training क्यों करें

QWEN (Qwen2-VL) Alibaba का Vision-Language मॉडल है जो प्राकृतिक भाषा निर्देशों के माध्यम से इमेज एडिटिंग के लिए ऑप्टिमाइज़ किया गया है। बेस मॉडल सामान्य एडिटिंग को अच्छी तरह से संभालता है, लेकिन विशेष कार्यों को कस्टम LoRAs से नाटकीय रूप से लाभ होता है।

ComfyUI सीख रहे हैं? अन्य 115 कोर्स सदस्यों के साथ जुड़ें

ComfyUI + AI इन्फ्लुएंसर मार्केटिंग को कवर करने वाले 51 पाठ। अर्ली-बर्ड मूल्य निर्धारण जल्द समाप्त होगा।

बेस QWEN क्षमताएँ:

सामान्य ऑब्जेक्ट रिमूवल ("व्यक्ति को हटाएं")
बेसिक कलर एडजस्टमेंट ("इसे गर्म बनाएं")
सरल स्टाइल ट्रांसफर ("इसे पेंटिंग की तरह बनाएं")
जेनेरिक बैकग्राउंड परिवर्तन ("बैकग्राउंड को बीच में बदलें")

कस्टम LoRA-एन्हांस्ड क्षमताएँ:

विशिष्ट एस्थेटिक्स से मेल खाते हुए विशेष ऑब्जेक्ट रिमूवल (ब्रांड कलर पैलेट बनाए रखते हुए ऑब्जेक्ट हटाएं)
विशिष्ट रेफरेंस स्टाइल में सटीक स्टाइल ट्रांसफर (रेफरेंस इमेज की सटीक स्टाइल में एडिट करें)
डोमेन-विशिष्ट एन्हांसमेंट (आर्किटेक्चरल डिटेल एन्हांसमेंट, प्रोडक्ट फोटोग्राफी ऑप्टिमाइज़ेशन)
ब्रांड-सुसंगत एडिटिंग (सभी एडिट स्वचालित रूप से ब्रांड दिशानिर्देशों का पालन करते हैं)

कस्टम LoRA प्रदर्शन सुधार

बेस QWEN बनाम कस्टम LoRAs की तुलना करते हुए 100 टेस्ट एडिट के आधार पर:

कार्य-विशिष्ट सटीकता: बेस 72%, कस्टम LoRA 91% (+26%)
स्टाइल सुसंगति: बेस 68%, कस्टम LoRA 94% (+38%)
ब्रांड दिशानिर्देश पालन: बेस 45%, कस्टम LoRA 93% (+107%)
Training समय: विशेष LoRA के लिए 4-8 घंटे
अनुमान गति: बेस मॉडल के समान (कोई प्रदर्शन पेनल्टी नहीं)

कस्टम QWEN LoRAs के लिए उपयोग के मामले:

ब्रांड-सुसंगत प्रोडक्ट एडिटिंग: ब्रांड की प्रोडक्ट फोटोग्राफी पर सुसंगत बैकग्राउंड, लाइटिंग, स्टाइलिंग के साथ LoRA को Train करें। परिणाम: सभी एडिट हर बार मैन्युअल स्टाइल गाइडेंस के बिना स्वचालित रूप से ब्रांड एस्थेटिक्स से मेल खाते हैं।

आर्किटेक्चरल डिटेल एन्हांसमेंट: एन्हांस्ड डिटेल, विशिष्ट रेंडरिंग स्टाइल के साथ आर्किटेक्चरल फोटोग्राफी पर LoRA को Train करें। परिणाम: सुसंगत उपचार के साथ आर्किटेक्चरल इमेज को स्वचालित रूप से एन्हांस करें।

मेडिकल इमेज प्रोसेसिंग: विशिष्ट एन्हांसमेंट आवश्यकताओं, गोपनीयता-सुरक्षित संशोधनों के साथ मेडिकल इमेजिंग पर LoRA को Train करें। परिणाम: क्लिनिकल मानकों का पालन करते हुए सुसंगत मेडिकल इमेज प्रोसेसिंग।

ई-कॉमर्स बैकग्राउंड रिमूवल: इष्टतम बैकग्राउंड रिप्लेसमेंट के साथ प्रोडक्ट कैटेगरी पर LoRA को Train करें। परिणाम: कैटेगरी मानकों से मेल खाते हुए स्वचालित उच्च-गुणवत्ता बैकग्राउंड रिमूवल।

रियल एस्टेट फोटो एन्हांसमेंट: एन्हांस्ड रियल एस्टेट फोटोग्राफी (बेहतर लाइटिंग, कलर करेक्शन, स्पेस ऑप्टिमाइज़ेशन) पर LoRA को Train करें। परिणाम: सुसंगत रियल एस्टेट फोटो एन्हांसमेंट पाइपलाइन।

कस्टम Training से पहले बेस QWEN उपयोग के लिए, मेरा QWEN Image Edit गाइड देखें जो मूल Workflows को कवर करता है।

QWEN LoRA Training इन्फ्रास्ट्रक्चर सेटअप

QWEN LoRAs की Training के लिए Vision-Language प्रोसेसिंग आवश्यकताओं के कारण इमेज जनरेशन LoRAs से अलग इन्फ्रास्ट्रक्चर की आवश्यकता होती है।

न्यूनतम Training कॉन्फ़िगरेशन:

GPU: 24GB VRAM (RTX 3090, RTX 4090, A5000)
RAM: 32GB सिस्टम RAM
Storage: 150GB+ SSD (QWEN मॉडल + Dataset + आउटपुट)
Training समय: विशेष LoRA के लिए 4-8 घंटे

अनुशंसित Training कॉन्फ़िगरेशन:

GPU: 40GB+ VRAM (A100, A6000)
RAM: 64GB सिस्टम RAM
Storage: 300GB+ NVMe SSD
Training समय: विशेष LoRA के लिए 2-4 घंटे

Vision-Language Training को अधिक संसाधनों की आवश्यकता क्यों है:

QWEN इमेज और टेक्स्ट दोनों को एक साथ प्रोसेस करता है, जिसके लिए आवश्यकता होती है:

दोहरे एनकोडर लोड (विज़न + लैंग्वेज)
क्रॉस-मोडल अटेंशन कंप्यूटेशन
इमेज-टेक्स्ट पेयर्ड डेटा प्रोसेसिंग
अधिक जटिल लॉस कैलकुलेशन

यह इमेज-ओनली Training की तुलना में मेमोरी आवश्यकताओं को लगभग दोगुना कर देता है। अन्य Vision-Language Training Workflows के साथ तुलना के लिए, हमारा WAN 2.2 Training गाइड देखें जो समान मल्टी-मोडल Training चुनौतियों को कवर करता है।

सॉफ्टवेयर स्टैक इंस्टॉलेशन:

रिपॉजिटरी को क्लोन करके और आवश्यक डिपेंडेंसी इंस्टॉल करके QWEN Training फ्रेमवर्क इंस्टॉल करें। Parameter-Efficient Fine-Tuning, मेमोरी-एफिशिएंट ऑप्टिमाइज़र, और डिस्ट्रिब्यूटेड Training सपोर्ट के लिए अतिरिक्त पैकेज जोड़ें।

बेस QWEN मॉडल डाउनलोड करें:

Hugging Face CLI का उपयोग करके Qwen2-VL बेस मॉडल डाउनलोड करें, इसे LoRA Training के लिए अपनी लोकल मॉडल डायरेक्टरी में सेव करें।

बेस मॉडल लगभग 14GB है। पर्याप्त डिस्क स्पेस सुनिश्चित करें।

QWEN मॉडल वेरिएंट

Qwen2-VL-2B: सबसे छोटा, तेज़ Training, कम सक्षम
Qwen2-VL-7B: गुणवत्ता और गति का अनुशंसित संतुलन
Qwen2-VL-72B: सर्वोत्तम गुणवत्ता, Training के लिए मल्टी-GPU की आवश्यकता

यह गाइड 7B वेरिएंट पर केंद्रित है क्योंकि यह अधिकांश उपयोग मामलों के लिए इष्टतम है।

Training एनवायरनमेंट वेरिफिकेशन:

वास्तविक Training शुरू करने से पहले अपने सेटअप का परीक्षण करें:

GPU एक्सेस की पुष्टि करके और मॉडल लोडिंग का परीक्षण करके अपने एनवायरनमेंट का परीक्षण करें। CUDA उपलब्धता, GPU काउंट, और मेमोरी क्षमता की जाँच करें, फिर यह सुनिश्चित करने के लिए उपयुक्त सेटिंग्स के साथ Qwen2-VL मॉडल लोड करें कि सब कुछ सही तरीके से काम करता है।

यदि यह बिना किसी त्रुटि के चलता है, तो आपका एनवायरनमेंट Training के लिए तैयार है।

मैनेज्ड Training एनवायरनमेंट के लिए जहाँ इन्फ्रास्ट्रक्चर पूर्व-कॉन्फ़िगर है, Apatero.com स्वचालित डिपेंडेंसी मैनेजमेंट और मॉडल डाउनलोड के साथ QWEN LoRA Training प्रदान करता है, सेटअप जटिलता को समाप्त करता है।

Vision-Language Dataset तैयारी

QWEN LoRA Training के लिए पेयर्ड इमेज-इंस्ट्रक्शन-आउटपुट Dataset की आवश्यकता होती है। Dataset गुणवत्ता किसी भी अन्य कारक की तुलना में Training सफलता को अधिक निर्धारित करती है।

Dataset संरचना:

प्रत्येक Training सैंपल में शामिल है:

इनपुट इमेज: एडिट की जाने वाली मूल इमेज
एडिटिंग इंस्ट्रक्शन: वांछित एडिट का प्राकृतिक भाषा विवरण
आउटपुट इमेज: एडिट लागू करने के बाद परिणाम
(वैकल्पिक) रेफरेंस इमेज: एडिट के लिए स्टाइल या कंटेंट रेफरेंस

Training सैंपल उदाहरण:

प्रत्येक Training सैंपल में एक इनपुट इमेज, वांछित एडिट का वर्णन करने वाला इंस्ट्रक्शन टेक्स्ट, परिणाम दिखाने वाली आउटपुट इमेज, और स्टाइल गाइडेंस के लिए वैकल्पिक रेफरेंस इमेज शामिल है।

Dataset साइज़ आवश्यकताएँ:

Training लक्ष्य	न्यूनतम सैंपल	अनुशंसित सैंपल	Training अवधि
एकल एडिटिंग कार्य	100-150	300-500	4-6 घंटे
मल्टी-टास्क (2-3 एडिट)	200-300	500-800	6-10 घंटे
जटिल डोमेन (आर्किटेक्चर, मेडिकल)	300-500	800-1200	8-14 घंटे
ब्रांड स्टाइल सुसंगति	400-600	1000+	10-16 घंटे

अधिक डेटा लगभग हमेशा परिणामों में सुधार करता है, लेकिन प्रति कार्य प्रकार 1000 सैंपल से ऊपर घटता रिटर्न होता है।

Training डेटा एकत्र करना:

दृष्टिकोण 1: मैन्युअल निर्माण

विशेष कार्यों के लिए, मैन्युअल रूप से पहले/बाद के जोड़े बनाएं:

स्रोत इनपुट इमेज (प्रोडक्ट, दृश्य, पोर्ट्रेट)
Photoshop/GIMP का उपयोग करके मैन्युअल रूप से एडिट करें (ग्राउंड ट्रुथ आउटपुट बनाएं)
प्राकृतिक भाषा निर्देशों के रूप में एडिटिंग चरणों को दस्तावेज़ करें
पेयर्ड सैंपल सेव करें

समय निवेश: प्रति सैंपल 5-15 मिनट गुणवत्ता: उच्चतम (परफेक्ट ग्राउंड ट्रुथ) सर्वोत्तम के लिए: विशेष डोमेन जहाँ ऑटोमेशन कठिन है

दृष्टिकोण 2: सिंथेटिक डेटा जनरेशन

मुफ़्त ComfyUI वर्कफ़्लो

इस लेख में तकनीकों के लिए मुफ़्त ओपन-सोर्स ComfyUI वर्कफ़्लो खोजें। ओपन सोर्स शक्तिशाली है।

100% मुफ़्त MIT लाइसेंस प्रोडक्शन के लिए तैयार स्टार करें और आज़माएं

मौजूदा Dataset और इमेज प्रोसेसिंग का उपयोग करें:

क्लीन इमेज से शुरू करें
प्रोग्रामेटिक रूप से तत्व जोड़ें (बैकग्राउंड, ऑब्जेक्ट, इफेक्ट्स)
मूल क्लीन इमेज "आउटपुट" बन जाती है, संशोधित "इनपुट" बन जाती है
इंस्ट्रक्शन रिमूवल/रेस्टोरेशन प्रोसेस का वर्णन करता है

समय निवेश: स्वचालित (हजारों सैंपल जल्दी) गुणवत्ता: परिवर्तनशील (सिंथेटिक विधि गुणवत्ता पर निर्भर करती है) सर्वोत्तम के लिए: जेनेरिक कार्य (बैकग्राउंड रिमूवल, ऑब्जेक्ट डिलीशन)

दृष्टिकोण 3: मौजूदा Dataset अनुकूलन

सार्वजनिक इमेज एडिटिंग Dataset का उपयोग करें:

InstructPix2Pix Dataset (निर्देशों के साथ 170k इमेज जोड़े)
MagicBrush Dataset (मल्टी-टर्न एडिट के साथ 10k इमेज जोड़े)
फ़िल्टरिंग/ऑगमेंटिंग द्वारा अपने विशिष्ट डोमेन में अनुकूलित करें

समय निवेश: डेटा क्लीनिंग और फ़िल्टरिंग (दिन) गुणवत्ता: अच्छी बेसलाइन, डोमेन-विशिष्ट पूरक की आवश्यकता है सर्वोत्तम के लिए: विशेष Fine-Tuning से पहले फाउंडेशन बनाना

इंस्ट्रक्शन लेखन दिशानिर्देश:

निर्देश स्पष्ट, विशिष्ट होने चाहिए, और Training लक्ष्यों से मेल खाने चाहिए:

अच्छे इंस्ट्रक्शन उदाहरण:

"बैकग्राउंड को संरक्षित करते हुए लाल शर्ट में व्यक्ति को इमेज से हटाएं"
"आसमान को गर्म नारंगी और गुलाबी टोन के साथ सूर्यास्त रंगों में बदलें"
"समग्र संरचना को बनाए रखते हुए बिल्डिंग फेसेड की आर्किटेक्चरल डिटेल को एन्हांस करें"

खराब इंस्ट्रक्शन उदाहरण:

"इसे बेहतर बनाएं" (बहुत अस्पष्ट)
"चीज़ें हटाएं" (क्या हटाना है यह अस्पष्ट)
"इमेज को ठीक करें" (क्या ठीक करने की आवश्यकता है यह निर्दिष्ट नहीं करता)

निर्देश उस प्राकृतिक भाषा से मेल खाने चाहिए जिसका आप अनुमान के दौरान उपयोग करेंगे। यदि आप "बैकग्राउंड हटाएं" कहने की योजना बनाते हैं, तो "आसपास का क्षेत्र हटाएं" के साथ नहीं बल्कि "बैकग्राउंड हटाएं" के साथ Train करें।

डेटा ऑगमेंटेशन रणनीतियाँ:

ऑगमेंटेशन के माध्यम से प्रभावी Dataset साइज़ बढ़ाएं:

इमेज ऑगमेंटेशन (इनपुट और आउटपुट दोनों पर लागू करें):

रैंडम क्रॉप (पेयर्ड क्षेत्रों को बनाए रखना)
हॉरिजॉन्टल फ्लिप
ब्राइटनेस/कंट्रास्ट वेरिएशन (+/- 20%)
रेज़ोल्यूशन स्केलिंग (कई रेज़ोल्यूशन पर Train करें)

इंस्ट्रक्शन ऑगमेंटेशन (फ्रेज़िंग में विविधता लाएं):

"कुत्ते को हटाएं" → "कुत्ते को डिलीट करें", "कुत्ते को बाहर निकालें", "कुत्ते को समाप्त करें"
समान एडिट के कई फ्रेज़िंग पर Train करें
प्राकृतिक भाषा भिन्नता के लिए मॉडल मजबूती में सुधार करता है

Dataset संगठन:

अपने Dataset को व्यवस्थित रूप से संरचित करें:

अपने Dataset को इनपुट इमेज, आउटपुट इमेज, वैकल्पिक रेफरेंस इमेज के लिए अलग-अलग डायरेक्टरी के साथ व्यवस्थित करें, और एक मेटाडेटा फ़ाइल जिसमें Training निर्देश और इनपुट-आउटपुट जोड़ों के बीच संबंध शामिल हैं।

metadata.json फॉर्मेट: मेटाडेटा फ़ाइल में Training सैंपल की एक सरणी होती है, प्रत्येक में एक अद्वितीय ID, इनपुट इमेज पथ, आउटपुट इमेज पथ, इंस्ट्रक्शन टेक्स्ट, और स्टाइल गाइडेंस के लिए वैकल्पिक रेफरेंस इमेज पथ होता है।

Dataset तैयारी आमतौर पर कुल Training प्रोजेक्ट समय का 60-70% उपभोग करती है, लेकिन यहाँ गुणवत्ता Training सफलता निर्धारित करती है।

जटिलता को छोड़ना चाहते हैं? Apatero बिना किसी तकनीकी सेटअप के तुरंत पेशेवर AI परिणाम देता है।

कोई सेटअप नहीं समान गुणवत्ता 30 सेकंड में शुरू करें Apatero मुफ़्त में आज़माएं

क्रेडिट कार्ड की आवश्यकता नहीं

QWEN LoRA Training कॉन्फ़िगरेशन

Dataset तैयार होने के साथ, इष्टतम परिणामों के लिए Training पैरामीटर कॉन्फ़िगर करें।

Training स्क्रिप्ट सेटअप:

आवश्यक लाइब्रेरी इम्पोर्ट करें (LoRA कॉन्फ़िगरेशन के लिए peft, मॉडल लोडिंग के लिए transformers)
अपनी लोकल डायरेक्टरी से बेस Qwen2-VL मॉडल को float16 प्रिसिजन और ऑटोमैटिक डिवाइस मैपिंग के साथ लोड करें
LoRA पैरामीटर कॉन्फ़िगर करें:
- नेटवर्क डायमेंशन के लिए रैंक को 64 पर सेट करें
- स्केलिंग फैक्टर के रूप में अल्फा को 64 पर सेट करें (आमतौर पर रैंक के बराबर)
- अटेंशन प्रोजेक्शन लेयर को टार्गेट करें (q_proj, v_proj, k_proj, o_proj)
- रेगुलराइज़ेशन के लिए 0.05 ड्रॉपआउट का उपयोग करें
- Vision-Language जनरेशन के लिए कार्य प्रकार के रूप में CAUSAL_LM निर्दिष्ट करें
get_peft_model का उपयोग करके बेस मॉडल पर LoRA कॉन्फ़िगरेशन लागू करें
Training हाइपरपैरामीटर कॉन्फ़िगर करें:
- Checkpoint के लिए आउटपुट डायरेक्टरी सेट करें
- 10 एपॉक के लिए Train करें
- प्रति डिवाइस 2 की बैच साइज़ का उपयोग करें 4 ग्रेडिएंट एक्यूमुलेशन स्टेप के साथ (प्रभावी बैच साइज़: 8)
- लर्निंग रेट को 2e-4 पर सेट करें
- Warmup, लॉगिंग, और Checkpoint सेविंग इंटरवल कॉन्फ़िगर करें
- गति और मेमोरी दक्षता के लिए fp16 मिक्स्ड प्रिसिजन Training सक्षम करें
मॉडल, Training आर्ग्युमेंट, और Dataset के साथ Trainer को इनिशियलाइज़ करें
Training प्रोसेस शुरू करें

मुख्य पैरामीटर स्पष्टीकरण:

LoRA रैंक (r):

32: छोटा LoRA, तेज़ Training, सीमित क्षमता
64: संतुलित (अधिकांश कार्यों के लिए अनुशंसित)
128: बड़ा LoRA, अधिक क्षमता, धीमी Training, अधिक VRAM

64 से शुरू करें, अंडरफिटिंग होने पर 128 तक बढ़ाएं।

लर्निंग रेट:

1e-4: रूढ़िवादी, अधिकांश परिदृश्यों के लिए सुरक्षित
2e-4: QWEN LoRA Training के लिए मानक (अनुशंसित)
3e-4: आक्रामक, तेज़ Training, अस्थिरता का जोखिम

एपॉक:

5-8: सरल एकल-कार्य विशेषज्ञता
10-15: मल्टी-टास्क या जटिल डोमेन
20+: आमतौर पर अति-समायोजन, घटता रिटर्न

बैच साइज़:

वास्तविक बैच साइज़: per_device_train_batch_size
प्रभावी बैच साइज़: per_device × gradient_accumulation_steps
टार्गेट प्रभावी बैच साइज़: स्थिर Training के लिए 8-16

24GB GPU पर, per_device_batch_size=2 के साथ accumulation=4 अच्छी तरह से काम करता है।

उपयोग के मामले के अनुसार Training पैरामीटर:

उपयोग मामला	रैंक	LR	एपॉक	बैच साइज़
बैकग्राउंड रिमूवल	64	2e-4	8-10	8
स्टाइल ट्रांसफर	96	1.5e-4	12-15	8
डिटेल एन्हांसमेंट	64	2e-4	10-12	8
ब्रांड सुसंगति	128	1e-4	15-20	8
मल्टी-टास्क जनरल	96	1.5e-4	12-15	8

Training प्रगति की निगरानी करना:

इन Training स्वास्थ्य संकेतकों पर ध्यान दें:

Training लॉस:

Training के पहले 50-70% के लिए लगातार घटना चाहिए
अंतिम 30% में पठार या मामूली वृद्धि सामान्य है (मॉडल कन्वर्ज हो रहा है)
अचानक स्पाइक अस्थिरता का संकेत देते हैं (लर्निंग रेट कम करें)

इवैल्यूएशन लॉस:

Training लॉस को करीब से ट्रैक करना चाहिए
गैप > 20% अति-समायोजन का संकेत देता है (एपॉक कम करें या डेटा बढ़ाएं)

सैंपल आउटपुट:

हर 500 स्टेप पर टेस्ट एडिट जनरेट करें
गुणवत्ता में प्रगतिशील सुधार होना चाहिए
यदि गुणवत्ता पठार या खराब होती है, तो Training अति-समायोजित हो सकती है

QWEN LoRA Training में अति-समायोजन के संकेत

Training लॉस घटता रहता है जबकि इवैल लॉस बढ़ता है
मॉडल Training उदाहरणों को पूरी तरह से पुनरुत्पादित करता है लेकिन नई इमेज पर विफल रहता है
जनरेट किए गए एडिट निर्देशों का पालन करने के बजाय Training डेटा की तरह दिखते हैं

यदि अति-समायोजन होता है, तो एपॉक कम करें या Dataset विविधता बढ़ाएं।

Checkpointing रणनीति:

अन्य 115 कोर्स सदस्यों के साथ जुड़ें

51 पाठों में अपना पहला अल्ट्रा-रियलिस्टिक AI इन्फ्लुएंसर बनाएं

AI Influencers created with ComfyUI - Ultra-realistic AI generated models for content creators

जीवंत त्वचा विवरण, पेशेवर सेल्फी और जटिल दृश्यों के साथ अल्ट्रा-रियलिस्टिक AI इन्फ्लुएंसर बनाएं। एक पैकेज में दो पूर्ण कोर्स प्राप्त करें। तकनीक में महारत हासिल करने के लिए ComfyUI Foundation, और AI क्रिएटर के रूप में खुद को मार्केट करना सीखने के लिए Fanvue Creator Academy।

अपनी सीट क्लेम करें - $199

अर्ली-बर्ड कीमत समाप्त होने में:

दिन

घंटे

मिनट

सेकंड

51 पाठ • 2 पूर्ण कोर्स

एक बार भुगतान

आजीवन अपडेट

$200 बचाएं - कीमत हमेशा के लिए $399 हो जाएगी

हमारे पहले छात्रों के लिए अर्ली-बर्ड डिस्काउंट। हम लगातार अधिक मूल्य जोड़ रहे हैं, लेकिन आप हमेशा के लिए $199 लॉक कर लेते हैं।

शुरुआती-अनुकूल

प्रोडक्शन के लिए तैयार

हमेशा अपडेट

हर 500 स्टेप पर Checkpoint सेव करें। केवल अंतिम Checkpoint न रखें:

output/checkpoint-500/
output/checkpoint-1000/
output/checkpoint-1500/
output/checkpoint-2000/

प्रत्येक Checkpoint के प्रदर्शन का परीक्षण करें। अक्सर "सर्वश्रेष्ठ" Checkpoint अंतिम नहीं होता है (अंतिम अति-समायोजित हो सकता है)।

इन्फ्रास्ट्रक्चर को मैनेज किए बिना सरलीकृत Training के लिए, Apatero.com मैनेज्ड QWEN LoRA Training प्रदान करता है जहाँ आप वेब इंटरफ़ेस के माध्यम से Dataset अपलोड करते हैं और पैरामीटर कॉन्फ़िगर करते हैं, स्वचालित निगरानी और Checkpoint मैनेजमेंट के साथ।

Production में Train किए गए QWEN LoRAs का उपयोग करना

Training पूरी होने के बाद, Production इमेज एडिटिंग के लिए अपने कस्टम QWEN LoRA को डिप्लॉय करें।

ComfyUI में Train किए गए LoRA को लोड करना:

QWEN मॉडल लोड करें (बेस Qwen2-VL)
LoRA वेट लोड करें (आपका Train किया गया qwen_lora.safetensors)
इनपुट इमेज लोड करें
QWEN Text Encode (एडिटिंग इंस्ट्रक्शन)
QWEN Image Edit Node (मॉडल, LoRA, इमेज, इंस्ट्रक्शन)
एडिटेड इमेज सेव करें

LoRA वेट पैरामीटर:

LoRA लोड करते समय, वेट (0.0-1.0) सेट करें:

0.5-0.7: सूक्ष्म विशेष व्यवहार, बेस मॉडल अभी भी प्रभावी
0.8-0.9: मजबूत विशेष व्यवहार (अधिकांश उपयोग के लिए अनुशंसित)
1.0: अधिकतम LoRA प्रभाव
>1.0: LoRA को अति-लागू करना (गुणवत्ता खराब कर सकता है)

0.8 से शुरू करें, परिणामों के आधार पर समायोजित करें।

Production Workflow उदाहरण: प्रोडक्ट बैकग्राउंड रिमूवल

आवश्यक लाइब्रेरी इम्पोर्ट करें (qwen_vl_utils, transformers, peft)
बेस Qwen2-VL-7B-Instruct मॉडल को float16 प्रिसिजन और ऑटोमैटिक डिवाइस मैपिंग के साथ लोड करें
"product_bg_removal" एडॉप्टर नाम के साथ PeftModel का उपयोग करके अपना Train किया गया LoRA लोड करें
Qwen2-VL मॉडल के लिए AutoProcessor लोड करें
इंस्ट्रक्शन टेक्स्ट बनाएं ("बैकग्राउंड हटाएं और क्लीन व्हाइट स्टूडियो बैकग्राउंड के साथ बदलें")
इमेज और टेक्स्ट कंटेंट के साथ मैसेज को चैट टेम्पलेट के रूप में फॉर्मेट करें
मैसेज पर चैट टेम्पलेट लागू करें और इमेज के साथ प्रोसेस करें
मॉडल का उपयोग करके अधिकतम 2048 नए टोकन के साथ एडिटेड इमेज जनरेट करें
आउटपुट को डिकोड करें और QWEN फॉर्मेट विनिर्देशों के अनुसार प्रोसेस करें

बैच प्रोसेसिंग Production पाइपलाइन:

उच्च-वॉल्यूम Production के लिए:

फ़ाइल पैटर्न मैचिंग के लिए glob इम्पोर्ट करें
batch_edit_with_lora फ़ंक्शन परिभाषित करें जो इमेज डायरेक्टरी, इंस्ट्रक्शन, और आउटपुट डायरेक्टरी स्वीकार करता है
इनपुट डायरेक्टरी में सभी JPG इमेज खोजने के लिए glob का उपयोग करें
प्रत्येक इमेज के माध्यम से लूप करें:
- इंस्ट्रक्शन और 0.85 के LoRA वेट के साथ model.edit_image लागू करें
- सेविंग के लिए इनपुट डायरेक्टरी पथ को आउटपुट डायरेक्टरी पथ से बदलें
- परिणाम को आउटपुट स्थान पर सेव करें
- प्रगति मैसेज प्रिंट करें
उदाहरण: इंस्ट्रक्शन "बैकग्राउंड हटाएं, व्हाइट के साथ बदलें, शैडो बनाए रखें" के साथ 100 प्रोडक्ट प्रोसेस करें

मल्टी-LoRA Workflows:

विभिन्न कार्यों के लिए कई विशेष LoRAs लोड करें:

QWEN बेस मॉडल लोड करें
LoRA 1 लोड करें (background_removal, वेट 0.8)
LoRA 2 लोड करें (detail_enhancement, वेट 0.6)
संयुक्त प्रभाव के लिए दोनों लागू करें

LoRAs एडिटिव हैं। संयुक्त वेट कुल 1.5-2.0 से अधिक नहीं होना चाहिए।

गुणवत्ता आश्वासन Workflow:

Production डिप्लॉयमेंट से पहले:

Held-out इमेज पर परीक्षण करें: वे इमेज जो मॉडल ने Training के दौरान नहीं देखी हैं
सुसंगति का मूल्यांकन करें: 10 समान इमेज पर समान एडिट चलाएं, सुसंगति की जाँच करें
बेस मॉडल से तुलना करें: सत्यापित करें कि LoRA वास्तव में बेस QWEN से बेहतर है
एज केस टेस्टिंग: विफलता मोड की पहचान करने के लिए असामान्य इनपुट आज़माएं
यूज़र स्वीकृति परीक्षण: अंतिम उपयोगकर्ताओं से गुणवत्ता का मूल्यांकन करवाएं

सभी QA जाँचें पास करने के बाद ही डिप्लॉय करें।

Production में A/B टेस्टिंग:

LoRA के साथ और बिना समानांतर प्रोसेसिंग चलाएं:

ab_test_edit फ़ंक्शन परिभाषित करें जो image_path और instruction स्वीकार करता है
वर्जन A चलाएं: LoRA के बिना बेस QWEN एडिट
वर्जन B चलाएं: कस्टम LoRA के साथ QWEN एडिट
दोनों परिणाम और मेटाडेटा (इमेज पथ और इंस्ट्रक्शन) वाली डिक्शनरी रिटर्न करें

समय के साथ ट्रैक करें कि कौन सा वर्जन बेहतर प्रदर्शन करता है, परिणामों के आधार पर LoRA Training को रिफाइन करें।

QWEN LoRA Training समस्याओं का निवारण

QWEN LoRA Training में विशिष्ट विफलता मोड हैं। उन्हें पहचानना और ठीक करना समय और कंप्यूट बचाता है।

समस्या: Training लॉस कम नहीं होता

Training के दौरान लॉस फ्लैट रहता है या बढ़ता है।

कारण और सुधार:

लर्निंग रेट बहुत कम: 1e-4 से 2e-4 या 3e-4 तक बढ़ाएं
Dataset बहुत छोटा: न्यूनतम 100-150 सैंपल की आवश्यकता है, अधिक डेटा जोड़ें
इंस्ट्रक्शन बहुत अस्पष्ट: इंस्ट्रक्शन गुणवत्ता को कड़ा करें, अधिक विशिष्ट बनें
मॉडल वास्तव में Train नहीं हो रहा: सत्यापित करें कि LoRA लेयर में ग्रेडिएंट फ्लो हो रहे हैं

समस्या: मॉडल Training डेटा को याद कर लेता है (अति-समायोजन)

Training उदाहरणों पर परफेक्ट, नई इमेज पर विफल।

सुधार:

एपॉक कम करें: 15 → 10 या 8
LoRA ड्रॉपआउट बढ़ाएं: 0.05 → 0.1
LoRA रैंक कम करें: 128 → 64
अधिक विविध Training डेटा जोड़ें

समस्या: एडिटेड इमेज बेस QWEN से कम गुणवत्ता की

कस्टम LoRA बेस मॉडल से खराब परिणाम उत्पन्न करता है।

कारण:

Training डेटा गुणवत्ता खराब: ग्राउंड ट्रुथ आउटपुट वास्तव में अच्छे एडिट नहीं हैं
LoRA वेट बहुत अधिक: 1.0 से 0.7-0.8 तक कम करें
Training अति-समायोजित: पहले का Checkpoint उपयोग करें (अंतिम से 500 स्टेप पहले)
कार्य मिसमैच: LoRA एक कार्य प्रकार पर Train किया गया, अलग कार्य के लिए उपयोग किया जा रहा है

समस्या: Training के दौरान CUDA मेमोरी समाप्त

Training के दौरान OOM त्रुटियाँ।

प्राथमिकता क्रम में सुधार:

बैच साइज़ कम करें: 2 → प्रति डिवाइस 1
ग्रेडिएंट एक्यूमुलेशन बढ़ाएं: प्रभावी बैच साइज़ बनाए रखें
LoRA रैंक कम करें: 128 → 64
ग्रेडिएंट Checkpointing सक्षम करें: मेमोरी के लिए गति का ट्रेड करता है
छोटे बेस मॉडल का उपयोग करें: Qwen2-VL-7B → Qwen2-VL-2B

समस्या: Training अत्यधिक धीमी

अपेक्षा से 2-3x अधिक समय लगता है।

कारण:

बैच साइज़ बहुत छोटी: VRAM अनुमति देता है तो बढ़ाएं
ग्रेडिएंट एक्यूमुलेशन बहुत अधिक: Training धीमी करता है, संभव हो तो कम करें
बहुत अधिक डेटा वर्कर: dataloader_num_workers=2-4 सेट करें, अधिक नहीं
CPU बाधा: Training के दौरान CPU उपयोग की जाँच करें
डिस्क I/O बाधा: यदि HDD पर है तो Dataset को SSD में स्थानांतरित करें

समस्या: लोड होने पर LoRA आउटपुट को प्रभावित नहीं करता

Train किया गया LoRA कोई प्रभाव नहीं डालता प्रतीत होता है।

सुधार:

LoRA वेट बढ़ाएं: 0.5 → 0.8 या 0.9
सत्यापित करें कि LoRA वास्तव में लोड हुआ: कंसोल में लोड त्रुटियों की जाँच करें
एडॉप्टर नाम जाँचें: यदि कई लोड हैं तो सही एडॉप्टर को रेफरेंस कर रहे हैं यह सुनिश्चित करें
Training उदाहरणों के साथ परीक्षण करें: Training डेटा को पूरी तरह से पुनरुत्पादित करना चाहिए

अंतिम विचार

कस्टम QWEN LoRA Training QWEN को जनरल-पर्पस इमेज एडिटर से बदलकर आपकी विशिष्ट एडिटिंग आवश्यकताओं से सटीक रूप से मेल खाने वाले विशेष टूल में बदल देता है। Dataset तैयारी में निवेश (प्रोजेक्ट समय का 60-70%) और Training (4-8 घंटे कंप्यूट) तब भुगतान करता है जब आपको स्केल पर सुसंगत, ब्रांड-संरेखित, या डोमेन-विशिष्ट इमेज एडिटिंग की आवश्यकता होती है।

सफल QWEN LoRA Training की कुंजी मात्रा से अधिक Dataset गुणवत्ता है। स्पष्ट निर्देशों के साथ 300 उच्च-गुणवत्ता, सटीक रूप से एनोटेट किए गए पहले/बाद के जोड़े 1000 औसत दर्जे के जोड़ों से बेहतर प्रदर्शन करते हैं। Dataset क्यूरेशन पर समय बिताएं, यह सुनिश्चित करते हुए कि ग्राउंड ट्रुथ आउटपुट ठीक उसी एडिटिंग गुणवत्ता का प्रतिनिधित्व करते हैं जिसे आप मॉडल से पुनरुत्पादित करना चाहते हैं।

एकल-कार्य विशेषज्ञता (बैकग्राउंड रिमूवल, विशिष्ट स्टाइल ट्रांसफर) के लिए, 300-500 सैंपल पर 8-10 एपॉक के साथ LoRA रैंक 64 4-6 घंटे की Training में उत्कृष्ट परिणाम प्रदान करता है। मल्टी-टास्क या जटिल डोमेन एप्लिकेशन के लिए, 800+ सैंपल पर 12-15 एपॉक के साथ रैंक 96-128 तक बढ़ाएं।

इस गाइड में Workflows इन्फ्रास्ट्रक्चर सेटअप से लेकर Production डिप्लॉयमेंट और ट्रबलशूटिंग तक सब कुछ कवर करते हैं। Training प्रोसेस और Dataset आवश्यकताओं को आंतरिक बनाने के लिए छोटे पैमाने के प्रयोगों (100-150 सैंपल, एकल एडिटिंग कार्य) से शुरू करें। जैसे-जैसे आप Training पाइपलाइन में विश्वास बनाते हैं, बड़े, मल्टी-टास्क Dataset की ओर बढ़ें। विशिष्ट उपयोग मामलों के लिए पूर्व-Train किए गए QWEN LoRAs के व्यावहारिक संग्रह के लिए, हमारा QWEN Smartphone LoRAs कलेक्शन देखें।

चाहे आप स्थानीय रूप से Train करें या Apatero.com पर मैनेज्ड Training का उपयोग करें (जो स्वचालित रूप से इन्फ्रास्ट्रक्चर, निगरानी, और डिप्लॉयमेंट को संभालता है), कस्टम QWEN LoRA Training में महारत हासिल करना केवल बेस मॉडल के साथ असंभव क्षमताएं प्रदान करता है। विशेष एडिटिंग जो ब्रांड दिशानिर्देशों से मेल खाती है, डोमेन-विशिष्ट एन्हांसमेंट पाइपलाइन, और स्केल पर सुसंगत स्वचालित एडिटिंग सभी ठीक से Train किए गए कस्टम LoRAs के साथ प्राप्य हो जाते हैं।