Is this ai image generation tutorial suitable for beginners?

This tutorial is designed to be accessible for learners at various skill levels. We provide clear explanations and step-by-step instructions to help you understand ai image generation concepts effectively.

How long does it take to complete this ai image generation tutorial?

This tutorial has an estimated reading time of 22 minutes. However, we recommend taking additional time to practice the concepts and techniques covered to fully master the material.

Where can I find more ai image generation tutorials and resources?

You can find more ai image generation tutorials in our AI Image Generation category section. We also recommend exploring our related articles and following our blog for the latest updates on ai image generation techniques and best practices.

/ AI Image Generation / LoRA प्रशिक्षण संपूर्ण गाइड 2025 - आपको वास्तव में कितने हेडशॉट्स और बॉडी शॉट्स की आवश्यकता है?

AI Image Generation • October 16, 2025 • 22 मिनट में पढ़ें

LoRA प्रशिक्षण संपूर्ण गाइड 2025 - आपको वास्तव में कितने हेडशॉट्स और बॉडी शॉट्स की आवश्यकता है?

इस निश्चित 2025 गाइड के साथ LoRA प्रशिक्षण में महारत हासिल करें। हेडशॉट्स और बॉडी शॉट्स के बीच इष्टतम डेटासेट विभाजन, परीक्षित प्रशिक्षण रणनीतियां, और 100+ छवि डेटासेट से वास्तविक परिणाम सीखें।

आप अपना पहला कैरेक्टर LoRA (लोरा) प्रशिक्षित करने के लिए तैयार हैं, लेकिन इंटरनेट आपको अत्यधिक विरोधाभासी सलाह देता है। कुछ ट्यूटोरियल कहते हैं कि 5-10 छवियां पर्याप्त हैं, अन्य 200+ की मांग करते हैं। कोई भी इस बात पर सहमत नहीं है कि कितनी हेडशॉट्स (headshots) बनाम पूर्ण बॉडी शॉट्स (body shots) होनी चाहिए। और यदि आप एक LoRA प्रशिक्षित करना चाहते हैं जो SFW और NSFW दोनों सामग्री को संभालता है तो क्या करें?

20 से 200+ छवियों तक के डेटासेट के साथ दर्जनों प्रशिक्षण रन का परीक्षण करने के बाद, स्पष्ट पैटर्न उभरते हैं कि वास्तव में क्या काम करता है। सच्चाई? डेटासेट (dataset) का आकार और संरचना अत्यधिक महत्वपूर्ण है, लेकिन इष्टतम कॉन्फ़िगरेशन पूरी तरह से इस बात पर निर्भर करता है कि आप अपने LoRA से क्या करवाना चाहते हैं।

यह गाइड LoRA प्रशिक्षण डेटासेट बनाने के लिए परीक्षित, वास्तविक दुनिया की रणनीतियों के साथ भ्रम को दूर करती है जो सुसंगत, उच्च-गुणवत्ता (quality) के परिणाम उत्पन्न करते हैं। ComfyUI वर्कफ़्लो में अपने प्रशिक्षित LoRAs का उपयोग करने के लिए, हमारी ComfyUI बेसिक्स गाइड और आवश्यक कस्टम नोड्स देखें।

ComfyUI सीख रहे हैं? अन्य 115 कोर्स सदस्यों के साथ जुड़ें

ComfyUI + AI इन्फ्लुएंसर मार्केटिंग को कवर करने वाले 51 पाठ। अर्ली-बर्ड मूल्य निर्धारण जल्द समाप्त होगा।

आप क्या सीखेंगे: विभिन्न LoRA प्रकारों और उपयोग के मामलों के लिए इष्टतम डेटासेट आकार, आपके लक्ष्यों के आधार पर परफेक्ट हेडशॉट-टू-बॉडी शॉट अनुपात, फेस-ओन्ली, फुल-बॉडी, और मल्टी-परपज़ LoRAs के लिए परीक्षित प्रशिक्षण रणनीतियां, SFW/NSFW कैरेक्टर सुसंगतता के लिए 100+ छवि डेटासेट की संरचना कैसे करें, डेटासेट तैयारी तकनीकें जो ओवरफिटिंग (overfitting) को रोकती हैं और गुणवत्ता में सुधार करती हैं, और विशिष्ट छवि गणना और संरचना के साथ वास्तविक दुनिया के प्रशिक्षण परिणाम।

LoRA प्रशिक्षण मूल सिद्धांत को समझना - क्या वास्तव में मायने रखता है

डेटासेट विशिष्टताओं में गोता लगाने से पहले, यह समझना कि LoRAs क्या सीख रहे हैं, आपको प्रशिक्षण डेटा संरचना के बारे में सूचित निर्णय लेने में मदद करता है।

LoRAs वास्तव में क्या सीखते हैं: LoRAs (Low-Rank Adaptations / लो-रैंक एडाप्टेशन) आपके प्रशिक्षण डेटा के लिए विशिष्ट पैटर्न को कैप्चर करके बेस मॉडल आउटपुट को संशोधित करना सीखते हैं। वे चेहरे की विशेषताएं, शरीर के अनुपात, कपड़ों की शैली, प्रकाश की प्राथमिकताएं, और आपके डेटासेट में मौजूद कलात्मक विशेषताओं को सीख रहे हैं।

ये पैटर्न जितनी अधिक सुसंगत रूप से दिखाई देते हैं, LoRA उन्हें उतनी ही बेहतर तरीके से कैप्चर और पुनरुत्पादित करता है।

डेटासेट संरचना क्यों मायने रखती है:

डेटासेट विशेषता	LoRA पर प्रभाव	प्रशिक्षण विचार
छवि गणना	सुसंगतता शक्ति	अधिक छवियां = बेहतर सुसंगतता (एक सीमा तक)
कोणों की विविधता	पोज़ लचीलापन	अधिक कोण = अधिक बहुमुखी आउटपुट
सुसंगत विषय	पहचान संरक्षण	समान विषय = बेहतर कैरेक्टर प्रतिधारण
विविध पृष्ठभूमि	दृश्य लचीलापन	विविध पृष्ठभूमि = बेहतर अनुकूलन
कपड़ों की भिन्नता	शैली रेंज	अधिक विविधता = कम कपड़े ओवरफिटिंग

ओवरफिटिंग समस्या: बहुत अधिक समान छवियां ओवरफिटिंग का कारण बनती हैं - LoRA सामान्य कैरेक्टर विशेषताओं को सीखने के बजाय विशिष्ट फोटो को याद करता है। यह समस्याएं पैदा करता है जब आप अपने प्रशिक्षण डेटा से भिन्न दृश्य उत्पन्न करने का प्रयास करते हैं।

कोण, प्रकाश, और संदर्भ में विविधता कैरेक्टर सुसंगतता बनाए रखते हुए ओवरफिटिंग को रोकती है।

गुणवत्ता बनाम मात्रा: दस उच्च-गुणवत्ता, अच्छी तरह से संरचित, विविध छवियां पचास लगभग समान सेल्फी से बेहतर प्रदर्शन करती हैं। गुणवत्ता, विविधता, और सुसंगतता कच्ची छवि गणना से अधिक मायने रखती है।

इसका मतलब यह नहीं है कि अधिक छवियां मदद नहीं कर सकती हैं - इसका मतलब है कि प्रशिक्षण पर यादृच्छिक छवियां फेंकना बेहतर परिणाम नहीं देगा।

प्रशिक्षण समय और संसाधन:

डेटासेट आकार	प्रशिक्षण समय (RTX 3090)	VRAM आवश्यक	भंडारण	लागत (क्लाउड)
20 छवियां	30-60 मिनट	10-12GB	100-200MB	$2-5
50 छवियां	1-2 घंटे	12-16GB	250-500MB	$5-10
100 छवियां	2-4 घंटे	16-20GB	500MB-1GB	$10-20
200+ छवियां	4-8 घंटे	20-24GB	1-2GB	$20-40

इन संसाधन आवश्यकताओं को समझना आपको प्रशिक्षण रन को प्रभावी ढंग से योजना बनाने में मदद करता है। यदि आप सीमित VRAM के साथ काम कर रहे हैं, तो अनुकूलन रणनीतियों के लिए हमारी संपूर्ण लो-VRAM सर्वाइवल गाइड देखें।

उन उपयोगकर्ताओं के लिए जो प्रशिक्षण बुनियादी ढांचे का प्रबंधन किए बिना उत्कृष्ट LoRAs चाहते हैं, Apatero.com जैसे प्लेटफॉर्म स्वचालित अनुकूलन के साथ सुव्यवस्थित प्रशिक्षण इंटरफेस प्रदान करते हैं।

परीक्षित फॉर्मूला - डेटासेट आकार जो वास्तव में काम करते हैं

दर्जनों प्रशिक्षण रन में व्यापक परीक्षण के आधार पर, यहां डेटासेट कॉन्फ़िगरेशन हैं जो विभिन्न LoRA प्रकारों के लिए लगातार उच्च-गुणवत्ता के परिणाम उत्पन्न करते हैं।

फेस-ओन्ली LoRA (केवल हेडशॉट्स/पोर्ट्रेट): यदि आपका लक्ष्य हेडशॉट और आधे-लंबाई के पोर्ट्रेट उत्पन्न करना है, तो आपको पूर्ण-शरीर छवियों की आवश्यकता नहीं है। पूरी तरह से चेहरे की सुसंगतता पर ध्यान केंद्रित करें।

इष्टतम कॉन्फ़िगरेशन: 100+ चेहरे-केंद्रित छवियां

70-80 क्लोज-अप हेडशॉट्स (कंधे और ऊपर)
20-30 आधे-लंबाई के पोर्ट्रेट (कमर और ऊपर)
अभिव्यक्तियों, कोणों, और प्रकाश की विविधता
सभी छवियों में सुसंगत विषय

वास्तविक दुनिया के परिणाम: परीक्षण में, 100+ चेहरे की छवियों ने विभिन्न प्रॉम्प्ट, शैलियों, और संदर्भों में मजबूत पहचान संरक्षण के साथ उत्कृष्ट चेहरे की सुसंगतता उत्पन्न की। LoRA विविध दृश्यों में विश्वसनीय रूप से पहचानने योग्य कैरेक्टर चेहरे उत्पन्न करता है। चरम सुसंगतता की आवश्यकता वाले विज़ुअल नॉवेल कैरेक्टर निर्माण के लिए, हमारी VNCCS गाइड भी देखें।

छोटे डेटासेट (20-30 चेहरे की छवियां) ने काम किया लेकिन कमजोर सुसंगतता और कभी-कभी चेहरे की विशेषता में बदलाव दिखाया।

फुल-बॉडी LoRA (पूर्ण कैरेक्टर): सिर से पैर तक सुसंगत कैरेक्टर उपस्थिति के साथ पूर्ण-शरीर छवियां उत्पन्न करने के लिए, आपको शरीर के अनुपात प्रशिक्षण डेटा की आवश्यकता है।

इष्टतम कॉन्फ़िगरेशन: 100+ कुल छवियां 50/50 विभाजित

50+ हेडशॉट्स और क्लोज-अप पोर्ट्रेट
50+ पूर्ण-शरीर शॉट्स (सिर-से-पैर तक दृश्यमान)
पोज़, कपड़ों, और संदर्भों का मिश्रण
सभी छवियों में सुसंगत कैरेक्टर

50/50 विभाजन क्यों काम करता है: यह संतुलित दृष्टिकोण सुनिश्चित करता है कि LoRA क्लोज-अप से चेहरे के विवरण सीखता है जबकि पूर्ण-शरीर शॉट्स से शरीर के अनुपात को समझता है। किसी भी प्रकार की ओर बहुत अधिक झुकाव कमजोरियां पैदा करता है।

बहुत अधिक हेडशॉट्स और LoRA शरीर की पीढ़ी के साथ संघर्ष करता है। बहुत अधिक पूर्ण-शरीर शॉट्स और चेहरे की सुसंगतता प्रभावित होती है।

मल्टी-परपज़ LoRA (SFW + NSFW): सुरक्षित-कार्य और वयस्क सामग्री दोनों को सुसंगत कैरेक्टर प्रतिनिधित्व के साथ संभालने वाले LoRAs के लिए, डेटासेट पृथक्करण और मात्रा काफी मायने रखती है।

इष्टतम कॉन्फ़िगरेशन: 200+ कुल छवियां सामग्री प्रकार द्वारा विभाजित

100+ SFW छवियां (50+ हेडशॉट्स, 50+ बॉडी शॉट्स)
100+ NSFW छवियां (50+ हेडशॉट्स, 50+ बॉडी शॉट्स)
प्रत्येक श्रेणी के भीतर कोण और विविधता संतुलन बनाए रखें
सभी छवियों में समान कैरेक्टर

NSFW प्रशिक्षण को अधिक छवियों की आवश्यकता क्यों है: मॉडल के पास NSFW संरचनाओं के बारे में कम पूर्व-मौजूद ज्ञान है, कैरेक्टर सुसंगतता बनाए रखते हुए इन पैटर्न को सीखने के लिए अधिक प्रशिक्षण डेटा की आवश्यकता होती है।

100/100 विभाजन किसी भी श्रेणी में ओवरफिट किए बिना दोनों सामग्री प्रकारों का पर्याप्त प्रतिनिधित्व सुनिश्चित करता है।

परीक्षण परिणाम:

डेटासेट प्रकार	छवि गणना	चेहरा सुसंगतता	शरीर सुसंगतता	बहुमुखीता	समग्र गुणवत्ता
फेस-ओन्ली	100+ चेहरे	उत्कृष्ट	N/A	मध्यम	हेडशॉट्स के लिए उत्कृष्ट
फुल-बॉडी	50/50 विभाजन (100 कुल)	उत्कृष्ट	उत्कृष्ट	उच्च	समग्र रूप से उत्कृष्ट
SFW+NSFW	100/100 विभाजन (200 कुल)	उत्कृष्ट	उत्कृष्ट	बहुत उच्च	दोनों श्रेणियों में उत्कृष्ट
छोटा डेटासेट	20-30 छवियां	अच्छा	कमजोर	कम	उपयोगी लेकिन सीमित

न्यूनतम व्यवहार्य डेटासेट: जबकि 100+ छवियां इष्टतम हैं, आप 20-30 उच्च-गुणवत्ता, विविध छवियों के साथ उपयोग योग्य LoRAs प्रशिक्षित कर सकते हैं। कमजोर सुसंगतता और कम बहुमुखीता की उम्मीद करें, लेकिन LoRA बुनियादी कैरेक्टर विशेषताओं को कैप्चर करेगा।

यह न्यूनतम दृष्टिकोण व्यक्तिगत परियोजनाओं और प्रयोग के लिए काम करता है लेकिन पेशेवर या वाणिज्यिक कार्य के लिए अनुशंसित नहीं है।

डेटासेट तैयारी - अपना प्रशिक्षण सेट बनाना

गुणवत्ता डेटासेट तैयारी मात्रा जितनी ही महत्वपूर्ण है। यहां बताया गया है कि कैसे प्रशिक्षण सेट बनाएं जो उत्कृष्ट LoRAs उत्पन्न करते हैं।

छवि चयन मानदंड:

मानदंड	यह क्यों मायने रखता है	कैसे लागू करें
सुसंगत विषय	पहचान संरक्षण	सभी छवियों में एक ही व्यक्ति/कैरेक्टर
विविध कोण	पोज़ लचीलापन	सामने, 3/4, साइड, पीछे के दृश्य
विभिन्न अभिव्यक्तियां	भावनात्मक रेंज	खुश, तटस्थ, गंभीर, आदि।
विविध प्रकाश	प्रकाश अनुकूलन	प्राकृतिक, स्टूडियो, नाटकीय, मुलायम
एकाधिक पोशाकें	कपड़े ओवरफिटिंग से बचें	कम से कम 5-10 विभिन्न पोशाकें
साफ पृष्ठभूमि	विषय पर ध्यान केंद्रित करें	न्यूनतम पृष्ठभूमि जटिलता

आस्पेक्ट रेशियो वितरण: आधुनिक LoRA प्रशिक्षण एकाधिक आस्पेक्ट रेशियो को संभालता है। अपने प्रशिक्षण डेटा को इस बात से मिलाने के लिए विविधता लाएं कि आप LoRA का उपयोग कैसे करेंगे।

अनुशंसित वितरण:

40% वर्ग (1:1) - हेडशॉट्स, क्लोज-अप
30% पोर्ट्रेट (3:4 या 2:3) - पूर्ण-शरीर खड़े
20% लैंडस्केप (4:3 या 3:2) - पूर्ण-शरीर एक्शन
10% अल्ट्रा-वाइड या अल्ट्रा-टॉल - रचनात्मक संरचनाएं

छवि गुणवत्ता आवश्यकताएं:

मुफ़्त ComfyUI वर्कफ़्लो

इस लेख में तकनीकों के लिए मुफ़्त ओपन-सोर्स ComfyUI वर्कफ़्लो खोजें। ओपन सोर्स शक्तिशाली है।

100% मुफ़्त MIT लाइसेंस प्रोडक्शन के लिए तैयार स्टार करें और आज़माएं

गुणवत्ता कारक	न्यूनतम	अनुशंसित	नोट्स
रिज़ॉल्यूशन	512x512	1024x1024+	उच्चतर बेहतर है
फोकस	तीक्ष्ण विषय	पूरी तरह से तीक्ष्ण विषय	धुंधलापन प्रशिक्षण को खराब करता है
प्रकाश	दृश्यमान विशेषताएं	अच्छी रोशनी, स्पष्ट विवरण	भारी छाया से बचें
संपीड़न	हल्का JPEG	PNG या उच्च-गुणवत्ता JPEG	संपीड़न आर्टिफैक्ट से बचें

प्रशिक्षण डेटा में क्या बचें: भारी फ़िल्टर या संपादित छवियां शामिल न करें - Instagram फ़िल्टर प्रशिक्षण को भ्रमित करते हैं। एकाधिक लोगों वाली छवियों से बचें जब तक कि आप एकल विषय में क्रॉप न कर सकें। उन छवियों को छोड़ें जहां विषय आंशिक रूप से अस्पष्ट या कट ऑफ है। कम-रिज़ॉल्यूशन या भारी संपीड़ित छवियों को बाहर करें।

अपने डेटासेट को कैप्शन करना:

कैप्शनिंग दृष्टिकोण	फायदे	नुकसान	सर्वोत्तम के लिए
ऑटो-कैप्शनिंग (BLIP)	तेज़, सुसंगत	सामान्य विवरण	बड़े डेटासेट
मैन्युअल कैप्शनिंग	सटीक, विस्तृत	समय लेने वाला	गुणवत्ता-केंद्रित
हाइब्रिड दृष्टिकोण	संतुलित	मध्यम प्रयास	अधिकांश परियोजनाएं

निर्देशिका संरचना: प्रशिक्षण उपकरणों के लिए अपने डेटासेट को तार्किक रूप से व्यवस्थित करें। headshots, body_shots, sfw, और nsfw श्रेणियों के लिए सबफ़ोल्डर के साथ एक training_dataset फ़ोल्डर बनाएं। प्रत्येक छवि फ़ाइल में समान नाम के साथ एक संबंधित .txt कैप्शन फ़ाइल होनी चाहिए।

अधिकांश प्रशिक्षण उपकरण एक ही निर्देशिका में छवियां और संबंधित .txt कैप्शन फ़ाइलों की अपेक्षा करते हैं।

प्रशिक्षण पैरामीटर जो वास्तव में मायने रखते हैं

डेटासेट संरचना से परे, प्रशिक्षण पैरामीटर LoRA गुणवत्ता को काफी प्रभावित करते हैं। यहां परीक्षित कॉन्फ़िगरेशन हैं जो लगातार अच्छे परिणाम उत्पन्न करते हैं।

मुख्य प्रशिक्षण पैरामीटर:

पैरामीटर	छोटा डेटासेट (20-30)	मध्यम डेटासेट (50-100)	बड़ा डेटासेट (100+)
प्रशिक्षण स्टेप	1000-1500	2000-3000	3000-5000
लर्निंग रेट	1e-4 से 5e-4	5e-5 से 1e-4	1e-5 से 5e-5
बैच साइज़	1-2	2-4	4-8
नेटवर्क रैंक	8-16	16-32	32-64
नेटवर्क अल्फा	8	16	32

लर्निंग रेट प्रभाव: लर्निंग रेट (learning rate) नियंत्रित करती है कि LoRA प्रशिक्षण डेटा से कितनी आक्रामक रूप से सीखता है। बहुत अधिक ओवरफिटिंग और अस्थिरता का कारण बनता है। बहुत कम का मतलब है कि कई स्टेप के साथ भी अपर्याप्त सीखना।

रूढ़िवादी लर्निंग रेट (1e-4) के साथ शुरू करें और ओवरफिटिंग को रोकने के लिए बड़े डेटासेट के लिए कम करें।

स्टेप गणना निर्धारण: कुल स्टेप की गणना इस प्रकार करें: (छवियों_की_संख्या × epochs) / batch_size

100 छवियों के लिए 30 epochs और batch size 2 के साथ: (100 × 30) / 2 = 1500 स्टेप

अधिकांश प्रशिक्षण उपकरण आपकी epoch सेटिंग के आधार पर इसे स्वचालित रूप से गणना करते हैं।

नेटवर्क रैंक की व्याख्या:

रैंक	प्रशिक्षित पैरामीटर	प्रशिक्षण समय	गुणवत्ता	फ़ाइल साइज़
8	न्यूनतम	तेज़	अच्छा	छोटा (~10MB)
16	कम	मध्यम	बेहतर	मध्यम (~20MB)
32	मध्यम	धीमा	उत्कृष्ट	मानक (~40MB)
64	उच्च	धीमा	क्षीण रिटर्न	बड़ा (~80MB)

उच्च रैंक LoRA को अधिक जटिल विशेषताएं सीखने की अनुमति देता है लेकिन ओवरफिटिंग से बचने के लिए अधिक प्रशिक्षण डेटा की आवश्यकता होती है।

प्रशिक्षण प्लेटफॉर्म तुलना:

प्लेटफॉर्म	उपयोग में आसानी	नियंत्रण	लागत	सर्वोत्तम के लिए
Kohya GUI (स्थानीय)	मध्यम	पूर्ण	मुफ़्त (GPU लागत)	तकनीकी उपयोगकर्ता
CivitAI प्रशिक्षण	आसान	सीमित	क्रेडिट-आधारित	शुरुआती
Apatero.com	बहुत आसान	अनुकूलित	सब्सक्रिप्शन	पेशेवर कार्य
Google Colab	मध्यम	उच्च	मुफ़्त/भुगतान	प्रयोग

प्रशिक्षण प्रगति की निगरानी: ओवरफिटिंग के संकेतों पर नज़र रखें - प्रशिक्षण लॉस शून्य के पास पहुंचता है जबकि वैलिडेशन लॉस बढ़ता है जो ओवरफिटिंग को इंगित करता है। सीखने की प्रगति को विज़ुअलाइज़ करने के लिए हर कुछ सौ स्टेप में सैंपल जनरेशन करें।

जब सैंपल गुणवत्ता पठार हो जाए तो प्रशिक्षण बंद करें - अतिरिक्त स्टेप परिणामों में सुधार नहीं करेंगे।

जटिलता को छोड़ना चाहते हैं? Apatero बिना किसी तकनीकी सेटअप के तुरंत पेशेवर AI परिणाम देता है।

कोई सेटअप नहीं समान गुणवत्ता 30 सेकंड में शुरू करें Apatero मुफ़्त में आज़माएं

क्रेडिट कार्ड की आवश्यकता नहीं

सामान्य प्रशिक्षण गलतियां और उनसे कैसे बचें

अनुभवी रचनाकार भी प्रशिक्षण गलतियां करते हैं जो LoRA गुणवत्ता को खराब करती हैं। यहां सबसे आम मुद्दे और उनके समाधान हैं।

गलती 1 - अपर्याप्त डेटासेट विविधता:

समस्या	लक्षण	समाधान
सभी एक ही कोण	केवल एक दृष्टिकोण से काम करता है	सामने, 3/4, साइड, पीछे के कोण शामिल करें
एक ही पोशाक	LoRA हमेशा वह पोशाक उत्पन्न करता है	5-10+ विभिन्न पोशाकों का उपयोग करें
समान पृष्ठभूमि	विशिष्ट दृश्यों में ओवरफिट	पृष्ठभूमि को काफी हद तक विविधित करें
समान अभिव्यक्तियां	सीमित भावनात्मक रेंज	विविध अभिव्यक्तियां शामिल करें

गलती 2 - बहुत अधिक समान छवियों से ओवरफिटिंग: 100 लगभग समान सेल्फी पर प्रशिक्षण एक ऐसा LoRA उत्पन्न करता है जो केवल उस विशिष्ट पोज़ और प्रकाश के लिए काम करता है। मॉडल कैरेक्टर विशेषताओं को सीखने के बजाय फोटो को याद करता है।

समाधान: सुसंगत कैरेक्टर प्रतिनिधित्व के भीतर अधिकतम विविधता के लिए डेटासेट क्यूरेट करें।

गलती 3 - असंगत विषय: एकल डेटासेट में एकाधिक विभिन्न लोगों या पात्रों का उपयोग प्रशिक्षण को भ्रमित करता है। LoRA सभी विषयों को एक साथ सीखने का प्रयास करता है, असंगत परिणाम उत्पन्न करता है।

समाधान: एक LoRA = एक विषय। विभिन्न पात्रों के लिए अलग LoRAs प्रशिक्षित करें।

गलती 4 - गलत लर्निंग रेट:

लर्निंग रेट	परिणाम	सुधार
बहुत उच्च (1e-3+)	अस्थिर प्रशिक्षण, ओवरफिटिंग	1e-4 या कम तक कम करें
बहुत कम (1e-6)	अपर्याप्त सीखना	5e-5 से 1e-4 तक बढ़ाएं

गलती 5 - प्रशिक्षण मेट्रिक्स को नज़रअंदाज़ करना: लॉस कर्व्स की निगरानी किए बिना अंधाधुंध प्रशिक्षण चलाना उप-इष्टतम परिणामों की ओर ले जाता है। प्रशिक्षण पूर्ण होने से बहुत पहले ओवरफिट हो सकता है या शुरू में योजनाबद्ध की तुलना में अधिक स्टेप की आवश्यकता हो सकती है।

समाधान: हर 200-500 स्टेप में सैंपल आउटपुट की जांच करें और लॉस कर्व्स देखें।

गलती 6 - कम-गुणवत्ता स्रोत छवियां:

गुणवत्ता मुद्दा	प्रभाव	समाधान
कम रिज़ॉल्यूशन	धुंधले LoRA आउटपुट	1024px+ स्रोत छवियों का उपयोग करें
भारी संपीड़न	जनरेशन में आर्टिफैक्ट	PNG या उच्च-गुणवत्ता JPEG का उपयोग करें
खराब प्रकाश	असंगत विशेषताएं	केवल अच्छी रोशनी वाली स्रोत छवियां

गलती 7 - जटिलता के लिए बहुत छोटा डेटासेट: 20 छवियों के साथ एक मल्टी-स्टाइल, मल्टी-आउटफिट, मल्टी-कॉन्टेक्स्ट LoRA प्रशिक्षित करने का प्रयास करना मॉडल को उन सभी भिन्नताओं को सीखने के लिए पर्याप्त डेटा प्रदान नहीं करता है।

समाधान: डेटासेट आकार को जटिलता लक्ष्यों से मिलाएं। सरल कैरेक्टर LoRA = 20-30 छवियां। जटिल बहुमुखी LoRA = 100+ छवियां। बचने के लिए अधिक सामान्य नुकसानों के लिए, 10 सामान्य ComfyUI शुरुआती गलतियों पर हमारी गाइड देखें।

उन्नत प्रशिक्षण रणनीतियां और अनुकूलन

बुनियादी प्रशिक्षण से परे, उन्नत तकनीकें LoRA गुणवत्ता और बहुमुखीता को अनुकूलित करती हैं।

मल्टी-कॉन्सेप्ट प्रशिक्षण: एकाधिक संबंधित अवधारणाओं (विभिन्न शैलियों में एक ही कैरेक्टर) पर एकल LoRA प्रशिक्षित करने के लिए सावधानीपूर्वक डेटासेट पृथक्करण और बढ़ी हुई छवि गणना की आवश्यकता होती है।

दृष्टिकोण: प्रति अवधारणा/शैली 50+ छवियां जिसे आप कैप्चर करना चाहते हैं। LoRA को अंतर करने में मदद करने के लिए प्रत्येक अवधारणा के लिए विशिष्ट कैप्शन कीवर्ड का उपयोग करें।

क्रिएटर प्रोग्राम

कंटेंट बनाकर $1,250+/महीना कमाएं

हमारे विशेष क्रिएटर एफिलिएट प्रोग्राम में शामिल हों। वायरल वीडियो प्रदर्शन के आधार पर भुगतान पाएं। पूर्ण रचनात्मक स्वतंत्रता के साथ अपनी शैली में कंटेंट बनाएं।

$100

300K+ views

$300

1M+ views

$500

5M+ views

अभी आवेदन करें - कमाना शुरू करें

साप्ताहिक भुगतान

कोई अग्रिम लागत नहीं

पूर्ण रचनात्मक स्वतंत्रता

प्रोग्रेसिव प्रशिक्षण: कम लर्निंग रेट और छोटे नेटवर्क रैंक के साथ प्रशिक्षण शुरू करें, फिर दोनों को धीरे-धीरे बढ़ाएं। यह जटिल विवरण सीखने से पहले स्थिर नींव बनाता है।

कार्यान्वयन:

चरण 1: रैंक 8, LR 5e-5, 500 स्टेप
चरण 2: रैंक 16, LR 1e-4, 1000 स्टेप
चरण 3: रैंक 32, LR 5e-5, 1500 स्टेप

डेटासेट संवर्धन:

तकनीक	उद्देश्य	कार्यान्वयन
क्षैतिज फ्लिप	डेटासेट आकार दोगुना करें	प्रशिक्षण उपकरणों में ऑटो-सक्षम करें
ब्राइटनेस भिन्नता	प्रकाश मजबूती	प्रशिक्षण उपकरण पैरामीटर
क्रॉप भिन्नता	संरचना लचीलापन	प्रशिक्षण के दौरान रैंडम क्रॉप
कलर जिटर	रंग मजबूती	उन्नत प्रशिक्षण उपकरण

रेगुलराइजेशन छवियां: ओवरफिटिंग को रोकने और मॉडल क्षमताओं को बनाए रखने के लिए समान विषयों (आपके विशिष्ट कैरेक्टर नहीं) की सामान्य छवियां शामिल करें।

अनुपात: 2-3 प्रशिक्षण छवियों के लिए 1 रेगुलराइजेशन छवि। उदाहरण: 100 कैरेक्टर छवियां + 40 रेगुलराइजेशन छवियां।

टैग वेटिंग: महत्वपूर्ण विशेषताओं पर जोर देने के लिए भारित कैप्शन टैग का उपयोग करें।

उदाहरण कैप्शन: (masterpiece:1.3), (character_name:1.5), blue eyes, blonde hair, red dress

वेट प्रशिक्षण को बताते हैं कि उन टैग की गई विशेषताओं पर अधिक मजबूती से जोर दें।

चेकपॉइंट चयन:

बेस मॉडल	सर्वोत्तम के लिए	प्रशिक्षण विचार
SD 1.5	सामान्य उद्देश्य	परिपक्व, व्यापक प्रशिक्षण संसाधन
SDXL	उच्च गुणवत्ता	अधिक VRAM, लंबा प्रशिक्षण आवश्यक
FLUX	अत्याधुनिक	सर्वश्रेष्ठ गुणवत्ता, उच्चतम संसाधन आवश्यकताएं
एनिमे मॉडल	एनिमे/मंगा	शैली-विशिष्ट अनुकूलन

मल्टी-रिज़ॉल्यूशन प्रशिक्षण: LoRA लचीलेपन में सुधार के लिए विविध रिज़ॉल्यूशन पर प्रशिक्षण दें। 512x512, 768x768, 1024x1024, और गैर-वर्ग अनुपात पर छवियां शामिल करें।

यह ऐसे LoRAs उत्पन्न करता है जो विभिन्न जनरेशन रिज़ॉल्यूशन में अच्छी तरह से काम करते हैं।

अपने LoRA का परीक्षण और पुनरावृत्ति

प्रक्रिया पूर्ण होने पर प्रशिक्षण समाप्त नहीं होता है। व्यवस्थित परीक्षण ताकत, कमजोरियों, और पुनरावृत्ति के अवसरों को प्रकट करता है।

प्रारंभिक परीक्षण प्रोटोकॉल:

परीक्षण प्रकार	उद्देश्य	उदाहरण प्रॉम्प्ट
पहचान परीक्षण	कैरेक्टर पहचान सत्यापित करें	"photo of [character], neutral expression"
कोण परीक्षण	मल्टी-एंगल क्षमता की जांच करें	"3/4 view of [character]", "side profile"
शैली परीक्षण	शैलियों में बहुमुखीता	"oil painting of [character]", "anime [character]"
संदर्भ परीक्षण	दृश्य अनुकूलन	"[character] in forest", "[character] in city"
अभिव्यक्ति परीक्षण	भावनात्मक रेंज	"smiling [character]", "angry [character]"

गुणवत्ता मूल्यांकन मानदंड:

मानदंड	खराब	स्वीकार्य	उत्कृष्ट
चेहरे की सुसंगतता	विशेषताएं काफी भिन्न होती हैं	आम तौर पर पहचानने योग्य	अत्यधिक सुसंगत
शरीर के अनुपात	विकृत या गलत	अधिकतर सही	सटीक और सुसंगत
कपड़ों की लचीलापन	प्रशिक्षण पोशाकों पर अटका हुआ	कुछ लचीलापन	पूरी तरह से अनुकूलनीय
शैली अनुकूलनशीलता	केवल एक शैली में काम करता है	2-3 शैलियों में काम करता है	कई शैलियों में काम करता है

ओवरफिटिंग की पहचान: प्रशिक्षण डेटा से काफी भिन्न प्रॉम्प्ट के साथ परीक्षण करें। यदि LoRA प्रशिक्षण संदर्भों के बाहर कुछ भी उत्पन्न करने में संघर्ष करता है, तो ओवरफिटिंग हुई।

उदाहरण: यदि सभी प्रशिक्षण छवियों ने इनडोर दृश्य दिखाए और LoRA आउटडोर दृश्य उत्पन्न करने में विफल रहता है, तो मॉडल इनडोर संदर्भों में ओवरफिट हुआ।

पुनरावृत्ति रणनीति:

पहचानी गई समस्या	मूल कारण	अगला प्रशिक्षण समायोजन
कमजोर चेहरे की सुसंगतता	अपर्याप्त चेहरे प्रशिक्षण डेटा	20-30 अधिक हेडशॉट्स जोड़ें
खराब शरीर के अनुपात	बहुत कम पूर्ण-शरीर छवियां	बॉडी शॉट प्रतिशत बढ़ाएं
कपड़े ओवरफिटिंग	अपर्याप्त पोशाक विविधता	अधिक पोशाकों वाली छवियां जोड़ें
सीमित कोण	सीमित कोणों से प्रशिक्षण डेटा	विविध कोण छवियां जोड़ें

संस्करण प्रबंधन: विभिन्न स्टेप गणनाओं पर प्रशिक्षण चेकपॉइंट सहेजें। यह परीक्षण और चयन करने के लिए एकाधिक LoRA संस्करण प्रदान करता है।

कई रचनाकार पाते हैं कि उनका सर्वश्रेष्ठ LoRA अंतिम चेकपॉइंट के बजाय प्रशिक्षण के 70-80% के दौरान का है।

समुदाय प्रतिक्रिया: फीडबैक के लिए LoRA प्रशिक्षण समुदायों में परीक्षण जनरेशन साझा करें। अनुभवी प्रशिक्षक जल्दी से मुद्दों की पहचान करते हैं और सुधार सुझाते हैं।

वास्तविक दुनिया के प्रशिक्षण उदाहरण और परिणाम

यहां अभ्यास में इन सिद्धांतों को प्रदर्शित करने के लिए सटीक कॉन्फ़िगरेशन और परिणामों के साथ विशिष्ट प्रशिक्षण रन हैं।

उदाहरण 1 - पोर्ट्रेट LoRA:

डेटासेट: 120 चेहरे-केंद्रित छवियां (90 हेडशॉट्स, 30 आधे-लंबाई)
पैरामीटर: रैंक 32, LR 1e-4, 3000 स्टेप, SDXL बेस
परिणाम: विविध प्रॉम्प्ट और शैलियों में उत्कृष्ट चेहरे की सुसंगतता। LoRA वेट 0.7-0.9 ने सर्वोत्तम परिणाम उत्पन्न किए। अपेक्षित रूप से पूर्ण-शरीर जनरेशन के साथ संघर्ष किया।
सर्वोत्तम उपयोग: हेडशॉट जनरेशन, अवतार निर्माण, पोर्ट्रेट कला। फेस स्वैपिंग वर्कफ़्लो के लिए, हमारी ComfyUI फेस स्वैप गाइड देखें

उदाहरण 2 - पूर्ण कैरेक्टर LoRA:

डेटासेट: 100 छवियां (50 हेडशॉट्स, 50 पूर्ण-शरीर)
पैरामीटर: रैंक 32, LR 5e-5, 2500 स्टेप, SD 1.5 बेस
परिणाम: चेहरे और शरीर की सुसंगतता का अच्छा संतुलन। दृश्यों और संदर्भों में बहुमुखी। बहुत उच्च रिज़ॉल्यूशन पर मामूली चेहरे का बदलाव।
सर्वोत्तम उपयोग: सामान्य कैरेक्टर जनरेशन, विविध दृश्य

उदाहरण 3 - मल्टी-परपज़ LoRA (SFW/NSFW):

डेटासेट: 220 छवियां (110 SFW विभाजन 55/55, 110 NSFW विभाजन 55/55)
पैरामीटर: रैंक 64, LR 1e-5, 5000 स्टेप, SDXL बेस
परिणाम: दोनों सामग्री प्रकारों में उत्कृष्ट सुसंगतता। सभी संदर्भों में कैरेक्टर पहचानने योग्य। बहुमुखीता द्वारा थोड़ा लंबा प्रशिक्षण समय उचित ठहराया गया।
सर्वोत्तम उपयोग: वाणिज्यिक कैरेक्टर कार्य, व्यापक कैरेक्टर प्रतिनिधित्व

उदाहरण 4 - न्यूनतम डेटासेट:

डेटासेट: 25 छवियां (15 हेडशॉट्स, 10 बॉडी शॉट्स)
पैरामीटर: रैंक 16, LR 1e-4, 1500 स्टेप, SD 1.5 बेस
परिणाम: पहचानने योग्य कैरेक्टर लेकिन असंगत विवरण। विशिष्ट LoRA वेट (0.8-0.9) पर अच्छी तरह से काम किया लेकिन उस रेंज के बाहर कमजोर। प्रशिक्षण पोशाक उत्पन्न करने की प्रवृत्ति।
सर्वोत्तम उपयोग: व्यक्तिगत परियोजनाएं, त्वरित कैरेक्टर अवधारणाएं

प्रशिक्षण लागत तुलना:

उदाहरण	प्रशिक्षण समय	क्लाउड लागत	गुणवत्ता रेटिंग	बहुमुखीता
पोर्ट्रेट	3 घंटे	$15	9/10	मध्यम
पूर्ण कैरेक्टर	2.5 घंटे	$12	8.5/10	उच्च
मल्टी-परपज़	5 घंटे	$25	9.5/10	बहुत उच्च
न्यूनतम	1.5 घंटे	$8	6.5/10	कम

परीक्षण से सबक: 25 से 100 छवियों तक की छलांग सुसंगतता और बहुमुखीता में नाटकीय रूप से सुधार करती है। 100 छवियों से परे, सुधार परिवर्तनकारी के बजाय वृद्धिशील हो जाते हैं।

पूर्ण-शरीर LoRAs के लिए 50/50 विभाजन लगातार अन्य अनुपातों से बेहतर प्रदर्शन करता है। SDXL पर प्रशिक्षण उच्च गुणवत्ता उत्पन्न करता है लेकिन SD 1.5 की तुलना में अधिक VRAM और समय की आवश्यकता होती है।

निष्कर्ष - प्रशिक्षण डेटासेट बनाना जो काम करें

LoRA प्रशिक्षण डेटासेट संरचना औसत दर्जे के परिणामों और उत्कृष्ट कैरेक्टर सुसंगतता के बीच का अंतर बनाती है। इस गाइड में परीक्षित फॉर्मूले आपकी विशिष्ट आवश्यकताओं के लिए प्रारंभिक बिंदु प्रदान करते हैं।

मुख्य निष्कर्ष: फेस-ओन्ली LoRAs 100+ चेहरे-केंद्रित छवियों के साथ उत्कृष्ट रूप से काम करते हैं। फुल-बॉडी LoRAs को हेडशॉट्स और बॉडी शॉट्स के बीच 50/50 विभाजित 100+ छवियों की आवश्यकता होती है। SFW और NSFW सामग्री को संभालने वाले मल्टी-परपज़ LoRAs 100/100 विभाजित 200+ छवियों से लाभान्वित होते हैं। गुणवत्ता और विविधता कच्ची छवि गणना से अधिक मायने रखती है।

आपकी प्रशिक्षण रणनीति: स्पष्ट लक्ष्यों के साथ शुरू करें - यह LoRA क्या उत्पन्न करेगा? डेटासेट आकार और संरचना को उन लक्ष्यों से मिलाएं। मात्रा से अधिक गुणवत्ता और विविधता के लिए क्यूरेट करें। व्यवस्थित रूप से परीक्षण करें और वास्तविक परिणामों के आधार पर पुनरावृति करें।

प्लेटफॉर्म विचार: स्थानीय प्रशिक्षण पूर्ण नियंत्रण प्रदान करता है लेकिन तकनीकी सेटअप और GPU संसाधनों की आवश्यकता होती है। Apatero.com जैसे क्लाउड प्लेटफॉर्म अनुकूलित प्रशिक्षण पाइपलाइनों के साथ प्रक्रिया को सुव्यवस्थित करते हैं। CivitAI प्रशिक्षण निर्देशित वर्कफ़्लो के साथ शुरुआती-अनुकूल इंटरफेस प्रदान करता है। उत्पादन वर्कफ़्लो में अपने प्रशिक्षित LoRAs को तैनात करने के लिए, हमारी वर्कफ़्लो से प्रोडक्शन API गाइड देखें।

आगे क्या: इन दिशानिर्देशों का पालन करते हुए अपना पहला प्रशिक्षण डेटासेट बनाएं। प्रक्रिया सीखने के लिए एक मामूली 50-छवि डेटासेट के साथ शुरू करें, फिर परिणामों के आधार पर स्केल करें। परिणाम साझा करने और अनुभवी प्रशिक्षकों से सीखने के लिए LoRA प्रशिक्षण समुदायों में शामिल हों।

मुख्य बात: महान LoRAs सोच-समझकर डेटासेट तैयारी, उपयुक्त प्रशिक्षण पैरामीटर, और व्यवस्थित पुनरावृत्ति से आते हैं। इन परीक्षित रणनीतियों का पालन करें, और आप सुसंगत, बहुमुखी LoRAs बनाएंगे जो किसी भी संदर्भ में आपके पात्रों को जीवंत करते हैं।

आपका प्रशिक्षण डेटा आपके LoRA की क्षमताओं को परिभाषित करता है। डेटासेट तैयारी में समय निवेश करें, और परिणाम उस गुणवत्ता को प्रतिबिंबित करेंगे।