Windows पर SageAttention, TeaCache और Triton इंस्टॉल करना - पूर्ण गाइड
NVIDIA GPU के साथ तेज़ AI इमेज जनरेशन के लिए Windows पर SageAttention, TeaCache और Triton इंस्टॉल करने की स्टेप-बाय-स्टेप गाइड
आपने सुना है कि SageAttention और TeaCache AI जनरेशन के लिए 2-4x स्पीडअप प्रदान करते हैं, लेकिन हर गाइड Linux मानती है। Windows इंस्टॉलेशन संभव है लेकिन विशिष्ट स्टेप्स की आवश्यकता है जो जेनेरिक गाइड छोड़ देते हैं। इन ऑप्टिमाइज़ेशन को आपके Windows सिस्टम पर चलाएं।
त्वरित उत्तर: Windows पर SageAttention, TeaCache और Triton इंस्टॉल करने के लिए C++ वर्कलोड के साथ Visual Studio Build Tools, CUDA Toolkit 12.1+ और विशिष्ट Python कॉन्फ़िगरेशन की आवश्यकता है। Windows-संगत व्हील से Triton इंस्टॉल करें, फिर अपने GPU आर्किटेक्चर के लिए SageAttention और TeaCache कंपाइल करें। प्रक्रिया में 30-60 मिनट लगते हैं लेकिन पूर्ण होने पर महत्वपूर्ण जनरेशन स्पीडअप प्रदान करता है।
- कंपाइलेशन के लिए C++ वर्कलोड के साथ Visual Studio Build Tools आवश्यक है
- CUDA Toolkit को PyTorch के बंडल CUDA से अलग इंस्टॉल करना होगा
- Triton Windows बिल्ड विशिष्ट रिपॉजिटरी से उपलब्ध हैं
- कंपाइलर एक्सेस के लिए एनवायरनमेंट वेरिएबल कॉन्फ़िगर करने होंगे
- GPU आर्किटेक्चर टार्गेटिंग इष्टतम कर्नेल प्रदर्शन सुनिश्चित करती है
Windows इंस्टॉलेशन Linux से अधिक जटिल है क्योंकि Triton मूल रूप से Windows के लिए डिज़ाइन नहीं किया गया था। कम्युनिटी प्रयासों ने Windows समर्थन सक्षम किया है, लेकिन आपको जेनेरिक निर्देशों के बजाय विशिष्ट स्टेप्स का पालन करना होगा।
कौन से पूर्वापेक्षाएं चाहिए?
इंस्टॉलेशन शुरू करने से पहले इन्हें इकट्ठा करें।
Visual Studio Build Tools
Microsoft Visual Studio Build Tools Triton और CUDA कर्नेल कंपाइलेशन के लिए आवश्यक C++ कंपाइलर प्रदान करता है।
Visual Studio डाउनलोड पेज से Build Tools डाउनलोड करें। आपको पूर्ण Visual Studio IDE नहीं चाहिए, केवल Build Tools।
इंस्टॉलेशन के दौरान, "C++ के साथ डेस्कटॉप डेवलपमेंट" वर्कलोड चुनें। यह आवश्यक कंपाइलर, लिंकर और Windows SDK इंस्टॉल करता है।
इंस्टॉलेशन कई गीगाबाइट है और आपके कनेक्शन और डिस्क स्पीड के आधार पर 10-20 मिनट लेती है।
इंस्टॉलेशन के बाद, आपको कमांड लाइन से कंपाइलर एक्सेसिबल चाहिए। इंस्टॉलर आमतौर पर PATH में जोड़ता है, लेकिन नए टर्मिनल में cl कमांड से सत्यापित करें।
CUDA Toolkit 12.1+
PyTorch CUDA रनटाइम बंडल करता है लेकिन कंपाइलेशन के लिए आवश्यक पूर्ण टूलकिट नहीं। CUDA Toolkit अलग से इंस्टॉल करें।
NVIDIA के डेवलपर साइट से डाउनलोड करें। मॉडर्न PyTorch आवश्यकताओं से मेल खाने के लिए वर्ज़न 12.1 या नया चुनें।
इंस्टॉलेशन के दौरान, यदि आपके पास पहले से वर्तमान ड्राइवर हैं तो आप ड्राइवर कंपोनेंट अचयनित कर सकते हैं। टूलकिट, लाइब्रेरी और डॉक्यूमेंटेशन इंस्टॉल करें।
इंस्टॉलर PATH में CUDA जोड़ता है। nvcc --version कमांड से सत्यापित करें।
Python एनवायरनमेंट
Python 3.10 या 3.11 उपयोग करें। Triton की विशिष्ट Python वर्ज़न आवश्यकताएं हैं और 3.12+ के साथ काम नहीं कर सकता।
वर्चुअल एनवायरनमेंट इस इंस्टॉलेशन को अन्य Python प्रोजेक्ट्स से अलग करता है। विशेष रूप से अपने ComfyUI या AI कार्य के लिए एक बनाएं।
python -m pip install --upgrade pip से सुनिश्चित करें कि pip अपडेटेड है।
Git
SageAttention और TeaCache के लिए रिपॉजिटरी क्लोन करने के लिए Git आवश्यक है।
git-scm.com से डाउनलोड करें और डिफ़ॉल्ट विकल्पों के साथ इंस्टॉल करें। यह PATH में git जोड़ता है।
Windows पर Triton कैसे इंस्टॉल करें?
Triton वह फाउंडेशन है जिस पर अन्य ऑप्टिमाइज़ेशन निर्भर हैं।
Windows व्हील खोजना
आधिकारिक Triton रिलीज़ में Windows व्हील शामिल नहीं हैं। आपको कम्युनिटी-बिल्ट वर्ज़न चाहिए।
वर्तमान बिल्ड खोजने के लिए "triton windows wheel" खोजें। GitHub पर triton-windows रिपॉजिटरी और विभिन्न Discord कम्युनिटी बिल्ड शेयर करती हैं।
व्हील को अपने Python वर्ज़न से मैच करें। Python 3.10 के लिए व्हील Python 3.11 पर काम नहीं करेगा।
इंस्टॉलेशन प्रक्रिया
अपने Python वर्ज़न के लिए उपयुक्त व्हील फाइल डाउनलोड करें।
लोकल फाइल पथ का उपयोग करके pip से इंस्टॉल करें। उदाहरण के लिए, pip install path/to/triton-2.1.0-cp310-cp310-win_amd64.whl।
यदि pip डिपेंडेंसी के बारे में शिकायत करता है, तो पहले उन्हें इंस्टॉल करें और पुनः प्रयास करें।
Python में triton इंपोर्ट करके इंस्टॉलेशन टेस्ट करें। यदि कोई त्रुटि नहीं दिखाई देती, तो बेसिक इंस्टॉलेशन सफल रहा।
इंपोर्ट त्रुटियों का समाधान
DLL लोड विफलताएं गायब डिपेंडेंसी इंगित करती हैं। अक्सर यह Visual C++ Redistributable है।
Microsoft से नवीनतम Visual C++ Redistributable इंस्टॉल करें। यदि अनिश्चित हों तो x64 और x86 दोनों वर्ज़न।
यदि त्रुटियां बनी रहती हैं, तो जांचें कि CUDA Toolkit सही तरीके से इंस्टॉल हुआ है और nvcc एक्सेसिबल है।
कार्यक्षमता सत्यापित करना
इंपोर्ट के अलावा, सत्यापित करें कि Triton आपके GPU के लिए कर्नेल कंपाइल कर सकता है।
डॉक्यूमेंटेशन से एक सरल Triton कर्नेल उदाहरण चलाएं। यदि यह बिना त्रुटि के एक्जीक्यूट होता है और सही परिणाम लौटाता है, तो Triton ठीक से काम कर रहा है।
इस स्टेज पर कंपाइलेशन त्रुटियां CUDA Toolkit या कंपाइलर कॉन्फ़िगरेशन समस्याओं को इंगित करती हैं।
SageAttention कैसे इंस्टॉल करें?
SageAttention ऑप्टिमाइज़्ड attention कर्नेल प्रदान करता है।
रिपॉजिटरी क्लोन करना
git का उपयोग करके SageAttention को उसके GitHub रिपॉजिटरी से क्लोन करें।
क्लोन किए गए फोल्डर में नेविगेट करें। आप सेटअप फाइल्स और सोर्स कोड देखेंगे।
मुफ़्त ComfyUI वर्कफ़्लो
इस लेख में तकनीकों के लिए मुफ़्त ओपन-सोर्स ComfyUI वर्कफ़्लो खोजें। ओपन सोर्स शक्तिशाली है।
एनवायरनमेंट कॉन्फ़िगरेशन
बिल्ड करने से पहले, अपने GPU आर्किटेक्चर के लिए एनवायरनमेंट वेरिएबल सेट करें।
TORCH_CUDA_ARCH_LIST को अपने GPU की कंप्यूट क्षमता पर सेट करें। RTX 4090 के लिए, यह "8.9" है। RTX 3090 के लिए, यह "8.6" है।
यदि आप विभिन्न GPU के लिए कर्नेल चाहते हैं तो कई आर्किटेक्चर निर्दिष्ट किए जा सकते हैं, लेकिन इससे बिल्ड समय बढ़ता है।
बिल्ड और इंस्टॉल करना
SageAttention को कंपाइल और इंस्टॉल करने के लिए सेटअप स्क्रिप्ट चलाएं।
रिपॉजिटरी डायरेक्टरी से pip install . उपयोग करें। यह आपके कॉन्फ़िगर किए गए टूलचेन का उपयोग करके कंपाइलेशन ट्रिगर करता है।
कंपाइलेशन में कई मिनट लगते हैं। प्रोग्रेस मैसेज दिखाते हैं कि क्या बिल्ड हो रहा है।
यदि कंपाइलेशन विफल होता है, तो त्रुटि संदेश आमतौर पर इंगित करता है कि क्या गायब है। सामान्य समस्याएं PATH में गायब कंपाइलर या गलत CUDA आर्किटेक्चर स्पेसिफिकेशन हैं।
SageAttention सत्यापित करना
इंस्टॉलेशन सत्यापित करने के लिए Python में sageattention इंपोर्ट करें।
SageAttention का उपयोग करके एक सरल attention ऑपरेशन चलाएं। पहला एक्जीक्यूशन JIT कंपाइल करने के कारण धीमा हो सकता है, लेकिन बाद की कॉल तेज़ होनी चाहिए।
TeaCache कैसे इंस्टॉल करें?
TeaCache को SageAttention के समान सेटअप की आवश्यकता है।
क्लोनिंग और सेटअप
TeaCache को उसके GitHub रिपॉजिटरी से क्लोन करें।
संरचना बिल्डिंग के लिए सेटअप फाइल्स के साथ SageAttention के समान है।
ComfyUI इंटीग्रेशन
ComfyUI उपयोगकर्ताओं के लिए, TeaCache अक्सर कस्टम नोड्स के रूप में पैकेज किया जाता है।
Manager के माध्यम से या मैन्युअली ComfyUI-TeaCache नोड पैक इंस्टॉल करें। नोड पैक ComfyUI के सैंपलिंग सिस्टम के साथ इंटीग्रेशन हैंडल करता है।
इंस्टॉलेशन के बाद नोड्स ComfyUI में दिखाई देते हैं और TeaCache कॉन्फ़िगरेशन तक पहुंच प्रदान करते हैं।
जटिलता को छोड़ना चाहते हैं? Apatero बिना किसी तकनीकी सेटअप के तुरंत पेशेवर AI परिणाम देता है।
कॉन्फ़िगरेशन विकल्प
TeaCache पैरामीटर कैशिंग व्यवहार को नियंत्रित करते हैं। डिफ़ॉल्ट अधिकांश उपयोग मामलों के लिए अच्छी तरह काम करते हैं।
कैश थ्रेशोल्ड नियंत्रित करता है कि पुन: उपयोग के लिए टाइमस्टेप कितने समान होने चाहिए। निम्न मान अधिक आक्रामक हैं।
कैश इंटरवल समय-समय पर नई गणना को बाध्य करता है। उच्च मान अधिक कैश का उपयोग करते हैं।
डिफ़ॉल्ट से शुरू करें और परिणामों के आधार पर समायोजित करें।
कौन सा ComfyUI कॉन्फ़िगरेशन आवश्यक है?
ComfyUI में इन ऑप्टिमाइज़ेशन को काम करने के लिए विशिष्ट सेटअप की आवश्यकता है।
SageAttention सक्षम करना
कुछ ComfyUI कार्यान्वयन को SageAttention की स्पष्ट सक्षमता की आवश्यकता है।
attention मोड चयन के लिए अपने ComfyUI के डॉक्यूमेंटेशन या सेटिंग्स देखें। उपलब्ध होने पर SageAttention चुनें।
यदि कोई स्पष्ट सेटिंग मौजूद नहीं है, तो पता चलने पर SageAttention स्वचालित रूप से एक्टिवेट हो सकता है।
TeaCache नोड्स जोड़ना
TeaCache नोड्स अन्य सैंपलिंग नोड्स की तरह आपके वर्कफ़्लो में इंटीग्रेट होते हैं।
TeaCache नोड को अपने मॉडल लोडर और सैंपलर के बीच रखें। यह सैंपलिंग प्रक्रिया को कैशिंग के साथ रैप करता है।
अपने सामान्य सैंपलिंग सेटअप के समान सभी इनपुट कनेक्ट करें।
ऑप्टिमाइज़ेशन टेस्ट करना
स्पीडअप सत्यापित करने के लिए ऑप्टिमाइज़ेशन के साथ और बिना टेस्ट जनरेशन चलाएं।
समान सेटिंग्स के साथ समान प्रॉम्प्ट को टाइम करें। ऑप्टिमाइज़ेशन सक्षम होने पर आपको महत्वपूर्ण कमी दिखनी चाहिए।
यदि कोई स्पीडअप नहीं होता, तो ऑप्टिमाइज़ेशन लोड नहीं हो रहे हैं। त्रुटियों के लिए कंसोल देखें।
इंटीग्रेशन समस्याओं का समाधान
जनरेशन के दौरान त्रुटियां अक्सर कंपाइलेशन समस्याओं को इंगित करती हैं।
अन्य 115 कोर्स सदस्यों के साथ जुड़ें
51 पाठों में अपना पहला अल्ट्रा-रियलिस्टिक AI इन्फ्लुएंसर बनाएं
जीवंत त्वचा विवरण, पेशेवर सेल्फी और जटिल दृश्यों के साथ अल्ट्रा-रियलिस्टिक AI इन्फ्लुएंसर बनाएं। एक पैकेज में दो पूर्ण कोर्स प्राप्त करें। तकनीक में महारत हासिल करने के लिए ComfyUI Foundation, और AI क्रिएटर के रूप में खुद को मार्केट करना सीखने के लिए Fanvue Creator Academy।
किसी भी कैश्ड कंपाइलेशन फाइल्स को साफ करें और रीजनरेट करें। पुराने कैश समस्याएं उत्पन्न करते हैं।
सत्यापित करें कि आपकी GPU आर्किटेक्चर सेटिंग आपके वास्तविक GPU से मेल खाती है। गलत आर्किटेक्चर का मतलब कर्नेल एक्जीक्यूट नहीं हो सकते।
इंस्टॉलेशन जटिलता के बिना इन ऑप्टिमाइज़ेशन चाहने वाले उपयोगकर्ताओं के लिए, Apatero.com ऑप्टिमाइज़्ड जनरेशन इंफ्रास्ट्रक्चर प्रदान करता है। आप Windows कंपाइलेशन चुनौतियों को प्रबंधित किए बिना स्पीड लाभ प्राप्त करते हैं।
सामान्य Windows-विशिष्ट समस्याएं क्या हैं?
ये समस्याएं विशेष रूप से Windows इंस्टॉलेशन पर दिखाई देती हैं।
लंबे पथ त्रुटियां
Windows पथ लंबाई सीमाएं इंस्टॉलेशन विफलताओं का कारण बन सकती हैं।
Windows सेटिंग्स या रजिस्ट्री में लंबे पथ समर्थन सक्षम करें। यह 260 कैरेक्टर सीमा हटाता है।
वैकल्पिक रूप से, छोटे पथों में इंस्टॉल करें। C:\Users\Username\Documents\Projects\ComfyUI\ के बजाय C:\ai\।
एंटीवायरस हस्तक्षेप
सुरक्षा सॉफ्टवेयर कभी-कभी कंपाइलेशन ब्लॉक करता है या बिल्ट फाइल्स को फ्लैग करता है।
अपने Python एनवायरनमेंट और ComfyUI फोल्डर को एंटीवायरस अपवादों में जोड़ें।
यदि बिल्ड के दौरान फाइल्स गायब हो जाती हैं, तो एंटीवायरस संभवतः उन्हें डिलीट कर रहा है। क्वारंटाइन देखें।
परमिशन समस्याएं
संरक्षित डायरेक्टरी में बिल्ड करने के लिए एडमिनिस्ट्रेटर एक्सेस आवश्यक है।
इंस्टॉलेशन कमांड के लिए अपना टर्मिनल एडमिनिस्ट्रेटर के रूप में चलाएं।
या यूज़र-राइटेबल लोकेशन जैसे Documents या डेडिकेटेड फोल्डर में इंस्टॉल करें।
मल्टीपल Python इंस्टॉलेशन
मल्टीपल Python वर्ज़न गलत का उपयोग होने का कारण बन सकते हैं।
python --version से सत्यापित करें कि आपका टर्मिनल कौन सा Python उपयोग करता है।
आवश्यकता होने पर अपने venv Python का पूर्ण पथ उपयोग करें।
डेवलपर मोड
कुछ कंपाइलेशन फीचर्स को Windows डेवलपर मोड सक्षम होने की आवश्यकता है।
सेटिंग्स > अपडेट और सुरक्षा > डेवलपर्स के लिए में सक्षम करें।
यह कुछ डेवलपमेंट फीचर्स अनलॉक करता है जो Windows डिफ़ॉल्ट रूप से प्रतिबंधित करता है।
अक्सर पूछे जाने वाले प्रश्न
मुझे Visual Studio चाहिए या केवल Build Tools?
Build Tools अकेले पर्याप्त है। पूर्ण Visual Studio IDE में Build Tools शामिल है लेकिन इस उद्देश्य के लिए आवश्यक नहीं कई फीचर्स भी।
मुझे कौन सा CUDA Toolkit वर्ज़न उपयोग करना चाहिए?
अपने PyTorch के CUDA वर्ज़न से मैच करें। यदि आपने CUDA 12.1 के साथ PyTorch इंस्टॉल किया है, तो CUDA Toolkit 12.1 उपयोग करें। वर्ज़न मिसमैच सूक्ष्म समस्याएं उत्पन्न करते हैं।
क्या मैं AMD GPU के साथ इन ऑप्टिमाइज़ेशन का उपयोग कर सकता हूं?
नहीं, SageAttention और Triton को NVIDIA GPU की आवश्यकता है। AMD के पास ROCm के माध्यम से अलग ऑप्टिमाइज़ेशन दृष्टिकोण हैं।
पहली बार Triton कंपाइलेशन में इतना समय क्यों लगता है?
Triton पहले उपयोग पर आपके विशिष्ट GPU के लिए कर्नेल JIT कंपाइल करता है। बाद के रन कैश्ड कंपाइलेशन का उपयोग करते हैं और तेज़ होते हैं।
क्या Windows Defender मेरी इंस्टॉल की गई फाइल्स डिलीट करेगा?
यदि यह गलत तरीके से कंपाइल की गई फाइल्स को संदिग्ध के रूप में फ्लैग करता है तो हो सकता है। इसे रोकने के लिए अपनी इंस्टॉलेशन डायरेक्टरी को अपवादों में जोड़ें।
मैं कैसे जानूं कि मेरे GPU की कंप्यूट क्षमता क्या है?
अपना GPU मॉडल और "कंप्यूट क्षमता" खोजें। NVIDIA इसे अपने डॉक्यूमेंटेशन में सूचीबद्ध करता है। RTX 40 सीरीज़ 8.9 है, RTX 30 सीरीज़ 8.6 है।
क्या मैं प्री-बिल्ट व्हील का उपयोग करके Build Tools के बिना इंस्टॉल कर सकता हूं?
Triton के लिए हां, यदि आप संगत व्हील पाते हैं। SageAttention को आमतौर पर इष्टतम प्रदर्शन के लिए सोर्स से कंपाइलेशन की आवश्यकता होती है।
CUDA इंस्टॉल करने के बाद मेरा टर्मिनल nvcc क्यों नहीं पहचानता?
इंस्टॉलर ने आपका PATH अपडेट नहीं किया हो सकता, या आपने नया टर्मिनल नहीं खोला है। आवश्यकता होने पर CUDA के bin फोल्डर को PATH में मैन्युअली जोड़ें।
GPU ड्राइवर अपडेट के बाद क्या मुझे पुनः इंस्टॉल करना होगा?
आमतौर पर नहीं। ड्राइवर अपडेट आपके कंपाइल किए गए कर्नेल को प्रभावित नहीं करते। लेकिन प्रमुख ड्राइवर वर्ज़न को कभी-कभी पुनः कंपाइलेशन की आवश्यकता होती है।
Windows बनाम Linux पर मुझे कितना स्पीडअप उम्मीद करना चाहिए?
इंस्टॉल होने के बाद प्रदर्शन आमतौर पर समान है। GPU कंप्यूटेशन के लिए Windows ओवरहेड न्यूनतम है।
निष्कर्ष
Windows पर SageAttention, TeaCache और Triton इंस्टॉलेशन के लिए विशिष्ट पूर्वापेक्षाएं और सावधानीपूर्वक कॉन्फ़िगरेशन आवश्यक है। Visual Studio Build Tools, CUDA Toolkit और उचित एनवायरनमेंट वेरिएबल आवश्यक हैं।
प्रक्रिया में 30-60 मिनट लगते हैं लेकिन स्थायी लाभ प्रदान करता है। एक बार इंस्टॉल होने के बाद, ये ऑप्टिमाइज़ेशन स्वचालित रूप से काम करते हैं, निरंतर प्रयास के बिना आपकी जनरेशन को तेज़ करते हैं।
स्टेप्स का सटीक पालन करें और जैसे-जैसे वे उत्पन्न हों विशिष्ट त्रुटियों का समाधान करें। अधिकांश विफलताओं के पहचाने जाने पर सीधे फिक्स होते हैं।
इन ऑप्टिमाइज़ेशन से 2-4x स्पीडअप आपके वर्कफ़्लो में महत्वपूर्ण सुधार करता है, इंस्टॉलेशन प्रयास को सार्थक बनाता है।
उन उपयोगकर्ताओं के लिए जो Windows कंपाइलेशन चुनौतियों से बचना पसंद करते हैं, Apatero.com लोकल सेटअप के बिना ऑप्टिमाइज़्ड जनरेशन तक पहुंच प्रदान करता है। आप पेशेवर रूप से कॉन्फ़िगर इंफ्रास्ट्रक्चर के माध्यम से स्पीड लाभ प्राप्त करते हैं।
धैर्य और विस्तार पर ध्यान के साथ, Windows उपयोगकर्ता Linux उपयोगकर्ताओं के समान ऑप्टिमाइज़ेशन लाभ प्राप्त कर सकते हैं।
अपना AI इन्फ्लुएंसर बनाने के लिए तैयार हैं?
115 छात्रों के साथ शामिल हों जो हमारे पूर्ण 51-पाठ पाठ्यक्रम में ComfyUI और AI इन्फ्लुएंसर मार्केटिंग में महारत हासिल कर रहे हैं।