SmeltSec
Features
|Security
|How It Works
|Pricing
|Docs
|Blog

Product

FeaturesSecurityPricingHow It WorksDocumentation

Resources

Quick StartAPI ReferenceCLI ReferenceLeaderboardBlog

Company

PrivacyTerms

SmeltSec
© 2026 SmeltSec. Open source CLI · Proprietary SaaS.
PrivacyTerms
    सभी पोस्ट
    Developer Experience

    अपने MCP सर्वर को मॉनिटर न करने की छिपी कीमत

    SmeltSec Team|14 मार्च 2026|5 मिनट पढ़ें
    EnglishEspañolFrançaisDeutsch日本語中文Portuguêsहिन्दी

    मूक विफलता की समस्या

    आपका MCP सर्वर हर अनुरोध पर 200 OK लौटाता है। आपका मॉनिटरिंग डैशबोर्ड हरा है। आपके उपयोगकर्ता निराश हैं।

    यह विसंगति जितना कोई मानता है उससे कहीं ज़्यादा आम है। HTTP स्टेटस कोड वह नहीं मापते जो मायने रखता है। टूल ने डेटा लौटाया — लेकिन क्या यह सही टूल था? क्या जवाब उपयोगी था? क्या LLM ने वाकई इसका इस्तेमाल किया?

    मैंने MCP डिप्लॉयमेंट देखे हैं जहाँ 40% टूल इनवोकेशन पूरी तरह गलत टूल थे। सर्वर हर पारंपरिक मेट्रिक से स्वस्थ था। लेटेंसी 200ms से कम। शून्य 5xx एरर। 99.99% अपटाइम। और लगभग आधे समय, LLM एक ऐसा टूल बुला रहा था जो उपयोगकर्ता के सवाल का जवाब ही नहीं दे सकता था।

    सर्वर को नहीं पता था। टीम को नहीं पता था। उपयोगकर्ता बस यही सोचते थे कि AI खराब है।

    यही मूक विफलता की समस्या है। आपका MCP सर्वर एक साथ "पूरी तरह काम कर रहा" और "पूरी तरह टूटा हुआ" हो सकता है — इस पर निर्भर करता है कि आप क्या मापना चुनते हैं। और अभी, ज़्यादातर टीमें गलत चीज़ें माप रही हैं।

    काम करने का असली मतलब क्या है

    REST API के लिए, "काम करना" का मतलब है "वैध अनुरोध स्वीकार करता है और सही जवाब लौटाता है।" सीधा-सादा। इसे सत्यापित करने के लिए दशकों के टूल मौजूद हैं।

    MCP सर्वर के लिए, "काम करना" कम से कम चार चीज़ों की एक श्रृंखला है जो सही ढंग से होनी चाहिए: LLM सही टूल चुनता है, सही पैरामीटर भेजता है, उपयोगी जवाब प्राप्त करता है, और इसे सही ढंग से अपने उत्तर में शामिल करता है। हर कदम स्वतंत्र रूप से विफल हो सकता है। और इनमें से कोई भी विफलता पारंपरिक मॉनिटरिंग में नहीं दिखती।

    LLM गलत टूल चुनता है? आपका सर्वर फिर भी 200 लौटाता है। पैरामीटर तकनीकी रूप से वैध हैं लेकिन अर्थात् गलत हैं? फिर भी 200। जवाब सटीक है लेकिन LLM इसे अनदेखा करता है? फिर भी 200।

    आपके डैशबोर्ड पर 100% सफलता दर और प्रोडक्शन में 40% वास्तविक सफलता दर हो सकती है। यह अंतर वह जगह है जहाँ उपयोगकर्ता की निराशा रहती है। यही कारण है कि लोग कहते हैं "AI काम नहीं करता" जबकि उनका असली मतलब है "टूल्स उन विफलताओं को पकड़ने के लिए इंस्ट्रूमेंट नहीं हैं जो मायने रखती हैं।"

    वे मेट्रिक्स जो मायने रखती हैं

    जब आप स्वीकार कर लेते हैं कि पारंपरिक मेट्रिक्स अपर्याप्त हैं, तो सवाल बनता है: इसके बजाय क्या मापें?

    टूल चयन सटीकता। जब कोई उपयोगकर्ता सवाल पूछता है, तो क्या LLM वह टूल चुनता है जिसकी आप अपेक्षा करेंगे? अगर आपके पास search_invoices टूल और list_documents टूल है, और उपयोगकर्ता "पिछले महीने के इनवॉइस" माँगता है, तो कौन सा कॉल होता है? इसे ट्रैक करें। इच्छित और वास्तविक टूल चयन के बीच का अंतर MCP ऑब्ज़र्वेबिलिटी में सबसे खुलासा करने वाली मेट्रिक है।

    पैरामीटर वैधता दर। "क्या पैरामीटर स्कीमा वैलिडेशन पास कर गए" नहीं — वह बुनियादी बात है। क्या पैरामीटर अर्थात् सही थे?

    रिस्पॉन्स उपयोग दर। यह वह है जो कोई ट्रैक नहीं करता, और यह शायद सबसे महत्वपूर्ण है। क्या LLM ने वाकई जवाब का इस्तेमाल किया? अगर आप 50 पंक्तियाँ डेटा लौटाते हैं और LLM सब अनदेखा करता है, तो कुछ गलत है।

    एरर रिकवरी दर। जब कोई टूल कॉल विफल होती है, तो क्या LLM सुधारे हुए पैरामीटर से दोबारा कोशिश करता है, दूसरा टूल आज़माता है, या बस हार मान लेता है?

    प्रति सफल इनवोकेशन लागत। प्रति इनवोकेशन लागत नहीं — प्रति सफल इनवोकेशन लागत। जब आप बर्बाद हुई कॉल्स को शामिल करते हैं, तो असली लागत अक्सर API की कच्ची लागत से 3-5 गुना होती है।

    ये पाँच मेट्रिक्स आपको MCP सर्वर की सेहत के बारे में सभी पारंपरिक मेट्रिक्स से ज़्यादा बताती हैं।

    पारंपरिक APM क्यों चूक जाता है

    मुझे पता है आप क्या सोच रहे हैं। "मेरे पास पहले से Datadog है। मेरे पास पहले से ऑब्ज़र्वेबिलिटी है।" शायद है। और शायद इसके लिए बेकार है।

    Datadog, New Relic, Grafana — वे जो करते हैं उसमें उत्कृष्ट हैं। लेटेंसी वितरण, एरर दर, थ्रूपुट, रिसोर्स उपयोग ट्रैक करते हैं। उन API के लिए बिल्कुल सही जहाँ कॉलर एक वेब ब्राउज़र है जो नियतात्मक अनुरोध करता है।

    लेकिन आपके टूल को कॉल करने वाला LLM वेब ब्राउज़र नहीं है। यह एक रीज़निंग इंजन है जो निर्णय ले रहा है। विफलता मोड "अनुरोध टाइमआउट हो गया" नहीं है — बल्कि "मॉडल ने तय किया कि यह सही टूल है, और नहीं था।" यह लेटेंसी की समस्या नहीं है। यह निर्णय गुणवत्ता की समस्या है। और कोई पारंपरिक APM टूल निर्णय गुणवत्ता मापने के लिए डिज़ाइन नहीं किया गया।

    यह ऐसा है जैसे स्पीडोमीटर से पता लगाना कि कार हमेशा गलत मंज़िल पर क्यों जाती है। स्पीडोमीटर ठीक काम करता है। बस वह नहीं मापता जो वास्तव में टूटा हुआ है।

    आपको LLM और अपने टूल्स के बीच ऑब्ज़र्वेबिलिटी की एक नई परत चाहिए। एक जो उपयोगकर्ता के इरादे, टूल चयन, पैरामीटर और जवाब के बीच अर्थपूर्ण संबंध समझे। पारंपरिक APM नींव है। लेकिन MCP सर्वरों के लिए, यह पूरी तस्वीर का आधा भी नहीं है।

    AI टूल्स के लिए ऑब्ज़र्वेबिलिटी स्टैक बनाना

    तो वास्तव में क्या करें? सब कुछ एक बार में बदलने की ज़रूरत नहीं। तीन चीज़ों से शुरू करें।

    पहला, हर टूल इनवोकेशन को पूरे प्रॉम्प्ट संदर्भ के साथ लॉग करें। सिर्फ टूल का नाम और पैरामीटर नहीं — वह पूरी बातचीत जिसने कॉल तक पहुँचाया। इस संदर्भ के बिना, आप मूल्यांकन नहीं कर सकते कि चयन सही था या नहीं।

    दूसरा, ट्रैक करें कि कौन सा टूल चुना गया बनाम कौन सा इच्छित था। इसके लिए कुछ ग्राउंड ट्रुथ चाहिए — मैनुअल लेबलिंग, उपयोगकर्ता फीडबैक सिग्नल, या ह्यूरिस्टिक नियम। मोटे ह्यूरिस्टिक्स भी कुछ न होने से बेहतर हैं। अगर उपयोगकर्ता इनवॉइस के बारे में पूछता है और LLM कॉन्टैक्ट्स टूल कॉल करता है, तो यह एक स्वचालित रूप से पता लगाने योग्य टूल चयन त्रुटि है।

    तीसरा, रिस्पॉन्स उपयोग मापें। अपने टूल ने जो लौटाया उसकी तुलना LLM के जवाब में वास्तव में जो दिखा उससे करें। अगर बड़ा अंतर है — बहुत सारा डेटा लौटाया, बहुत कम इस्तेमाल हुआ — तो आपने एक सिग्नल पाया है।

    ये तीन सिग्नल — इनवोकेशन संदर्भ, चयन सटीकता, और रिस्पॉन्स उपयोग — आपको MCP सर्वर के वास्तविक प्रदर्शन के बारे में सभी पारंपरिक मेट्रिक्स से ज़्यादा बताते हैं। यह जानने में अंतर है कि आपका सर्वर चालू है और यह जानने में कि आपका सर्वर वास्तव में उपयोगकर्ताओं की मदद कर रहा है।

    जो टीमें अभी यह ऑब्ज़र्वेबिलिटी परत बनाती हैं, उनके पास भारी फायदा होगा। इसलिए नहीं कि तकनीक कठिन है — नहीं है। बल्कि इसलिए कि यह जो अंतर्दृष्टि देती है वह बाकी सबके देखने से कहीं ज़्यादा समृद्ध है। जब आपके प्रतियोगी लेटेंसी डैशबोर्ड देख रहे हों और फाइव-नाइन अपटाइम पर खुश हो रहे हों, आप वास्तव में जानेंगे कि आपके टूल्स काम करते हैं या नहीं।

    संबंधित पोस्ट

    Developer Experience

    सबसे अच्छे डेवलपर टूल वो हैं जिन्हें आप भूल जाते हैं कि मौजूद हैं

    4 मिनट पढ़ें

    Technology

    MCP प्रोटोकॉल API अर्थव्यवस्था को निगल जाएगा

    5 मिनट पढ़ें

    SmeltSec आज़माने के लिए तैयार हैं?

    60 सेकंड में सुरक्षित MCP सर्वर जेनरेट करें। मुफ्त में शुरू करें।