ভাষা নির্বাচন করুন

সীমিত গণনীয় সম্পদের অধীনে ঐতিহ্যবাহী VQA মডেলের কর্মদক্ষতা বিশ্লেষণ

গণনীয় সীমাবদ্ধতার অধীনে ঐতিহ্যবাহী VQA মডেলগুলির (BidGRU, GRU, BidLSTM, CNN) বিশ্লেষণ, যেখানে দক্ষতা, সংখ্যাগত/গণনা সংক্রান্ত প্রশ্নের সঠিকতা এবং অপ্টিমাইজেশন কৌশলের উপর আলোকপাত করা হয়েছে।
computepowercoin.com | PDF Size: 0.2 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - সীমিত গণনীয় সম্পদের অধীনে ঐতিহ্যবাহী VQA মডেলের কর্মদক্ষতা বিশ্লেষণ

1. ভূমিকা

চিকিৎসা ও শিল্প স্বয়ংক্রিয়করণের মতো বাস্তব-বিশ্বের পরিস্থিতিতে বৃহদায়তন গভীর শিক্ষণ মডেল স্থাপন করা প্রায়শই অসম্ভব হয়ে পড়ে সীমিত গণনীয় সম্পদের কারণে। এই গবেষণাপত্রটি এমন সীমাবদ্ধতার অধীনে ঐতিহ্যবাহী ভিজুয়াল প্রশ্নোত্তর (VQA) মডেলগুলির কর্মদক্ষতা অনুসন্ধান করে। মূল চ্যালেঞ্জটি হল আধুনিক দানবীয় মডেলগুলির গণনীয় ওভারহেড ছাড়াই, বিশেষ করে সংখ্যাগত ও গণনা সংক্রান্ত প্রশ্নের উত্তর দিতে, চাক্ষুষ ও পাঠ্য তথ্য কার্যকরভাবে একীভূত করা। আমরা দ্বি-দিকনির্দেশক GRU (BidGRU), GRU, দ্বি-দিকনির্দেশক LSTM (BidLSTM), এবং কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN) ভিত্তিক মডেলগুলি মূল্যায়ন করি, শব্দভাণ্ডারের আকার, ফাইন-টিউনিং এবং এম্বেডিং মাত্রার প্রভাব বিশ্লেষণ করি। লক্ষ্য হল সম্পদ-সীমিত পরিবেশের জন্য সর্বোত্তম, দক্ষ কনফিগারেশন চিহ্নিত করা।

2. সংশ্লিষ্ট গবেষণা

2.1 ভিজুয়াল প্রশ্নোত্তর

VQA কম্পিউটার ভিশন এবং NLP কে একত্রিত করে। প্রধান পদ্ধতিগুলির মধ্যে রয়েছে:

  • স্পেশিয়াল মেমরি নেটওয়ার্ক: প্রশ্নকে ইমেজ অঞ্চলের সাথে সারিবদ্ধ করতে একটি দুই-হপ অ্যাটেনশন মেকানিজম ব্যবহার করে।
  • BIDAF মডেল: প্রশ্ন-সচেতন প্রসঙ্গ উপস্থাপনার জন্য দ্বি-দিকনির্দেশক অ্যাটেনশন প্রয়োগ করে।
  • টেক্সটের জন্য CNN: টেক্সট ফিচার এক্সট্রাকশনের জন্য RNN-এর স্থলে CNN ব্যবহার করে।
  • স্ট্রাকচার্ড অ্যাটেনশন: কন্ডিশনাল র্যান্ডম ফিল্ড (CRF) এর মাধ্যমে ভিজুয়াল অ্যাটেনশন মডেল করে।
  • ইনভার্স VQA (iVQA): প্রশ্ন-র‍্যাঙ্কিং ব্যবহার করে একটি ডায়াগনস্টিক টাস্ক।

2.2 ইমেজ ক্যাপশনিং

ক্রস-মডাল বোঝাপড়ার জন্য প্রাসঙ্গিক। উল্লেখযোগ্য কাজ:

  • Show, Attend and Tell: CNN, LSTM, এবং অ্যাটেনশনকে একীভূত করে।
  • Self-Critical Sequence Training (SCST): পলিসি গ্রেডিয়েন্ট ট্রেনিংয়ের জন্য REINFORCE অ্যালগরিদম ব্যবহার করে।

3. পদ্ধতি

প্রস্তাবিত VQA আর্কিটেকচার চারটি মডিউল নিয়ে গঠিত: (ক) প্রশ্ন ফিচার এক্সট্রাকশন, (খ) ইমেজ ফিচার এক্সট্রাকশন, (গ) অ্যাটেনশন মেকানিজম, এবং (ঘ) ফিচার ফিউশন ও শ্রেণীবিভাগ।

3.1 মডেল আর্কিটেকচার

আমরা চারটি প্রাথমিক টেক্সট এনকোডার মূল্যায়ন করি:

  • BidGRU/BidLSTM: উভয় দিক থেকে প্রাসঙ্গিক তথ্য ধারণ করে।
  • GRU: কম প্যারামিটার সহ একটি সরল রিকারেন্ট ইউনিট।
  • CNN: টেক্সট থেকে n-gram ফিচার এক্সট্র্যাক্ট করতে কনভোলিউশনাল লেয়ার ব্যবহার করে।

ইমেজ ফিচার একটি প্রি-ট্রেইন্ড CNN (যেমন, ResNet) ব্যবহার করে এক্সট্র্যাক্ট করা হয়।

3.2 অ্যাটেনশন মেকানিজম

প্রাসঙ্গিক ইমেজ অঞ্চলকে প্রশ্নের শব্দের সাথে সারিবদ্ধ করার জন্য অত্যন্ত গুরুত্বপূর্ণ। আমরা একটি সফট অ্যাটেনশন মেকানিজম প্রয়োগ করি যা প্রশ্নের প্রাসঙ্গিকতার ভিত্তিতে ইমেজ ফিচারের একটি ওয়েটেড সমষ্টি গণনা করে। ইমেজ অঞ্চল $i$ এর জন্য অ্যাটেনশন ওজন $\alpha_i$ নিম্নরূপে গণনা করা হয়:

$\alpha_i = \frac{\exp(\text{score}(\mathbf{q}, \mathbf{v}_i))}{\sum_{j=1}^{N} \exp(\text{score}(\mathbf{q}, \mathbf{v}_j))}$

যেখানে $\mathbf{q}$ হল প্রশ্ন এম্বেডিং এবং $\mathbf{v}_i$ হল $i$-তম ইমেজ অঞ্চলের ফিচার। স্কোর ফাংশন সাধারণত একটি শেখা লিনিয়ার লেয়ার বা একটি বাইলিনিয়ার মডেল।

3.3 ফিচার ফিউশন

অ্যাটেন্ডেড ইমেজ ফিচার এবং চূড়ান্ত প্রশ্ন এম্বেডিংকে ফিউজ করা হয়, প্রায়শই এলিমেন্ট-ওয়াইজ গুণ বা কনক্যাটেনেশনের পর একটি মাল্টি-লেয়ার পারসেপট্রন (MLP) ব্যবহার করে, যাতে চূড়ান্ত উত্তর শ্রেণীবিভাগের জন্য একটি যৌথ উপস্থাপনা তৈরি হয়।

4. পরীক্ষামূলক সেটআপ

4.1 ডেটাসেট ও মেট্রিক্স

পরীক্ষাগুলি VQA v2.0 ডেটাসেটে পরিচালিত হয়। প্রাথমিক মূল্যায়ন মেট্রিক হল সঠিকতা। বিশেষ মনোযোগ দেওয়া হয় "সংখ্যা" এবং "অন্যান্য" প্রশ্নের ধরনগুলিতে, যেগুলিতে প্রায়শই গণনা এবং জটিল যুক্তি জড়িত থাকে।

4.2 হাইপারপ্যারামিটার টিউনিং

পরিবর্তিত মূল প্যারামিটারগুলি: শব্দভাণ্ডারের আকার (1000, 3000, 5000), শব্দ এম্বেডিং মাত্রা (100, 300, 500), এবং ইমেজ CNN ব্যাকবোনের জন্য ফাইন-টিউনিং কৌশল। লক্ষ্য হল কর্মদক্ষতা এবং মডেলের আকার/গণনীয় খরচের মধ্যে সর্বোত্তম ভারসাম্য খুঁজে বের করা।

5. ফলাফল ও বিশ্লেষণ

5.1 কর্মদক্ষতা তুলনা

300 এম্বেডিং মাত্রা এবং 3000 শব্দভাণ্ডার আকার সহ BidGRU মডেল সর্বোত্তম সামগ্রিক কর্মদক্ষতা অর্জন করেছে। এটি সীমাবদ্ধ সেটিংয়ে সরল GRU এবং আরও জটিল BidLSTM উভয়কেই ছাড়িয়ে গিয়ে, প্রাসঙ্গিক তথ্য ধারণ করার ক্ষমতা এবং প্যারামিটার দক্ষতার মধ্যে ভারসাম্য বজায় রেখেছে। টেক্সটের জন্য CNN-গুলি প্রতিযোগিতামূলক গতি দেখিয়েছে কিন্তু জটিল যুক্তি সংক্রান্ত প্রশ্নে কিছুটা কম সঠিকতা দেখিয়েছে।

মূল ফলাফল সারসংক্ষেপ

সর্বোত্তম কনফিগারেশন: BidGRU, EmbDim=300, Vocab=3000

মূল সন্ধান: এই কনফিগারেশনটি উল্লেখযোগ্যভাবে কম গণনীয় সম্পদ (FLOPs এবং মেমরি) ব্যবহার করার সময়ও সংখ্যাগত/গণনা সংক্রান্ত প্রশ্নে বৃহত্তর মডেলগুলির কর্মদক্ষতার সাথে মিলেছে বা সেগুলিকে ছাড়িয়ে গেছে।

5.2 অ্যাবলেশন স্টাডিজ

অ্যাবলেশন স্টাডিজ দুটি গুরুত্বপূর্ণ বিষয় নিশ্চিত করেছে:

  1. অ্যাটেনশন মেকানিজম: অ্যাটেনশন সরিয়ে নেওয়ার ফলে কর্মদক্ষতায় উল্লেখযোগ্য পতন ঘটেছে, বিশেষ করে "সংখ্যা" সংক্রান্ত প্রশ্নে, যা স্থানিক যুক্তিতে এর ভূমিকা তুলে ধরে।
  2. গণনা মডিউল/তথ্য: গণনার সংকেত স্পষ্টভাবে মডেলিং বা ব্যবহার করা (যেমন, নিবেদিত সাব-নেটওয়ার্ক বা ডেটা অগমেন্টেশনের মাধ্যমে) গণনা-সম্পর্কিত প্রশ্নগুলির জন্য যথেষ্ট উন্নতি প্রদান করেছে, যা VQA মডেলগুলির জন্য কুখ্যাতভাবে কঠিন।

6. প্রযুক্তিগত বিবরণ ও সূত্র

GRU ইউনিট সমীকরণ: গেটেড রিকারেন্ট ইউনিট (GRU) LSTM কে সরল করে এবং নিম্নরূপ সংজ্ঞায়িত করা হয়:

$\mathbf{z}_t = \sigma(\mathbf{W}_z \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t])$ (আপডেট গেট)
$\mathbf{r}_t = \sigma(\mathbf{W}_r \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t])$ (রিসেট গেট)
$\tilde{\mathbf{h}}_t = \tanh(\mathbf{W} \cdot [\mathbf{r}_t * \mathbf{h}_{t-1}, \mathbf{x}_t])$ (প্রার্থী অ্যাক্টিভেশন)
$\mathbf{h}_t = (1 - \mathbf{z}_t) * \mathbf{h}_{t-1} + \mathbf{z}_t * \tilde{\mathbf{h}}_t$ (চূড়ান্ত অ্যাক্টিভেশন)

যেখানে $\sigma$ হল সিগময়েড ফাংশন, $*$ হল এলিমেন্ট-ওয়াইজ গুণ, এবং $\mathbf{W}$ হল ওজন ম্যাট্রিক্স। BidGRU এই প্রক্রিয়াটি সামনে এবং পিছনে চালায়, আউটপুটগুলিকে কনক্যাটেনেট করে।

বাইলিনিয়ার অ্যাটেনশন স্কোর: অ্যাটেনশন স্কোর ফাংশনের জন্য একটি সাধারণ পছন্দ হল বাইলিনিয়ার ফর্ম: $\text{score}(\mathbf{q}, \mathbf{v}) = \mathbf{q}^T \mathbf{W} \mathbf{v}$, যেখানে $\mathbf{W}$ হল একটি শেখার যোগ্য ওজন ম্যাট্রিক্স।

7. বিশ্লেষণ ফ্রেমওয়ার্ক উদাহরণ

পরিস্থিতি: একটি মেডিকেল ইমেজিং স্টার্টআপ পোর্টেবল আল্ট্রাসাউন্ড ডিভাইসে একটি VQA সহকারী স্থাপন করতে চায় যাতে টেকনিশিয়ানদের লাইভ ইমেজ থেকে ভ্রূণের হৃদস্পন্দন গণনা বা অঙ্গের মাত্রা পরিমাপ করতে সাহায্য করা যায়। গণনীয় বাজেট অত্যন্ত সীমিত।

ফ্রেমওয়ার্ক প্রয়োগ:

  1. টাস্ক প্রোফাইলিং: চিহ্নিত করুন যে মূল কাজগুলি হল "গণনা" (হৃদস্পন্দন) এবং "সংখ্যাগত" (পরিমাপ)।
  2. মডেল নির্বাচন: এই গবেষণাপত্রের ফলাফলের ভিত্তিতে, LSTM বা খাঁটি CNN ভেরিয়েন্টের উপর BidGRU-ভিত্তিক টেক্সট এনকোডার পরীক্ষাকে অগ্রাধিকার দিন।
  3. কনফিগারেশন টিউনিং: প্রস্তাবিত কনফিগারেশন (EmbDim=300, Vocab=3000) দিয়ে শুরু করুন। MobileNetV2-এর মতো একটি হালকা ওজনের ইমেজ এনকোডার ব্যবহার করুন।
  4. অ্যাবলেশন বৈধতা: নিশ্চিত করুন যে অ্যাটেনশন মেকানিজম উপস্থিত রয়েছে এবং যাচাই করুন যে একটি সরল গণনা সাব-মডিউল (যেমন, গণনা ডেটায় প্রশিক্ষিত একটি রিগ্রেশন হেড) লক্ষ্য কাজগুলিতে কর্মদক্ষতা উন্নত করে।
  5. দক্ষতা মেট্রিক: শুধু সঠিকতা নয়, লক্ষ্য হার্ডওয়্যারে (যেমন, একটি মোবাইল GPU) অনুমান লেটেন্সি এবং মেমরি ফুটপ্রিন্টও মূল্যায়ন করুন।

গবেষণাপত্রের অন্তর্দৃষ্টি থেকে উদ্ভূত এই কাঠামোবদ্ধ পদ্ধতিটি সীমাবদ্ধ ডোমেইনে দক্ষ মডেল উন্নয়নের জন্য একটি স্পষ্ট রোডম্যাপ প্রদান করে।

8. ভবিষ্যত প্রয়োগ ও দিকনির্দেশনা

প্রয়োগ:

  • এজ AI ও IoT: কৃষি জরিপের জন্য ড্রোনে VQA স্থাপন (যেমন, "কয়টি গাছে রোগের লক্ষণ দেখা যাচ্ছে?") বা গুদামের ইনভেন্টরি পরীক্ষার জন্য রোবটে।
  • সহায়ক প্রযুক্তি: দৃষ্টিপ্রতিবন্ধীদের জন্য স্মার্টফোন বা পরিধানযোগ্য ডিভাইসে রিয়েল-টাইম ভিজুয়াল সহকারী।
  • কম-শক্তি মেডিকেল ডিভাইস: উদাহরণে বর্ণিত হিসাবে, সম্পদ-সীমিত পরিবেশে পয়েন্ট-অফ-কেয়ার ডায়াগনস্টিক্সের জন্য।

গবেষণা দিকনির্দেশনা:

  • দক্ষতার জন্য নিউরাল আর্কিটেকচার সার্চ (NAS): নির্দিষ্ট হার্ডওয়্যারের জন্য উপযুক্ত সর্বোত্তম হালকা ওজনের VQA আর্কিটেকচার অনুসন্ধান স্বয়ংক্রিয় করা, ইমেজ ক্লাসিফিকেশনে প্রচেষ্টার অনুরূপ (যেমন, Google-এর EfficientNet)।
  • নলেজ ডিস্টিলেশন: গণনার মতো গুরুত্বপূর্ণ সাব-টাস্কে সঠিকতা বজায় রেখে বৃহৎ, শক্তিশালী VQA মডেলগুলিকে (যেমন Vision-Language Transformers ভিত্তিক) ছোট, ঐতিহ্যবাহী আর্কিটেকচারে সংকুচিত করা।
  • ডায়নামিক কম্পিউটেশন: এমন মডেল তৈরি করা যা প্রশ্নের কঠিনতা বা উপলব্ধ সম্পদের ভিত্তিতে তাদের গণনীয় খরচ সামঞ্জস্য করতে পারে।
  • ক্রস-মডাল প্রুনিং: স্ট্রাকচার্ড প্রুনিং কৌশল অন্বেষণ করা যা নেটওয়ার্কের চাক্ষুষ এবং পাঠ্য উভয় পথেই সংযোগগুলিকে যৌথভাবে স্পার্সিফাই করে।

9. তথ্যসূত্র

  1. J. Gu, "Performance Analysis of Traditional VQA Models Under Limited Computational Resources," 2025.
  2. K. Xu et al., "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention," ICML, 2015.
  3. P. Anderson et al., "Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering," CVPR, 2018.
  4. J. Lu et al., "Hierarchical Question-Image Co-Attention for Visual Question Answering," NeurIPS, 2016.
  5. Z. Yang et al., "Stacked Attention Networks for Image Question Answering," CVPR, 2016.
  6. J. Johnson et al., "Inferring and Executing Programs for Visual Reasoning," ICCV, 2017.
  7. M. Tan & Q. V. Le, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks," ICML, 2019. (External reference for efficient architecture design).
  8. OpenAI, "GPT-4 Technical Report," 2023. (External reference for state-of-the-art large-scale models as a contrast).

বিশ্লেষকের দৃষ্টিভঙ্গি: একটি ব্যবহারিক পাল্টা-কাহিনী

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ, প্রায়শই উপেক্ষিত সত্য উপস্থাপন করে: বাস্তব জগতে, সর্বশেষ প্রযুক্তি প্রায়শই একটি দায় হয়ে দাঁড়ায়। যদিও একাডেমিক আলোকপাত OpenAI-এর CLIP বা Flamingo-এর মতো বিলিয়ন-প্যারামিটার Vision-Language Transformers (VLTs) এর উপর পড়ে, এই কাজটি জোর দিয়ে বলে যে কঠোর গণনীয় বাজেটের অধীনে স্থাপনের জন্য—চিন্তা করুন মেডিকেল এজ ডিভাইস, এম্বেডেড শিল্প ব্যবস্থা, বা ভোক্তা মোবাইল অ্যাপ্লিকেশন—BidGRU-এর মতো ঐতিহ্যবাহী, ভালোভাবে বোঝা আর্কিটেকচারগুলি শুধু বিকল্প নয়; সেগুলি সর্বোত্তম পছন্দ হতে পারে। মূল মূল্য একটি বেঞ্চমার্কে SOTA কে হারানোর মধ্যে নয়; এটি নির্দিষ্ট, গুরুত্বপূর্ণ কাজে (যেমন গণনা) SOTA কর্মদক্ষতার সাথে মিলে যাওয়া খরচের একটি ভগ্নাংশে। এটি এমন একটি পাঠ যা শিল্পটি EfficientNet-এর আগে CNN-এর সাথে বেদনাদায়কভাবে শিখেছিল, এবং এখন ট্রান্সফরমারগুলির সাথে পুনরায় শিখছে।

যুক্তিসঙ্গত প্রবাহ ও শক্তি: গবেষণাপত্রের পদ্ধতিটি সঠিক এবং সতেজভাবে ব্যবহারিক। এটি একটি নতুন আর্কিটেকচার প্রস্তাব করে না বরং একটি নির্দিষ্ট সীমাবদ্ধতার অধীনে একটি কঠোর তুলনামূলক গবেষণা পরিচালনা করে—যা প্রকৌশলীদের জন্য আরেকটি ক্রমবর্ধমান নতুনত্বের চেয়ে বেশি মূল্যবান অনুশীলন। BidGRU (EmbDim=300, Vocab=3000) কে একটি "সুইট স্পট" হিসাবে চিহ্নিত করা একটি কংক্রিট, কার্যকরী অনুসন্ধান। অ্যাটেনশন এবং গণনার উপর অ্যাবলেশন স্টাডিজ বিশেষভাবে শক্তিশালী, যা প্রায়শই অনুমিত প্রয়োজনীয়তার জন্য কার্যকারণমূলক প্রমাণ প্রদান করে। এটি দক্ষ AI-তে বিস্তৃত অনুসন্ধানের সাথে সামঞ্জস্যপূর্ণ; উদাহরণস্বরূপ, Google-এর EfficientNet কাজটি দেখিয়েছে যে গভীরতা, প্রস্থ এবং রেজোলিউশনের যৌগিক স্কেলিং অন্ধভাবে যেকোনো একক মাত্রা স্কেল করার চেয়ে অনেক বেশি কার্যকর—এখানে, লেখকরা একটি VQA মডেলের পাঠ্য উপাদানের জন্য অনুরূপ "সুষম স্কেলিং" খুঁজে পেয়েছেন।

ত্রুটি ও হারানো সুযোগ: প্রাথমিক দুর্বলতা হল সঠিকতার বাইরের মেট্রিক্সে—বিশেষ করে, FLOPs, প্যারামিটার সংখ্যা, এবং লক্ষ্য হার্ডওয়্যারে (CPU, এজ GPU) অনুমান লেটেন্সিতে—একটি আধুনিক বেসলাইনের (যেমন, একটি ডিস্টিলড টাইনি ট্রান্সফরমার) সাথে সরাসরি, পরিমাণযোগ্য তুলনার অভাব। এই সংখ্যাগুলি ছাড়া একটি মডেল "হালকা ওজনের" বলা বিষয়ভিত্তিক। তদুপরি, যদিও ঐতিহ্যবাহী মডেলগুলিতে ফোকাস করা হল প্রিমিস, ভবিষ্যতের দিকনির্দেশনা বিভাগটি আরও সাহসী হতে পারে। এটির স্পষ্টভাবে একটি "VQA-MobileNet" মুহূর্তের জন্য আহ্বান জানানো উচিত: একটি সমন্বিত প্রচেষ্টা, সম্ভবত নিউরাল আর্কিটেকচার সার্চ (NAS) এর মাধ্যমে, এমন একটি মডেল পরিবার ডিজাইন করা যা মাইক্রোকন্ট্রোলার থেকে সার্ভার পর্যন্ত মার্জিতভাবে স্কেল করে, প্রাথমিক CNN বিস্ফোরণের পরে ইমেজ ক্লাসিফিকেশনের জন্য মেশিন লার্নিং সম্প্রদায় যা অর্জন করেছিল তার অনুরূপ।

কার্যকরী অন্তর্দৃষ্টি: হার্ডওয়্যার-সীমিত ক্ষেত্রের পণ্য ব্যবস্থাপক এবং CTO-দের জন্য, এই গবেষণাপত্রটি আপনার টেক স্ট্যাক পুনর্মূল্যায়ন করার জন্য একটি আদেশ। একটি প্রি-ট্রেইন্ড VLT API (এর লেটেন্সি, খরচ এবং গোপনীয়তার উদ্বেগ সহ) ডিফল্ট করার আগে, একটি টিউন করা BidGRU মডেল দিয়ে প্রোটোটাইপ করুন। ধারা 7-এর ফ্রেমওয়ার্কটি হল নীলনকশা। গবেষকদের জন্য, অন্তর্দৃষ্টি হল দক্ষতা গবেষণাকে কেবল দানবীয় মডেলগুলিকে সংকুচিত করা থেকে সীমাবদ্ধতার অধীনে ভিত্তি পুনর্বিবেচনা করার দিকে ঘুরিয়ে দেওয়া। দক্ষ VQA-তে পরবর্তী অগ্রগতি একটি 10B-প্যারামিটার মডেলের 90% প্রুনিং থেকে আসতে পারে না, বরং একটি 10M-প্যারামিটার মডেল আর্কিটেকচারিং থেকে আসতে পারে যা মিশন-ক্রিটিক্যাল কাজে 90% সঠিক। এই গবেষণাপত্রটি বিশ্বাসযোগ্যভাবে দেখায় যে সেই কাজের সরঞ্জামগুলি সম্ভবত ইতিমধ্যেই আমাদের টুলবক্সে রয়েছে, একটি স্মার্টার প্রয়োগের জন্য অপেক্ষা করছে।