ঢাকা ০৪:০২ পূর্বাহ্ন, মঙ্গলবার, ০১ জুলাই ২০২৫

কণ্ঠস্বর নকলে মেটার নতুন কৃত্রিম বুদ্ধিমত্তা ‘অতি ঝুঁকিপূর্ণ’

  • আপডেট সময় : ১০:২৩:২৬ পূর্বাহ্ন, বুধবার, ২১ জুন ২০২৩
  • ৮০ বার পড়া হয়েছে

প্রযুক্তি ডেস্ক : মেটা এমন এক নতুন কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা বানিয়েছে, তাদের ভাষায় যেটি বেশ কয়েক ধরনের ‘বিশ্বাসযোগ্য বক্তব্য’ তৈরি করতে পারে। তবে, সম্ভাব্য ঝুঁকির ভয়ে এটি প্রকাশ না করার ঘোষণা দিয়েছে কোম্পানিটি।
নতুন এই ব্যবস্থার নাম ‘ভয়েসবক্স’। এতে পুরোপুরি নতুন কণ্ঠস্বরে বিভিন্ন ধরনের আউটপুট তৈরি করা যেতে পারে, যা ছয়টি ভাষায় বক্তব্য তৈরিতে সক্ষম। আর ‘নয়েজ রিমুভাল’-এর মতো অন্যান্য সুবিধাও রয়েছে এতে। কোম্পানি বলছে, আগের ব্যবস্থাগুলোর কথা বিবেচনায় নিলে এটি বড় এক অগ্রগতি। কারণ, সেগুলোতে প্রতিটি কার্যক্রমের জন্য সুনির্দিষ্ট প্রশিক্ষণের প্রয়োজন পড়ত। এর বদলে ভয়েসবক্সে কেবল মৌলিক অডিও বা প্রতিলিপি দিয়ে পরবর্তীতে কোনো অডিও’র নমুনা সংশোধনে ব্যবহার করা যেতে পারে। ঘোষণায় মেটার দাবি, প্রতিদ্বন্দ্বীদের তুলনায় এটি অনেক বেশি কার্যকর। উদাহরণ হিসেবে ধরা যায়, শব্দ তৈরির ক্ষেত্রে প্রতিদ্বন্দ্বী ‘ভাল-ই’র পাঁচ দশমিক নয় শতাংশের তুলনায় এর ভুল হওয়ার প্রবণতা এক দশমিক নয় শতাংশ। আর, ২০ গুণ দ্রুত কাজ করতে পারে এটি। মেটা বলেছে, এটি ‘ফ্লো ম্যাচিং’ নামের নতুন এক মডেলের ভিত্তিতে তৈরি, যা ‘সাবধানে লেবেল করা হয়নি’ এমন স্পিচ থেকে শেখার সুযোগ দেয় সিস্টেমকে, যাতে এটি বিভিন্ন ধরনের ডেটায় প্রশিক্ষিত হতে পারে।
৫০ হাজার ঘণ্টার স্পিচ ও ট্রান্সক্রিপ্টের মাধ্যমে প্রশিক্ষিত হয়েছে ভয়েসবক্স। আর ইংরেজি, ফরাসি, স্প্যানিশ, জার্মান, পোলিশ ও পর্তুগিজ ভাষার বিভিন্ন অডিওবুক থেকে তথ্য সংগ্রহ করেছে এটি। মেটা বলেছে, এখন প্রশিক্ষিত হওয়ায় এতে অডিও রেকর্ডিংয়ের পাশাপাশি বিভিন্ন প্রসঙ্গ থেকে স্পিচ তৈরি করা যেতে পারে। কেবল দুই সেকেন্ডের বক্তব্য থেকে বাস্তবসম্মত কণ্ঠস্বর তৈরির উদ্দেশ্যে এটি ব্যবহার করা যেতে পারে বলে প্রতিবেদনে লিখেছে ইন্ডিপেন্ডেন্ট। উদাহরণ হিসেবে ধরা যায়, বাকপ্রতিবন্ধী ব্যক্তিদের কণ্ঠ দিতে বা গেইমে মানুষের কণ্ঠস্বর যোগ করার জন্য এটি ব্যবহৃত হতে পারে। মেটা বলেছে, নিজস্ব স্টাইল বজায় রেখে বিভিন্ন ভাষায় বক্তব্য অনুবাদের সুবিধাও মিলবে এতে। এর ফলে, ভিন্ন ভাষাভাষী লোকজন আরও সহজে একে অপরের সঙ্গে কথা বলার সুযোগ পাবেন বলে প্রতিবেদনে লিখেছে ইন্ডিপেন্ডেন্ট।
প্রযুক্তিসংশ্লিষ্ট বিভিন্ন কার্যক্রমেও এটি কার্যকর ভূমিকা রাখতে পারে। উদাহরণ হিসেবে ধরা যায়, অডিও এডিটিংয়ের সময় সঠিকভাবে রেকর্ড হয়নি এমন শব্দ প্রতিস্থাপনে এটি ব্যবহার করা যেতে পারে। তবে মেটা বলছে, এর ঝুঁকি এতই বেশি যে তারা এই মডেল প্রকাশ করবে না।
“বিভিন্ন নতুন এআই ব্যবস্থার উদ্ভাবন থেকে আমরা এই প্রযুক্তির সম্ভাব্য ঝুঁকি সম্পর্কে ওয়াকিবহাল।”–এর কোনো সুনির্দিষ্ট ক্ষতিকারক বিষয় উল্লেখ না করলেও বলেছে কোম্পানিটি। বশ কয়েকটি প্রতিবেদনে সতর্ক করা হয়েছে, এই ধরনের ব্যবস্থা মানুষের সম্মতি ছাড়াই কণ্ঠস্বর নকলের পাশাপাশি এমন উপায়ে ব্যবহার করা যেতে পারে, যা ক্ষতিকারক হতে পারে। উদাহরণ হিসেবে ধরা যায়, কোনো খবরের জাল ভিডিও তৈরি বা স্ক্যাম কলে মানুষের কণ্ঠস্বর নকল করে ছদ্মবেশ ধারণ।
“জেনারেটিভ স্পিচ মডেলের বেশ কিছু চমকপ্রদ ব্যবহার দেখা গেছে। তবে, অপব্যবহারের সম্ভাব্য ঝুঁকি থাকায় আমরা এই মুহূর্তে ভয়েসবক্স মডেল বা কোডটি সর্বজনীনভাবে চালু করছি না।” –এক বিবৃতিতে বলেছে মেটা।
“তবে আমরা বিশ্বাস করি, এআই কমিউনিটির সঙ্গে খোলামেলা হতে ও এআই শিল্পকে এগিয়ে নিতে এর বিভিন্ন গবেষণা শেয়ার করা অত্যন্ত গুরুত্বপূর্ণ। আর খোলামেলা হওয়ার সঙ্গে এআই সংশ্লিষ্ট দায়িত্ববোধের ভারসাম্য বজায় রাখাও জরুরী।” মটা কীভাবে এমন ‘অতি কার্যকর’ ব্যবস্থা তৈরি করেছে, যা প্রামাণিক বক্তব্য ও অডিও’র মধ্যে পার্থক্য করতে পারে, তার বিস্তারিত উল্লেখ রয়েছে কোম্পানির ওয়েবসাইটে।

যোগাযোগ

সম্পাদক : ডা. মোঃ আহসানুল কবির, প্রকাশক : শেখ তানভীর আহমেদ কর্তৃক ন্যাশনাল প্রিন্টিং প্রেস, ১৬৭ ইনার সার্কুলার রোড, মতিঝিল থেকে মুদ্রিত ও ৫৬ এ এইচ টাওয়ার (৯ম তলা), রোড নং-২, সেক্টর নং-৩, উত্তরা মডেল টাউন, ঢাকা-১২৩০ থেকে প্রকাশিত। ফোন-৪৮৯৫৬৯৩০, ৪৮৯৫৬৯৩১, ফ্যাক্স : ৮৮-০২-৭৯১৪৩০৮, ই-মেইল : [email protected]
আপলোডকারীর তথ্য

জনপ্রিয় সংবাদ

ইউনূস-রুবিও ফোনালাপ, ইন্দো-প্যাসিফিক অঞ্চলে নিরাপত্তা বাড়াতে জোর

কণ্ঠস্বর নকলে মেটার নতুন কৃত্রিম বুদ্ধিমত্তা ‘অতি ঝুঁকিপূর্ণ’

আপডেট সময় : ১০:২৩:২৬ পূর্বাহ্ন, বুধবার, ২১ জুন ২০২৩

প্রযুক্তি ডেস্ক : মেটা এমন এক নতুন কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা বানিয়েছে, তাদের ভাষায় যেটি বেশ কয়েক ধরনের ‘বিশ্বাসযোগ্য বক্তব্য’ তৈরি করতে পারে। তবে, সম্ভাব্য ঝুঁকির ভয়ে এটি প্রকাশ না করার ঘোষণা দিয়েছে কোম্পানিটি।
নতুন এই ব্যবস্থার নাম ‘ভয়েসবক্স’। এতে পুরোপুরি নতুন কণ্ঠস্বরে বিভিন্ন ধরনের আউটপুট তৈরি করা যেতে পারে, যা ছয়টি ভাষায় বক্তব্য তৈরিতে সক্ষম। আর ‘নয়েজ রিমুভাল’-এর মতো অন্যান্য সুবিধাও রয়েছে এতে। কোম্পানি বলছে, আগের ব্যবস্থাগুলোর কথা বিবেচনায় নিলে এটি বড় এক অগ্রগতি। কারণ, সেগুলোতে প্রতিটি কার্যক্রমের জন্য সুনির্দিষ্ট প্রশিক্ষণের প্রয়োজন পড়ত। এর বদলে ভয়েসবক্সে কেবল মৌলিক অডিও বা প্রতিলিপি দিয়ে পরবর্তীতে কোনো অডিও’র নমুনা সংশোধনে ব্যবহার করা যেতে পারে। ঘোষণায় মেটার দাবি, প্রতিদ্বন্দ্বীদের তুলনায় এটি অনেক বেশি কার্যকর। উদাহরণ হিসেবে ধরা যায়, শব্দ তৈরির ক্ষেত্রে প্রতিদ্বন্দ্বী ‘ভাল-ই’র পাঁচ দশমিক নয় শতাংশের তুলনায় এর ভুল হওয়ার প্রবণতা এক দশমিক নয় শতাংশ। আর, ২০ গুণ দ্রুত কাজ করতে পারে এটি। মেটা বলেছে, এটি ‘ফ্লো ম্যাচিং’ নামের নতুন এক মডেলের ভিত্তিতে তৈরি, যা ‘সাবধানে লেবেল করা হয়নি’ এমন স্পিচ থেকে শেখার সুযোগ দেয় সিস্টেমকে, যাতে এটি বিভিন্ন ধরনের ডেটায় প্রশিক্ষিত হতে পারে।
৫০ হাজার ঘণ্টার স্পিচ ও ট্রান্সক্রিপ্টের মাধ্যমে প্রশিক্ষিত হয়েছে ভয়েসবক্স। আর ইংরেজি, ফরাসি, স্প্যানিশ, জার্মান, পোলিশ ও পর্তুগিজ ভাষার বিভিন্ন অডিওবুক থেকে তথ্য সংগ্রহ করেছে এটি। মেটা বলেছে, এখন প্রশিক্ষিত হওয়ায় এতে অডিও রেকর্ডিংয়ের পাশাপাশি বিভিন্ন প্রসঙ্গ থেকে স্পিচ তৈরি করা যেতে পারে। কেবল দুই সেকেন্ডের বক্তব্য থেকে বাস্তবসম্মত কণ্ঠস্বর তৈরির উদ্দেশ্যে এটি ব্যবহার করা যেতে পারে বলে প্রতিবেদনে লিখেছে ইন্ডিপেন্ডেন্ট। উদাহরণ হিসেবে ধরা যায়, বাকপ্রতিবন্ধী ব্যক্তিদের কণ্ঠ দিতে বা গেইমে মানুষের কণ্ঠস্বর যোগ করার জন্য এটি ব্যবহৃত হতে পারে। মেটা বলেছে, নিজস্ব স্টাইল বজায় রেখে বিভিন্ন ভাষায় বক্তব্য অনুবাদের সুবিধাও মিলবে এতে। এর ফলে, ভিন্ন ভাষাভাষী লোকজন আরও সহজে একে অপরের সঙ্গে কথা বলার সুযোগ পাবেন বলে প্রতিবেদনে লিখেছে ইন্ডিপেন্ডেন্ট।
প্রযুক্তিসংশ্লিষ্ট বিভিন্ন কার্যক্রমেও এটি কার্যকর ভূমিকা রাখতে পারে। উদাহরণ হিসেবে ধরা যায়, অডিও এডিটিংয়ের সময় সঠিকভাবে রেকর্ড হয়নি এমন শব্দ প্রতিস্থাপনে এটি ব্যবহার করা যেতে পারে। তবে মেটা বলছে, এর ঝুঁকি এতই বেশি যে তারা এই মডেল প্রকাশ করবে না।
“বিভিন্ন নতুন এআই ব্যবস্থার উদ্ভাবন থেকে আমরা এই প্রযুক্তির সম্ভাব্য ঝুঁকি সম্পর্কে ওয়াকিবহাল।”–এর কোনো সুনির্দিষ্ট ক্ষতিকারক বিষয় উল্লেখ না করলেও বলেছে কোম্পানিটি। বশ কয়েকটি প্রতিবেদনে সতর্ক করা হয়েছে, এই ধরনের ব্যবস্থা মানুষের সম্মতি ছাড়াই কণ্ঠস্বর নকলের পাশাপাশি এমন উপায়ে ব্যবহার করা যেতে পারে, যা ক্ষতিকারক হতে পারে। উদাহরণ হিসেবে ধরা যায়, কোনো খবরের জাল ভিডিও তৈরি বা স্ক্যাম কলে মানুষের কণ্ঠস্বর নকল করে ছদ্মবেশ ধারণ।
“জেনারেটিভ স্পিচ মডেলের বেশ কিছু চমকপ্রদ ব্যবহার দেখা গেছে। তবে, অপব্যবহারের সম্ভাব্য ঝুঁকি থাকায় আমরা এই মুহূর্তে ভয়েসবক্স মডেল বা কোডটি সর্বজনীনভাবে চালু করছি না।” –এক বিবৃতিতে বলেছে মেটা।
“তবে আমরা বিশ্বাস করি, এআই কমিউনিটির সঙ্গে খোলামেলা হতে ও এআই শিল্পকে এগিয়ে নিতে এর বিভিন্ন গবেষণা শেয়ার করা অত্যন্ত গুরুত্বপূর্ণ। আর খোলামেলা হওয়ার সঙ্গে এআই সংশ্লিষ্ট দায়িত্ববোধের ভারসাম্য বজায় রাখাও জরুরী।” মটা কীভাবে এমন ‘অতি কার্যকর’ ব্যবস্থা তৈরি করেছে, যা প্রামাণিক বক্তব্য ও অডিও’র মধ্যে পার্থক্য করতে পারে, তার বিস্তারিত উল্লেখ রয়েছে কোম্পানির ওয়েবসাইটে।