কাজের সূত্রে বেশ কয়েক বছর হয়ে গেল পশ্চিমবঙ্গের বাইরে থাকেন সফটওয়্যার ইঞ্জিনিয়ার শুভম। প্রায় রোজই ফোনে কথা হয় মা-বাবার সঙ্গে।
কিন্তু বাবার গলা নকল করে কেউ যে তাঁর সঙ্গে আর্থিক প্রতারণা (financial fraud) করতে পারে, তা ভাবতেই পারেননি শুভম। ‘বাবা’র গলা শুনে প্রায় এক লক্ষ টাকা খুইয়ে শেষমেশ পুলিশের দ্বারস্থ হলেন তিনি। শুভম বুঝতেই পারেননি যে, ফোনের ওপারের কণ্ঠস্বরটি তাঁর বাবার নয়—এক প্রতারকের।
এই ঘটনা শুধু শুভমের সঙ্গে নয়, আপনার বা আপনার পরিবারের যার কারও সঙ্গেই ঘটতে পারে। এই নকল বা প্রতারণামূলক কলের শিকার হতে পারেন আপনার মা বা বাবা, ভাই বা বোন, বন্ধু বা প্রিয়জন—যে কেউ।
আর তাঁদের গলার স্বর হুবহু নকল করেই কেউ আপনাকে ফোন করতে পারে। আপনি তা বুঝতেও পারবেন না। ফোন করে সমস্যার কথা বলা হতে পারে। অর্থ সাহায্যও চাওয়া হতে পারে। আপনি সেই কাছের মানুষের করুণ গলা শুনে আবেগে ভেসে গিয়ে দিয়েও দিলেন মোটা অঙ্কের টাকা।
ব্যস! তারপরই বুঝলেন, আপনি প্রতারিত হয়েছেন। সেখান থেকে পরিস্থিতি যে কতটা সঙ্কটজনক হয়ে উঠতে পারে, তা হয়তো এতক্ষণে আপনি বুঝতেই পারছেন। ভয় পেয়ে গেলেন তাই তো? এটাকেই বলে ‘ভয়েস ক্লোনিং’ (voice cloning)।
ভয়েস ক্লোনিং এর ফাঁদ
অনলাইন আর্থিক জালিয়াতি রুখতে এআই (Artificial Intelligence) প্রযুক্তির ব্যবহার যেমন জনপ্রিয় হয়ে উঠছে, তেমনই সাধারণ মানুষকে বিপদের মুখেও ঠেলে দিচ্ছে।
কৃত্রিম বুদ্ধিমত্তা বা আর্টিফিশিয়াল ইনটেলিজেন্স প্রযুক্তির মাধ্যমে যে কোনও ব্যক্তির গলার স্বর হুবহু নকল করে ফেলা যায়, যা একবার শুনে বোঝা সম্ভবই নয় তা আসল না নকল।
অনলাইনে টাকা হাতিয়ে নেওয়ার কৌশল হিসাবে তাই প্রতারকেরাও এই ‘ভয়েস ক্লোনিং’ প্রযুক্তির দিকেই হাত বাড়াচ্ছে। BBC-র 2023-এর একটি রিপোর্ট অনুযায়ী, 83 শতাংশ ভারতীয় এই ধরনের প্রতারণার শিকার এবং 69 শতাংশ ভারতীয় বুঝতেই পারেন না, কোনটা আসল আর কোনটা AI জেনারেটেড ভয়েস।
আসল-নকল বোঝা দায়
‘আসলে সত্যি বলে সত্যি কিছু নেই’—রূপম ইসলামের কণ্ঠে গাওয়া ‘বাইশে শ্রাবণ’ সিনেমার গানের লাইনটাই বোধহয় এক্ষেত্রে অব্য়র্থ (কথা যখন হচ্ছে কণ্ঠস্বর নিয়ে, অন্তত তখন…)।
McAfee-র একটি রিপোর্টে পরিসংখ্যান উল্লেখ করে বলা হয়েছে (The Hindu-র একটি প্রতিবেদন অনুযায়ী), 86% ভারতীয় সপ্তাহে অন্তত একবার হলেও তাঁদের কোনও না কোনও ভয়েস ডেটা (voice data) বা ভয়েস নোট (voice note) অনলাইনে শেয়ার করেছেন।
McAfee-র ওই রিপোর্ট আরও বলছে, 66% ভারতীয় একথা স্বীকার করেছেন যে, বন্ধু বা পরিবারের কেউ টাকা চেয়ে ভয়েস কল বা ফোন কল করলে তাঁরা সেই কলটিকে অবশ্যই গুরুত্ব দিয়ে দেখবেন।
AI ভয়েস ক্লোন স্ক্যামের প্রধান লক্ষ্য?
ভারতে ইদানীং AI ভয়েস ক্লোন স্ক্যামের ঘটনার সংখ্যা উত্তরোত্তর বাড়ছে। ‘দ্য আর্টিফিশিয়াল ইম্পোস্টার’ (The Artificial Imposter)-এর একটি প্রতিবেদন অনুযায়ী, 2023-এর মে মাসে ভারতীয়দের মধ্যে 47% এআই জেনারেটেড ভয়েস স্ক্যামের শিকার হয়েছেন।
এআই ভয়েস জালিয়াতি (AI voice scam)-তে ভারত তালিকার শীর্ষে রয়েছে। এমনকি বেশ কয়েকটি ঘটনার কথা পুলিশের কাছে নথিভুক্ত না-হওয়া সত্ত্বেও প্রকাশ্যে এসেছে।
2023-এর ডিসেম্বরে লখনউয়ের এক বাসিন্দা এই AI voice scam-এর শিকার হয়েছিলেন। ফোনের ওপারে থাকা কণ্ঠস্বর শুনে তিনি মনে করেছিলেন, তাঁর আত্মীয় ফোন করেছেন। আসলে যা ছিল ভয়েস ক্লোনিং।
অর্থাৎ ফোনের ওপারে থাকা ব্যক্তি ছিল এক সাইবার প্রতারক—স্ক্যামার। ফোন করে লখনউয়ের ওই ব্যক্তিকে UPI-এর মাধ্যমে অনেকগুলো টাকা পাঠানোর জন্য অনুরোধ করা হয়। আর তিনিও আবেগে ভেসে গিয়ে স্ক্যামারের ফাঁদে পা দিয়ে দেন।
কীভাবে করা হয় ভয়েস ক্লোনিং?
কারও কণ্ঠ ক্লোন বা হুবহু নকল করা হয় কম্পিউটারে AI-এর ভিত্তিতে তৈরি একটি সফটওয়্যার প্রোগ্রাম ব্যবহার করে। এর মাধ্যমে একজন ব্যক্তির কণ্ঠস্বর হুবহু নকল করে একটি কৃত্রিম কণ্ঠস্বর তৈরি করা হয়। এর জন্য কোনও এক ব্যক্তির মাত্র কয়েক মিনিটের কণ্ঠস্বর প্রয়োজন।
কিন্তু প্রয়োজন বললেই তো আর সেই কণ্ঠস্বর পাওয়া যাবে না। তাহলে? এক্ষেত্রে একটি প্রাথমিক শর্ত রয়েছে: সেই কণ্ঠস্বর অবশ্যই থাকতে হবে অনলাইনে।
অর্থাৎ সহজ কথায় আপনার কোনও অডিও ক্লিপ বা ভয়েস নোট (যা হয়তো আপনি হোয়াটসঅ্যাপ-ও মেসেজ হিসেবে পাঠিয়ে থাকতে পারেন কখনও) থাকতে হবে ভার্চুয়াল পৃথিবীতে। এবার সেই কণ্ঠস্বরটি আপনার অজান্তেই সফটওয়্যারের মাধ্যমে ব্যবহার করা হয় এক কারসাজিতে।
ঠিক কী করবে সফটওয়্যার? কণ্ঠস্বর শুনেই সফটওয়্যার জেনে যায়, সেই ব্যক্তির কণ্ঠের আওয়াজ, বাচনভঙ্গি অর্থাৎ কীভাবে ওই ব্যক্তি কথা বলেন এই জাতীয় সমস্ত খুঁটিনাটি।
সবচেয়ে বড় কথা হল, শুধু আপনার কণ্ঠের আওয়াজই নয়, এই প্রযুক্তি এখন এতটাই এগিয়ে গিয়েছে যে, আপনি শুনলে ঘুণাক্ষরেও বুঝতে পারবেন না যে, আপনার কণ্ঠেরই AI-চালিত অনুকরণ শুনছেন।
অর্থাৎ আপনার কথা বলার ঢং, উচ্চারণভঙ্গি বা অ্যাকসেন্ট, আপনি কত দ্রুত বা ধীরে কথা বলেন, কথা বলার সময় আপনার কণ্ঠ কেমন থাকে (ভারী না পাতলা নাকি ফ্যাসফ্যাসে), ২টো শব্দের মাঝে আপনি কতবার শ্বাস নেন, সবই সফটওয়্যার হুবহু নকল করে ফেলতে পারে। এই ধরনের সফটওয়্যারই ব্যবহার করে স্ক্যামাররা।
এই সফটওয়্যারের চমকে দেওয়ার ক্ষমতা আছে…
আপনার কণ্ঠস্বরের সব বিশেষত্ব নকল করার পর যখন কম্পিউটারের কি-বোর্ডে কোনও শব্দ বা বাক্য লেখা হবে, সেটা সফটওয়্যার তাতে (অর্থাৎ text হিসেবে যা লেখা হচ্ছে, তাতে) হুবহু আপনার গলার আওয়াজ বসিয়ে দেবে। সহজ কথায়, স্ক্যামার যে শব্দগুলি উচ্চারণ করে আপনাকে ফাঁদে পেলতে চাইছে, সেই সব শব্দই লেখা হয় সফটওয়ারে। চোখের নিমেষে এভাবেই text হয়ে ওঠে speech। এই speech বা কণ্ঠ শুনলে মনে হবে, আপনিই কথা বলছেন। ক্লোন না নকল, ধরতেই পারবেন না।
TV9 বাংলা ডিজিটালের তরফে এ প্রসঙ্গে যোগাযোগ করা হয় সাইবার বিশেষজ্ঞ সুশোভন মুখোপাধ্যায় (সহ-প্রতিষ্ঠাতা ও সিইও, প্রাইম ইনফোসার্ভ এলএলপি)-এর সঙ্গে। তাঁর কাছে প্রথম যে প্রশ্নটি রাখা হয়, তা হল:
প্রশ্ন: বন্ধু বা আত্মীয়, যে কারও কণ্ঠস্বর নকল করে তৈরি করা কল যে আসলে নকল, সেটা বোঝার কোনও উপায় আছে কি? অর্থাৎ মোবাইলের ওপারে থাকা ব্যক্তি যে পরিচিত কেউ নয়, উল্টে স্ক্যামারের ফাঁদ ; কীভাবে বুঝবে সাধারণ মানুষ?
সুশোভন: কৃত্তিম বুদ্ধিমত্তাকে কাজে লাগিয়ে পরিচিত মানুষের কণ্ঠস্বর বা ভিডিয়ো ফেক (নকল) করে যে জালিয়াতি চলছে, তারই পোশাকি নাম রাখা হয়েছে ডিপফেক (Deepfake), সাধারণ মানুষের পক্ষে যা বোঝা খুবই কঠিন।
কিন্তু আর একটু খতিয়ে যদি আমরা দেখি, তাহলে যতটা কঠিন আমরা ভাবছি, ততটাও কঠিন আসলে নয় ব্যাপারটা। কিছুটা সতর্ক হয়ে দু’তিনটে-ছোট জিনিসের দিকে নজর দিলেই এটাকে কিন্তু ধরে ফেলা যায়। যখনই এই ধরনের কোনও ভয়েস কল আসবে (অর্থাৎ যেটা নকল), ফোনের ওপারে থাকা ব্যক্তি কী বলছেন, তা মনোযোগ দিয়ে শুনুন।
ওপারের ব্যক্তি আপনাকে কি এমন কোনও অপ্রয়োজনীয় তথ্য দিচ্ছেন, যা কখনওই আপনার পরিচিত কেউ চট করে বলবেন না? এবার কল করে ফোনের ওপারে থাকা ব্যক্তি আপনাকে তার জরুরি অবস্থা বা সমস্যার কথা জানাবে।
হতে পারে তার ক্রেডিট কার্ড হারিয়ে গিয়েছে, হতে পারে এটিএম কার্ড কাজ করছে না, রেস্তোরাঁর বিল মেটাতে পারছেন না—সহজ কথায় আপনার কাছে ফোন করে টাকা চাইছে। তাই বিশ্বাস করে আবেগে ভেসে যাওয়ার আগে থামুন, এক মুহূর্ত ভেবে দেখুন।
নিজের কনট্য়াক্ট লিস্ট দেখে সেই ব্যক্তির আসল নম্বরে ফোন করে যাচাই করুন। আর তার থেকেই জেনে নিন তিনি আপনাকে আদৌ ফোন করেছিলেন কি না। সাধারণ বুদ্ধি কাজে লাগিয়ে এই কাজটা তো আমরা করতেই পারি।
প্রশ্ন: AI বা কৃত্রিম বুদ্ধিমত্তা যেভাবে প্রায় নির্ভুল ভয়েস ক্লোনিং প্রযুক্তি ব্য়বহার করছে, তা রুখতে পুলিশ বা ইন্টেলিজেন্স সংস্থাগুলো কতটা প্রস্তুতি নিচ্ছে? (এক্ষেত্রে প্রস্তুতি বলতে প্রযুক্তিগতভাবে উন্নত হওয়ার কথাই বলা হচ্ছে)
সুশোভন: সাধারণ মানুষের গণ্ডি পেরিয়ে এবার যদি বলা হয় পুলিশ-প্রসাসন, বিভিন্ন সংস্থা এবং সর্বোপরি সরকার কী করছে এই জালিয়াতি আটকাতে, তাহলে সবার আগে বলতে হয়: আসলে এই ডিজিটাল যুগে AI-কে ব্যবহার করে এমন কিছু জিনিস তৈরি করা হচ্ছে, যার ফলে অনেকক্ষেত্রেই গোপনীয়তা বজায় রাখা যাচ্ছে না।
বিভিন্ন দেশের সরকারই এই নিয়ে যারপরনাই উদ্বিগ্ন। এই তো, কয়েকদিন আগেই দেখছিলাম, কোনও একটা আধুনিক গান, তা হেমন্ত মুখোপাধ্যায়ের কণ্ঠে কেমন লাগবে, সেটা জানতে চেয়ে মজার ছলে বিভিন্ন কনটেন্ট তৈরি হচ্ছে।
কিন্তু তার জন্য কি ওঁর (হেমন্ত মুখোপাধ্যায়ের) পরিবারের থেকে অনুমতি চাওয়া হয়েছে? তা জানা নেই। তাই সরকার এক্ষেত্রে যেটা করছে তা হল, ডেটা প্রাইভেসি (Data Privacy)-র জন্য বিভিন্ন ধরনের আইন প্রণয়নের কথা ভাবছে। সরকার আইনকে কাজে লাগিয়েই জালিয়াতি নিয়ন্ত্রণ করার চেষ্টা করছে।