माइक्रोसफ्टको नयाँ टेक्स्ट टू स्पीच एआइले प्रयोगकर्ताको आवाजलाई क्लोन गर्न सक्ने भएको छ । यसले प्रयोगकर्ताले बोल्ने तरिका, आवाजको शैली सबैलाई जस्ताको त्यस्तै क्लोन गर्न सक्ने छ ।
टेक्स्ट टू स्पीच एआइलाई प्रयोगकर्ताको आवाज क्लोन गर्न तीन सेकेण्डको अडियो क्लिप भएमा मात्रै पनि पुग्नेछ । यो टेक्स्ट टू स्पीच एआइको नाम भ्याली रहेको छ । यस प्रणालीले न्यूरल कोडेक लैंग्वेज मोडेल प्रयोग गर्ने गर्दछ ।
यसलाई प्रयोग गर्न पनि एकदमै साधारण रहेको छ । यसका लागि कुनै अडियो स्याम्पल प्रयोग गरेर टेक्स्ट हालेमा वासतविक जस्तो सुनिने बोली पैदा हुने बताइएको छ ।
अहिलेसम्म अरु पनि थुप्रै टेक्स्ट टू स्पीच एआई बनिसकेका छन् र तिनीहरु सबैमा धेरै मात्रामा इन्पुट दिनुपर्ने हुन्छ तर भ्यालीमा तीन सेकेण्डको अडियो स्याम्पलले मात्तै पनि पुग्ने जनाइएको छ ।