ધીમંત રેડ્ડી અને ભરત કુમાર / LinkedIn
ધીમંત રેડ્ડી અને ભરત કુમાર, બંને ૨૩ વર્ષના અને ન્યૂયોર્ક યુનિવર્સિટીના સ્નાતકો,એ તેમની બેંગલુરુ સ્થિત સ્ટાર્ટઅપ માયા રિસર્ચ દ્વારા ૪ નવેમ્બર ૨૦૨૫ના રોજ માયા૧ નામનું ઓપન-સોર્સ ટેક્સ્ટ-ટુ-સ્પીચ (TTS) મોડેલ લોન્ચ કર્યું છે, જે ઝડપથી વિશ્વની ટોચની વૉઇસ એઆઈ સિસ્ટમ્સમાંની એક બની ગયું છે.
આર્ટિફિશિયલ એનાલિસિસ સ્પીચ એરેના લીડરબોર્ડ અનુસાર, માયા૧ ઓપન-વેઇટ કેટેગરીમાં બીજા ક્રમે અને વૈશ્વિક સ્તરે વૉઇસ એઆઈ મોડેલ્સમાં ૨૦મા સ્થાને છે, જે ગૂગલ સહિત મોટી કંપનીઓની સિસ્ટમ્સ કરતાં આગળ છે. તે ૨૦થી વધુ ભાવનાઓને સપોર્ટ કરે છે, ઝીરો-શૉટ વૉઇસ ક્લોનિંગ સક્ષમ બનાવે છે અને એક જ જીપીયુ પર ૧૦૦ મિલિસેકન્ડથી ઓછી વિલંબતા સાથે કાર્ય કરે છે.
આ મોડેલ ફ્રી ક્લાઉડ કમ્પ્યુટિંગ ક્રેડિટ્સનો ઉપયોગ કરીને તાલીમ આપવામાં આવ્યું છે અને અપાચે ૨.૦ લાઇસન્સ હેઠળ રિલીઝ કરવામાં આવ્યું છે. તે ત્રણ અબજ પેરામીટર્સ સાથે બનાવવામાં આવ્યું છે. તે લેખિત પ્રોમ્પ્ટ્સમાંથી કુદરતી, ભાવનાત્મક અભિવ્યક્ત વૉઇસ ઉત્પન્ન કરી શકે છે, જે ઇલેવનલેબ્સ અને ઓપનએઆઈ જેવી માલિકીવાળી સિસ્ટમ્સ સાથે સ્પર્ધા કરતી રીઅલ-ટાઇમ સ્પીચ જનરેશન ક્ષમતા ધરાવે છે.
માયા૧ની ડિઝાઇન વપરાશકર્તાઓને તેમની ઇચ્છિત વૉઇસનું વર્ણન કરવાની મંજૂરી આપે છે – જેમ કે “૪૦ વર્ષીય મહિલા, ગરમ સ્વર, ધીમી ગતિ” – અને સિસ્ટમ તેને તુરંત ઉત્પન્ન કરે છે. મોડેલની કાર્યક્ષમતા ન્યુરલ ઑડિયો કોડેક SNACના ઉપયોગથી આવે છે, જે ધ્વનિને નાના ડેટા ટોકન્સમાં સંકુચિત કરે છે જે ૨૪ કિલોહર્ટ્ઝ ઑડિયોમાં પુનઃનિર્માણ કરવામાં આવે છે.
મોટા ભાગની વ્યાપારી ટેક્સ્ટ-ટુ-સ્પીચ મોડેલ્સ પૂર્વ-રેકોર્ડેડ વૉઇસ પર આધારિત હોય છે, તેનાથી વિપરીત માયા૧ ગતિશીલ રીતે નવી વૉઇસ બનાવે છે અને રીઅલ ટાઇમમાં પ્રતિસાદ આપે છે. તે ટેક્સ્ટમાં સીધા જ ભાવના ટૅગ્સ જેમ કે <happy>, <sad> અથવા <excited>ને અર્થઘટન કરીને અનુરૂપ વૉકલ અભિવ્યક્તિઓ ઉત્પન્ન કરે છે, પ્રતીકાત્મક સંકેતોને બદલે.
અંગ્રેજી સ્પીચ કોર્પસ પર તાલીમ આપવામાં આવી છે જેમાં મોટા પાયે ઑનલાઇન ડેટા અને સ્ટુડિયો-ગુણવત્તાવાળા રેકોર્ડિંગ્સનો સમાવેશ થાય છે. માયા૧ની ફાઇન-ટ્યુનિંગમાં માનવ-લેબલવાળી ભાવનાત્મક અને સ્વરીય વેરિએશન્સનો સમાવેશ થયો છે. તેના વિકાસકર્તાઓ જણાવે છે કે મોડેલ vLLM ફ્રેમવર્ક સાથેના એકીકરણ દ્વારા રીઅલ-ટાઇમ આઉટપુટ હાંસલ કરે છે, જે કાર્યક્ષમ અનુમાન માટેનું ફ્રેમવર્ક છે, જે ડિજિટલ આસિસ્ટન્ટ્સ અને વાર્તા કહેવાના સાધનો જેવા એપ્લિકેશન્સ માટે નજીકના તાત્કાલિક પ્રતિસાદો સક્ષમ કરે છે.
આ મોડેલ હગિંગ ફેસ પર “maya-research/maya1” હેઠળ જાહેરમાં ઉપલબ્ધ છે અને માયા રિસર્ચની સત્તાવાર વેબસાઇટ mayaresearch.ai દ્વારા સીધું જ પરીક્ષણ કરી શકાય છે.
ADVERTISEMENT
ADVERTISEMENT
Comments
Start the conversation
Become a member of New India Abroad to start commenting.
Sign Up Now
Already have an account? Login