ADVERTISEMENT

ADVERTISEMENT

બેંગ્લુરુ સ્થિત NYUના સ્નાતકોએ ઓપન-સોર્સ વૉઇસ AI મોડેલ લોન્ચ કર્યું

બે ૨૩ વર્ષીય ભારતીય સ્થાપકોએ માયા૧ લોન્ચ કર્યું, જે ગતિશીલ રીતે નવા અવાજો બનાવે છે અને વાસ્તવિક સમયમાં જવાબ આપે છે.

ધીમંત રેડ્ડી અને ભરત કુમાર / LinkedIn

ધીમંત રેડ્ડી અને ભરત કુમાર, બંને ૨૩ વર્ષના અને ન્યૂયોર્ક યુનિવર્સિટીના સ્નાતકો,એ તેમની બેંગલુરુ સ્થિત સ્ટાર્ટઅપ માયા રિસર્ચ દ્વારા ૪ નવેમ્બર ૨૦૨૫ના રોજ માયા૧ નામનું ઓપન-સોર્સ ટેક્સ્ટ-ટુ-સ્પીચ (TTS) મોડેલ લોન્ચ કર્યું છે, જે ઝડપથી વિશ્વની ટોચની વૉઇસ એઆઈ સિસ્ટમ્સમાંની એક બની ગયું છે.

આર્ટિફિશિયલ એનાલિસિસ સ્પીચ એરેના લીડરબોર્ડ અનુસાર, માયા૧ ઓપન-વેઇટ કેટેગરીમાં બીજા ક્રમે અને વૈશ્વિક સ્તરે વૉઇસ એઆઈ મોડેલ્સમાં ૨૦મા સ્થાને છે, જે ગૂગલ સહિત મોટી કંપનીઓની સિસ્ટમ્સ કરતાં આગળ છે. તે ૨૦થી વધુ ભાવનાઓને સપોર્ટ કરે છે, ઝીરો-શૉટ વૉઇસ ક્લોનિંગ સક્ષમ બનાવે છે અને એક જ જીપીયુ પર ૧૦૦ મિલિસેકન્ડથી ઓછી વિલંબતા સાથે કાર્ય કરે છે.

આ મોડેલ ફ્રી ક્લાઉડ કમ્પ્યુટિંગ ક્રેડિટ્સનો ઉપયોગ કરીને તાલીમ આપવામાં આવ્યું છે અને અપાચે ૨.૦ લાઇસન્સ હેઠળ રિલીઝ કરવામાં આવ્યું છે. તે ત્રણ અબજ પેરામીટર્સ સાથે બનાવવામાં આવ્યું છે. તે લેખિત પ્રોમ્પ્ટ્સમાંથી કુદરતી, ભાવનાત્મક અભિવ્યક્ત વૉઇસ ઉત્પન્ન કરી શકે છે, જે ઇલેવનલેબ્સ અને ઓપનએઆઈ જેવી માલિકીવાળી સિસ્ટમ્સ સાથે સ્પર્ધા કરતી રીઅલ-ટાઇમ સ્પીચ જનરેશન ક્ષમતા ધરાવે છે.

માયા૧ની ડિઝાઇન વપરાશકર્તાઓને તેમની ઇચ્છિત વૉઇસનું વર્ણન કરવાની મંજૂરી આપે છે – જેમ કે “૪૦ વર્ષીય મહિલા, ગરમ સ્વર, ધીમી ગતિ” – અને સિસ્ટમ તેને તુરંત ઉત્પન્ન કરે છે. મોડેલની કાર્યક્ષમતા ન્યુરલ ઑડિયો કોડેક SNACના ઉપયોગથી આવે છે, જે ધ્વનિને નાના ડેટા ટોકન્સમાં સંકુચિત કરે છે જે ૨૪ કિલોહર્ટ્ઝ ઑડિયોમાં પુનઃનિર્માણ કરવામાં આવે છે.

મોટા ભાગની વ્યાપારી ટેક્સ્ટ-ટુ-સ્પીચ મોડેલ્સ પૂર્વ-રેકોર્ડેડ વૉઇસ પર આધારિત હોય છે, તેનાથી વિપરીત માયા૧ ગતિશીલ રીતે નવી વૉઇસ બનાવે છે અને રીઅલ ટાઇમમાં પ્રતિસાદ આપે છે. તે ટેક્સ્ટમાં સીધા જ ભાવના ટૅગ્સ જેમ કે <happy>, <sad> અથવા <excited>ને અર્થઘટન કરીને અનુરૂપ વૉકલ અભિવ્યક્તિઓ ઉત્પન્ન કરે છે, પ્રતીકાત્મક સંકેતોને બદલે.

અંગ્રેજી સ્પીચ કોર્પસ પર તાલીમ આપવામાં આવી છે જેમાં મોટા પાયે ઑનલાઇન ડેટા અને સ્ટુડિયો-ગુણવત્તાવાળા રેકોર્ડિંગ્સનો સમાવેશ થાય છે. માયા૧ની ફાઇન-ટ્યુનિંગમાં માનવ-લેબલવાળી ભાવનાત્મક અને સ્વરીય વેરિએશન્સનો સમાવેશ થયો છે. તેના વિકાસકર્તાઓ જણાવે છે કે મોડેલ vLLM ફ્રેમવર્ક સાથેના એકીકરણ દ્વારા રીઅલ-ટાઇમ આઉટપુટ હાંસલ કરે છે, જે કાર્યક્ષમ અનુમાન માટેનું ફ્રેમવર્ક છે, જે ડિજિટલ આસિસ્ટન્ટ્સ અને વાર્તા કહેવાના સાધનો જેવા એપ્લિકેશન્સ માટે નજીકના તાત્કાલિક પ્રતિસાદો સક્ષમ કરે છે.

આ મોડેલ હગિંગ ફેસ પર “maya-research/maya1” હેઠળ જાહેરમાં ઉપલબ્ધ છે અને માયા રિસર્ચની સત્તાવાર વેબસાઇટ mayaresearch.ai દ્વારા સીધું જ પરીક્ષણ કરી શકાય છે.

Comments

Related